後台聊天管理系統 — 6 天 77 個 session 的人機協作全紀錄
2026-03-14 ~ 2026-03-19
聊天管理後台系統 — 供管理人員即時監控聊天訊息、管理玩家黑名單、審核暱稱變更、發送系統廣播訊息,以及追蹤所有管理操作紀錄。
從原始 session 資料計算出的次級指標 — 模型分布、時段熱力圖、並行協作曲線、各 Phase 投入量。
每日 × 每 3 小時時段的 session 數量(深色 = 高活躍度)
每個 3 小時時段中,同時進行中的 session 數量(跨越該時段的 session 計入)
各 Phase 的 total tokens 加總(依 topicMap 分類)
從需求拆解到產品收斂,60+ 個 session 的完整協作紀錄。
design-draft.md 中的 6 個功能模組拆分成獨立的
module-*.md 檔案
claude-plan.md
skill-creator 建立 project-level skillphase0-init-tasks.md 的初始化任務/generate-docs,輸入素材:response-and-error.md、module-authentication.md、testing-strategy.md
tasks_01-auth-and-response.md,要求在文件中新增 progress 追蹤
systematic-debugging skill 除錯
deleted_at 軟刪除 vs
is_blocked boolean)
writing-plans skill 建立實作計畫ant-menu border-inline-end,調整主題切換 transition duration
project_tech_stackexecuting-plans skill 開始執行/compactexcalidraw-diagram-skill 產出系統架構圖從 60+ 個對話 session 中提煉的協作模式與深度觀察。
花了兩天「只研究不動手」,甚至在研究期間就設計了可重用的
/generate-docs skill。這讓爆發期的產出密度異常高 — 一天完成 6
個模組不是因為趕工,是因為前置準備做足了。
3/17 是 builder:一路往前衝,Phase 接著 Phase。3/18 轉變為 auditor:對照 assignment 需求(兩次)、檢查 Gherkin/DB 一致性、審查 PRD/RFC、請 Claude 以架構師角度評分。
大量
[Request interrupted by user]。看到方向不對立刻打斷,看到產出品質不夠立刻調整。全程主動監督 AI
的產出,不是把它當黑盒子。
Playwright 找不到元件 → 設計完整的 data-testid 命名規範。搜尋行為不一致 → 設計 Phase 9 統一所有頁面。不修症狀修根因,不加 patch 而是建規則。
前期:探索式(「plugin 跟 skill 的差別?」)→ 中期:流程化(固定 workflow)→ 後期:彈性判斷(選擇性地使用不同 skill,質疑建議)。一個完整的工具掌握曲線。
顏色經歷:莫蘭迪 → 「接近莫蘭迪但接近正色」→ 「再深一點」。transition、header 灰度、selector 寬度反覆調整。設計品味始終握在自己手上,AI 是執行工具。
context overflow 頻繁發生,應對策略是讓 task 文件本身承載狀態(而不是依賴對話記憶)。這也解釋了堅持「文件驅動」的原因 — 文件是跨 session 的持久記憶,對話不是。
不只是「用 AI 寫了一個專案」。在測試「文件驅動 + AI 協作」是否可行,把協作流程本身也當作產品在迭代,最後做了自我評審形成完整 PDCA 循環。
每個 Phase 的固定執行模式
7+ 種 skill 靈活搭配使用
| Phase | 模組 | 狀態 |
|---|---|---|
| 0 | 專案初始化 | 完成 |
| 1 | 認證與回應格式 | 完成 |
| 2 | 操作紀錄 | 完成 |
| 3 | 聊天室與聊天 | 完成 |
| 4 | 黑名單與 IP 封鎖 | 完成 |
| 5 | 暱稱審核與檢舉 | 完成 |
| 6 | 廣播訊息 | 完成 |
| 7 | Design System | 完成 |
| 8 | E2E 測試與 Demo 影片 | 完成 |
| 9 | UI 統一行為優化 | 完成 |
| 10 | 系統設定(環境變數) | 完成 |
| 11 | 測試實踐 + data-testId | 完成 |
| 12 | Production 模式 | 完成 |
| — | 使用者管理頁面 | 完成 |
| — | NicknameReview 重構 | 完成 |
| — | 架構圖 & 資料庫設計圖 | 完成 |
以下評分與建議皆由 AI 基於 77 個對話 session 的完整紀錄分析產出,非人工自評。
AI GENERATED SCORE
「方法論先行」的人第一次跟 AI 深度協作的紀錄,完成度和思考深度都遠超預期。
兩天純研究再動手,文件架構(PRD→RFC→Gherkin→Tasks)設計完整
雙重 assignment 對照、Gherkin/DB 一致性檢查、架構師評分
自建 /generate-docs skill、熟練運用 7+ 種 skill
全程主動監督,不盲從建議,美學判斷握在自己手上
每個 Phase 都先文件再 code,後期出現文件與實作不一致需校正
核心需求明確,但調色和架構圖各花 5+ 輪來回
大量 /compact 和 overflow,屬於被動應對而非主動規劃
40 小時 marathon 產出驚人,但這個節奏不可複製
基於協作紀錄分析,把已經在做的好事自動化、系統化的方向。
「依照合適的 commit 粒度先產生 commit plan 確認後再執行」這句話在 60+ session
中出現了至少 8 次。將它包裝成 /commit-phase skill(含自動讀取 git diff、按
doc→shared→server→client 分類),每次 Phase 結束一鍵完成。
/check-consistency(Gherkin vs DB、Feature vs
實作)、/start-phase(讀 task 文件、載入 RFC、設定 progress tracking)
25 個 session 中多次出現 context overflow 和 /compact。改為主動規劃:一個
session 對應一個交付物,結束前要求產出 handoff summary 存到文件,下一個 session
開頭直接讀取。
Design System 調色和 Excalidraw 架構圖各花了 5+ 輪來回。改為:先提供具體參考(hex 色碼範圍、參考圖),先要求只做一個模組的示意確認風格,再展開全圖。
當給出看似反直覺的決策時,附上原因能讓 Claude 在後續類似情境自行判斷。例如:「BlacklistPage useEffect 不要改 — 因為我們的設計原則是所有搜尋都手動觸發」。
在 task 文件中加入驗證步驟(「完成後執行 npm test 確認無錯誤」),建立「失敗後的 SOP」寫入 CLAUDE.md:先讀取錯誤訊息 → 檢查相關檔案 → 嘗試修復 → 再跑一次 → 仍失敗才回報。
40 小時 marathon 產出驚人,但不可複製。設定每 2-3 小時 checkpoint commit,區分需要判斷的任務(Design System 調色)和可委託的任務(CRUD 開發),後者用 background agent。
77 個 session 的完整明細。
| Session | Start (UTC+8) | End (UTC+8) | Model | User | Asst | Topic | Output | Cache Create | Cache Read | Total |
|---|