Appearance
📕 PHASE 3: ARCHITECT — "Thiết Kế Bộ Não Cho AI" (Week 9-12)
"The real challenge in building multi-agent systems isn't making each agent smart. It's making them work together without chaos."
— Andrew Ng, DeepLearning.AI, 2025
MODULE 9: SINGLE AGENT DESIGN DEEP DIVE (Week 9)
📰 Case Study Mở Đầu: "Shopify: Sidekick Agent Và Bài Học $200M Từ Việc 'Nghĩ Quá Đơn Giản'"
Viết theo phong cách Bloomberg
Ottawa, Canada, Q4/2025. Tobi Lütke, CEO Shopify, thừa nhận trên podcast "Lenny's Podcast": Phiên bản đầu của Shopify Sidekick — AI Agent hỗ trợ merchant — đã fail spectacular vì team đã "underestimate the complexity of a single agent doing multiple things."
Ban đầu, Sidekick được thiết kế như 1 super-agent: vừa trả lời hỏi đáp, vừa phân tích data, vừa gợi ý marketing strategy, vừa viết product description. Kết quả: nó làm mọi thứ ở mức trung bình, và merchants nhanh chóng bỏ dùng.
Bước đột phá đến khi team chia Sidekick thành nhiều "micro-agents", mỗi agent chuyên 1 việc:
- Analytics Agent: Chuyên phân tích doanh số
- Copy Agent: Chuyên viết mô tả sản phẩm
- Marketing Agent: Chuyên suggest chiến dịch
- Support Agent: Chuyên hướng dẫn setup store
Một agent điều phối (Orchestrator) quyết định route user request đến đúng micro-agent.
"The key insight," Lütke nói, "was that a well-designed single-purpose agent beats a poorly-designed multi-purpose agent every time."
Bài học: Trước khi nghĩ đến multi-agent, phải master single agent design. Mỗi agent phải cực kỳ giỏi 1 việc.
📚 Nội Dung Bài Giảng
Bài 9.1: Single Agent Design Pattern
Thời lượng: 60 phút
- 3 Agent Archetypes:
| Archetype | Mô tả | Ví dụ | Complexity |
|---|---|---|---|
| Reactive | Nhận input → output ngay | FAQ chatbot, classifier | Thấp |
| Deliberative | Suy nghĩ nhiều bước trước khi output | Analyst, planner | Trung bình |
| Autonomous | Tự đặt sub-goals, tự thực thi | PM Agent, Growth Agent | Cao |
- Agent State Machine:
┌──────────┐
│ IDLE │
└────┬─────┘
│ Receive Input
┌────▼─────┐
┌─────│ THINKING │─────┐
│ └────┬─────┘ │
│ │ │
Need Tool Have Answer Uncertain
│ │ │
┌────▼────┐ ┌───▼────┐ ┌───▼──────┐
│ ACTING │ │ OUTPUT │ │ ESCALATE │
│(use tool)│ │ │ │(to human)│
└────┬────┘ └───┬────┘ └──────────┘
│ │
└──────────┘
Return to THINKING- BA thiết kế State Machine:
- Mỗi state → có tiêu chí rõ ràng để chuyển state
- Mỗi transition → có condition + action
- Mỗi dead-end → có fallback behavior
Bài 9.2: Agent Planning — Khi Agent Tự Lên Kế Hoạch
Thời lượng: 60 phút
Task Decomposition:
- Input: "Phân tích doanh thu Q4 và đề xuất chiến lược Q1"
- Agent tự decompose:
- Query data từ Revenue DB
- Analyze trends (YoY, MoM)
- Identify top/bottom performers
- Cross-reference with market data
- Generate recommendations
- Format report
BA thiết kế Planning Rules:
- Max steps cho 1 task: Giới hạn để tránh infinite loop
- Resource limits: Mỗi step được gọi bao nhiêu API calls?
- Timeout: Bao lâu thì phải output dù chưa hoàn thành?
- Quality gate: Ở step nào cần human check trước khi tiếp?
Bài 9.3: Error Handling & Recovery
Thời lượng: 45 phút
Error Handling Matrix:
| Error Type | Example | Agent Response | BA Design |
|---|---|---|---|
| Tool failure | API timeout | Retry 3x, then fallback | Retry policy + fallback logic |
| Ambiguous input | "Fix this" | Hỏi lại clarification | Clarification templates |
| Confidence low | Not sure about answer | Escalate to human | Confidence threshold |
| Conflicting data | 2 sources say different things | Report both, ask human | Source priority rules |
| Rate limit | Too many requests | Queue + notify user | Rate limit design |
| Hallucination detected | Self-check finds inconsistency | Discard, retry with different prompt | Self-check rules |
Bài 9.4: Agent Performance Optimization
Thời lượng: 45 phút
Performance Dashboard Template:
| Metric | Current | Target | Status |
|---|---|---|---|
| Task completion rate | 87% | 95% | 🟡 |
| Avg. response time | 4.2s | < 3s | 🔴 |
| Hallucination rate | 3.1% | < 2% | 🟡 |
| User satisfaction (CSAT) | 4.1/5 | 4.5/5 | 🟡 |
| Escalation rate | 28% | 15-25% | 🟡 |
| Cost per interaction | $0.12 | < $0.10 | 🟡 |
🎮 QUIZ & GAME — Week 9
Quiz (20đ): Agent archetypes, state machine design, error handling
Game: "Agent Debugger" (15đ):
- Nhận 1 agent design có 10 lỗi thiết kế ẩn
- Tìm và fix càng nhiều lỗi càng tốt trong 60 phút
- Mỗi lỗi tìm được + fix hợp lý = +1.5 điểm
MODULE 10: MULTI-AGENT ORCHESTRATION (Week 10)
📰 Case Study Mở Đầu: "Khi McKinsey Thay 30 Consultant Bằng 6 AI Agents"
Viết theo phong cách The Economist
Tháng 11/2025. Một dự án nội bộ tại McKinsey & Company — được gọi là "Project Lumen" — đã tạo ra chấn động trong giới tư vấn chiến lược. Thay vì assign 30 consultants junior cho một due diligence engagement, McKinsey triển khai 6 AI Agents phối hợp:
- Research Agent: Thu thập và tổng hợp industry data
- Financial Agent: Phân tích financial statements, build models
- Risk Agent: Đánh giá regulatory, market, operational risks
- Strategy Agent: Tổng hợp insights và đề xuất strategy
- QA Agent: Kiểm tra chéo output của 4 agents trên
- Report Agent: Biên soạn final report theo McKinsey format
Kết quả: Due diligence package — trước đây mất 6-8 tuần với 30 người — hoàn thành trong 4 ngày với 3 senior partners review.
Nhưng câu chuyện behind-the-scenes mới thú vị: 3 lần đầu thử nghiệm, hệ thống cho kết quả sai hoàn toàn vì agents mâu thuẫn nhau. Research Agent cung cấp data mà Financial Agent interpret sai. Risk Agent flag issues mà Strategy Agent ignore.
"Thiết kế mỗi agent hoàn hảo chưa đủ," Lead Partner dự án chia sẻ. "Thiết kế cách chúng giao tiếp, giải quyết mâu thuẫn, và escalate — đó mới là bài toán thực sự."
Và người giải bài toán đó? Không phải ML engineers. Là Business Architects — những người hiểu workflow, authority, và decision rights.
📚 Nội Dung Bài Giảng
Bài 10.1: Multi-Agent Orchestration Patterns
Thời lượng: 90 phút (Bài giảng quan trọng nhất khóa học)
Pattern 1: Centralized Controller
┌──────────────┐
│ ORCHESTRATOR │
│ AGENT │
└──────┬───────┘
│
┌────────────┼────────────┐
│ │ │
┌────▼───┐ ┌────▼───┐ ┌────▼───┐
│Agent A │ │Agent B │ │Agent C │
│(Research)│ │(Analyze)│ │(Report)│
└────────┘ └────────┘ └────────┘- Ưu: Kiểm soát rõ ràng, dễ debug
- Nhược: Bottleneck ở orchestrator, single point of failure
- Dùng khi: Task có quy trình rõ ràng, tuần tự
Pattern 2: Hierarchical Agent Tree
┌──────────────┐
│ MANAGER │
│ AGENT │
└──────┬───────┘
│
┌────────────┼────────────┐
│ │
┌────▼───────┐ ┌────▼───────┐
│ TEAM LEAD │ │ TEAM LEAD │
│ Agent A │ │ Agent B │
└─────┬──────┘ └─────┬──────┘
│ │
┌────┼────┐ ┌────┼────┐
│ │ │ │
┌───▼──┐ ┌───▼──┐ ┌───▼──┐ ┌───▼──┐
│Worker│ │Worker│ │Worker│ │Worker│
│ 1 │ │ 2 │ │ 3 │ │ 4 │
└──────┘ └──────┘ └──────┘ └──────┘- Ưu: Scalable, modular, giống tổ chức doanh nghiệp thực
- Nhược: Phức tạp, latency cao
- Dùng khi: Hệ thống lớn, nhiều domain khác nhau
Pattern 3: Negotiation-Based Agents
┌────────┐ negotiate ┌────────┐
│Agent A │◄──────────────────►│Agent B │
│(Sales) │ │(Finance)│
└────┬───┘ └────┬───┘
│ negotiate │
└────────────┬────────────────┘
│
┌────▼───┐
│Agent C │
│(Legal) │
└────────┘- Ưu: Flexible, tìm được giải pháp tối ưu cân bằng nhiều mục tiêu
- Nhược: Khó predict, có thể deadlock
- Dùng khi: Quyết định cần cân bằng nhiều stakeholder interests
Pattern 4: Event-Driven Agents
┌─────────────────────────────────────────┐
│ EVENT BUS │
└─────┬──────────┬──────────┬─────────────┘
│ │ │
┌────▼───┐ ┌───▼────┐ ┌──▼─────┐
│Agent A │ │Agent B │ │Agent C │
│ Listen:│ │ Listen:│ │ Listen:│
│"order" │ │"payment"││"ship" │
└────────┘ └────────┘ └────────┘- Ưu: Loosely coupled, dễ thêm agent mới
- Nhược: Khó trace flow, debugging complex
- Dùng khi: Hệ thống real-time, reactive, microservice architecture
Bài 10.2: Orchestration Design — The BA's Core Skill
Thời lượng: 60 phút
Orchestration Design Document Template:
markdown
# Multi-Agent System: [Tên hệ thống]
## Version: 1.0
## Pattern: [Centralized / Hierarchical / Negotiation / Event-driven / Hybrid]
### 1. Agent Registry
| ID | Agent Name | Role | Priority | Dependencies |
|----|-----------|------|----------|-------------|
| A01 | Research Agent | Data collection | High | None |
| A02 | Analysis Agent | Data analysis | High | A01 |
| A03 | QA Agent | Quality check | Medium | A02 |
| A04 | Report Agent | Output generation | Low | A03 |
### 2. Communication Protocol
- Message Format: JSON with fields: {from, to, type, payload, timestamp, priority}
- Async vs Sync: [Define per interaction]
- Timeout: [Per agent pair]
- Retry Policy: [Define]
### 3. Workflow Definition
Step 1: Orchestrator receives task
Step 2: Decompose into sub-tasks
Step 3: Assign to agents based on capability
Step 4: Agents execute in parallel/sequence
Step 5: QA Agent validates outputs
Step 6: Orchestrator compiles final output
### 4. Escalation Rules
| Trigger | From | To | Time Limit |
|---------|------|----|-----------|
| Confidence < 60% | Any Agent | Orchestrator | Immediate |
| Conflict between agents | Conflicting Agents | Manager Agent | 30 seconds |
| Task timeout | Any Agent | Orchestrator | Per-task defined |
| 3 consecutive errors | Any Agent | Human Operator | Immediate |
### 5. Conflict Resolution
Priority order: Legal > Compliance > Financial > Customer > Efficiency
If same priority: Manager Agent decides
If Manager Agent uncertain: Escalate to Human
### 6. Performance SLA
| Metric | Target |
|--------|--------|
| End-to-end latency | < 30 seconds |
| Accuracy | > 95% |
| Agent disagreement rate | < 10% |
| Human escalation rate | < 15% |Bài 10.3: Agent Communication Design
Thời lượng: 45 phút
- Message Types:
| Type | Purpose | Example |
|---|---|---|
| REQUEST | Yêu cầu agent khác làm gì | "Analyze this financial data" |
| RESPONSE | Trả kết quả | "Here's the analysis: {...}" |
| INFORM | Chia sẻ thông tin, không cần action | "FYI: New regulation effective March 1" |
| QUERY | Hỏi thông tin | "What's the current inventory level?" |
| ESCALATE | Chuyển lên cấp trên | "Can't resolve — need human input" |
| NEGOTIATE | Đề xuất và điều chỉnh | "I suggest 10% discount. Can you approve?" |
- Shared Context:
- Mỗi task có 1 shared context object
- Agents đọc/ghi vào shared context
- BA thiết kế: Fields nào trong shared context? Ai có quyền write?
Bài 10.4: Real-World Multi-Agent Architectures
Thời lượng: 60 phút
Case: AI Product Squad (6 agents phối hợp)
┌─────────────────────────────────────────────────────────┐
│ AI PRODUCT SQUAD │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ PM Agent │→ │ BA Agent │→ │ Design │ │
│ │ "Define │ │ "Analyze │ │ Agent │ │
│ │ what to │ │ how to │ │ "Design │ │
│ │ build" │ │ build" │ │ the UX" │ │
│ └──────────┘ └──────────┘ └────┬─────┘ │
│ │ │
│ ┌────▼─────┐ │
│ │ Dev Agent │ │
│ │ "Build it"│ │
│ └────┬─────┘ │
│ │ │
│ ┌──────────┐ ┌────▼─────┐ │
│ │ Data │←────────────────│ QA Agent │ │
│ │ Agent │ │ "Test it" │ │
│ │ "Measure │ └──────────┘ │
│ │ it" │ │
│ └──────────┘ │
│ │
│ ORCHESTRATOR: Sprint Planning Agent │
│ ESCALATION: Product Owner (Human) │
└─────────────────────────────────────────────────────────┘Câu hỏi BA phải trả lời cho mỗi agent:
- Input/output format giữa mỗi cặp agent?
- Khi PM Agent và BA Agent disagree → ai wins?
- QA Agent phát hiện bug → flow như thế nào?
- Data Agent cho thấy feature fail → PM Agent có tự quyết kill feature không?
- Timeline: mỗi agent có bao lâu để hoàn thành?
🎮 QUIZ & GAME — Week 10
Quiz (20đ): Orchestration patterns, communication design, conflict resolution
Game: "Orchestration Simulator" (15đ):
- Mỗi nhóm 6 người, mỗi người đóng vai 1 agent
- Nhận 1 business task phức tạp
- Phải "xử lý task" bằng cách trao đổi messages theo protocol đã thiết kế
- Moderator inject failures (agent timeout, conflicting data, ambiguous request)
- Nhóm hoàn thành task đúng, nhanh, ít escalation nhất = thắng
Trải nghiệm thực tế: Cảm nhận pain khi orchestration kém → appreciate design tốt
MODULE 11: GUARDRAILS & EVALUATION (Week 11)
📰 Case Study Mở Đầu: "Air Canada: Khi Chatbot Hứa Nhầm, Công Ty Phải Trả $800"
Viết theo phong cách Reuters/BBC
Vancouver, Tháng 2/2024. Một phán quyết pháp lý nhỏ tạo ra shockwave lớn: Tòa án British Columbia ra phán quyết Air Canada phải bồi thường khách hàng Jake Moffatt $812.02 vì chatbot AI của hãng đã cung cấp sai thông tin về chính sách hoàn tiền vé.
Chatbot nói Moffatt có thể đặt vé full-price, sau đó apply retroactively cho bereavement fare trong 90 ngày. Thực tế, chính sách Air Canada không cho phép điều này.
Air Canada argue: "Chatbot là một separate legal entity." Tòa reject: "You are responsible for the information your tools provide."
Phán quyết này thay đổi mọi thứ. Mỗi AI Agent output giờ đây là trách nhiệm pháp lý của doanh nghiệp.
Bài học: Guardrails không phải "nice-to-have." Đây là legal requirement và BA phải thiết kế chúng TRƯỚC KHI agent go live.
📚 Nội Dung Bài Giảng
Bài 11.1: Guardrail Architecture
Thời lượng: 60 phút
User Input → [Input Guardrail] → Agent Processing → [Output Guardrail] → User Output
│ │
▼ ▼
- Content filter - Fact checking
- Prompt injection detect - Policy compliance
- PII detection - Tone/brand check
- Intent classification - Confidence threshold4 Layers of Guardrails:
| Layer | Kiểm tra gì | Khi nào | Tools |
|---|---|---|---|
| Input | Prompt injection, PII, harmful content | Trước khi agent xử lý | NeMo Guardrails, custom regex |
| Reasoning | Logic consistency, boundary violation | Trong khi agent suy nghĩ | Chain-of-thought audit |
| Output | Fact accuracy, policy compliance, tone | Trước khi gửi user | Second LLM review, rule-based |
| System | Rate limits, cost caps, access control | Luôn luôn | Infrastructure level |
Bài 11.2: Output Validation Framework
Thời lượng: 45 phút
Validation Pipeline:
python
# Pseudocode — BA thiết kế logic, developer implement
def validate_output(agent_output):
# 1. Fact Check
if contains_factual_claim(agent_output):
verify_against_knowledge_base(agent_output)
# 2. Policy Check
if violates_company_policy(agent_output):
reject_and_regenerate()
# 3. Tone Check
if sentiment_score < brand_threshold:
adjust_tone(agent_output)
# 4. Confidence Check
if agent_confidence < 0.7:
add_disclaimer("This information may need verification")
# 5. PII Check
if contains_pii(agent_output):
redact_pii(agent_output)
return validated_outputBài 11.3: Bias Detection & Mitigation
Thời lượng: 45 phút
Types of AI Bias BA cần biết:
- Selection bias: Training data không đại diện
- Confirmation bias: Agent ưu tiên info confirm existing belief
- Recency bias: Gán weight quá lớn cho data gần nhất
- Anchoring bias: Output bị ảnh hưởng bởi thông tin đầu tiên trong prompt
Bias Audit Framework:
| Dimension | Kiểm tra | Method | Frequency |
|---|---|---|---|
| Gender | Output khác nhau theo giới tính? | A/B test with gendered inputs | Monthly |
| Age | Ưu tiên nhóm tuổi nào? | Statistical analysis | Monthly |
| Region | Bias city vs rural? | Cross-region comparison | Quarterly |
| Language | Chất lượng khác nhau theo ngôn ngữ? | Multi-language test set | Monthly |
Bài 11.4: Evaluation Framework — Đánh Giá Agent Tổng Thể
Thời lượng: 60 phút
RACE Evaluation Framework (do khóa học đề xuất):
| Dimension | Metric | Cách đo | Target |
|---|---|---|---|
| Reliability | Uptime, consistency, error rate | Production monitoring | > 99.5% |
| Accuracy | Factual correctness, reasoning quality | Human evaluation + auto tests | > 95% |
| Compliance | Policy adherence, legal safety | Compliance audit | 100% |
| Efficiency | Speed, cost, resource usage | System metrics | Beat human baseline |
Evaluation Cadence:
| Type | Frequency | Who | Output |
|---|---|---|---|
| Automated tests | Every deployment | CI/CD pipeline | Pass/Fail report |
| Spot checks | Daily | Operations team | Exception report |
| Deep evaluation | Weekly | BA + QA | Performance dashboard |
| Full audit | Monthly | BA + Compliance + Legal | Audit report |
| User feedback analysis | Ongoing | Product team | Improvement backlog |
🎮 QUIZ & GAME — Week 11
Quiz (20đ): Guardrail layers, bias types, RACE framework
Game: "Red Team Challenge" (15đ):
- Nhóm A design guardrails cho 1 AI Agent
- Nhóm B cố "break" agent (prompt injection, boundary violation, bias triggering)
- Mỗi breach thành công: +2đ cho Red Team, -1đ cho Blue Team
- Blue Team fix mỗi breach: +1đ recovery
- Swap roles sau 30 phút
MODULE 12: HUMAN-AI COLLABORATION DESIGN (Week 12)
📰 Case Study Mở Đầu: "Google DeepMind x NHS: Human-in-the-Loop Cứu 10,000 Mạng"
Viết theo phong cách The Lancet/Nature
London, 2025. Khi Google DeepMind triển khai AI system phát hiện bệnh thận cấp (Acute Kidney Injury) tại NHS hospitals, phiên bản đầu tiên cho kết quả controversial: accuracy 90% — nghe tốt, nhưng với 10% false positive, bác sĩ bị alert fatigue và bắt đầu ignore cả alerts thật.
Giải pháp không phải tăng accuracy (gần bất khả thi ở thời điểm đó). Giải pháp là redesign cách AI và bác sĩ phối hợp:
- AI không alert trực tiếp bác sĩ. Alert đến nurse coordinator trước.
- Nurse coordinator review context → chỉ escalate alert có clinical significance
- Bác sĩ nhận pre-filtered alerts với AI confidence score + nurse assessment
Kết quả: False positive giảm 70%. Nhưng quan trọng hơn — bác sĩ tin tưởng hệ thống và phản ứng nhanh hơn.
Bài học: AI mạnh nhất khi được thiết kế để phối hợp với người, không thay thế người.
📚 Nội Dung Bài Giảng
Bài 12.1: Human-in-the-Loop (HITL) Design Patterns
Thời lượng: 60 phút
- 5 HITL Patterns:
| Pattern | Mô tả | Ví dụ | Cost | Safety |
|---|---|---|---|---|
| Full Automation | AI quyết định 100% | Spam filter | ⭐ | ⭐⭐ |
| Human Approval | AI đề xuất, người duyệt | Loan approval > 1B VND | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Human Override | AI auto, người can thiệp khi cần | Self-driving car | ⭐⭐ | ⭐⭐⭐⭐ |
| AI Copilot | AI suggest, người quyết | Doctor diagnosis support | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Human Training | Người feedback, AI học | Content moderation | ⭐⭐⭐⭐ | ⭐⭐⭐ |
- BA Decision: Chọn Pattern Nào?
IF (risk of error > $10K) AND (reversibility = low)
→ Human Approval
IF (volume > 1000/day) AND (risk < $1K per error)
→ Full Automation with Human Override
IF (domain expertise required) AND (AI accuracy < 95%)
→ AI Copilot
IF (edge cases > 20% of volume)
→ Human Training loopBài 12.2: Trust Calibration — Không Quá Tin, Không Quá Nghi
Thời lượng: 45 phút
- Automation Bias: Người tin AI quá mức → bỏ qua lỗi rõ ràng
- Algorithm Aversion: Người không tin AI → không dùng dù AI đúng
- BA thiết kế Trust Calibration:
- Show confidence score: User biết AI chắc chắn đến đâu
- Explain reasoning: AI giải thích tại sao đề xuất X
- Easy override: User có thể reject AI dễ dàng
- Feedback loop: User feedback → AI improve → User trust tăng
Bài 12.3: Change Management cho AI Agent
Thời lượng: 45 phút
- Stakeholder Readiness Assessment:
| Stakeholder | Attitude | Concern | Mitigation |
|---|---|---|---|
| End users | Worried about job loss | "AI sẽ thay tôi?" | Training + "AI assists you, doesn't replace you" |
| Managers | Cautious optimism | "Ai chịu trách nhiệm khi AI sai?" | Clear accountability matrix |
| Legal/Compliance | Conservative | "Quy định chưa rõ" | Phased rollout + legal review |
| C-suite | Excited | "ROI bao nhiêu? Bao giờ có?" | Realistic timeline + KPIs |
- Rollout Strategy:
- Phase 1 (Month 1-2): Shadow mode — AI chạy nhưng không output
- Phase 2 (Month 3-4): Copilot mode — AI suggest, human decides
- Phase 3 (Month 5-6): Assisted mode — AI decides simple, human decides complex
- Phase 4 (Month 7+): Autonomous mode — AI decides most, human oversees
Bài 12.4: AI Ethics & Responsibility
Thời lượng: 45 phút
- AI Ethics Framework cho BA:
- Transparency: User có biết đang tương tác với AI không?
- Fairness: AI có treat mọi user bình đẳng không?
- Privacy: Data user có được bảo vệ không?
- Accountability: Khi AI sai, ai chịu trách nhiệm?
- Consent: User có đồng ý cho AI xử lý data không?
🎮 QUIZ & GAME — Week 12
Quiz (20đ): HITL patterns, trust calibration, change management
Game: "The AI Ethics Tribunal" (15đ):
- Mỗi nhóm nhận 1 ethical dilemma thực (VD: AI hiring tool biased against women)
- Phải trình bày: Root cause analysis + Mitigation plan + Policy recommendation
- "Tribunal" (các nhóm khác) vote: Acceptable / Needs Improvement / Unacceptable
🏆 MILESTONE 3: Multi-Agent Architecture Blueprint (60 điểm)
Yêu cầu:
Dựa trên project từ Milestone 1 & 2, thiết kế hệ thống multi-agent hoàn chỉnh:
| Deliverable | Điểm | Tiêu chí |
|---|---|---|
| Agent Registry (≥ 3 agents) | 10 | Complete profiles + tool authorization |
| Orchestration Design | 15 | Pattern chosen + justified, workflow defined |
| Communication Protocol | 10 | Message types, conflict resolution, escalation |
| Guardrail Architecture | 10 | 4-layer guardrails + validation pipeline |
| HITL Design | 10 | Pattern chosen, trust calibration, rollout plan |
| Evaluation Framework | 5 | RACE metrics + cadence defined |