Deep Dive: Prompt ensembling
Tổng quan Reliability
Nếu một prompt đơn lẻ không đủ ổn định, ensemble nhiều prompt là cách tăng độ tin cậy bằng redundancy. Đây là reliability bằng thống kê, không phải bằng lời hứa.
Prompt ensembling là họ kỹ thuật gắn kết nhiều prompt variants, nhiều reasoning paths hoặc nhiều grader để giảm rủi ro của một prompt duy nhất. Trong taxonomy mới, self-consistency chỉ là một biến thể đặc biệt của họ này.
Cách nghĩ đúng là: một prompt tốt có thể chưa đủ; một ensemble đủ đa dạng thường ổn định hơn một prompt “thần kỳ”.
| Chiến lược | Ý nghĩa | Tác dụng |
|---|---|---|
| Bagging | Nhiều prompt/paths cùng vote | Giảm variance |
| Boosting | Prompt sau sửa lỗi của prompt trước | Giảm bias cục bộ |
| Weighted vote | Kết quả có trọng số | Khai thác confidence |
Cơ chế Mechanics
Trong thực tế, ensemble thường gồm các prompt variants có khác biệt nhỏ nhưng có chủ ý: khác role, khác ordering, khác example selection, hoặc khác evaluator. Sau đó ta dùng majority vote, weighted vote hoặc verifier để hợp nhất.
Khi task khó nhưng label/answer space ổn định, ensembling rất hiệu quả. Khi output là free-form, ensemble vẫn hữu ích nhưng aggregator phải thông minh hơn string vote.
Prompt ensembling chạy nhiều prompt variants rồi tổng hợp.
flowchart LR Q[Question] --> P1[Prompt A] Q --> P2[Prompt B] Q --> P3[Prompt C] P1 --> A[Aggregator] P2 --> A P3 --> A A --> F[Final answer]
Khi dùng Fit
Prompt ensembling hợp với high-stakes classification, extraction, routing, answer selection và các workflow mà xác suất lỗi của một prompt đơn lẻ không thể chấp nhận được.
Nó cũng hữu ích trong evaluation: nhiều prompt khác nhau cho ta một bức tranh tốt hơn về prompt brittleness.
Ưu điểm
- Giảm variance và tăng ổn định
- Có thể kết hợp vote/verify/weighting
- Tốt cho các workflow rủi ro cao
Nhược điểm
- Chi phí tăng tuyến tính theo số prompt
- Cần aggregator tốt
- Các prompt có thể fail cùng một kiểu
Failure modes Risk
Rủi ro của ensemble
- Các prompt share cùng một bias nên vote không cứu được.
- Aggregator tối ưu nhầm metric cục bộ.
- Tăng chi phí mà gain không đáng kể.
- Đa dạng prompt không đủ lớn để tạo khác biệt thực sự.
So sánh Compare
| Technique | Khác biệt | Chọn khi |
|---|---|---|
| Self-consistency | Ensemble trên reasoning paths | Answer final ổn định hơn path |
| Prompt optimization | Tự cải thiện một prompt | Muốn giảm số prompt cần chạy |
| CRITIC/self-refine | Dựa vào critique loop | Muốn sửa lỗi bằng feedback có cấu trúc |