Dạy Claude hiểu lý do: Nghiên cứu mới về giảm thiểu sai lệch hành vi tác nhân
Anthropic công bố nghiên cứu đột phá về cách dạy Claude hiểu 'tại sao' đằng sau các hành động của mình, không chỉ là 'cái gì'. Phương pháp này tập trung vào việc huấn luyện mô hình suy luận về các giá trị, giúp giảm đáng kể sai lệch hành vi tác nhân (agentic misalignment) và là bước tiến quan trọng trong việc đảm bảo an toàn AI.
4 giờ trước
