← Về từ điểnAI cơ bảnReinforcement Learning from Human Feedback
Đây là cách dạy AI làm việc tốt hơn bằng cách cho nó thử nhiều cách, rồi người thật sẽ chấm điểm xem cách nào tốt, cách nào chưa. AI sẽ học từ những lời chấm điểm đó để lần sau làm đúng ý mình hơn.
Ví dụĐể Claude viết văn hay hơn, người ta dùng RLHF: cho Claude viết nhiều bản nháp, rồi chọn bản nào hay nhất, dở nhất để nó học cách viết tốt hơn.
Còn gọi làRLHFhọc tăng cường từ phản hồi con ngườiReinforcement Learning from Human Feedback