AI cơ bản

Reinforcement Learning from Human Feedback

Đây là cách dạy AI làm việc tốt hơn bằng cách cho nó thử nhiều cách, rồi người thật sẽ chấm điểm xem cách nào tốt, cách nào chưa. AI sẽ học từ những lời chấm điểm đó để lần sau làm đúng ý mình hơn.

Ví dụ

Để Claude viết văn hay hơn, người ta dùng RLHF: cho Claude viết nhiều bản nháp, rồi chọn bản nào hay nhất, dở nhất để nó học cách viết tốt hơn.

Còn gọi là

RLHFhọc tăng cường từ phản hồi con ngườiReinforcement Learning from Human Feedback

← Về từ điển