14 tháng 4, 2026: Các nhà nghiên cứu căn chỉnh tự động: Sử dụng mô hình ngôn ngữ lớn để mở rộng giám sát có thể mở rộng
Anthropic vừa công bố một nghiên cứu quan trọng về việc sử dụng chính các mô hình ngôn ngữ lớn (LLM) để đẩy nhanh nghiên cứu về an toàn AI. Bằng cách để Claude tự động khám phá các phương pháp "giám sát từ yếu đến mạnh", dự án này mở ra một hướng đi tiềm năng để đảm bảo chúng ta có thể kiểm soát các hệ thống AI trong tương lai, ngay cả khi chúng trở nên thông minh hơn con người.
2 giờ trước
