Chi tiết hơn về bảo vệ an ninh mạng của Fable 5 và khung bẻ khóa của chúng tôi
Anthropic vừa công bố chi tiết về các biện pháp bảo vệ an ninh mạng tích hợp trong Fable 5, đặc biệt là các bộ phân loại an toàn (safety classifiers). Bài viết cũng giới thiệu bản dự thảo đầu tiên về khung đánh giá mức độ nghiêm trọng của jailbreak, một nỗ lực nhằm chuẩn hóa cách ngành công nghiệp AI thảo luận và xử lý các rủi ro bảo mật.
4 giờ trước
