Anthropic vừa công bố chi tiết về các biện pháp bảo vệ an ninh mạng tích hợp trong Fable 5, đặc biệt là các bộ phân loại an toàn (safety classifiers). Bài viết cũng giới thiệu bản dự thảo đầu tiên về khung đánh giá mức độ nghiêm trọng của jailbreak, một nỗ lực nhằm chuẩn hóa cách ngành công nghiệp AI thảo luận và xử lý các rủi ro bảo mật.
Bài viết được biên tập + bổ sung research từ nhiều nguồn. Đọc bài gốc tại Anthropic News →

Fable 5 sử dụng các hệ thống AI chuyên dụng gọi là "bộ phân loại an toàn" (safety classifiers) để bảo vệ. Các bộ phân loại này được thiết kế để phát hiện và chặn các hành vi sử dụng AI cho mục đích an ninh mạng nguy hiểm hoặc tiềm ẩn nguy hiểm, đồng thời cho phép các ứng dụng phòng thủ hợp pháp và lành tính.
Sau khi được tái triển khai trên toàn cầu, Anthropic đã chia sẻ thêm về các biện pháp bảo vệ này. Thách thức lớn nhất trong lĩnh vực an ninh mạng là tính "lưỡng dụng" (dual use). Nhiều khả năng có thể được dùng cho mục đích tốt hoặc xấu. Ví dụ, khả năng quét mã nguồn để tìm lỗ hổng có thể giúp các chuyên gia bảo mật, nhưng cũng có thể bị kẻ tấn công lợi dụng. Theo Anthropic News (2026), mục tiêu không phải là chặn tất cả hoạt động liên quan đến an ninh mạng, mà là phân biệt và ngăn chặn lạm dụng. So với các mô hình trước, Fable 5 cho thấy sự cải tiến đáng kể. Theo VnEconomy (2026), Fable 5 đạt kết quả cao hơn khoảng 5% so với Claude Opus 4.8, mô hình mạnh nhất trước đó.

Để giải quyết vấn đề này, Anthropic đã xây dựng một "vùng đệm an toàn" (safety margin). Vùng đệm này có thể chặn một số hành vi có vẻ lành tính nhưng lại gần với các hành vi nguy hiểm. Điều này được thực hiện một cách thận trọng để ngăn chặn các nỗ lực bẻ khóa tinh vi. Cách tiếp cận này giúp cân bằng giữa việc cho phép sử dụng hữu ích và ngăn ngừa lạm dụng tiềm tàng, đảm bảo Fable 5 là một công cụ mạnh mẽ nhưng vẫn an toàn.

Anthropic chia các hoạt động an ninh mạng thành bốn loại để quản lý rủi ro một cách chi tiết. Các loại này bao gồm: sử dụng bị cấm, sử dụng rủi ro cao có mục đích kép, sử dụng rủi ro thấp có mục đích kép, và sử dụng lành tính. Mỗi loại có một hành vi phân loại dự kiến, từ chặn hoàn toàn đến cho phép và giám sát.
Cách tiếp cận này cho phép hệ thống đưa ra phản ứng phù hợp với từng ngữ cảnh cụ thể. Theo Anthropic News (2026), đây là một chiến lược tinh vi hơn việc cấm hoàn toàn các chủ đề liên quan đến an ninh mạng. Cụ thể các loại được định nghĩa như sau:

Cách phân loại này đảm bảo rằng hầu hết người dùng không bị ảnh hưởng. Theo cybersafe.vnu.edu.vn (2026), hơn 95% các phiên làm việc của người dùng vẫn tận dụng toàn bộ năng lực của Fable 5. Chỉ một phần nhỏ các yêu cầu nhạy cảm mới kích hoạt các biện pháp bảo vệ nâng cao, cho thấy sự cân bằng hiệu quả giữa an toàn và hiệu năng.

Đây là một hệ thống được Anthropic đề xuất để phân loại mức độ nguy hiểm của các kỹ thuật "bẻ khóa" (jailbreak) AI. Jailbreak là những cách dùng câu lệnh (prompt) bất thường để lách qua hàng rào an toàn của mô hình. Khung này giúp tạo ra một ngôn ngữ chung để mô tả rủi ro, từ các hành vi không mong muốn nhỏ đến các lỗ hổng nghiêm trọng.
Các kỹ thuật jailbreak có mức độ nghiêm trọng khác nhau. Một số chỉ có thể khiến mô hình tạo ra các nội dung hơi không phù hợp. Một số khác lại có thể mở khóa hàng loạt hành vi nguy hiểm, làm tăng đáng kể rủi ro của mô hình. Tuy nhiên, hiện chưa có một tiêu chuẩn chung nào để mô tả mức độ nghiêm trọng này. Theo Anthropic News (2026), việc xây dựng một khung đánh giá chung là rất cần thiết. Khung này sẽ giúp các nhà phát triển AI, chính phủ và cộng đồng có thể trao đổi một cách nhất quán về các rủi ro do từng loại jailbreak gây ra. Các thử nghiệm ban đầu cho thấy mô hình có khả năng chống chịu tốt. Theo VnEconomy (2026), các chuyên gia thử nghiệm đã không tìm ra phương pháp bẻ khóa phổ quát nào có thể vô hiệu hóa hoàn toàn cơ chế bảo vệ của Fable 5.

Dự thảo khung đánh giá này là kết quả hợp tác của Anthropic với các đối tác Glasswing. Mục tiêu của họ là khởi động một cuộc thảo luận hữu ích trong giới học thuật, ngành công nghiệp, xã hội dân sự và chính phủ. Việc xác định rõ ràng các ranh giới sẽ giúp định hình tương lai của an toàn AI.

Một khuôn khổ chung cho phép các nhà phát triển AI, chính phủ và nhà nghiên cứu giao tiếp nhất quán về rủi ro. Điều này giúp đánh giá chính xác mức độ nguy hiểm của từng lỗ hổng jailbreak, từ đó đưa ra các biện pháp đối phó phù hợp và hiệu quả, thúc đẩy việc sử dụng AI an toàn và có trách nhiệm hơn.
Khi không có tiêu chuẩn, việc đánh giá rủi ro trở nên chủ quan và khó so sánh. Một jailbreak được coi là nghiêm trọng ở công ty này có thể bị xem nhẹ ở công ty khác. Điều này tạo ra sự không chắc chắn và cản trở nỗ lực hợp tác toàn ngành. Theo Anthropic News (2026), một ngôn ngữ chung sẽ giúp các bên liên quan hiểu rõ khi nào một mô hình trở nên quá nguy hiểm và cần có biện pháp can thiệp. Một số cơ chế bảo vệ đã được áp dụng. Theo cybersafe.vnu.edu.vn (2026), các quy trình chuyển hướng yêu cầu nhạy cảm chỉ kích hoạt dưới 5% số phiên làm việc, cho thấy sự can thiệp có mục tiêu.
Khung đánh giá này không chỉ phục vụ mục đích báo cáo. Nó còn là công cụ quan trọng cho các nhóm phát triển nội bộ. Họ có thể sử dụng nó để ưu tiên các vấn đề cần khắc phục và đo lường hiệu quả của các bản vá an ninh. Hơn nữa, nó còn giúp các cơ quan quản lý hiểu rõ hơn về công nghệ và xây dựng các chính sách phù hợp. Theo VnEconomy (2026), các nghiên cứu đang hướng tới việc dùng AI để phát hiện và vá lỗ hổng phần mềm trước khi chúng bị khai thác, và một khung đánh giá chuẩn là nền tảng cho nỗ lực này.
Có, Anthropic tích cực khuyến khích sự tham gia của cộng đồng để nâng cao an toàn cho Fable 5. Họ đã khởi động một chương trình trên nền tảng HackerOne. Chương trình này mời các nhà nghiên cứu bảo mật gửi các lỗ hổng jailbreak tiềm năng mà họ phát hiện được để Anthropic xem xét và khắc phục.
Đây là một phần trong chiến lược minh bạch và hợp tác của công ty. Theo Anthropic News (2026), họ tin rằng việc hợp tác cùng nhau sẽ giúp thiết lập một tiêu chuẩn chung. Tiêu chuẩn này cho phép khai thác các ứng dụng phòng thủ của công nghệ trong khi ngăn chặn việc lạm dụng. Ngoài chương trình HackerOne, Anthropic cũng công khai kêu gọi phản hồi và phê bình về dự thảo khung đánh giá jailbreak qua email. Với sức mạnh vượt trội, như hiệu suất cao hơn khoảng 5% so với thế hệ trước theo VnEconomy (2026), việc đảm bảo an toàn cho Fable 5 càng trở nên quan trọng. Sự tham gia của cộng đồng là yếu tố then chốt để đạt được mục tiêu này.

Bằng cách tạo ra các kênh giao tiếp cởi mở, Anthropic không chỉ củng cố sản phẩm của mình mà còn góp phần xây dựng một hệ sinh thái AI có trách nhiệm hơn. Mọi cá nhân và tổ chức quan tâm đều có thể tham gia vào cuộc đối thoại quan trọng này, định hình một tương lai nơi AI phục vụ con người một cách an toàn và hiệu quả.

Nhóm Frontier Red Team của Anthropic đã công bố LLM ATT&CK Navigator, một công cụ đột phá để lập bản đồ các mối đe dọa an ninh mạng do AI gây ra. Bằng cách điều chỉnh khuôn khổ MITRE ATT&CK nổi tiếng cho các mô hình ngôn ngữ lớn, nghiên cứu này cung cấp một cái nhìn sâu sắc về cách các tác nhân độc hại có thể khai thác AI và quan trọng hơn là cách chúng ta có thể xây dựng hệ thống phòng thủ chủ động để chống lại chúng.
17/06/2026

Nhóm Đỏ Frontier của Anthropic đang tiên phong nghiên cứu để đánh giá mức độ ảnh hưởng của các Mô hình Ngôn ngữ Lớn (LLM) như Claude đối với việc khai thác lỗ hổng N-day. Nghiên cứu này đo lường liệu AI có thực sự giúp tin tặc dễ dàng tấn công các hệ thống chưa được vá hay không, và kết quả ban đầu cho thấy chuyên môn của con người vẫn là yếu tố quyết định.
17/06/2026

Trong một năm, Anthropic đã phân tích 832 trường hợp lạm dụng AI cho mục đích tấn công mạng, từ viết mã độc đến xâm nhập sâu vào hệ thống. Báo cáo này không chỉ vạch trần các chiến thuật mới của tin tặc mà còn chỉ ra những lỗ hổng trong các khung phòng thủ hiện tại như MITRE ATT&CK, đặt ra yêu cầu cấp thiết về việc phải suy nghĩ lại cách chúng ta bảo vệ không gian mạng.
04/06/2026