Sự hợp tác giữa Anthropic và Mozilla đã mang lại kết quả đột phá. Bằng cách sử dụng phiên bản sớm của Claude Mythos, đội ngũ Firefox đã phát hiện và vá 271 lỗ hổng bảo mật chỉ trong một tháng, nhiều hơn 15 tháng trước đó cộng lại. Thành tựu này không chỉ củng cố an ninh cho Firefox mà còn mở ra một kỷ nguyên mới cho việc săn lỗi bằng AI.
Bài viết được biên tập + bổ sung research từ nhiều nguồn. Đọc bài gốc tại Twitter / X →
Anthropic giới thiệu Bộ mã hóa tự động ngôn ngữ tự nhiên (NLAE), một công nghệ đột phá cho phép chuyển đổi suy nghĩ nội tại của Claude thành văn bản dễ hiểu. Điều này giúp chúng ta hiểu rõ hơn cách Claude xử lý thông tin và đưa ra quyết định, mở ra hướng nghiên cứu mới về khả năng giải thích của AI.
09/05/2026
Anthropic thông báo tặng một công cụ căn chỉnh mã nguồn mở. Động thái này nhằm hỗ trợ cộng đồng nghiên cứu và phát triển AI an toàn hơn.
09/05/2026
Bài viết này trình bày các lĩnh vực chính sách trọng tâm mà Viện Anthropic sẽ tập trung vào. Đây là những định hướng quan trọng cho hoạt động nghiên cứu và phát triển của viện trong tương lai.
09/05/2026
Research powered by Tavily.

Anthropic công bố nghiên cứu đột phá về cách dạy Claude hiểu 'tại sao' đằng sau các hành động của mình, không chỉ là 'cái gì'. Phương pháp này tập trung vào việc huấn luyện mô hình suy luận về các giá trị, giúp giảm đáng kể sai lệch hành vi tác nhân (agentic misalignment) và là bước tiến quan trọng trong việc đảm bảo an toàn AI.
09/05/2026

Claude Mythos Preview là một phiên bản AI tiên tiến của Anthropic, được cung cấp sớm cho các tổ chức phòng thủ trong khuôn khổ chương trình Responsible Scaling Policy. Trong lần hợp tác đầu tiên vào năm 2026, nó đã giúp đội ngũ Firefox của Mozilla phân tích mã nguồn và phát hiện 271 lỗ hổng bảo mật. Những bản vá này đã được đưa vào bản cập nhật Firefox 150, đánh dấu một bước tiến lớn về an ninh trình duyệt.
Sự hợp tác này là một minh chứng cho tiềm năng của AI trong việc củng cố an ninh mạng. Theo ZDNET (2026), một đại diện của Mozilla đã chia sẻ: "Trong khuôn khổ hợp tác liên tục với Anthropic, chúng tôi đã có cơ hội áp dụng phiên bản sớm của Claude Mythos Preview cho Firefox". Kết quả thật đáng kinh ngạc. "Bản phát hành Firefox 150 tuần này bao gồm các bản vá cho 271 lỗ hổng được xác định trong quá trình đánh giá ban đầu này." Con số này nhiều hơn số lỗi bảo mật mà nhóm đã sửa trong 15 tháng trước đó cộng lại.

Thành công này cho thấy khả năng của các mô hình AI thế hệ mới trong việc thực hiện các tác vụ phức tạp. Chúng không chỉ viết mã mà còn có thể phân tích và tìm ra những điểm yếu tiềm ẩn trong các hệ thống phần mềm khổng lồ. Việc chuyển từ nghiên cứu của con người sang các hoạt động ở quy mô máy móc đang được xem là tiêu chuẩn mới cho an ninh trình duyệt. Theo TechCrunch (2026), các nhà nghiên cứu cho biết thế hệ công cụ mới nhất đã tạo ra một bước ngoặt, đặc biệt là khi các hệ thống có khả năng tự đánh giá công việc của mình và lọc ra các kết quả sai.

Mythos đã tìm thấy nhiều loại lỗ hổng, bao gồm cả những lỗi tồn tại lâu năm mà các phương pháp kiểm thử trước đây bỏ sót. Các nhà nghiên cứu đã công bố chi tiết về 12 lỗi, từ các lỗ hổng sandbox bất thường đến một lỗi 15 năm tuổi trong cách trình duyệt phân tích mã HTML. Nhiều lỗi nằm trong các thành phần cốt lõi như hệ thống phát media và lưu trữ dữ liệu, cho thấy khả năng phân tích sâu của AI.
Theo TechCrunch (2026), các nhà nghiên cứu của Mozilla đã công bố chi tiết về 12 trong số các lỗi được tìm thấy. Chúng bao gồm một cặp lỗ hổng sandbox hiếm gặp và một lỗi đã tồn tại 15 năm trong cách trình duyệt phân tích một phần tử HTML. Điều này cho thấy Mythos có thể phát hiện các vấn đề mà con người và các công cụ tự động khác đã bỏ qua trong nhiều năm. Một số lỗi khác liên quan đến các vấn đề như "clipboard injection", có thể cho phép kẻ tấn công chiếm quyền kiểm soát clipboard của người dùng.

Theo một báo cáo bảo mật từ Privacy Guides vào tháng 4 năm 2026, nhiều lỗ hổng trong số này được tìm thấy trong các thành phần nền tảng của trình duyệt. Cụ thể là hệ thống phát lại phương tiện và hệ thống lưu trữ dữ liệu. Đây là những khu vực quan trọng, và việc tìm ra lỗi ở đây cho thấy Mythos không chỉ quét bề mặt mà còn đi sâu vào kiến trúc cốt lõi của phần mềm. Khả năng này giúp củng cố trình duyệt từ gốc rễ, làm tăng đáng kể độ an toàn cho người dùng cuối.

Không giống các công cụ "fuzzing" truyền thống chỉ ném dữ liệu ngẫu nhiên vào chương trình, Mythos có khả năng suy luận logic. Nó truy vết cách các phần khác nhau của hệ thống tương tác để tìm ra điểm yếu. Sức mạnh chính của AI này là khả năng hiểu và phân tích mã nguồn phức tạp, vượt xa khả năng của các phương pháp tự động thông thường. Nó hoạt động giống như một nhà nghiên cứu bảo mật ưu tú.
Các công cụ truyền thống, hay còn gọi là fuzzer, hoạt động bằng cách gửi một lượng lớn dữ liệu ngẫu nhiên hoặc bất thường vào một chương trình để xem liệu nó có gặp sự cố hay không. Mặc dù hiệu quả, phương pháp này có thể bỏ sót các lỗi logic tinh vi. Theo KuCoin (2026), Mythos đã tìm thấy một lỗ hổng 16 năm tuổi trong FFmpeg mà 5 triệu lượt chạy fuzzer trước đó đã bỏ lỡ. Điều này cho thấy sự khác biệt cơ bản trong cách tiếp cận. Mythos không chỉ tìm lỗi, nó còn "hiểu" mã nguồn.

Theo KuCoin (2026), sức mạnh chính của AI này nằm ở khả năng "suy luận thông qua logic mã phức tạp". Thay vì chỉ tìm kiếm các sự cố rõ ràng, nó phân tích các đường dẫn thực thi và mối quan hệ giữa các thành phần khác nhau. Nó có thể xác định các tình huống mà sự tương tác giữa các bộ phận tưởng như vô hại lại có thể dẫn đến một lỗ hổng bảo mật. Cách tiếp cận này giúp phát hiện một lớp lỗi hoàn toàn mới mà trước đây chỉ có các chuyên gia con người hàng đầu mới có thể tìm thấy.
Đây là một con dao hai lưỡi. Một mặt, nó giúp các nhà phát triển tăng tốc kiểm thử và củng cố phần mềm. Mặt khác, nó cũng trao cho kẻ tấn công công cụ mạnh mẽ mà trước đây đòi hỏi chuyên môn sâu. Điều này làm thay đổi cán cân quyền lực, buộc ngành công nghiệp phải thích ứng với một kỷ nguyên mới của các mối đe dọa và phòng thủ do AI điều khiển.
Diana Kelley, giám đốc an ninh thông tin tại Noma Security, đã nhận xét với ZDNET (2026): "Việc Claude Mythos giỏi như một nhà nghiên cứu ưu tú vừa tốt lại vừa xấu". Bà giải thích thêm: "Những người phòng thủ có thể đẩy nhanh quá trình kiểm thử và củng cố, đó là một lợi ích thực sự. Đồng thời, những kẻ tấn công trung bình giờ đây có quyền truy cập vào các công cụ mang lại kết quả mà trước đây đòi hỏi chuyên môn sâu, và chúng có thể hoạt động ở tốc độ 24/7."

Sự phát triển này đang thu hẹp khoảng cách giữa các lỗi "có thể phát hiện bằng máy" và "có thể phát hiện bằng người". Theo một nghiên cứu được công bố vào cuối tháng 4 năm 2026, điều này làm xói mòn lợi thế lâu dài của các tác nhân đe dọa tinh vi. Tuy nhiên, nó cũng có nghĩa là các lỗ hổng chưa được vá có thể bị khai thác nhanh hơn và ở quy mô lớn hơn. Anthropic đang cố gắng giảm thiểu rủi ro này bằng cách cung cấp các công cụ mạnh mẽ cho các nhà phòng thủ trước khi chúng được phát hành rộng rãi.
Không có phần mềm nào an toàn 100%, và Firefox cũng không ngoại lệ. Tuy nhiên, việc sử dụng Mythos đã nâng cao đáng kể "chi phí tấn công" đối với tin tặc. Nó giúp loại bỏ các lỗ hổng "dễ xơi" và các lỗi tồn đọng, buộc kẻ xấu phải tìm kiếm các phương pháp tấn công phức tạp và tốn kém hơn. Đây là một bước tiến quan trọng trong việc củng cố an ninh trình duyệt.
Theo KuCoin (2026), mặc dù phần mềm sẽ không bao giờ an toàn 100%, việc sử dụng các công cụ như Mythos có ý nghĩa rất lớn. Nó giúp loại bỏ một lượng lớn các lỗ hổng cấp thấp và các lỗi cũ. Điều này buộc những kẻ tấn công phải đầu tư nhiều thời gian và nguồn lực hơn để tìm ra những cách khai thác mới và phức tạp hơn. Về cơ bản, nó nâng cao ngưỡng an ninh cơ bản cho toàn bộ sản phẩm.

Mục tiêu không phải là tạo ra một phần mềm không thể bị tấn công, mà là làm cho việc tấn công trở nên khó khăn và tốn kém đến mức không còn khả thi đối với hầu hết các tác nhân độc hại. Bằng cách tự động hóa việc tìm kiếm các lỗ hổng phổ biến và lâu đời, các nhà phát triển có thể tập trung nguồn lực vào việc giải quyết các vấn đề bảo mật phức tạp hơn. Đây là một sự thay đổi chiến lược trong cách chúng ta tiếp cận an ninh phần mềm trong kỷ nguyên AI.