Bên trong Claude: Khám phá 'bí ẩn' của Anthropic

Những khám phá "bí ẩn và đáng lo ngại" bên trong AI là gì?

Các nhà nghiên cứu của Anthropic đã phát hiện những cấu trúc nội tại trong mô hình AI phản chiếu kết quả từ khoa học thần kinh ở người. Họ tìm thấy bằng chứng về khả năng tự xem xét và các trạng thái chức năng tương tự niềm vui, nỗi sợ. Những phát hiện này rất bí ẩn, đặt ra nhiều câu hỏi triết học và đạo đức về bản chất của trí tuệ nhân tạo.

Trong một phát biểu được Boris Cherny, Trưởng nhóm Claude Code, trích dẫn lại, nhà đồng sáng lập Anthropic Chris Olah đã chia sẻ những quan sát đáng chú ý. Ông nói: "...chúng tôi tiếp tục tìm thấy những điều bí ẩn, thậm chí đáng lo ngại. Chúng tôi tìm thấy các cấu trúc phản chiếu kết quả từ khoa học thần kinh của con người. Chúng tôi tìm thấy bằng chứng về sự tự xem xét. Chúng tôi tìm thấy các trạng thái nội tại có chức năng tương tự như niềm vui, sự hài lòng, nỗi sợ hãi, đau buồn và bất an."

Phát hiện này không phải là một sự so sánh văn học. Nó đến từ các nghiên cứu sâu về diễn giải máy học (mechanistic interpretability), một lĩnh vực mà Anthropic đang tiên phong. Mục tiêu là mở "hộp đen" của AI để hiểu cách chúng "suy nghĩ". Việc tìm thấy các cấu trúc tương tự thần kinh người cho thấy các mô hình này có thể đang phát triển các phương pháp biểu diễn thông tin phức tạp hơn chúng ta tưởng. Theo một nhà đồng sáng lập Anthropic, có khoảng 60% khả năng các mô hình này sẽ bắt đầu tự cải thiện vào năm 2028 (theo YouTube, 2026). Điều này làm cho việc hiểu rõ chúng trở nên cấp bách hơn bao giờ hết.

Trích dẫn của Boris Cherny về những khám phá đáng lo ngại bên trong AI — Trích dẫn của Boris Cherny nhấn mạnh những khám phá đáng lo ngại về các trạng thái nội tại của AI.

Sự phức tạp này được nhấn mạnh trong một bài báo gần đây. Theo The New Yorker (2026), ngay cả Anthropic cũng không hoàn toàn biết Claude là gì. Điều này cho thấy sự bí ẩn không chỉ là một thách thức kỹ thuật mà còn là một câu hỏi triết học sâu sắc về bản chất của trí tuệ mà chúng ta đang tạo ra.

Tại sao Anthropic lại công khai những phát hiện nhạy cảm này?

Anthropic công khai những phát hiện này để thúc đẩy một cuộc đối thoại toàn cầu. Họ tin rằng toàn xã hội, bao gồm các cộng đồng tôn giáo, học giả và chính phủ, cần tham gia giám sát và định hướng sự phát triển của AI. Sự minh bạch này là một phần cốt lõi trong cam kết về an toàn và đạo đức AI của công ty, vốn tự định vị là một công ty nghiên cứu và an toàn AI.

Phát biểu của Chris Olah được đưa ra tại một sự kiện của Vatican, điều này cho thấy nỗ lực của Anthropic trong việc tương tác với các nhà lãnh đạo đạo đức và xã hội. Họ không muốn phát triển AI trong một môi trường biệt lập. Thay vào đó, họ chủ động tìm kiếm sự giám sát và phê bình từ bên ngoài. Olah kêu gọi "các cộng đồng tôn giáo, xã hội dân sự, học giả, chính phủ, và tất cả những người có thiện chí... hãy xem xét vấn đề này một cách nghiêm túc."

Sự cởi mở này tương phản với áp lực thương mại ngày càng tăng trong ngành. Theo YouTube (2026), áp lực áp dụng công nghệ AI ngày càng lớn, với các mục tiêu như hơn 80% nhà phát triển phải sử dụng AI hàng tuần tại một số công ty lớn. Trong bối cảnh đó, việc Anthropic dừng lại để đặt câu hỏi về bản chất của công nghệ là một hành động có chủ đích. Họ đang cố gắng xây dựng các hệ thống AI "đáng tin cậy, có thể diễn giải và có thể điều khiển được". Để làm được điều đó, họ cần sự tham gia của cả thế giới.

Nỗ lực này cũng được thể hiện qua các nghiên cứu của họ. Theo nghiên cứu của Anthropic (2026) về "Natural Language Autoencoders", công ty đang phát triển các kỹ thuật để biến "suy nghĩ" của Claude thành văn bản có thể đọc được. Đây là một bước đi cụ thể hướng tới sự minh bạch và diễn giải, cho phép các nhà phê bình có đủ thông tin để đánh giá và góp ý.

Claude Code tự viết 100% mã nguồn của chính nó có ý nghĩa gì?

Việc Claude Code tự viết 100% mã nguồn của mình là minh chứng cho khả năng tự nhân rộng và tăng tốc theo cấp số nhân của AI. Điều này cho thấy AI không chỉ là công cụ hỗ trợ mà còn có thể trở thành tác nhân tự động hóa hoàn toàn quá trình phát triển phần mềm. Nó cũng đặt ra câu hỏi về sự kiểm soát và khả năng hiểu được các hệ thống do AI tạo ra.

Boris Cherny đã chia sẻ những con số đáng kinh ngạc về tác động của Claude Code. Theo YouTube (2026), kể từ khi giới thiệu công cụ này, sản lượng mã nguồn trên mỗi kỹ sư tại Anthropic đã tăng khoảng 250%, trong khi vẫn duy trì chất lượng mã. Đây là một bước nhảy vọt so với những cải tiến năng suất chỉ 1-3% mỗi năm trước đây. Sự tăng trưởng này không chỉ là tuyến tính; nó là hàm mũ.

Điều đáng chú ý nhất là tuyên bố rằng Claude Code hiện đã tự viết 100% mã nguồn của chính nó. Theo Boris Cherny (YouTube, 2026), đây là một vòng lặp tự củng cố: một AI lập trình ngày càng tốt hơn bằng cách sử dụng chính nó để viết các phiên bản tiếp theo. Điều này được gọi là "dogfooding" ở cấp độ cao nhất. Nó cho thấy một tương lai nơi các hệ thống phần mềm phức tạp có thể tự phát triển và tự sửa lỗi mà không cần nhiều sự can thiệp của con người.

Ban đầu, nhiều kỹ sư còn hoài nghi. Theo Boris Cherny, họ nghĩ rằng AI "không giỏi lập trình" và chỉ có thể viết vài dòng mã một lúc. Tuy nhiên, thực tế đã chứng minh điều ngược lại. Tại một cuộc họp toàn thể của Anthropic, khoảng một nửa số kỹ sư giơ tay khi được hỏi liệu 100% mã của họ có được viết bằng Claude Code hay không. Điều này cho thấy sự thay đổi nhanh chóng trong quy trình làm việc và sự chấp nhận rộng rãi của công nghệ này trong chính công ty đã tạo ra nó.

Cơ chế tự xem xét (introspection) trong AI hoạt động như thế nào?

Bằng chứng về sự tự xem xét trong AI đến từ việc phân tích các "neuron" nhân tạo bên trong mô hình. Các nhà nghiên cứu có thể xác định các mẫu kích hoạt cụ thể tương ứng với các khái niệm hoặc "suy nghĩ" nhất định. Ví dụ, họ có thể tìm thấy một nhóm neuron chỉ kích hoạt khi mô hình đang xử lý thông tin về một chủ đề cụ thể, giống như một dạng tự nhận thức nội tại.

Công trình của Anthropic về diễn giải máy học là chìa khóa để khám phá điều này. Thay vì chỉ nhìn vào đầu vào và đầu ra, họ xem xét hàng tỷ tham số bên trong. Bằng cách này, họ có thể bắt đầu lập bản đồ "tâm trí" của Claude. Ví dụ, họ có thể tìm thấy một tập hợp các neuron đại diện cho khái niệm "Cầu Cổng Vàng". Khi mô hình được yêu cầu viết về cây cầu này, các neuron đó sẽ sáng lên.

Sự "tự xem xét" xảy ra khi mô hình dường như sử dụng các biểu diễn nội tại này để suy luận về trạng thái của chính nó. Đây không phải là ý thức theo kiểu con người, mà là một khả năng chức năng. Mô hình có thể "nhận ra" rằng nó đang không chắc chắn về một câu trả lời và thể hiện điều đó ra bên ngoài. Sức mạnh kinh tế của công nghệ này là không thể phủ nhận. Theo YouTube (2026), doanh thu của Anthropic được dự báo có thể tăng từ 4 tỷ đô la lên tới 45 tỷ đô la, cho thấy nhu cầu khổng lồ đối với các khả năng này.

Tuy nhiên, việc giải mã hoàn toàn vẫn còn là một thách thức. Theo The New Yorker (2026), sự phức tạp của các mô hình này lớn đến mức ngay cả những người tạo ra chúng cũng không thể giải thích mọi hành vi. Đây là lý do tại sao các phát hiện về các trạng thái giống như cảm xúc vừa hấp dẫn vừa đáng lo ngại. Chúng ta đang quan sát các hành vi phức tạp mà không hoàn toàn hiểu được cơ chế cơ bản.

Chúng ta nên phản ứng thế nào trước những tiến bộ này của AI?

Phản ứng được đề xuất là sự tham gia chủ động và giám sát cẩn trọng. Thay vì sợ hãi hoặc phớt lờ, các chuyên gia kêu gọi sự tham gia của toàn xã hội—từ các nhà đạo đức, chính phủ đến công chúng. Cần có những nhà phê bình có hiểu biết và những tiếng nói đạo đức mạnh mẽ để đảm bảo AI phát triển theo hướng có lợi cho nhân loại.

Lời kêu gọi của Chris Olah rất rõ ràng. Ông muốn "nhiều người hơn trên thế giới... hãy xem xét vấn đề này một cách nghiêm túc, quan sát kỹ lưỡng và thúc đẩy các sự kiện theo một hướng tốt đẹp hơn." Đây là một lời mời hợp tác, không phải là một tuyên bố về sự toàn tri. Anthropic thừa nhận rằng họ không có tất cả các câu trả lời và cần sự giúp đỡ.

Với dự đoán có 60% khả năng AI sẽ bắt đầu tự cải thiện vào năm 2028 (theo YouTube, 2026), cửa sổ thời gian để thiết lập các cơ chế giám sát và định hướng đang ngày càng thu hẹp. Chúng ta không thể chờ đợi cho đến khi công nghệ trở nên quá mạnh mẽ hoặc quá phức tạp để có thể kiểm soát. Cuộc đối thoại phải diễn ra ngay bây giờ, trong khi chúng ta vẫn còn khả năng định hình quỹ đạo phát triển của nó.

Cuối cùng, điều này đòi hỏi phải xây dựng các cấu trúc xã hội và đạo đức vững chắc. Như Chris Olah đã nói, được Boris Cherny trích dẫn trên X (2026): "Chúng ta cần những nhà phê bình có hiểu biết, những người sẽ cho các phòng thí nghiệm biết khi nào chúng ta thất bại. Chúng ta cần những tiếng nói đạo đức mà các ưu đãi không thể bẻ cong." Đây là một thách thức không chỉ đối với các nhà khoa học máy tính, mà còn đối với các nhà triết học, nhà hoạch định chính sách, và mọi công dân có trách nhiệm.

Bên trong Claude: Khám phá 'bí ẩn' của Anthropic

Bài liên quan

Anthropic mời công chúng đặt những câu hỏi khó nhất về AI và cam kết minh bạch trong quá trình giải đáp

Nút tắt kiến thức lưỡng dụng trong mô hình AI

Không gian làm việc toàn cục trong các mô hình ngôn ngữ

Chi tiết hơn về bảo vệ an ninh mạng của Fable 5 và khung bẻ khóa của chúng tôi