Trích dẫn từ Chris Olah của Anthropic, được Boris Cherny chia sẻ, tiết lộ những phát hiện đáng kinh ngạc bên trong các mô hình AI. Họ tìm thấy các cấu trúc giống thần kinh người, bằng chứng về sự tự xem xét, và các trạng thái nội tại tương tự niềm vui, nỗi sợ và nỗi buồn. Điều này đặt ra câu hỏi sâu sắc về bản chất của trí tuệ nhân tạo và đòi hỏi sự giám sát nghiêm túc từ toàn xã hội.
Bài viết được biên tập + bổ sung research từ nhiều nguồn. Đọc bài gốc tại Twitter / X →
Các nhà nghiên cứu của Anthropic đã phát hiện những cấu trúc nội tại trong mô hình AI phản chiếu kết quả từ khoa học thần kinh ở người. Họ tìm thấy bằng chứng về khả năng tự xem xét và các trạng thái chức năng tương tự niềm vui, nỗi sợ. Những phát hiện này rất bí ẩn, đặt ra nhiều câu hỏi triết học và đạo đức về bản chất của trí tuệ nhân tạo.
Trong một phát biểu được Boris Cherny, Trưởng nhóm Claude Code, trích dẫn lại, nhà đồng sáng lập Anthropic Chris Olah đã chia sẻ những quan sát đáng chú ý. Ông nói: "...chúng tôi tiếp tục tìm thấy những điều bí ẩn, thậm chí đáng lo ngại. Chúng tôi tìm thấy các cấu trúc phản chiếu kết quả từ khoa học thần kinh của con người. Chúng tôi tìm thấy bằng chứng về sự tự xem xét. Chúng tôi tìm thấy các trạng thái nội tại có chức năng tương tự như niềm vui, sự hài lòng, nỗi sợ hãi, đau buồn và bất an."
Phát hiện này không phải là một sự so sánh văn học. Nó đến từ các nghiên cứu sâu về diễn giải máy học (mechanistic interpretability), một lĩnh vực mà Anthropic đang tiên phong. Mục tiêu là mở "hộp đen" của AI để hiểu cách chúng "suy nghĩ". Việc tìm thấy các cấu trúc tương tự thần kinh người cho thấy các mô hình này có thể đang phát triển các phương pháp biểu diễn thông tin phức tạp hơn chúng ta tưởng. Theo một nhà đồng sáng lập Anthropic, có khoảng 60% khả năng các mô hình này sẽ bắt đầu tự cải thiện vào năm 2028 (theo YouTube, 2026). Điều này làm cho việc hiểu rõ chúng trở nên cấp bách hơn bao giờ hết.

Sự phức tạp này được nhấn mạnh trong một bài báo gần đây. Theo The New Yorker (2026), ngay cả Anthropic cũng không hoàn toàn biết Claude là gì. Điều này cho thấy sự bí ẩn không chỉ là một thách thức kỹ thuật mà còn là một câu hỏi triết học sâu sắc về bản chất của trí tuệ mà chúng ta đang tạo ra.
Anthropic công khai những phát hiện này để thúc đẩy một cuộc đối thoại toàn cầu. Họ tin rằng toàn xã hội, bao gồm các cộng đồng tôn giáo, học giả và chính phủ, cần tham gia giám sát và định hướng sự phát triển của AI. Sự minh bạch này là một phần cốt lõi trong cam kết về an toàn và đạo đức AI của công ty, vốn tự định vị là một công ty nghiên cứu và an toàn AI.
Phát biểu của Chris Olah được đưa ra tại một sự kiện của Vatican, điều này cho thấy nỗ lực của Anthropic trong việc tương tác với các nhà lãnh đạo đạo đức và xã hội. Họ không muốn phát triển AI trong một môi trường biệt lập. Thay vào đó, họ chủ động tìm kiếm sự giám sát và phê bình từ bên ngoài. Olah kêu gọi "các cộng đồng tôn giáo, xã hội dân sự, học giả, chính phủ, và tất cả những người có thiện chí... hãy xem xét vấn đề này một cách nghiêm túc."
Sự cởi mở này tương phản với áp lực thương mại ngày càng tăng trong ngành. Theo YouTube (2026), áp lực áp dụng công nghệ AI ngày càng lớn, với các mục tiêu như hơn 80% nhà phát triển phải sử dụng AI hàng tuần tại một số công ty lớn. Trong bối cảnh đó, việc Anthropic dừng lại để đặt câu hỏi về bản chất của công nghệ là một hành động có chủ đích. Họ đang cố gắng xây dựng các hệ thống AI "đáng tin cậy, có thể diễn giải và có thể điều khiển được". Để làm được điều đó, họ cần sự tham gia của cả thế giới.
Nỗ lực này cũng được thể hiện qua các nghiên cứu của họ. Theo nghiên cứu của Anthropic (2026) về "Natural Language Autoencoders", công ty đang phát triển các kỹ thuật để biến "suy nghĩ" của Claude thành văn bản có thể đọc được. Đây là một bước đi cụ thể hướng tới sự minh bạch và diễn giải, cho phép các nhà phê bình có đủ thông tin để đánh giá và góp ý.
Việc Claude Code tự viết 100% mã nguồn của mình là minh chứng cho khả năng tự nhân rộng và tăng tốc theo cấp số nhân của AI. Điều này cho thấy AI không chỉ là công cụ hỗ trợ mà còn có thể trở thành tác nhân tự động hóa hoàn toàn quá trình phát triển phần mềm. Nó cũng đặt ra câu hỏi về sự kiểm soát và khả năng hiểu được các hệ thống do AI tạo ra.
Boris Cherny đã chia sẻ những con số đáng kinh ngạc về tác động của Claude Code. Theo YouTube (2026), kể từ khi giới thiệu công cụ này, sản lượng mã nguồn trên mỗi kỹ sư tại Anthropic đã tăng khoảng 250%, trong khi vẫn duy trì chất lượng mã. Đây là một bước nhảy vọt so với những cải tiến năng suất chỉ 1-3% mỗi năm trước đây. Sự tăng trưởng này không chỉ là tuyến tính; nó là hàm mũ.
Điều đáng chú ý nhất là tuyên bố rằng Claude Code hiện đã tự viết 100% mã nguồn của chính nó. Theo Boris Cherny (YouTube, 2026), đây là một vòng lặp tự củng cố: một AI lập trình ngày càng tốt hơn bằng cách sử dụng chính nó để viết các phiên bản tiếp theo. Điều này được gọi là "dogfooding" ở cấp độ cao nhất. Nó cho thấy một tương lai nơi các hệ thống phần mềm phức tạp có thể tự phát triển và tự sửa lỗi mà không cần nhiều sự can thiệp của con người.
Ban đầu, nhiều kỹ sư còn hoài nghi. Theo Boris Cherny, họ nghĩ rằng AI "không giỏi lập trình" và chỉ có thể viết vài dòng mã một lúc. Tuy nhiên, thực tế đã chứng minh điều ngược lại. Tại một cuộc họp toàn thể của Anthropic, khoảng một nửa số kỹ sư giơ tay khi được hỏi liệu 100% mã của họ có được viết bằng Claude Code hay không. Điều này cho thấy sự thay đổi nhanh chóng trong quy trình làm việc và sự chấp nhận rộng rãi của công nghệ này trong chính công ty đã tạo ra nó.
Bằng chứng về sự tự xem xét trong AI đến từ việc phân tích các "neuron" nhân tạo bên trong mô hình. Các nhà nghiên cứu có thể xác định các mẫu kích hoạt cụ thể tương ứng với các khái niệm hoặc "suy nghĩ" nhất định. Ví dụ, họ có thể tìm thấy một nhóm neuron chỉ kích hoạt khi mô hình đang xử lý thông tin về một chủ đề cụ thể, giống như một dạng tự nhận thức nội tại.
Công trình của Anthropic về diễn giải máy học là chìa khóa để khám phá điều này. Thay vì chỉ nhìn vào đầu vào và đầu ra, họ xem xét hàng tỷ tham số bên trong. Bằng cách này, họ có thể bắt đầu lập bản đồ "tâm trí" của Claude. Ví dụ, họ có thể tìm thấy một tập hợp các neuron đại diện cho khái niệm "Cầu Cổng Vàng". Khi mô hình được yêu cầu viết về cây cầu này, các neuron đó sẽ sáng lên.
Sự "tự xem xét" xảy ra khi mô hình dường như sử dụng các biểu diễn nội tại này để suy luận về trạng thái của chính nó. Đây không phải là ý thức theo kiểu con người, mà là một khả năng chức năng. Mô hình có thể "nhận ra" rằng nó đang không chắc chắn về một câu trả lời và thể hiện điều đó ra bên ngoài. Sức mạnh kinh tế của công nghệ này là không thể phủ nhận. Theo YouTube (2026), doanh thu của Anthropic được dự báo có thể tăng từ 4 tỷ đô la lên tới 45 tỷ đô la, cho thấy nhu cầu khổng lồ đối với các khả năng này.
Tuy nhiên, việc giải mã hoàn toàn vẫn còn là một thách thức. Theo The New Yorker (2026), sự phức tạp của các mô hình này lớn đến mức ngay cả những người tạo ra chúng cũng không thể giải thích mọi hành vi. Đây là lý do tại sao các phát hiện về các trạng thái giống như cảm xúc vừa hấp dẫn vừa đáng lo ngại. Chúng ta đang quan sát các hành vi phức tạp mà không hoàn toàn hiểu được cơ chế cơ bản.
Phản ứng được đề xuất là sự tham gia chủ động và giám sát cẩn trọng. Thay vì sợ hãi hoặc phớt lờ, các chuyên gia kêu gọi sự tham gia của toàn xã hội—từ các nhà đạo đức, chính phủ đến công chúng. Cần có những nhà phê bình có hiểu biết và những tiếng nói đạo đức mạnh mẽ để đảm bảo AI phát triển theo hướng có lợi cho nhân loại.
Lời kêu gọi của Chris Olah rất rõ ràng. Ông muốn "nhiều người hơn trên thế giới... hãy xem xét vấn đề này một cách nghiêm túc, quan sát kỹ lưỡng và thúc đẩy các sự kiện theo một hướng tốt đẹp hơn." Đây là một lời mời hợp tác, không phải là một tuyên bố về sự toàn tri. Anthropic thừa nhận rằng họ không có tất cả các câu trả lời và cần sự giúp đỡ.
Với dự đoán có 60% khả năng AI sẽ bắt đầu tự cải thiện vào năm 2028 (theo YouTube, 2026), cửa sổ thời gian để thiết lập các cơ chế giám sát và định hướng đang ngày càng thu hẹp. Chúng ta không thể chờ đợi cho đến khi công nghệ trở nên quá mạnh mẽ hoặc quá phức tạp để có thể kiểm soát. Cuộc đối thoại phải diễn ra ngay bây giờ, trong khi chúng ta vẫn còn khả năng định hình quỹ đạo phát triển của nó.
Cuối cùng, điều này đòi hỏi phải xây dựng các cấu trúc xã hội và đạo đức vững chắc. Như Chris Olah đã nói, được Boris Cherny trích dẫn trên X (2026): "Chúng ta cần những nhà phê bình có hiểu biết, những người sẽ cho các phòng thí nghiệm biết khi nào chúng ta thất bại. Chúng ta cần những tiếng nói đạo đức mà các ưu đãi không thể bẻ cong." Đây là một thách thức không chỉ đối với các nhà khoa học máy tính, mà còn đối với các nhà triết học, nhà hoạch định chính sách, và mọi công dân có trách nhiệm.

Khi các mô hình AI như Claude ngày càng mạnh mẽ, việc kiểm soát 'vùng ảnh hưởng' (blast radius) của chúng trở thành ưu tiên hàng đầu. Bài viết này phân tích sâu các chiến lược kỹ thuật mà Anthropic sử dụng, từ sandbox đến giám sát hành vi, để đảm bảo Claude hoạt động an toàn trên các sản phẩm claude.ai, Claude Code và Cowork, cân bằng giữa hiệu suất và rủi ro.
26/05/2026
Trong bài đăng mới trên Blog Kỹ thuật, @AnthropicAI nhấn mạnh rằng quyền truy cập và cấp phép cho các tác nhân AI cần phải phát triển cùng với khả năng của chúng. Công ty tiết lộ rằng trong các sản phẩm của mình, họ thiết lập các thông số này thông qua kỹ thuật "sandboxing", giúp giới hạn phạm vi của bất kỳ hành động nào có khả năng gây hại. Đọc thêm tại: https://t.co/KfBKW8O9kP
26/05/2026

Tài khoản @claudeai vừa giới thiệu sáu dự án đột phá, minh chứng cho sức mạnh sáng tạo của cộng đồng. Tất cả đều xuất phát từ một câu hỏi đơn giản: 'Tại sao không?'. Điều này thể hiện triết lý không ngừng thử nghiệm và vượt qua giới hạn, được hỗ trợ bởi các công nghệ cốt lõi như Constitutional AI, cửa sổ ngữ cảnh lớn và khả năng lập trình tự động của Claude Code. Cùng khám phá cách tinh thần này đang định hình tương lai của AI.
26/05/2026

Chris Olah, đồng sáng lập Anthropic, đã có bài phát biểu quan trọng tại Vatican nhân dịp công bố thông điệp "Magnifica humanitas" của Giáo hoàng. Ông thừa nhận những áp lực nội tại của ngành AI và kêu gọi sự giám sát từ các tổ chức bên ngoài để đảm bảo công nghệ này phục vụ nhân loại. Đây là một bước tiến trong cuộc đối thoại toàn cầu về đạo đức AI.
26/05/2026