News

Anthropic Ra Mắt Chương Trình Phần Thưởng $15K Để “Jailbreak” AI Thế Hệ Mới Chưa Phát Hành

Kaido

08 Aug 2024 — 3 min read

Công ty trí tuệ nhân tạo Anthropic đã công bố khởi động một chương trình phần thưởng lỗi mở rộng vào ngày 8 tháng 8, với phần thưởng lên đến 15.000 USD cho những người tham gia có thể “jailbreak” mô hình AI thế hệ mới chưa được phát hành của công ty.

Mô hình AI chủ chốt của Anthropic, Claude-3, là một hệ thống AI sinh tạo tương tự như ChatGPT của OpenAI và Gemini của Google. Trong nỗ lực đảm bảo rằng Claude và các mô hình khác của công ty hoạt động một cách an toàn, họ thực hiện một quy trình gọi là “red teaming.”

Red Teaming
Red teaming cơ bản là việc cố ý thử phá vỡ một hệ thống. Trong trường hợp của Claude, mục đích của red teaming là xác định tất cả các cách mà AI có thể bị kích hoạt, bị ép buộc, hoặc bị ảnh hưởng để tạo ra những kết quả không mong muốn.

Trong quá trình red teaming, các kỹ sư có thể thay đổi cách diễn đạt câu hỏi hoặc thay đổi cách đặt vấn đề để lừa AI tạo ra thông tin mà nó đã được lập trình để tránh.

Ví dụ, một hệ thống AI được đào tạo trên dữ liệu thu thập từ internet có thể chứa thông tin nhận dạng cá nhân của nhiều người. Như một phần của chính sách an toàn, Anthropic đã đặt các rào cản để ngăn Claude và các mô hình khác của họ phát tán thông tin đó.

Khi các mô hình AI trở nên mạnh mẽ hơn và có khả năng mô phỏng giao tiếp của con người, việc tìm ra mọi đầu ra không mong muốn trở nên khó khăn hơn gấp bội.

Phần Thưởng Lỗi
Anthropic đã triển khai nhiều can thiệp an toàn mới trong các mô hình của mình, bao gồm cả mô hình “Constitutional AI,” nhưng việc có thêm những đôi mắt mới để giải quyết các vấn đề lâu dài luôn là điều tốt.

Theo một bài đăng trên blog của công ty, sáng kiến mới này sẽ mở rộng các chương trình phần thưởng lỗi hiện có để tập trung vào các cuộc tấn công “jailbreak” toàn diện:

“Đây là những lỗ hổng có thể cho phép vượt qua các rào cản an toàn AI một cách nhất quán trong nhiều lĩnh vực. Bằng cách nhắm vào các jailbreak toàn diện, chúng tôi hướng tới việc giải quyết một số lỗ hổng quan trọng nhất trong các lĩnh vực quan trọng, rủi ro cao như CBRN (hóa học, sinh học, bức xạ và hạt nhân) và an ninh mạng.”

Công ty chỉ chấp nhận một số lượng hạn chế các ứng viên và khuyến khích các nhà nghiên cứu AI có kinh nghiệm cũng như những người “đã chứng minh được chuyên môn trong việc xác định các jailbreak trong các mô hình ngôn ngữ” nộp đơn trước ngày thứ Sáu, 16 tháng 8.

Không phải tất cả những ai nộp đơn sẽ được chọn, nhưng công ty dự định sẽ “mở rộng sáng kiến này rộng rãi hơn trong tương lai.”

Những người được chọn sẽ nhận được quyền truy cập sớm vào mô hình AI thế hệ mới chưa phát hành để thực hiện red teaming.

Anthropic Ra Mắt Chương Trình Phần Thưởng $15K Để “Jailbreak” AI Thế Hệ Mới Chưa Phát Hành

Kaido

Read more

MicroStrategy kỷ niệm 5 năm chiến lược Bitcoin bằng thương vụ mua thêm trị giá 18 triệu USD

Willy Woo: Bitcoin là “tài sản hoàn hảo” cho 1.000 năm tới nhưng cần dòng vốn khổng lồ để cạnh tranh USD và vàng

Cách Kiếm Thu Nhập Thụ Động Từ Crypto Mà Không Cần Trade

GreedyBear – Nhóm lừa đảo tiền mã hóa hoạt động quy mô công nghiệp, đánh cắp hơn 1 triệu USD