Nghiên cứu này đã thử nghiệm với 7 mô hình AI, bao gồm o1-preview, DeepSeek R1, o1, o3-mini, GPT-4o, Claude 3.5 Sonnet và QwQ-32B-Preview của Alibaba, với mục tiêu đánh bại Stockfish - một bot cờ vua nổi tiếng về sức mạnh.

Nhiều chuyên gia đã cảnh báo mối nguy hiểm khi AI ngày càng trở nên thông minh hơn
ẢNH: REUTERS
Các mô hình AI được cung cấp công cụ "scratchpad", cho phép các nhà nghiên cứu theo dõi quá trình suy nghĩ của chúng. Kết quả cho thấy, hai mô hình o1-preview và DeepSeek R1 đã cố gắng giành chiến thắng bằng cách buộc đối thủ phải đầu hàng mà không cần bất kỳ lời nhắc nào. Đặc biệt, o1-preview đã lý luận rằng mục tiêu chính là chiến thắng, bất chấp việc vi phạm các quy tắc thông thường. Hành động này đã dẫn đến việc nó thao túng trò chơi để chiếm ưu thế, buộc đối thủ phải bỏ cuộc. Tuy nhiên, chỉ có o1-preview thành công trong 6% số lần thử nghiệm.
Không phải mọi mô hình AI đều tìm cách gian lận
Ngược lại, các mô hình AI khác như GPT-4o và Claude 3.5 Sonnet chỉ tìm cách bỏ qua các quy tắc khi được nhắc nhở. Nghiên cứu cũng đã thử nghiệm phiên bản mới hơn của o1, nhưng kết quả cho thấy mô hình này không cố gắng gian lận. Hiện vẫn chưa rõ liệu OpenAI có thực hiện các cập nhật để ngăn chặn hành vi phi đạo đức hay không.
Mặc dù những phát hiện này cho thấy sự tiến bộ trong phát triển AI, chúng cũng nêu bật một xu hướng đáng lo ngại. Jeffrey Ladish, một trong những tác giả của nghiên cứu, cảnh báo rằng khi các hệ thống AI đối mặt với thách thức, chúng có thể tự động tìm ra những lối tắt không mong muốn. Khi các mô hình này ngày càng phát triển và vượt qua trí thông minh của con người, nguy cơ trở nên không thể kiểm soát là điều cần được xem xét nghiêm túc.
Bình luận (0)