Thách thức cho AI khi dữ liệu trên Google không được kiểm chứng
Theo Ars Technica, một xu hướng mới trên Reddit tại London (Anh) đang cho thấy cách người dùng cố ý đưa ra các đánh giá sai lệch về nhà hàng để giữ cho các địa điểm yêu thích của họ tránh khỏi sự chú ý của influencer và khách du lịch. Điều này làm tăng các rủi ro khi Google và các nền tảng AI phụ thuộc vào nội dung người dùng, vốn không phải lúc nào cũng đáng tin cậy.
Hồi tháng 5, Google ra mắt tính năng thử nghiệm AI Overview tại Mỹ, sử dụng AI để tạo các câu trả lời tóm tắt ngay đầu trang tìm kiếm. Mặc dù tính năng này giúp người dùng tiếp cận thông tin nhanh hơn, nhưng từ khi ra mắt, AI Overview đã bộc lộ hạn chế trong việc tóm tắt và kiểm chứng độ chính xác của thông tin. Liz Reid, Phó chủ tịch Google Search, khẳng định AI Overview chỉ hiển thị thông tin từ các kết quả web hàng đầu, nhưng các lo ngại vẫn xuất hiện, cho rằng Google có thể gặp khó khăn khi phải kiểm soát chất lượng nội dung trước sự chi phối của SEO và các nguồn tin chưa được xác thực.
Chất lượng tìm kiếm của Google giảm sút đã khiến nhiều người dùng phải tìm đến Reddit để có thông tin đáng tin cậy hơn từ trải nghiệm cá nhân. Để làm được điều này, họ thêm cụm “site:reddit.com” vào tìm kiếm nhằm chỉ hiện các kết quả từ Reddit. Nhận thấy giá trị từ nội dung do người dùng chia sẻ trên Reddit, Google đã ký hợp đồng trị giá 60 triệu USD mỗi năm với nền tảng này để lấy dữ liệu huấn luyện cho AI. Tuy nhiên, một xu hướng mới tại London lại phơi bày hạn chế của cách tiếp cận này.
Cụ thể, một số cư dân London không hài lòng khi influencer thường xuyên đăng đánh giá làm các nhà hàng địa phương trở nên đông đúc với khách du lịch. Để ứng phó, họ đã kêu gọi nhau trên Reddit viết các đánh giá tích cực giả về chuỗi nhà hàng phổ thông nhằm chuyển hướng du khách và influencer đến đó, giữ cho các nhà hàng địa phương bớt đông đúc.
Hiện các bài đăng giả này đã xuất hiện trong kết quả tìm kiếm của Google, mặc dù chưa lọt vào phần tóm tắt AI Overview. Tuy nhiên, điều này cho thấy cách người dùng có thể lợi dụng lỗ hổng của Google Search, đặc biệt khi công cụ này phụ thuộc vào nội dung từ người dùng mà thiếu kiểm chứng chặt chẽ.
CEO Reddit Steve Huffman cho rằng nền tảng này vẫn là nguồn dữ liệu quý cho AI nhờ nội dung “thật” từ người dùng, trong khi chất lượng nội dung trên internet đang bị ảnh hưởng bởi các bài viết từ AI. Tuy vậy, sự việc này cũng là lời cảnh báo để các bên liên quan như Google, OpenAI và Reddit xem xét lại việc sử dụng dữ liệu chưa kiểm chứng, bởi nó có thể dẫn đến những kết quả thiếu chính xác và khó kiểm soát trong tìm kiếm.
Bình luận (0)