Khám phá cách Wikipedia ứng dụng trí tuệ nhân tạo

19/08/2018 12:40 GMT+7

Wikimedia Foundation, tổ chức phi lợi nhuận hỗ trợ cộng đồng bách khoa toàn thư miễn phí Wikipedia, đang dùng công nghệ trí tuệ nhân tạo (AI) để giải quyết nhiều vấn đề.

Theo Forbes, Wikipedia nổi tiếng với mô hình nội dung có thể chỉnh sửa công khai, khiến nhiều nội dung quá tiêu cực. Song trong tám năm qua, số lượng người đóng góp hoặc biên tập tích cực (những người sửa một lần mỗi tháng) giảm 40%. Wikimedia Foundation vì thế quyết định dùng AI để hiểu thêm về vấn đề và tìm cách giải quyết nó.
Nỗ lực ngăn chặn nhiều bình luận và nội dung lạm dụng, ngược đãi, trêu đùa, Wikimedia Foundation hợp tác với vườn ươm công nghệ Jigsaw trong dự án nghiên cứu có tên Detox.
Detox sử dụng công nghệ máy học (machine learning) để đánh dấu các bình luận được xem là công kích cá nhân. Dự án này là một phần trong bộ sáng kiến của Jigsaw nhằm xây dựng nhiều công cụ AI nguồn mở, giúp chống hành vi quấy rối trên nền tảng truyền thông xã hội và diễn đàn web.
Bước đầu tiên trong dự án là đào tạo thuật toán học máy bằng 100.000 bình luận tiêu cực lấy từ trang Wikipedia Talk, được xác định bởi đội ngũ gồm 4.000 người. Mỗi bình luận phải qua 10 người đánh giá. Tập dữ liệu này là một trong các tập dữ liệu lớn nhất về ngược đãi trực tuyến.
Dữ liệu không chỉ gồm bình luận công kích cá nhân trực tiếp mà còn liên quan đến bên thứ ba và công kích gián tiếp. Ví dụ: “Bạn thật tệ. Bob cực xấu. Sally nói rằng Bob rất tệ”. Sau khi được đào tạo, máy móc có thể xác định bình luận có công kích hay không giỏi bằng ba người kiểm duyệt.
Sau đó, nhóm dự án để thuật toán xem xét 63 triệu bình luận trên trang Wikipedia tiếng Anh, đăng tải trong 14 năm từ 2001 đến 2015 để tìm hình mẫu của các bình luận tiêu cực. Phát hiện được ghi chú trong Ex Machina, tài liệu về việc công kích cá nhân trên diện rộng.
Công nghệ của Wikipedia cho thấy nhiều thực tế thú vị: Gần 10% bình luận công kích được viết bởi chỉ 34 người dùng, người dùng ẩn danh chiếm 34% bình luận được viết trên Wikipedia, hơn nửa số bình luận công kích cá nhân được người dùng có đăng ký viết, dù người dùng ẩn danh có khuynh hướng công kích cao hơn gấp sáu lần.
Sau khi thuật toán giúp lọc rõ ai là người khiến trang Wikipedia trở nên “độc hại” hơn, tổ chức có thể tìm cách tốt nhất để chống sự tiêu cực. Dù Wikipedia vẫn cần con người kiểm duyệt, thuật toán có thể giúp lọc phần nào ý kiến và đánh dấu các bình luận cần con người duyệt lại.
Wikipedia cũng tạo Dịch vụ Đánh giá Sửa đổi Khách quan (hệ thống ORES) để tạo ra môi trường công bằng cho người đóng góp, biên tập viên kỳ cựu lẫn người đóng góp, biên tập viên mới. ORES đóng vai trò như hệ thống biên tập, được hỗ trợ bởi thuật toán được đào tạo để chấm điểm chất lượng thay đổi và chỉnh sửa.
Ngoài ra, AI còn được dùng để viết bài trên Wikipedia. Đội ngũ của Google Brain dạy phần mềm cách tóm tắt thông tin từ trang web, rồi viết thành bài theo kiểu của Wikipedia. Nỗ lực này cho thấy việc tóm tắt văn bản khó hơn nhiều người nghĩ. Cố gắng để máy móc tóm tắt nội dung của Google Brain chỉ khá hơn một chút so với nhiều đợt thử nghiệm trước đó. Máy móc còn phải học nhiều trước khi viết trôi chảy như con người. Nhìn chung, AI chưa thực sự sẵn sàng tự tạo nội dung, nhưng Wikimedia Foundation đang cố gắng để nó làm được thế trong tương lai.
Wikipedia đang cố gắng ứng dụng tối đa AI vào hoạt động. Máy móc có thể giúp phân tích dữ liệu lớn mà họ nhận được mỗi ngày. Thông tin và khả năng phân tích tốt hơn có thể giúp Wikipedia tạo chiến lược thành công nhằm khắc phục sự tiêu cực từ cộng đồng, sửa chữa vấn đề tuyển dụng cho những người đóng góp.
Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.