Lý do khiến đào tạo AI nói tiếng Việt là điều khó khăn

13/04/2024 08:43 GMT+7

Ngoài vấn đề ngữ pháp, dữ liệu tiếng Việt cũng rất phức tạp với hệ thống phương ngữ, từ lóng, từ mượn và các "biến thể" ngôn từ của GenZ khiến đội ngũ đào tạo AI gặp không ít trở ngại.

"Phong ba bão táp không bằng ngữ pháp Việt Nam" nên ngay cả người học, thậm chí người bản địa cũng không dễ để nắm rõ các thành phần của tiếng Việt. Độ khó càng tăng lên nhiều lần khi đụng tới mảng đào tạo (training) ngôn ngữ cho trí tuệ nhân tạo (AI) bởi sự phức tạp trong ngôn từ của người Việt.

Theo kỹ sư Trần Tuấn Minh - Trưởng nhóm nghiên cứu Language AI thuộc Trung tâm Nghiên cứu và Phát triển Samsung Việt Nam (SRV), đội ngũ kỹ sư Việt đã phải "vượt bão" nhằm đưa tiếng Việt trong thành 1 trong 13 ngôn ngữ đầu tiên được hỗ trợ trên công cụ Galaxy AI và xuất hiện trên thế hệ smartphone Galaxy S24 series vừa ra mắt hồi tháng 1.2024. Đáng nói, thời gian từ lúc triển khai tới khi hiện thực hóa chỉ có 4 tháng.

Tiếng Việt là một trong 13 ngôn ngữ được hỗ trợ sớm trên Galaxy AI

Tiếng Việt là một trong 13 ngôn ngữ được hỗ trợ sớm trên Galaxy AI

T.H

Trưởng nhóm kỹ sư cho biết tiếng Việt trên Galaxy AI được phát triển dựa trên ba trụ cột chính gồm nhận diện giọng nói (để chuyển sang văn bản), dịch sang ngôn ngữ khác, chuyển từ văn bản thành giọng nói. Được phát triển theo mô hình On-Device (hoạt động trực tiếp trên thiết bị) nên Galaxy AI tiếng Việt có thể phiên dịch theo thời gian thực mà không cần kết nối mạng internet. Điều này cũng góp phần tạo ra cuộc hội thoại liền mạch, gần như lập tức, không có độ trễ.

So với các ngôn ngữ như tiếng Anh, tiếng Trung Quốc, Pháp, Đức, Bồ Đào Nha, Tây Ban Nha… có độ phổ biến lớn trên thế giới, tiếng Việt ít được biết đến hơn, do đó nguồn dữ liệu rất hiếm. Các kỹ sư cũng gặp trở ngại khi phải tìm kiếm dữ liệu sạch, chuẩn và đáp ứng được vấn đề pháp lý (bản quyền).

Đội ngũ dự án gồm 30 kỹ sư phát triển trực tiếp và 45 người kiểm thử, đều là người Việt, nhưng đã có những thời điểm số lượng nhân sự lên tới hàng trăm kỹ sư nhằm tạo ra nhiều triệu bản ghi âm để đào tạo AI về vấn đề điều chỉnh, hiểu giọng nói. Chưa để đến sự hỗ trợ, tư vấn của những giảng viên, trưởng khoa ngôn ngữ tại các trường đại học ở Việt Nam cũng như đội ngũ chuyên gia.

Dữ liệu tiếng Việt cũng được đánh giá rất phức tạp như hệ thống phương ngữ chia theo vùng, miền, mỗi tỉnh lại có cách dùng từ, phát âm khác nhau, thậm chí yếu tố khác biệt này còn thể hiện rõ giữa các thôn, làng trong cùng một huyện. Bên cạnh đó là hệ thống từ lóng, từ đồng nghĩa, từ mượn và cả các từ mới được "sáng tạo" bởi thế hệ GenZ.

Đội kỹ sư Việt chỉ có 4 tháng để phát triển và đưa tiếng Việt lên Galaxy AI

Đội kỹ sư Việt chỉ có 4 tháng để phát triển và đưa tiếng Việt lên Galaxy AI

CTV

Bên cạnh việc huấn luyện AI trong phòng thí nghiệm, nhóm kỹ sư Việt cũng phải đưa chương trình ra môi trường thực tế để thử nghiệm, kiểm tra khả năng nghe, hiểu tại những nơi âm thanh phức tạp như Hồ Gươm (đông khách, xe cộ), trạm xe buýt, quán cà phê... "Càng được kiểm thử nhiều trong môi trường thực tế, độ chính xác của AI càng cao", anh Trần Tuấn Minh chia sẻ.

Galaxy AI cũng là dự án trí tuệ nhân tạo phát triển ngôn ngữ đầu tiên mang quy mô quốc tế có sự tham gia của gần như 100% kỹ sư Việt. Sau thành công của dự án, các kỹ sư kiểm thử AI Việt Nam đã được gửi sang nhiều quốc gia Đông Nam Á để hỗ trợ nước bạn về quy trình kiểm thử, vận hành AI.

Chia sẻ với truyền thông Việt Nam mới đây, ông Choi Joo Ho, Tổng giám đốc Tổ hợp Samsung Việt Nam đánh giá Galaxy AI có sự góp công rất lớn của những kỹ sư người Việt. Vị lãnh đạo đồng thời nhấn mạnh việc đưa tiếng Việt vào danh sách những ngôn ngữ hỗ trợ sớm trên công cụ trí tuệ nhân tạo này thể hiện tầm quan trọng của Việt Nam không chỉ với tư cách là một thị trường mà còn là nguồn sáng tạo và điểm nhấn về chuyên môn trong chiến lược toàn cầu của Samsung.

Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.