Theo Neowin, IBM hiện đã đáp trả với tỷ lệ WER chỉ đạt 5,5%, con số được mô tả là gần như ngang bằng với con người.
“Đạt sức mạnh ngang bằng với con người (tỷ lệ nhận dạng lỗi ngang tầm với cuộc nói chuyện giữa hai người) từ lâu là mục tiêu cuối cùng của ngành công nghiệp. Chúng tôi đã đạt được kết quả tốt hơn với con số tỷ lệ lỗi thấp nhất so với những gì mà các công ty đạt được, chỉ ở mức 5,5%”, IBM cho biết trong một tuyên bố.
IBM nói rằng, để đạt được tỷ lệ WER ở mức 5,5%, công ty đã sử dụng công nghệ Long short-term memory (LSTM), mô hình cải tiến từ RNN thuộc họ Deep Learning chứa nhiều ưu điểm trong khả năng nhận diện đa ngôn ngữ. Kết hợp với LSTM còn có mô hình ngôn ngữ WaveNet với ba mô hình âm thanh mạnh mẽ. Điều này giúp cho khả năng nhận dạng giọng nói cải thiện so với các mô hình trước đây.
Mặc dù hiện đang giữ kỷ lục về tỷ lệ WER thấp nhất trong ngành công nghiệp nhận dạng giọng nói, nhưng IBM nói rằng công ty có kế hoạch tiếp tục cải thiện để tạo ra sự cân bằng với con người ở mức cao nhất.
Được biết, khả năng nhận dạng giọng nói của hệ thống IBM được tạo ra từ nền tảng mà hãng đã xây dựng sau hàng chục năm nghiên cứu. IBM khẳng định công ty sẽ hoàn thiện hệ thống theo hướng phù hợp với sự phức tạp của cách hấp thụ âm thanh từ tai người, giọng nói và sự tương tác với não bộ.
Bình luận (0)