Máy móc hiểu chúng ta mà không cần nghe giọng điệu

0
350

Hiểu từ ngữ từ cách thức ra hiệu môi là một bài toán khó, chịu ảnh hưởng bối cảnh và giá trị thông hiểu ngôn ngữ bằng cách thức tín hiệu giác quan mắt. Tuy nhiên, các nhà tìm hiểu đã cho thấy rằng máy móc có khả năng nhận dạng ngôn ngữ từ một đoạn video câm tốt hơn cả các người hiểu cách thức ra hiệu môi chuyên môn.

Nhóm tìm hiểu thuộc lãnh vực Khoa học laptop của đại học Oxford đã cải tiến hệ thống trí tuệ do chúng ta tạo ra mang tên LipNet. Hệ thống được xây dựng trên nhà xưởng thông tin GRID, tạo cho nên từ một loạt video trực tiếp về các người đang đọc các mẫu câu dễ dàng.

Nhóm đã sử dụng thông tin này để cải tiến một hệ thống nơ-ron kỹ thuật nhận diện ngôn ngữ. Dù hệ thống nhận diện sai lệch từ ngữ đa dạng lần, các giai đoạn học nhằm liên kết số liệu đến lý giải các gì đang được nói đã diễn ra, bởi lẽ tín hiệu môi không ngừng ít hơn số âm thanh mà chúng bày tỏ.

Từ đây, máy móc khởi đầu cân nhắc 100% đoạn video, cải tiến giá trị hiểu đoạn văn từ các câu được phân tách.

Khi thử nghiệm, hệ thống có khả năng nhận diện chính xác đến 93,4%. Trong khi đó, các tự nguyện viên được đề nghị đọc tín hiệu môi trong bài tập này đoán đúng chỉ 52,3% số từ.

Bên cạnh đó, theo tờ New Scientist, một nhóm khác thuộc lãnh vực Khoa học kĩ thuật của đại học Oxford, làm việc với Google DeepMind, đã tìm hiểu hư hỏng với một bài tập khó hơn về ngôn ngữ. Thay vì dùng nhà xưởng thông tin dễ dàng và quán triệt như GRID, nhóm này dùng đến 100.000 video ở cấp độ từ ngữ rộng và phát âm rối rắm từ đài BBC.

Với biện pháp tương tự, nhóm từ Oxford và DeepMind đã xây dựng một cỗ máy với giá trị nhận diện đúng 46,8% tất cả từ ngữ. Kết quả này cho thấy chúng thao tác tốt hơn cả chúng ta với chỉ 12,4% từ đúng.

Gác lại các biểu trưng, cả hai thử nghiệm cho thấy trí tuệ do chúng ta tạo ra hơn cả chúng ta trong nhận dạng ngôn ngữ từ tín hiệu môi, và không lâu nữa, chúng ta rồi sẽ tận mắt các app đầy tiềm năng cho lĩnh vực này.

Trong ngày tới, biết đâu Skype cũng sẽ sử dụng chúng bằng cách thức ghi lại lời thoại, khi người gọi đang ở một chốn náo nhiệt, hoặc người nghe gặp áp lực để giữ dế yêu và lắng nghe trọn vẹn đầu dây bên kia?

Facebook diệt chấp dứt ‘sub ảo’: Hà Hồ hay MC Phan Anh có còn kiếm bộn từ mạng cộng đồng?

zing