Phương pháp sử dụng trí tuệ nhân tạo

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 84 - 87)

Ý tưởng cơ bản của phương pháp nhận dạng tín hiệu tiếng nói sử dụng trí tuệ nhân tạo là biên dịch và kết hợp thông tin (hiểu biết) từ nhiều nguồn thông tin và dùng nó ñể giải bài toán. Do ñó, chẳng hạn, phương pháp sử dụng trí tuệ nhân tạo việc phân ñoạn và gán nhãn có thể ñược gia tăng (augment) việc sử dụng thông tin âm học tổng quát với thông tin về

phonemic, thông tin về từ vựng, thông tin về cú pháp, thông tin về ngữ nghĩa, và thậm chí cả các thông tin thực dụng (pragmatic knowledge). ðể hiểu rõ, chúng ta ñịnh nghĩa các nguồn thông tin khác nhau như sau:

- Thông tin âm học là các dữ kiện (evidence) các âm thanh (các ñơn vị âm tiết ñịnh nghĩa sẵn) ñược nói trên cơ sở các ño lường phổ và sự có mặt hoặc không của ñặc trưng.

- Thông tin từ vựng (lexical) là các thông tin về sự kết hợp giữa các dữ kiện âm học ñể tạo thành các cấu trúc từ và ñược cụ thể hóa bởi một bộ từ vựng ánh xạ các âm thanh vào các từ (hoặc tương ứng tách các từ thành các âm tương ứng).

- Thông tin cú pháp là các thông tin về sự kết hợp của các từñể tạo thành một dãy ñúng ngữ pháp (theo một mô hình ngôn ngữ nào ñó) chẳng hạn như các câu hoặc các cụm từ.

- Thông tin ngữ nghĩa (semantic) là sự hiểu thông tin nhằm có thể ñánh giá ñược các câu hoặc các cụm từ mà nhất quán với tác vụñang ñược thực hiện hoặc nhất quán với các câu ñã ñược giải mã trước ñó.

- Thông tin thực dụng là các thông tin cho phép có khả năng suy diễn (inference) cần thiết nhằm giải quyết trường hợp có sự mập mờ về nghĩa dựa trên hiểu biết rằng các từ hoặc cụm từ nào thường ñược dùng nhiều hơn.

ðể hiểu ñúng và các hạn chế của các khái niệm nguồn thông tin vừa ñề cập, chúng ta xem xét các câu tiếng Anh sau:

1) Go to the refrigerator and get me a book. 2) The bears killed the rams.

3) Power plants colorless happily old.

4) Good ideas often run when least expected.

Chúng ta thấy rằng, câu ñầu tiên là một câu ñúng về mặt cú pháp nhưng không nhất quán về mặt ngữ nghĩa, sách không ñược mong chờ ñểở tủ lạnh. Câu thứ hai tùy thuộc vào ngữ cảnh mà có nghĩa khác nhau. Ví dụ nếu ngữ cảnh là ở rừng thì nó miêu tả sự kiện gấu giết cừu, tuy nhiên nếu chúng ta ñang nói ñến bóng ñá có thể hiểu là ñội có tên là những con gấu ñã chiến thằng ñội có tên là những con cừu. Câu thứ ba thì hoàn toàn không ñúng cú pháp cũng như không có nghĩa. Câu thứ tư không nhất quán về mặt ngữ nghĩa, tuy nhiên theo hiểu biết thực dụng có thể ñơn giản thay ñổi "run" thành "come" thì sẽ có nghĩa mặc dù có chú khác biệt về mặt âm tiết.

Việc kết hợp các ñiều kiện hạn chế của các nguồn thông tin vừa kể sẽ cho phép hệ thống nhận dạng tín hiệu tiếng nói hoạt ñộng với chất lượng cao hơn. Có nhiều cách kết hợp các nguồn thông tin vừa kể vào một hệ thống nhận dạng. Phương pháp ñầu tiên phổ biến nhất có thể kể ñến là bộ xử lý "bottom-up" ñược trình bày trong hình 5.12. Trong phương pháp "bottom-up", các xử lý cấp thấp nhất (chẳng hạn như trích chọn ñặc trưng, giải mã âm tiết, ...) ñược thực hiện trước các phép xử lý cấp cao ( giải mã từ vụng, mô hình ngôn ngữ, ...) theo một thứ tự nối tiếp sao cho ñiều kiện hạn chế của mỗi bước xử lý là nhỏ nhất có thể. Một phương pháp khác là phương pháp xử lý "top-down". Trong phương pháp này mô hình ngôn ngữ tạo ra các giả thuyết từ (word hypotheses) phù hợp với tín hiệu tiếng nói, và tiếp theo là các câu với cú pháp và ngữ nghĩa có nghĩa ñược xây dựng dựa trên sốñiểm ñánh giá sự tương ñồng các từ. Sơ ñồ phương pháp xử lý "top-down" ñược trình bày trong hình 5.13. Một

Chương 5: Nhận dạng tiếng nói

phương pháp thứ ba phải kểñến là phương pháp "blackboard", ñược mô tả trong hình 5.14. Ở phương pháp này, tất các các nguồn kiến thức ñược xem xét một các ñộc lập, một lược ñồ giả thiêt-và-kiểm tra có nhiệm vụ thực hiện việc thông tin giữa các nguồn thông tin. Mỗi nguồn thông tin là một nguồn ñiều khiển dữ liệu dựa trên sự xuất hiện của các mẫu trên "blackboard" mà tương ñồng với các mẫu (template) ñược quy ñịnh bởi nguồn thông tin ñó. Hệ thống hoạt ñộng theo chếñộ cận ñồng bộ, các hàm ñịnh giá, các xem xét sử dụng và một chính sách ñánh giá toàn cục kết hợp và lan truyền việc ñánh giá ở mọi mức ñộ.

Hình 5.13 Phương pháp tích hợp “top-down” của hệ thống nhận dạng tiếng nói

Hình 5.14 Phương pháp tích hợp “blackboard” của hệ thống nhận dạng tiếng nói

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 84 - 87)