Phƣơng pháp sử dụng trí tuệ nhân tạo

ˆm w mm

5.6.3 Phƣơng pháp sử dụng trí tuệ nhân tạo

Ý tƣởng cơ bản của phƣơng pháp nhận dạng tín hiệu tiếng nói sử dụng trí tuệ nhân tạo là biên dịch và kết hợp thông tin (hiểu biết) từ nhiều nguồn thông tin và dùng nó để giải bài toán. Do đó, chẳng hạn, phƣơng pháp sử dụng trí tuệ nhân tạo việc phân đoạn và gán nhãn có thể đƣợc gia tăng (augment) việc sử dụng thông tin âm học tổng quát với thông tin về phonemic, thông tin về từ vựng, thông tin về cú pháp, thông tin về ngữ nghĩa, và thậm chí cả các thông tin thực dụng (pragmatic knowledge). Để hiểu rõ, ta định nghĩa các nguồn thông tin khác nhau nhƣ sau:

- Thông tin âm học là các dữ kiện (evidence) các âm thanh (các đơn vị âm tiết định nghĩa sẵn) đƣợc nói trên cơ sở các đo lƣờng phổ và sự có mặt hoặc không của đặc trƣng.

- Thông tin từ vựng (lexical) là các thông tin về sự kết hợp giữa các dữ kiện âm học để tạo thành các cấu trúc từ và đƣợc cụ thể hóa bởi một bộ từ vựng ánh xạ các âm thanh vào các từ (hoặc tƣơng ứng tách các từ thành các âm tƣơng ứng).

- Thông tin cú pháp là các thông tin về sự kết hợp của các từ để tạo thành một dãy đúng ngữ pháp (theo một mô hình ngôn ngữ nào đó) chẳng hạn nhƣ các câu hoặc các cụm từ.

- Thông tin ngữ nghĩa (semantic) là sự hiểu thông tin nhằm có thể đánh giá đƣợc các câu hoặc các cụm từ mà nhất quán với tác vụ đang đƣợc thực hiện hoặc nhất quán với các câu đã đƣợc giải mã trƣớc đó.

- Thông tin thực dụng là các thông tin cho phép có khả năng suy diễn (inference) cần thiết nhằm giải quyết trƣờng hợp có sự mập mờ về nghĩa dựa trên hiểu biết rằng các từ hoặc cụm từ nào thƣờng đƣợc dùng nhiều hơn.

Để hiểu đúng về các khái niệm nguồn thông tin vừa đề cập cũng nhƣ hạn chế của chúng, chúng ta xem xét các câu tiếng Anh sau:

1. Go to the refrigerator and get me a book. 2. The bears killed the rams.

3. Power plants colorless happily old.

4. Good ideas often run when least expected.

Ta thấy rằng, câu đầu tiên là một câu đúng về mặt cú pháp nhƣng không nhất quán về mặt ngữ nghĩa, sách không đƣợc mong chờ để ở tủ lạnh. Câu thứ hai tùy thuộc vào ngữ cảnh mà có nghĩa khác nhau. Ví dụ nếu ngữ cảnh là ở rừng thì nó miêu tả sự kiện gấu giết cừu, tuy nhiên nếu ta đang nói đến bóng đá có thể hiểu là đội có tên là những

CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI

con gấu đã chiến thằng đội có tên là những con cừu. Câu thứ ba thì hoàn toàn không đúng cú pháp cũng nhƣ không có nghĩa. Câu thứ tƣ không nhất quán về mặt ngữ nghĩa, tuy nhiên theo hiểu biết thực dụng có thể đơn giản thay đổi "run" thành "come" thì sẽ có nghĩa mặc dù có chú khác biệt về mặt âm tiết.

Việc kết hợp các điều kiện hạn chế của các nguồn thông tin vừa kể sẽ cho phép hệ thống nhận dạng tín hiệu tiếng nói hoạt động với chất lƣợng cao hơn. Có nhiều cách kết hợp các nguồn thông tin vừa kể vào một hệ thống nhận dạng. Phƣơng pháp đầu tiên phổ biến nhất có thể kể đến là bộ xử lý "bottom-up" đƣợc trình bày trong hình 5.12.

Hình 5.12 Phƣơng pháp tích hợp “bottom-up” của hệ thống nhận dạng tiếng nói Trong phƣơng pháp "bottom-up", các xử lý cấp thấp nhất (chẳng hạn nhƣ trích chọn đặc trƣng, giải mã âm tiết, ...) đƣợc thực hiện trƣớc các phép xử lý cấp cao ( giải mã từ vụng, mô hình ngôn ngữ, ...) theo một thứ tự nối tiếp sao cho điều kiện hạn chế của mỗi bƣớc xử lý là nhỏ nhất có thể. Một phƣơng pháp khác là phƣơng pháp xử lý "top-

Đơn vị tiếng nói

Xử lý tín hiệu Trích chọn đặc trƣng Phân đoạn Gán nhãn Hợp âm Kiểm tra từ Kiểm tra từ

Đơn vị tiếng nói đã đƣợc nhận dạng T hông ti n về c ác â m

Các luật phân loại âm

Các luật dãy âm

Truy xuất từ vựng

Mô hình ngôn ngữ Hữu thanh/ Vô thanh/

down". Trong phƣơng pháp này mô hình ngôn ngữ tạo ra các giả thuyết từ (word hypotheses) phù hợp với tín hiệu tiếng nói, và tiếp theo là các câu với cú pháp và ngữ nghĩa có nghĩa đƣợc xây dựng dựa trên số điểm đánh giá sự tƣơng đồng các từ. Sơ đồ phƣơng pháp xử lý "top-down" đƣợc trình bày trong hình 5.13. Một phƣơng pháp thứ ba phải kể đến là phƣơng pháp "blackboard", đƣợc mô tả trong hình 5.14. Ở phƣơng pháp này, tất các các nguồn kiến thức đƣợc xem xét một các độc lập, một lƣợc đồ giả thiêt-và- kiểm tra có nhiệm vụ thực hiện việc thông tin giữa các nguồn thông tin. Mỗi nguồn thông tin là một nguồn điều khiển dữ liệu dựa trên sự xuất hiện của các mẫu trên "blackboard" mà tƣơng đồng với các mẫu (template) đƣợc quy định bởi nguồn thông tin đó. Hệ thống hoạt động theo chế độ cận đồng bộ, các hàm định giá, các xem xét sử dụng và một chính sách đánh giá toàn cục kết hợp và lan truyền việc đánh giá ở mọi mức độ.

Hình 5.13 Phƣơng pháp tích hợp “top-down” của hệ thống nhận dạng tiếng nói

Hình 5.14 Phƣơng pháp tích hợp “blackboard” của hệ thống nhận dạng tiếng nói

Tiếng nói Phân tích đặc trƣng

Hệ thống so

sánh đơn vị Các giả thiết từ vựng Các giả thiết cú pháp Các giả thiết ngữ nghĩa

Bộ kiểm tra/ so sánh đơn vị

tiếng nói

Đơn vị tiếng nói đã đƣợc nhận dạng Tạo ra các khối đơn vị nhận dạng Từ điển từ Ngữ pháp Mô hình tác vụ Xử lý âm học Xử lý điều kiện môi trƣờng Xử lý từ vựng Bảng Xử lý ngữ nghĩa Xử lý cú pháp

CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI

Phƣơng pháp sử dụng trí tuệ nhân tạo

Phân tích MFCC trong nhận dạng tiếng nó

Bộ phân loại các âm vị nguyên âm