Phƣơng pháp sử dụng trí tuệ nhân tạ o

Ý tƣởng cơ bản của phƣơng pháp nhận dạng tín hiệu tiếng nói sử dụng trí tuệ nhân tạo là biên dịch và kết hợp thông tin (hiểu biết) từ nhiều nguồn thông tin và dùng nó để

giải bài toán. Do đó, chẳng hạn, phƣơng pháp sử dụng trí tuệ nhân tạo việc phân đoạn và gán nhãn có thể đƣợc gia tăng (augment) việc sử dụng thông tin âm học tổng quát với thông tin về phonemic, thông tin về từ vựng, thông tin về cú pháp, thông tin về ngữnghĩa,

và thậm chí cả các thông tin thực dụng (pragmatic knowledge). Để hiểu rõ, ta định nghĩa

các nguồn thông tin khác nhau nhƣ sau:

- Thông tin âm học là các dữ kiện (evidence) các âm thanh (các đơn vị âm tiết định

nghĩa sẵn) đƣợc nói trên cơ sởcác đo lƣờng phổ và sự có mặt hoặc không của đặc trƣng.

- Thông tin từ vựng (lexical) là các thông tin về sự kết hợp giữa các dữ kiện âm học

để tạo thành các cấu trúc từvà đƣợc cụ thể hóa bởi một bộ từ vựng ánh xạ các âm thanh vào các từ (hoặc tƣơng ứng tách các từthành các âm tƣơng ứng).

- Thông tin cú pháp là các thông tin về sự kết hợp của các từđể tạo thành một dãy

đúng ngữ pháp (theo một mô hình ngôn ngữ nào đó) chẳng hạn nhƣ các câu hoặc các cụm từ.

- Thông tin ngữ nghĩa (semantic) là sự hiểu thông tin nhằm có thểđánh giá đƣợc các câu hoặc các cụm từ mà nhất quán với tác vụđang đƣợc thực hiện hoặc nhất quán với

các câu đã đƣợc giải mã trƣớc đó.

- Thông tin thực dụng là các thông tin cho phép có khả năng suy diễn (inference) cần thiết nhằm giải quyết trƣờng hợp có sự mập mờ vềnghĩa dựa trên hiểu biết rằng các từ hoặc cụm từnào thƣờng đƣợc dùng nhiều hơn.

Để hiểu đúng về các khái niệm nguồn thông tin vừa đề cập cũng nhƣ hạn chế của chúng, chúng ta xem xét các câu tiếng Anh sau:

1. Go to the refrigerator and get me a book. 2. The bears killed the rams.

3. Power plants colorless happily old.

4. Good ideas often run when least expected.

Ta thấy rằng, câu đầu tiên là một câu đúng về mặt cú pháp nhƣng không nhất quán về mặt ngữ nghĩa, sách không đƣợc mong chờ để ở tủ lạnh. Câu thứ hai tùy thuộc vào ngữ cảnh mà có nghĩa khác nhau. Ví dụ nếu ngữ cảnh là ở rừng thì nó miêu tả sự kiện gấu giết cừu, tuy nhiên nếu ta đang nói đến bóng đá có thể hiểu là đội có tên là những

CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI

134

con gấu đã chiến thằng đội có tên là những con cừu. Câu thứ ba thì hoàn toàn không

đúng cú pháp cũng nhƣ không có nghĩa. Câu thứ tƣ không nhất quán về mặt ngữnghĩa,

tuy nhiên theo hiểu biết thực dụng có thể đơn giản thay đổi "run" thành "come" thì sẽ có

nghĩa mặc dù có chú khác biệt về mặt âm tiết.

Việc kết hợp các điều kiện hạn chế của các nguồn thông tin vừa kể sẽ cho phép hệ

thống nhận dạng tín hiệu tiếng nói hoạt động với chất lƣợng cao hơn. Có nhiều cách kết hợp các nguồn thông tin vừa kể vào một hệ thống nhận dạng. Phƣơng pháp đầu tiên phổ

biến nhất có thể kểđến là bộ xử lý "bottom-up" đƣợc trình bày trong hình 5.12.

Hình 5.12 Phƣơng pháp tích hợp “bottom-up” của hệ thống nhận dạng tiếng nói

Trong phƣơng pháp "bottom-up", các xử lý cấp thấp nhất (chẳng hạn nhƣ trích

chọn đặc trƣng, giải mã âm tiết, ...) đƣợc thực hiện trƣớc các phép xử lý cấp cao ( giải mã từ vụng, mô hình ngôn ngữ, ...) theo một thứ tự nối tiếp sao cho điều kiện hạn chế của mỗi bƣớc xử lý là nhỏ nhất có thể. Một phƣơng pháp khác là phƣơng pháp xử lý "top-

Đơn vị tiếng nói Xử lý tín hiệu Trích chọn đặc trƣng Phân đoạn Gán nhãn Hợp âm Kiểm tra từ Kiểm tra từ Đơn vị tiếng nói đã đƣợc nhận dạng T hông tin v ề cá c â m Các luật phân loại âm Các luật dãy âm Truy xuất từ vựng Mô hình ngôn ngữ (adsbygoogle = window.adsbygoogle || []).push({});

Hữu thanh/ Vô thanh/ Khoảng lặng

CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI

down". Trong phƣơng pháp này mô hình ngôn ngữ tạo ra các giả thuyết từ (word hypotheses) phù hợp với tín hiệu tiếng nói, và tiếp theo là các câu với cú pháp và ngữ nghĩa có nghĩa đƣợc xây dựng dựa trên số điểm đánh giá sự tƣơng đồng các từ. Sơ đồ phƣơng pháp xử lý "top-down" đƣợc trình bày trong hình 5.13. Một phƣơng pháp thứ ba phải kể đến là phƣơng pháp "blackboard", đƣợc mô tả trong hình 5.14. Ở phƣơng pháp

này, tất các các nguồn kiến thức đƣợc xem xét một các độc lập, một lƣợc đồ giả thiêt-và- kiểm tra có nhiệm vụ thực hiện việc thông tin giữa các nguồn thông tin. Mỗi nguồn thông tin là một nguồn điều khiển dữ liệu dựa trên sự xuất hiện của các mẫu trên "blackboard"

mà tƣơng đồng với các mẫu (template) đƣợc quy định bởi nguồn thông tin đó. Hệ thống hoạt động theo chếđộ cận đồng bộ, các hàm định giá, các xem xét sử dụng và một chính

sách đánh giá toàn cục kết hợp và lan truyền việc đánh giá ở mọi mức độ.

Hình 5.13 Phƣơng pháp tích hợp “top-down” của hệ thống nhận dạng tiếng nói

Hình 5.14 Phƣơng pháp tích hợp “blackboard” của hệ thống nhận dạng tiếng nói Tiếng nói Phân tích

đặc trƣng Hsánh đơn vịệ thống so Các gitừ vựả thing ết Các gicú pháp ả thiết Các gingữnghĩaả thiết

Bộ kiểm tra/ so sánh đơn vị tiếng nói Đơn vị tiếng nói đã đƣợc nhận dạng Tạo ra các khối đơn vị nhận dạng Từđiển từ Ngữ pháp Mô hình tác vụ Xử lý âm học Xửlý điều kiện môi trƣờng Xử lý từ vựng Bảng Xử lý ngữnghĩa Xử lý cú pháp

CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI

136

Phƣơng pháp sử dụng trí tuệ nhân tạ o

Biểu diễn phổ tín hiệu tiếng nói

CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG