CHƢƠNG 5 NHẬN DẠNG TIẾNG NÓI
5.6. GIỚI THIỆU MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG TIẾNG NÓ
5.6.3 Phƣơng pháp sử dụng trí tuệ nhân tạo
Ý tƣởng cơ bản của phƣơng pháp nhận dạng tín hiệu tiếng nói sử dụng trí tuệ nhân
tạo là biên dịch và kết hợp thông tin (hiểu biết) từ nhiều nguồn thơng tin và dùng nó để giải bài tốn. Do đó, chẳng hạn, phƣơng pháp sử dụng trí tuệ nhân tạo việc phân đoạn và gán nhãn có thể đƣợc gia tăng (augment) việc sử dụng thông tin âm học tổng quát với
thông tin về phonemic, thông tin về từ vựng, thông tin về cú pháp, thông tin về ngữ nghĩa, và thậm chí cả các thơng tin thực dụng (pragmatic knowledge). Để hiểu rõ, ta định nghĩa các nguồn thông tin khác nhau nhƣ sau:
- Thông tin âm học là các dữ kiện (evidence) các âm thanh (các đơn vị âm tiết định
nghĩa sẵn) đƣợc nói trên cơ sở các đo lƣờng phổ và sự có mặt hoặc khơng của đặc trƣng.
- Thơng tin từ vựng (lexical) là các thông tin về sự kết hợp giữa các dữ kiện âm học
để tạo thành các cấu trúc từ và đƣợc cụ thể hóa bởi một bộ từ vựng ánh xạ các âm thanh
vào các từ (hoặc tƣơng ứng tách các từ thành các âm tƣơng ứng).
- Thông tin cú pháp là các thông tin về sự kết hợp của các từ để tạo thành một dãy
đúng ngữ pháp (theo một mơ hình ngơn ngữ nào đó) chẳng hạn nhƣ các câu hoặc các
cụm từ.
- Thông tin ngữ nghĩa (semantic) là sự hiểu thơng tin nhằm có thể đánh giá đƣợc các câu hoặc các cụm từ mà nhất quán với tác vụ đang đƣợc thực hiện hoặc nhất quán với
các câu đã đƣợc giải mã trƣớc đó.
- Thông tin thực dụng là các thơng tin cho phép có khả năng suy diễn (inference) cần thiết nhằm giải quyết trƣờng hợp có sự mập mờ về nghĩa dựa trên hiểu biết rằng các từ hoặc cụm từ nào thƣờng đƣợc dùng nhiều hơn.
Để hiểu đúng về các khái niệm nguồn thông tin vừa đề cập cũng nhƣ hạn chế của
chúng, chúng ta xem xét các câu tiếng Anh sau: 1. Go to the refrigerator and get me a book. 2. The bears killed the rams.
3. Power plants colorless happily old.
4. Good ideas often run when least expected.
Ta thấy rằng, câu đầu tiên là một câu đúng về mặt cú pháp nhƣng không nhất quán về mặt ngữ nghĩa, sách không đƣợc mong chờ để ở tủ lạnh. Câu thứ hai tùy thuộc vào ngữ cảnh mà có nghĩa khác nhau. Ví dụ nếu ngữ cảnh là ở rừng thì nó miêu tả sự kiện
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
134
con gấu đã chiến thằng đội có tên là những con cừu. Câu thứ ba thì hồn tồn khơng
đúng cú pháp cũng nhƣ khơng có nghĩa. Câu thứ tƣ không nhất quán về mặt ngữ nghĩa,
tuy nhiên theo hiểu biết thực dụng có thể đơn giản thay đổi "run" thành "come" thì sẽ có
nghĩa mặc dù có chú khác biệt về mặt âm tiết.
Việc kết hợp các điều kiện hạn chế của các nguồn thông tin vừa kể sẽ cho phép hệ thống nhận dạng tín hiệu tiếng nói hoạt động với chất lƣợng cao hơn. Có nhiều cách kết hợp các nguồn thông tin vừa kể vào một hệ thống nhận dạng. Phƣơng pháp đầu tiên phổ biến nhất có thể kể đến là bộ xử lý "bottom-up" đƣợc trình bày trong hình 5.12.
Hình 5.12 Phƣơng pháp tích hợp “bottom-up” của hệ thống nhận dạng tiếng nói Trong phƣơng pháp "bottom-up", các xử lý cấp thấp nhất (chẳng hạn nhƣ trích
chọn đặc trƣng, giải mã âm tiết, ...) đƣợc thực hiện trƣớc các phép xử lý cấp cao ( giải mã từ vụng, mơ hình ngơn ngữ, ...) theo một thứ tự nối tiếp sao cho điều kiện hạn chế của mỗi bƣớc xử lý là nhỏ nhất có thể. Một phƣơng pháp khác là phƣơng pháp xử lý "top-
Đơn vị tiếng nói Xử lý tín hiệu Trích chọn đặc trƣng Phân đoạn Gán nhãn Hợp âm Kiểm tra từ Kiểm tra từ Đơn vị tiếng nói đã đƣợc nhận dạng T hơng tin v ề cá c â m Các luật phân loại âm Các luật dãy âm Truy xuất từ vựng Mơ hình ngơn ngữ Hữu thanh/ Vơ thanh/
CHƢƠNG 5. NHẬN DẠNG TIẾNG NĨI
down". Trong phƣơng pháp này mô hình ngơn ngữ tạo ra các giả thuyết từ (word
hypotheses) phù hợp với tín hiệu tiếng nói, và tiếp theo là các câu với cú pháp và ngữ
nghĩa có nghĩa đƣợc xây dựng dựa trên số điểm đánh giá sự tƣơng đồng các từ. Sơ đồ phƣơng pháp xử lý "top-down" đƣợc trình bày trong hình 5.13. Một phƣơng pháp thứ ba
phải kể đến là phƣơng pháp "blackboard", đƣợc mơ tả trong hình 5.14. Ở phƣơng pháp này, tất các các nguồn kiến thức đƣợc xem xét một các độc lập, một lƣợc đồ giả thiêt-và- kiểm tra có nhiệm vụ thực hiện việc thông tin giữa các nguồn thông tin. Mỗi nguồn thông tin là một nguồn điều khiển dữ liệu dựa trên sự xuất hiện của các mẫu trên "blackboard"
mà tƣơng đồng với các mẫu (template) đƣợc quy định bởi nguồn thơng tin đó. Hệ thống
hoạt động theo chế độ cận đồng bộ, các hàm định giá, các xem xét sử dụng và một chính
sách đánh giá tồn cục kết hợp và lan truyền việc đánh giá ở mọi mức độ.
Hình 5.13 Phƣơng pháp tích hợp “top-down” của hệ thống nhận dạng tiếng nói
Hình 5.14 Phƣơng pháp tích hợp “blackboard” của hệ thống nhận dạng tiếng nói
Tiếng nói Phân tích
đặc trƣng Hệ thống so sánh đơn vị Các giả thiết từ vựng Các giả thiết cú pháp Các giả thiết ngữ nghĩa
Bộ kiểm tra/ so sánh đơn vị
tiếng nói Đơn vị tiếng nói đã
đƣợc nhận dạng Tạo ra các khối đơn vị nhận dạng Từ điển từ Ngữ pháp Mơ hình tác vụ Xử lý âm học Xử lý điều kiện môi trƣờng Xử lý từ vựng Bảng Xử lý ngữ nghĩa Xử lý cú pháp
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
136