Phƣơng pháp sử dụng trí tuệ nhân tạo

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 136 - 139)

CHƢƠNG 5 NHẬN DẠNG TIẾNG NÓI

5.6. GIỚI THIỆU MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG TIẾNG NÓ

5.6.3 Phƣơng pháp sử dụng trí tuệ nhân tạo

Ý tƣởng cơ bản của phƣơng pháp nhận dạng tín hiệu tiếng nói sử dụng trí tuệ nhân

tạo là biên dịch và kết hợp thông tin (hiểu biết) từ nhiều nguồn thơng tin và dùng nó để giải bài tốn. Do đó, chẳng hạn, phƣơng pháp sử dụng trí tuệ nhân tạo việc phân đoạn và gán nhãn có thể đƣợc gia tăng (augment) việc sử dụng thông tin âm học tổng quát với

thông tin về phonemic, thông tin về từ vựng, thông tin về cú pháp, thông tin về ngữ nghĩa, và thậm chí cả các thơng tin thực dụng (pragmatic knowledge). Để hiểu rõ, ta định nghĩa các nguồn thông tin khác nhau nhƣ sau:

- Thông tin âm học là các dữ kiện (evidence) các âm thanh (các đơn vị âm tiết định

nghĩa sẵn) đƣợc nói trên cơ sở các đo lƣờng phổ và sự có mặt hoặc khơng của đặc trƣng.

- Thơng tin từ vựng (lexical) là các thông tin về sự kết hợp giữa các dữ kiện âm học

để tạo thành các cấu trúc từ và đƣợc cụ thể hóa bởi một bộ từ vựng ánh xạ các âm thanh

vào các từ (hoặc tƣơng ứng tách các từ thành các âm tƣơng ứng).

- Thông tin cú pháp là các thông tin về sự kết hợp của các từ để tạo thành một dãy

đúng ngữ pháp (theo một mơ hình ngơn ngữ nào đó) chẳng hạn nhƣ các câu hoặc các

cụm từ.

- Thông tin ngữ nghĩa (semantic) là sự hiểu thơng tin nhằm có thể đánh giá đƣợc các câu hoặc các cụm từ mà nhất quán với tác vụ đang đƣợc thực hiện hoặc nhất quán với

các câu đã đƣợc giải mã trƣớc đó.

- Thông tin thực dụng là các thơng tin cho phép có khả năng suy diễn (inference) cần thiết nhằm giải quyết trƣờng hợp có sự mập mờ về nghĩa dựa trên hiểu biết rằng các từ hoặc cụm từ nào thƣờng đƣợc dùng nhiều hơn.

Để hiểu đúng về các khái niệm nguồn thông tin vừa đề cập cũng nhƣ hạn chế của

chúng, chúng ta xem xét các câu tiếng Anh sau: 1. Go to the refrigerator and get me a book. 2. The bears killed the rams.

3. Power plants colorless happily old.

4. Good ideas often run when least expected.

Ta thấy rằng, câu đầu tiên là một câu đúng về mặt cú pháp nhƣng không nhất quán về mặt ngữ nghĩa, sách không đƣợc mong chờ để ở tủ lạnh. Câu thứ hai tùy thuộc vào ngữ cảnh mà có nghĩa khác nhau. Ví dụ nếu ngữ cảnh là ở rừng thì nó miêu tả sự kiện

CHƢƠNG 5. NHẬN DNG TING NÓI

134

con gấu đã chiến thằng đội có tên là những con cừu. Câu thứ ba thì hồn tồn khơng

đúng cú pháp cũng nhƣ khơng có nghĩa. Câu thứ tƣ không nhất quán về mặt ngữ nghĩa,

tuy nhiên theo hiểu biết thực dụng có thể đơn giản thay đổi "run" thành "come" thì sẽ có

nghĩa mặc dù có chú khác biệt về mặt âm tiết.

Việc kết hợp các điều kiện hạn chế của các nguồn thông tin vừa kể sẽ cho phép hệ thống nhận dạng tín hiệu tiếng nói hoạt động với chất lƣợng cao hơn. Có nhiều cách kết hợp các nguồn thông tin vừa kể vào một hệ thống nhận dạng. Phƣơng pháp đầu tiên phổ biến nhất có thể kể đến là bộ xử lý "bottom-up" đƣợc trình bày trong hình 5.12.

Hình 5.12 Phƣơng pháp tích hợp “bottom-up” của hệ thống nhận dạng tiếng nói Trong phƣơng pháp "bottom-up", các xử lý cấp thấp nhất (chẳng hạn nhƣ trích

chọn đặc trƣng, giải mã âm tiết, ...) đƣợc thực hiện trƣớc các phép xử lý cấp cao ( giải mã từ vụng, mơ hình ngơn ngữ, ...) theo một thứ tự nối tiếp sao cho điều kiện hạn chế của mỗi bƣớc xử lý là nhỏ nhất có thể. Một phƣơng pháp khác là phƣơng pháp xử lý "top-

Đơn vị tiếng nói Xử lý tín hiệu Trích chọn đặc trƣng Phân đoạn Gán nhãn Hợp âm Kiểm tra từ Kiểm tra từ Đơn vị tiếng nói đã đƣợc nhận dạng T hơng tin v ề cá c â m Các luật phân loại âm Các luật dãy âm Truy xuất từ vựng Mơ hình ngơn ngữ Hữu thanh/ Vơ thanh/

CHƢƠNG 5. NHẬN DNG TING NĨI

down". Trong phƣơng pháp này mô hình ngơn ngữ tạo ra các giả thuyết từ (word

hypotheses) phù hợp với tín hiệu tiếng nói, và tiếp theo là các câu với cú pháp và ngữ

nghĩa có nghĩa đƣợc xây dựng dựa trên số điểm đánh giá sự tƣơng đồng các từ. Sơ đồ phƣơng pháp xử lý "top-down" đƣợc trình bày trong hình 5.13. Một phƣơng pháp thứ ba

phải kể đến là phƣơng pháp "blackboard", đƣợc mơ tả trong hình 5.14. Ở phƣơng pháp này, tất các các nguồn kiến thức đƣợc xem xét một các độc lập, một lƣợc đồ giả thiêt-và- kiểm tra có nhiệm vụ thực hiện việc thông tin giữa các nguồn thông tin. Mỗi nguồn thông tin là một nguồn điều khiển dữ liệu dựa trên sự xuất hiện của các mẫu trên "blackboard"

mà tƣơng đồng với các mẫu (template) đƣợc quy định bởi nguồn thơng tin đó. Hệ thống

hoạt động theo chế độ cận đồng bộ, các hàm định giá, các xem xét sử dụng và một chính

sách đánh giá tồn cục kết hợp và lan truyền việc đánh giá ở mọi mức độ.

Hình 5.13 Phƣơng pháp tích hợp “top-down” của hệ thống nhận dạng tiếng nói

Hình 5.14 Phƣơng pháp tích hợp “blackboard” của hệ thống nhận dạng tiếng nói

Tiếng nói Phân tích

đặc trƣng Hệ thống so sánh đơn vị Các giả thiết từ vựng Các giả thiết cú pháp Các giả thiết ngữ nghĩa

Bộ kiểm tra/ so sánh đơn vị

tiếng nói Đơn vị tiếng nói đã

đƣợc nhận dạng Tạo ra các khối đơn vị nhận dạng Từ điển từ Ngữ pháp Mơ hình tác vụ Xử lý âm học Xử lý điều kiện môi trƣờng Xử lý từ vựng Bảng Xử lý ngữ nghĩa Xử lý cú pháp

CHƢƠNG 5. NHẬN DNG TING NÓI

136

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 136 - 139)

Tải bản đầy đủ (PDF)

(155 trang)