Hệ thống truy vấn thông tin tiếng nói IBM 2006- 123docz.net

Hình 31: Kiến trúc hệ thống STD của IBM

Ở hệ thống này, phần đánh chỉ mục được mô tả bao gồm bước nhận dạng và lập chỉ mục cho kết đầu ra của hệ nhận dạng. Dữ liệu chỉ mục được lưu dưới 2 dạng: chỉ mục mức từ và chỉ mục mức âm vị.

b. Bộđánh chỉ mục: Ở đây, kết quả đầu ra của hệ thống nhận dạng được đưa ra làm hai dạng: transcript mức từ và transcript mức âm vị. Công việc của bộ đánh chỉ mục là thưc hiện việc lập chỉ mục trên hai nguồn dữ liệu đầu vào này, và cho ra hai tập chỉ mục: tập chỉ mục mức từ và tập chỉ mục mức âm vị.

c. Bộ tìm kiếm

- Liệt kê các đơn vị (từ hoặc âm vị) được tìm thấy ứng với term truy vấn.

- Sắp xếp các đơn vị vừa nhận được theo trật từ mức độ phù hợp theo thời gian (khoảng cách giữa thời điểm bắt đầu của hai từ <0.5 s, và đối với đơn vị mức âm vị

- Tính điểm cho mỗi giả thuyết term tìm được.

- Quyết định term truy vấn có được phát hiện trong bộ dữ liệu đã cho hay không.

d. Đánh giá: Sử dụng việc tính điểm cho các truy vấn nhiều từ:

Ngưỡng quyết định được thiết lập thông qua phân tích đường cong DET của tập dữ liệu phát triển. Hệ thống sử dụng các ngưỡng khác nhau ứng với các loại nguồn dữ liệu khác nhau:

e. Kết quả: Hiệu năng hệ thống được cải thiện nhờ sử dụng lưới nhận dạng.

Các đặc tính của hệ thống - Kích thước chỉ mục: 0.3267 MB/HP - Thời gian đánh chỉ mục: 7.5627 HP/HS - Tốc độ tìm kiếm: 0.0041 sec.P/HS - Kích thước bộ chỉ mục: 1653.4297 MB Nhận xét:

Hệ thống sử dụng cách tiếp cận mới, kết hợp nhận thông tin tiếng nói mức từ và mức âm vị.

Hệ thống sử dụng thông tin từ Word Confusion Network (WCN):

- Mở rộng 1-best transcript với tất cả các giả thuyết WCN, sử dụng mức phù hợp và phân loại để quyết định kết quả nhận được.

- Xác suất bỏ sót từ được nói được cải thiện quan trọng nhờ đánh chỉ mục tất cả các giả thuyết trong mạng Word Cofusion Network thu được từ lưới kết quả của hệ thống nhận dạng.

CHƯƠNG 3. XÂY DỰNG HỆ THỐNG TRUY VẤN TIẾNG NÓI TIẾNG VIỆT

3.1. Phân tích hệ thống

Bài toán truy vấn thông tin tiếng nói được giải quyết bằng cách sử dụng kết quả đầu ra của hệ thống nhận dạng tiếng nói (Automatic Speech Recognision- ASR). Đầu ra của hệ thống nhận dạng tiếng nói sẽ được cấu hình sao cho sinh ra lưới kết quả chứa nhiều giả thuyết nhận dạng (N-Best) thay vì một kết quả tốt nhất (1-Best). Sử dụng lưới kết quả là do tỉ lệ lỗi từ tương đối cao của hệ thống nhận dạng, nếu chỉ dùng một kết quả nhận dạng tốt nhất thì trong nhiều trường hợp ta sẽ không tìm thấy thông tin, đồng thời việc sử dụng lưới kết quả trong truy vấn thông tin tiếng nói chính là kỹ thuật “dãn câu truy vấn và tài liệu”- một kỹ thuật được sử dụng trong tìm kiếm thông tin văn bản nhằm làm giảm sự không khớp giữa truy vấn và tài liệu. Như vậy, bài toán truy vấn thông tin trên dữ liệu tiếng nói WAV được đưa về bài toán đơn giản hơn, đó là bài toán tìm kiếm trên lưới kết quả nhận dạng.

Việc tìm kiếm thông tin sẽ không hiệu quả nếu tiến hành tìm kiếm trên tài liệu thô (các file lưới kết quả- lattice files). Do đó ta cần phải đánh chỉ mục cho lưới mức từ thu được. Việc đánh chỉ mục đơn giản là biến các file theo định dạng lưới chuấn (SLF) của HTK thành dạng dữ liệu có thể thực hiện việc tìm kiếm một cách dễ dàng. Có nhiều phương pháp để đánh chỉ mục, trong luận văn này tôi chọn forward index kết hợp inverted index.

Do vậy, hệ thống truy vấn thông tin tiếng nói được tập trung vào 3 vấn đề chính:

-Xây dựng module nhận dạng tiếng nói và cài đặt các tham số cần thiết -Lập chỉ mục cho dữ liệu tiếng nói

Hệ thống truy vấn thông tin tiếng nói IBM 2006

Giới thiệu truy vấn tiếng nói