Giới thiệu truy vấn tiếng nói - Truy vấn thông tin- 123docz.net

2.1.1. Khái niệm

Truy vấn tiếng nói là tìm tất cả sự xuất hiện của một term (một dãy các từ ngắn liền kề nhau, và có ý nghĩa về mặt ngữ pháp) trong một cơ sở dữ liệu tiếng nói tương đối lớn.

2.1.2. Mục đích của truy vấn tiếng nói

Giúp người dùng có thể truy vấn thông tin dữ liệu tiếng nói một cách nhanh chóng và chính xác trên một cơ sở dữ liệu khổng lồ từ nhiều nguồn và dạng khác nhau.

Truy vấn thông tin từ các nguồn âm thanh khác nhau (Audio mining)- đánh chỉ mục và tìm kiếm.

2.1.3. Các công việc cần thực hiện của hệ thống STD

- Đánh chỉ mục cho tập dữ liệu tiếng nói cần khai thác thông tin.

- Tìm tất cả sự xuất hiện của các terms (dãy các từ) xác định trong tập chỉ mục đó. - Một số lượng tương đối lớn các term tìm kiếm và các loại dữ liệu khác nhau

(tiếng nói được ghi âm tại các môi trường khác nhau..) sẽđược sử dụng để đánh giá công nghệ STD được sử dụng.

- Đánh giá chất lượng của hệ thống thông qua các tiêu chí: tốc độ của hệ thống, độ chính xác của hệ thống, và khả năng thi hành của hệ thống đối với các loại dữ liệu và các loại term khác nhau. Ứng với mỗi tiêu chí sẽ có các phép đo chuẩn khác nhau được đưa ra bởi tổ chức NIST.

2.1.4. Đặc điểm đầu vào đối với các term tìm kiếm

Một term bao gồm một hay nhiều từ liên tiếp được ghép nối với nhau theo một trật tựđúng ngữ pháp tương ứng với từng loại ngôn ngữ khác nhau.

Ví dụ đối với term Tiếng Việt: “sinh viên”, “giảng viên”, “chương trình đào tạo”, “quá trình học tập”…

2.1.5. Kết quảđầu ra của hệ thống STD

Đối với mỗi term được tìm kiếm, hệ thống sẽ đưa ra danh sách các giả thuyết với thông tin về thời điểm bắt đầu và kết thúc của term được phát hiện trong tập dữ liệu tiếng nói truy vấn.

Kèm theo đó là điểm về mức độ phù hợp của term, ngưỡng cho quyết định đưa ra kết quả. Các điểm sẽ có các công thức khác nhau và cùng được quy ước theo một chuẩn thống nhất. Các ngưỡng sẽ được đưa ra dựa theo kinh nghiệm, tùy theo loại dữ liệu, loại term khác nhau và công nghệ STD khác nhau.

2.1.6. Đánh giá chất lượng của hệ thống

• Độ chính xác

Độ chính xác của hệ thống STD sẽ được đánh giá qua các phép đo: tỉ lệ bỏ sót term (miss) và xác suất cảnh báo lỗi (false alarms).

) ( ) ( 1 ) ( q R q C q Pmiss = − ) ( ) ( ) ( 1 ) ( q R T q C q A q P specch FA − − − = { } ∑ = − − = Q q fa miss q P q P Q ATWV 1 ) ( * ) ( 1 1 β (theo NIST 2006, chọn β=1000)

R(q) là số lần thực tế xuất hiện term truy vấn q trong kho dữ liệu. A(q): số lần hệ thống phát hiện truy vấn q, C(q) là số lần hệ thống phát hiện đúng truy vấn q.

Tspeech là tổng thời gian tính bằng giây của các file âm thanh trong kho dữ liệu tiếng nói.

Vị trí của giả thuyết term được đưa ra sẽ được coi là chính xác nếu nó nằm trong phạm vi 0.5 giây xung quanh vị trí được tham chiếu chính xác, việc kiểm tra điều kiện được thỏa mãn như vậy sẽđược kết luật là một so khớp đúng.

• Hiệu năng của hệ thống

Hiệu năng của hệ thống sẽ được đánh giá theo độ chính xác tìm kiếm term đối với các danh mục term khác nhau và trên các loại dữ liệu nguồn khác nhau.

Do vậy, một hệ thống có thể rất mạnh khi khai thác với một số nguồn dữ liệu, nhưng đối với các nguồn khác thì không.

• Tốc độ của hệ thống

Tốc độ bao gồm tốc độ đánh chỉ mục và tốc độ tìm kiếm là yếu tố rất quan trọng trong ứng dụng. Sở dĩ, bộ máy tìm kiếm google gặt hái được nhiều thành công và là lựa chọn hàng đầu của người sử dụng là vì tốc độ tìm kiếm thông tin rất nhanh, thường khi người dùng gõ một từ khóa, bộ máy chỉ cần mất chưa đến 1/10 giây là có thể tìm ra các thông tin người dùng mong muốn, đối với ứng dụng truy vấn tiếng nói cũng vậy, để có thểứng dụng trong thực tế, thì ngoài độ chính xác tìm kiếm, thì tốc độ truy vấn cũng phải đạt được mức tối thiểu là có thể chấp nhận được (người dùng không phải chờ quá lâu khi tìm kiếm một bài phát biểu của thủ tướng có đề cập đến vấn đề cải cách giáo dục..).

2.2. Kiến trúc chung của một hệ truy vấn tiếng nói

Hình 27: Kiến trúc chung của hệ truy vấn tiếng nói

2.2.1. Bước tiền xử lý

Dữ liệu nguồn (thường là các file tiếng nói dạng wave, tốc độ lấy mẫu khoảng 16000Hz) được đánh chỉ mục, tức là dữ liệu tiếng nói được trích chọn ra các thông tin cần thiết, và được hệ thống tổ chức thành cơ sở dữ liệu khác để có thể tìm trên đó một cách nhanh chóng. Ở phần này, loại ngôn ngữ và loại dữ liệu nguồn đã được biết, thông tin về các term truy vấn chưa được cung cấp.

2.2.2. Tìm kiếm thông tin trên bộ chỉ mục

Ở bước tìm kiếm này, thông tin không được tìm kiếm trực tiếp trên dữ liệu tiếng nói, mà được tìm trên toàn bộ tập chỉ mục đã được tạo ra ở bước tiền xử lý, điều này làm tăng tốc độ tìm kiếm. Kết quả cần quan tâm ở bước này là: kích thước bộ chỉ mục, tốc độ đánh chỉ mục và tốc độ tìm kiếm.

2.3. Kiến trúc một số hệ thống truy vấn tiếng nói trên thế giới

Do nhu cầu tìm kiếm thông tin trên lượng dữ liệu tiếng nói khổng lồ ngày càng cao, viện tiêu chuẩn và công nghệ quốc gia của Mỹ (NIST) đã xây dựng một chương trình định giá (evaluation) ban đầu cho Truy vấn tiếng nói (Spoken Term Detection- STD). Mục đích là nghiên cứu và phát triển công nghệ tìm kiếm dãy các từ (có độ dài ngắn) một cách nhanh chóng và chính xác trong một cơ sở dữ liệu tiếng nói đa dạng và có kích thước khá lớn. Trong chương trình STD 2006 này,

NIST mời một số nhóm nghiên cứu tham gia, đồng thời cung cấp cho mỗi nhóm phần mềm tính điểm, tập dữ liệu tiếng nói chuẩn dùng để test hệ thống từ các loại nguồn dữ liệu khác nhau (cơ sở dữ liệu tiếng nói được lấy từ tin tức broadcast ,các cuộc nói chuyện điện thoại, và các cuộc nói chuyện tự do) với ba ngôn ngữ (tiếng Anh, tiếng Trung Quốc và tiếng Ả Rập). Mỗi bộ dữ liệu test lên tới 1000 giờ tiếng nói và khoảng 1000 term (mỗi term bao gồm một hay nhiều từ, term loại phổ biến, hay gặp, hay term loại ít xuất hiện…) truy vấn trên mỗi ngôn ngữ.

Vào ngày 14-15/12/2006, NIST đã tổ chức hội nghị quốc tế STD Evaluation Workshop sau khoảng ba tháng phát động chương trình tới một số khách mời, để cùng nhau xây dựng và nâng cao chất lượng hệ thống STD. Hội nghị đã đưa ra nhiều phương án khá hiệu quảđể giải quyết vấn đề truy vấn tiếng nói, một số thành viên đã đạt được kết quả bước đầu khá tốt. Sau đây, tôi xin trình bày 2 giải pháp khá tiêu biểu được đưa ra bởi hai thành viên tham dự: Tập đoàn IBM và công ty BNN:

2.3.1 Hệ thống STD của BBN a. Tổng quan hệ thống a. Tổng quan hệ thống

Hình 28: Kiến trúc hệ STD của BNN

- Byblos STT- Byblos Speech To Text: là hệ thống nhận dạng tiếng nói Byblos.

- Indexer: Module đánh chỉ mục trên các lưới âm vị và các transcripts.

- Detector: Module phát hiện (tìm kiếm) các terms cần truy vấn trên bộ chỉ mục vừa lập.

- Decider: Module quyết định, cụm từđược truy vấn có trong tập dữ liệu tiếng nói đã cho hay không.

- ATWV- Actual Term-Weighted Value: Là một phép đo giá trị trọng số của terms trong quá trình tìm kiếm, giá trị của nó sẽ quyết định kết quả đầu ra của hệ thống (có phát hiện được từ cần truy vấn hay không).

b. Cấu hình hệ thống STT

STT sinh ra một lưới các giả thuyết và một mô tả mức âm vị (phonetic lattices) cho mỗi file đầu vào.

Đặc trưng của hệ thống:

-Mô hình âm học: Được huấn luyện với 57.3 tiếng dữ liệu của tổ chức chuyên nghiên cứu về ngôn ngữ và công nghệ LDC.

-Mô hình ngôn ngữ: được huấn luyện dựa trên 250 tiếng dữ liệu, với 1.3M từ. - Từ điển: 38.5K từ điển, được xây dựng trên mức âm vị (có tất cả 39 âm vị)

và 100 cách phiên âm khác nhau.

-Tỉ lệ lỗi từ (Word Error Rate) là 42.32% trong trường hợp hệ thống được test trên tập dữ liệu STD Dev06- Tập dữ liệu tiếng nói được cung cấp bởi NIST.

c. Bộ lập chỉ mục Indexer

- Bộ lập chỉ mục tính toán trước các biểu ghi phát hiện từđơn (single – word detection record) từ lattices, lưu trữ như danh sách băm đã sắp xếp để tra cứu nhanh.

- Tính toán điểm xác suất trên mỗi cung

- Phát hiện cụm với từ giống nhau, thời gian gần nhau, và tính tổng điểm (hình 31).

Hình 29: Phát hiện cụm từ gần nhau trên lattice của BBN. Từ WITCH xuất hiện 2 lần trên lưới có thời gian gần nhau, nên được gộp lại và tính tổng điểm.

d. Cấu trúc của chỉ mục

Hình 30: Cầu trúc chỉ mục của BBN. Mỗi mục từ trong chỉ mục lưu thêm thông tin về file xuất hiện mục từ (ví dụ file3), thời gian bắt đầu (ví dụ: b=25.2), quãng thời gian tồn tại của từ (ví dụ d=0.1) và điểm xác suất của mục từ (ví dụ p=0.77)

e. Bộ phát hiện Detector

-Bộ phát hiện tạo ra một danh sách các ứng viên phát hiện được và sắp xếp theo điểm cho mỗi term tìm kiếm được cung cấp.

-Đối với single-word IV terms, tiến hành thu thập tầm thường từ index

-Đối với multi-word IV terms, tiến hành tìm kiếm chuỗi từ đơn đã phát hiện có thể chấp nhận được.

- Các sự phát hiện hợp thành phải thỏa mãn ràng buộc thời gian về sự kế liền. - Gán điểm hợp thành tối thiểu cho sự phát hiện đa từ.

- Ví dụ các ứng viên cho mục tìm kiếm là “bombing”.

Audio File Begin Duration Score

fsh_60262_exA 83.1 0.23 0.93 fsh_61228_exA 29.7 0.18 0.85 fsh_60844_exA 101.5 0.28 0.47 fsh_60650_exA 2.71 0.30 0.13 fsh_61228_exA 55.9 0.21 0.01

Bảng 2: Kết quảđầu ra cho term tìm kiếm của của BBN, Audio File là file xuất hiện mục từ

bombing, Begin là thời gian bắt đầu xuất hiện mục từ, duration là thời gian tồn tại của mục từ và score là điểm xác suất của mục từđó

f. Bộ quyết định Decider

- Bộ quyết định sẽ chọn và áp dụng một ngưỡng điểm cho mỗi danh sách để đưa ra quyết định YES/NO

g. Kết quả: Kết quả hoạt động của hệ thống được tóm tắt trong bảng sau:

Bảng 3: Kết quả hoạt động hệ thống STD của BBN

- Accuracy: Chỉ số mô tả khả năng phát hiện chính xác cụm từ trong tập dữ liệu đã cho.

- Search Speed: Tốc độ thực hiện tìm kiếm của bộ tìm kiếm. - Indexing time: Thời gian lập chỉ mục.

Nguồn dữ liệu ATWV

Dev06 0.515

DryRun 0.410

Eval06 0.3467

Bảng 4: Kết quả trên các loại nguồn dữ liệu truy vấn khác nhau của BBN

2.3.2. Hệ thống truy vấn thông tin tiếng nói IBM 2006 a. Tổng quan hệ thống a. Tổng quan hệ thống

Hình 31: Kiến trúc hệ thống STD của IBM

Ở hệ thống này, phần đánh chỉ mục được mô tả bao gồm bước nhận dạng và lập chỉ mục cho kết đầu ra của hệ nhận dạng. Dữ liệu chỉ mục được lưu dưới 2 dạng: chỉ mục mức từ và chỉ mục mức âm vị.

b. Bộđánh chỉ mục: Ở đây, kết quả đầu ra của hệ thống nhận dạng được đưa ra làm hai dạng: transcript mức từ và transcript mức âm vị. Công việc của bộ đánh chỉ mục là thưc hiện việc lập chỉ mục trên hai nguồn dữ liệu đầu vào này, và cho ra hai tập chỉ mục: tập chỉ mục mức từ và tập chỉ mục mức âm vị.

c. Bộ tìm kiếm

- Liệt kê các đơn vị (từ hoặc âm vị) được tìm thấy ứng với term truy vấn.

- Sắp xếp các đơn vị vừa nhận được theo trật từ mức độ phù hợp theo thời gian (khoảng cách giữa thời điểm bắt đầu của hai từ <0.5 s, và đối với đơn vị mức âm vị

- Tính điểm cho mỗi giả thuyết term tìm được.

- Quyết định term truy vấn có được phát hiện trong bộ dữ liệu đã cho hay không.

d. Đánh giá: Sử dụng việc tính điểm cho các truy vấn nhiều từ:

Ngưỡng quyết định được thiết lập thông qua phân tích đường cong DET của tập dữ liệu phát triển. Hệ thống sử dụng các ngưỡng khác nhau ứng với các loại nguồn dữ liệu khác nhau:

e. Kết quả: Hiệu năng hệ thống được cải thiện nhờ sử dụng lưới nhận dạng.

Các đặc tính của hệ thống - Kích thước chỉ mục: 0.3267 MB/HP - Thời gian đánh chỉ mục: 7.5627 HP/HS - Tốc độ tìm kiếm: 0.0041 sec.P/HS - Kích thước bộ chỉ mục: 1653.4297 MB Nhận xét:

Hệ thống sử dụng cách tiếp cận mới, kết hợp nhận thông tin tiếng nói mức từ và mức âm vị.

Hệ thống sử dụng thông tin từ Word Confusion Network (WCN):

- Mở rộng 1-best transcript với tất cả các giả thuyết WCN, sử dụng mức phù hợp và phân loại để quyết định kết quả nhận được.

- Xác suất bỏ sót từ được nói được cải thiện quan trọng nhờ đánh chỉ mục tất cả các giả thuyết trong mạng Word Cofusion Network thu được từ lưới kết quả của hệ thống nhận dạng.

CHƯƠNG 3. XÂY DỰNG HỆ THỐNG TRUY VẤN TIẾNG NÓI TIẾNG VIỆT

3.1. Phân tích hệ thống

Bài toán truy vấn thông tin tiếng nói được giải quyết bằng cách sử dụng kết quả đầu ra của hệ thống nhận dạng tiếng nói (Automatic Speech Recognision- ASR). Đầu ra của hệ thống nhận dạng tiếng nói sẽ được cấu hình sao cho sinh ra lưới kết quả chứa nhiều giả thuyết nhận dạng (N-Best) thay vì một kết quả tốt nhất (1-Best). Sử dụng lưới kết quả là do tỉ lệ lỗi từ tương đối cao của hệ thống nhận dạng, nếu chỉ dùng một kết quả nhận dạng tốt nhất thì trong nhiều trường hợp ta sẽ không tìm thấy thông tin, đồng thời việc sử dụng lưới kết quả trong truy vấn thông tin tiếng nói chính là kỹ thuật “dãn câu truy vấn và tài liệu”- một kỹ thuật được sử dụng trong tìm kiếm thông tin văn bản nhằm làm giảm sự không khớp giữa truy vấn và tài liệu. Như vậy, bài toán truy vấn thông tin trên dữ liệu tiếng nói WAV được đưa về bài toán đơn giản hơn, đó là bài toán tìm kiếm trên lưới kết quả nhận dạng.

Việc tìm kiếm thông tin sẽ không hiệu quả nếu tiến hành tìm kiếm trên tài liệu thô (các file lưới kết quả- lattice files). Do đó ta cần phải đánh chỉ mục cho lưới mức từ thu được. Việc đánh chỉ mục đơn giản là biến các file theo định dạng lưới chuấn (SLF) của HTK thành dạng dữ liệu có thể thực hiện việc tìm kiếm một cách dễ dàng. Có nhiều phương pháp để đánh chỉ mục, trong luận văn này tôi chọn forward index kết hợp inverted index.

Do vậy, hệ thống truy vấn thông tin tiếng nói được tập trung vào 3 vấn đề chính:

-Xây dựng module nhận dạng tiếng nói và cài đặt các tham số cần thiết -Lập chỉ mục cho dữ liệu tiếng nói

3.2. Sơđồ tổng quan hệ thống truy vấn thông tin tiếng nói Tiếng Việt

Hình 32: Kiến trúc hệ truy vấn tiếng nói tiếng Việt của luận văn

Trong sơ đồ trên, giai đoạn Indexing sẽđược thực hiện offline nhằm chuẩn bị cơ sở dữ liệu mức từ, phục vị giai đoạn tìm kiếm sau này. Module ASR là thành phần quan trọng nhất trong giai đoạn này, tôi sử dụng bộ công cụ HTK để xây dựng. Giai đoạn searching sẽ được thực hiện online khi có nhu cầu tìm kiếm từ người dùng.

3.2.1. ASR module

Module ASR được tôi xây dựng sử dụng bộ công cụ HTK, trong đó hai công