4.2 Các quá trình xử lý cơ bản trong hệ thống HTK
4.2.4 Giai đoạn phân tích
Khi hệ thống nhận dạng tiếng nói dựa trên mô hình HMM đã đ−ợc tạo ra, nó cần đ−ợc đánh giá về độ chính xác của quá trình nhận dạng, cũng nh− hiệu năng làm việc của hệ thống. HTK cung cấp công cụ HResult để đánh giá kết quả của quá trình nhận dạng. HResult sẽ đọc tập các file nhãn (label file), file đầu ra của bộ nhận dạng và so sánh chúng với các file mô tả nội dung chuẩn (reference transcription files).
Ngoài ra, trong khi vận hành hệ thống HTK, khi chạy bất kỳ một công cụ nào và gặp lỗi hay các cảnh báo thì hệ thống đều đ−a ra các thông báo sơ bộ về lỗi hay
cảnh báo và mã của lỗi hay cảnh báo đó trên dòng lệnh. Dựa vào mã này chúng ta có thể tra cứu tài liệu để tìm ra cách giải quyết.
Trên đây là những nội dung ngắn gọn nh−ng tổng quan nhất về hệ thống HTK, một phần mềm miễn phí được xây dựng bởi nhóm kỹ sư trường đại học Cambridge. Do khuôn khổ có hạn của luận văn cũng nh− sự hạn hẹp về thời gian, luận văn không đề cập chi tiết tất cả các công cụ và cách hoạt động của chúng trong hệ thống HTK. Thiết nghĩ điều đó cũng không cần thiết bởi chúng ta hoàn toàn có thể download hệ thống HTK cũng nh− các tài liệu liên quan tại website [8]. Việc sử dụng các công cụ chính trong hệ thống HTK để giải quyết bài toán nhận dạng tiếng nói tiếng Việt liên tục sẽ đ−ợc trình bày trong ch−ơng tiếp theo của luận văn.
Ch − ơng 5: Sử dụng hệ thống HTK nhận dạng tiếng nói tiếng việt liên tục ở mức độ âm học
Các chương trước của luận văn đã trình bày các thông số đặc trưng cơ bản của tiếng nói, từ đó xem xét các kỹ thuật nhận dạng tiếng nói đang đ−ợc áp dụng và nghiên cứu trên thế giới hiện nay. Tiếp theo luận văn cũng đã trình bày mô hình Markov ẩn và việc ứng dụng mô hình này để giải quyết bài toán nhận dạng tiếng nói. Chương 3 xem xét các đặc trưng cơ bản của tiếng Việt, từ đó thấy được những vấn đề đặc thù riêng đối với bài toán nhận dạng tiếng nói tiếng Việt liên tục, cũng nh− là những vấn đề còn tồn đọng cần đ−ợc giải quyết khi xây dựng hệ thống nhận dạng tiếng nói tiếng Việt. Chương 4 của luận văn đã giới thiệu hệ thống HTK dưới góc độ là một bộ công cụ ứng dụng, đã đ−ợc sử dụng nhiều trong mục đích nhận dạng tiếng nói của nhiều ngôn ngữ khác nhau trên thế giới.
Từ trước đến nay, bài toán nhận dạng tiếng Việt đã được nhiều người quan tâm và giải quyết ở các mức độ khác nhau nh−: Nhận dạng số đếm tiếng Việt rời rạc/liên tục, nhận dạng từ tiếng Việt rời rạc/liên tục, nhận dạng cảm xúc trong tiếng Việt… Trong các ứng dụng nhận dạng tiếng nói nói chung, mô hình Markov ẩn liên tục tỏ ra phù hợp và cho hiệu năng cao hơn so với mô hình Markov ẩn rời rạc. Nh−
đã trình bày trong chương trước, mô hình này được xây dựng và hỗ trợ trong hệ thống nhận dạng tiếng nói HTK. Vì vậy giải pháp đ−ợc sử dụng ở đây là dùng hệ thống HTK để xây dựng hệ thống nhận dạng tiếng nói tiếng Việt liên tục có thanh
điệu.
Để xây dựng đ−ợc một hệ thống nhận dạng hoàn chỉnh, ngoài cơ sở dữ liệu tiếng nói ra, hệ thống cần có một cơ sở dữ liệu lớn về đặc tr−ng ngữ pháp và ngữ
nghĩa của ngôn ngữ (mô hình ngôn ngữ). Việc xây dựng mô hình ngôn ngữ là một công việc khó khăn và đòi hỏi mất nhiều thời gian. Vì vậy ở đây, hệ thống nhận dạng mới chỉ dừng lại ở mức độ nhận dạng âm học của tiếng nói tiếng Việt liên tục.
Mặc dù vậy, việc áp dụng hệ thống HTK vào bài toán nhận dạng tiếng nói tiếng Việt liên tục với các đặc tr−ng riêng đòi hỏi phải có sự linh hoạt và uyển
chuyển trong suốt quá trình xây dựng hệ thống, đặc biệt là trong bước xây dựng từ
điển phát âm và xây dựng mô hình HMM phù hợp với mô hình âm tiết tiếng Việt.
Điều này chúng ta sẽ thấy rõ hơn khi xét đến l−ợc đồ âm tiết của tiếng Việt.
Như trong chương 3 đã trình bày, cho đến nay vẫn chưa có sự thống nhất về việc xác định vị trí chính xác của thanh điệu trong âm tiết cũng nh− là l−ợc đồ âm tiết của tiếng Việt. Tuy nhiên, nổi bật hơn cả đó là quan điểm cho rằng thanh điệu là một thành tố của vần và quan điểm coi thanh điệu bao trùm lên âm chính của âm tiết. ứng với hai quan điểm trên, chúng ta sẽ có hai mô hình âm tiết khác nhau, đó là:
ắ Mô hình Di-phones Phụ âm đầu/âm tắc họng + Vần, trong đó thanh điệu của âm tiết đ ợc coi nh− − chỉ bao trùm lên phần Vần của từ, phần âm đầu bao gồm 22 phụ âm đầu của tiếng Việt và âm tắc họng.
ắ Mô hình Tri-phones Phụ âm đầu/âm tắc họng + Âm chính + Âm cuối, trong đó thanh điệu của âm tiết coi nh− chỉ bao trùm lên âm chính của từ, phần âm đầu bao gồm 22 phụ âm đầu của tiếng Việt và âm tắc họng, âm cuối có thể là một trong 6 phụ âm cuối (p, t, m, n, k, ng) hoặc 2 bán nguyên âm cuối (o, u) ; (y, i).
Để biết đ−ợc trong hai mô hình âm tiết trên, mô hình âm tiết nào tốt hơn đối với việc xây dựng mô hình âm vị phục vụ cho bài toán nhận dạng tiếng Việt, phần tiếp sau của luận văn sẽ đ−a ra kết quả nhận dạng ứng với cả hai mô hình này.
Ngoài ra, việc xây dựng mô hình âm vị trong các bài toán nhận dạng tiếng Việt liên tục còn cần đến kết quả của việc đánh giá có hay không có sự tồn tại của
âm tắc họng trong âm tiết tiếng Việt. Do đó, luận văn cũng sẽ đ−a ra kết quả nhận dạng với hai mô hình tương ứng với hai trường hợp này, đó là:
ắ Mô hình Di-phones Phụ âm đầu + Vần, trong đó thanh điệu đ−ợc coi nh − là một thành tố của Vần, phần âm đầu chỉ bao gồm 22 phụ âm đầu của tiếng Việt.
ắ Mô hình Di-phones Phụ âm đầu/âm tắc họng + Vần, trong đó thanh điệu
đ−ợc coi nh− là một thành tố của vần, phần âm đầu bao gồm 22 phụ âm
đầu của tiếng Việt và âm tắc họng.
Trước khi xem xét kết quả nhận dạng đối với các mô hình trên, chúng ta sẽ xem xét điều kiện tiến hành thí nghiệm và quá trình thực hiện thí nghiệm.