Các thành phần cơ bản của hệ thống nhậndạng tiếng nói dựa trên HMM

Một phần của tài liệu nhận dạng tiếng nói tiếng Việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 44 - 46)

trên HMM và mối liên hệ giữa chúng.

Chúng ta đã xem xét các phần cốt lõi của HMM áp dụng vào nhận dạng nhận dạng tiếng nói, bây giờ chúng ta hãy xem xét đến các thành phần cơ bản của hệ

thống của hệ thống nhận dạng dựa trên HMM: 1. Rút trích đặc trưng dữ liệu

2. Mô hình HMM âm học 3. Mô hình ngôn ngữ

4. Chiến lược tìm kiếm

Rút trích đặc trưng sẽ biến đổi các chuỗi tín hiệu số sóng âm thành chuỗi các vector quan sát O=o1,o2, …, oT. Mỗi vector Ot sẽ có từ 10 đên 40 thành phần, lưu giữ các thông tin của sóng âm. Quá trình rút trích đặc trưng sẽ được giới thiệu ở

phần sau. WN p1 p2 S2 S3 S4 Cấp độ từ Cấp độ network Cấp độ HMM

KHOA CNTT –

ĐH KHTN

Mô hình HMM âm học dùng các mô hình HMM để mô hình hóa các mẫu sóng âm của 1 đơn vị tiếng nói. Đơn vị này có thể là từ (âm tiết) hoặc các đơn vị

dưới từ (như âm vị). Mỗi HMM trong hệ thống mô hình hóa các thể hiện thực tế của 1 đơn vị tiếng nói. Đôi khi các đơn vị mô hình hóa (trong huấn luyện) lại khác so với các đơn vị trong nhận dạng. Ví dụ, trong hầu hết các hệ thống nhận dạng tiếng nói, đơn vị trong mô hình hóa là phones (là âm vị và 1 sốđơn vị không phải là tiếng nói) hay triphones (các âm vị phụ thuộc ngữ cảnh), trong khi đó đơn vị trong nhận dạng lại là từ (hoặc âm tiết). Nguyên nhân của việc này là vấn đề kỹ thuật. Do số

lượng từ là rất lớn (đối với Tiếng Việt là khoảng 8000 âm tiết) nên việc phân biệt trực tiếp trên các từ là không thể. Tuy nhiên các từ (hoặc âm tiết) lại được cấu thành từ một sốđơn vị cơ bản là âm vị, có số lượng nhỏ hơn nhiều. Vì vậy hầu hết các hệ

thống nhận dạng sẽ mô hình hóa các đơn vị dưới từ (sub-word) như âm vị trong khi

đó sẽ nhận dạng các từ dựa vào tìm kiếm các chuỗi âm vị tương ứng với nó. Các hệ

thống nhận dạng như vậy gọi là hệ thống nhận dạng dựa vào các đơn vị dưới từ

(sub-word based system).

Sự liên hệ giữa các trạng thái của HMM và không gian âm học (acoustic space) chính là hàm xác suất quan sát b (observation probability function), có 2 dạng cơ bản: rời rạc (discrete-density) và liên tục (continuous-density). Do đó sẽ có 2 loại mô hình HMM là mô hình HMM liên tục (CDHMM) và mô hình HMM rời rạc (DDHMM). Hệ thống DDHMM sử dụng nhiều bộ nhớ hơn nhưng lại tính toán nhanh hơn CDHMM. Các tham số của DDHMM và CDHMM đều được tính bởi thuật giải Baum-Welch.

Mô hình ngôn ngữ trong nhận dạng tiếng nói thể hiện sự chuyển tiếp có thể

xảy ra giữa các từ (âm tiết). Mô hình ngôn ngữ chứa các thông tin như các ràng buộc cú pháp của ngôn ngữ tự nhiên. Trong ứng dụng có 2 loại mô hình ngôn ngữ

thường được sử dụng, đó là mô hình ngôn ngữ luật thống kê và mô hình ngôn ngữ luật quyết định. Mô hình thống kê thường được sử dụng là mô hình word n-gram.

KHOA CNTT –

ĐH KHTN

bản của các cơ sở dữ liệu sóng âm (văn bản mô tả dãy các từ trong dữ liệu sóng âm). Xác suất chuyển dịch giũa các từ không thấy được trong quá trình huấn luyện do đó chúng ta có thể cho chúng các giá trị nhỏ nhằm cho phép xác định các xác suất chuyển dịch giữa các từ lúc kiểm tra chương trình trên dữ liệu test trong corpus. Loại mô hình ngôn ngữ còn lại là mô hình ngôn gữ luật quyết định, nó xác định tất cả các dịch chuyển hợp lệ giữa các từ. Các luật này có thể được huấn luyện từ các dữ liệu text hoặc có thể được tạo ra dựa vào các hệ thống nhận dạng khác trong đó mỗi câu sẽ tuân theo các qui tắc ngữ pháp nhất định.

Mô hình ngôn ngữ có 1 vai trò lớn trong nhận dạng tiếng nói. Đó là vì sự hạn chế của các mô hình âm học trong nhận dạng tiếng nói và số lượng kết hợp giữa các từ là rất lớn trong khi nếu có mô hình ngôn ngữ chúng ta có thể hạn chế số lượng kết hợp này xuống rất nhỏ. Do đó không gian tìm kiếm sẽ giảm xuống đáng kể nên tốc độ và độ chính xác của nhậndạng sẽ tăng lên rất nhiều đặc biệt khi chúng ta làm

đối với số lượng từ lớn. Sự thiết kế, cấu trúc toán học của mô hình ngôn ngữ, các phương pháp để xác định các tham số của chúng, sự tăng hiệu quả của hệ thống nhận dạng đượctrình bày trong nhiều tài liệu về mô hình ngôn ngữ (ví dụ, Shih et al., 1995).

Thành phần cuối cùng, chiến lược tìm kiếm, cũng là 1 thành phần rất quan trọng đối với độ chính xác, hiệu quả của hệ thống, và đối với sự cân bằng của 3 thành phần trên. Nó trở thành 1 thành phần vô cùng quan trọng khi số lượng tù nhận dạng rất lớn. Không gian tìm kiếm này bao gồm các sự kết hợp của tất cả các liên kết có thể giữa các âm vị và giữa các từ trong nhận dạng trên từđiển lớn. Các thuật toán tìm kiếm được thiết kế phụ thuộc vào từng công việc nhận dạng tiếng nói đặc thù. Thuật toán thường được sử dụng nhất trong tìm kiếm đó là thuật toán Viterbi.

Một phần của tài liệu nhận dạng tiếng nói tiếng Việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 44 - 46)

Tải bản đầy đủ (PDF)

(91 trang)