Huấn luyện âm đơn

Một phần của tài liệu Nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình (Trang 36 - 42)

CHƯƠNG 2: NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC

3.2.2 Huấn luyện âm đơn

3.2.2.1 Xây dựng mô hình HMM

Một mô hình Markov ẩn gồm nhiều trạng thái, mỗi trạng thái sẽ tương ứng với một phân phối xác suất quan sát. Trong HTK, trạng thái đầu và trạng thái cuối là hai trạng thái không phát xạ quan sát. Bước đầu tiên trong huấn luyện HMM, ta xây dựng mô hình HMM mẫu với năm trạng thái trong đó có ba trạng thái phát xạ quan sát. Các tham số của mô hình này không quan trọng, mụcđích của nó làđịnh nghĩa một topology cho mô hình. Đối với một hệ thống dựa trên âm vị, topology tốt sẽ sử dụng ba trạng thái từ trái sang phải nhƣ dướiđây:

Định nghĩaở trên cho ta biết được kích thước mỗi vector đặc trưng là 39 gồm 13 vector MFCC_0, 13 hệ số delta và 13 hệ số acceleration. Các vector kỳ vòng (mean) và phương sai (variance) đều bằng nhau. Ma trận chuyển thường là ma trân đối xứng đƣợc định nghĩa bằng các giá trị phần tử của ma trận hoặc các giá trị trên đường chéo của ma trận. Nó không thể bằng rỗng và tổng giá trị trên mỗi hàng phải bằng 1. Ma trận này sẽ đƣợc thay đổi trong quá trình huấn luyện.

3.2.2.2 Khởi tạo ban đầu

Trước khi bắt đầu quá trình huấn luuyện, các tham số của HMM phải đƣợc khởi tạođúng với dữ liệu huấn luyện để cho phép giải thuật huấn luyện hội tụ nhanh và chính xác. HTK đƣa ra hai công cụ khác nhau để khởi tạo là Hinit và HCompv.

Với công cụ Hinit, nó sẽ khởi tạo mô hình HMM với dữ liệu huấn luyệnyêu cầuđã đƣợc gán nhãn thời gian sử dụng giải thuật Viterbi. Nguyên tắc cơ bản của Hinit phụ thuộc vào khái niệm HMM đểtạo ra các vectorđặc trƣng.

Lược đồ dướiđây mô tả cách thức hoạtđộng của nó:

Hình 3.2 Thut toán ca hàm HInit

Đầu tiên, giải thuật Viterbi được sử dụng để tìm chuỗi trạng thái tương ứngtốt nhất với mỗi mẫu huấn luyện và sau đó ƣớc lƣợng các tham số của HMM. Ảnh hưởng ngoài của giải thuật tìm kiếm Viterbi là nó sẽ tính xác suất giống nhau (likelihood) của dữ liệu huấn luyện và toàn bộ quá trình này sẽ đƣợc lặp lại cho tới khi không thể tăng đƣợc giá trị xác suất này nữa.

Do quá trình trên cần một số tham số HMM khởi tạo ban đầu để có thể thực hiện đƣợc nên Hinit giải quyết vấn đề này bằng cáchphân dữ liệu thành nhữngđoạn bằng nhau và gán nó với các trạng thái tương ứng. Tuy nhiên cách này chỉ dùng đƣợc với mô hình HMM có cấu trúc trái-phải còn với mô

hìnhHMM có cấu trúc ngẫu nhiên (egodic), việc phân đoạn này có thể bị vô hiệu và cần phải tìm một số cách tiếp cận khác để thực hiện.

Hình 3.3 Mô hình hot động ca HInit

Nếu bất kỳ trạng thái HMM nào có nhiều thành phần trộn thì các vector huấn luyện sẽ đƣợc kết hợp với thành phần trộn có xác suất giống nhau cao nhất.

Số vector kết hợp với mỗi thành phần trong một trạng thái có thể đƣợc sử dụng để ƣớc lƣợng các trọng số trộn. Trong quá trình phân cácđoạn bằng nhau, giải thuật phân cụm K-means đƣợc sử dụng để phân cụm các vector trong mỗi trạng thái.

Với công cụ HCompv, thay vì giới hạn của Hinit là phải cần các nhãn thời gian để khởi tạo thì HCompv sẽ khởi tạo các mô hình này đều bằng nhau. Việc này được gọi là huấn luyện khởi tạo phẳng (flat start), nó tương tự như giải thuật phânđoạn của Hinit để tạo tất cả các trạng thái của tất cả các mô hình có giá trị bằng nhau. Hình 3.3 mô tả cơ chế hoạtđộng của HCompv:

Hình 3.4 Mô hình hot động ca HCompV 3.2.2.3 Huấn luyện bằng HRest

HRest là công cụ cuối cùng trong bộ công cụ đƣợc thiết kế để tính toán riêng cho khối HMM. Hoạt động của nó tương tự như công cụ Hinit trừ việc khối mô hình HMM đầu vàođã đƣợc khởi tạo và nó sử dụng ƣớc lƣợng lại Baum-Welch thay cho việc huấn luyện bằng Viterbi.

Hình 3.5 Mô hình hot động ca HRest

Hoạt động này liên quan đến việc tìm kiếm xác suất của mỗi trạng thái trong một thờiđiểm sử dụng giải thuật Forward-Backward. Xác suất này sau đó đƣợc sử dụng để tạo ra trọng số trung bình cho các tham số HMM. Do đó, trong khi huấn luyện sử dụng giải thuật Viterbi đƣa ra quyếtđịnh mạnh tới mỗi vector huấn luyện đƣợc trạng thái tạo ra thì giải thuật Baum-Welch lạiđƣa ra quyếtđịnh yếu. Điều này có thể cóích khi ƣớc lƣợng HMM dựa trênâm vị vì thực tế không có ranh giới giữa cácâm trong tiếng nói và sử dụng quyếtđịnh yếu có thể thu đƣợc kết quả tốt hơn.

3.2.2.4 Huấn luyện nhúng bằng HERest

Trong khi huấn luyệnđơn làđủ cho việc xây dựng toàn bộ mô hình của từ và khởi tạo mô hình ban đầu sử dụng dữ liệu mồi đƣợc gán nhãn bằng tay thì các thủ tục huấn luyện HMM chính cho việc xây dựng hệ thống từ con lại xoay quanh khái niệm huấn luyện nhúng. Không giống nhƣ quá trìnhở trên, huấn luyện nhúng cập nhật đồng thời tất cả các mô hình HMM trong hệ thống sử dụng tất cả dữ liệu huấn luyện. Nó đƣợc thực hiện bởi công cụ HERest và không giống nhƣ HRest, nó chỉ thực hiện lặp lạiđúng một lần.

Hình 3.6 Hot động ca HERest

Trong Hình 3.6, HERest hoạt động nhƣ sau. Khi bắt đầu, nó sẽ tải toàn bộ tậpđịnh nghĩa HMM. Mỗi file huấn luyện phải đƣợc gắn với một file nhãn tương ứng của nó. HERest chỉ thực hiện với chuỗi các nhãnâm vị này và bỏ qua thông tin về nhãn thời gian. Do đó những phiên âm này có thể đƣợc tạo ra tự động từ bộ ngữ pháp và từđiển phátâm.

Công cụ HERest xử lý lần lƣợt từng file huấn luyện. Sau khi tải toàn bộ vào bộ nhớ, nó sử dụng phiên âm liên quan để tạo ra một tổ hợp mô hình HMM cho toàn bộ phátâm. Tổ hợp mô hình HMM này đƣợc tạo bằng cách nối liên tiếp các mô hình HMM của cácâm vị tương ứng với các nhãn trong phiên âm. Giải thuật Forward-Backward đƣợc áp dụng vào để tính toán và sau khi tất cả các file huấn luyện đƣợc xử lý, tham số ƣớc lƣợng mới đƣợc sinh ra và đƣợc cập nhật vào tập mô hình HMM đầu ra.

3.2.2.5 Gán nhãn cưỡng bức dữ liệu huấn luyện

Trong từđiển có chứa nhiều cách phát âm của một số từ, đặc biệt là các từ chức năng. Các mô hìnhâm đƣợc tạo ra cho đến thờiđiểm nàyđã có thể đƣợc sử dụng để sắp xếp lại dữ liệu huấn luyện và tạo bộ phiên âm mới. Nó cũng là khâu cuối cùng trong huấn luyện mô hình Markov ẩn của cácđơn vị nhận dạng độc lập ngữ cảnh. Theo đó thì phiên âm ở mức từ trong các lần huấn luyện trước sẽ đƣợc kết hợp với từđiểm phátâm để tạo ra phiên âm mớiở mứcâm vị. Điểm khác biệtt chính giữa hoạt động này là nó tạo ra phiên âm thích hợp nhất cho dữ liệuâm học.

Khi dữ liệuđã đƣợc gán nhãn cƣỡng bức, thủ tục HERest sẽ đƣợc thực hiện lại để huấn luyệnvà ƣớc lƣợng lại tập các tham số HMM.

Một phần của tài liệu Nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình (Trang 36 - 42)

Tải bản đầy đủ (PDF)

(54 trang)