XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ SỐ TIẾNG NÓI TIẾNG VIỆT- 123docz.net

Quá trình xây dựng cơ sở dữ liệu tiếng nói là công đoạn tiền xử lý trước khi rút trích đặc trưng đưa vào giai đoạn huấn huyện dữ liệu. đây cũng là công đoạn mất nhiều thời gian và công sức.

Công việc xây dựng cơ sở dữ liệu tiếng nói : sau khi thu thập được tập dữ liệu tiếng nói thì tới công đoạn tiến hành kiểm tra, cắt bỏ và điều chỉnh để có được tập dữ liệu tốt hay còn gọi là tập dữ liệu sạch, không chứa các tạp âm, nhiễu và đọc sai từ trong mỗi mẫu huấn luyện.

Từ tập dữ liệu sạch công đoạn tiếp theo là thực hiện phiên dịch mỗi mẫu huấn luyện âm thanh với nội dung tướng ứng, ví dụ tập tin âm thanh có nội dung là số một thì phải thực hiện phiên dịch file text tương ứng có nội dung là số một, song song đó thực hiện bộ từ điển với tập dữ liệu âm thanh cần huấn luyện.

Tổng số các tập tin âm thanh xử lý là 2769 tập tin, tương ứng với 2769 mẫu âm thanh của người thu âm khác nhau.

Xây dựng tập từ điển với tập phonetic tương ứng làm tiền đề cho công việc huấn luyện.

Tạo tập tin grammar với nội dung như sau:

(SENT-START <$digit> SENT-END)

Tạo tập Tin dict như sau:

BA B A sp BARY B AR Y sp BOOSN B OOS N sp CHISN CH IS N sp DDUSNG DD US NG sp HAI H A I sp KHOONG KH OO NG sp LAJI L AJ I

SASU S AS U sp SENT-END [] sil SENT-START [] sil TASM T AS M sp TROWR TR OWR sp silence sil

Sử dụng công cụ HTK Xây dựng tập tinwordnet wdnet.txt như sau

>HParse gram.txt wdnet.txt

Đây là công cụ để tạo ra ma trận tìm kiếm từ phục vụ cho mô hình ngữ âm, cho công đoạn huấn luyện dữ liệu.

XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ SỐ TIẾNG NÓI TIẾNG VIỆT

PHÂN TÍCH CÔNG CỤ QUAN TRỌNG HTK

Mô hình ngôn ngữ trong HTK