5. Nhiệm vụ nghiên cứu
1.2. Chuẩn bị dữ liệu
Đây là bƣớc quan trọng của đề tài, vì việc nhận diện dữ liệu có chính xác hay không phụ thuộc nhiều vào bƣớc nàỵ Các công việc của phần này bao gồm:
Thu âm: tiến hành thu âm thanh qua micro, đầu ra là các file âm thanh có định dạng là .wav có tần số là 16kHz, monọ
Tạo file phiên âm (transcript): các file này có định dạng text đã đƣợc mã hóa tƣơng ứng với các file âm thanh đã thu âm.
Tạo từ điển phát âm: với mỗi từ trong file phiên âm ở trên chúng ta phải liệt kê nó trong từ điển phát âm - miêu tả cách phát âm của từ đó.
Tạo file chứa âm vị: liệt kê toàn bộ các âm vị đã sử dụng ở từ điển phát âm Tạo danh sách các file huấn luyện và test.
Để việc huấn luyện đƣợc tốt thì Sphinx có một số khuyến nghị:
Cần huấn luyện với ngôn ngữ mới, vì Sphinx đã huấn luyện thành công với một số ngôn ngữ phổ biến nhƣ: Anh, Pháp, Trung. Những dữ liệu này đã đƣợc huấn luyện tối ƣu với các hoàn cảnh khác nhau nhƣ: hội thoại, trực tiếp hay điện tín.
Phải có đủ dữ liệu để huấn luyện:
o Nhận dạng dữ liệu một ngƣời nói với các từ đơn giản: 1 giờ.
o Nhận dạng dữ liệu nhiều ngƣời nói với các từ đơn giản: 5 giờ thu âm của 200 ngƣờị
19
o Nhận dạng dữ liệu một ngƣời nói với số số lƣợng từ vựng nhiều: 10 giờ.
o Nhận dạng dữ liệu nhiều ngƣời nói với số lƣợng từ vựng nhiều: 50 giờ thu âm của 200 ngƣờị
Phải có kiến thức về ngữ âm.
Phải có thời gian huấn luyện và tối ƣu tham số (1 tháng).
1.2.1. Thu âm
Để việc huấn luyện dữ liệu đƣợc chuẩn hóa và dễ cho việc thống kê, việc thu âm đƣợc thực hiện qua phần mềm thu âm của thầy TS. Nguyễn Hồng Quang. Phần mềm có 5 chủ đề: đời sống, kinh doanh, khoa học, ô tô- xe máy, pháp luật.
Hình 2.2 Phần mềm thu âm
Ngoài ra có thể dùng phần mềm thu âm khác, với điều kiện file thu âm là file wav, 16kHz, 16 bit, monọ
1.2.2. File phiên âm (Transcription file)
Với Sphinx phải tạo hai file phiên âm: một dùng để huấn luyện và một dùng để test. Cấu trúc của file phiên âm là dạng text nhƣng đƣợc mã hóạ Nội dung file phiên âm phụ thuộc vào file âm thanh đã đƣợc thu âm.
20
Nội dung của file phiên âm gồm nhiều dòng. Ví dụ:
o <s> LA2 HA3NG PHA4I TRA4 SO85_TIE82N LO95N THU95_HAI TRONG LI6CH_SU94 </s> (ox0329)
o (ox0329): liệt kê dòng text này ứng với tên file .wav nào, mỗi file .wav chỉ nên chứa tối đa 2 câụ
o Nội dung text phải nằm giữa <s> và </s> , đƣợc viết in hoa toàn bộ.
o Vì Sphinx không hiểu các ký tự đặc biệt, nên ta phải tiến hành mã hóa văn bản.
Cách mã hóa văn bản phụ thuộc vào các chiến lƣợc nhận dạng nhƣ: nhận dạng có thanh điệu, không thanh điệu hoặc từ đa âm tiết. Nhƣng cơ bản sẽ thực hiện các bƣớc sau:
Hình 2.3 Các bƣớc mã hóa văn bản
Mã hóa văn bản có thanh sắc: Giả sử ta có đoạn văn bản:
LÀ HÃNG PHẢI TRẢ SỐ TIỀN LỚN THỨ HAI TRONG LỊCH SỬ Với VIQR tiếng Việt sẽ đƣợc mã hóa nhƣ sau:
21
Bảng 2.1: Thanh điệu trong VIQR
Phím Dấu
' (single quote) sắc
` (grave accent) huyền
? hỏi
~ (tilde) Ngã
. (full stop) nặng
^ dấu mũ trong các chữ â, ê, ô
+ dấu móc trong các chữ ƣ, ơ
( dấu trăng trong chữ ă
Dd chữ đ
0 xóa dấu thanh
\ phím thoát dấu
Dùng Unikey mã hóa VIQR ta sẽ có:
LÀ HÃNG PHẢI TRẢ SỐ TIỀN LỚN THỨ HAI TRONG LỊCH SỬ Do trong chuỗi VIQR có các ký tự đặc biệt, nên ta sẽ thay thế số ký tự đặc biệt đó bằng số. Danh sách thay thế thể hiện ở bảng sau:
Bảng 2.2: Bảng mã thay thế các thanh điệu sử dụng trong đề tài
Ký hiệu Huyền Hỏi Ngã Nặng Sắc ^ ( +
Mã chuyển đổi 2 4 3 6 5 8 7 9
Sau khi tiến hành thay thế chuỗi ký tự đã mã hóa bằng VIQR, văn bản trở thành: LA2 HA3NG PHA4I TRA4 SO85_TIE82N LO95N THU95_HAI TRONG LI6CH_SU94
22
1.2.3. Tạo file từ điển
File từ điển chứa cách phát âm các từ. Để tạo đƣợc file từ điển, chúng ta cần có một số kiến thức nhất định về âm tiết tiếng Việt.
Ví dụ về file từ điển không chứa thanh điệu nhƣ sau:
A5NG A NG A5NH A NH A6CH A CH
1.2.4. Tạo file âm vị (phone)
File âm vị có đuôi là .phone, file này chứa tất cả các âm vị đƣợc mô tả trong từ điển phát âm. Nội dung của file đƣợc xây dựng bằng cách: lấy tất cả các âm vị trong file từ điển.
Nội dung của file âm vị có thể nhƣ sau:
A NG H NH
1.2.5. Tạo file chứa các tạp âm (Filler)
Trong các file phiên âm (transcript) có thể có chứa các tạp âm, ví dụ giữa 2 từ của ngƣời nói có các tiếng nhƣ: ừ, à hay các tiếng động bên ngoài nhƣ tiếng gõ tay xuống bàn, tiếng mở cửa, tiếng súng nổ…. những từ này cần phải liệt kê trong file Filler. Ví dụ nội dung file nhƣ sau:
+um+ ++um++ +noise+ ++noise++
23