Nội dung file wav bằng text – transcript (your_db_train.transcription)

Một phần của tài liệu Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển (Trang 68)

Đây là phần nội dung mà file wav mình thu âm được, để huấn luyện cho Sphinx hiểu những gì mình nói, thì mình cần cung cấp một file text để giúp cho Sphinx hiểu được mình nói gì và học từ đó. Cấu trúc một file transcript gồm nhiều dòng, mỗi một dòng là nội dung của một file wav kèm theo tên file wav đó. Vd:

<s> hello word </s> (file_1)

Lưu ý mỗi câu nói cần được bỏ trong tag <s> </s>.

Thực hiện tương tự với your_db_test.fileidsyour_db_test.transcription.

4.3. Cách thức thu âm

Để có được các file wav, file huấn luyện, ta phải thu âm, thu càng nhiều càng tốt. số lượng từ cần huấn luyện và số tiếng (hour) cần thu như sau:

ảng 4 Các thông số tương ứng với độ lớn của bộ huấn luyện

Vocabulary Hours in db Senones Densities Example

20 5 200 8 Tidigits Digits Recognition

100 20 2000 8 RM1 Command and Control

5000 30 4000 16 WSJ1 5k Small Dictation

20000 80 4000 32 WSJ1 20k Big Dictation

60000 200 6000 16 HUB4 Broadcast News

60000 2000 12000 64 Fisher Rich Telephone Transcription

Thu âm là một quá trình đòi hỏi sự kiên nhẫn và cẩn thận của người thực hiện. Đây cũng chính là điểm khó khăn nhất khi thực hiện khóa luận này. Công cụ dùng để thu âm là Audacity [13]. Loại micro dùng trong thu âm nên chọn tốt nhất là loại headphone. Môi trường thu âm cần sự yên tĩnh, lưu ý: thiết lập tần số lấy mẫu là 16kHz, định dạng âm 16 bit mono (nếu dùng để nhận dạng trên máy tính) và là 8kHz,

16 bit mono (dành cho nhận dạng trên thiết bị di động), tắt loa máy tính khi thu, để micro hơi dưới miệng để tránh hơi thở từ mũi ra làm nhiễu tín hiệu. Các thông tin cần thiết để chuẩn bị cho việc thu âm có thể được tìm hiểu chi tiết tại VoxForge [14].

4.4. Tiến hành huấn luyện mô hình bằng Sphinx

Sau khi chuẩn bị một folder train (thư mục chứa toàn bộ các file chuẩn bị bên trên,file âm thanh,… người ta gọi tên folder huấn luyện là task folder) như phần trình bày trên. Tiếp theo ta sử dụng một số lệnh cùa Sphinx Train để tạo tự động các mã lệnh huấn luyện (Training Script). Mã lệnh huấn luyện có nhiệm vụ thực hiện toàn bộ các công đoạn huấn luyện bao gồm: Tiền xử lý tín hiệu âm thanh, rút trích đặt trưng âm học, xây dựng, ước lượng mô hình HMM nhờ thuật toán Baum-Welch,..

Để bắt đầu khởi tao các thư mục chuẩn bị (các thực mục này Sphinx dùng cho quá trình huấn luyện, tạo tự động) và các file Script huấn luyện. Ta thực hiện dòng lệnh sau vào Command Line trong Linux:

 Dành cho Sphinxtrain từ bản 1.0.7 trở về trước:

../SphinxTrain/scripts_pl/setup_SphinxTrain.pl -task [task_folder_name]

../pocketsphinx/scripts/setup_sphinx.pl -task [task_folder_name]

 Dành cho Sphinxtrain bản snapshot:

sphinxtrain -t [task_folder_name]setup

Thực hiện dònh lệnh trên, Sphinx sẽ tự động tạo cho ta các thư mục do Sphinxtrain chuẩn bị để thực hiện huấn luyện:

bin (có thể không xuất hiện trong bản Sphinxtrain mới)

bwaccumdir etc feat logdir model_parameters model_architecture

python (có thể không xuất hiện trong bản Sphinxtrain mới)

scripts_pl (có thể không xuất hiện trong bản Sphinxtrain mới)

Sau khi đã tạo thành công các thư mục như trên, ta thực hiện thao tác chỉnh sửa một số thông số để chuẩn bị bước vào tiến hành huấn luyện. Mở tập tin

etc/sphinx_train.cfg tìm tới các dòng sau vả thay đổi thông số.

Một phần của tài liệu Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển (Trang 68)

Tải bản đầy đủ (PDF)

(99 trang)