5. Nhiệm vụ nghiên cứu
1.4. Tạo mô hình ngôn ngữ
Để tạo mô hình ngôn ngữ ta sử dụng bộ CMULTK. Đây là bộ công cụ tạo mô hình ngôn ngữ thống kê.
28
Ngoài CMULTK chúng ta có thể sử dụng các công cụ khác để tạo ra định dạng ARPẠ Tuy nhiên kết quả phải đƣợc sắp xếp, để có thể làm việc với bộ giải mã Sphinx. Để sắp xếp, ta có thể dùng công cụ Sphinx_lm_sort có trong SphinxBase với cú pháp:
sphinx_lm_sort < unsorted.arpa > sorted.arpa
Một số công cụ có thể dùng thay thế CMULTK nhƣ: IRSLM
MITLM
SRILM
Tuy nhiên trong đề tài này sẽ sử dụng công cụ CMULTK. Các bƣớc tạo file ARPA và DMP đƣợc thể hiện dƣới sơ đồ sau:
Hình 2.6.Các bƣớc tạo mô hình ngôn ngữ thống kê
File văn bản: phải đƣợc chuẩn hóạ Nội dung của file gần giống với file transcript, nhƣng không có phần ghi tên file âm thanh tƣơng ứng.
29 Ví dụ có file văn bản weather.txt
<s> generally cloudy today with scattered outbreaks of rain and drizzle persistent and heavy at times </s>
<s> some dry intervals also with hazy sunshine especially in eastern parts in the morning </s>
<s> highest temperatures nine to thirteen Celsius in a light or moderate mainly east south east breeze </s>
<s> cloudy damp and misty today with spells of rain and drizzle in most places much of this rain will be light and patchy but heavier rain may develop in the west later </s>
Xác định bộ từ vựng
Mục đích liệt kê mỗi từ xuất hiện trong văn bản
Xử dụng công cụ text2wfreq để tạo bộ từ vựng với cú pháp text2wfreq < weather.txt | wfreq2vocab > weather.vocab
Đầu vào: weather.txt là file văn bản ở trên Đầu ra: weather.tmp.vocab
Đếm số N-gram
text2idngram -vocab weather.vocab -idngram weather.idngram < weather.txt Đầu vào: file .vocab, weather tạo ở bƣớc trên
Đầu ra: weather.idngram
Tạo mô hình ngôn ngữ dạng ARPA
idngram2lm -vocab_type 2 –n 3 -idngram weather.idngram –vocab weather.vocab - arpa weather.arpa
Đầu vào: idngram và vocab đã tạo ở bƣớc trên Đầu ra: file có định dạng arpa
30 Các thông số khác:
-vocab_type: tạo từ vựng mở trong trƣờng hợp khi test có thể có những từ mà không có trong training
N: mô hình bi-gram (n=2) hay tri-gram (n=3) Tạo mô hình ngôn ngữ dạng DMP
sphinx_lm_convert -i weather.arpa -o weather.lm.DMP Đầu vào: file arpa đã tạo ở bƣớc trên
Đầu ra: file DMP, đây là file mô hình ngôn ngữ dạng nhị phân sẽ đƣợc sử dụng để nhận dạng.