Tạo mô hình ngôn ngữ

5. Nhiệm vụ nghiên cứu

1.4. Tạo mô hình ngôn ngữ

Để tạo mô hình ngôn ngữ ta sử dụng bộ CMULTK. Đây là bộ công cụ tạo mô hình ngôn ngữ thống kê.

Ngoài CMULTK chúng ta có thể sử dụng các công cụ khác để tạo ra định dạng ARPẠ Tuy nhiên kết quả phải đƣợc sắp xếp, để có thể làm việc với bộ giải mã Sphinx. Để sắp xếp, ta có thể dùng công cụ Sphinx_lm_sort có trong SphinxBase với cú pháp:

sphinx_lm_sort < unsorted.arpa > sorted.arpa

Một số công cụ có thể dùng thay thế CMULTK nhƣ:  IRSLM

 MITLM

 SRILM

Tuy nhiên trong đề tài này sẽ sử dụng công cụ CMULTK. Các bƣớc tạo file ARPA và DMP đƣợc thể hiện dƣới sơ đồ sau:

Hình 2.6.Các bƣớc tạo mô hình ngôn ngữ thống kê

 File văn bản: phải đƣợc chuẩn hóạ Nội dung của file gần giống với file transcript, nhƣng không có phần ghi tên file âm thanh tƣơng ứng.

29 Ví dụ có file văn bản weather.txt

<s> generally cloudy today with scattered outbreaks of rain and drizzle persistent and heavy at times </s>

<s> some dry intervals also with hazy sunshine especially in eastern parts in the morning </s>

<s> highest temperatures nine to thirteen Celsius in a light or moderate mainly east south east breeze </s>

<s> cloudy damp and misty today with spells of rain and drizzle in most places much of this rain will be light and patchy but heavier rain may develop in the west later </s>

 Xác định bộ từ vựng

Mục đích liệt kê mỗi từ xuất hiện trong văn bản

Xử dụng công cụ text2wfreq để tạo bộ từ vựng với cú pháp text2wfreq < weather.txt | wfreq2vocab > weather.vocab

Đầu vào: weather.txt là file văn bản ở trên Đầu ra: weather.tmp.vocab

 Đếm số N-gram

text2idngram -vocab weather.vocab -idngram weather.idngram < weather.txt Đầu vào: file .vocab, weather tạo ở bƣớc trên

Đầu ra: weather.idngram

 Tạo mô hình ngôn ngữ dạng ARPA

idngram2lm -vocab_type 2 –n 3 -idngram weather.idngram –vocab weather.vocab - arpa weather.arpa

Đầu vào: idngram và vocab đã tạo ở bƣớc trên Đầu ra: file có định dạng arpa

30 Các thông số khác:

-vocab_type: tạo từ vựng mở trong trƣờng hợp khi test có thể có những từ mà không có trong training

N: mô hình bi-gram (n=2) hay tri-gram (n=3)  Tạo mô hình ngôn ngữ dạng DMP

sphinx_lm_convert -i weather.arpa -o weather.lm.DMP Đầu vào: file arpa đã tạo ở bƣớc trên

Đầu ra: file DMP, đây là file mô hình ngôn ngữ dạng nhị phân sẽ đƣợc sử dụng để nhận dạng.

Tổng quan các bƣớc thực hiện

Giới thiệu công cụ JVNTextPro