Cài đặt Sphinx

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 91 - 94)

Sử dụng cửa sổ Terminal trong Ubuntu: Ctrl+Atl+t.

Nhập vào sudo apt-get update sau đó nhập vào password lúc cài đặt (password

sẽ không hiện lên, nhập cẩn thận và nhấn Enter). Lệnh trên để update cho các gói cài đặt dùng bằng lệnh apt-get. Chờ update xong

Nhập vào: cd sphinx để di chuyển tới thư mục sphinx vừa tạo.

Cài đặt các gói cần thiết trước khi cài SphinxBase: Gõ các lệnh:

 sudo apt-get install bison, đồng ý để tải và cài bison

 sudo apt-get install autoconf

 sudo apt-get install automake

 sudo apt-get install libtool

5.1.2.1. Cài đặt SphinxBase

Nhập lệnh: cd sphinxbase để đi vào thư mục sphinxbase. Gõ các lệnh sau và chờ thi hành:

 ./autogen.sh

 ./configure

 sudo make install

5.1.2.2. Cài đặt Sphinxtrain

Từ thư mục sphinxbase ở trên, gõ lệnh để chuyển sang thư mục sang thư mục sphinctrain:

cd ../sphinxtrain

Gõ các lệnh sau và chờ thi hành:

 ./configure

 make

 sudo make install

5.1.2.3. Cài đặt PocketSphinx

Từ thư mục sphinxtrain ở trên, gõ lệnh để chuyển sang thư mục sang thư mục pocketsphinx: cd ../pocketsphinx Gõ các lệnh sau và chờ thi hành:  ./autogen.sh  ./configure  make

 sudo make install

Gõ tiếp lệnh sau vào Terminal:

sudo ldconfig

5.2. XÂY DỰNG BỘ NGƠN NGỮ:

Bộ ngơn ngữ cho chương trình nhận dạng tiếng nói bao gồm 3 thành phần chính: Bộ từ điển, mơ hình ngơn ngữ và mơ hình âm học. Phần này sẽ mơ tả q trình xây dựng các thành phần đó bằng các cơng cụ của Sphinx.

5.2.1. Xây dựng bộ từ điển:

Công việc đầu tiên là tạo một bộ từ điển phù hợp. Bộ từ điển này bao gồm các từ mong muốn chương trình nhận dạng.

Do các cơng cụ huấn luyện của Sphinx chưa hỗ trợ tốt cho unicode nên các ký tự không thuộc bảng mã ASCII sẽ sử dụng phương pháp:

- Các ký tự không thuộc bảng mã ASCII sẽ được thay thế bằng kiểu gõ

telex.

- Xây dựng bảng phiên âm tiếng Việt mức âm vị dưới dạng ASCII. (Tham

khảo phụ lục)

Bảng phiên âm tiếng tiếng Việt mức âm vị được xây dựng dựa trên các tiêu chí:

- Biểu diễn được hết các âm vị có thể có trong tiếng Việt dưới dạng mã ASCII.

- Mọi âm vị đều được tổ hợp từ các ký hiệu sẵn có trên bàn phím để tiện lợi cho việc nhập liệu.

- Cách gõ telex tiện lợi, dễ sử dụng và dễ hiểu.

- Các thanh điệu được ký hiệu bằng các ký tự S, F, R, X, J và khoảng trắng. Thanh điệu được đặt cho các nguyên âm.

Bộ từ điển được tổ chức như sau: LEEN L EE NZ NUWXA N UWX A XUOOSNG X U OOS NGZ TRASI TR AS IZ PHARI F AR IZ QUA K A LAJI L AJ IZ TIEESP T I EES PC TRUWOWSC TR WAS KC VEEF V EEF DDAAFU DD AAF UZ CUOOSI K UOS IZ BAWST B AWS TZ NGHE NG EZ NHAJC NH AJ KC WEB K ES PC VAWN V AW NZ BARN B AR NZ …

5.2.2. Xây dựng mơ hình ngơn ngữ:

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 91 - 94)

Tải bản đầy đủ (PDF)

(111 trang)