6.1.1Giao diện chính của chương trình ứng dụng

Một phần của tài liệu Nhận dạng tiếng nói và ứng dụng tích hợp với các phầnmềm máy tính (Trang 92 - 102)

6.1GIỚI THIỆU CHƯƠNG TRÌNH

6.1.1Giao diện chính của chương trình ứng dụng

Hình 6-23 Giao diện tiếng Việt

6.1.2 Một số chức năng chính của chương trình

6.1.2.1 Xây dựng codebook dùng lượng tử hóa vector

Các chức năng về codebook nằm trong mục Codebook trên thanh menu của chương trình chính. Để tạo codebook mới chọn chức năng “Make”, khi đó có một hộp thoại yêu cầu nhập một số thông tin cần thiết để tạo codebook như sau:

1. Waves Path: Nhập đường dẫn đầy đủ của thư mục chứa các file wave (đã được cắt nhiễu và nền) dùng để tạo codebook.

2. Path: Nhập đường dẫn đầy đủ của file sẽ dùng để lưu dữ liệu của codebook mới sẽ được tạo ra. Có thể sử dụng nút “Select” để tìm vị trí lưu trên máy.

3. Size: Trong mục này chọn một giá trị có sẵn để chỉ định kích thước của codebook mới.

Sau khi nhập đầy đủ các thông tin cần thiết chọn “Make” nếu muốn tạo codebook còn chọn “Cancel” nếu thoát khỏi hộp thoại này mà không tạo codebook mới. Quá trình tạo codebook sẽ được thực hiện bởi một tiến trình nền ở bên dưới, các thông tin của tiến trình sẽ được hiển thị trong vùng (3).

6.1.2.2 Huấn luyện mô hình

Các chức năng về mô hình được đặt trong mục “Model” trên thanh menu. Để tạo tạo ra các mô hình mới hãy chọn mục “Train” trong mục Model. Khi đó một hộp thoại sẽ được hiện lên để yêu cầu nhập thông tin như sau:

Hình 6-25 Hộp thoại huấn luyện mô hình

Có thể nhập nhãn mới bằng cách nháy đúp vào hàng tương ứng

1. Waves path: Ở mục này bạn nhập hay chọn đường dẫn đầy đủ của thư mục lưu các file wave dùng để huấn luyện mô hình. Thư mục này phải có cấu trúc như đã nói ở phần trên.

2. Codeboook path: Nhập/chọn đường dẫn đầy đủ của file chứa codebook dùng cho lượng tử hóa để huấn luyện mô hình. File chứa codebook này phải có cấu hình như đã trình bày trong phần trên.

3. File name: Nhập/chọn đường dẫn đầy đủ của file sẽ lưu các thông số của các mô hình sẽ được tạo ra.

4. State number: Nhập số trạng thái của các mô hình sẽ được tạo ra. Số trạng thái này phải là một số nguyên dương.

Sau khi chọn thư mục chứa các file wave các thư mục con của nó sẽ hiện trong điều khiển danh sách ở bên dưới. Trong danh sách này thì cột bên trái là đường dẫn của thư mục còn cột bên phải là nhãn của mô hình sẽ được tạo ra dựa trên các file có trong thư mục tương ứng. Nhãn mặc định là tên của thư mục tuy nhiên nếu muốn sửa nhãn này bạn có thể nhấn đúp vào hàng tương ứng để nhập một nhãn mới.

Quá trình tạo các mô hình cũng được chạy bằng một luồng ở bên dưới. Một số thông tin về luồng hiển thị trong vùng (3) của giao diện chính.

6.1.2.3 Nhận dạng theo thời gian thực

Nhận dạng theo thời gian thực có thể thực hiện bằng cách vào mục “Record” trong menu “Audio” hoặc chọn vào biểu tượng trên thanh công cụ. Nếu mọi việc tiến hành thành công thì tiến trình nhận dạng sẽ được bắt đầu ngay sau đó, chỉ cần đọc từ cần nhận dạng và kết quả nhận dạng sẽ được hiển thị lên vùng (2) của giao hiện chính.

Chú ý: Nếu chưa chọn codebook hay mô hình dùng để nhận dạng thì khi cần phải sử dụng sẽ có thông báo yêu cầu nhập file chứa codebook và mô hình dùng để nhận dạng.

6.1.2.4 Tích hợp với MS Excel

Để chạy tích hợp với Excel ta chọn mục “Excel” trong menu “Application”. Nếu Excel chưa chạy trên máy thì chương trình sẽ khởi động Excel còn nếu Excel đang chạy thì chương trình sẽ thực hiện kết nối động vào ứng dụng Excel. Nếu mọi việc tiến hành thành công ta có thể nhập dữ liệu bằng lời nói vào Excel ngay sau đó. Khi nhập cần chú ý một số quy định là:

Trái Phải Lên Xuống Ghi Mở Chuyển sang ô bên trái của ô hiện tại Chuyển tới ô bên phải của ô hiện tại Chuyển lên ô phía trên ô hiện tại Chuyển xuống ô bên dưới ô hiện tại Lưu Workboook xuống file Mở một file trên máy.

Để kết thúc tích hợp chương trình hãy nháy đúp chuột vào biểu tượng trên thanh Taskbar.

6.2 KẾT QUẢ THỬ NGHIỆM

Sau khi viết xong chương trình tôi có tiến hành kiểm tra độ tin cậy khi nhận dạng tiếng nói. Việc kiểm tra độ chính xác của chức năng nhận dạng của chương trình được tiến hành theo hai bước sau:

• Thu âm các từ để kiểm tra. Trong quá trình thu âm có sử dụng giải thuật phát hiện tiếng nói để tách tín hiệu tiếng nói với các thành phần khác. Từ được cắt ra sẽ được lưu xuống file. Các phiên bản khác nhau của cùng một từ được lưu trong một thư mục.

• Tiến hành nhận dạng lần lượt các file có trong thư mục.

6.2.1 Kiểm tra lần thứ nhất

Mic nhãn hiệu SHARP thông thường Người tham gia kiểm tra : (adsbygoogle = window.adsbygoogle || []).push({});

Tên Giới tính Tuổi Quê quán Kí hiệu

Nguyễn Huyền Ngọc Nữ 23 Vĩnh Phúc N

Hoàng Thúy Hà Nữ 25 Phú Thọ H

Số lượng file đem huấn luyện:

Tên 0 1 2 3 4 5 6 7 8 9 10 . Ghi Mở

N 30 30 30 30 30 30 30 30 30 30 30 30 30 30

H 30 30 30 30 30 30 30 30 30 30 30 30 30 30

N 30 30 30 30 H 30 30 30 30 Kết quả nhận dạng: KQ 0 1 2 3 4 5 6 7 8 9 10 . Ghi Mở Đúng 60 59 56 51 60 56 60 59 60 60 59 60 59 60 Tổng 60 60 60 60 60 60 60 60 60 60 60 60 60 60

KQ Lên Xuống Trái Phải Tổng Tỷ lệ

Đúng 59 60 60 59 1057 97.87%

1080 1057=

Tổng 60 60 60 60 1080

6.2.2 Kiểm tra lần thứ hai

Mic nhãn hiệu PHILIPS Người tham gia kiểm tra :

Tên Giới tính Tuổi Quê quán Kí hiệu

Nguyễn Huyền Ngọc Nữ 23 Vĩnh Phúc N

Đỗ Tuấn Kiên Nam 17 Hà Nội K

Số lượng file đem huấn luyện:

Tên 0 1 2 3 4 5 6 7 8 9 10 . Ghi Mở

N 40 40 40 40 40 40 40 40 40 40 40 40 40 40

K 11 11 11 11 11 11 11 11 11 11 11 11 11 11

Người Lên Xuống Trái Phải

N 40 40 40 40

K 11 11 11 11

Kết quả nhận dạng:

Số file cho một từ của Nguyễn Huyền Ngọc là 40 Số file cho một từ của Đỗ Tuấn Kiên là 10.

KQ 0 1 2 3 4 5 6 7 8 9 10 . Ghi Mở

Đúng 50 50 49 49 45 46 50 49 49 49 50 50 50 49

KQ Lên Xuống Trái Phải Tổng Tỷ lệ Đúng 49 50 48 49 881 97.89% 900 881= Tổng 50 50 50 50 900 6.2.3 Kiểm tra lần thứ ba

Míc thu: Nhãn hiệu SHARP Người tham gia kiểm tra: (adsbygoogle = window.adsbygoogle || []).push({});

Tên Giới tính Tuổi Quê quán Kí hiệu

Nguyễn Huyền Ngọc Nữ 23 Vĩnh Phúc N

Trần Tất Thành Nam 23 Nam Định T

Số lượng file đem huấn luyện:

Tên 0 1 2 3 4 5 6 7 8 9 10 . Ghi Mở

N 20 20 20 20 20 20 20 20 20 20 20 20 20 20

T 30 30 30 30 30 30 30 30 30 30 30 30 30 30

Người Lên Xuống Trái Phải

N 20 20 20 20

T 30 30 30 30

Kết quả kiểm tra:

Số file dùng kiểm tra cho một từ của Nguyễn Huyền Ngọc: 20 Số file dùng kiểm tra cho một từ của Trần Tất Thành: 30

KQ 0 1 2 3 4 5 6 7 8 9 10 . Ghi Mở

Đúng 50 50 49 49 45 46 50 49 49 49 50 50 50 49

Tổng 50 50 50 50 50 50 50 50 50 50 50 50 50 50

KQ Lên Xuống Trái Phải Tổng Tỷ lệ

Đúng 49 50 48 49 881 97.89

900 881=

Các kết quả kiểm tra trên tuy chưa thật đầy đủ trong mọi khía cạnh cần thiết nhưng cũng cho thấy được chương trình chạy tương đối ổn định mặc dù môi trường có thay đổi.

KẾT LUẬN

Với kết quả kiểm tra độ chính xác nhận dạng như trên thì có thể thấy rằng việc áp dụng mô hình Markov ẩn trong nhận dạng tiếng Việt đã cho kết quả khá tốt. Tuy chưa thật sự hoàn hảo nhưng những kết quả thu được tương đối khả quan, từ đó có thể thấy rằng việc áp dụng mô hình Markov ẩn trong nhận dạng tiếng Việt là khá phù hợp, nếu đầu tư nghiên cứu nhiều hơn nữa phương pháp này sẽ còn đem lại hiệu quả cao hơn.

Trong chương trình khi chạy vẫn bị nhận dạng nhầm, nguyên nhân dẫn đến nhận dạng nhầm có thể là:

1. Dữ liệu huấn luyện chưa đầy đủ, số từ đem huấn luyện chưa nhiều, chưa thu được từ nhiều người, nhiều nơi…

2. Một số thông số có ảnh hưởng đến độ chính xác nhận dạng như số trạng thái của mô hình, giá trị tối thiểu của bj(k), điều kiện hội tụ của mô hình… có thể được lựa chọn chưa tối ưu.

Cả hai nguyên nhân trên muốn khắc phục được đều cần phải có thời gian, và cần phải bỏ công sức nghiên cứu nhiều hơn nữa.

Để chương trình có thể được ứng dụng rỗng rãi hơn cần phải cải tiến và mở rộng thêm. Với thiết kế đã được đưa ra thì hướng phát triển tiếp của tôi có thể là:

1. Tăng số lượng từ trong từ điển nhận dạng

2. Nhận dạng câu

3. Mở rộng ứng dụng của chương trình, không chỉ tích hợp với bộ Office của Microsoft mà có thể nhập dữ liệu vào bất cứ chương trình nào. Do thời gian làm đồ án không có nhiều nên tôi chưa có điều kiện để tìm hiểu hết những hướng tiếp cận mới trong nhận dạng tiếng nói. Hy vọng rằng trong thời gian tới tôi, hoặc ai đó quan tâm đến lĩnh vực này có thể thực hiện được các mục đã đề ra.

TÀI LIỆU THAM KHẢO (adsbygoogle = window.adsbygoogle || []).push({});

[1] Addison and Wesley, A programmer Guide to Sound , 1996.

[2] Claudio Becchetti and lucio Prina Ricotti, Speech recognition Theory and C++ Implementation,1999.

[3] Daniel Jurafsky and James H.Martin, Speech and Language Procesing, 2000.

[4] H.P. Combrinck and E.C. Botha, On The Mel-scaled Cepstrum

(http://citeseer.nj.nec.com/cache/papers/cs/11003/http:zSzzSzwww.ee.up.a c.zazSz~rikuszSzprasa96.pdf/on-the-mel-scaled.pdf)

[5] Jia-lin Shen, Jeih-weih Hung, Lin-shan Lee. Robust Entropy-based

Endpoint Detection for Speech Recognition in Noisy Environments. (http://www.ee.columbia.edu/~dpwe/papers/ShenHL98-endpoint.pdf)

[6] Lawrence Rabiner, Biing-Hwang Juang, Fundamentals of Speech Recognition, 1996.

[7] L.R. Rabiner, J.G.Wilpon, and F.K.Soong, Hight Performance Connected

Digit Recognition, Using Hidden Markov Model.

(http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/high- performance connected digit recogntion using hmm.pdf)

[8] L.R. Rabiner and M.R. Sambur. An Algorithm for Determining the

Endpoints for Isolated Utternances.

(http://www.cs.wpi.edu/~claypool/courses/525-S03/slides/RS75.pdf)

[9] Nguyễn Thành Phúc, Một phương pháp nhận dạng lời Việt: Áp dụng

phương pháp kết hợp mạng nơ-ron với mô hình Markov ẩn cho các hệ thống nhận dạng lời Việt, Luận án Tiến sĩ Kỹ thuật, Thư viện trường ĐHBK Hà Nội.

Một phần của tài liệu Nhận dạng tiếng nói và ứng dụng tích hợp với các phầnmềm máy tính (Trang 92 - 102)