Kết quả nhận dạng

Một phần của tài liệu Ứng dụng mô hình gauss tuyến tính trong nhận dạng một bộ khẩu lệnh tiếng việt (Trang 76 - 82)

CHƯƠNG 6: KẾT QUẢ THỬ NGHIỆM VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết quả thử nghiệm

6.1.3. Kết quả nhận dạng

Với 456 mẫu thu được, chia làm hai tập số liệu. Bộ số liệu học gồm 304 mẫu (tương ứng với 2/3 số lượng mẫu), bộ số liệu kiểm tra gồm 152 mẫu. Bộ số liệu học được sử dụng để huấn luyện tìm bộ thông số tối ưu của mô hình nhận dạng. Bộ số liệu kiểm tra được sử dụng để đánh giá chất lượng của mô hình nhận dạng thu được.

 Trong luận văn này, mô hình FAHMM với 3 trạng thái sẽ được sử dụng. Kích thước tối ưu của không gian véc tơ trạng thái được lựa chọn dựa vào đồ thị thể hiện sự phụ thuộc của sai số nhận dạng vào kích thước của véc tơ trạng thái.

9 10 11 12 13 14 15 16 17

29.5 30 30.5 31 31.5 32 32.5 33 33.5 34

state space dimensionality (k)

sai so (%)

12 comp 1 comp

Hình 6.2: Đồ thị thể hiện sự phụ thuộc của sai số vào kích thước của không gian trạng thái

Từ đồ thị trên, ta lựa chọn kích thước của không gian trạng thái là 13

k  .

 Để lựa chọn số thành phần trộn cho không gian trạng thái và không gian quan sát (lựa chọn tham số M( )xM( )o ) tác giả đã tiến hành chạy thử mô hình với các giá trị M( )xM( )o thay đổi. Kết quả nhận dạng được thể hiện ở bảng sau:

( )x

M M( )o 1 2 4

1 E(%) 22.4 21 .5 21.3 2 E(%) 22.5 20.7 19.8 4 E(%) 20.6 19.8 18.7 6 E(%) 21.4 18.4 19.8 8 E(%) 20.6 19.8 19.8

Từ bảng kết quả trên ta thấy sai số cùa mô hình đạt tốt nhất với

( )x 6

M  , M( )o 2. Khi đó sai số nhận dạng là E 18.4%. 6.1.3. Một số trường hợp nhận dạng sai

Kết quả thử nghiệm cho thấy mô hình cho kết quả nhận dạng tương đối tốt đối với những phát âm rõ ràng, không bị ngọng, ít bị nhiễu. Tuy nhiên có một số phát âm do người nói phát âm không chuẩn hoặc do môi trường quá nhiễu nên bị nhận dạng sai.

 Nhận dạng sai do phát âm bị nhiễu quá lớn

1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 -0.3

-0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

Hình 6.3: Mẫu nhận dạng sai do bị nhiễu quá lớn

 Nhận dạng sai do lấy mẫu tín hiệu không chuẩn

0.7 0.8 0.9 1 1.1 1.2 1.3 1.4

x 104 -0.4

-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4

Hình 6.4: Mẫu nhận dạng sai do lấy mẫu tín hiệu không chuẩn

Trong hình 6.4, phần tín hiệu thu được chủ yếu là khoảng lặng, trong khi phần tín hiệu tiếng nói tích cực bị cắt mất đoạn đầu. Do đó trong các bước xử lý tiếp theo thì không mang đủ thông tin của tín hiệu.

 Nhận dạng sai do người nói phát âm không chuẩn

Trong ngôn ngữ tiếng Việt, có một số âm đòi hỏi người nói phải phát âm chuẩn mới phân biệt được. Ví dụ âm “r” và âm “d”, âm “s” và âm “x”. Trong bộ mẫu mà tác giả đã thu âm thì đòi hỏi phải phân biệt được các âm trên, điều này gây ra sai số cho mô hình khi mà người nói phát âm không chuẩn.

0 2000 4000 6000 8000 10000 12000 14000 16000

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8

0 2000 4000 6000 8000 10000 12000 14000 16000

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6

Phát âm “s” Phát âm x “ ”

Hình 6.5: Mẫu nhận dạng sai do người nói phát âm không chuẩn

6.2. Kết luận và ướng phát triển h

Trong luận văn của mình tác giả đã tìm hiểu một mô hình mới ứng dụng trong nhận dạng tiếng nói đó là mô hình Gauss tuyến tính. Kết quả nhận dạng là tương đối khả quan. Tuy nhiên độ chính xác của mô hình nhận dạng là chưa cao. Kết quả này có thể được cải thiện bằng các phương pháp sau:

– Xây dựng cơ sở dữ liệu đa dạng và phong phú hơn với nhiều người phát âm, mỗi người phát âm nhiều lần, các phát âm được thu trong nhiều môi trường khác nhau.

– Cải thiện chất lượng của khâu tiền xử lý: Sử dụng một số phương pháp lọc nhiễu như sử dụng kỹ thuật RASTA,…

– Sử dụng thêm một số đặc tính khác như: Tính các hệ số PLP, tần số đỉnh phổ,…

– Phân tích, lựa chọn được bộ tham số thực sự tối ưu cho mô hình

– Tìm hiểu thêm một số mô hình Gauss tuyến tính khác từ đó có thể lựa chọn mô hình phù hợp cho nhận dạng tiếng Việt

Mục lục tài liệu tham khảo

[1]. Đặng Ngọc Đức, “Nghiên cứu ứng dụng mạng nơ rôn và mô hình Markov ẩn trong nhận dạng tiếng Việt”, Đại học Quốc gia Hà nội [2]. Antti-Veikko Ilmari Rossti, “Linear Gaussian Models for Speech

Recognition”, University of Cambridge

[3]. Lawrence Rabiner, “Fundamentals of Speech Recognititon”, Prencice Hall

[4]. Hynek Hermansky, “Perceptual Linear Predictive Analysis of Speech”, Division of Panasonic Technology

[5]. Thomas F. Quatieri, “Discrete-Time Speech Signal Processing”, Prentice Hall

[6]. Andrei Mihaila, “Speech Processing, Lecture12”, Department of Computer Science University of Joensuu, Finland

[7]. John-Paul Hosom, “Hidden Markov Models for Speech recognition”, Oregon Health & Science University

[8]. www.mathworks.com [9]. www.xilinx.com

TÓM TẮT LUẬN VĂN

Tên tác giả: Phạm Đắc Định

Tên luận văn: Ứng dụng mô hình Gauss tuyến tính trong nhận dạng một bộ khẩu lệnh tiếng Việt

Chuyên ngành: Đo lường và các Hệ thống điều khiển Mã số:

Cơ sở đào tạo: Trường Đại học Bách khoa Hà nội

Mục đích và đối tượng nghiên cứu

Mục đích nghiên cứu của luận văn là nghiên cứu ứng dụng mô hình nhận dạng Gauss tuyến tính vào trong nhận dạng tiếng Việt. Luận văn này sẽ trinh bày một cách tổng quan về các mô hình Gauss tuyến tính trong đó sử dụng các hàm Gauss trộn để tạo nhiễu cho mô hình. Quá trình phát xạ tập quan sát sẽ được mô tả dựa vào các mô hình FA và LDA, trong luận văn này thì mô hình FA sẽ được sử dụng cho thử nghiệm.

Các phương pháp đã sử dụng: Luận văn nghiên cứu hai phương pháp trích tạo đặc tính tín hiệu tiếng nói đang được sử dụng có hiệu quả hiện này là phương pháp tính hệ số MFCC và phương pháp tính hệ số PLP. Tiếp theo luận văn tìm hiểu các mô hình Gauss tuyến tính khác nhau dựa trên sự kết hợp giữa các quá trình sinh trạng thái và quá trình sinh tập quan sát khác nhau.

Luận văn tập trung trình bày chi tiết về mô hình FAHMM được lựa chọn để thử nghiệm nhận dạng tiếng nói tiếng Việt.

Các kết quả chính và kết luận

 Xây dựng được cơ sở dữ liệu tiếng nói tiếng Việt gồm các chữ số và chữ cái tiếng Việt.

 Luận văn đã tìm hiểu được một số mô hình thống kê ứng dụng trong nhận dạng tiếng nói. Nghiên cứu mô hình Gauss tuyến tính FAHMM, tìm hiểu ứng dụng mô hình trong nhận dạng tiếng nói tiếng Việt.

Một phần của tài liệu Ứng dụng mô hình gauss tuyến tính trong nhận dạng một bộ khẩu lệnh tiếng việt (Trang 76 - 82)

Tải bản đầy đủ (PDF)

(82 trang)