Ứng dụng mô hình gauss tuyến tính trong nhận dạng một bộ khẩu lệnh tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SỸ KHOA HỌC ỨNG DỤNG MƠ HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG MỘT BỘ KHẨU LỆNH TIẾNG VIỆT NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN PHẠM ĐẮC ĐỊNH Người hướng dẫn khoa học: PGS TSKH TRẦN HOÀI LINH Hà Nội - 2009 Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu tơi chưa cơng bố cơng trình chưa đăng tài liệu nào, tạp chí, hội nghị khác Những kết nghiên cứu luận văn trung thực Hà Nội, tháng 11 năm 2009 Tác giả luận văn Phạm Đắc Định Mục lục Lời cam đoan Lời cảm ơn DANH MỤC CÁC KÝ HIỆU VIẾT TẮT DANH MỤC CÁC KÝ HIỆU TOÁN HỌC 10 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 11 1.1 Đặt vấn đề 11 1.1.1 Giới thiệu 11 1.2 Nguyên tắc hệ thống nhận dạng tiếng nói 12 1.3 Một số phương pháp nhận dạng tiếng nói 13 1.4 Các nghiên cứu thời nhận dạng tiếng nói 15 1.4.1 Các yếu tố ảnh hưởng đến kết nhận dạng 15 1.4.2 Các nghiên cứu nhận dạng tiếng nói ngơn ngữ nước 17 1.4.3 Các nghiên cứu nhận dạng tiếng nói tiếng Việt 17 CHƯƠNG 2: MỘT SỐ CƠ SỞ LÝ THUYẾT CỦA TÍN HIỆU TIẾNG NĨI VÀ NHẬN DẠNG TIẾNG NĨI 19 2.1 Tín hiệu tiếng nói 19 2.1.1 Cơ chế tạo cảm thụ tín hiệu tiếng nói 19 2.1.2 Một số đặc tính tín hiệu tiếng nói 22 2.1.3 Biểu diễn tín hiệu tiếng nói 22 2.2 Ngôn ngữ tiếng Việt 22 2.2.1 Đặc điểm âm tiết tiếng Việt 22 2.2.2 Âm vị tiếng Việt 24 CHƯƠNG 3: CÁC PHƯƠNG PHÁP TRÍCH TẠO ĐẶC TÍNH TIẾNG NĨI 28 3.1 Tiền xử lý 28 3.2 Phân khung cửa sổ hoá 31 3.3 Trích tạo đặc tính 32 3.3.1 Phương pháp tính hệ số MFCC 32 3.3.2 Phương pháp tính hệ số PLP 37 CHƯƠNG 4: MƠ HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG TIẾNG NĨI 42 4.1 Mơ hình thống kê nhận dạng tiếng nói 42 4.1.1 Nguyên lý hoạt động hệ thống nhận dạng tiếng nói sử dụng mơ hình thống kê 42 4.1.2 Mơ hình Markov ẩn 43 4.2 Tổng quan mơ hình Gauss tuyến tính 52 4.2.1 Các mơ hình khơng gian trạng thái 53 4.2.2 Các mạng Bayes 53 4.2.3 Quá trình sinh dãy trạng thái 54 4.2.4 Quá trình sinh dãy quan sát 56 4.3 Các mơ hình Gauss tuyến tính chuẩn 59 4.3.1 Các mơ hình tĩnh 59 4.3.2 Các mơ hình động 62 4.4 Thuật toán học mơ hình Gauss tuyến tính 65 CHƯƠNG 5: MƠ HÌNH FAHMM 69 5.1 Giới thiệu mơ hình FAHMM 69 5.2 Tính tốn hàm xác suất mơ hình FAHMM 70 5.3 Tối ưu hóa tham số mơ hình FAHMM 71 CHƯƠNG 6: KẾT QUẢ THỬ NGHIỆM VÀ HƯỚNG PHÁT TRIỂN 73 6.1 Kết thử nghiệm 73 6.1.1 Cơ sở liệu 73 6.1.2 Kết tiền xử lý, trích tạo đặc tính 75 6.1.3 Kết nhận dạng 76 6.2 Kết luận hướng phát triển 79 Hình 1.1: Các hệ thống nhận dạng tiếng nói 12 Hình 1.2: Mơ hình nhận dạng sử dụng phương pháp âm học, ngữ âm học 13 Hình 1.3: Mơ hình phương pháp nhận dạng mẫu 14 Hình 1.4: Hệ thống nhận dạng ngơn ngữ có điệu 18 Hình 2.1: Quá trình tạo cảm thụ tín hiệu tiếng nói người 22 Hình 2.2: Biểu diễn tín hiệu tiếng nói miền thời gian (âm “khơng”) 22 Hình 2.3: Biểu diễn tín hiệu hình miền tần số 22 Hình 2.4: Biểu diễn tín hiệu hình 2.3 miền thời gian tần số kết hợp 22 Hình 2.5: Cấu trúc âm tiết tiếng Việt 23 Hình 2.6: Cấu trục hai bậc âm tiết tiếng Việt 24 Hình 3.1: Các khối chức trích tạo đặc tính tiếng nói 28 Hình 3.2: Tín hiệu trước sau chuẩn hố (âm “Khơng”) 29 Hình 3.3: Tín hiệu âm ”một” trước sau lọc 30 Hình 3.4 : Số lần qua điểm ‘0’ 31 Hình 3.5: Phân khung tín hiệu 31 Hình 3.6: Đồ thị chuyển đổi thang tuyến tính thang Mel 33 Hình 3.7: Sơ đồ tính hệ số Ceptral theo thang đo Mel 33 Hình 3.8: Dãy băng lọc tam giác theo thang Mel 35 Hình 3.9: Sơ đồ tính hệ số MFCC 35 Hình 3.10: Chuyển đổi thang đo tần số Hz-Bark 38 Hình 3.11: Dãy băng lọc Bark 39 Hình 3.12: Đồ thị biên-tần hàm truyền có phương trình mơ tả 40 Hình 4.1: Mơ hình thống kê nhận dạng tiếng nói 43 Hình 4.2: Ví dụ mơ hình HMM 44 Hình 4.3: Hàm Gauss 45 Hình 4.4: Mơ hình tập trạng thái tập quan sát 46 Hình 4.5: Quá trình sinh chuỗi trạng thái chuỗi quan sát mơ hình HMM 47 Hình 4.6: Lược đồ miêu tả cách thức tính ij (t ) 50 Hình 4.7 Các ví dụ mạng Bayes mô tả giả thuyết độc lập khác 54 Hình 4.8: Mạng Bayes động mơ tả mơ hình Markov ẩn 54 Hình 4.9: Đồ thị mơ tả trạng thái có giá trị tn theo hàm mật độ Gauss 55 Hình 4.10: Ví dụ phân tích FA 57 Hình 4.11: Phân loại với LDA 58 Hình 4.12: Phân loại dựa between within theo LDA 58 Hình 4.13: Lược đồ mơ tả mơ hình Gauss tuyến tính tĩnh 60 Hình 4.14: Mạng Bayes mơ tả mơ hình FA chuẩn 61 Hình 4.15: Các mơ hình Gauss tuyến tính động 62 Hình 4.16: Mạng Bayes mơ tả LDS 63 Hình 5.1: Mạng Bayes động mơ tả mơ hình FAHMM 69 Hình 6.1: Giao diện thu quản lý mẫu 75 Hình 6.2: Đồ thị thể phụ thuộc sai số vào 76 kích thước không gian trạng thái 76 Hình 6.3: Mẫu nhận dạng sai bị nhiễu lớn 77 Hình 6.4: Mẫu nhận dạng sai lấy mẫu tín hiệu khơng chuẩn 78 Hình 6.5: Mẫu nhận dạng sai người nói phát âm khơng chuẩn 78 Lời cảm ơn Tác giả xin bày tỏ lòng biết ơn chân thành tới thầy giáo hướng dẫn PGS.TSKH.TRẦN HOÀI LINH, người Thầy tận tình dìu dắt giúp đỡ tác giả vượt qua khó khăn q trình thực luận văn Tác giả xin dành lời cảm ơn sâu sắc đến TS VŨ QUANG THÀNH – Giám đốc công ty TNHH Tin học & Điện tử Thăng Long, người giúp đỡ tác giả nhiều kiến thức kinh nghiệm thực tế Xin cảm ơn thầy cô giáo trường Đại Học Bách Khoa, môn Kỹ thuật đo – Tin học Công nghiệp giúp đỡ, tạo điều kiện thuận lợi cho tác giả hoàn thành luận văn Xin cảm ơn bạn bè, đồng nghiệp động viên, quan tâm giúp đỡ thời gian qua Cuối cho gửi lời biết ơn kính trọng sâu sắc tới bố mẹ, người ln ln bên lúc khó khăn nhất, chỗ dựa tinh thần vững cho Hà Nội, tháng 11 năm 2009 Phạm Đắc Định Mở đầu Các nghiên cứu nhận dạng tiếng nói triển khai nhiều phòng thí nghiệm giới Hiện số ứng dụng nhận dạng tiếng nói dùng rộng rãi xã hội khoa học, đặc biệt viễn thơng Điện thoại di động quay số giọng nói, hệ thống xử lý thoại đa kênh điều khiển gọi thơng qua tiếng nói, máy tính nhân với phần mềm nhận dạng tiếng nói trợ giúp cho người khiếm thính, phần mềm thương mại nhận dạng đọc tả sử dụng Mỹ, Canada, Nhật… Mơ hình nhận dạng tiếng nói sử dụng phổ biến mô hình Markov ẩn (HMM) Tuy nhiên, Các mơ hình HMM xây dựng dựa giả thuyết không phù hợp việc mơ hình hóa tín hiệu tiếng nói Các giả thuyết bao gồm hai giả thuyết sau: – Giả thuyết chia tín hiệu tiếng nói thành trạng thái rời rạc sóng tín hiệu xem ổn định Và chuyển đổi trạng thái coi tức thời; – Xác suất sinh véc tơ đặc tính (véc tơ quan sát) tương ứng với trạng thái thời phụ thuộc vào véc tơ trạng thái Bởi vậy, véc tơ đặc tính độc lập với véc tơ đặc tính sinh trước sau từ trạng thái Nhược điểm giả thuyết thứ khắc phục cách xây dựng mơ hình có nhiều trạng thái với số trạng thái lên tới 100,000 trạng thái Tuy nhiên hệ thống cồng kềnh việc ước lượng thơng số mơ hình khó khăn Giả thuyết thứ hai chất tín hiệu tiếng nói có mối liên kết động sinh thuộc tính vật lý phát âm Nhược điểm khắc phục cách sủ dụng véc tơ đặc tính bao gồm thơng tin khung lân cận (các hệ số đặc tính động) Tuy nhiên kỹ thuật lại mâu thuẫn với giả thuyết độc lập sử dụng để xây dựng tính tốn mơ hình Các mơ hình trạng thái sử dụng để khắc phục nhược điểm mô hình HMM, mà điển hình mơ hình Gauss tuyến tính (Linear Gaussian Models) Mục đích nghiên cứu Mục đích luận văn nghiên cứu mơ hình Gauss tuyến tính với q trình sinh trạng thái tập quan sát dựa hàm tuyến tính véc tơ nhiễu tuân theo phân bố Gauss Các mơ hình Gauss tuyến tính xây dựng với nhiều dạng khác ứng dụng thuật tốn cực đại hóa kỳ vọng (EM-Expectation Maximization) để huấn luyện tham số mơ hình Luận văn trinh bày cách tổng quan mô hình Gauss tuyến tính sử dụng hàm Gauss trộn để tạo nhiễu cho mơ hình Q trình phát xạ tập quan sát mô tả dựa vào mơ hình FA LDA, luận văn mơ hình FA sử dụng cho thử nghiệm Tổ chức luận văn Nội dung luận văn gồm chương: Chương 1: Tổng quan nhận dạng tiếng nói Trình bày khái qt nguyên tắc hoạt động, phận hệ thống nhận dạng tiếng nói; số kết nhận dạng tiếng nước tiếng Việt Chương 2: Một số sở lý thuyết tín hiệu tiếng nói nhận dạng tiếng nói Trình bày số đặc trưng tín hiệu tiếng nói Khái qt ngôn ngữ tiếng Việt số đặc trưng ngôn ngữ tiếng Việt so với ngơn ngữ khác Chương 3: Các phương pháp trích tạo đặc tính tiếng nói Trình bày số phương pháp trích tạo đặc tính tín hiệu tiếng nói sử dụng có hiệu này: Hệ số MFCC, hệ số PLP Chương 4: Mơ hình Gauss tuyến tính nhận dạng tiếng nói Trình bày hệ thống nhận dạng tiếng nói sử dụng mơ hình thống kê mơ hình HMM, mơ hình Gauss tuyến tính Chương 5: Mơ hình FAHMM Trình bày cụ thể mơ hình FAHMM, mơ hình Gauss tuyến tính ứng dụng có hiệu nhận dạng tiếng nói Chương 6: Một số kết thử nghiệm hướng phát triển DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Viết tắt Ý nghĩa DBN Dynamic Bayesian network EM Expectation maximisation FAHMM Factor Analysed hidden Markov model GMM Gaussian mixture model HMM Hidden Markov model HTK Hidden Markov model toolkit KL distance Kullback Leibler distance LDA Linear discriminant analysis LDS Linear dynamical system MCMC Markov chain Monte Carlo MFCC Mel-frequency cepstral coefficient ML Maximum likelihood PLP Perceptual linear prediction SFA Shared factor analysis SSM Stochastic segment model STC Semi-tied covariance matrix DANH MỤC CÁC KÝ HIỆU TOÁN HỌC Ký hiệu  ˆ  (k ) Ns M M ( x) M (o) p( x | q  j) E{x | q  j} N (, ) N ( x, , ) c jn  jn  jn  (jnx )  (jno ) Cj Q X O ot o1:t  j (t )  j (t ) Ý nghĩa Bộ thông số mô hình Bộ thơng số mơ hình ước lượng Bộ thơng số mơ hình bước lặp thứ k Số trạng thái rời rạc Số thành phần trộn mơ hình GMM Số thành phần GMM khơng gian trạng thái Số thành phần GMM không gian quan sát Xác suất kiện x mô hình trạng thái q j Giá trị kỳ vọng x q  j Phân bố Gauss với véc tơ trung bình  ma trận hiệp phương sai  Giá trị xác suất hậu nghiệm véc tơ x tuân theo phân bố Gauss Trọng số GMM ứng với trạng thái j thành phần trộn thứ n Véc tơ giá trị trung bình GMM ứng với trạng thái j thành phần trộn n Ma trận hiệp phương sai GMM ứng với trạng thái j thành phần trộn n Ma trận hiệp phương sai GMM ứng với trạng thái j thành phần trộn thứ n không gian véc tơ trạng thái Ma trận hiệp phương sai GMM ứng với trạng thái j thành phần trộn thứ n không gian véc tơ quan sát Ma trận quan sát ứng với trạng thái j Chuỗi trạng thái rời rạc Chuỗi véc tơ trạng thái liên tục Chuỗi véc tơ quan sát Véc tơ quan sát thứ t Chuỗi véc tơ quan sát từ đến t , {o1, , ot } Biến tiến trạng thái j vào thời điểm t Biến lùi trạng thái j vào thời điểm t 10 Đối với số mơ hình, ta khơng thể tối ưu hố tất thơng số lúc Ứng dụng thuật toán EM để tối ưu hố thơng số mơ hình thời điểm áp dụng cho mô hình trình bày luận văn Đối với mơ hình mà việc tính tốn giá trị xác suất hậu nghiệm biến ẩn phức tạp thuật tốn xỉ sử dụng để đánh giá kết nhận dạng mơ hình 68 CHƯƠNG 5: MƠ HÌNH FAHMM Chương dành để mô tả cụ thể mơ hình FAHMM, mơ hình Gauss tuyến tính ứng dụng có hiệu nhận dạng tiếng nói Đây mơ hình sử dụng để thử nghiệm luận văn Mơ hình FAHMM xây dựng sở kết hợp trinh sinh dãy trạng thái từ mơ hình HMM q trình sinh tập quan sát dựa vào phân tích FA 5.1 Giới thiệu mơ hình FAHMM Mơ hình FAHMM mơ hình khơng gian trạng thái Trong véc tơ trạng thái có kích thước k tạo mơ hình HMM kết hợp với hàm Gauss trộn sử dụng ma trận hiệp phương sai chuẩn có dạng đường chéo; véc tơ quan sát có kích thước p tạo thành từ phương trình sinh quan sát FA có nhiễu quan sát tuân theo phân bố Gauss Ta có mơ hình FAHMM mơ tả toán học sau: qt P(qt | qt 1 ) xt  qt , j c ( x) jn N ( (jnx ) , (jnx ) ) n t  Cq xt  vq , t t vj c (o) jm N ( (jmo) , (jmo) ) m Mô hình FAHMM mơ tả mạng Bayes động sau: Hình 5.1: Mạng Bayes động mơ tả mơ hình FAHMM 69 (5.1) Các mạng Bayes động (DBN) giới thiệu chương 4, sủ dụng để thể giả thuyết độc lập mơ hình thống kê Một DBN mơ tả mơ hình FAHMM thể hình 5.1 5.2 Tính tốn hàm xác suất mơ hình FAHMM Trong mơ hình Gauss tuyến tính việc tính tốn hàm xác suất có điều kiện tương đối phức tạp Mơ hình mơ tả phương trình 5.1 diễn đạt hai hàm phân bố Gauss sau: p( xt | qt  j,t( x )  n)  N ( xt ;  (jnx ) , (jnx ) ) (5.2) p(ot | xt ,qt  j,t(o )  m  N (ot ; C j xt   (jmo ) , (jmo ) ) (5.3) Xác suất để quan sát ot sinh từ trạng thái qt  j , với thành phần hàm Gauss trộn không gian trạng thái t( x )  n , nhiễu quan sát t(o)  m tính cách lấy tích phân véc tơ trạng thái xt tính từ tích số hàm Gauss Kết cho hàm Gauss viết sau: b jmn (ot )  p(ot | qt  j ,t( o )  m,tx  n)  N (ot ;  jmn ,  jmn ) (5.4)  jmn  C j  (jnx )   (jmo) (5.5)  jmn  C j (jnx )C tj  (jmo) (5.6) đó: Từ đây, xác suất sinh tập quan sát trạng thái j mơ hình FAHMM xem GMM có ma trận hiệp phương sai đầy đủ thành phần trộn M ( o ) M ( x ) véc tơ trung bình tính theo cơng thức (5.5), ma trận hiệp phương sai tính theo cơng thức (5.6) Việc tính tốn hàm xác suất cơng thức (5.4) địi hỏi phải tính ma trận nghịch đảo ma trận hiệp phương sai có kích thước p  p phương trình (5.6) Để giảm khối lượng tính tốn việc tính giá trị nghịch đảo ma trận, ta sử dụng phương trình sau: 70 C j (jnx )C tj  (jmo) )1  (jmo)1  (jmo)1C j (C tj (jmo)1C j  (jnx)1 )1 C tj (jmo)1 (5.7) Trong đó, việc tính toán giá trị nghịch đảo ma trận hiệp phương sai  (jmo )  (jnx ) tương đối dễ dàng, chúng ma trận đường chéo Để tính giá trị ma trận đầy đủ Cj (jmo )1C j  (jnx )1 ta phải tính giá trị nghịch đảo ma trận có kích thước k  k , với k p Các định thức cần sử dụng để tính tốn cơng thức (4.7) tính sủ dụng phương trình sau: C j (jnx)Cj  (jmo)  (jmo) (jnx) Cj(jmo)1C j  (jnx)1 (5.8) Các định thức khác tính tốn đễ dàng 5.3 Tối ưu hóa tham số mơ hình FAHMM Sử dụng thuật tốn ML để tìm thơng số tối ưu cho mơ hình FAHMM Hàm trung gian cho mơ hình FAHMM tính sau: Q ( , ( k ) )    P(Q | O, ( k ) ) p( X | O, Q, ( k ) )log p(O, X , Q |  )dX Q (5.9) Từ cơng thức cập nhật thơng số cho mơ hình FAHMM tính sau: T M ( ) cˆ ( x) jn   t 1 m1 T  t 1 jmn (5.10) j (t ) T M ( ) ˆ ( x) jn    jmn t 1 m1 T M ( )   t 1 m1 (t ) (t ) xˆ jmnt (5.11) jmn (t )  T M      jmn (t ) Rˆ jmnt  ( x ) ( x )  ˆ(jnx )  diag  t 1 m1 ( )  ˆ jn ˆ jn  T M      jmn (t )   t 1 m1  ( ) 71 (5.12) Đối với ma trận quan sát mới, tham số nhiễu quan sát tối ưu sử dụng công thức sau: T M (x) cˆ ( ) jm    t 1 n1 T  t 1 T M ( x) ˆ (jm )    t 1 n1 jmn ˆ  T M   ( x)   t 1 n1 - t xˆjmnt jmn (t ) t 1 n1 (5.13) j (t ) (5.14) T M ( x)   T M ( x) (t ) (t )(t  Cˆ j xˆ jmnt ) t 1 n1 (o) jm jmn jmn jmn (t )  (t )diag  tt  Cˆ j   Cˆ j  t   ( )   Cˆ j  ˆ jm    Rˆ jmnt  ˆ    xˆjmnr ( ) jm  xˆ jmntt     ˆ (jm )   xˆ jmnr   Cˆ j     ( )     ˆ jm      (5.15) 72 CHƯƠNG 6: KẾT QUẢ THỬ NGHIỆM VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết thử nghiệm 6.1.1 Cơ sở liệu Cơ sở liệu tiếng nói yếu tố quan trọng nghiên cứu nhận dạng tiếng nói Một sở liệu tiếng nói tốt giúp cho việc nghiên cứu xác hướng Hiện chưa có sở liệu tiếng nói dùng chung cho sở nghiên cứu tiếng Việt Mỗi cá nhân đơn vị nghiên cứu tự xây dựng sở liệu tiếng nói cho riêng Để tiến hành nghiên cứu nhận dạng tiếng nói tiếng Việt, học viên tự tiến hành xây dựng sở liệu tiếng nói gồm 38 đơn vị phát âm gồm 10 chữ số 28 chữ tiếng Việt Bảng phiên âm đơn vị nhận dạng Phát âm Phiên âm tả a ă â e ê khoong mootj hai ba boons nawm saus baayr tams chins a aw aa e ee 73 i o ô u b c d đ g h k l m n p q r s t v x i o oo ow u uw b c d dd g h k l m n p q r s t v x Các phát âm thu âm sử dụng hàm GUI Matlab Tần số lấy mẫu 16kHz, thời gian lấy mẫu 1s (kể từ bắt đầu có tín hiệu thu) Tác giả tiến hành thu mẫu với 12 người khác nhau, người phát âm lần, thu 456 mẫu Các mẫu lưu giữ thư mục ‘Caohoc\code\mau’ 74 Hình 6.1: Giao diện thu quản lý mẫu 6.1.2 Kết tiền xử lý, trích tạo đặc tính  Chuẩn hóa tín hiệu: Tín hiệu sau lấy mẫu chuẩn hóa lưu vào thư mục Caohoc\code\mauhoc.std Xây dựng chương trình chuẩn hóa mẫu hàm chuanhoamau.m Matlab  Lọc tín hiệu: Tín hiệu sau chuẩn hóa lọc qua lọc thơng cao Hệ số lọc thường lấy xung quanh giá trị 0.95 Theo [7] giá trị thường sử dụng 0.9375 Từ ta có có hàm truyền lọc thơng cao H ( z)   0,9378z 1  Phân khung cửa sổ hóa: Tín hiệu chia thành khung với độ dài 20ms (tương ứng với 320 mẫu) Các khung chùm lên đoạn 10ms (tương ứng với 160 mẫu) Các khung nhân với hàm cửa sổ Hamming  Năng lượng trung bình khung tính sử dụng hàm tbnl.m Kết trích tạo đặc tính Xây dựng thơng số đặc tính cho khung tín hiệu bao gồm 12 hệ số MFCC, giá trị lượng, giá trị  ,  giá trị Như 75 khung tín hiệu đặc trưng véc tơ quan sát có kích thước 39 Chương tình tính hệ số MFCC viết hàm MFCC.m Matlab 6.1.3 Kết nhận dạng Với 456 mẫu thu được, chia làm hai tập số liệu Bộ số liệu học gồm 304 mẫu (tương ứng với 2/3 số lượng mẫu), số liệu kiểm tra gồm 152 mẫu Bộ số liệu học sử dụng để huấn luyện tìm thơng số tối ưu mơ hình nhận dạng Bộ số liệu kiểm tra sử dụng để đánh giá chất lượng mơ hình nhận dạng thu  Trong luận văn này, mơ hình FAHMM với trạng thái sử dụng Kích thước tối ưu không gian véc tơ trạng thái lựa chọn dựa vào đồ thị thể phụ thuộc sai số nhận dạng vào kích thước véc tơ trạng thái 34 12 comp 33.5 comp 33 sai so (%) 32.5 32 31.5 31 30.5 30 29.5 10 11 12 13 14 state space dimensionality (k) 15 16 17 Hình 6.2: Đồ thị thể phụ thuộc sai số vào kích thước khơng gian trạng thái Từ đồ thị trên, ta lựa chọn kích thước không gian trạng thái k  13  Để lựa chọn số thành phần trộn cho không gian trạng thái không gian quan sát (lựa chọn tham số M ( x ) M ( o ) ) tác giả tiến hành chạy thử mơ hình với giá trị M ( x ) M ( o ) thay đổi Kết nhận dạng thể bảng sau: 76 M ( x) M (o) E(%) 22.4 21.5 21.3 E(%) 22.5 20.7 19.8 E(%) 20.6 19.8 18.7 E(%) 21.4 18.4 19.8 E(%) 20.6 19.8 19.8 Từ bảng kết ta thấy sai số cùa mơ hình đạt tốt với M ( x)  , M ( o )  Khi sai số nhận dạng E  18.4% 6.1.3 Một số trường hợp nhận dạng sai Kết thử nghiệm cho thấy mơ hình cho kết nhận dạng tương đối tốt phát âm rõ ràng, khơng bị ngọng, bị nhiễu Tuy nhiên có số phát âm người nói phát âm không chuẩn môi trường nhiễu nên bị nhận dạng sai  Nhận dạng sai phát âm bị nhiễu lớn 0.5 0.4 0.3 0.2 0.1 -0.1 -0.2 -0.3 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Hình 6.3: Mẫu nhận dạng sai bị nhiễu lớn 77  Nhận dạng sai lấy mẫu tín hiệu khơng chuẩn 0.4 0.3 0.2 0.1 -0.1 -0.2 -0.3 -0.4 0.7 0.8 0.9 1.1 1.2 1.3 1.4 x 10 Hình 6.4: Mẫu nhận dạng sai lấy mẫu tín hiệu khơng chuẩn Trong hình 6.4, phần tín hiệu thu chủ yếu khoảng lặng, phần tín hiệu tiếng nói tích cực bị cắt đoạn đầu Do bước xử lý khơng mang đủ thơng tin tín hiệu  Nhận dạng sai người nói phát âm khơng chuẩn Trong ngơn ngữ tiếng Việt, có số âm địi hỏi người nói phải phát âm chuẩn phân biệt Ví dụ âm “r” âm “d”, âm “s” âm “x” Trong mẫu mà tác giả thu âm địi hỏi phải phân biệt âm trên, điều gây sai số cho mơ hình mà người nói phát âm không chuẩn 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 -0.2 -0.2 -0.4 -0.4 -0.6 -0.6 -0.8 -1 2000 4000 6000 8000 10000 12000 14000 -0.8 16000 Phát âm “s” 2000 4000 6000 8000 10000 12000 Phát âm “x” Hình 6.5: Mẫu nhận dạng sai người nói phát âm khơng chuẩn 78 14000 16000 6.2 Kết luận hướng phát triển Trong luận văn tác giả tìm hiểu mơ hình ứng dụng nhận dạng tiếng nói mơ hình Gauss tuyến tính Kết nhận dạng tương đối khả quan Tuy nhiên độ xác mơ hình nhận dạng chưa cao Kết cải thiện phương pháp sau: – Xây dựng sở liệu đa dạng phong phú với nhiều người phát âm, người phát âm nhiều lần, phát âm thu nhiều môi trường khác – Cải thiện chất lượng khâu tiền xử lý: Sử dụng số phương pháp lọc nhiễu sử dụng kỹ thuật RASTA,… – Sử dụng thêm số đặc tính khác như: Tính hệ số PLP, tần số đỉnh phổ,… – Phân tích, lựa chọn tham số thực tối ưu cho mơ hình – Tìm hiểu thêm số mơ hình Gauss tuyến tính khác từ lựa chọn mơ hình phù hợp cho nhận dạng tiếng Việt 79 Mục lục tài liệu tham khảo [1] Đặng Ngọc Đức, “Nghiên cứu ứng dụng mạng nơ rôn mơ hình Markov ẩn nhận dạng tiếng Việt”, Đại học Quốc gia Hà nội [2] Antti-Veikko Ilmari Rossti, “Linear Gaussian Models for Speech Recognition”, University of Cambridge [3] Lawrence Rabiner, “Fundamentals of Speech Recognititon”, Prencice Hall [4] Hynek Hermansky, “Perceptual Linear Predictive Analysis of Speech”, Division of Panasonic Technology [5] Thomas F Quatieri, “Discrete-Time Speech Signal Processing”, Prentice Hall [6] Andrei Mihaila, “Speech Processing, Lecture12”, Department of Computer Science University of Joensuu, Finland [7] John-Paul Hosom, “Hidden Markov Models for Speech recognition”, Oregon Health & Science University [8] www.mathworks.com [9] www.xilinx.com 80 TÓM TẮT LUẬN VĂN Tên tác giả: Phạm Đắc Định Tên luận văn: Ứng dụng mơ hình Gauss tuyến tính nhận dạng lệnh tiếng Việt Chuyên ngành: Đo lường Hệ thống điều khiển Mã số: Cơ sở đào tạo: Trường Đại học Bách khoa Hà nội  Mục đích đối tượng nghiên cứu Mục đích nghiên cứu luận văn nghiên cứu ứng dụng mơ hình nhận dạng Gauss tuyến tính vào nhận dạng tiếng Việt Luận văn trinh bày cách tổng quan mơ hình Gauss tuyến tính sử dụng hàm Gauss trộn để tạo nhiễu cho mơ hình Q trình phát xạ tập quan sát mơ tả dựa vào mơ hình FA LDA, luận văn mơ hình FA sử dụng cho thử nghiệm  Các phương pháp sử dụng: Luận văn nghiên cứu hai phương pháp trích tạo đặc tính tín hiệu tiếng nói sử dụng có hiệu phương pháp tính hệ số MFCC phương pháp tính hệ số PLP Tiếp theo luận văn tìm hiểu mơ hình Gauss tuyến tính khác dựa kết hợp trình sinh trạng thái trình sinh tập quan sát khác Luận văn tập trung trình bày chi tiết mơ hình FAHMM lựa chọn để thử nghiệm nhận dạng tiếng nói tiếng Việt  Các kết kết luận  Xây dựng sở liệu tiếng nói tiếng Việt gồm chữ số chữ tiếng Việt  Luận văn tìm hiểu số mơ hình thống kê ứng dụng nhận dạng tiếng nói Nghiên cứu mơ hình Gauss tuyến tính FAHMM, tìm hiểu ứng dụng mơ hình nhận dạng tiếng nói tiếng Việt 81 SUMMARY OF THESIS Full name: Pham Dac Dinh Name of thesis: Studying of application of linear Gaussian models in Vietnamese speech recognition Speciality: Measurement and control systems School: Ha noi University of Technology  Purpose and subject of study The purpose of study is to study the application of linear Gaussian models in Vietnamese speech recognition The thesis discusses a generlised linear Gaussian models and Gaussian mixture models The thesis focus on the FAHMM with a factor analysed observation process and the state evolution process is based on hidden markov model  The method of study The thesis discusses two the most popular features extraction methods are MFCC and PLP Then, the thesis presents many kinds of linear Gaussian models that combine the differences state and observation processes  Results and conclusion  Study to build Vietnamese speech database  Study to applicate linear Gaussian models in Vietnamese speech recognition Keyword: Speech recognition, linear Gaussian models, hidden Markov model, Factor analysed hidden Markov model, linear discriminant analysis, … 82 ... tốn nhận dạng tiếng nói từ rời rạc dễ so với tốn nhận dạng tiếng nói liên tục 1.3 Một số phương pháp nhận dạng tiếng nói Trong nhận dạng tiếng nói, có nhiều mơ hình nhận dạng đề xuất sử dụng. .. HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG TIẾNG NĨI Mơ hình nhận dạng tiếng nói sử dụng phổ biến mơ hình Markov ẩn (HMM) Tuy nhiên, Các mơ hình HMM xây dựng dựa giả thuyết không phù hợp việc mô hình. .. tiếng nói, số mơ hình nhận dạng tiếng nói Phần cuối dành để trình bày số kết nhận dạng tiếng nói giới nhận dạng tiếng Anh, tiếng Thái Một số nghiên cứu thời nhận dạng tiếng Việt 1.1 Đặt vấn đề

Định dạng
Số trang	82
Dung lượng	1,92 MB