Ứng dụng DSP trong nhận dạng tiếng nói tiếng việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	97
Dung lượng	1,25 MB

Nội dung

Đại Học Quốc Gia Tp.Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA TRƯƠNG THỊ BÍCH NGÀ ĐỀ TÀI ỨNG DỤNG DSP TRONG NHẬN DẠNG TIẾNG NÓI- TIẾNG VIỆT CHUYÊN NGÀNH :KỸ THUẬT ĐIỆN TỬ MÃ SỐ NGÀNH: LUẬN VĂN THẠC SỸ Tp.Hồ Chí Minh 06/03 Đại Học Quốc Gia Tp.Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập –Tự Do-Hạnh Phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Trương Thị Bích Ngà Ngày, tháng, năm sinh: 31/10/1974 Chuyên ngành : KT Vô Tuyến _Điện tử I TÊN ĐỀ TÀI Phái : Nữ Nơi sinh: Hà Nội Mã số : Ứng dụng DSP nhận dạng tiếng nói –tiếng Việt II NHIỆM VỤ VÀ NỘI DUNG: Nhận dạng tiếng nói gồm 50 từ ứng dụng điều khiển Xây dựng hệ nhận dạng tiếng nói - tiếng Việt mô hình Markov ẩn Nội dung gồm bốn chương: giới thiệu tiếng nói tự nhiên, lý thuyết sở xử lý tín hiệu số, phương pháp trích đặc điểm MFCC thuật toán nhận dạng tiếng nói phát âm rời mô hình Markov ẩn II NGÀY GIAO NHIỆM VỤ : 08/11/02 IV NGÀY HOÀN THÀNH NHIỆM VỤ : 15/05/03 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS Phạm trường Hải ThS.Hồ Trung Mỹ VI HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 1: TS Vũ Đình Thành VII HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 2: TS Nguyễn Như Anh CÁN BỘ HƯỚNG DẪN CÁN BỘ NHẬN XÉT CÁN BỘ NHẬN XÉT (Ký tên ghi rõ họ, tên, học hàm, học vị) Nội dung đề cương luận văn thạc só Hội Đồng Chuyên ngành thông qua Ngày TRƯỞNG PHÒNG QLKH-SDH tháng năm CHỦ NHIỆM NGÀNH LỜI CÁM ƠN Tôi chân thành cảm ơn Th.S Hồ trung Mỹ người hướng dẫn tận tình gợi mở nhiều ý tưởng để hoàn thành luận án Tôi xin chân thành cảm ơn Th.S Trần Tiến Đức giúp đỡ đề nghị cải tiến xác đáng để luận án hoàn thiện Tôi xin chân thành cảm ơn thầy cô, bạn bè, đồng nghiệp gia đình khích lệ, động viên tạo điều kiện tốt cho thực luận án LỜI MỞ ĐẦU Xử lý tiếng nói hướng phát triển lý thuyết thực hành xử lý tín hiệu số – Digital Signal Processing (DSP) Ngày nay, phương pháp DSP sử dụng phân tích tiếng nói, tổng hợp, mã hóa, nhận dạng gia tăng tiếng nói sửa đổi tiếng nói, nhận dạng người nói nhận dạng ngôn ngữ Một vài phương pháp bao gồm kỹ thuật xử lý cho khử nhiễu, chuyển đổi (ví dụ: chuyển đổi Fourier, tương quan) phương pháp trích đặc điểm Những đặc điểm cục gồm: tính toán độ dốc , mật độ địa phương, mặt nạ biến ….Trong lý thuyết, nhận dạng tiếng nói trực tiếp từ dạng sóng số hóa Tuy nhiên, thay đổi lớn tín hiệu tiếng nói, có khái niệm tốt để trình bày vài hình thức trích đặc điểm làm giảm biến thiên Trong thực tế, tính toán hình bao phổ tương lai gần giảm đến biến quan trọng cách làm nhẵn chi tiết phổ, khử thông tin nguồn biến thiên, có âm tiếng nói hay phụ âm xát không tiếng nói khử ảnh hưởng tính chu kỳ cường độ Nhận dạng tiếng nói đề tài nghiên cứu có nhiều hệ nhận dạng tiếng nói sản phẩm hóa giới Tuy vậy, nhận dạng tiếng nói tiếng Việt mẻ nước ta Mục tiêu luận án xây dựng hệ nhận dạng tiếng nói tiếng Việt mô hình Markov ẩn ứng dụng nhận dạng 50 từ dùng điều khiển Toàn luận án chia làm bốn chương: chương đề cập đến đặc tính tự nhiên tiếng nói nhằm mục đích lý giải tồn hai phương trích đặc điểm tiếng nói, chương hai trình bày lý thuyết sở xử lý tín hiệu số làm tảng cho xử lý tiếng nói, chương ba thảo luận tỉ mỉ hai phương pháp trích đặc điểm tiếng nói dãy lọc cepstrum, đồng thời trình bày phương pháp lượng tử hóa vector để trích đặc tính trung bình đánh nhãn cho frame tiếng nói nhằm cung cấp kết cho chương cuối, chương cuối thảo luận thuật toán nhận dạng tiếng nói phát âm rời mô hình Markov ẩn Do trình độ lực hạn chế nên chắn luận án có nhiều sai sót Kính mong dẫn thầy cô bạn Tp HCM, ngày 15 tháng năm 2003 Abstract Automatic speech recognition (ASR) has become an important in today’s technologydriven society as we are searching for more efficient and natural man-machine interface Current ASR is based on acoustical models, from which more complex task, such as word recognition Most state of the art systems use acoustical models of phones, together with hidden Markov models (HMM) to model complex speech units The output of the acoustical modeling is the probability of observing a particular phone in an interval of speech, which then serves as input to a hidden Makov word model In this study the acoustic-phonetic approach is followed to construct an isolation speech phone recognizer for the Vietnamese language The phone recognizer based on the pattern recognition system, consists of a pre-processor, feature extractor and classifier Cepstral parameters have been show to be an effective method of extracting information or features from spoken language, thus Mel frequency cepstrum coffients (MFCC) are used as features The Mel scale describes the relation between different perceived pitches, and has been derived from empirical data, obtained from physical auditory experiments To demonstrate an application of the phone recognizer, an automatic labeling system utilizing HMM with Viterbi searches are presented CHƯƠNG TIẾNG NÓI TỰ NHIÊN Chương giới thiệu tóm tắt lịch sử nhận dạng tiếng nói đồng thời thảo luận chế tạo lập nhận thức tiếng nói người, điều dẫn tới phương pháp trích đặc tính tiếng nói khác Ngoài phân loại âm khác âm hữu thanh, âm vô thanh, nguyên âm, phụ âm Hiểu biết rõ ngữ âm tiếng Việt điều thuận lợi giúp cho trình nhận dạng tốt 1.1 CƠ CHẾ TẠO LẬP TIẾNG NÓI CỦA NGƯỜI Hình 1.1 minh họa quan phát âm người Chủ yếu gồm phổi, khí quản, quản, phận mũi miệng Thanh quản có hai nếp gấp gọi dây âm, dây âm rung luồng không khí qua khe môn khe hai dây âm Bộ phận miệng ống âm học không đều, dài xấp xỉ 17cm đàn ông trưởng thành tính từ môi đến dây âm hay quản Tiết diện cắt ngang phận miệng thay đổi từ zero đến N T phần phận cấu âm - articulator (môi, lưỡi, hàm vòm miệng mềm) điều khiển Bộ phận mũi ống âm học diện tích chiều dài cố định (dài chừng 12cm đàn ông trưởng thành), lỗ mũi đến vòm miệng mềm Vòm miệng mềm làm nhiệm vụ liên kết âm phận mũi miệng Quá trình tạo âm phi mũi sau: vòm miệng mềm ngăn chặn phận mũi âm phát thông qua môi Đối với trình tạo âm mũi, vòm miệng mềm hạ thấp xuống phận mũi liên kết với phận miệng, lúc phía trước phận miệng khép lại hoàn toàn âm phát thông qua mũi Đối với âm nói giọng mũi, âm phát mũi môi Hình 1.1 Cơ quan phát âm người Khi nói, phổi đầy không khí giãn nỡ lồng xương sườn co lại hoành Khi lồng xương sườn co lại, không khí bị đẩy dọc theo khí quản, xuyên qua môn Luồng không khí nguồn lượng tạo tiếng nói Có thể điều khiển luồng không khí theo nhiều cách khác để tạo âm khác Âm tiếng nói chia làm ba loại khác nhau: (a) Âm hữu (voiced), giống âm nói ‘a’ hay ‘e’, tạo dây âm căng lên rung áp suất không khí tăng lên, làm cho môn mở đóng lại luồng không khí qua Những dây âm rung tạo dạng sóng luồng không khí có dạng xấp xỉ tam giác minh họa Hình 1.2, có chu kỳ hay tựa chu kỳ với phổ tần số có nhiều hài với tốc độ suy giảm xấp xỉ 12dB/octave Bộ phận phát âm hoạt động giống hốc cộng hưởng, khuếch đại thành phần hài suy giảm thành phần hài khác để tạo âm hữu Mức độ rung dây âm tùy thuộc vào áp suất không khí phổi sức căng dây âm Người nói điều khiển hai yếu tố để thay đổi chu kỳ bước sóng (pitch) âm Chu kỳ bước sóng âm đàn ông trưởng thành thường từ 50Hz đến 250Hz, giá trị trung bình chừng 120Hz Đối với phụ nữ trưởng thành, giới hạn cao nhiều, lên đến 500Hz Hình 1.2 Dạng sóng luồng không khí Trong ngôn ngữ nguyên âm chất âm học âm hữu (b) Âm vô (unvoiced) tạo dây âm không rung Có hai loại âm vô - âm xát âm Đối với âm xát, ví dụ nói ‘s’ , số điểm phận phát âm bị co lại luồng không khí ngang qua nó, hỗn loạn xảy tạo nên nhiễu ngẫu nhiên Bởi điểm co thường phía trước miệng, cộng hưởng phận phát âm có ảnh hưởng nhỏ đến đặc tính âm xát Đối với âm bật hơi, giống nói ‘h’ ‘hùng’, hỗn loạn xảy gần môn dây âm bị giữ nhẹ phần Trường hợp này, cộng hưởng phận phát âm biến điệu phổ nhiễu ngẫu nhiên Hiệu ứng nghe rõ nói thầm Cấu tạo phụ âm ngôn ngữ âm vô Ngoài hai loại âm trên, có loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, gọi bán nguyên âm hay bán phụ âm Ví dụ âm ‘i’ ‘u’ tiếng Việt từ ‘ai’, ‘âu’ (c) Phụ âm nổ, ví dụ âm ‘p’, ‘t’, ‘k’ hay ‘đ’, ‘b’, ‘g’ tiếng Việt tạo loại kích thích khác Đối với lớp âm này, phận phát âm đóng lại vài điểm, áp suất không khí tăng lên giảm xuống Áp suất giảm xuống tạo kích thích ngắn phận phát âm Lúc dây âm rung để tạo âm hữu nổ (‘đ’, ‘b’, ‘g’) hay không rung để tạo âm vô nổ (‘p’, ‘t’, ‘k’) Ngoài có loại phụ âm thứ ba có tỷ lệ âm hữu lớn gọi âm vang ‘m’, ‘n’, ‘ng’, ‘l’ 1.2 MÔ HÌNH LỌC NGUỒN TẠO TIẾNG NÓI Hình 1.3 minh họa mô hình đơn giản phận phát nguyên âm ‘eh’ hay nguyên âm trung tính ống có chiều dài L, đầu nguồn âm (dây âm) đầu mở (môi) Ống cộng hưởng tần số lẻ f , f , f , , f = c / L với c vận tốc âm không khí Bộ phận phát âm điển hình có chiều dài L = 17cm , c = 300m / s , cộng hưởng tần số 500Hz, 1500Hz, 2500Hz, , đỉnh cộng hưởng gọi formant Dó nhiên, phận phát âm có nhiều dạng khác tạo đỉnh cộng hưởng khác hay giá trị formant khác nên âm phát khác Trong tiếng nói, tần số formant luôn thay đổi từ âm sang âm khác Hình 1.3 Mô hình ống phận phát âm Những thảo luận dẫn đến ý tưởng cho xem trình tạo tiếng nói lọc nguồn, tín hiệu từ nguồn âm (cũng có chu kỳ hay nhiễu) lọc lọc biến thiên theo thời gian có tính chất cộng hưởng tương tự với phận phát âm Như thu phổ tần số tín hiệu tiếng nói cách nhân phổ nguồn âm với đặc tính tần số lọc Hình 1.4 minh họa tiếng nói hữu vô Các độ lợi A V A N xác định cường độ nguồn tạo âm hữu vô Hình 1.4 Tạo tiếng nói theo mô hình lọc nguồn Mặc dầu phận phát âm có số hữu hạn đỉnh cộng hưởng hay formant cần khảo sát ba hay bốn đỉnh cộng hưởng phủ băng tần từ 100Hz đến 3.5kHz, biên độ formant cao tiếng nói hữu bị suy giảm hoàn toàn với độ suy giảm -12dB/octave Trường hợp tiếng nói vô thanh, phổ tương đối rộng phẳng, số lượng formant đủ mô hình cho tiếng nói vô thường phải mở rộng băng tần lên đến 7-8kHz Một điểm đáng lưu ý lọc mô hình lọc nguồn Hình 1.4 đặc tả tính chất phát xạ phận phát âm mà nêu ảnh hưởng xạ miệng Ảnh hưởng tổng trở xạ mô hình hóa đặc tính lọc thông cao bậc có độ tăng lên chừng 6dB/octave băng tần từ 0-3kHz Mô hình lọc nguồn cho trình tạo tiếng nói đơn giản Như đề cập trên, lọc âm xát đỉnh cộng hưởng phận phát âm âm hữu hay âm bật hơi, mô hình lọc nguồn không hoàn toàn xác cho âm xát Ngoài ra, mô hình lọc nguồn giả thiết nguồn phát âm bị tách tuyến tính khỏi lọc tương tác chúng Điều giả thiết không hoàn toàn độ rung dây âm áp suất âm bên phận phát âm, liên kết với phận phát âm phổi suốt chu kỳ quản mở, cần phải biến đổi đặc tính lọc chu kỳ kích âm Tuy nhiên điều thứ yếu thường bỏ qua mô hình lọc nguồn chấp nhận 1.3 NGỮ ÂM HỌC Ngôn ngữ người ngôn ngữ thành tiếng Tuy nhiên hình thức diễn đạt âm từ ngôn ngữ âm đơn Khi đọc nhẩm, nghó thầm có từ xuất với hình thức âm chúng song hình ảnh âm học Trong giao tế lời vậy, người nghe tri giác tất người cảm thụ thính giác Người nghe thường nhận biết đặc trưng âm học khiến họ phân biệt từ hiểu nội dung lời nói 1.3.1 Cơ sở ngữ âm học a Cơ sở âm học Âm ngôn ngữ tạo thành rung động dây khí quan khác phận phát âm Âm ngôn ngữ chấn động mà tai người nghe Âm học phân biệt âm theo đặc tính sau: Độ cao: phụ thuộc vào tần số dao động (tần số chấn động dây thanh), tần số dao động lớn âm cao Còn tần số dao động phụ thuộc vào độ dầy, mức căng dây áp suất không khí phía phía hầu Tai người phân biệt độ cao từ 16 – 20.000 Hz Độ lớn (cường độ): phụ thuộc vào biên độ dao động Đối với ngôn ngữ cường độ âm bảo đảm xác minh giao tế sở để tạo thành kiểu trọng âm khác Độ dài (trường độ): thời gian kéo dài âm Độ dài sử dụng để phân biệt nguyên âm dài nguyên âm ngắn (các nguyên âm có trọng âm thường dài nguyên âm trọng âm) Ví dụ a ă Ngoài âm phân biệt với nhờ âm sắc chúng Âm sắc có cộng hưởng, tức khuếch đại số thượng âm cộng hưởng trường tạo nên mối quan hệ với âm tiếng ồn So sánh cách phát âm hai từ ‘bình’ chữ ‘bính’ tiếng Việt, ‘bình’ phát với ‘giọng’ thấp hay có cao độ thấp hơn, ‘bính’ có ‘giọng’ cao hay cao độ cao hơn, người nghe phân biệt hai từ có nghóa khác hẳn Trong tiếng Việt, chữ viết có dấu ‘huyền, sắc, hỏi, ngã, nặng’ gọi điệu Thanh điệu nâng cao hay hạ thấp ‘giọng nói’ âm tiết Như điệu thay đổi cao độ ‘giọng nói’, điều có nghóa có thay đổi biên độ tần số âm hữu Dây âm rung tạo âm Biên độ thành phần tần số giữ nguyên biên độ thành phần hài thay đổi, tượng cộng hưởng toàn âm thay đổi âm sắc có nguyên âm khác với điệu, chẳng hạn ‘à, ù, ì’ Ngược lại biên độ thành phần tần số thay đổi biên độ thành phần hài không đổi, biến đổi cộng hưởng có nguyên âm với âm sắc không đổi với nhiều điệu khác nhau, chẳng hạn ‘à, á, ả’ Như điệu xác định tần số Điều nhận xét gợi ý cho trình nhận dạng phân lớp từ cần nhận dạng thuộc lớp ‘a, á, à, ả, ã, ạ’, cần xét thành phần tần số xác định cụ thể từ cần nhận dạng từ b Cơ sở sinh lý học Bộ phận phát âm người gồm bốn phần: Phổi: vai trò phổi tạo nên luồng không khí Lời nói tạo thành lượng luồng không khí Thanh hầu dây thanh: tiếng tạo hầu hoạt động dây Nếu khe đóng lại luồng không khí từ phổi qua khe làm rung dây tạo tiếng ngược lại khe mở để không khí qua tự dây không rung tiếng tạo phụ âm vô Các khoang hầu: khoang miệng khoang yết hầu có đặc điểm thay đổi khoang kéo theo thay đổi khoang Mỗi lần môi, lưỡi thay đổi tư lần có hốc cộng hưởng miệng hốc cộng hưởng yết hầu khác Việc xác định thể tích, hình dáng, lối thoát không khí hốc cộng hưởng này, tức khả dao động riêng hay khả cộng hưởng chúng mô tả độ mở miệng, vị trí lưỡi hình dáng môi Độ mở miệng hay độ nâng lưỡi cho biết thể tích hốc cộng hưởng Căn vào độ mở (hay độ nâng) khác mà có nguyên âm khác nhau: nguyên âm rộng (hay cao) ‘a’, ‘e’, nguyên âm hẹp (hay thấp) ‘i’, ‘u’ Môi: hình dáng môi cho biết đặc điểm lối thoát không khí hốc cộng hưởng miệng Hai môi chúm tròn nhô phía trước cho nguyên âm với âm sắc trầm bình thường, nguyên âm ‘u’, ‘ô’, ‘o’ Trái lại, hai môi tư bình thường hay dẹt phát âm, có nguyên âm không tròn hay dẹt ‘a’, ‘i’, ‘e’ c Cơ sở xã hội Các âm tố lời nói không chấn động xác định truyền môi trường không khí không kết hoạt động máy phát âm Các âm tố sử dụng đơn vị nhỏ để xây dựng đơn vị có nghóa ngôn nhữ Nhờ mà ngôn ngữ trở thành công cụ giao tế Nhưng dân tộc lại nói thứ tiếng khác nhau, có âm tố sử dụng ngôn ngữ lại không sử dụng Hình 4.4 Minh họa phép toán dùng để tính xác suất đồng thời mô hình trạng thái i thời điểm t trạng thái j thời điểm t+1 Định nghóa ξ t (i , j ) xác suất trạng thái i thời điểm t trạng thái j thời điểm t+1 ứng với quan sát cho O mô hình λ , tức ξ t (i , j ) = P(q t = i , q t +1 = j| O, λ ) (4.28) Hình 4.4 minh họa đường thỏa mãn điều kiện phương trình (4.28) Từ định nghóa biến thuận forward biến ngược backward, viết lại ξ t (i , j ) ξ t (i , j ) = = = P(q t = i , q t +1 = j , O| λ ) P(O| λ ) α t (i )aij b j (o t +1 )β t +1 ( j ) P (O| λ ) α t (i )aij b j (o t +1 )β t +1 ( j ) N N ∑ ∑ α (i )a b (o t ij j t +1 (4.29) )β t +1 ( j ) i =1 j =1 Theo phương trình (4.25), có γ t (i ) = P ( q t = i | O , λ ) Theo phương trình (4.28) , có ξ t (i , j ) = P(q t = i , q t +1 = j| O, λ ) Nên mối liên hệ γ t (i ) vaø ξ t (i , j ) laø N γ t (i ) = ∑ ξ t (i , j ) (4.30) j =1 Nếu lấy tổng γ t (i ) theo t, nhận kỳ vọng (theo thời gian) số lần có trạng thái i, hay tương đương với kỳ vọng số lượng vị trí từ trạng thái i (nếu bỏ qua thời điểm t=T phép tổng) Tương tự, tổng ξ t (i , j ) theo t (từ t=1 đến T-1) kỳ vọng số lượng vị trí từ trạng thái i đến trạng thái j Tức 77 T −1 ∑γ t (i ) = kỳ vọng số lượng vị trí từ trạng thái i ứng với O (4.31a) t =1 T −1 ∑ ξ (i , j ) = t kỳ vọng số lượng vị trí từ trạng thái i tới trạng thái j ứng với O (4.31b) t =1 Sử dụng công thức (và khái niệm đếm kiện xảy ra), có phương pháp ước lượng tham số HMM Tập công thức ước lượng π , A B sau: π i = kỳ vọng tần số (số lần) trạng thái i thời điểm t=1 = γ (i ) = = P ( O , q1 = i | λ ) P(O| λ ) α (i )β1 (i ) (4.32) N ∑α (i ) T i =1 T −1 ∑ ξ (i , j) t = t =1 T −1 ∑γ t (i ) t =1 T −1 = ∑ α t (i )aij b j (o t +1 )β t +1 ( j ) P(O| λ ) α t (i )β t (i ) ∑ P(O| λ ) t =1 t =1 T −1 T −1 ∑ α (i )a b (o t = ij j t +1 )β t +1 ( j ) t =1 T −1 ∑ α (i )β (i ) t (4.33) t t =1 T ∑γ = ( j) t t =1 cho o t = v k T ∑γ t ( j) t =1 78 T = ∑ P ( O, q t = j| λ ) δ ( o t , v k ) t =1 T ∑ P ( O, q t = j| λ ) t =1 T = ∑α t ( j )β t ( j )δ (o t , v k ) (4.34) t =1 T ∑α t ( j )β t ( j ) t =1 ký hiệu δ(o t , v k ) = =0 o t = v k ngược lại Nếu gọi mô hình λ = ( A, B , π ) dùng mô hình để tính vế phải phương trình (4.32), (4.33) (4.34), có mô hình λ = ( A , B , π ) Baum cộng chứng minh rằng: Mô hình λ đạt tới trạng thái tới hạn λ = λ Nếu mô hình λ tốt mô hình λ P ( O| λ ) > P ( O| λ ) Tức chọn mô hình λ tốt ứng với quan sát cho Dựa vào điều thảo luận trên, gán λ λ lặp lại tính toán ước lượng, cải thiện xác suất mô hình ứng với quan sát cho O, đạt tới trạng thái tới hạn Kết cuối phương pháp lặp ước lượng ước lượng ML Chú ý thuật toán forward-backward đạt tới cực đại địa phương Tổng quát, hàm thích hợp - likelihood phức tạp có nhiều cực đại địa phương Một tính chất quan trọng phương pháp lặp ước lượng ràng buộc thống kê mô hình Markov ẩn: N ∑π i =1 ij =1 (4.35) i =1 N ∑a 1≤ i ≤ N (4.36) 1≤ j ≤ N (4.37) j =1 M ∑ b (k ) = j k =1 tự động hợp lần lặp 4.4 PHÂN LOẠI MÔ HÌNH MARKOV ẨN Chúng ta phân loại mô hình Markov ẩn dựa vào cấu trúc ma trận vị trí A xích Markov Cho đến bây giờ, khảo sát mô hình Markov ẩn kết nối đầy đủ, nghóa trạng thái mô hình đạt tới từ trạng thái khác Hình 4.5a mô hình Markov ẩn kết nối đầy đủ với N=4 trạng thái, hệ số a ij dương 79 ⎡a11 ⎢a 21 A=⎢ ⎢a 31 ⎢ ⎣a 41 a12 a13 a 22 a 23 a 32 a 33 a 42 a 43 a14 ⎤ a 24 ⎥ ⎥ a 34 ⎥ ⎥ a 44 ⎦ Tuy nhiên mô hình thông thường nhận dạng tiếng nói mô hình trái-phải hay mô hình Bakis Hình 4.5b Mô hình có tên gọi trái-phải trạng thái liên kết với mô hình có tính chất thời gian tăng lên, trạng thái tăng lên (hay trạng thái cũ) tức trạng thái tiến dần từ trái sang phải Điều phù hợp với cấu trúc tự nhiên tiếng nói biến thiên theo thời gian từ trái sang phải trình bày cách tạo lập tiếng nói Phần 4.1 Tính chất mô hình Bakis hệ số ma trận vị trí có tính chất aij = j i + Δi (4.40) Cụ thể, Hình 4.5b, giá trị Δi 2, tức không nhảy hai trạng thái Ma trận vị trí cho Hình 4.5b sau: 80 ⎡a11 ⎢0 A=⎢ ⎢0 ⎢ ⎣0 a12 a13 a 22 a 23 a 33 0 ⎤ a 24 ⎥ ⎥ a 34 ⎥ ⎥ a 44 ⎦ Chú ý rằng, trạng thái cuối mô hình Bakis, hệ số ma trận vị trí laø (4.41a) a NN = i

Ngày đăng: 16/04/2021, 04:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết

[1] L. Rabiner and B. H. Juang, Fundamentals of speech recognition, Prentice-Hall, Englewood Cliffs, 1993 Sách, tạp chí

Tiêu đề: Fundamentals of speech recognition

[2] F. J. Owens, Signal processing of speech, Macmillan, London, 1993 Sách, tạp chí

Tiêu đề: Signal processing of speech

[3] John R. Deller, Jr., John G. Proakis, John H. L. Hansen, Discrete-time processing of speech signals. Macmillan, 1993 Sách, tạp chí

Tiêu đề: Discrete-time processing of speech signals

[4] Herveù A. Bourlard, Connectionist Speech Recognition, Kluwer Academic, 1994 Sách, tạp chí

Tiêu đề: Connectionist Speech Recognition

[5] Paul M. Embree, Bruce Kimble, C Language Algorithms for digital signal processing, Prentice-Hall, 1990 Sách, tạp chí

Tiêu đề: C Language Algorithms for digital signal processing

[6] Emmanuel C. Ifeachor and Barrier W.Jervis, Digital Signal Processing, Addision-Wesley, 1993 Sách, tạp chí

Tiêu đề: Digital Signal Processing

[7] Claudio Becchrtti, Speech Recognition theory and C++ Implementation, 2000 Sách, tạp chí

Tiêu đề: Speech Recognition theory and C++ Implementation

[8] Ravi P.Ramanchandar, Morden methods of speech processing, Kluwer Academic, 1995 Sách, tạp chí

Tiêu đề: Morden methods of speech processing

[11] Hồ Ngọc Điệp, Nhận dạng tiếng nói tiếng Việt, 1999 Sách, tạp chí

Tiêu đề: Nhận dạng tiếng nói tiếng Việt

[12] Trần Tiến Đức, Nhận dạng tiếng nói tiếng việt bằng mô hình markov ẩn ứng dụng nhận dạng 10 chữ số, 1998 Sách, tạp chí

Tiêu đề: Nhận dạng tiếng nói tiếng việt bằng mô hình markov ẩn ứng dụng nhận dạng 10 chữ số

[9] Nguyễn Hữu Phương, Xử lý tin hiệu số Khác