Nhận dạng tiếng nói và ứng dụng tích hợp với các phầnmềm máy tính

Website: http://www.docs.vn Email : lienhe@docs.vn Tel (: 0918.775.368 LỜI NÓI ĐẦU Nhằm rèn luyện kỹ năng tổng hợp các kiến thức đã học, tính tự chủ, tinh thần trách nhiệm trong công việc, khả năng làm việc độc lập tạo ra bản thiết kế cho một đề tài hoàn chỉnh, mỗi sinh viên trước khi tốt nghiệp đều được nhận một đề tài tốt nghiệp do giáo viên hướng dẫn giao cho hoặc tự lựa chọn. Tham gia thực hiện đồ án một cách nghiêm túc sẽ giúp sinh viên tiếp cận với các phương pháp giải quyết một bài toán thực tế. Tôi chọn đề tài: “Nhận dạng tiếng nói và ứng dụng tích hợp với các phần mềm máy tính” làm đồ án của mình nhằm đạt các mục tiêu chính sau: • Tìm hiểu về lĩnh vực xử lý tiếng nói; • Nghiên cứu và tìm hiểu về ứng dụng nhận dạng tiếng nói; • Xây dựng chương trình nhận dạng tiếng nói theo thời gian thực; • Xây dựng chương trình tích hợp với các phần mềm máy tính. Xử lí tiếng nói là lĩnh vực rộng đã và đang từng bước được nghiên cứu và thử nghiệm trong thực tế. Nhờ sự nỗ lực của bản thân cùng sự giúp đỡ của gia đình, thầy cô và bạn bè tôi đã thực hiện các nội dung của đồ án theo đúng yêu cầu. Sau thời gian nghiên cứu, tìm hiểu và thực hiện, tôi xin trình bày bản báo cáo tổng hợp những lý thuyết liên quan và chương trình Demo nhận dạng tiếng nói và chương trình tích hợp với Excel. Trước tiên tôi xin gửi lời cảm ơn tới cha mẹ và những người thân đã luôn động viên và tạo điều kiện tốt nhất cho tôi học tập. Tôi cũng xin gửi lời cảm ơn tới các thầy cô giáo trong khoa Công nghệ thông tin I nói riêng và Học viện Công nghệ Bưu chính Viễn thông nói chung đã giúp đỡ, dìu dắt tôi trong những năm tháng học tập tại trường. Đặc biệt, tôi xin chân thành cảm ơn thầy giáo Ts.Nguyễn Quang Hoan người đã trực tiếp hướng dẫn trong thời gian tôi thực hiện đồ án tốt nghiệp. 1 Website: http://www.docs.vn Email : lienhe@docs.vn Tel (: 0918.775.368 MỤC LỤC Trang LỜI NÓI ĐẦU 1 MỤC LỤC 2 DANH MỤC HÌNH VẼ 4 CÁC THUẬT NGỮ VIẾT TẮT 5 MỞ ĐẦU 6 CHƯƠNG 1 :TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 8 1.1GIỚI THIỆU VỀ XỬ LÝ TIẾNG NÓI 8 1.2NHẬN DẠNG TIẾNG NÓI 9 1.2.1Khái niệm về nhận dạng tiếng nói 9 1.2.2Phân loại các hệ thống nhận dạng tiếng nói 11 1.2.3Các phương pháp nhận dạng tiếng nói 12 CHƯƠNG 2 :QUÁ TRÌNH TIỀN XỬ LÝ TIẾNG NÓI 18 2.1PHÁT HIỆN TIẾNG NÓI 18 2.1.1Năng lượng ngắn hạn 18 2.1.2Tốc độ đi qua điểm không 19 2.1.3Lượng thông tin 19 2.1.4Giải thuật phát hiện tiếng nói 20 2.2PHÂN TÍCH MÃ HÓA DỰ ĐOÁN TUYẾN TÍNH (LPC) 21 2.2.1Mô hình LPC 21 2.2.2Các công thức phân tích LPC 22 2.2.3Phân tích tự tương quan 24 2.2.4Bộ xử lý LPC trong hệ thống nhận dạng tiếng nói 26 2.3PHÂN TÍCH CEPSTRAL THÔNG QUA THANG ĐỘ MEL (MFCC) 31 2.3.1Mô hình tính toán các hệ số MFCC 31 2.3.2Quá trình tiền xử lý tín hiệu 31 2.4LƯỢNG TỬ HÓA VECTOR 35 2.4.1Tập vector huấn luyện 35 2.4.2Khoảng cách giữa hai vector 35 2.4.3Nhân của một tập vector 36 2.4.4Phân cụm các vector 36 2 Website: http://www.docs.vn Email : lienhe@docs.vn Tel (: 0918.775.368 CHƯƠNG 3 :MÔ HÌNH MARKOV ẨN 40 3.1CÁC QUÁ TRÌNH MARKOV RỜI RẠC 40 3.2MÔ HÌNH MARKOV ẨN 42 3.2.1Khái niệm 42 3.2.2Thành phần của mô hình Markov ẩn 44 3.2.3Ba bài toán cơ bản của mô hình Markov ẩn 46 3.2.4Các loại mô hình Markov ẩn 54 3.2.5Những vấn đề cần thực hiện đối với mô hình Markov ẩn 55 CHƯƠNG 4 :TÍCH HỢP VỚI PHẦN MỀM MÁY TÍNH 63 4.1GIỚI THIỆU 63 4.2TRAO ĐỔI DỮ LIỆU VỚI OFFICE XP 63 4.2.1Kết nối theo hướng Add-in 63 4.2.2Kết nối theo hướng Automation 65 4.3MÔ HÌNH ĐỐI TƯỢNG CỦA EXCEL 66 4.4ĐỌC GHI DỮ LIỆU VÀO BẢNG TÍNH EXCEL 68 CHƯƠNG 5 :THIẾT KẾ CHƯƠNG TRÌNH 70 5.1XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI 70 5.1.1Thu âm 71 5.1.2Phát hiện tiếng nói 76 5.1.3Trích chọn đặc trưng 81 5.1.4Tạo codebook 83 5.1.5Lượng tử hóa Vector 85 5.1.6Huấn luyện mô hình 87 5.1.7Tính xác suất và quyết định 89 5.2TÍCH HỢP VỚI EXCEL 91 CHƯƠNG 6 :XÂY DỰNG CHƯƠNG TRÌNH VÀ THỬ NGHIỆM 92 6.1GIỚI THIỆU CHƯƠNG TRÌNH 92 6.1.1Giao diện chính của chương trình ứng dụng 92 6.1.2Một số chức năng chính của chương trình 93 6.2KẾT QUẢ THỬ NGHIỆM 96 6.2.1Kiểm tra lần thứ nhất 96 6.2.2Kiểm tra lần thứ hai 97 6.2.3Kiểm tra lần thứ ba 98 KẾT LUẬN 100 TÀI LIỆU THAM KHẢO 102 3 Nhận dạng tiếng nói và… Danh mục hình vẽ DANH MỤC HÌNH VẼ 4 Nhận dạng tiếng nói và… Các thuật ngữ viết tắt CÁC THUẬT NGỮ VIẾT TẮT Viết tắt Viết đầy đủ Dịch nghĩa ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động CWT Continuos Wavelet Transform Biến đổi Wavelet liên tục DCT Discrete Cosin Transform Biến đổi Cosin rời rạc DFT Discrete Fourier Transform Biến đổi Fourier rời rạc FFT Fast Fourier Transform Biến đổi Fourier nhanh FIR Finite Impulse Response Bộ lọc đáp ứng xung hữu hạn HMM Hide Markov Model Mô hình Markov ẩn IDFT Inverse Discrete Fourier Transform Biến đổi Fourier rời rạc ngược LCT Local Cosin Transform Biến đổi Cosin cục bộ LPC Linear Prediction Coding Mã dự đoán tuyến tính MCI Media Control Interface Giao diện điều khiển truyền thông MFCC Mel Frequency Cepstral Coefficients Hệ số phân tích phổ tần Mel PC Personal Computer Máy tính cá nhân ROT Running Object Table Bảng chương trình đang chạy TTS Text To Speech Chuyển văn bản thành tiếng nói STE Short Time Energy Năng lượng ngắn hạn STFS Short Time Fourier Transform Biến đổi Fourier ngắn hạn WFT Windowed Fourier Transform Biến đổi Fourier cửa sổ ZCR Zero Crossing Rate Tỉ lệ vượt quá điểm không 5 Nhận dạng tiếng nói và… Mở đầu MỞ ĐẦU Trong thời đại công nghệ thông tin hiện nay, khi việc giao tiếp giữa người với máy, máy với máy… luôn luôn là vấn đề được quan tâm thì việc trao đổi thông tin bằng tiếng nói có một vai trò quan trọng. Máy tính ra đời đã giúp con người giải quyết công việc nhanh gọn và hiệu quả hơn. Tuy nhiên, các máy tính ngày nay chỉ nhận thông tin từ con người qua các thiết bị như: bàn phím, chuột, bút, Mặc dù tốc độ xử lý của máy tính ngày càng được cải thiện đáng kể song tốc độ tạo lập thông tin của các thiết bị này vẫn còn thấp. Con người mong muốn máy tính ngày càng mạnh hơn, thông minh hơn và một trong số các yêu cầu đó là máy tính trong tương lai phải tương tác với người sử dụng bằng tiếng nói tự nhiên. Đây sẽ là một bước tiến lớn nhằm nâng cao sức mạnh của máy tính, đồng thời cũng tăng tốc độ truyền đạt thông tin giữa máy tính và con người. Xử lý tiếng nói trở thành một trong những lĩnh vực quan trọng trong xu hướng phát triển công nghệ của xã hội hiện nay. Đặc biệt, khi công nghệ thông tin ngày càng phát triển thì các ứng dụng của xử lý tiếng nói ngày càng trở lên cấp thiết. Mục đích của những nghiên cứu trong lĩnh vực xử lý tiếng nói là làm cho việc tương tác giữa người và máy ngày càng hiệu quả và tự nhiên hơn. Hiện nay trên thế giới các công nghệ xử lý tiếng nói đã phát triển, các hệ thống ứng dụng xử lý tiếng nói đã được sử dụng ở nhiều nơi, độ chính xác của các hệ thống này ngày càng được cải thiện. Các ứng dụng của lĩnh vực xử lý tiếng nói rất phổ biến: nhận dạng tiếng nói, tổng hợp tiếng nói, xác thực người nói qua giọng nói và các thành tựu của chúng được áp dụng vào nhiều lĩnh vực trong thực tế. Ở Việt Nam vì nhiều lí do khác nhau nên xử lý tiếng nói còn chưa phát triển, chưa có nhiều kết quả được công bố, đồng thời các ứng dụng của xử lý tiếng nói chưa nhiều, tài liệu về xử lý tiếng nói viết bằng tiếng Việt chưa phổ biến. Lĩnh vực xử lý tiếng nói đã và đang tiếp tục được nghiên cứu, phát triển và các ứng dụng của nó ngày càng trở nên phổ biến và quan trọng. Vì vậy xử lý tiếng nói và các ứng dụng của nó đã trở thành đề tài được nhiều nhà nghiên cứu cũng như học sinh, sinh viên nghiên cứu và phát triển. Đồ án tốt nghiệp của tôi tập trung nghiên cứu ứng dụng nhận dạng tiếng nói trong thực tế, từ đó xây dựng một ứng dụng nhận dạng cụ thể (nhận dạng các con Nhận dạng tiếng nói và… Mở đầu số) và ứng dụng nhận dạng tiếng nói vào một số phần mềm máy tính (ban đầu là nhập dữ liệu vào bảng tính Excel). Nội dung đồ án của tôi gồm các chương như sau: Chương 1: Tổng quan về nhận dạng tiếng nói Chương này giới thiệu tổng quan về xử lý tiếng nói, tập trung giới thiệu tổng quan về nhận dạng tiếng nói và các phương pháp nhận dạng đã được áp dụng trong thực tế. Chương 2: Quá trình tiền xử lý tiếng nói Chương này tập trung trình bày cơ sở lý thuyết của các thuật toán trong khâu tiền xử lý tiếng nói bao gồm: giải thuật phát hiện tiếng nói, hai phương pháp trích chọn đặc trưng LPC và MFCC; những lý thuyết cơ bản về lượng tử hóa vector, những thành phần cần thiết để thực hiện lượng tử hóa vector . Chương 3: Mô hình Markov ẩn (HMM) Chương này tập trung nói về lý thuyết mô hình Markov ẩn, những vấn đề cần phải thực hiện khi cài đặt mô hình Markov ẩn trong ứng dụng nhận dạng tiếng nói. Chương 4: Tích hợp với phần mềm máy tính Nội dung của chương này tập chung giới thiệu các phương pháp kết nối với bộ Office XP. Giới thiệu về mô hình đối tượng của Excel và việc trao đổi dữ liệu với Excel. Chương 5: Thiết kế chương trình Chương này tập trung vào công việc thiết kế của đồ án bao gồm các bước thiết kế và các thuật toán được cài đặt trong chương trình. Chương 6: Xây dựng chương trình và thử nghiệm Nội dung của chương sẽ giới thiệu về chương trình đã xây dựng cùng với một số kết quả được thống kê khi chạy thử nghiệm chương trình. Nội dung cụ thể từng chương sẽ lần lượt được trình bày trong các phần tiếp theo của đồ án. Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói CHƯƠNG 1 : TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 GIỚI THIỆU VỀ XỬ LÝ TIẾNG NÓI Xử lý tiếng nói ngày nay đang là vấn đề được quan tâm nghiên cứu nhiều bởi khả năng ứng dụng trong nhiều lĩnh vực như: Công nghệ thông tin, Viễn thông, tự động hóa (chế tạo người máy có khả năng tương tác với con người) qua đó giúp quá trình tương tác giữa người với máy trở nên hiệu quả và tự nhiên hơn. Quá trình xử lý tín hiệu tiếng nói là quá trình thu nhận, lưu trữ và truyền tín hiệu. Quá trình nhận dạng, tổng hợp tiếng nói hay xác thực người nói thông qua giọng nói là các ví dụ điển hình của quá trình xử lý tín hiệu tiếng nói. Mục đích của xử lý tiếng nói: • Thực hiện xử lý, mã hoá một cách có hiệu quả tín hiệu tiếng nói để truyền và lưu trữ tiếng nói. • Tổng hợp và nhận dạng tiếng nói tới giao tiếp người-máy bằng tiếng nói dựa vào các thông tin của quá trình tiền xử lý… Chúng ta có thể mô hình hóa cho bài toán xử lý tiếng nói như sau: Hình 1-1 Mô hình bài toán xử lý tiếng nói. Thông tin đầu vào là tín hiệu tiếng nói do con người phát ra dưới dạng tương tự, sau đó tín hiệu này được số hóa (rời rạc, lượng tử và mã hóa dạng nhị phân). Quá trình tiền xử lý tiếng nói tiến hành xử lý tín hiệu tiếng nói cho kết quả là các tham số của tín hiệu tiếng nói (Các hệ số MFCC và LPC). Các tham số này trở thành đầu vào đối với tất cả các ứng dụng của xử lý tiếng nói. Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói Như vậy tất cả các ứng dụng của xử lý tiếng nói đều cần phải dựa trên các kết quả của quá trình tiền xử lý. Kết quả của quá trình này góp phần quyết định tính chính xác và hiệu quả của các ứng dụng. 1.2 NHẬN DẠNG TIẾNG NÓI 1.2.1 Khái niệm về nhận dạng tiếng nói Nhận dạng tiếng nói tự động là một kỹ thuật nhằm làm cho máy “hiểu” được tiếng nói của con người. Thực chất đây là một quá trình biến tín hiệu tiếng nói do người phát ra thành tín hiệu số sau đó sử dụng một số giải thuật để đối chiếu giữa tín hiệu thu được với các dữ liệu tham chiếu để xác định xem tín hiệu thu được tương ứng với dữ liệu tham chiếu nào trong bộ tham chiếu (từ điển nhận dạng). Kết quả của việc nhận dạng sau đó có thể được sử dụng trong các ứng dụng khác như nhập số liệu, soạn thảo văn bản bằng lời nói, điều khiển tự động… Mục tiêu của hầu hết các chương trình nhận dạng tiếng nói là kết quả nhận dạng đạt đến độ chính xác 100% mà không phụ thuộc vào một điều kiện nào cả. Tuy nhiên tất cả các nghiên cứu gần đây chỉ cho độ chính xác đến khoảng trên 90% trong một số điều kiện cụ thể nào đó còn những chương trình nhận dạng mà không có điều kiện giới hạn gì thì độ chính xác chỉ đạt không quá 87%. Các chương trình nhận dạng tiếng nói tự động hiện nay khá nhiều và hết sức đa dạng. Tuy nhiên chúng ta cũng có thể dựa vào một số đặc điểm để phân chúng thành một số dạng chủ yếu như: 1. Nhận dạng các từ phát âm rời rạc/liên tục: Trong các chương trình nhận dạng các từ phát âm rời rạc yêu cầu người nói phải dừng một khoảng trước khi nói từ tiếp theo. Còn hệ thống nhận dạng các từ phát âm liên tục không yêu cầu điều kiện này: 2. Nhận dạng tiếng nói độc lập/phụ thuộc người nói Đối với hệ thống nhận dạng phụ thuộc người nói đòi hỏi tiếng người nói phải có trong cơ sở dữ liệu của hệ thống còn hệ thống nhận dạng không phụ thuộc người nói thì người nói không nhất thiết phải có mẫu trước khi nhận dạng trong cơ sở dữ liệu. 3. Nhận dạng với tử điển cỡ nhỏ/vừa/lớn: Hiệu năng của một hệ thống nhận dạng với từ điển cỡ nhỏ thường cao hơn hiệu năng của các hệ thống nhận dạng có từ điển cỡ vừa và lớn. Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói 4. Nhận dạng trong môi trường nhiễu cao/thấp: Hiệu năng của các hệ thống nhận dạng không nhiễu sẽ cao hơn hiệu năng của các hệ thống nhận dạng có nhiễu. Dưới đây là hình biểu diễn các phần tử cơ bản của một hệ thống nhận dạng tiếng nói. Hình 1-2 Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói Tín hiệu tiếng nói sau khi được số hóa sẽ phân thành các khung có độ dài khoảng từ 10 đến 45ms qua bước phân tích và xác định các đặc tính sẽ cho ta một dãy các vector đặc tính của tiếng nói. Các vector này sau đó sẽ được sử dụng để tìm kiếm các từ giống nhất trong từ điển dựa trên một số điều kiện ràng buộc nào đó về mặt âm thanh, ngữ nghĩa, từ vựng… Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận, phân tích các đặc trưng của tiếng nói là việc không dễ dàng. Ở đây, chúng ta có thể nêu ra một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói: • Khi phát âm, người nói thường nói nhanh chậm khác nhau. • Các từ được nói thường dài ngắn khác nhau. • Một người cùng nói một từ nhưng ở hai lần phát âm khác nhau thì cho kết quả phân tích khác nhau. [...]... 0mN-1 iu ny tng ng vi vic nhõn tớn hiu ting núi s(m+n) vi mt ca s cú di hu hn w(m), ca s ny bng 0 bờn ngoi khong 0mN-1 Nh vy mu ting núi cú th c biu din nh sau : s (m + n).w(m) với 0 m N 1 sn ( m) = 0 trong các trờng hợp khác (2.25) Vỡ sn(m) = 0 mN-1 Tuy nhiờn, trong vựng t... cú trng s phng trỡnh (2.25), sai s bỡnh phng trung bỡnh tr thnh : En = N 1+ p e m =0 2 n ( m) (2.26) V n (i, k ) cú th c biu din nh sau: n (i, k ) = N 1+ p s (m i) s (m k ) n m =0 với 1 i p, 0 k p (2.27) với 1 i p, 0 k p n (2.28) Hay : n (i, k ) = N 1 ( i k ) s ( m) s ( m + i k ) n m =0 n Vỡ phng trỡnh (2.28) ch l mt hm ca i-k nờn hm hip bin n (i, k ) tr thnh hm t tng quan n gin:... thng nhn dng ting núi S khi ca b tin x lý ny nh sau: N s(n) Bộ lọc hiệu chỉnh ~ ( n) s M Phân khung w(n) xt (n) Lấy cửa sổ p ~ ( n) xt Phân tích tự t ơng quan rm (t ) W(m) cm (t ) Đạo hàm theo thời gian Gắn trọng số cm (t ) Chuyển LPC thành Cepstral am (t ) Phân tích LPC cm (t ) Hỡnh 2-7 S khi b tin x lý LPC trong h thng nhn dng ting núi B tin x lý LPC bao gm 8 bc nh trong hỡnh 2.2, chc nng c th tng

Định dạng
Số trang	102
Dung lượng	1,8 MB