Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 124 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
124
Dung lượng
1,25 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI PHẠM MIN PHẠM MIN CÔNG NGHỆ THÔNG TIN NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT BẰNG MƠ HÌNH MARKOV ẨN Luận văn thạc sĩ: CÔNG NGHỆ THÔNG TIN 2007 - 2009 Hà Nội 2009 Hà Nội – Năm 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM MIN NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG MƠ HÌNH MARKOV ẨN Chun ngành : Công nghệ thông tin Luận văn thạc sĩ: Công nghệ thông tin Người hướng dẫn khoa học: PGS.TS Đặng Văn Chuyết Hà Nội – Năm 2009 Danh mục bảng Danh mục hình Trang CHƯƠNG 0: MỞ ĐẦU Nội dung luận văn Cơ sở nhận dạng tiếng nói Lịch sử nhận dạng tiếng nói .5 CHƯƠNG 1: GIỚI THIỆU VỀ ÂM THANH - TIẾNG NÓI 1.1 Bộ máy phát âm thu âm tiếng nói .10 1.1.1 Cơ chế phát âm tiếng nói 10 1.1.1.1 Sơ đồ hệ thống phát âm tiếng nói .10 1.1.1.2 Quá trình phát âm tiếng nói người .11 1.1.2 Phân loại âm 12 1.1.2.1 Âm hữu 12 1.1.2.2 Âm vô 12 1.1.2.3 Âm bật .13 1.1.3 Đặc trưng tiếng nói 13 1.1.3.1 Độ cao (Pitch) 13 1.1.3.2 Cường độ 14 1.1.3.3 Trường độ 14 1.1.3.4 Âm sắc .14 1.1.4 Cơ quan thính giác người 14 1.2 1.1.4.1 Cấu tạo hệ thống tiếp âm 15 1.1.4.2 Cơ chế nghe .16 Đặc tính âm học âm tiếng nói 16 1.2.1 Đặc tính tín hiệu tiếng nói .17 1.2.1.1 Nguyên âm 17 1.2.1.2 Phụ âm .18 1.2.1.3 Các đặc tính khác 18 1.2.2 Đặc trưng tín hiệu tiếng nói 20 1.2.2.1 Dạng sóng tín hiệu tiếng nói .20 1.2.2.2 Tính tuần hồn tín hiệu tiếng nói 20 1.2.2.3 Chu kỳ âm .21 1.2.2.4 Tính khơng hữu hiệu tín hiệu tiếng nói 21 1.2.2.5 Phổ trung bình tín hiệu tiếng nói 22 1.2.2.6 Phổ thức thời tín hiệu tiếng nói .22 CHƯƠNG 2: TRÍCH ĐẶC TRƯNG TIẾNG NÓI_MFCC 2.1 Hàm lượng thời gian ngắn 27 2.2 Tách từ .28 2.3 Nhấn mạnh tín hiệu 30 2.4 Sơ đồ trích đặc trưng MFCC .32 2.4.1 Tạo khung tín hiệu 32 2.4.2 Windowing 34 2.4.3 Biến đổi Fourier rời rạc-DFT 35 2.4.4 Lọc theo thang tần số Mel 36 2.4.5 Tính log lượng phổ 38 2.4.6 Biến đổi Fourier ngược-IDFT 38 CHƯƠNG 3: LƯỢNG TỬ VECTOR 3.1 Các đặc tính VQ: 44 3.1.1 Ưu điểm 44 3.1.2 Khuyết điểm .44 3.2 Các yếu tố tổ chức VQ .44 3.3 Đo độ méo 45 3.4 Phân nhóm vector 45 3.4.1 Thuật toán Lloyd .46 3.4.2 Thuật toán tách nhị phân_ Binary Split 46 3.5 Phân lớp vector .48 CHƯƠNG :MƠ HÌNH MARKOV ẨN 4.1 Q trình Markov 51 4.1.1 Giới thiệu trình Markov .51 4.1.2 Các thành phần trình (chuỗi) Markov: .53 4.1.3 Ví dụ q trình Markov 53 4.2 Mơ hình Markov ẩn 55 4.2.1 Giới thiệu mơ hình Markov 55 4.2.2 Thành phần mơ hình Markov ẩn .55 4.3 Ba tốn mơ hình Markov ẩn 57 4.3.1 Giới thiệu toán 58 4.3.2 Giải pháp toán học cho ba toán 58 4.4 4.3.2.1 Bài toán 58 4.3.2.2 Bài toán 61 4.3.2.3 Bài toán 64 Một số mơ hình Markov ẩn 67 4.4.1 Mơ hình HMM rời rạc 68 4.4.2 Mô hình HMM liên tục 68 4.4.3 Mơ hình HMM bán liên tục 69 4.5 Giới hạn mơ hình Markov ẩn 69 CHƯƠNG 5: NGÔN NGỮ VÀ NGỮ ÂM TIẾNG VIỆT 5.1 Ngôn ngữ tiếng Việt 73 5.2 Ngữ âm tiếng Việt 73 5.2.1 Ngữ âm 73 5.2.1.1 Khái niệm .73 5.2.1.2 Âm tiết 74 5.2.1.3 Âm tố (sound) .75 5.2.1.4 Âm vị 75 5.2.2 Ngữ âm tiếng Việt 76 5.2.2.1 Tổng quan .76 5.2.2.2 Đặc điểm âm tiết tiếng Việt .76 5.2.2.3 Các hệ thống âm vị tiếng Việt 79 CHƯƠNG 6: CÀI ĐẶT THỬ NGHIỆM NHẬN DẠNG TIẾNG VIỆT 6.1 Xây dựng hệ thống nhận dạng .87 6.1.1 Mô tả chung hệ thống 87 6.1.2 Hệ thống nhận dạng 87 6.2 6.1.2.1 Sơ đồ khối hệ thống: 87 6.1.2.2 Tiền xử lý tiếng nói : .87 6.1.2.3 Trích chọn đặc trưng: 88 6.1.2.4 Lượng tử hóa VQ 89 6.1.2.5 Huấn luyện HMM: 90 6.1.2.6 Giải thuật nhận dạng 93 Mô tả chương trình thử nghiệm 94 6.2.1 Xây dựng thư viện, sở liệu mẫu: 94 6.2.1.1 Thu âm file âm thanh: .94 6.2.1.2 Tách từ 95 6.2.1.3 Huấn luyện MFCC xây dựng vector đặc trưng VQ .95 6.2.1.4 Huấn luyện Markov ẩn : 96 6.2.2 Nhận dạng: .96 6.3 6.2.2.1 Thu âm: .96 6.2.2.2 Tách từ 96 6.2.2.3 Nhận dạng 96 Kết nhận dạng : .98 6.4 Giao diện chương trình : 99 6.5 Thực thử nghiệm 101 6.5.1 Chuẩn bị thử nghiệm .101 6.5.2 Phương pháp thử nghiệm 101 6.5.3 Chương trình thử nghiệm 102 6.5.4 Thử nghiệm chương trình theo bước sau: 102 6.6 Một số thử nghiệm: .103 CHƯƠNG 7: KẾT LUẬN ĐỀ TÀI Kết luận 107 Hướng phát triển 108 TÀI LIỆU THAM KHẢO 111 Trang CHƯƠNG MỞ ĐẦU Trang Trước đây, vấn đề giao tiếp tiếng nói máy tính với người có lẽ điều tưởng chừng khơng tưởng Nhưng ngày nay, điều dần trở thành thực Tuy hệ thống xây dựng khoảng cách xa so với thực tế, hồn hảo óc người, đạt số thành tựu đáng kể ứng dụng vào đời sống Có thể kể đến hệ thống nhận dạng tiếng Anh, ví dụ: phần mềm Via Voice IBM, hệ thống nhận dạng tiếng nói tích hợp Office XP… Bên cạnh đó, nhận dạng tiếng nói áp dụng thành cơng nhiều lĩnh vực khác như: lĩnh vực điều khiển, lĩnh vực chuyển đổi tín hiệu, lĩnh vực nhận dạng… Khó khăn nhận dạng tiếng nói tiếng nói ln biến thiên theo thời gian có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh môi trường âm học khác Xác định thông tin biến thiên tiếng nói có ích thơng tin khơng có ích nhận dạng tiếng nói quan trọng Đây nhiệm vụ khó khăn mà với kỹ thuật xác suất thống kê mạnh khó khăn việc tổng qt hố từ mẫu tiếng nói biến thiên quan trọng cần thiết nhận dạng tiếng nói Hiện nay, kỹ thuật nhận dạng nhiều người quan tâm, ngành khoa học có nhiều ứng dụng khoa học kỹ thuật, tin học, sinh học lĩnh vực an ninh quốc gia Nghiên cứu xử lý tiếng nói trảii qua nhiều năm đạt kết định vả có ứng dụng lĩnh vực đời sống người Trang 102 6.5.3 Chương trình thử nghiệm Chương trình thử nghiệm với hàm viết ngôn ngữ Matlab Với hỗ trợ hàm Matlab tham khảo số thuật toán nhận dạng cài đặt chia mạng Tuy nhiên thuật tốn cài đặt cho việc nhận dạng khơng phải tiếng Việt Vì để dùng cho việc nhận dạng tiếng Việt phải sửa đổi lại cho phù hợp với đặc tính tiếng Việt 6.5.4 Thử nghiệm chương trình theo bước sau: Bước 1: Thu âm : Bước 2: Tách từ: Bước 3: Nhận dạng xem kết quả: Trang 103 6.6 Một số thử nghiệm: * Ví dụ 1: thu lệnh: Đèn mở Đèn chọn để mở Trang 104 * Ví dụ 2: thu lệnh: Đèn mở: Đèn chọn để mở Trang 105 * Ví dụ 3: thu lệnh: Quạt mở Quạt chọn để mở Trang 106 KẾT LUẬN Chương giới thiệu xây dựng thử nghiệm nhận dạng tiếng nói tiếng Việt việc điều khiển thiết bị Tuy nhiên chương trình mang tính chất thử nghiệm cho việc điều khiển thiết bị giọng nói chưa phải hệ thống điều khiển thiết bị hồn chỉnh Vì thời gian hữu hạn nên chương trình giải nhận dạng với từ rời rạc với số thiết bị định Trong tương lai tiếp tục nghiên cứu để mở rộng chương trình cài đặt vào phần cứng để trở thành hệ thống nhận dạng tiếng nói thơng minh Trang 107 CHƯƠNG KẾT LUẬN ĐỀ TÀI Kết luận Nhận dạng tiếng nói lĩnh vực nghiên cứu hấp dẫn nghiên cứu thành cơng ứng dụng nhiều lĩnh vực sống Nghiên cứu nhận dạng tiếng nói phát triển giới nhiều thập niên trước Thành tựu lớn ứng dụng nhiều lĩnh vực Tuy nhiên lĩnh vực khó khăn phức tạp Đối với việc nghiên cứu tiếng Việt lĩnh vực mà nhiều người nghiên cứu thử thách lớn tiếng Việt có đặc thù riêng Với khoản thời gian hạn hẹp tính phức tạp việc nhận dạng tiếng nói tiếng Việt Trong phương pháp nhận dạng biết đến tơi chọn phương pháp nhận dạng mơ hình Markov ẩn HMM Đề tài nghiên cứu thử nghiệm đạc kết khả quan việc nhận dạng tiếng nói tiếng Việt Đề tài nhận dạng từ rời rạc hay nhiều từ rời rạc câu lệnh Tuy nhiên với hạn chế thời gian nghiên cứu nên đề tài thử nghiệm với từ vựng tương đối nhỏ, với 14 từ khác Như chưa đủ để ứng dụng vào thực tế mà mang tính thử nghiệm khoa học nhận dạng Hơn đề tài dừng lại việc nhận dạng dựa đặc tính tín hiệu tiếng nói chứa chưa dựa ý nghĩa từ cần nhận dạng Trang 108 Đề tài khởi đầu cho việc nghiên cứu giải tốn nhận dạng tiếng nói – tiếng Việt điều khiển dựa Mơ hình Markov ẩn – phương pháp cho kết nhận dạng tốt nhiều hệ thống dùng Những mục tiêu đạt được: Thông qua việc nghiên cứu đề tài nhận dạng tiếng nói tiếng Việt Tơi tìm hiểu nắm nội dung sau: • Lý thuyết chế tạo tiếng nói, hệ thống phát âm, thu âm tiếng nói, đặc trưng ngữ âm tiếng tiếng nói tiếng Việt phương pháp nhận dạng tiếng nói tiếng Việt • Khối kiến thức xử lí số tín hiệu: FT, IFT, DFT, FFT, IDFT STFT… • Phương pháp nhận dạng tín hiệu âm tín hiệu nhiễu, áp dụng việc tách từ • Các phương pháp trích chọn đặc trưng đặc biệt phương pháp MFCC • Phương pháp lượng tử vector VQ lượng tử hóa tín hiệu tiếng nói • Mơ hình Markov ẩn dùng nhận dạng tiếng nói • Thực hệ thống thử nghiệm cho nhận dạng tiếng nói tiếng Việt Hướng phát triển Đề tài dừng lại nhiệm vụ nghiên cứu tổng quan nhận dạng tiếng nói, với từ vựng cịn hạn chế người huấn luyện đồng thời người nhận dạng Kết nhận dạng chưa hồn hảo Q trình nhận dạng Trang 109 nhận dạng dựa đặc tính vật lý tín hiệu âm thanh, tiếng nói, chưa nhận dạng dựa nghĩa từ âm tố hay điệu cấu tạo nên ấm tiết Vì đề tài cịn nhiều hạn chế, ta nên phát triển đề tài theo hướng sau: Mô hình Markov ẩn HMM nhận dạng tiếng nói cho phép đạt độ xác cao nhung tốc độ nhận dạng chậm số lượng phép tính lớn Trong đó, dùng mạng Neuron tốc độ nhanh xác so với HMM Vì cần nghiên cứu tìm hiểu việc kết hợp HMM mạng Neuron hệ thống nhận dạng tiếng nói hồn chỉnh Bộ từ vựng đề tài cịn nhỏ, có 14 từ người nói Vì khơng thể áp dụng thực tế Nên mở rộng bơ từ vựng nhiều người nói - Xây dựng hệ thống nhận dạng độc lập người nói - Xây dựng hệ thống nhận dạng tiếng Việt nạp vào phần cứng thiết bị thường dùng Nghiên cứu phương pháp phân tích tiếng nói để nhận dạng dựa âm tố điệu cấu tạo nên âm tiết, tảng nghiên cứu nhận dạng từ dựa ý nghĩa Trang 110 LỜI CẢM ƠN Tơi xin chân thành cảm ơn đến Ban giám hiệu trường Đai học Bách Khoa Hà Nội Xin chân thành cảm ơn thầy GS, PGS, Tiến sỹ hết lịng hướng dẫn tơi hồn thành khóa học thạc sỹ năm qua Đặc biệt xin gởi lời cảm ơn chân thành đến thầy PGS.TS Đặng Văn Chuyết nhiệt tình hướng dẫn tơi hồn thành đề tài luận văn Xin cảm ơn đến tác giả báo, tác giả tham khảo Xin chân thành cảm ơn Trang 111 TÀI LIỆU THAM KHẢO [1] Cao Tiến Việt, “Kỹ thuật mã hóa tiếng nói dự đốn tuyến tính phân tích nhờ tổng hợp”, Trường Đại học Kỹ Thuật Cơng Nghệ, 2006 [2] Nguyễn Phú Bình, “Bài giảng Xử lý tiếng nói”, Đại học Bách khoa Hà Nội [3] Nguyễn Thanh Phương, “Nhận dạng tiếng nói dùng mơ hình Markov ẩn”, Luận Văn Thạc sỹ, Trường Đại Học Bách Khoa TPHCM, 2003 [4] Trần Công Binh, “Nhận dạng tiếng nói - tiếng Việt điều khiển”, Luận văn Đại học, 2002 [5] Trần Tiến Đức, “ Nhận dạng tiếng nói Việt Nam mơ hình Markov ẩn ứng dụng nhận dạng 10 chữ số”, luận văn thạc sỹ, Trường Đại học KHTN TPHCM, 1998 [6] Thái Hùng Văn, “Nhận dạng giọng từ tiếng Việt”, luận văn thạc sỹ, Trường Đại học KHTN TPHCM, 2000 [7] Hà Thúc Phùng, “Nhận dạng tiếng nói mơ hình Markov ẩn”, luận văn đại học, Trường Đại học Bách khoa TPHCM [8] Lawrence Rabiner, Biing-Hwuang Juang, “Fundamental of Speech Recognition”, Prentice Hall, 1993, ISBN 0-13-015157-2 [9] Minh N Do, “An Automatic Speaker Recognition System”, Audio Visual communications Laboratory Swiss Federal Institute of Technology, Lausanne, Switzerland, 2000 [10] Lawrence R Rabiner, “A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, IEEE, VOL.77, NO.2, 1989 Trang 112 [11] Nick Bardici, Bjưrn Skarin,“Speech Recognition using Hidden Markov Model” Trang 113 Abstract Speech recognition is a research on the methods of identification, enabling the effectively of speech recognition and applications in life Speech recognition is a difficult subject and has been researched for many decades The achievement of identity is positive and has been applied in life However, speech recognition is a difficult and complex subject It’s require to have specialist knowledge related to it, such as linguistics, statistics, physiology, physics, mathematic, information theory and communications information… Vietnamese speech recognition has been studied for years in Vietnam Vietnamese speech recognition is so difficult and complex because the Vietnamese has many characteristics Vietnamese has tone, pitch… The thesis introduces methods of Vietnamese speech recognition, which is relied on Hidden Markov Model - HMM The thesis researches principle, system of pronunciation, and get sound system Reseaching in characterize of sound, voice, pitch… Research and recommend methods Melfrequency cepstral coefficients MFCC It introduces the method Hidden Markov Model in speech recognition That’s a effective method and have been used in many projects recognition Final, the thesis introduces a test program to Vietnamese speech recognition by disjointed words and commands Because time is limited so the thesis is only studied to speech recognition Knowledge of the thesis is referred and rewritten in a different way Speech recognition program has been testing and have not a completed yet Trang 114 The thesis will be more researching as well as studying many recognition methods to get a better result Program will be developed further to apply and get technology solutions in the life Trang 115 Tóm tắt Nhận dạng tiếng nói hướng nghiên cứu phương pháp nhận dạng, giúp khả nhận dạng tiếng nói cách hiệu ứng dụng nhiều vào đời sống người Nhận dạng tiếng nói nghiên cứu nhiều thập niên qua Những thành nhận dạng khả quan ứng dụng vào nhiều đời sống người Tuy nhiên nhận dạng tiếng nói vấn đề khó phức tạp Đó lĩnh vực địi hỏi phải có kiến thức chun mơn ngành liên quan đến Chẳng hạn ngôn ngữ học, thống kê, sinh lý học, vật lý học, tốn học, lý thuyết thơng tin truyền tin… Nhận dạng tiếng nói tiếng Việt lĩnh vực nghiên cứu nhiều năm qua Việt Nam Nghiên cứu nhận dạng tiếng Việt khó khăn phức tạp tiếng Việt có đặc thù riêng Tiếng Việt có thanh, có vần, điệu… Luận văn giới thiệu phương pháp nhận dạng tiếng nói tiếng Việt, dựa mơ hình Markov ẩn Luận văn nghiên cứu nguyên lý phát âm, hệ thống phát âm nhận tín hiệu âm Nghiên cứu đặc tính âm thanh, tiếng nói, độ cao, âm sắc, tần số…của âm thanh, tiếng nói tiếng Việt Nghiên cứu giới thiệu phương pháp trích chọn đặc trưng tiếng nói MFCC Luận văn giới thiệu phương pháp nhận dạng tín hiệu tiếng nói mơ hình Markov ẩn Đó phương pháp hiệu có độ xác cao dùng nhiều chương trình nhận dạng Cuối luận văn giới thiệu chương trình thử nghiệm việc nhận dạng tiếng nói tiếng Việt với từ rời rạc lệnh yêu cầu thực Trang 116 Vì thời gian có hạn nên luận văn dừng lại nghiên cứu ban đầu nhận dạng tiếng nói Những kiến thức luận văn trình tìm hiểu nhiều tài liệu tham khảo viết lại theo cách khác Chương trình nhận dạng mang tính chất thử nghiệm chưa phải chương trình hồn chỉnh Luận văn tiếp tục nghiên cứu tương lai, tìm hiểu thêm phương pháp nhận dạng để kết nhận dạng tốt Chương trình phát triển thêm để áp dụng vào thực tế, mang lại giải pháp công nghệ đời sống ... mềm nhận dạng tiếng Việt hoàn chỉnh thị trường Số cơng trình nghiên cứu nhận dạng tiếng nói tiếng Việt cơng bố ít, kết cịn hạn chế từ vựng, độ xác… Vì thế, tơi chọn đề tài ? ?Nhận dạng tiếng nói tiếng. .. Technology” để nghiên cứu nhận dạng tiếng nói tự nhiên Nghiên cứu nhận dạng mơi trường nhiễu nhận dạng tiếng nói dựa nhiều kênh thông tin Về lĩnh vực nhận dạng tiếng Việt: Là lĩnh vực nghiên cứu... lĩnh vực ứng dụng hiệu Nhận dạng tiếng nói trình thu nhận tín hiệu tiếng nói, huấn luyện so sánh mẫu để tìm lệnh đưa thơng qua tiếng nói người Trước tiến hành nhận dạng tiếng nói cần tạo liệu mẫu,