ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THU HUYỀN MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI[.]
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THU HUYỀN MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2018 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THU HUYỀN MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Vũ Vinh Quang THÁI NGUYÊN - 2018 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tơi, có hỗ trợ từ Giáo viên hướng dẫn TS Vũ Vinh Quang Các nội dung nghiên cứu kết đề tài trung thực chưa cơng bố cơng trình nghiên cứu trước Những số liệu hình phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi phần tài liệu tham khảo Ngồi ra, đề tài sử dụng số nhận xét, đánh số liệu tác giả, quan tổ chức khác, thể phần tài liệu tham khảo Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm trước Hội đồng, kết luận văn Thái nguyên, ngày … tháng … năm 2018 Tác giả NGUYỄN THỊ THU HUYỀN ii LỜI CẢM ƠN Để hoàn thành luận văn này, em xin tỏ lòng biết ơn sâu sắc đến thầy TS Vũ Vinh Quang, tận tình hướng dẫn suốt trình viết luận văn tốt nghiệp Em chân thành cảm ơn quý thầy, cô trường Đại Học Công nghệ Thơng tin Truyền thơng tận tình truyền đạt kiến thức hai năm học tập Với vốn kiến thức tiếp thu trình học tảng cho q trình nghiên cứu để em hồn thành luận văn Thái nguyên, ngày … tháng … năm 2018 Tác giả NGUYỄN THỊ THU HUYỀN iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC HÌNH ẢNH .v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC TỪ VIẾT TẮT vii LỜI MỞ ĐẦU CHƯƠNG MỘT SỐ KIẾN THỨC CƠ BẢN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 Khái niệm chung 1.1.1 Khái niệm nhận dạng tiếng nói 1.1.2 Phân loại nhận dạng tiếng nói 1.1.3 Hệ thống nhận dạng tiếng nói tự động 1.2 Các nghiên cứu thời nhận dạng tiếng nói 1.2.1 Các nghiên cứu nhận dạng tiếng nói nước 1.2.2 Các nghiên cứu nhận dạng tiếng nói tiếng Việt 1.3 Các hướng tiếp cận nhận dạng tiếng nói 10 1.4 Những khó khăn nhận dạng tiếng nói .11 1.5 Xử lý tiếng nói 13 1.5.1 Khái niệm xử lý tiếng nói 13 1.5.2 Kỹ thuật lấy mẫu tín hiệu 13 1.5.3 Cấu trúc lọc tín hiệu 13 1.5.4 Kỹ thuật dị tìm điểm cuối .15 1.5.5 Kỹ thuật rút trích đặc trưng .16 1.5.6 Phương pháp tính hệ số MFCC .18 1.6 Sơ lược ngôn ngữ tiếng Việt 23 1.6.1 Giới thiệu âm tiết 23 1.6.2 Một số đặc điểm âm tiết tiếng Việt 23 1.6.3 Lý thuyết âm vị 25 CHƯƠNG TỔNG QUAN VỀ MƠ HÌNH MẠNG MARKOV ẨN 27 iv 2.1 Mơ hình Markov ẩn 27 2.2 Các tốn mơ hình Markov ẩn .30 2.2.1 Bài toán 30 2.2.2 Bài toán 30 2.2.3 Bài toán 31 2.3 Các thuật toán 31 2.3.1 Thuật toán tiến (forward) 31 2.3.2 Thuật toán lùi (Backward) 32 2.3.3 Các giải pháp giải toán 32 2.4 So sánh loại mơ hình Markov ẩn 33 CHƯƠNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT 35 3.1 Tổng quan HTK (HMM Tool Kit) 35 3.1.1 Giới thiệu hệ thống 35 3.1.2 Mơ hình cấu trúc tập tin khai báo HMM MFCC cho nhận dạng tiếng nói 36 3.1.3 Các bước xây dựng mơ hình nhận dạng tiếng nói sử dụng HTK 40 3.1.4 Một số Modul sử dụng trình xây dựng hệ thống nhận dạng tiếng nói tiếng việt cơng cụ HTK 44 3.2 Xây dựng hệ thống nhận dạng chữ số Tiếng việt .47 3.2.1 Xây dựng sở liệu chữ số tiếng việt .47 3.2.2 Bảng phiên âm 10 chữ số tiếng Việt .47 3.2.3 Phương pháp xây dựng hệ thống nhận dạng chữ số tiếng việt .47 3.2.4 Các kết thực nghiệm 48 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 v DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Quá trình phát âm khác tùy theo người nói Hình 1.2: Mơ hình nhận dạng tiếng nói bán độc lập người nói Hình 1.3: Cấu trúc hệ thống ASR .7 Hình 1.4: Cấu trúc hệ thống nhận dạng ngơn ngữ có điệu Hình 1.5 Ví dụ lấy mẫu tín hiệu F(t) miền thời gian 13 Hình 1.6 Minh họa hoạt động lọc FIR 14 Hình 1.7 Minh họa hoạt động lọc IIR 15 Hình 1.8 Dị tìm điểm cuối dựa mức lượng .16 Hình 1.9 Sơ đồ rút trích vevtor đặc trưng tổng quát 17 Hình 1.10 Các bước xử lý tính hệ số MFCC 18 Hình 1.11 Sóng âm chữ “ANH” trước làm phẳng (bên trái) sau làm phẳng (Bên phải) .19 Hình 1.12 Phân đoạn tín hiệu tiếng nói thành khung có chồng lấp 20 Hình 1.13 Cửa sổ Hamming 20 Hình 1.14 Cửa sổ Hanning .21 Hình 1.15 Cửa sổ hình chữ nhật .21 Hình 2.1: Minh họa mơ hình Markov nhận dạng tiếng nói với trạng thái chèn sp 28 Hình 2.2: Mơ hình Markov ẩn với sáu trạng thái 30 Hình 3.1: Minh họa giảm dần lượng Error! Bookmark not defined Hình 3.2 Các Module chức HTK 35 Hình 3.3 Các công cụ chức HTK 36 Hình 3.4 Phân bố tham số số vector đặc trưng HTK 38 Hình 3.5 Các bước xây dựng hệ thống nhận dạng tiếng nói 40 Hình 3.6: Mơ hình HMM 42 vi DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng người máy tính số hệ thống nhận dạng Bảng 3.1: Bảng phiên âm 10 chữ số tiếng Việt 47 Bảng 3.2 Kết thử nghiệm hệ thống nhận dạng với từ điển có chèn sp khơng chèn sp 49 Bảng 3.3 Kết thử nghiệm hệ thống nhận dạng với liệu test trùng với liệu huấn luyện 50 vii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt AI Artificial intelligence Trí tuệ nhân tạo AR Augmented reality Tương tác thực ảo CSDL Database Cơ sở liệu DBMS Database Management System Hệ quản trị sở liệu IoT Internet of things Internet vạn vật IR Information Retrieval Hệ thống tự động truy tìm thơng tin MIRS MMDBMS Multimedia Indexing & Retrieval Hệ thống mục truy tìm System thông tin đa phương tiện Multimedia Database Hệ thống quản trị sở liệu Management System đa phương tiện MRI Magnetic Resonance Imaging VR Virtual reality WWW World Wide Web Thực tế ảo LỜI MỞ ĐẦU Tiếng nói phương tiện giao tiếp lồi người, hình thành phát triển với q trình tiến hóa lồi người Ngay từ hình thành tiếng nói thể sức mạnh như: Khả truyền đạt thông tin, tốc độ… Ngày nay, nhờ phát triển mạnh mẽ khoa học kỹ thuật, máy móc thay lao động tay chân Tuy nhiên để điều khiển máy móc, người phải làm nhiều thao tác vừa tốn thời gian vừa phức tạp cần phải đào tạo Chính lẽ đó, nhận dạng tiếng nói đóng vai trị quan trọng giao tiếp người máy Nó giúp người điều khiển máy móc, thiết bị giọng nói đặc biệt thiết bị như: máy tính, điện thoại di động, rơ bốt… Hiện nay, với phát triển vượt bậc ngành khoa học nhận dạng tiếng nói, điện thoại quay số giọng nói đời, máy tính cá nhân với phần mềm nhận dạng tiếng nói trợ giúp cho người khuyết tật tay, chân hay khiếm thính Tuy vậy, thành tựu lại nghiên cứu nhận dạng tiếng nói ngơn ngữ nước Với tiếng Việt, số lượng nghiên cứu cịn dường quan tâm Có thể nói nghiên cứu nhận dạng tiếng nói tiếng Việt chủ yếu tập trung vào nhận dạng từ rời rạc, hay hệ thống nhận dạng liên tục với kích thước nhỏ Tuy nhiên, để ngành khoa học nhận dạng tiếng nói Việt Nam thực phát triển đạt thành tựu to lớn để áp dụng vào thực tế lĩnh vực nhận dạng tiếng nói cần phát triển Chính vậy, việc nghiên cứu nhận dạng tiếng nói đặc biệt nhận dạng tiếng nói tiếng Việt cần thiết để xây dựng hệ thống nhận dạng, ứng dụng nhận dạng tiếng nói thực hữu ích riêng tiếng Việt Đề tài xây dựng với mục đích tìm hiểu, nghiên cứu, so sánh đánh giá phương pháp, hướng tiếp cận nhận dạng tiếng nói giới như: Tiếp cận âm học, tiếp cận trí tuệ nhân tạo, nhận dạng mẫu thống kê (dựa vào 1.2 Các nghiên cứu thời nhận dạng tiếng nói 1.2.1 Các nghiên cứu nhận dạng tiếng nói nước ngồi Nghiên cứu nhận dạng tiếng nói cuối thập niên 40 kỉ 20, cơng nghệ nhận dạng tiếng nói có bước dài đạt số thành tựu đáng kể Một số phần mềm nhận dạng tiếng nói có mặt thị trường phần mềm nhận dạng tiếng nói đọc tả IBM, phần mềm nhận dạng nói thật hay nói dối, …Và đặc biệt với ngôn ngữ tiếng Anh tạo sở liệu quý là: từ điển Beep CSLU Trong lĩnh vực nghiên cứu ứng dụng nhận dạng tiếng nói viễn thơng Speech Works hãng phần mềm tiếng Hiện giới có nhiều trung tâm nghiên cứu nhận dạng tiếng nói như: CSLU, Bell Labs, IBM Research Center, Microsoft Research… Nhìn chung mơi trường thu âm tiếng nói có ảnh hưởng lớn đến độ xác q trình nhận dạng Ở Mỹ hệ thống nhận dạng số thẻ tín dụng ngân hàng đọc người bán hàng hệ thống cửa hàng bán lẻ có độ xác 98% hệ thống mơi trường phịng thí nghiệm độ xác lên tới 99,7% Theo đánh giá Barbara s (2001), highPerformance Automatic Speech Recognition via Enhanced Front-end Analysis and Acoustic Modeling [1] ta có bảng so sánh tỷ lệ lỗi nhận dạng hệ thống nhận dạng tiếng Anh so với khả nhận dạng người sau (bảng 1.1): Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng người máy tính số hệ thống nhận dạng Hệ thống Kích thước từ vựng nhận dạng Hệ thống nhận dạng Con tiếng nói (Máy tính) người Liên tục 10 0.72% 0.009% Các chữ 26 5% 1% 2000 36.7% 3.8% Giọng nói tự nhiên Qua bảng ta thấy tỷ lệ lỗi nhận dạng người thấp nhiều so với tỷ lệ lỗi nhận dạng máy tỷ lệ thể rõ môi trường nhiều nhiễu Bên cạnh hệ thống nhận dạng tiếng nói ngơn ngữ châu Âu hệ thống nhận dạng tiếng nói nghiên cứu Trung Quốc, Nhật Bản, Thái Lan Nhìn chung, có nhiều nghiên cứu nhận dạng tiếng nói tiếng Trung thực hiện, số hệ thống nhận dạng tiếng trung kích thước lớn xây dựng Cịn với ngơn ngữ Thái Lan, nghiên cứu chủ yếu mức độ nhận dạng từ rời rạc Tuy nhiên, với hệ thống nhận dạng từ liên tục hệ thống nhận dạng 10 chữ số Thái đạt độ xác 96,89% 1.2.2 Các nghiên cứu nhận dạng tiếng nói tiếng Việt Nhận dạng tiếng nói tiếng Việt sau giới lâu kết đạt hạn chế Cho tới thời điểm nay, nghiên cứu nhận dạng tiếng nói tiếng Việt cịn tập trung nhiều vào nghiên cứu nhận dạng từ rời rạc Hệ thống nhận dạng tiếng nói tiếng Việt giống hệ thống nhận dạng ngơn ngữ có điệu khác, bao gồm hai trình nhận dạng song song là: nhận dạng từ khơng có điệu nhận dạng điệu tổng hợp để đưa định Hình 1.4 mơ tả hệ thống nhận dạng ngơn ngữ có điệu nói chung tiếng Việt nói riêng: Hình 1.4: Cấu trúc hệ thống nhận dạng ngơn ngữ có điệu Nghiên cứu nhận dạng tiếng Việt thực Nhóm nghiên cứu PGS.TS Lương Chi Mai - Viện cơng nghệ thơng tin Trong qua Nhóm nghiên cứu đưa nhiều đề xuất kết quan trọng lĩnh vực nhận dạng tiếng nói tiếng Việt báo khoa học như: “Về xử lý tiếng Việt cơng nghệ thơng tin”,… Ngồi ra, nghiên cứu tiến sĩ Nguyễn Thành Phúc đưa hệ thống nhận dạng tiếng Việt với mạng Neural đưa mơ hình phiên âm tiếng Việt 10 Vào năm 2005, nhóm BK02 Đại học Bách khoa thành phố Hồ Chí Minh xây dựng chương trình nhận dạng tiếng nói tiếng việt với mã nguồn mở Microsoft nhiên kết nhiều hạn chế Nhìn chung, nghiên cứu nhận dạng tiếng nói tiếng Việt cịn điều quan trọng chưa có từ điển sở liệu tốt cho tiếng Việt 1.3 Các hướng tiếp cận nhận dạng tiếng nói Nghiên cứu nhận dạng tiếng nói bắt đầu vào năm 40 kỉ 20 đạt thành tựu đáng kể Các nghiên cứu nhận dạng tiếng nói dựa hướng tiếp cận chính: Tiếp cận Âm học, tiếp cận Nhận dạng mẫu thống kê (chủ yếu dựa mơ hình Markov ẩn), tiếp cận Trí tuệ nhân tạo Hướng tiếp cận Âm học: Dựa vào đặc điểm âm học rút từ phổ âm Tuy nhiên kết hướng tiếp cận cịn thấp thực tế đặc trưng âm học có biến động lớn Hơn hướng tiếp cận đòi hỏi tri thức đầy đủ âm học Chính yếu tố nên hướng tiếp cận lựa chọn nghiên cứu nhận dạng tiếng nói Hướng tiếp cận Nhận dạng mẫu thống kê: Sử dụng phương pháp máy học dựa thống kê để học rút mẫu tham khảo (từ điển) từ lượng liệu lớn Sau đó, mẫu cần nhận dạng rút trích đặc trưng phân vào lớp mà xác suất mẫu cần nhận dạng thuộc vào lớp lớn Hướng sử dụng nhiều (chủ yếu dựa vào mơ hình Markov ẩn) đạt nhiều thành công nhận dạng tiếng nói ngơn ngữ Tiếng Anh, tiếng Trung Quốc Hướng tiếp cận Trí tuệ nhân tạo: Là kết hợp hai hướng tiếp cận âm học tiếp cận nhận dạng mẫu thống kê Hướng tiếp cận kết hợp tri thức chuyên gia phương pháp nhận dạng mẫu thống kê Tuy nhiên, phương pháp chưa áp dụng nhiều nghiên cứu nhận dạng tiếng nói đòi hỏi tri thức lớn Đây hướng tiếp cận tương lai nhận dạng tiếng nói 11 Với mục đích nghiên cứu phương pháp nhận dạng tiếng nói giới để áp dụng vào tốn nhận dạng tiếng nói ngôn ngữ tiếng Việt, phần luận văn sâu vào phân tích mơ hình Markov ẩn để xây dựng hệ thống nhận dạng tiếng nói ngơn ngữ tiếng Việt Mơ hình Markov ẩn lựa chọn lý sau: Đây mơ hình sử dụng rộng rãi giới lĩnh vực nhận dạng nói chung nhận dạng tiếng nói nói riêng Với thành đạt giới lĩnh vực nhận dạng tiếng nói, thừa hưởng thành để áp dụng vào tốn nhận dạng tiếng nói ngơn ngữ tiếng Việt nước ta chưa có nhiều nghiên cứu nhận dạng tiếng nói 1.4 Những khó khăn nhận dạng tiếng nói Qua nghiên cứu nhận dạng tiếng nói ngơn ngữ nước ngồi Việt Nam, ta rút khó khăn việc xây dựng hệ thống nhận dạng tiếng nói sau: Điều kiện mơi trường: Tiếng nói có chất lượng thấp (nhiều nhiễu,…) môi trường thu âm, thiết bị thu âm… vấn đề khó giải triệt hệ thống nhận dạng tiếng nói Trong mơi trường phịng thí nghiệm, kết nhận dạng có độ xác cao so với mơi trường bên ngồi, đặc biệt mơi trường có nhiều nhiễu Theo Olivier S (1995), tỷ lệ lỗi hệ thống nhận dạng tiếng nói với tiếng nói có tỉ số tín hiệu nhiễu SNR > 40dB (SNR-Signal ti Noise Ratio) thường tăng gấp nhiều lần (có thể lên tới 10 lần) so với tiếng nói có SNR>18dB Sự phụ thuộc người nói: Như nói trên, hệ thống nhận dạng tiếng nói độc lập người nói (speaker independent) phụ thuộc người nói (speaker dependent) Để xây dựng hệ thống nhận dạng độc lập người nói dành cho nhiều người khó khăn nhiều so với việc xây dựng hệ thống nhận dạng tiếng nói dành riêng cho người Sự khó khăn vùng miền, người có giọng nói khác nhau, thân người nói tiếng nói họ khơng giống thời điểm khác Theo Tebelskis j.(1995), tỉ lệ lỗi nhận dạng hệ thống nhận dạng tiếng nói độc lập người nói thường cao gấp đến lần so với hệ thống nhận dạng tiếng nói phụ thuộc người nói 12 Kích thước từ điển nhận dạng: Kích thước từ điển hệ thống nhận dạng lớn tỷ lệ hệ thống nhận dạng nhầm từ, câu cao Đặc biệt, tiếng Việt ngôn ngữ phong phú cách phát âm nên để xây dựng từ điển lớn cho hệ thống tiếng nói tiếng Việt gặp nhiều khó khăn Sự biến đổi lời nói: Tốc độ phát âm ảnh hưởng tới độ xác hệ thống nhận dạng Với từ phát âm rời rạc việc xây dựng hệ thống nhận dạng dễ dàng có độ xác cao so với từ phát âm liên tục Con người hiểu tiếng cười, tiếng ho, tiếng “à, ơ” lời nói, nhiên đê máy hiểu vơ khó khăn Nhìn chung độ xác hệ thống nhận dạng tiếng nói đánh giá sở mức từ mức câu Để đánh giá độ xác hệ thống nhận dạng mức từ ta dùng cơng thức sau: N S DI *100% N Trong đó: N: Là tổng số từ cần nhận dạng S: Số từ bị nhận dạng nhầm (Substitution) D: Số từ bị xóa (Delete) I: Số từ bị chèn (Insertion) Với hệ thống nhận dạng liên tục, mức câu độ xác đánh giá theo công thức: N S *100% N Trong đó: N: Tổng số câu cần nhận dạng S: Số câu nhận dạng sai 13 1.5 Xử lý tiếng nói 1.5.1 Khái niệm xử lý tiếng nói Tín hiệu (signal) vật, tượng có mang chứa thơng tin mà hiểu, quy ước trước Hầu hết tín hiệu giới thực dạng liên tục (tín hiệu tương tự), phức tạp, thiếu độ xác máy tính Do đó, để máy tính hiểu loại tín hiệu thường phải số hóa loại tín hiệu Tiếng nói dạng tín hiệu tương tự, để máy tính thiết bị hiểu tín hiệu tiếng nói cần phải số hóa 1.5.2 Kỹ thuật lấy mẫu tín hiệu Hàm lấy mẫu cầu nối hệ thống rời rạc hệ thống liên tục cịn gọi là: hàm Dirac delta, hàm sàng lọc,… Xs(t)= Đối với máy tính, hiểu lấy mẫu đơn giản việc theo chu kỳ thời gian (với tín hiệu tiếng nói) ta đo tín hiệu lần Q trình tạo chuỗi số biểu diễn cho tín hiệu xử lý máy tính Hình 1.5 Ví dụ lấy mẫu tín hiệu F(t) miền thời gian 1.5.3 Cấu trúc lọc tín hiệu Trong xử lý tiếng nói lọc có vai trò quan trọng, chúng dùng với hai mục đích chính: 14 Tách tín hiệu cần thiết: Các tín hiệu ban đầu thường chứa đựng nhiễu tín hiệu khơng mong muốn khác, nhiễu làm giảm đáng kể chất lượng tín hiệu Vì vậy, cần phải tách riêng tín hiệu cần thiết loại bỏ tín hiệu nhiễu, dư thừa Khơi phục tín hiệu bị biến dạng: Có số trường hợp ngun nhân (thường nguyên nhân liên quan tới thiết bị) làm cho tín hiệu vào bị méo mó Yếu tố ảnh hưởng tới chất lượng nhận dạng cần phải chỉnh lại để tăng chất lượng tín hiệu số Trong thực tế kỹ thuật, để xử lý tiếng nói người ta thường dùng hai lọc tuyến tính sau: a Bộ lọc đáp ứng xung hữu hạn (Finite Impulse Response –FIR) Bộ lọc đáp ứng xung hữu hạn hệ có tín hiệu phục thuộc vào tín hiệu vào nên hệ cịn gọi mạch khơng truy hồi hay mạch không đệ quy (non – recursive) Bộ lọc đáp ứng xung hữu hạn có cơng thức sau: y n b0 X n b1 X n 1 bq X n q j 0 b j X n j q Hình 1.6 Minh họa hoạt động lọc FIR b Bộ lọc đáp ứng xung vô hạn (Infinite Impulse Response –IIR) Với lọc đáp ứng xung vô hạn, hệ xử lý có đáp ứng xung có độ dài vơ hạn hay đáp ứng xung vơ hạn Tín hiệu khơng phụ thuộc vào tín hiệu vào mà cịn phụ thuộc vào q khứ tín hiệu ra, chúng cịn gọi mạch có truy hồi hay đệ qui 15 Bộ lọc đáp ứng xung vơ hạn có cơng thức sau: p q i 1 j 0 y n yni b j X n j Hình 1.7 Minh họa hoạt động lọc IIR 1.5.4 Kỹ thuật dị tìm điểm cuối Như nói trên, tín hiệu tiếng nói lấy mẫu theo chu kì, tạo nên khung tín hiệu tiếng nói Tuy nhiên, tất khung tín hiệu tiếng nói Vì vậy, dị tìm điểm cuối xử lý cố gắng tìm xác người ta bắt đầu kết thúc lời nói Nó cịn dùng để xác định mà người ta thực khơng nói (silence), hay nói điều không mong đợi (bộ từ vựng hệ thống nhận dạng khơng có từ đó) Khi đó, dị tìm điểm cuối giảm số lượng khung khơng cần thiết hệ thống nhận dạng Tuy nhiên, dò tìm điểm cuối khó khăn, có tồn tiếng ồn nền, tiếng nói liên kết âm tiết tạo nên liên tục khó phân biệt đầu cuối câu, từ Để dị tìm điểm cuối ta thực qua ba bước sau, sau bước chất lượng việc dị tìm điểm cuối tốt Việc dị tìm điểm cuối dựa mức lượng tín hiệu đặc trưng bằng: N E log X n (xem mục 3.2.2.2.) n 1 Bước Dị tìm thơ: dựa kĩ thuật lượng xác Nó tìm đoạn mà mức lượng cao đoạn trước cho số khung điểm bắt đầu (thường 40 khung) trước gặp khung mức lượng cao Và 16 số lượng khung (khoảng 20 khung) khác qua (khơng cần kiểm tra khung nào) cho điểm cuối Bước Dị tìm tinh: Bước kiểm tra mức lượng tiếng nói, lọc điểm đầu điểm cuối cách cho mức lượng tiếng nói cao mức lượng độ ồn ngưỡng Bước Kỹ thuật VUS (Voice, Unvoice and Silence): Kỹ thuật phân loại khung thành đoạn vô thanh, hữu hay khoảng lặng Việc phân loại dựa phân bố lượng khung, phổ bị biến dạng phân loại khung trước Kỹ thuật giúp loại bỏ phần tín hiệu khơng phải tiếng nói như: tiếng cười, tiếng thở hay âm tiếng xe cộ… Hình 1.8 Dị tìm điểm cuối dựa mức lượng 1.5.5 Kỹ thuật rút trích đặc trưng Đối với hệ thống nhận dạng (tiếng nói hay hình ảnh) việc rút trích đặc trưng quan trọng Tín hiệu tiếng nói thu vào vốn có kích thước lớn, vệc rút trích vector đặc trưng cần thiết làm giảm số lượng liệu trình huấn luyện nhận dạng hệ thống nhận dạng tốc độ hệ thống nâng cao Ngồi ra, việc rút trích đặc trưng làm rõ khác biệt tiếng với tiếng khác, làm mờ khác biệt tiếng lần phát âm khác 17 Hình 1.9 Sơ đồ rút trích vevtor đặc trưng tổng quát Các đặc trưng trích phải thỏa mãn điều kiện sau: Nhỏ nhiều so với tín hiệu gốc Vẫn giữ lại đặc điểm quan trọng tín hiệu ban đầu Có nhiều dạng đặc trưng tín hiệu tiếng nói, chia thành nhóm sau: Nhóm 1: Đặc trưng rút nhờ mơ theo mơ hình máy phát âm người Các đặc trưng dựa vào phương pháp dự báo tuyến tính để rút đặc trưng Để rút trích đặc trưng dạng ta thường dùng phương pháp: LPC (Linear Predictive coding) hay PLP (Perceptional Linear Prediction) Nhóm 2: Đặc trưng rút dựa khả cảm nhận âm thính giác người Các đặc trưng nhóm sử dụng phương pháp phân tích Cepstral (sử dụng phép biến đổi Fourier ngược Logarit phổ lượng tín hiệu) phổ âm (Spectral) gọi phương pháp dãy lọc Để trích rút đặc trưng dạng ta thường dùng phương pháp MFCC (Mel Frequency Cepstral Coeficients) 18 Nhóm 3: Dựa đặc trưng âm học như: cao độ, ngữ điệu,… Các đặc trưng nhóm dùng cho nhận dạng âm tiết mà chủ yếu sử dụng cho nhận dạng tâm trạng người nói,… Qua phân tích ta thấy dạng đặc trưng nhóm nhóm có nhiều ưu điểm cho việc nhận dạng tiếng nói Điều giải thích hai phương pháp MFCC PLP lại sử dụng rộng rãi hệ thống nhận dạng tiếng nói giới Phần tiếp theo, giới thiệu phương pháp trích chọn đặc trưng MFCC 1.5.6 Phương pháp tính hệ số MFCC Với phương pháp rút trích đặc trưng cách tính hệ số MFCC ta có bước tính thể hình sau (hình 3.6) Hình 1.10 Các bước xử lý tính hệ số MFCC a Làm rõ tín hiệu Mục đích việc làm rõ tín hiệu tăng cường tín hiệu, làm rõ đặc trưng Bộ làm rõ tín hiệu thường lọc thông cao Như tên gọi nó, lọc thơng cao giữ lại thành phần có tần số cao loại bỏ thành phần có tần số thấp Trong tín hiệu tiếng nói, thành phần có tần số cao mang lượng 19 nhiều so với thành phần có tần số thấp, vùng lại lưu giữ phần tín hiệu quan trọng tiếng nói Để trình nhận dạng tốt hơn, tăng cường tín hiệu vùng có tần số cao, làm cân tín hiệu vùng Người ta cịn gọi q trình làm phẳng tín hiệu tiếng nói Q trình lọc tín hiệu tiếng nói thực sau: Với giá trị s(n) chuỗi liệu đầu vào S ={ s1, s2, …,sk}, áp dụng phương trình sai phân: S n s n a * s n 1 Trong đó: ={ , ,…, }: Là chuỗi tín hiệu xử lý tương ứng với chuỗi đầu vào S ={ s1, s2, …,sk} n: Xác định mẫu tín hiệu thời điểm n a: Là hệ số làm nổi, a thường nằm đoạn [0.95; 0.97], hệ số a cao thành phần tín hiệu có tần số thấp bị loại nhiều Hình 1.11 Sóng âm chữ “ANH” trước làm phẳng (bên trái) sau làm phẳng (Bên phải) b Tạo khung tín hiệu Tín hiệu tiếng nói loại tín hiệu ln biến thiên theo thời gian, nhiên khoảng thời gian 10-20ms, tín hiệu tiếng nói coi tương đối ổn định Do tín hiệu tiếng nói thường chia thành khung kích thước 20-30ms với vùng chồng lên 10-15ms 20 Hình 1.12 Phân đoạn tín hiệu tiếng nói thành khung có chồng lấp c Lấy cửa sổ Để giảm thiểu gián đoạn tín hiệu đầu cuối khung ta lấy cửa sổ tín hiệu ứng với khung Một dãy tín hiệu lấy từ tín hiệu dài dài vô hạn x(n) gọi cửa sổ tín hiệu Trong xử lý tiếng nói tín hiệu số khác, cửa sổ thường dùng biểu diễn thông qua cửa sổ Hamming tổng quát: Với cửa sổ Hamming tổng quát, tùy thuộc vào giá trị α ta có cửa sổ khác nhau: Tải FULL (61 trang): https://bit.ly/3fQM1u2 Dự phòng: fb.com/KhoTaiLieuAZ Với α= 0.54 ta có cửa sổ Hamming, loại cửa sổ thường dùng việc lấy cửa sổ tín hiệu tiếng nói Hình 1.13 Cửa sổ Hamming 21 Với α=0.5 ta có cửa sổ Hanning Tải FULL (61 trang): https://bit.ly/3fQM1u2 Dự phịng: fb.com/KhoTaiLieuAZ Hình 1.14 Cửa sổ Hanning Với α=1 ta có cửa sổ hình chữ nhật Hình 1.15 Cửa sổ hình chữ nhật d DFT – Discete Fourier Transform Tại bước này, với khung tín hiệu, biến đổi Fourier áp dụng để chuyển miền tần số Cơng việc tính tốn thực thuật tốn FFT (Fast Fourier Trasform) 22 e Lọc theo thang tần số Mel (Mel-Frequency bandpass filter) Các lọc số áp dụng để lọc tín hiệu theo dải tần số khác Nó thực theo hàm phi tuyến, thông thường hàm số Mel : Mel (f) = 2595 ) f Logarit giá trị lượng (logarit of filter energies) Các giá trị lượng thu kênh lọc lấy giá trị logarit g DCT (Discrete Cosin Transform) Do giọng nói phát âm người có phổ trơn miền tần số, giá trị lượng lọc gần có tương quan gần Bước xử lý biến đổi giá trị lượng thành hệ số tương quan với Các hệ số gọi hệ số Cepstral Ci= Trong N số kênh lọc, giá trị logarit lượng mạch lọc thứ j, i bậc hệ số Cepstral h Chỉnh giá trị Cepstral Giá trị Cepstral bậc cao thường có giá trị thấp so với giá trị Cepstral bậc thấp Sự khác biệt gây khó khăn cho việc mơ hình hóa liệu dùng hàm mật độ xác suất Gauss Hệ số Cepstral điều chỉnh lại theo công thức Cn` xp n * k cn Sau bước này, ta thu giá trị MFCC i Tính giá trị delta MFCC Các giá trị delta hệ số MFCC tính tốn nhằm phản ánh biến thiên tiếng nói theo thời gian Các giá trị delta tính dựa giá trị MFCC khung tín hiệu lân cận Ngồi giá trị delta delta tính tốn từ giá trị delta 7746315 ... nghiên cứu nhận dạng tiếng nói đặc biệt nhận dạng tiếng nói tiếng Việt cần thiết để xây dựng hệ thống nhận dạng, ứng dụng nhận dạng tiếng nói thực hữu ích riêng tiếng Việt Đề tài xây dựng với mục... kế, xây dựng mở rộng từ điển tiếng Việt cho hệ thống nhận dạng tiếng Việt liên tục Hiện nay, có hai hướng xây dựng hệ thống nhận dạng tiếng nói: hệ thống nhận dạng từ rời rạc hệ thống nhận dạng. .. MFCC cho nhận dạng tiếng nói 36 3.1.3 Các bước xây dựng mô hình nhận dạng tiếng nói sử dụng HTK 40 3.1.4 Một số Modul sử dụng trình xây dựng hệ thống nhận dạng tiếng nói tiếng việt