Nhận dạng tiếng nói tiếng Việt sử dụng mạng nơ-ron nhân tạo và mô hình markov ẩn

Header Page of 126 -1- -2- BỘ GIÁO DỤC VÀ ĐÀO TẠO Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG NGUYỄN QUỐC LONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học : PGS.TS Phan Huy Khánh Phản biện 1: PGS.TS Võ Trung Hùng SỬ DỤNG MẠNG NƠ-RON NHÂN TẠO VÀ MÔ HÌNH MARKOV ẨN Chuyên ngành: Khoa học máy tính Phản biện 2: PGS.TS Đoàn Văn Ban Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 11 tháng năm 2011 Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT * Có thể tìm hiểu luận văn tại: Đà Nẵng - Năm 2011 Footer Page of 126 - Trung tâm Thông tin Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Header Page of 126 -3- -4- MỞ ĐẦU thường áp dụng hướng tiếp cận nhận dạng ñối sánh mẫu nắn Lý chọn ñề tài Tiếng nói phương tiện giao tiếp rộng rãi loài người, hình thành phát triển song song với trình tiến hóa chỉnh thời gian ñộng (DTW), mô hình Markov ẩn rời rạc…dẫn ñến số kết mang tính chất tìm hiểu, chưa hệ thống ñịnh hướng rõ ràng, có hiệu suất nhận dạng từ 88% - 96% [1][2][3] loài người Đối với người, sử dụng lời nói cách diễn Vì ý nghĩa ñó ñược ñồng ý hướng dẫn Thầy PGS.TS ñạt ñơn giản hiệu Ưu ñiểm việc giao tiếp tiếng Phan Huy Khánh, ñã chọn ñề tài “Nhận dạng tiếng nói tiếng Việt nói trước tiên tốc ñộ giao tiếp, tiếng nói từ người nói ñược người sử dụng mạng nơ-ron nhân tạo mô hình Markov ẩn” thực với nghe hiểu sau ñược phát Từ ngành công mong muốn ñóng góp giải pháp lĩnh vực nhận dạng tiếng nghiệp máy tính phát triển, nhiều công trình nghiên cứu tiếng nói nói tiếng Việt nhằm khai thác thông tin từ tiếng nói ñể ứng dụng nhiều Mục ñích nghiên cứu lĩnh vực hệ thống trả lời ñiện thoại tự ñộng, dịch vụ tra cứu Mục tiêu ñề tài nghiên cứu chung vấn ñề nhận dạng thông tin du lịch tiếng nói, ứng dụng nhận dạng tiếng nói tiếng nói ứng dụng mô hình Markov ẩn kết hợp mạng nơ-ron trong hệ thống bảo mật… ñã ñem lại nhiều lợi ích cách thức nhận dạng tiếng nói tiếng Việt Đồng thời, xây dựng chương trình giao tiếp thuận tiện cho người nhận dạng nhằm mục ñích kiểm tra giải pháp ñánh giá hiệu suất Lĩnh vực nghiên cứu nhận dạng tiếng nói ñã ñược bắt ñầu từ cuối nhận dạng hệ thống thập kỷ 40, nghiên cứu ứng dụng xử lý ngôn ngữ nói chung Về lý thuyết, thực nghiên cứu tổng quan nhận dạng tiếng giới nhiều nước khác ñã trải qua nhiều giai ñoạn, ñiều nói bao gồm hướng tiếp cận nhận dạng tiếng nói, mô hình quan trọng nhiều cách tiếp cận cách thức xử lí ngôn ngữ kỹ thuật phân lớp, tiếp ñến trình bày bước tiền xử lý tín hiệu ñã ñược trải nghiệm thừa nhận Ở Việt Nam, lĩnh vực nhận dạng tiếng nói, phương pháp phân tích trích ñặc trưng tiếng nói Đối với xử lý tiếng nói tiếng Việt mới, theo người viết luận toán nhận dạng, nghiên cứu chi tiết, triển khai ứng dụng mô văn ñược biết, tập thể làm nghiên cứu ñã có kết gần hình Markov ẩn nhận dạng tiếng nói ñây Viện Công nghệ Thông tin, Trường Đại học KHTN TPHCM Trung tâm nghiên cứu quốc tế Thông tin ña phương tiện, truyền thông ứng dụng (MICA) – ĐHBK Hà nội, cộng với số ñề tài nghiên cứu thạc sĩ, tiến sĩ nước; nhìn chung ñề tài tập trung xử lý tiếng nói tiếng Việt tập liệu nhỏ vừa, phụ thuộc ñộc lập người nói, khả xử lý nhiễu tín hiệu thấp, Footer Page of 126 Về thực tiễn, nghiên cứu phát triển giải thuật cho hệ thống nhận dạng tiếng nói môi trường Matlab sử dụng công cụ sẵn có Auditory ToolBox, HMM Toolbox, CLSU Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu ñề tài nhận dạng tiếng nói tiếng Việt Phạm vi nghiên cứu ñề tài phương pháp phát Header Page of 126 -5- tiếng nói, rút trích ñặc trưng tiếng nói, mô hình Markov ẩn rời rạc -6- Chương 3: Giới thiệu phương pháp nhận dạng ñã ñược liên tục, kết hợp mạng nơ-ron nhận dạng tiếng nói tiếp ñến triển khai, phân tích ñánh giá ưu nhược ñiểm xây dựng ứng dụng mô hình Markov ẩn nhằm kiểm tra ñánh giá phương pháp, từ ñó ñề xuất giải pháp cho ñề tài Tiếp ñến hiệu suất nhận dạng Cơ sở liệu dùng cho nhận dạng kiểm thử trình bày bước xây dựng hệ thống nhận dạng ứng dụng dừng tập liệu gồm 10 chữ số tiếng Việt ñược thu từ 15 mô hình Markov ẩn kết hợp mạng nơ-ron Cuối chương, tiến người hành ñánh giá thử nghiệm kết nhận dạng tiếng nói Phương pháp nghiên cứu Các phương tiện công cụ dùng ñể triển khai ñề tài tài liệu liên quan ñến xử lý tín hiệu tiếng nói, cách thức lập trình môi trường Matlab liên quan ñến ñề tài Ý nghĩa khoa học thực tiễn ñề tài Sau thực nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt, góp phần cung cấp giải pháp nhận dạng tiếng nói tiếng Việt, cung cấp sở lý thuyết cho việc phát triển ứng dụng nhận dạng tiếng nói sau Cấu trúc luận văn Bố cục luận văn ñược tổ chức thành chương, có nội dung sau: - Chương 1: Thống kê tình hình nghiên cứu xử lý ngôn ngữ, tìm hiểu tổng quan lý thuyết nhận dạng, hướng tiếp cận nhận dạng tiếng nói, phân tích thống kê ñặc ñiểm tiếng Việt - Chương 2: Trình bày chi tiết hệ thống nhận dang tiếng nói từ giai ñoạn phân tích rút ñặc trưng tín hiệu tiếng nói, cho ñến ứng dụng mô hình Markov ẩn nhận dạng tiếng nói bao gồm ñặc tả mô hình, toán cho ñến giải thuật ñể giải toán nhận dạng Footer Page of 126 tiếng Việt phụ thuộc người nói ñộc lập người nói Header Page of 126 -7- -8- CHƯƠNG - NGHIÊN CỨU TỔNG QUAN Decipher viện SRI, hệ thống khác Lincoln Labs, MIT 1.1 LỊCH SỬ NHẬN DẠNG 1.1.1 Xu hướng phát triển AT&T Bell Labs Thập niên 90 ghi nhận số kết nghiên cứu lĩnh Giao tiếp người-máy lĩnh vực nghiên cứu lớn khó vực phân lớp mẫu Cụ thể, toán phân lớp theo mô hình thống kê lại có nhiều ứng dụng thực tiễn Tiếng nói phương tiện giao (dựa luật ñịnh Bayes), ñòi hỏi phép ước lượng phân bố tiếp tự nhiên người vậy, nghiên cứu ñể máy tính cho liệu, ñược chuyển thành toán tối ưu, bao gồm phép cực hiểu tiếng nói người, hay gọi nhận dạng tiếng tiểu lỗi phân lớp thực nghiệm nói tự ñộng (Automatic Speech Recognition – ASR), ñã trải qua trình 50 năm phát triển Những nỗ lực nghiên cứu ñầu tiên ASR ñã ñược tiến hành Đến năm ñầu kỷ 21, nghiên cứu tập trung vào việc nâng cao kết nhận dạng tiếng nói, thông qua chương trình có tên gọi EARS (Effective Affordable Reusable Speech-to-Text) thập niên 50 với ý tưởng dựa ngữ âm Trong giai Đích hướng tới chương trình khả nhận dạng, tóm ñoạn này, có hệ thống ñáng ý như: hệ thống nhận dạng ký số tắt chuyển ngữ ñoạn audio, giúp cho người ñọc hiểu nhanh nội rời rạc Bell-lab (1952), nhận dạng 13 âm vị trường ñại dung chúng thay phải nghe toàn Chủ yếu, nghiên cứu học College–Anh (1958)… tập trung vào nhóm chính: Trong thập kỉ 1960, ñiểm ñáng ghi nhận ý tưởng tác - Nhận dạng tiếng nói tự nhiên giả người Nga, Vintsyuk ông ñề xuất phương pháp nhận dạng - Nhận dạng tiếng nói dựa nhiều kênh thông tin tiếng nói dựa qui hoạch ñộng theo thời gian - Dynamic Time Warping Về mặt kinh tế thương mại, công nghệ nhận dạng tiếng nói ñã thay ñổi cách người tương tác với hệ thống thiết bị, không Nghiên cứu ASR thập kỉ 80 ñánh dấu phép dịch chuyển bó buộc cách thức tương tác truyền thống (như thông qua bàn phương pháp luận: từ cách tiếp cận ñối sánh mẫu sang cách tiếp phím máy tính hay ñiện thoại) mà chuyển sang tương tác trực cận sử dụng mô hình thống kê Ngày nay, hầu hết hệ thống ASR tiếp giọng nói ñều dựa mô hình thống kê ñược phát triển thập kỉ này, Về mặt nghiên cứu khoa học, hệ thống nhận dạng tiếng nói với cải tiến thập kỉ 90 Một phát minh quan ñều dựa phương pháp thống kê so khớp mẫu Phương trọng thập kỉ 80 mô hình Markov ẩn (Hidden Markov pháp ñòi hỏi tri thức ngữ âm lượng lớn liệu Model – HMM) huấn luyện, bao gồm dạng âm dạng văn bản, ñể huấn Các hệ thống ASR ñời thời gian kể ñến: hệ thống Sphinx trường ñại học CMU, Byblos công ty BBN, Footer Page of 126 luyện nhận dạng Lượng liệu huấn luyện lớn, nhận dạng có nhiều khả ñưa kết xác Header Page of 126 1.1.2 -9- Tình hình nghiên cứu Việt Nam Tại Việt Nam, có nhóm nghiên cứu toán nhận dạng - 10 1.2 NHẬN DẠNG TIẾNG NÓI 1.2.1 Tổng quan tiếng nói [3] Nhóm ñầu tiên thuộc Viện Công nghệ Thông tin Nhận dạng ñối với người trình mô lại nhận GS.TSKH Bạch Hưng Khang ñứng ñầu Nhóm tập trung nghiên cứu biết vật tượng xung quanh não người Một hệ nhận dạng vấn ñề sau: với thành phần sau: - - Nghiên cứu, phân tích ñặc trưng ngữ âm, thông số 1) Module thu nhận tín hiệu trích ñặc trưng tiếng Việt, văn phạm tiếng Việt phục vụ cho nhận dạng tiếng 2) Module học mẫu nói 3) Module tra cứu – so khớp Nghiên cứu ñể tạo lập CSDL mẫu câu ñể tạo tham số Việc nhận dạng tiếng nói thực chất trình nghiên cứu huấn luyện cho mô hình mức: âm tiết – âm vị - âm học tiếng nói ñể ñưa tập ñặc tính trình nhận dạng sau ñó Nghiên cứu toán nhận dạng tiếng nói liên tục CSDL so sánh tiếng nói cần ñược nhận dạng với tập ñặc tính ñể từ vựng cỡ nhỏ, trung bình, tiến tới CSDL lớn phán ñoán Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Phân loại số thống nhận dạng tiếng nói khác như: Hồ Chí Minh Tiến sĩ Vũ Hải Quân ñứng ñầu Các nghiên cứu - Nhận dạng từ phát âm rời rạc/liên tục nhóm tập trung vào toán truy vấn thông tin cho tin thời - Nhận dạng tiếng nói ñộc lập/phụ thuộc người tiếng Việt - Nhận dạng với từ ñiển cỡ nhỏ/vừa/lớn Ngoài ra, gần ñây có nghiên cứu LIG (Laboratoire Informatique - Nhận dạng môi trường nhiễu cao/thấp de Grenoble) hợp tác với phòng thí nghiệm MICA Hà Nội Một số yếu tố khó khăn cho toán nhận dạng tiếng nói: khả chuyển mô hình ngữ âm (acoustic model portability) - Khi phát âm, người nói thường nói nhanh chậm khác Một số hệ thống nhận dạng tiếng Việt liệt kê sau: - Các từ ñược nói thường dài ngắn khác - Một người nói từ hai lần phát âm khác - VnCommand: Chương trình nhận dạng lệnh, trình diễn khả ñiều khiển chương trình ứng dụng Windows - Chương trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục - cho kết phân tích khác qua ñiện thoại - Mỗi người có chất giọng riêng ñược thể thông qua VnDictator: chương trình ñọc tả ñộ cao âm, ñộ to âm, cường ñộ âm âm sắc - Những yếu tố nhiễu môi trường, nhiễu thiết bị thu… Footer Page of 126 Header Page of 126 1.2.2 - 11 - Các hướng tiếp cận 1.2.2.1 Tiếp cận dựa vào âm học ngữ âm học - 12 minh ñể hình dung, phân tích cuối tạo ñịnh ñặc tính âm học ño ñược Hướng tiếp cận âm học ngữ âm học dựa lý thuyết âm học-ngữ âm học Theo lý thuyết ngôn ngữ Ý tưởng phương pháp biên soạn kết hợp tri thức từ nhiều nguồn tri trức: tồn số hữu hạn ñơn vị ngữ âm phân biệt - Tri thức học (acoustic knowledge) ñơn vị ngữ âm ñó ñược ñặc trưng thuộc tính vốn có - Tri thức từ vựng học (lexical knowledge) tín hiệu tiếng nói, phổ thông qua thời gian - Tri thức cú pháp học (syntactic knowledge) Một công ñoạn quan trọng phương pháp phân ñoạn - Tri thức ngữ nghĩa (semantic knowledge_ gán nhãn liên quan ñến phân ñoạn tiếng nói vùng - Tri thức thực tế (pragmatic knowledge) rời rạc (về thời gian) ñó thuộc tính ngữ âm tín hiệu 1.3 ĐỘ ĐO HIỆU SUẤT NHẬN DẠNG tương trưng cho (hoặc nhiều) ñơn vị ngữ âm (hoặc lớp ngữ âm) 1.3.1 Độ xác 1.2.2.2 Tiếp cận dựa theo mẫu Độ xác nhận dạng thước ño ñơn giản quan trọng Phương pháp tiếp cận dựa vào nhận dạng mẫu nhận dạng ñể ñánh giá hiệu suất nhận dạng tiếng nói Vì vậy, mục tiêu xây dựng tiếng nói sử dụng trực tiếp mẫu tiếng nói mà hệ thống giảm thiểu tỉ lệ lỗi nhận dạng tập huấn luyện không xác ñịnh rõ ràng ñặc tính âm – ngữ học phân ñoạn hiệu suất khác tập huấn luyện tập kiểm tra Phương pháp có hai bước: huấn luyện mẫu tiếng nói nhận 1.3.2 dạng mẫu chưa biết thông qua việc so sánh với mẫu ñã huấn Độ phức tạp vấn ñề cần xem xét hầu hết hệ luyện Vấn ñề cung cấp ñầy ñủ diễn tả mẫu dùng ñể thống nhận dạng thương mại, ñặc biệt chi phí phần cứng nhận dạng gọi tập huấn luyện sau huấn luyện, mẫu tham tiêu chí cho thành công hệ thống Thông thường, ñộ phức tạp khảo mô tả ñủ ñặc tính âm học mẫu Tiện lợi của hệ thống nhận dạng ñề cập ñến ñộ phức tạp tính toán ñộ phức phương pháp giai ñoạn so sánh mẫu: so sánh trực tiếp tiếng nói tạp mô hình Việc giảm ñộ phức tạp mô hình tiết kiệm nhớ chưa biết với mẫu ñã huấn luyện tìm tiếng nói chưa biết tùy tính toán cách hiệu ñộ xác nhận dạng theo tính chất mẫu phù hợp giảm xuống 1.2.2.3 Tiếp cận dựa theo hướng trí tuệ nhân tạo 1.3.3 Độ phức tạp Độ ño khả Phương pháp tiếp cận dựa vào trí tuệ nhân tạo thực chất kết Các khía cạnh quan trọng ñiều kiện hoạt ñộng bao gồm hợp hai phương pháp trên, khai thác ý tưởng khái mức ñộ nhiễu, kênh nhiễu ñộ méo tín hiệu, người nói khác niệm hai phương pháp Phương pháp cố gắng máy móc nhau, cú pháp ngữ nghĩa khác nhau…Trong thực tế, chênh hóa thủ tục nhận dạng theo cách người áp dụng trí thông lệch ràng buộc từ giả ñịnh giai ñoạn thiết Footer Page of 126 Header Page of 126 - 13 - kế dẫn ñến giảm sút ñáng kể ñến hiệu hoạt ñộng hệ thống 1.4 ĐẶC TRƯNG ÂM HỌC 1.4.1 Bản chất âm - 14 Trên phương diện ngữ âm, âm tiết tiếng Việt ñược xem ñơn vị Âm tiết tiếng Việt có cấu trúc ñơn giản, gắn liền với ñiệu, ñược tách biệt chuỗi lời nói Tóm lại, chương tác giả luận văn ñã tập trung tìm hiểu Tất âm ñều bắt nguồn từ dao ñộng thuộc kiểu hay khác, xu hướng phát triển lĩnh vực xử lý ngôn ngữ, ñặc ñiểm hệ người chơi nhạc biểu diễn hành ñộng kiểu cử ñộng thống nhận dạng phương pháp tiếp cận nhận dạng tiếng nói tay hay thổi miệng, hoạt ñộng họ tạo nhiều kiểu loại Tiếp ñến trình bày tiêu chí cụ thể ñể ñánh giá hiệu suất dao ñộng khác mà nghe thành âm hệ thống nhận dạng Phần cuối chương, tập trung tìm hiểu ñặc Để tạo âm nghe ñược, ba tiêu chí ñi kèm sau ñây phải ñược thoả trưng âm học, ngữ âm tiếng Việt mãn ñồng thời - Phương tiện lan truyền - Một âm phải nằm vùng tần số nghe ñược - Biên ñộ âm ñủ lớn ñể thu nhận ñược Về chất lượng âm không ñược tiếp nhận hoàn toàn giống Chúng ta phân biệt hai bình diện - Phân biệt âm liên tục âm rời rạc - Phân biệt âm nhạc tính (musical sounds) từ âm ồn (noise - like sound) Một phương cách quan trọng mà nhờ ñó âm phân biệt chất lượng hay âm sắc âm 1.4.2 Ngữ âm tiếng Việt Tiếng việt ñược xem ngôn ngữ ñơn lập tiêu biểu mà ñặc ñiểm là: âm tiết giữ vai trò hệ thống ñơn vị ngôn ngữ; vốn từ vựng tiếng Việt ñều từ ñơn tiết âm tiết ñều có khả tiềm tàng trở thành từ; từ không biến hình Footer Page of 126 Header Page of 126 - 15 - CHƯƠNG - HỆ THỐNG NHẬN DẠNG TIẾNG NÓI - 16 RÚT TRÍCH ĐẶC TRƯNG 2.2 Trong chương này, tác giả luận văn tập trung trình bày kỹ Giải pháp trích ñặc trưng tín hiệu tiếng nói ñược hiểu thuật tiền xử lý tín hiệu tiếng nói nhằm trích chọn ñặc trưng trình biến ñổi từ vector có kích thước lớn sang vector có kích tín hiệu tiếng nói phù hợp cho giai ñoạn nhận dạng, cụ thể cách thức thước nhỏ Như vậy, mặt hình thức, rút trích ñặc trưng xác ñịnh liệu tiếng nói, phát ñiểm ñầu ñiểm cuối tín ñược ñịnh nghĩa ánh xạ f: hiệu, phương pháp rút trích ñặc trưng MFCC phổ biến hệ thống nhận dạng Tiếp ñến trình bày chi tiết ứng dụng mô f : RN → Rd, ñó d

Định dạng
Số trang	13
Dung lượng	123,77 KB