Nhận dạng tiếng nói tiếng việt sử dụng mạng nơ ron nhân tạo và mô hình markov ẩn

7 502 1
Nhận dạng tiếng nói tiếng việt sử dụng mạng nơ ron nhân tạo và mô hình markov ẩn

Đang tải... (xem toàn văn)

Thông tin tài liệu

-1- -2- BỘ GIÁO DỤC VÀ ĐÀO TẠO Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG NGUYỄN QUỐC LONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học : PGS.TS Phan Huy Khánh Phản biện 1: PGS.TS Võ Trung Hùng SỬ DỤNG MẠNG NƠ-RON NHÂN TẠO VÀ MÔ HÌNH MARKOV ẨN Chuyên ngành: Khoa học máy tính Phản biện 2: PGS.TS Đoàn Văn Ban Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 11 tháng năm 2011 Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT * Có thể tìm hiểu luận văn tại: Đà Nẵng - Năm 2011 - Trung tâm Thông tin Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng -3- -4- MỞ ĐẦU thường áp dụng hướng tiếp cận nhận dạng ñối sánh mẫu nắn Lý chọn ñề tài Tiếng nói phương tiện giao tiếp rộng rãi loài người, hình thành phát triển song song với trình tiến hóa chỉnh thời gian ñộng (DTW), mô hình Markov ẩn rời rạc…dẫn ñến số kết mang tính chất tìm hiểu, chưa hệ thống ñịnh hướng rõ ràng, có hiệu suất nhận dạng từ 88% - 96% [1][2][3] loài người Đối với người, sử dụng lời nói cách diễn Vì ý nghĩa ñó ñược ñồng ý hướng dẫn Thầy PGS.TS ñạt ñơn giản hiệu Ưu ñiểm việc giao tiếp tiếng Phan Huy Khánh, ñã chọn ñề tài “Nhận dạng tiếng nói tiếng Việt nói trước tiên tốc ñộ giao tiếp, tiếng nói từ người nói ñược người sử dụng mạng nơ-ron nhân tạo mô hình Markov ẩn” thực với nghe hiểu sau ñược phát Từ ngành công mong muốn ñóng góp giải pháp lĩnh vực nhận dạng tiếng nghiệp máy tính phát triển, nhiều công trình nghiên cứu tiếng nói nói tiếng Việt nhằm khai thác thông tin từ tiếng nói ñể ứng dụng nhiều Mục ñích nghiên cứu lĩnh vực hệ thống trả lời ñiện thoại tự ñộng, dịch vụ tra cứu Mục tiêu ñề tài nghiên cứu chung vấn ñề nhận dạng thông tin du lịch tiếng nói, ứng dụng nhận dạng tiếng nói tiếng nói ứng dụng mô hình Markov ẩn kết hợp mạng nơ-ron trong hệ thống bảo mật… ñã ñem lại nhiều lợi ích cách thức nhận dạng tiếng nói tiếng Việt Đồng thời, xây dựng chương trình giao tiếp thuận tiện cho người nhận dạng nhằm mục ñích kiểm tra giải pháp ñánh giá hiệu suất Lĩnh vực nghiên cứu nhận dạng tiếng nói ñã ñược bắt ñầu từ cuối nhận dạng hệ thống thập kỷ 40, nghiên cứu ứng dụng xử lý ngôn ngữ nói chung Về lý thuyết, thực nghiên cứu tổng quan nhận dạng tiếng giới nhiều nước khác ñã trải qua nhiều giai ñoạn, ñiều nói bao gồm hướng tiếp cận nhận dạng tiếng nói, mô hình quan trọng nhiều cách tiếp cận cách thức xử lí ngôn ngữ kỹ thuật phân lớp, tiếp ñến trình bày bước tiền xử lý tín hiệu ñã ñược trải nghiệm thừa nhận Ở Việt Nam, lĩnh vực nhận dạng tiếng nói, phương pháp phân tích trích ñặc trưng tiếng nói Đối với xử lý tiếng nói tiếng Việt mới, theo người viết luận toán nhận dạng, nghiên cứu chi tiết, triển khai ứng dụng mô văn ñược biết, tập thể làm nghiên cứu ñã có kết gần hình Markov ẩn nhận dạng tiếng nói ñây Viện Công nghệ Thông tin, Trường Đại học KHTN TPHCM Trung tâm nghiên cứu quốc tế Thông tin ña phương tiện, truyền thông ứng dụng (MICA) – ĐHBK Hà nội, cộng với số ñề tài nghiên cứu thạc sĩ, tiến sĩ nước; nhìn chung ñề tài tập trung xử lý tiếng nói tiếng Việt tập liệu nhỏ vừa, phụ thuộc ñộc lập người nói, khả xử lý nhiễu tín hiệu thấp, Về thực tiễn, nghiên cứu phát triển giải thuật cho hệ thống nhận dạng tiếng nói môi trường Matlab sử dụng công cụ sẵn có Auditory ToolBox, HMM Toolbox, CLSU Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu ñề tài nhận dạng tiếng nói tiếng Việt Phạm vi nghiên cứu ñề tài phương pháp phát -5tiếng nói, rút trích ñặc trưng tiếng nói, mô hình Markov ẩn rời rạc -6- Chương 3: Giới thiệu phương pháp nhận dạng ñã ñược liên tục, kết hợp mạng nơ-ron nhận dạng tiếng nói tiếp ñến triển khai, phân tích ñánh giá ưu nhược ñiểm xây dựng ứng dụng mô hình Markov ẩn nhằm kiểm tra ñánh giá phương pháp, từ ñó ñề xuất giải pháp cho ñề tài Tiếp ñến hiệu suất nhận dạng Cơ sở liệu dùng cho nhận dạng kiểm thử trình bày bước xây dựng hệ thống nhận dạng ứng dụng dừng tập liệu gồm 10 chữ số tiếng Việt ñược thu từ 15 mô hình Markov ẩn kết hợp mạng nơ-ron Cuối chương, tiến người hành ñánh giá thử nghiệm kết nhận dạng tiếng nói Phương pháp nghiên cứu Các phương tiện công cụ dùng ñể triển khai ñề tài tài liệu liên quan ñến xử lý tín hiệu tiếng nói, cách thức lập trình môi trường Matlab liên quan ñến ñề tài Ý nghĩa khoa học thực tiễn ñề tài Sau thực nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt, góp phần cung cấp giải pháp nhận dạng tiếng nói tiếng Việt, cung cấp sở lý thuyết cho việc phát triển ứng dụng nhận dạng tiếng nói sau Cấu trúc luận văn Bố cục luận văn ñược tổ chức thành chương, có nội dung sau: - Chương 1: Thống kê tình hình nghiên cứu xử lý ngôn ngữ, tìm hiểu tổng quan lý thuyết nhận dạng, hướng tiếp cận nhận dạng tiếng nói, phân tích thống kê ñặc ñiểm tiếng Việt - Chương 2: Trình bày chi tiết hệ thống nhận dang tiếng nói từ giai ñoạn phân tích rút ñặc trưng tín hiệu tiếng nói, cho ñến ứng dụng mô hình Markov ẩn nhận dạng tiếng nói bao gồm ñặc tả mô hình, toán cho ñến giải thuật ñể giải toán nhận dạng tiếng Việt phụ thuộc người nói ñộc lập người nói -7- -8- CHƯƠNG - NGHIÊN CỨU TỔNG QUAN Decipher viện SRI, hệ thống khác Lincoln Labs, MIT 1.1 LỊCH SỬ NHẬN DẠNG 1.1.1 Xu hướng phát triển AT&T Bell Labs Thập niên 90 ghi nhận số kết nghiên cứu lĩnh Giao tiếp người-máy lĩnh vực nghiên cứu lớn khó vực phân lớp mẫu Cụ thể, toán phân lớp theo mô hình thống kê lại có nhiều ứng dụng thực tiễn Tiếng nói phương tiện giao (dựa luật ñịnh Bayes), ñòi hỏi phép ước lượng phân bố tiếp tự nhiên người vậy, nghiên cứu ñể máy tính cho liệu, ñược chuyển thành toán tối ưu, bao gồm phép cực hiểu tiếng nói người, hay gọi nhận dạng tiếng tiểu lỗi phân lớp thực nghiệm nói tự ñộng (Automatic Speech Recognition – ASR), ñã trải qua trình 50 năm phát triển Những nỗ lực nghiên cứu ñầu tiên ASR ñã ñược tiến hành Đến năm ñầu kỷ 21, nghiên cứu tập trung vào việc nâng cao kết nhận dạng tiếng nói, thông qua chương trình có tên gọi EARS (Effective Affordable Reusable Speech-to-Text) thập niên 50 với ý tưởng dựa ngữ âm Trong giai Đích hướng tới chương trình khả nhận dạng, tóm ñoạn này, có hệ thống ñáng ý như: hệ thống nhận dạng ký số tắt chuyển ngữ ñoạn audio, giúp cho người ñọc hiểu nhanh nội rời rạc Bell-lab (1952), nhận dạng 13 âm vị trường ñại dung chúng thay phải nghe toàn Chủ yếu, nghiên cứu học College–Anh (1958)… tập trung vào nhóm chính: Trong thập kỉ 1960, ñiểm ñáng ghi nhận ý tưởng tác - Nhận dạng tiếng nói tự nhiên giả người Nga, Vintsyuk ông ñề xuất phương pháp nhận dạng - Nhận dạng tiếng nói dựa nhiều kênh thông tin tiếng nói dựa qui hoạch ñộng theo thời gian - Dynamic Time Warping Về mặt kinh tế thương mại, công nghệ nhận dạng tiếng nói ñã thay ñổi cách người tương tác với hệ thống thiết bị, không Nghiên cứu ASR thập kỉ 80 ñánh dấu phép dịch chuyển bó buộc cách thức tương tác truyền thống (như thông qua bàn phương pháp luận: từ cách tiếp cận ñối sánh mẫu sang cách tiếp phím máy tính hay ñiện thoại) mà chuyển sang tương tác trực cận sử dụng mô hình thống kê Ngày nay, hầu hết hệ thống ASR tiếp giọng nói ñều dựa mô hình thống kê ñược phát triển thập kỉ này, Về mặt nghiên cứu khoa học, hệ thống nhận dạng tiếng nói với cải tiến thập kỉ 90 Một phát minh quan ñều dựa phương pháp thống kê so khớp mẫu Phương trọng thập kỉ 80 mô hình Markov ẩn (Hidden Markov pháp ñòi hỏi tri thức ngữ âm lượng lớn liệu Model – HMM) huấn luyện, bao gồm dạng âm dạng văn bản, ñể huấn Các hệ thống ASR ñời thời gian kể ñến: hệ thống Sphinx trường ñại học CMU, Byblos công ty BBN, luyện nhận dạng Lượng liệu huấn luyện lớn, nhận dạng có nhiều khả ñưa kết xác -91.1.2 Tình hình nghiên cứu Việt Nam Tại Việt Nam, có nhóm nghiên cứu toán nhận dạng - 10 1.2 NHẬN DẠNG TIẾNG NÓI 1.2.1 Tổng quan tiếng nói [3] Nhóm ñầu tiên thuộc Viện Công nghệ Thông tin Nhận dạng ñối với người trình mô lại nhận GS.TSKH Bạch Hưng Khang ñứng ñầu Nhóm tập trung nghiên cứu biết vật tượng xung quanh não người Một hệ nhận dạng vấn ñề sau: với thành phần sau: - - Nghiên cứu, phân tích ñặc trưng ngữ âm, thông số 1) Module thu nhận tín hiệu trích ñặc trưng tiếng Việt, văn phạm tiếng Việt phục vụ cho nhận dạng tiếng 2) Module học mẫu nói 3) Module tra cứu – so khớp Nghiên cứu ñể tạo lập CSDL mẫu câu ñể tạo tham số Việc nhận dạng tiếng nói thực chất trình nghiên cứu huấn luyện cho mô hình mức: âm tiết – âm vị - âm học tiếng nói ñể ñưa tập ñặc tính trình nhận dạng sau ñó Nghiên cứu toán nhận dạng tiếng nói liên tục CSDL so sánh tiếng nói cần ñược nhận dạng với tập ñặc tính ñể từ vựng cỡ nhỏ, trung bình, tiến tới CSDL lớn phán ñoán Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Phân loại số thống nhận dạng tiếng nói khác như: Hồ Chí Minh Tiến sĩ Vũ Hải Quân ñứng ñầu Các nghiên cứu - Nhận dạng từ phát âm rời rạc/liên tục nhóm tập trung vào toán truy vấn thông tin cho tin thời - Nhận dạng tiếng nói ñộc lập/phụ thuộc người tiếng Việt - Nhận dạng với từ ñiển cỡ nhỏ/vừa/lớn Ngoài ra, gần ñây có nghiên cứu LIG (Laboratoire Informatique - Nhận dạng môi trường nhiễu cao/thấp de Grenoble) hợp tác với phòng thí nghiệm MICA Hà Nội Một số yếu tố khó khăn cho toán nhận dạng tiếng nói: khả chuyển mô hình ngữ âm (acoustic model portability) - Khi phát âm, người nói thường nói nhanh chậm khác Một số hệ thống nhận dạng tiếng Việt liệt kê sau: - Các từ ñược nói thường dài ngắn khác - Một người nói từ hai lần phát âm khác - VnCommand: Chương trình nhận dạng lệnh, trình diễn khả ñiều khiển chương trình ứng dụng Windows - Chương trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục - cho kết phân tích khác qua ñiện thoại - Mỗi người có chất giọng riêng ñược thể thông qua VnDictator: chương trình ñọc tả ñộ cao âm, ñộ to âm, cường ñộ âm âm sắc - Những yếu tố nhiễu môi trường, nhiễu thiết bị thu… - 23 3.2.3 Nhận dạng 3.2.3.1 Mạng từ Mạng từ (word network) ñược dùng ñể ñịnh nghĩa ngữ pháp, mối liên hệ thứ tự từ ñược nhận dạng hệ thống Một tệp ñịnh nghĩa mạng từ chứa danh sách nút biểu diễn từ danh sách cung biểu diễn chuyển dịch từ - 24 3.3.2 Kết nhận dạng phụ thuộc người nói Thử nghiệm ñã ñược thực ñối với nhận dạng chữ số rời rạc tiếng Việt phụ thuộc người nói ñể ñánh giá ñộ xác khác CDHMM HMM/ANN nhận dạng Kết thử nghiệm bảng 3.1 cho thấy ñộ xác nhận dạng HMM/ANN tốt so với CDHMM Bảng 3.1 So sánh kết nhận dạng phụ thuộc người nói 3.2.3.2 Sử dụng mạng từ hệ thống nhận dạng Khi mạng từ ñược nạp vào hệ thống nhận dạng, từ ñiển phiên âm hệ thống ñược dùng ñể tạo mạng tương ñương bao gồm ñơn vị nhận dạng hệ thống, âm ñơn âm ba 3.2.3.3 Giải mã Mô hình nhận dạng Độ xác (%) CDHMM/BW 96,62 HMM/ANN 99,25 Trong chương này, tác giả luận văn ñã tập trung phân tích so Nhiệm vụ trình giải mã tìm ñường ñi sánh phương pháp triển khai ứng dụng nhận dạng tiếng nói, từ ñó mạng HMM có xác suất lớn Để thực công việc này, thực ñề xuất hướng giải toán nhận dạng sử dụng HMM/ANN thuật toán Viterbi ñã ñược trình bày Phần cài ñặt hệ thống, tác giả ñã giới thiệu chi tiết mô hình hệ 3.3 KẾT QUẢ THỬ NGHIỆM thống, giai ñoạn từ thu thập ñến huấn luyện nhận dạng sử 3.3.1 Dữ liệu tiếng nói dụng HMM/ANN Cuối cùng, thực thực nghiệm nhận dạng Hệ thống nhận dạng tiếng nói tiếng Việt ñược xây dựng ñánh giá hiệu suất nhận dạng dựa tập liệu chữ số rời rạc tiếng Việt phụ thuộc người nói (speaker-dependent) Tập liệu huấn luyện bao gồm 1000 phát biểu rời rạc cho chữ số từ ñến 9, ñược thu âm từ 10 người, tốc ñộ ñọc 0.8 giây/1 từ, tần số lấy mẫu 8000Hz, ñộ phân giải 16 bits Đối với nhận dạng phụ thuộc người nói, tập liệu kiểm tra ñược lấy từ tập liệu huấn luyện tập liệu tiếng nói - 25 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết thực luận văn “Nhận dạng tiếng nói tiếng Việt sử dụng mạng nơ-ron mô hình Markov ẩn” ñã tập trung giải số nội dung nhận dạng tiếng nói tiếng Việt Ở chương trình bày xu hướng phát triển lĩnh vực xử lý ngôn ngữ, nghiên cứu hướng tiếp cận nhận dạng, tiêu chí ñánh giá ảnh hưởng ñến hiệu suất nhận dạng, cuối chương tập trung tìm hiểu ñặc trưng tiếng Việt cấu trúc âm tiết, loại hình âm tiết Chương 2, tác giả tập trung trình bày bước xử lý tín hiệu tiếng nói từ giai ñoạn thu thập, khử nhiễu, phát tiếng nói cho ñến rút trích tham số ñặc trưng Tiếp ñến, nghiên cứu ñầy ñủ chi tiết ứng dụng mô hình Markv ẩn nhận dạng tiếng nói Trong chương 3, tác giả luận văn thực so sánh phương pháp nhận dạng sử dụng mô hình Markov ẩn kết hợp mạng nơ-ron, với phương pháp khác ñã ñược triển khai, từ ñó ñề xuất hướng tiếp cận phát triển ñề tài Phần cuối chương trình bày hệ thống nhận dạng tiếng nói ñược triển khai, từ việc khởi tạo mô hình, huấn luyện nhận dạng tiếng nói Thực so sánh ñánh giá kết thử nghiệm tập liệu rời rạc 10 chữ số Với tảng kiến thức ñã ñược nghiên cứu kết luận văn, số ñịnh hướng phát triển luận văn thực thời gian ñến như: - Nghiên cứu trình xử lý tiếng nói ñể tách ñược tiếng nói môi trường nhiễu (tiếng ồn) lớn - Trên sở xác ñịnh mẫu tiếng nói, tiến tới mở rộng phát triển hệ thống xác ñịnh danh tính người nói phục vụ cho ứng dụng bảo mật - 26 - Mở rộng tập liệu huấn luyện với số lượng người nói số từ nói nhiều tận dụng tối ña ưu ñiểm mô hình CDHMM - Phát triển hệ thống nhận dạng từ liên tục

Ngày đăng: 01/09/2016, 15:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan