1. Trang chủ
  2. » Công Nghệ Thông Tin

Phân tích cú pháp trong tổng hợp tiếng nói tiếng việt

69 330 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 2,23 MB

Nội dung

LỜI CAM ĐOAN Tôi – Lê Quang Thắng – xin cam kết Luận văn tốt nghiệp công trình nghiên cứu thân hướng dẫn PGS.TS Trần Đỗ Đạt, Viện nghiên cứu quốc tế MICA, trường Đại học Bách Khoa Hà Nội Các kết nên Luận văn tốt nghiệp trung thực, không chép toàn văn công trình khác Hà Nội, ngày 04 tháng 09 năm 2014 Học viên thực luận văn Lê Quang Thắng LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin Truyền thông Các thầy cô trang bị cho em kiến thức quý báu thời gian em học tập nghiên cứu trường Em xin gửi lời cảm ơn đặc biệt đến PGS.TS Trần Đỗ Đạt Thầy người kiên trì dẫn tận tình cho em kinh nghiệm quý báu suốt trình làm luận văn sống sau Đồng thời em xin gửi lời cảm ơn chân thành đến GS.TS Miyao Yusuke tất người Miyao lab, thuộc viện công nghệ thông tin quốc gia Nhật Bản giúp đỡ em nhiều việc thực nghiên cứu luận văn Em cảm ơn PGS.TS Lê Đình Duy, TS Nguyễn Văn Kiên, TS Trần Minh Quang anh chị nghiên cứu sinh, thuộc viện công nghệ thông tin quốc gia Nhật Bản chia sẻ với em kinh nghiệm quý báu việc làm nghiên cứu, giúp em hoàn thành luận văn cách tốt Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè… Những người bên cạnh em tận giây phút cuối MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii LỜI NÓI ĐẦU ii Danh mục bảng luận văn Danh mục hình luận văn CHƢƠNG MỞ ĐẦU 1.1 Bài toán phân tích pháp 1.2 Vai trò phân tích pháp tổng hợp tiếng nói 1.3 Mục tiêu nội dung luận văn CHƢƠNG CÁC NGHIÊN CỨU TỔNG QUAN VỀ PHÂN TÍCH PHÁP 2.1 Hướng tiếp cận sử dụng Treebank cho phân tích pháp 2.2 Nhị phân hóa tập liệu Treebank 2.3 Hiện trạng hướng nghiên cứu cho phân tích pháp 10 2.3.1 Mô hình xác suất PCFG 10 2.3.2 Các mô hình Generative 10 2.3.3 Các mô hình Discriminative 11 2.3.4 Thuật toán perceptron cấu trúc 12 2.4 Các nghiên cứu phân tích pháp tiếng Việt 14 CHƢƠNG HỆ THỐNG PHÂN TÍCH PHÁP SHIFT-REDUCE 15 3.1 Lý thuyết sở hệ thống phân tích shift-reduce 15 3.1.1 Khái niệm state action phân tích shift-reduce 15 3.1.2 Quá trình phân tích pháp shift-reduce 18 3.1.3 Huấn luyện hệ thống phân tích shift-reduce sử dụng thuật toán Perceptron cấu trúc 21 3.1.4 Bài toán tìm kiếm hệ thống phân tích shift-reduce 26 3.2 Hệ thống phân tích shift-reduce sử dụng thuật toán best first search(BFS) 27 3.2.1 Các nghiên cứu trước BFS cho phân tích pháp shift-reduce 27 3.2.2 Hệ thống phân tích pháp shift-reduce sử dụng BFS luận văn 28 3.2.3 Vấn đề trọng số âm cách giải 29 3.2.4 Thuật toán quy hoạch động cho phân tích shift-reduce 30 3.3 Đánh giá hiệu hệ thống phân tích shift-reduce sử dụng BFS 33 CHƢƠNG SỬ DỤNG THUẬT TOÁN A* CHO HỆ THỐNG PHÂN TÍCH SHIFT-REDUCE 38 4.1 Vấn đề hệ thống phân tích shift-reduce với tìm kiếm BFS 38 4.2 Bộ đặc trưng sử dụng thông tin bề mặt 39 4.3 Sử dụng ước lượng A* để tăng tốc độ phân tích hệ thống 41 4.3.1 Phép chiếu GP (Grammar Projection) 44 4.3.2 Phép chiếu LF (Less Feature) 45 4.3.3 Phép chiếu kết hợp GP LF 46 CHƢƠNG ĐÁNH GIÁ VÀ THỬ NGHIỆM HỆ THỐNG 48 5.1 Chuẩn bị thí nghiệm 48 5.2 Kết thí nghiệm với hệ thống phân tích pháp 51 5.3 Kết thí nghiệm với hệ thống tổng hợp tiếng nói 56 i Tài liệu tham khảo 63 LỜI NÓI ĐẦU Tổng hợp tiếng nói (TTS – text to speech) tiến trình tạo giọng nói nhântạo người từ đầu vào văn Đây lĩnh vực nghiên cứu có tính ứng dụng thực tiễn cao nên quan tâm giới Việt Nam Ứng dụng củatổng hợp tiếng nói dễ dàng thấy nhiều hệ thống, hệ thống hỗ trợđọc văn cho người khuyết tật, hệ thống trả lời tự động tổng đài hayrobot, hệ thống đường phương tiện vận tải Đối với hệ thốngtổng hợp tiếng nói, hai tiêu chí quan trọng để đánh giá chất lượng tiếng nóiđược tạo mức độ tự nhiên mức độ dễ nghe Nếu mức độ tự nhiên đểthể tương đồng giọng nói tổng hợp giọng nói tự nhiên người, thìmức độ dễ nghe lại đánh giá mức độ người nghe hiểu tiếng nói tổnghợp Một hệ thống tổng hợp tốt phải cân tốt hai tính chất này.Trong số vấn đề liên quan đến toán tổng hợp tiếng nói, phân tíchcú pháp yếu tố có ảnh hưởng lớn đến việc đưa thông tin vềngữ âm ngữ điệu cho tiếng nói tổng hợp, qua ảnh hưởng đến nhiều đếnchất lượng tổng hợp tiếng nói theo hai tiêu chí đánh giá Tuy nhiên, phạm vi nghiên cứu mình, người làm luận văn nhận thấy việc áp dụng kết phân tích pháp tiếng Việt vào hệ thống tổng hợp tiếng nói hạn chế[1][2][6][7][8] Do hướng lựa chọn nghiên cứu xây dựng nên hệ thống phân tích pháp tiếng Việt có hiệu cao để cải thiện chất lượng hệ thống tổng hợp tiếng Việt để áp dụng cho hệ thống tổng hợp tiếng nói tiếng Việt hướng hứa hẹn vàcó tính ứng dụng cao ii Danh mục bảng luận văn Bảng 3-1 Bộ đặc trưng giản lược Sagae (2006) 24 Bảng 3-2 Bộ đặc trưng Baseline Zhang Clark (2009) 25 Bảng 3-3 Kết thử nghiệm hệ thống phân tích pháp BFS-DP Shift-Reduce luận văn section 24 tập liệu Penn Treebank 35 Bảng 4-1 Bộ đặc trưng bề mặt đề xuất người làm luận văn dựa lý thuyết thông tin bề mặt phân tích pháp Hall (2014) 41 Bảng 4-2 Ví dụ minh họa trọng số đặc trưng phép chiếu 44 Bảng 4-3 Danh sách đặc trưng bị bỏ qua phép chiếu LF 46 Bảng 5-1 Luật xác định từ trung tâm tiếng Việt 50 Bảng 5-2 Kết thí nghiệm cuối section 24 Penn Treebank 52 Bảng 5-3 Kết cuối thí nghiệm section 23 Penn Treebank 55 Bảng 5-4 Kết thí nghiệm với phân tích pháp tiếng Việt 56 Bảng 5-5 Kết mô hình dự đoán ngắt nghỉ sử dụng luật với hai liệu phân tích pháp thủ công tự động 57 Bảng 5-6 Kết mô hình dự đoán ngắt nghỉ sử dụng thông tin syntactic-block, syntactic-link PoS 58 Lê Quang Thắng – CNTT.KH.2012B Danh mục hình luận văn Hình 1-1 Minh họa pháp cho câu văn Hình 2-1 Ví dụ minh họa nhị phân LB Hình 2-2 Ví dụ minh họa nhị phân RB Hình 2-3 Ví dụ minh họa nhị phân HB Hình 3-1 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ không 19 Hình 3-2 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ 19 Hình 3-3 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ hai 19 Hình 3-4 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ ba 20 Hình 3-5 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ tư 20 Hình 3-6 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ năm 20 Hình 3-7 Ví dụ minh họa phân tích shift-reduce: trạng thái cuối 21 Hình 3-8 Biểu thức suy diễn action hệ thống phân tích pháp Shift-Reduce luận văn 33 Hình 3-9 Biểu đồ so sánh số lượng trung bình state phải xét duyệt qua hai mô hình Perceptron Maxent 36 Hình 4-1 Ví dụ đơn giản việc kết hợp hai state p q sử dụng action Reduce 38 Hình 4-2 Ví dụ minh họa thành phần lý thuyết thông tin bề mặt Hall (2014) 39 Hình 4-3 Ví dụ minh họa số đặc trưng sau thực phép chiếu GP 45 Hình 4-4 Ví dụ minh họa số đặc trưng sau thực phép chiếu LF 45 Hình 5-1 So sánh thời gian phân tích loại ước lượng A* khác 52 Hình 5-2 So sánh thời gian phân tích thời gian phân tích A* với thuật toán BeamSearch 54 Hình 5-3 Kết thí nghiệm cảm thụ so sánh hai hệ thống T1 T2 60 Lê Quang Thắng – CNTT.KH.2012B CHƢƠNG MỞ ĐẦU 1.1 Bài toán phân tích pháp Phân tích pháptừ lâu biết đến toán quan trọng ngành xử lý ngôn ngữ tự nhiên Mục đích phân tích pháp cung cấp thông tin ngữ pháp câu văn bản, thường xác định dạng Hình 1-1 Trong nhiều nghiên cứu giới, phân tích pháp ứng dụng rộng rãi hệ thống cao dịch máy dự động, tóm tắt văn bản, trích rút thông tin, hệ thống hiểu ngôn ngữ tự nhiên.Tuy nhiên, nhập nhằng mặt kết cộng với độ phức tạp cao làm cho toán trở nên thử thách Đặc biệt với tiếng Việt, hạn chế mặt tốc độ lẫn độ xác hệ thống phân tích pháp tiếng Việt khiến cho hệ thống phân tích pháp áp dụng vào thực tế Hình 1-1 Minh họa pháp cho câu văn 1.2 Vai trò phân tích pháp tổng hợp tiếng nói Trong số hệ thống ứng dụng phân tích pháp nhiều nhất, kể đến tổng hợp tiếng nói Tổng hợp tiếng trình chuyển đổi từ văn sang tín hiệu tiếng nói tương ứng, sử dụng nhiều thực tế Chất lượng hệ thống tổng hợp tiếng phụ thuộc vào nhiều yếu tố: độ tự nhiên, độ dễ nghe độ truyền Lê Quang Thắng – CNTT.KH.2012B cảm… Do đó, việc nghiên cứu thành phần ngữ pháp câu văn hứa hẹn việc tăng chất lượng tổng hợp tiếng nói Trong giới hạn hiểu biết người làm luận văn, liệt kê số nghiên cứu phổ biến giới việc áp dụng phân tích pháp vào tổng hợp tiếng nói (đặc biệt cho tiếng Việt) sau: - Tạo ngữ điệu (prosodic hierarchy): ứng dụng phổ biến pháp tổng hợp tiếng nói việc tạo ngữ điệu từ pháp Dựa vào đó, hệ thống tổng hợp tiếng nói biết cách ngắt nghỉ hợp lý Trên giới việc nghiên cứu để chuyển từ pháp sang ngữ điệu phát triển từ lâu đạt số kết định.[17] Lê Quang Thắng – CNTT.KH.2012B - Một số hệ thống tổng hợp tiếng nói khác giới sử dụng phương pháp học máy với đặc trưng thông tin trích rút từ ngữ pháp câu văn đạt kết khả quan.[18] - Các thông tin mặt cấu trúc câu cung cấp từ ngữ pháp áp dụng vào phương pháp tổng hợp ghép nối đơn vị âm không đồng góp phần làm tăng hiệu chất lượng tổng hợp tiếng nói tiếng Việt.[5][2] - Ngoài ra, nghiên cứu khác tiếng Việt, pháp cung cấp thông từ trung tâm giúp hệ thống tổng hợp tiếng biết cách đặt trọng âm vào vị trí.[18] 1.3 Mục tiêu nội dung luận văn Luận văn tập trung hướng tới xây dựng phân tích pháp tiếng Việt để qua áp dụng làm nâng cao chất lượng hệ thống tổng hợp tiếng nói Hệ thống phân tích pháp tiếng Việt phải thỏa mãn hai điều kiện: độ xác cao tốc độ phân tích đủ nhanh để vận hành hệ thống thực Để làm điều đó, luận văn khảo sát qua loạt nghiên cứu giới trước phân tích, lựa chọn hướng phát triển thích hợp cho nghiên cứu đồng thời trình bày số ý tưởng cải tiến chất lượng phân tích pháp tiếng Việt Về mặt nội dung chính, luận văn chia thành chương: Chương 2sẽ trình bày số hướng nghiên cứu tổng quan giới phân tích pháp, phương pháp mô hình sử dụng cho phân tích pháp Gần cuối chương có đề cập đến thuật toán Perceptron cấu trúc, Lê Quang Thắng – CNTT.KH.2012B thuật toán học máy mạnh cho phân tích pháp nói riêng xử lý ngôn ngữ tự nhiên nói chung, thuật toán học máy luận văn sử dụng cho hệ thống phân tích pháp tiếng Việt Cuối chương số tóm tắt khái quát tình hình nghiên cứu phân tích pháp cho tiếng Việt Chương 3chủ yếu tập trung nói hệ thống phân tích pháp luận văn, dựa tảng phương pháp phân tích pháp Shift-Reduce kết hợp với thuật toán học máy Perceptron cấu trúc Zhu (2013)[14] Trong chương này, luận văn trình bày cách thức để giải toán tìm kiếm xác dựa thuật toán Best-First-Search (BFS) thay phải sử dụng giải thuật tìm kiếm không xác Beam Search Zhu Cuối chương số thí nghiệm để đánh giá độ hiệu hệ thống so với hệ thống phân tích pháp Shift-Reduce sử dụng giải thuật BFS nghiên cứu trước Chương 4là chương mô tả ý tưởng đề xuất luận văn dành cho hệ thống chương nhằm tăng tốc độ độ xác hệ thống Đầu tiên việc đề xuất sử dụng đặc trưng dành cho phân tích pháp Shift-Reduce để nhằm làm giảm độ phức tạp thuật toán mà không bị mát độ xác Thứ hai ý tưởng ước lượng A* để giúp tốc độ hệ thống tăng lên gấp nhiều lần đảm bảo tối ưu mặt tìm kiếm Chương chương đánh giá thực nghiệm, bao gồm loại thí nghiệm: thí nghiệm hệ thống phân tích pháp liệu tiếng Anh, thí nghiệm hệ thống liệu tiếng Việt cuối thí nghiệm đánh giá độ ảnh hưởng hệ thống phân tích pháp luận văn hệ thống tổng hợp tiếng nói tiếng Việt Cuối kết luận tài liệu tham khảo Lê Quang Thắng – CNTT.KH.2012B WHVP trái sang phải V UCP trái sang phải Không có thứ tự ưu tiên nhãn  Phần thí nghiệm liên quan đến tổng hợp tiếng nói tiếng Việt: thí nghiệm để chứng minh hiệu hệ thống phân tích pháp A*SR, luận văn thực số thí nghiệm nhỏ thấy độ ảnh hưởng kết phân tích pháp hệ thống A*SR lên hệ thống tổng hợp tiếng nói tiếng Việt 5.2 Kết thí nghiệm với hệ thống phân tích pháp Độ ảnh hƣởng ƣớc lƣợng A*:Hình 5-1 biểu đồ minh họa độ ảnh hưởng ước lượng A* khác lên hệ thống phân tích pháp Shift-Reduce mặt tốc độ trung bình độ dài câu văn đầu vào Trên thực tế, mặt chất lượng tìm kiếm, phép chiếu LF tốt so với phép chiếu GP Phép chiếu LF bỏ qua 92,5% số lượng state phải xét so với thuật toán tìm kiếm BFS thuần, số với phép chiếu GP 75% Tuy nhiên, việc tính toán ước lượng A* bẳng phép chiếu LF thực nghiệm lại tốn thời gian phép chiếu GP nên lại thời gian phân tích thuật toán A* sử dụng phép chiếu LF chậm Phép chiếu HP kết hợp ưu điểm hai phép chiếu GP LF: chất lượng tìm kiếm tốt tốc độ tính toán ước lượng nhanh, hiển nhiên cho kết tốt mặt thời gian Lê Quang Thắng – CNTT.KH.2012B 51 Hình 5-1 So sánh thời gian phân tích loại ƣớc lƣợng A* khác Thử nghiệm tốc độ độ xác:kết thực nghiệm section 24 tập liệu PennTreebank báo cáo đầy đủ Bảng 5-2 Chúng ta thấy hệ thống phân tích pháp BeamSearch sử dụng đặc trưng thông tin bề mặt luận văn có độ xác tốt, gần tương đương với đặc trưng Baseline phức tạp Zhang Clark (2009), đặc biệt sử dụng thêm thuật toán quy hoạch động Điều gợi ý đặc trưng bề mặt giúp nâng cao số lượng state tương đương xác nhập lại với nhau, qua mở rộng không gian tìm kiếm cho thuật toán BeamSearch sử dụng thêm quy hoạch động (DP) Bảng 5-2 Kết thí nghiệm cuối section 24 Penn Treebank Hệ thống F-score b = 16 Bề mặt Baseline 89.1 F-score Tốc độ (DP) (câu/s) 90.1 34.6 Lê Quang Thắng – CNTT.KH.2012B 52 F-score 88.6 F-score Tốc độ (DP) (câu/s) 89.9 31.9 b = 32 89.6 89.9 20.0 89.3 90.2 17.0 b = 64 89.7 90.2 10.6 89.6 90.2 9.1 A* - - - - 90.7 13.6 BFS - - - - 90.7 1.1 Tuy nhiên, vấn đề mà muốn đề cập hệ thống phân tích sử dụng tìm kiếm xác luận văn đạt độ xác cao (90.7 Fscore), cao nhiều so với hệ thống Shift-Reduce sử dụng BeamSearch kể với bề rộng beam lớn = 64 (90.2 F-score), qua cho thấy việc sử dụng tìm kiếm không xác gây ảnh hưởng lớn đến mức đến độ xác hệ thống phân tích pháp Mặc hệ thống sử dụng thuật toán BFS có tốc độ phân tích thấp (1.12 câu/giây), với trợ giúp ước lượng A*, mà cụ thể phép chiếu kết hợp HP, hệ thống đạt tốc độ phân tích khả quan: 13.6 câu/giây, chí nhỉnh so với thuật toán BeamSearch với bề rộng beam = 64 (9.1 câu/giây, minh họa tốc độ trung bình độ dài câu Hình 5-2) Tốc độ độ xác cho thấy kết khả quan, chứng minh hệ thống luận văn hoàn toàn áp dụng cho toán thực tế Lê Quang Thắng – CNTT.KH.2012B 53 Hình 5-2 So sánh thời gian phân tích thời gian phân tích A* với thuật toán BeamSearch Thí nghiệm cuối cùng: kết thí nghiệm cuối section 23 tập PennTreebank thể Bảng 5-3 Các hệ thống phân tích pháp bảng kết luận văn chia làm nhóm:  Nhóm hệ thống phân tích pháp Shift-Reduce đóng, nghĩa sử dụng liệu section 2-21 PennTreebank để huấn luyện cho phân tích pháp Ngoài không sử dụng thêm thông tin phụ trợ bên khác  Nhóm hệ thống phân tích pháp đóng khác: bao gồm hệ thống phân tích pháp Shift-Reduce học thống kê tập liệu section 2-21 PennTreebank  Nhóm hệ thống phân tích pháp nâng cao: nhóm hệ thống phân tích pháp sử dụng phương pháp nâng cao tái xếp hạng số kỹ thuật học máy bán giám sát khác, đặc biệt có sử dụng nguồn ngữ liệu khác PennTreebank để hỗ trợ cho hệ thống phân tích pháp Lê Quang Thắng – CNTT.KH.2012B 54 Như thấy bảng kết quả, số hệ thống phân tích pháp thuộc hai hệ đóng, hệ thống phân tích pháp A* với đặc trưng bề mặt luận văn đạt điểm số F-score cao 91.1, vượt qua hầu hết hệ thống tiếng khác, có hệ thống phân tích pháp Berkeley Stanford Các hệ thống phân tích pháp nâng cao có điểm số cao vượt so với hệ thống luận văn Tuy nhiên, có điều cần ghi nhớ hệ thống luận văn hoàn toàn sử dụng kỹ thuật nâng cao hệ thống họ để cải thiện độ xác Về mặt tốc độ, hệ thống luận văn tỏ vượt trội đem so với hệ thống khác Hệ thống vượt qua hệ thống luận văn mặt tốc độ hệ thống phân tích pháp Shift-Reduce sử dụng BeamSearch Zhu (2013)[14] Tuy nhiên, hệ thống cài đặt ngôn ngữ C++, hệ thống luận văn cài Java nên so sánh không mang tính hiệu cao Bản thân người làm luận văn cài đặt lại hệ thống Zhu (2013) java kết thể Bảng 5-2 Bảng 5-3 Kết cuối thí nghiệm section 23 Penn Treebank Recal Precision Fscore Tốc độ Hệ thống l ShiftReduce (đóng) khác (đóng) (câu/s) Sagae (2005)[20] 86.0 86.1 86.0 3.7 Sagae(2006)[21] 88.1 87.8 87.9 2.2 Zhu (2013)[14] 90.2 90.7 90.4 93.4 Bề mặt (b = 64, DP) 90.2 90.6 90.4 8.4 Bề mặt (A*) 90.9 91.2 91.1 13.6 Berkeley (2007)[12] 90.1 90.3 90.2 6.1 Stanford (2013) – RNN[11] 90.3 90.7 90.5 3.3 Hall (2014) – CRF[23] 89.0 89.5 89.3 0.7 Lê Quang Thắng – CNTT.KH.2012B 55 Nâng cao Charniak (2005) 91.2 91.8 91.5 2.1 McClosky (2006)[10] 92.2 92.6 92.4 1.2 Zhu (2013) bán giám sát 91.1 91.5 91.3 47.6 Kết thí nghiệm với phân tích pháp tiếng Việt thể Bảng 5-4 Bộ liệu VietTreebank so với PennTreebank nhỏ nhiều (10000 câu so với 40000 câu!!!), nên hiệu hệ thống luận văn có khác biệt so với thí nghiệm bên tiếng Anh Kết cuối cùng, hệ thống luận văn đạt độ xác với điểm F-score 81.2%, tốc độ phân tích 35.3 câu/giây, hiệu nói trội nhiều so với hai hệ thống phân tích pháp tiếng Việt lại mặt hiệu Bảng 5-4 Kết thí nghiệm với phân tích pháp tiếng Việt Hệ thống F-score Tốc độ Hệ thống A*SR 81.2% 35.3 câu/ giây Hệ thống VLSP 78% câu/ giây Hệ thống Berkeley 72.1% 5.4 câu/ giây 5.3 Kết thí nghiệm với hệ thống tổng hợp tiếng nói Với vấn đề tích hợp hệ thống phân tích pháp vào hệ thống tổng hợp tiếng nói, luận văn tập trung vào toán dự đoán ngắt nghỉ để cải thiện chất lượng tiếng nói tổng hợp Hệ thống tổng hợp HMM công bố lần đầu hội nghị InterSpeech 2014 [26] hệ thống đưa giải pháp cho toán Hệ thống tổng hợp tiếng sử dụng luật thiết kế dựa thông tin pháp phân tích thủ công với độ xác 100% Kết hệ thống dự đoán vị trí ngắt nghỉ xác (precision) tới 91.0%, với độ hồi Lê Quang Thắng – CNTT.KH.2012B 56 tưởng (recall) 37.1% Trong luận án tiến sĩ [25], tác giả Nguyễn Thị Thu Trang sử dụng hệ thống luận văn để thử nghiệm mô hình dự đoán ngắt nghỉ với phân tích pháp tự động kết thể Bảng 5-5 Hệ thống đạt độ xác 84.2% với độ hồi tưởng 26.1%, nghĩa thấp không nhiều so với phân tích pháp tay Bảng 5-5 Kết mô hình dự đoán ngắt nghỉ sử dụng luật với hai liệu phân tích pháp thủ công tự động Ngữ liệu Precision Recall F-score VNSP 91.0% 37.1% 52.7% 84.2% 26.1% 39.9% (phân tích thủ công) VDTO (phân tích tự động) Tuy nhiên, từ kết thử nghiệm thấy độ hồi tưởng việc dự đoán ngắt nghỉ tương đối thấp Thế nên, tác giả Nguyễn Thị Thu Trang đề xuất việc sử dụng mô hình định J48 cho việc dự đoán ngắt nghỉ với thông tin đặc trưng sau:  Syntactic-block (khối pháp): thông tin tạo từ việc chia câu văn cách từ nút cao pháp tương ứng Việc phân chia dừng lại câu văn chia thành phrase mà độ dài bao phủ phrase câu nhỏ số lượng n định Sau hệ thống sử dụng phrase để làm đặc trưng dự đoán ngắt nghỉ Như luận án mô tả n=10 cho kết tối ưu  Syntactic-link (liên kết pháp): thông tin liên kết nút pháp, trích rút dựa vị trí tương quan chúng Lê Quang Thắng – CNTT.KH.2012B 57 pháp Đặc trưng trình bày rõ luận án [25] nên luận văn không trình bày  PoS: nhãn từ loại từ câu văn đầu vào Kết mô hình dự đoán ngắt nghỉ sử dụng thông tin đặc trưng kể thể Bảng 5-6 Có thể thấy rõ đặc trưng cải thiện độ xác độ hồi tưởng việc dự đoán ngắt nghỉ cách đáng kể, đặc biệt kết hợp chúng lại với nhau, hệ thống đạt độ xác 89.0% độ hồi tưởng 74.6% với liệu 10-fold phương pháp đo cross validation Ngoài thử nghiệm tập liệu thử nghiệm VDTO, tập liệu phân tích pháp tự động hệ thống luận văn, độ xác độ hồi tưởng 87.6% 75.9% Bảng 5-6 Kết mô hình dự đoán ngắt nghỉ sử dụng thông tin syntactic-block, syntacticlink PoS Đặc trƣng Mô hình Tập thử Precision Recall F-score 83.4% 71.1% 76.8% Syntactic-link 65.4% 43.7% 52.6% PoS 73.4% 31.0% 43.6% Syntactic-block+link 83.4% 76.8% 80.0% Syntactic-block+PoS 87.2% 71.4% 78.6% Syntactic-block+PoS 70.6% 58.7% 61.4% Syntactic- 89.0% 74.6% 81.2% 87.6% 75.9% 81.4% nghiệm Syntactic-block Cây định J48 10-fold CV block+link+PoS Syntactic- VDTO block+link+PoS Lê Quang Thắng – CNTT.KH.2012B 58 Cuối cùng, để kiểm chứng độ ảnh hưởng kết phân tích pháp luận văn lên chất lượng tiếng nói tổng hợp, luận văn thực thí nghiệm cảm thụ để so sánh hai hệ thống tổng hợp: hệ thống sử dụng đặc trưng câu văn đầu vào để sinh tiếng nói tổng hợp (gọi hệ thống T1), hệ thống sử dụng thêm đặc trưng pháp mô tả để thêm vào phần dự đoán ngắt nghỉ (gọi hệ thống T2) Thí nghiệm thực với 20 chủ thể bao gồm 10 nam 10 nữ, tập liệu thử nghiệm bao gồm 40 câu với chiều dài tính theo số âm tiết từ 2-26 Các chủ thể nghe 40 câu với giọng đọc tổng hợp nên từhệ thống T1 T2 Kết thí nghiệm thể Hình 5-3, hệ thống T2 sử dụng hệ thống phân tích pháp luận văn với khả ngắt nghỉ chuẩn xác đạt độ ưu tiên 67%, cao so với hệ thống tổng hợp T1 sử dụng thông tin từ câu văn gốc Lê Quang Thắng – CNTT.KH.2012B 59 Hình 5-3 Kết thí nghiệm cảm thụ so sánh hai hệ thống T1 T2 Lê Quang Thắng – CNTT.KH.2012B 60 Kết luận Luận văn đặt mục tiêu xây dựng hệ thống phân tích pháp có tốc độ độ xác cao để áp dụng cho hệ thống tổng hợp tiếng nói tiếng Việt Qua lý thuyết thực nghiệm trình bày chương, luận văn đạt số kết sau:  Nghiên cứu tìm hiểu phương pháp mô hình áp dụng cho toán phân tích pháp giới, qua dẫn tới việc lựa chọn phương pháp phân tích pháp shift-reduce kết hợp với mô hình Perceptron cấu trúc với độ xác cao tốc độ phân tích nhanh  Tìm hiểu phát triển hệ thống phân tích pháp Shift-Reduce huấn luyện thuật toán Perceptron cấu trúc kết hợp với thuật toán tìm kiếm BeamSearch  Áp dụng giải thuật tìm kiếm BFS, lý thuyết quy hoạch động số tinh chỉnh để thực toán tìm kiếm đầy đủ cho phân tích ShiftReduce Cho đến tại, hiểu biết luận văn, hệ thống luận văn hệ thống thực điều  Đề xuất sử dụng đặc trưng bề mặt kết hợp với ước lượng A* để tăng tốc độ tìm kiếm cho hệ thống, giúp hệ thống đạt tới tốc độ phân tích nhanh độ xác cao thuộc tốp đầu hệ thống phân tích pháp xác giới  Tìm hiểu cách thức tích hợp phân tích pháp vào tổng hợp tiếng nói thông toán dự đoán vị trí ngắt nghỉ  Thực số thử nghiệm đánh giá hệ thống phân tích pháp xây dựng độ ảnh hưởng kết phân tích pháp lên hệ thống chất lượng tổng hợp tiếng nói tiếng Việt Tuy nhiên, thời gian có hạn nên vấn đề cần phải giải để phát triển thêm luận văn: Lê Quang Thắng – CNTT.KH.2012B 61  Hệ thống phân tích pháp luận văn thực tìm kiếm đầy đủ lại bị hạn chế nhiều đặc trưng sử dụng, điều khiến hệ thống thua thiệt hẳn với hệ thống phân tích ShiftReduce sử dụng tìm kiếm không đầy đủ với đặc trưng phức tạp tùy ý muốn Trong tương lai, có điều kiện, người làm luận văn tiếp tục nghiên cứu cách thức lựa chọn ước lượng A* cho hệ thống tích hợp đặc trưng Đây hứa hẹn hướng nghiên cứu thú vị  Các thí nghiệm với hệ thống tổng hợp tiếng nói tiếng Việt chưa thực sựđầy đủ, việc thực thêm thí nghiệm liên quan đến ngữ điệu tiếng nói dựa thông tin pháp mang tính thuyết phục cao Lê Quang Thắng – CNTT.KH.2012B 62 Tài liệu tham khảo [1] Lê Hồng Phương, “phân tích pháp tiếng Việt tin học”, khóa luận tốt nghiệp năm 2002, khoa Công Nghệ Thông Tin, trường Đại học Công Nghệ [2] Lê Quang Thắng, “phân tích pháp tổng hợp tiếng nói tiếng Việt”, đồ án tốt nghiệp năm 2011, môn Công Nghệ Phần Mềm, khoa Công Nghệ Thông Tin, trường Đại học Bách Khoa Hà Nội [3] Michael Collins, “Head-Driven Statistical Models for Natural Language Parsing”, Comput Linguist Journal, 12/2003, volume 29, issn:0891-2017, pages 589-637, MIT Press, Cambridge, MA, USA [4] Dan Klein and Christopher D Manning 2003 “A* parsing: Fast exact Viterbi parse selection In Proceedings of the Human Language Technology Conference and the North American Association for Computational Linguistics”(HLT-NAACL) [5] Do Van Thao, Tran Do Dat, Nguyen Thi Thu Trang, “Non-uniform unit selection in Vietnamese Speech Synthesis”, In proceedings of the 2011 Symposium on Information and Communication Technology, Hanoi, October 2011 [6] Vương Hoài Thu, “Phân tích pháp tiếng Việt theo hướng tiếp cận thống kê”, khóa luận tốt nghiệp năm 2009, khoa Công Nghệ Thông Tin, trường Đại học Công Nghệ [7] Le A.-C., Nguyen P.-T., Vuong H.-T., Pham M.-T., Ho T.-B 2009 “An experimental study on lexicalized statistical parsing for Vietnamese” KSE 2009 The 1st International Conference on Knowledge and Systems Engineering [8] Le-Hong, P., T M H Nguyen, and A Roussanaly, "Vietnamese parsing with an automatically extracted tree-adjoining grammar", Proceedings of IEEERIVF International Conference, Ho Chi Minh City, Vietnam, IEEE, pp 91 96, 02/2012 [9] M Collins 2003 “Head-driven statistical models for natural language parsing” Computational Linguistics, 29(4):589–637 [10] D McClosky, E Charniak, and M Johnson 2006 “Effective self-training for parsing” In NAACL [11] Richard Socher, John Bauer, Christopher D Manning, Andrew Y Ng 2013 “Parsing with Compositional Vector Grammars” In Proceedings of the ACL [12] Slav Petrov, Leon Barrett, Romain Thibaux, Dan Klein 2006 “Learning Accurate, Compact, and Interpretable Tree Annotation” In Proceedings of ACL Lê Quang Thắng – CNTT.KH.2012B 63 [13] Yue Zhang and Stephen Clark “Transition-Based Parsing of the Chinese Treebank using a Global Discriminative Model” In proceedings of IWPT 2009 Paris, France October [14] Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang and Jingbo Zhu “Fast and Accurate Shift-Reduce Constituent Parsing” In proceedings of ACL 2013 Sophia, Bulgaria August [15] Michael Collins 2002 “Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms” In proceedings of EMNLP, pages 1-8, Philadelphia, USA, July [16] Website: http://vlsp.vietlp.org:8080/ [17] Gorka Elordieta, “An overview of theories of the syntax-phonology interface” [18] Nguyen Thi Thu Trang, Christophe D’ALESSANDRO, Albert RILLIARD, TRAN Do Dat, “HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation”, In proceeding of InterSpeech 2013 [19] Adam Pauls and Dan Klein 2009 “HierarchicalSearch for Parsing” In Proceedings of Human LanguageTechnologies: The 2009 Annual Conferenceof the North American Chapter of the Associationfor Computational Linguistics, pages 557–565,Boulder, Colorado, June Association for ComputationalLinguistics [20] Kenji Sagae and Alon Lavie, 2005 Proceedings of theNinth International Workshop on Parsing Technology,chapter “A Classifier-Based Parser with LinearRun-Time Complexity”, pages 125–132 Associationfor Computational Linguistics [21] Kenji Sagae and Alon Lavie 2006 “A Best-First ProbabilisticShift-Reduce Parser” In Proceedings of theCOLING/ACL 2006 Main Conference Poster Sessions,pages 691–698, Sydney, Australia, July Associationfor Computational Linguistics [22] Kai Zhao, James Cross, and Liang Huang 2013 “OptimalIncremental Parsing via Best-First DynamicProgramming” In Proceedings of the 2013 Conferenceon Empirical Methods in Natural LanguageProcessing, pages 758–768, Seattle, Washington,USA, October Association for Computational Linguistics [23] David Hall, Greg Durrett, and Dan Klein 2014 “LessGrammar, More Features” In Proceedings of the52nd Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers), pages228–237, Baltimore, Maryland, June Associationfor Computational Linguistics [24] Liang Huang and Kenji Sagae 2010 “Dynamic Programmingfor LinearTime Incremental Parsing” InProceedings of the 48th Annual Meeting of the Lê Quang Thắng – CNTT.KH.2012B 64 Associationfor Computational Linguistics, pages 1077–1086, Uppsala, Sweden, July Association for Computational Linguistics [25] NGUYEN Thi Thu Trang “HMM-based Vietnamese Text-To-Speech: Prosodic phrasing modeling, Corpus Design, System Design and Evaluation” PhD thesis Université Paris Sud France 2015 [26] NGUYEN Thi Thu Trang, RILLIARD Albert, TRAN Do Dat and D’Alessdanro Christophe “Prosodic phrasing modeling for Vietnamese TTS using syntactic information” In Proceedings of INTERSPEECH, pages 2332- 2336, ISSN:1990-9770 September, 2014 Lê Quang Thắng – CNTT.KH.2012B 65 ... trò phân tích cú pháp tổng hợp tiếng nói Trong số hệ thống ứng dụng phân tích cú pháp nhiều nhất, kể đến tổng hợp tiếng nói Tổng hợp tiếng trình chuyển đổi từ văn sang tín hiệu tiếng nói tương... đến toán tổng hợp tiếng nói, phân tíchcú pháp yếu tố có ảnh hưởng lớn đến việc đưa thông tin vềngữ âm ngữ điệu cho tiếng nói tổng hợp, qua ảnh hưởng đến nhiều đếnchất lượng tổng hợp tiếng nói theo... tình hình nghiên cứu phân tích cú pháp cho tiếng Việt Chương 3chủ yếu tập trung nói hệ thống phân tích cú pháp luận văn, dựa tảng phương pháp phân tích cú pháp Shift-Reduce kết hợp với thuật toán

Ngày đăng: 26/07/2017, 21:04

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w