Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
2,23 MB
Nội dung
LỜI CAM ĐOAN Tôi – Lê Quang Thắng – xin cam kết Luận văn tốt nghiệp công trình nghiên cứu thân hướng dẫn PGS.TS Trần Đỗ Đạt, Viện nghiên cứu quốc tế MICA, trường Đại học Bách Khoa Hà Nội Các kết nên Luận văn tốt nghiệp trung thực, không chép toàn văn công trình khác Hà Nội, ngày 04 tháng 09 năm 2014 Học viên thực luận văn Lê Quang Thắng LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin Truyền thông Các thầy cô trang bị cho em kiến thức quý báu thời gian em học tập nghiên cứu trường Em xin gửi lời cảm ơn đặc biệt đến PGS.TS Trần Đỗ Đạt Thầy người kiên trì dẫn tận tình cho em kinh nghiệm quý báu suốt trình làm luận văn sống sau Đồng thời em xin gửi lời cảm ơn chân thành đến GS.TS Miyao Yusuke tất người Miyao lab, thuộc viện công nghệ thông tin quốc gia Nhật Bản giúp đỡ em nhiều việc thực nghiên cứu luận văn Em cảm ơn PGS.TS Lê Đình Duy, TS Nguyễn Văn Kiên, TS Trần Minh Quang anh chị nghiên cứu sinh, thuộc viện công nghệ thông tin quốc gia Nhật Bản chia sẻ với em kinh nghiệm quý báu việc làm nghiên cứu, giúp em hoàn thành luận văn cách tốt Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè… Những người bên cạnh em tận giây phút cuối MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii LỜI NÓI ĐẦU ii Danh mục bảng luận văn Danh mục hình luận văn CHƢƠNG MỞ ĐẦU 1.1 Bài toán phântíchcúpháp 1.2 Vai trò phântíchcúpháptổnghợptiếngnói 1.3 Mục tiêu nội dung luận văn CHƢƠNG CÁC NGHIÊN CỨU TỔNG QUAN VỀ PHÂNTÍCHCÚPHÁP 2.1 Hướng tiếp cận sử dụng Treebank cho phântíchcúpháp 2.2 Nhị phân hóa tập liệu Treebank 2.3 Hiện trạng hướng nghiên cứu cho phântíchcúpháp 10 2.3.1 Mô hình xác suất PCFG 10 2.3.2 Các mô hình Generative 10 2.3.3 Các mô hình Discriminative 11 2.3.4 Thuật toán perceptron cấu trúc 12 2.4 Các nghiên cứu phântíchcúpháptiếngViệt 14 CHƢƠNG HỆ THỐNG PHÂNTÍCHCÚPHÁP SHIFT-REDUCE 15 3.1 Lý thuyết sở hệ thống phântích shift-reduce 15 3.1.1 Khái niệm state action phântích shift-reduce 15 3.1.2 Quá trình phântíchcúpháp shift-reduce 18 3.1.3 Huấn luyện hệ thống phântích shift-reduce sử dụng thuật toán Perceptron cấu trúc 21 3.1.4 Bài toán tìm kiếm hệ thống phântích shift-reduce 26 3.2 Hệ thống phântích shift-reduce sử dụng thuật toán best first search(BFS) 27 3.2.1 Các nghiên cứu trước BFS cho phântíchcúpháp shift-reduce 27 3.2.2 Hệ thống phântíchcúpháp shift-reduce sử dụng BFS luận văn 28 3.2.3 Vấn đề trọng số âm cách giải 29 3.2.4 Thuật toán quy hoạch động cho phântích shift-reduce 30 3.3 Đánh giá hiệu hệ thống phântích shift-reduce sử dụng BFS 33 CHƢƠNG SỬ DỤNG THUẬT TOÁN A* CHO HỆ THỐNG PHÂNTÍCH SHIFT-REDUCE 38 4.1 Vấn đề hệ thống phântích shift-reduce với tìm kiếm BFS 38 4.2 Bộ đặc trưng sử dụng thông tin bề mặt 39 4.3 Sử dụng ước lượng A* để tăng tốc độ phântích hệ thống 41 4.3.1 Phép chiếu GP (Grammar Projection) 44 4.3.2 Phép chiếu LF (Less Feature) 45 4.3.3 Phép chiếu kết hợp GP LF 46 CHƢƠNG ĐÁNH GIÁ VÀ THỬ NGHIỆM HỆ THỐNG 48 5.1 Chuẩn bị thí nghiệm 48 5.2 Kết thí nghiệm với hệ thống phântíchcúpháp 51 5.3 Kết thí nghiệm với hệ thống tổnghợptiếngnói 56 i Tài liệu tham khảo 63 LỜI NÓI ĐẦU Tổnghợptiếngnói (TTS – text to speech) tiến trình tạo giọng nói nhântạo người từ đầu vào văn Đây lĩnh vực nghiên cứu có tính ứng dụng thực tiễn cao nên quan tâm giới Việt Nam Ứng dụng củatổng hợptiếngnói dễ dàng thấy nhiều hệ thống, hệ thống hỗ trợđọc văn cho người khuyết tật, hệ thống trả lời tự động tổng đài hayrobot, hệ thống đường phương tiện vận tải Đối với hệ thốngtổng hợptiếng nói, hai tiêu chí quan trọng để đánh giá chất lượng tiếng nóiđược tạo mức độ tự nhiên mức độ dễ nghe Nếu mức độ tự nhiên đểthể tương đồng giọng nóitổnghợp giọng nói tự nhiên người, thìmức độ dễ nghe lại đánh giá mức độ người nghe hiểu tiếngnói tổnghợp Một hệ thống tổnghợp tốt phải cân tốt hai tính chất này.Trong số vấn đề liên quan đến toán tổnghợptiếng nói, phân tíchcú pháp yếu tố có ảnh hưởng lớn đến việc đưa thông tin vềngữ âm ngữ điệu cho tiếngnóitổng hợp, qua ảnh hưởng đến nhiều đếnchất lượng tổnghợptiếngnói theo hai tiêu chí đánh giá Tuy nhiên, phạm vi nghiên cứu mình, người làm luận văn nhận thấy việc áp dụng kết phântíchcúpháptiếngViệt vào hệ thống tổnghợptiếngnói hạn chế[1][2][6][7][8] Do hướng lựa chọn nghiên cứu xây dựng nên hệ thống phântíchcúpháptiếngViệt có hiệu cao để cải thiện chất lượng hệ thống tổnghợptiếngViệt để áp dụng cho hệ thống tổnghợptiếngnóitiếngViệt hướng hứa hẹn vàcó tính ứng dụng cao ii Danh mục bảng luận văn Bảng 3-1 Bộ đặc trưng giản lược Sagae (2006) 24 Bảng 3-2 Bộ đặc trưng Baseline Zhang Clark (2009) 25 Bảng 3-3 Kết thử nghiệm hệ thống phântíchcúpháp BFS-DP Shift-Reduce luận văn section 24 tập liệu Penn Treebank 35 Bảng 4-1 Bộ đặc trưng bề mặt đề xuất người làm luận văn dựa lý thuyết thông tin bề mặt phântíchcúpháp Hall (2014) 41 Bảng 4-2 Ví dụ minh họa trọng số đặc trưng phép chiếu 44 Bảng 4-3 Danh sách đặc trưng bị bỏ qua phép chiếu LF 46 Bảng 5-1 Luật xác định từ trung tâm tiếngViệt 50 Bảng 5-2 Kết thí nghiệm cuối section 24 Penn Treebank 52 Bảng 5-3 Kết cuối thí nghiệm section 23 Penn Treebank 55 Bảng 5-4 Kết thí nghiệm với phântíchcúpháptiếngViệt 56 Bảng 5-5 Kết mô hình dự đoán ngắt nghỉ sử dụng luật với hai liệu phântíchcúpháp thủ công tự động 57 Bảng 5-6 Kết mô hình dự đoán ngắt nghỉ sử dụng thông tin syntactic-block, syntactic-link PoS 58 Lê Quang Thắng – CNTT.KH.2012B Danh mục hình luận văn Hình 1-1 Minh họa cúpháp cho câu văn Hình 2-1 Ví dụ minh họa nhị phân LB Hình 2-2 Ví dụ minh họa nhị phân RB Hình 2-3 Ví dụ minh họa nhị phân HB Hình 3-1 Ví dụ minh họa phântích shift-reduce: trạng thái thứ không 19 Hình 3-2 Ví dụ minh họa phântích shift-reduce: trạng thái thứ 19 Hình 3-3 Ví dụ minh họa phântích shift-reduce: trạng thái thứ hai 19 Hình 3-4 Ví dụ minh họa phântích shift-reduce: trạng thái thứ ba 20 Hình 3-5 Ví dụ minh họa phântích shift-reduce: trạng thái thứ tư 20 Hình 3-6 Ví dụ minh họa phântích shift-reduce: trạng thái thứ năm 20 Hình 3-7 Ví dụ minh họa phântích shift-reduce: trạng thái cuối 21 Hình 3-8 Biểu thức suy diễn action hệ thống phântíchcúpháp Shift-Reduce luận văn 33 Hình 3-9 Biểu đồ so sánh số lượng trung bình state phải xét duyệt qua hai mô hình Perceptron Maxent 36 Hình 4-1 Ví dụ đơn giản việc kết hợp hai state p q sử dụng action Reduce 38 Hình 4-2 Ví dụ minh họa thành phần lý thuyết thông tin bề mặt Hall (2014) 39 Hình 4-3 Ví dụ minh họa số đặc trưng sau thực phép chiếu GP 45 Hình 4-4 Ví dụ minh họa số đặc trưng sau thực phép chiếu LF 45 Hình 5-1 So sánh thời gian phântích loại ước lượng A* khác 52 Hình 5-2 So sánh thời gian phântích thời gian phântích A* với thuật toán BeamSearch 54 Hình 5-3 Kết thí nghiệm cảm thụ so sánh hai hệ thống T1 T2 60 Lê Quang Thắng – CNTT.KH.2012B CHƢƠNG MỞ ĐẦU 1.1 Bài toán phântíchcúphápPhântíchcú pháptừ lâu biết đến toán quan trọng ngành xử lý ngôn ngữ tự nhiên Mục đích phântíchcúpháp cung cấp thông tin ngữ pháp câu văn bản, thường xác định dạng Hình 1-1 Trong nhiều nghiên cứu giới, phântíchcúpháp ứng dụng rộng rãi hệ thống cao dịch máy dự động, tóm tắt văn bản, trích rút thông tin, hệ thống hiểu ngôn ngữ tự nhiên.Tuy nhiên, nhập nhằng mặt kết cộng với độ phức tạp cao làm cho toán trở nên thử thách Đặc biệt với tiếng Việt, hạn chế mặt tốc độ lẫn độ xác hệ thống phântíchcúpháptiếngViệt khiến cho hệ thống phântíchcúpháp áp dụng vào thực tế Hình 1-1 Minh họa cúpháp cho câu văn 1.2 Vai trò phântíchcúpháptổnghợptiếngnóiTrong số hệ thống ứng dụng phântíchcúpháp nhiều nhất, kể đến tổnghợptiếngnóiTổnghợptiếng trình chuyển đổi từ văn sang tín hiệu tiếngnói tương ứng, sử dụng nhiều thực tế Chất lượng hệ thống tổnghợptiếng phụ thuộc vào nhiều yếu tố: độ tự nhiên, độ dễ nghe độ truyền Lê Quang Thắng – CNTT.KH.2012B cảm… Do đó, việc nghiên cứu thành phần ngữ pháp câu văn hứa hẹn việc tăng chất lượng tổnghợptiếngnóiTrong giới hạn hiểu biết người làm luận văn, liệt kê số nghiên cứu phổ biến giới việc áp dụng phântíchcúpháp vào tổnghợptiếngnói (đặc biệt cho tiếng Việt) sau: - Tạo ngữ điệu (prosodic hierarchy): ứng dụng phổ biến cúpháptổnghợptiếngnói việc tạo ngữ điệu từ cúpháp Dựa vào đó, hệ thống tổnghợptiếngnói biết cách ngắt nghỉ hợp lý Trên giới việc nghiên cứu để chuyển từ cúpháp sang ngữ điệu phát triển từ lâu đạt số kết định.[17] Lê Quang Thắng – CNTT.KH.2012B - Một số hệ thống tổnghợptiếngnói khác giới sử dụng phương pháp học máy với đặc trưng thông tin trích rút từ ngữ pháp câu văn đạt kết khả quan.[18] - Các thông tin mặt cấu trúc câu cung cấp từ ngữ pháp áp dụng vào phương pháptổnghợp ghép nối đơn vị âm không đồng góp phần làm tăng hiệu chất lượng tổnghợptiếngnóitiếng Việt.[5][2] - Ngoài ra, nghiên cứu khác tiếng Việt, cúpháp cung cấp thông từ trung tâm giúp hệ thống tổnghợptiếng biết cách đặt trọng âm vào vị trí.[18] 1.3 Mục tiêu nội dung luận văn Luận văn tập trung hướng tới xây dựng phântíchcúpháptiếngViệt để qua áp dụng làm nâng cao chất lượng hệ thống tổnghợptiếngnói Hệ thống phântíchcúpháptiếngViệt phải thỏa mãn hai điều kiện: độ xác cao tốc độ phântích đủ nhanh để vận hành hệ thống thực Để làm điều đó, luận văn khảo sát qua loạt nghiên cứu giới trước phân tích, lựa chọn hướng phát triển thích hợp cho nghiên cứu đồng thời trình bày số ý tưởng cải tiến chất lượng phântíchcúpháptiếngViệt Về mặt nội dung chính, luận văn chia thành chương: Chương 2sẽ trình bày số hướng nghiên cứu tổng quan giới phântíchcú pháp, phương pháp mô hình sử dụng cho phântíchcúpháp Gần cuối chương có đề cập đến thuật toán Perceptron cấu trúc, Lê Quang Thắng – CNTT.KH.2012B thuật toán học máy mạnh cho phântíchcúphápnói riêng xử lý ngôn ngữ tự nhiên nói chung, thuật toán học máy luận văn sử dụng cho hệ thống phântíchcúpháptiếngViệt Cuối chương số tóm tắt khái quát tình hình nghiên cứu phântíchcúpháp cho tiếngViệt Chương 3chủ yếu tập trung nói hệ thống phântíchcúpháp luận văn, dựa tảng phương phápphântíchcúpháp Shift-Reduce kết hợp với thuật toán học máy Perceptron cấu trúc Zhu (2013)[14] Trong chương này, luận văn trình bày cách thức để giải toán tìm kiếm xác dựa thuật toán Best-First-Search (BFS) thay phải sử dụng giải thuật tìm kiếm không xác Beam Search Zhu Cuối chương số thí nghiệm để đánh giá độ hiệu hệ thống so với hệ thống phântíchcúpháp Shift-Reduce sử dụng giải thuật BFS nghiên cứu trước Chương 4là chương mô tả ý tưởng đề xuất luận văn dành cho hệ thống chương nhằm tăng tốc độ độ xác hệ thống Đầu tiên việc đề xuất sử dụng đặc trưng dành cho phântíchcúpháp Shift-Reduce để nhằm làm giảm độ phức tạp thuật toán mà không bị mát độ xác Thứ hai ý tưởng ước lượng A* để giúp tốc độ hệ thống tăng lên gấp nhiều lần đảm bảo tối ưu mặt tìm kiếm Chương chương đánh giá thực nghiệm, bao gồm loại thí nghiệm: thí nghiệm hệ thống phântíchcúpháp liệu tiếng Anh, thí nghiệm hệ thống liệu tiếngViệt cuối thí nghiệm đánh giá độ ảnh hưởng hệ thống phântíchcúpháp luận văn hệ thống tổnghợptiếngnóitiếngViệt Cuối kết luận tài liệu tham khảo Lê Quang Thắng – CNTT.KH.2012B WHVP trái sang phải V UCP trái sang phải Không có thứ tự ưu tiên nhãn Phần thí nghiệm liên quan đến tổnghợptiếngnóitiếng Việt: thí nghiệm để chứng minh hiệu hệ thống phântíchcúpháp A*SR, luận văn thực số thí nghiệm nhỏ thấy độ ảnh hưởng kết phântíchcúpháp hệ thống A*SR lên hệ thống tổnghợptiếngnóitiếngViệt 5.2 Kết thí nghiệm với hệ thống phântíchcúpháp Độ ảnh hƣởng ƣớc lƣợng A*:Hình 5-1 biểu đồ minh họa độ ảnh hưởng ước lượng A* khác lên hệ thống phântíchcúpháp Shift-Reduce mặt tốc độ trung bình độ dài câu văn đầu vào Trên thực tế, mặt chất lượng tìm kiếm, phép chiếu LF tốt so với phép chiếu GP Phép chiếu LF bỏ qua 92,5% số lượng state phải xét so với thuật toán tìm kiếm BFS thuần, số với phép chiếu GP 75% Tuy nhiên, việc tính toán ước lượng A* bẳng phép chiếu LF thực nghiệm lại tốn thời gian phép chiếu GP nên lại thời gian phântích thuật toán A* sử dụng phép chiếu LF chậm Phép chiếu HP kết hợp ưu điểm hai phép chiếu GP LF: chất lượng tìm kiếm tốt tốc độ tính toán ước lượng nhanh, hiển nhiên cho kết tốt mặt thời gian Lê Quang Thắng – CNTT.KH.2012B 51 Hình 5-1 So sánh thời gian phântích loại ƣớc lƣợng A* khác Thử nghiệm tốc độ độ xác:kết thực nghiệm section 24 tập liệu PennTreebank báo cáo đầy đủ Bảng 5-2 Chúng ta thấy hệ thống phântíchcúpháp BeamSearch sử dụng đặc trưng thông tin bề mặt luận văn có độ xác tốt, gần tương đương với đặc trưng Baseline phức tạp Zhang Clark (2009), đặc biệt sử dụng thêm thuật toán quy hoạch động Điều gợi ý đặc trưng bề mặt giúp nâng cao số lượng state tương đương xác nhập lại với nhau, qua mở rộng không gian tìm kiếm cho thuật toán BeamSearch sử dụng thêm quy hoạch động (DP) Bảng 5-2 Kết thí nghiệm cuối section 24 Penn Treebank Hệ thống F-score b = 16 Bề mặt Baseline 89.1 F-score Tốc độ (DP) (câu/s) 90.1 34.6 Lê Quang Thắng – CNTT.KH.2012B 52 F-score 88.6 F-score Tốc độ (DP) (câu/s) 89.9 31.9 b = 32 89.6 89.9 20.0 89.3 90.2 17.0 b = 64 89.7 90.2 10.6 89.6 90.2 9.1 A* - - - - 90.7 13.6 BFS - - - - 90.7 1.1 Tuy nhiên, vấn đề mà muốn đề cập hệ thống phântích sử dụng tìm kiếm xác luận văn đạt độ xác cao (90.7 Fscore), cao nhiều so với hệ thống Shift-Reduce sử dụng BeamSearch kể với bề rộng beam lớn = 64 (90.2 F-score), qua cho thấy việc sử dụng tìm kiếm không xác gây ảnh hưởng lớn đến mức đến độ xác hệ thống phântíchcúpháp Mặc hệ thống sử dụng thuật toán BFS có tốc độ phântích thấp (1.12 câu/giây), với trợ giúp ước lượng A*, mà cụ thể phép chiếu kết hợp HP, hệ thống đạt tốc độ phântích khả quan: 13.6 câu/giây, chí nhỉnh so với thuật toán BeamSearch với bề rộng beam = 64 (9.1 câu/giây, minh họa tốc độ trung bình độ dài câu Hình 5-2) Tốc độ độ xác cho thấy kết khả quan, chứng minh hệ thống luận văn hoàn toàn áp dụng cho toán thực tế Lê Quang Thắng – CNTT.KH.2012B 53 Hình 5-2 So sánh thời gian phântích thời gian phântích A* với thuật toán BeamSearch Thí nghiệm cuối cùng: kết thí nghiệm cuối section 23 tập PennTreebank thể Bảng 5-3 Các hệ thống phântíchcúpháp bảng kết luận văn chia làm nhóm: Nhóm hệ thống phântíchcúpháp Shift-Reduce đóng, nghĩa sử dụng liệu section 2-21 PennTreebank để huấn luyện cho phântíchcúpháp Ngoài không sử dụng thêm thông tin phụ trợ bên khác Nhóm hệ thống phântíchcúpháp đóng khác: bao gồm hệ thống phântíchcúpháp Shift-Reduce học thống kê tập liệu section 2-21 PennTreebank Nhóm hệ thống phântíchcúpháp nâng cao: nhóm hệ thống phântíchcúpháp sử dụng phương pháp nâng cao tái xếp hạng số kỹ thuật học máy bán giám sát khác, đặc biệt có sử dụng nguồn ngữ liệu khác PennTreebank để hỗ trợ cho hệ thống phântíchcúpháp Lê Quang Thắng – CNTT.KH.2012B 54 Như thấy bảng kết quả, số hệ thống phântíchcúpháp thuộc hai hệ đóng, hệ thống phântíchcúpháp A* với đặc trưng bề mặt luận văn đạt điểm số F-score cao 91.1, vượt qua hầu hết hệ thống tiếng khác, có hệ thống phântíchcúpháp Berkeley Stanford Các hệ thống phântíchcúpháp nâng cao có điểm số cao vượt so với hệ thống luận văn Tuy nhiên, có điều cần ghi nhớ hệ thống luận văn hoàn toàn sử dụng kỹ thuật nâng cao hệ thống họ để cải thiện độ xác Về mặt tốc độ, hệ thống luận văn tỏ vượt trội đem so với hệ thống khác Hệ thống vượt qua hệ thống luận văn mặt tốc độ hệ thống phântíchcúpháp Shift-Reduce sử dụng BeamSearch Zhu (2013)[14] Tuy nhiên, hệ thống cài đặt ngôn ngữ C++, hệ thống luận văn cài Java nên so sánh không mang tính hiệu cao Bản thân người làm luận văn cài đặt lại hệ thống Zhu (2013) java kết thể Bảng 5-2 Bảng 5-3 Kết cuối thí nghiệm section 23 Penn Treebank Recal Precision Fscore Tốc độ Hệ thống l ShiftReduce (đóng) khác (đóng) (câu/s) Sagae (2005)[20] 86.0 86.1 86.0 3.7 Sagae(2006)[21] 88.1 87.8 87.9 2.2 Zhu (2013)[14] 90.2 90.7 90.4 93.4 Bề mặt (b = 64, DP) 90.2 90.6 90.4 8.4 Bề mặt (A*) 90.9 91.2 91.1 13.6 Berkeley (2007)[12] 90.1 90.3 90.2 6.1 Stanford (2013) – RNN[11] 90.3 90.7 90.5 3.3 Hall (2014) – CRF[23] 89.0 89.5 89.3 0.7 Lê Quang Thắng – CNTT.KH.2012B 55 Nâng cao Charniak (2005) 91.2 91.8 91.5 2.1 McClosky (2006)[10] 92.2 92.6 92.4 1.2 Zhu (2013) bán giám sát 91.1 91.5 91.3 47.6 Kết thí nghiệm với phântíchcúpháptiếngViệt thể Bảng 5-4 Bộ liệu VietTreebank so với PennTreebank nhỏ nhiều (10000 câu so với 40000 câu!!!), nên hiệu hệ thống luận văn có khác biệt so với thí nghiệm bên tiếng Anh Kết cuối cùng, hệ thống luận văn đạt độ xác với điểm F-score 81.2%, tốc độ phântích 35.3 câu/giây, hiệu nói trội nhiều so với hai hệ thống phântíchcúpháptiếngViệt lại mặt hiệu Bảng 5-4 Kết thí nghiệm với phântíchcúpháptiếngViệt Hệ thống F-score Tốc độ Hệ thống A*SR 81.2% 35.3 câu/ giây Hệ thống VLSP 78% câu/ giây Hệ thống Berkeley 72.1% 5.4 câu/ giây 5.3 Kết thí nghiệm với hệ thống tổnghợptiếngnói Với vấn đề tíchhợp hệ thống phântíchcúpháp vào hệ thống tổnghợptiếng nói, luận văn tập trung vào toán dự đoán ngắt nghỉ để cải thiện chất lượng tiếngnóitổnghợp Hệ thống tổnghợp HMM công bố lần đầu hội nghị InterSpeech 2014 [26] hệ thống đưa giải pháp cho toán Hệ thống tổnghợptiếng sử dụng luật thiết kế dựa thông tin cúphápphântích thủ công với độ xác 100% Kết hệ thống dự đoán vị trí ngắt nghỉ xác (precision) tới 91.0%, với độ hồi Lê Quang Thắng – CNTT.KH.2012B 56 tưởng (recall) 37.1% Trong luận án tiến sĩ [25], tác giả Nguyễn Thị Thu Trang sử dụng hệ thống luận văn để thử nghiệm mô hình dự đoán ngắt nghỉ với phântíchcúpháp tự động kết thể Bảng 5-5 Hệ thống đạt độ xác 84.2% với độ hồi tưởng 26.1%, nghĩa thấp không nhiều so với phântíchcúpháp tay Bảng 5-5 Kết mô hình dự đoán ngắt nghỉ sử dụng luật với hai liệu phântíchcúpháp thủ công tự động Ngữ liệu Precision Recall F-score VNSP 91.0% 37.1% 52.7% 84.2% 26.1% 39.9% (phân tích thủ công) VDTO (phân tích tự động) Tuy nhiên, từ kết thử nghiệm thấy độ hồi tưởng việc dự đoán ngắt nghỉ tương đối thấp Thế nên, tác giả Nguyễn Thị Thu Trang đề xuất việc sử dụng mô hình định J48 cho việc dự đoán ngắt nghỉ với thông tin đặc trưng sau: Syntactic-block (khối cú pháp): thông tin tạo từ việc chia câu văn cách từ nút cao cúpháp tương ứng Việc phân chia dừng lại câu văn chia thành phrase mà độ dài bao phủ phrase câu nhỏ số lượng n định Sau hệ thống sử dụng phrase để làm đặc trưng dự đoán ngắt nghỉ Như luận án mô tả n=10 cho kết tối ưu Syntactic-link (liên kết cú pháp): thông tin liên kết nút cú pháp, trích rút dựa vị trí tương quan chúng Lê Quang Thắng – CNTT.KH.2012B 57 cúpháp Đặc trưng trình bày rõ luận án [25] nên luận văn không trình bày PoS: nhãn từ loại từ câu văn đầu vào Kết mô hình dự đoán ngắt nghỉ sử dụng thông tin đặc trưng kể thể Bảng 5-6 Có thể thấy rõ đặc trưng cải thiện độ xác độ hồi tưởng việc dự đoán ngắt nghỉ cách đáng kể, đặc biệt kết hợp chúng lại với nhau, hệ thống đạt độ xác 89.0% độ hồi tưởng 74.6% với liệu 10-fold phương pháp đo cross validation Ngoài thử nghiệm tập liệu thử nghiệm VDTO, tập liệu phântíchcúpháp tự động hệ thống luận văn, độ xác độ hồi tưởng 87.6% 75.9% Bảng 5-6 Kết mô hình dự đoán ngắt nghỉ sử dụng thông tin syntactic-block, syntacticlink PoS Đặc trƣng Mô hình Tập thử Precision Recall F-score 83.4% 71.1% 76.8% Syntactic-link 65.4% 43.7% 52.6% PoS 73.4% 31.0% 43.6% Syntactic-block+link 83.4% 76.8% 80.0% Syntactic-block+PoS 87.2% 71.4% 78.6% Syntactic-block+PoS 70.6% 58.7% 61.4% Syntactic- 89.0% 74.6% 81.2% 87.6% 75.9% 81.4% nghiệm Syntactic-block Cây định J48 10-fold CV block+link+PoS Syntactic- VDTO block+link+PoS Lê Quang Thắng – CNTT.KH.2012B 58 Cuối cùng, để kiểm chứng độ ảnh hưởng kết phântíchcúpháp luận văn lên chất lượng tiếngnóitổng hợp, luận văn thực thí nghiệm cảm thụ để so sánh hai hệ thống tổng hợp: hệ thống sử dụng đặc trưng câu văn đầu vào để sinh tiếngnóitổnghợp (gọi hệ thống T1), hệ thống sử dụng thêm đặc trưng cúpháp mô tả để thêm vào phần dự đoán ngắt nghỉ (gọi hệ thống T2) Thí nghiệm thực với 20 chủ thể bao gồm 10 nam 10 nữ, tập liệu thử nghiệm bao gồm 40 câu với chiều dài tính theo số âm tiết từ 2-26 Các chủ thể nghe 40 câu với giọng đọc tổnghợp nên từhệ thống T1 T2 Kết thí nghiệm thể Hình 5-3, hệ thống T2 sử dụng hệ thống phântíchcúpháp luận văn với khả ngắt nghỉ chuẩn xác đạt độ ưu tiên 67%, cao so với hệ thống tổnghợp T1 sử dụng thông tin từ câu văn gốc Lê Quang Thắng – CNTT.KH.2012B 59 Hình 5-3 Kết thí nghiệm cảm thụ so sánh hai hệ thống T1 T2 Lê Quang Thắng – CNTT.KH.2012B 60 Kết luận Luận văn đặt mục tiêu xây dựng hệ thống phântíchcúpháp có tốc độ độ xác cao để áp dụng cho hệ thống tổnghợptiếngnóitiếngViệt Qua lý thuyết thực nghiệm trình bày chương, luận văn đạt số kết sau: Nghiên cứu tìm hiểu phương pháp mô hình áp dụng cho toán phântíchcúpháp giới, qua dẫn tới việc lựa chọn phương phápphântíchcúpháp shift-reduce kết hợp với mô hình Perceptron cấu trúc với độ xác cao tốc độ phântích nhanh Tìm hiểu phát triển hệ thống phântíchcúpháp Shift-Reduce huấn luyện thuật toán Perceptron cấu trúc kết hợp với thuật toán tìm kiếm BeamSearch Áp dụng giải thuật tìm kiếm BFS, lý thuyết quy hoạch động số tinh chỉnh để thực toán tìm kiếm đầy đủ cho phântích ShiftReduce Cho đến tại, hiểu biết luận văn, hệ thống luận văn hệ thống thực điều Đề xuất sử dụng đặc trưng bề mặt kết hợp với ước lượng A* để tăng tốc độ tìm kiếm cho hệ thống, giúp hệ thống đạt tới tốc độ phântích nhanh độ xác cao thuộc tốp đầu hệ thống phântíchcúpháp xác giới Tìm hiểu cách thức tíchhợpphântíchcúpháp vào tổnghợptiếngnói thông toán dự đoán vị trí ngắt nghỉ Thực số thử nghiệm đánh giá hệ thống phântíchcúpháp xây dựng độ ảnh hưởng kết phântíchcúpháp lên hệ thống chất lượng tổnghợptiếngnóitiếngViệt Tuy nhiên, thời gian có hạn nên vấn đề cần phải giải để phát triển thêm luận văn: Lê Quang Thắng – CNTT.KH.2012B 61 Hệ thống phântíchcúpháp luận văn thực tìm kiếm đầy đủ lại bị hạn chế nhiều đặc trưng sử dụng, điều khiến hệ thống thua thiệt hẳn với hệ thống phântích ShiftReduce sử dụng tìm kiếm không đầy đủ với đặc trưng phức tạp tùy ý muốn Trong tương lai, có điều kiện, người làm luận văn tiếp tục nghiên cứu cách thức lựa chọn ước lượng A* cho hệ thống tíchhợp đặc trưng Đây hứa hẹn hướng nghiên cứu thú vị Các thí nghiệm với hệ thống tổnghợptiếngnóitiếngViệt chưa thực sựđầy đủ, việc thực thêm thí nghiệm liên quan đến ngữ điệu tiếngnói dựa thông tin cúpháp mang tính thuyết phục cao Lê Quang Thắng – CNTT.KH.2012B 62 Tài liệu tham khảo [1] Lê Hồng Phương, “phân tíchcúpháptiếngViệt tin học”, khóa luận tốt nghiệp năm 2002, khoa Công Nghệ Thông Tin, trường Đại học Công Nghệ [2] Lê Quang Thắng, “phân tíchcúpháptổnghợptiếngnóitiếng Việt”, đồ án tốt nghiệp năm 2011, môn Công Nghệ Phần Mềm, khoa Công Nghệ Thông Tin, trường Đại học Bách Khoa Hà Nội [3] Michael Collins, “Head-Driven Statistical Models for Natural Language Parsing”, Comput Linguist Journal, 12/2003, volume 29, issn:0891-2017, pages 589-637, MIT Press, Cambridge, MA, USA [4] Dan Klein and Christopher D Manning 2003 “A* parsing: Fast exact Viterbi parse selection In Proceedings of the Human Language Technology Conference and the North American Association for Computational Linguistics”(HLT-NAACL) [5] Do Van Thao, Tran Do Dat, Nguyen Thi Thu Trang, “Non-uniform unit selection in Vietnamese Speech Synthesis”, In proceedings of the 2011 Symposium on Information and Communication Technology, Hanoi, October 2011 [6] Vương Hoài Thu, “Phân tíchcúpháptiếngViệt theo hướng tiếp cận thống kê”, khóa luận tốt nghiệp năm 2009, khoa Công Nghệ Thông Tin, trường Đại học Công Nghệ [7] Le A.-C., Nguyen P.-T., Vuong H.-T., Pham M.-T., Ho T.-B 2009 “An experimental study on lexicalized statistical parsing for Vietnamese” KSE 2009 The 1st International Conference on Knowledge and Systems Engineering [8] Le-Hong, P., T M H Nguyen, and A Roussanaly, "Vietnamese parsing with an automatically extracted tree-adjoining grammar", Proceedings of IEEERIVF International Conference, Ho Chi Minh City, Vietnam, IEEE, pp 91 96, 02/2012 [9] M Collins 2003 “Head-driven statistical models for natural language parsing” Computational Linguistics, 29(4):589–637 [10] D McClosky, E Charniak, and M Johnson 2006 “Effective self-training for parsing” In NAACL [11] Richard Socher, John Bauer, Christopher D Manning, Andrew Y Ng 2013 “Parsing with Compositional Vector Grammars” In Proceedings of the ACL [12] Slav Petrov, Leon Barrett, Romain Thibaux, Dan Klein 2006 “Learning Accurate, Compact, and Interpretable Tree Annotation” In Proceedings of ACL Lê Quang Thắng – CNTT.KH.2012B 63 [13] Yue Zhang and Stephen Clark “Transition-Based Parsing of the Chinese Treebank using a Global Discriminative Model” In proceedings of IWPT 2009 Paris, France October [14] Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang and Jingbo Zhu “Fast and Accurate Shift-Reduce Constituent Parsing” In proceedings of ACL 2013 Sophia, Bulgaria August [15] Michael Collins 2002 “Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms” In proceedings of EMNLP, pages 1-8, Philadelphia, USA, July [16] Website: http://vlsp.vietlp.org:8080/ [17] Gorka Elordieta, “An overview of theories of the syntax-phonology interface” [18] Nguyen Thi Thu Trang, Christophe D’ALESSANDRO, Albert RILLIARD, TRAN Do Dat, “HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation”, In proceeding of InterSpeech 2013 [19] Adam Pauls and Dan Klein 2009 “HierarchicalSearch for Parsing” In Proceedings of Human LanguageTechnologies: The 2009 Annual Conferenceof the North American Chapter of the Associationfor Computational Linguistics, pages 557–565,Boulder, Colorado, June Association for ComputationalLinguistics [20] Kenji Sagae and Alon Lavie, 2005 Proceedings of theNinth International Workshop on Parsing Technology,chapter “A Classifier-Based Parser with LinearRun-Time Complexity”, pages 125–132 Associationfor Computational Linguistics [21] Kenji Sagae and Alon Lavie 2006 “A Best-First ProbabilisticShift-Reduce Parser” In Proceedings of theCOLING/ACL 2006 Main Conference Poster Sessions,pages 691–698, Sydney, Australia, July Associationfor Computational Linguistics [22] Kai Zhao, James Cross, and Liang Huang 2013 “OptimalIncremental Parsing via Best-First DynamicProgramming” In Proceedings of the 2013 Conferenceon Empirical Methods in Natural LanguageProcessing, pages 758–768, Seattle, Washington,USA, October Association for Computational Linguistics [23] David Hall, Greg Durrett, and Dan Klein 2014 “LessGrammar, More Features” In Proceedings of the52nd Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers), pages228–237, Baltimore, Maryland, June Associationfor Computational Linguistics [24] Liang Huang and Kenji Sagae 2010 “Dynamic Programmingfor LinearTime Incremental Parsing” InProceedings of the 48th Annual Meeting of the Lê Quang Thắng – CNTT.KH.2012B 64 Associationfor Computational Linguistics, pages 1077–1086, Uppsala, Sweden, July Association for Computational Linguistics [25] NGUYEN Thi Thu Trang “HMM-based Vietnamese Text-To-Speech: Prosodic phrasing modeling, Corpus Design, System Design and Evaluation” PhD thesis Université Paris Sud France 2015 [26] NGUYEN Thi Thu Trang, RILLIARD Albert, TRAN Do Dat and D’Alessdanro Christophe “Prosodic phrasing modeling for Vietnamese TTS using syntactic information” In Proceedings of INTERSPEECH, pages 2332- 2336, ISSN:1990-9770 September, 2014 Lê Quang Thắng – CNTT.KH.2012B 65 ... trò phân tích cú pháp tổng hợp tiếng nói Trong số hệ thống ứng dụng phân tích cú pháp nhiều nhất, kể đến tổng hợp tiếng nói Tổng hợp tiếng trình chuyển đổi từ văn sang tín hiệu tiếng nói tương... đến toán tổng hợp tiếng nói, phân tíchcú pháp yếu tố có ảnh hưởng lớn đến việc đưa thông tin vềngữ âm ngữ điệu cho tiếng nói tổng hợp, qua ảnh hưởng đến nhiều đếnchất lượng tổng hợp tiếng nói theo... tình hình nghiên cứu phân tích cú pháp cho tiếng Việt Chương 3chủ yếu tập trung nói hệ thống phân tích cú pháp luận văn, dựa tảng phương pháp phân tích cú pháp Shift-Reduce kết hợp với thuật toán