Kết quả thí nghiệm với hệ thống tổng hợp tiếng nói- 123docz.net

Với vấn đề tích hợp hệ thống phân tích cú pháp vào trong hệ thống tổng hợp tiếng nói, luận văn sẽ tập trung vào bài toán dự đoán ngắt nghỉ để cải thiện chất lượng tiếng nói tổng hợp. Hệ thống tổng hợp HMM được công bố lần đầu tại hội nghị InterSpeech 2014 [26] là hệ thống đầu tiên đưa ra giải pháp cho bài toán này. Hệ thống tổng hợp tiếng này đã sử dụng các luật được thiết kế ra dựa trên các thông tin của cây cú pháp được phân tích thủ công với độ chính xác 100%. Kết quả là hệ thống dự đoán được vị trí ngắt nghỉ chính xác (precision) tới 91.0%, với độ hồi

Lê Quang Thắng – CNTT.KH.2012B 57

tưởng (recall) là 37.1%. Trong luận án tiến sĩ của mình [25], tác giả Nguyễn Thị Thu Trang đã sử dụng hệ thống của luận văn để thử nghiệm mô hình dự đoán ngắt nghỉ với phân tích cú pháp tự động và kết quả được thể hiện như trong Bảng 5-5. Hệ thống đạt độ chính xác là 84.2% với độ hồi tưởng là 26.1%, nghĩa là thấp hơn không nhiều so với phân tích cú pháp bằng tay.

Bảng 5-5 Kết quả của mô hình dự đoán ngắt nghỉ sử dụng luật với hai bộ dữ liệu phân tích cú pháp thủ công và tự động

Ngữ liệu Precision Recall F-score

VNSP (phân tích thủ công) 91.0% 37.1% 52.7% VDTO (phân tích tự động) 84.2% 26.1% 39.9%

Tuy nhiên, từ kết quả thử nghiệm trên có thể thấy là độ hồi tưởng của việc dự đoán ngắt nghỉ vẫn còn tương đối thấp. Thế nên, tác giả Nguyễn Thị Thu Trang đã đề xuất ra việc sử dụng mô hình cây quyết định J48 cho việc dự đoán ngắt nghỉ với các thông tin đặc trưng như sau:

 Syntactic-block (khối cú pháp): thông tin này được tạo ra từ việc chia một câu văn bản bằng cách đi từ nút cao nhất của cây cú pháp tương ứng. Việc phân chia sẽ dừng lại khi nào câu văn bản được chia thành các phrase mà độ dài bao phủ của các phrase đó trong câu đều nhỏ một số lượng n nhất định. Sau đó hệ thống sẽ sử dụng các phrase này để làm đặc trưng dự đoán ngắt nghỉ. Như trong luận án đã mô tả thì n=10 cho ra kết quả tối ưu nhất.

 Syntactic-link (liên kết cú pháp): là thông tin liên kết giữa các nút trong cây cú pháp, được trích rút ra dựa trên vị trí tương quan của chúng trong

Lê Quang Thắng – CNTT.KH.2012B 58

cây cú pháp. Đặc trưng này đã được trình bày rất rõ trong luận án [25] nên luận văn sẽ không trình bày ở đây nữa.

 PoS: nhãn từ loại của các từ trong câu văn bản đầu vào.

Kết quả của mô hình dự đoán ngắt nghỉ khi sử dụng thông tin đặc trưng kể trên được thể hiện như trong Bảng 5-6. Có thể thấy rất rõ là các đặc trưng này đã cải thiện độ chính xác và độ hồi tưởng của việc dự đoán ngắt nghỉ một cách rất đáng kể, đặc biệt là khi kết hợp chúng lại với nhau, hệ thống đạt được độ chính xác là 89.0% và độ hồi tưởng là 74.6% với dữ liệu 10-fold của phương pháp đo cross validation. Ngoài ra khi thử nghiệm trên tập dữ liệu thử nghiệm của VDTO, tập dữ liệu được phân tích cú pháp tự động bởi hệ thống của luận văn, thì độ chính xác và độ hồi tưởng lần lượt là 87.6% và 75.9%.

Bảng 5-6 Kết quả của mô hình dự đoán ngắt nghỉ sử dụng các thông tin về syntactic-block, syntactic- link và PoS.

Mô hình Đặc trƣng Tập thử

nghiệm

Precision Recall F-score

Cây quyết định J48 Syntactic-block 10-fold CV 83.4% 71.1% 76.8% Syntactic-link 65.4% 43.7% 52.6% PoS 73.4% 31.0% 43.6% Syntactic-block+link 83.4% 76.8% 80.0% Syntactic-block+PoS 87.2% 71.4% 78.6% Syntactic-block+PoS 70.6% 58.7% 61.4% Syntactic- block+link+PoS 89.0% 74.6% 81.2% Syntactic- block+link+PoS VDTO 87.6% 75.9% 81.4%

Lê Quang Thắng – CNTT.KH.2012B 59

Cuối cùng, để kiểm chứng độ ảnh hưởng của kết quả phân tích cú pháp của luận văn lên chất lượng tiếng nói tổng hợp, luận văn đã thực hiện một thí nghiệm cảm thụ để so sánh giữa hai hệ thống tổng hợp: một hệ thống chỉ sử dụng các đặc trưng cơ bản của câu văn bản đầu vào để sinh ra tiếng nói tổng hợp (gọi là hệ thống T1), và một hệ thống sử dụng thêm các đặc trưng cú pháp được mô tả như ở trên để thêm vào phần dự đoán ngắt nghỉ (gọi là hệ thống T2). Thí nghiệm được thực hiện với 20 chủ thể bao gồm 10 nam và 10 nữ, tập dữ liệu thử nghiệm sẽ bao gồm 40 câu với chiều dài tính theo số âm tiết từ 2-26. Các chủ thể sẽ được nghe lần lượt 40 câu này với 2 giọng đọc tổng hợp nên từhệ thống T1 và T2. Kết quả của thí nghiệm được thể hiện như trong Hình 5-3, hệ thống T2 sử dụng hệ thống phân tích cú pháp của luận văn với khả năng ngắt nghỉ chuẩn xác hơn đã đạt được độ ưu tiên là 67%, cao hơn so với hệ thống tổng hợp T1 chỉ sử dụng mỗi thông tin từ câu văn bản gốc.

Lê Quang Thắng – CNTT.KH.2012B 60

Lê Quang Thắng – CNTT.KH.2012B 61

Kết luận

Luận văn đặt ra mục tiêu của mình là xây dựng một hệ thống phân tích cú pháp có tốc độ và độ chính xác cao để áp dụng cho hệ thống tổng hợp tiếng nói tiếng Việt. Qua những lý thuyết và thực nghiệm đã trình bày trong cả 5 chương, luận văn đã đạt được một số kết quả sau:

 Nghiên cứu và tìm hiểu các phương pháp và mô hình áp dụng cho bài toán phân tích cú pháp trên thế giới, qua đó dẫn tới việc lựa chọn phương pháp phân tích cú pháp shift-reduce kết hợp với mô hình Perceptron cấu trúc với độ chính xác cao và tốc độ phân tích nhanh.

 Tìm hiểu và phát triển hệ thống phân tích cú pháp Shift-Reduce được huấn luyện bởi thuật toán Perceptron cấu trúc kết hợp với thuật toán tìm kiếm BeamSearch.

 Áp dụng giải thuật tìm kiếm BFS, lý thuyết quy hoạch động và một số tinh chỉnh để thực hiện bài toán tìm kiếm đầy đủ cho phân tích Shift- Reduce. Cho đến hiện tại, trong hiểu biết của luận văn, hệ thống của luận văn là hệ thống đầu tiên thực hiện được điều này.

 Đề xuất sử dụng bộ đặc trưng bề mặt kết hợp với ước lượng A* để tăng tốc độ tìm kiếm cho hệ thống, giúp hệ thống đạt tới tốc độ phân tích nhanh và độ chính xác cao thuộc tốp đầu các hệ thống phân tích cú pháp chính xác nhất trên thế giới.

 Tìm hiểu cách thức tích hợp phân tích cú pháp vào trong tổng hợp tiếng nói thông bài toán dự đoán vị trí ngắt nghỉ.

 Thực hiện một số thử nghiệm đánh giá hệ thống phân tích cú pháp xây dựng được cũng như độ ảnh hưởng của kết quả phân tích cú pháp lên hệ thống chất lượng tổng hợp tiếng nói tiếng Việt.

Tuy nhiên, do thời gian có hạn nên vẫn còn rất các vấn đề cần phải giải quyết để có thể phát triển thêm luận văn:

Lê Quang Thắng – CNTT.KH.2012B 62

 Hệ thống phân tích cú pháp của luận văn tuy có thể thực hiện tìm kiếm đầy đủ nhưng lại bị hạn chế rất nhiều bởi bộ đặc trưng có thể sử dụng, và điều này khiến hệ thống thua thiệt hẳn với các hệ thống phân tích Shift- Reduce sử dụng tìm kiếm không đầy đủ với các bộ đặc trưng phức tạp tùy ý muốn. Trong tương lai, nếu có điều kiện, người làm luận văn sẽ tiếp tục nghiên cứu cách thức lựa chọn ước lượng A* sao cho hệ thống có thể tích hợp bất cứ bộ đặc trưng nào. Đây hứa hẹn sẽ là một hướng nghiên cứu rất thú vị.

 Các thí nghiệm với hệ thống tổng hợp tiếng nói tiếng Việt vẫn chưa thực sựđầy đủ, việc thực hiện thêm các thí nghiệm liên quan đến ngữ điệu của tiếng nói dựa trên các thông tin cú pháp sẽ mang tính thuyết phục cao hơn.

Lê Quang Thắng – CNTT.KH.2012B 63

Tài liệu tham khảo

[1]. Lê Hồng Phương, “phân tích cú pháp tiếng Việt trong tin học”, khóa luận tốt nghiệp năm 2002, khoa Công Nghệ Thông Tin, trường Đại học Công Nghệ. [2]. Lê Quang Thắng, “phân tích cú pháp trong tổng hợp tiếng nói tiếng Việt”, đồ án tốt nghiệp năm 2011, bộ môn Công Nghệ Phần Mềm, khoa Công Nghệ Thông Tin, trường Đại học Bách Khoa Hà Nội.

[3]. Michael Collins, “Head-Driven Statistical Models for Natural Language Parsing”, Comput. Linguist Journal, 12/2003, volume 29, issn:0891-2017, pages 589-637, MIT Press, Cambridge, MA, USA.

[4]. Dan Klein and Christopher D. Manning. 2003. “A* parsing: Fast exact Viterbi parse selection. In Proceedings of the Human Language Technology Conference and the North American Association for Computational Linguistics”(HLT-NAACL).

[5]. Do Van Thao, Tran Do Dat, Nguyen Thi Thu Trang, “Non-uniform unit selection in Vietnamese Speech Synthesis”, In proceedings of the 2011 Symposium on Information and Communication Technology, Hanoi, October 2011.

[6]. Vương Hoài Thu, “Phân tích cú pháp tiếng Việt theo hướng tiếp cận thống kê”, khóa luận tốt nghiệp năm 2009, khoa Công Nghệ Thông Tin, trường Đại học Công Nghệ.

[7]. Le A.-C., Nguyen P.-T., Vuong H.-T., Pham M.-T., Ho T.-B. 2009. “An experimental study on lexicalized statistical parsing for Vietnamese”. KSE 2009 - The 1st International Conference on Knowledge and Systems Engineering.

[8]. Le-Hong, P., T M H. Nguyen, and A. Roussanaly, "Vietnamese parsing with an automatically extracted tree-adjoining grammar", Proceedings of IEEE- RIVF International Conference, Ho Chi Minh City, Vietnam, IEEE, pp. 91--96, 02/2012.

[9]. M. Collins. 2003. “Head-driven statistical models for natural language parsing”. Computational Linguistics, 29(4):589–637.

[10]. D. McClosky, E. Charniak, and M. Johnson. 2006. “Effective self-training for parsing”. In NAACL.

[11]. Richard Socher, John Bauer, Christopher D. Manning, Andrew Y. Ng. 2013. “Parsing with Compositional Vector Grammars”. In Proceedings of the ACL. [12]. Slav Petrov, Leon Barrett, Romain Thibaux, Dan Klein. 2006. “Learning. Accurate, Compact, and Interpretable Tree Annotation”. In Proceedings of ACL.

Lê Quang Thắng – CNTT.KH.2012B 64

[13]. Yue Zhang and Stephen Clark. “Transition-Based Parsing of the Chinese Treebank using a Global Discriminative Model”. In proceedings of IWPT 2009. Paris, France. October.

[14]. Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang and Jingbo Zhu. “Fast and Accurate Shift-Reduce Constituent Parsing”. In proceedings of ACL 2013. Sophia, Bulgaria. August.

[15]. Michael Collins. 2002. “Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms”. In proceedings of EMNLP, pages 1-8, Philadelphia, USA, July.

[16]. Website: http://vlsp.vietlp.org:8080/

[17]. Gorka Elordieta, “An overview of theories of the syntax-phonology interface”.

[18]. Nguyen Thi Thu Trang, Christophe D’ALESSANDRO, Albert RILLIARD, TRAN Do Dat, “HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation”, In proceeding of InterSpeech 2013.

[19]. Adam Pauls and Dan Klein. 2009. “HierarchicalSearch for Parsing”. In Proceedings of Human LanguageTechnologies: The 2009 Annual Conferenceof the North American Chapter of the Associationfor Computational Linguistics, pages 557–565,Boulder, Colorado, June. Association for ComputationalLinguistics. [20]. Kenji Sagae and Alon Lavie, 2005. Proceedings of theNinth International Workshop on Parsing Technology,chapter “A Classifier-Based Parser with LinearRun-Time Complexity”, pages 125–132. Associationfor Computational Linguistics.

[21]. Kenji Sagae and Alon Lavie. 2006. “A Best-First ProbabilisticShift-Reduce Parser”. In Proceedings of theCOLING/ACL 2006 Main Conference Poster Sessions,pages 691–698, Sydney, Australia, July. Associationfor Computational Linguistics.

[22]. Kai Zhao, James Cross, and Liang Huang. 2013. “OptimalIncremental Parsing via Best-First DynamicProgramming”. In Proceedings of the 2013 Conferenceon Empirical Methods in Natural LanguageProcessing, pages 758–768, Seattle, Washington,USA, October. Association for Computational Linguistics. [23]. David Hall, Greg Durrett, and Dan Klein. 2014. “LessGrammar, More Features”. In Proceedings of the52nd Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers), pages228–237, Baltimore, Maryland, June. Associationfor Computational Linguistics.

[24]. Liang Huang and Kenji Sagae. 2010. “Dynamic Programmingfor Linear- Time Incremental Parsing”. InProceedings of the 48th Annual Meeting of the

Lê Quang Thắng – CNTT.KH.2012B 65

Associationfor Computational Linguistics, pages 1077–1086, Uppsala, Sweden, July. Association for Computational Linguistics.

[25]. NGUYEN Thi Thu Trang. “HMM-based Vietnamese Text-To-Speech: Prosodic phrasing modeling, Corpus Design, System Design and Evaluation”. PhD thesis. Université Paris Sud. France. 2015.

[26]. NGUYEN Thi Thu Trang, RILLIARD Albert, TRAN Do Dat and D’Alessdanro Christophe. “Prosodic phrasing modeling for Vietnamese TTS using syntactic information”. In Proceedings of INTERSPEECH, pages 2332- 2336, ISSN:1990-9770. September, 2014.

Kết quả thí nghiệm với hệ thống tổng hợp tiếng nói

Phép chiếu GP (Grammar Projection)