Xử lý nhập nhằng nghĩa từ sử dụng học máy không giám sát Word sense disambiguation and induction used unsupervised machine learning NXB H : ĐHCN, 2014 Số trang 86 tr + Trần Thị Hiền Đại học Công nghệ Luận văn ThS ngành: Kỹ thuật phần mềm; Mã số: 60480103 Người hướng dẫn: TS Nguyễn Phương Thái Năm bảo vệ: 2014 Keywords: Xử lý ngôn ngữ tự nhiên; Xử lý nhập nhằng nghĩa; Phương pháp học không giám sát; Công nghệ thông tin Content Xử lý nhập nhằng ngữ nghĩa từ vấn đề nhiều nhà nghiên cứu lĩnh vực xử lý ngơn ngữ tự nhiên quan tâm đến Vì có nhiều cách tiếp cận khác để giải vấn đề xử lý nhập nhằng ngữ nghĩa chẳng hạn phương pháp dựa vào tri thức (knowledge-based methods) [1] phương pháp dựa vào kho ngữ liệu (corpus-based methods) Đối với phương pháp thứ hai, phương pháp sử dụng học có giám sát, học khơng có giám sát kết hợp hai phương pháp Nói chung, phương pháp học có giám sát cho kết với độ xác cao nhược điểm phương pháp đòi hỏi tiêu tốn công sức việc xây dựng tập liệu gán nhãn, lại khơng nhận biết nghĩa từ trường hợp Trong phương pháp không giám sát khắc phục hai nhược điểm Do đó, phương pháp học khơng giám sát hướng ý để giải vấn đề Nó phân cụm trường hợp xuất từ văn bản, cụm thể nghĩa WSI (Word Sense Induction) hướng tiếp cận không giám sát cho vấn đề này, WSI cho thấy lợi cho việc xử lý nhập nhằng nghĩa từ số lĩnh vực mà liệu huấn luyện thích khơng có sẵn số lượng nghĩa từ khác phụ thuộc vào mục đích khác Trong có nhiều phương pháp cho WSI, phân cụm theo ngữ cảnh giải pháp hiệu sử dụng rộng rãi Luận văn tập trung vào việc áp dụng mơ hình Bayes phi tham số (Nonparametric Bayesian model) - Hierarchical Dirichlet Process ( HDP) cho tốn WSI Kết thể thơng qua việc so sánh với phương pháp Latent Dirichlet Allocation (LDA) - mơ hình Bayes có tham số Blei Jordan [3] cho vấn đề này, so sánh với phương pháp Blei Lafferty [2] Correlated Topic Model (CTM) với tập liệu toán số 14 thi SemEval - 2010 Ta thấy mơ hình HDP vượt trội chất lượng xác định nghĩa có ưu điểm xác định cách tự động số lượng nghĩa biến đổi từ LDA, CTM lại cần số nghĩa cố định trước xây dựng tay Đó vượt trội cách tiếp cận WSI dựa HDP so với cách tiếp cận khác Ngoài phần kết luận, luận văn trình bày thành chương với nội dung trình bày sau: Chương 1: Giới thiệu WSI, WSD phương pháp tiếp cận cho WSI, WSD, đồng thời giới thiệu mục tiêu kết trình bày luận văn Chương 2: Bài tốn mơ hình chủ đề tiếp cận điển hình Ở chương trình bày tổng quan mơ hình chủ đề, tiếp cận điển hình như: LDA, CTM (mơ hình Bayes có tham số ), HDP (mơ hình Bayes phi tham số) cách sử dụng chúng WSI Chương 3: Sử dụng phương pháp HDP cho WSI Với tính linh hoạt việc xác định nghĩa từ cách tự động Trong khuôn khổ luận văn quan tâm đến việc xác định nghĩa từ dựa vào phương pháp HDP Ở chương trình bày sâu phương pháp HDP so sánh với phương pháp LDA CTM Chúng ta thấy rõ ưu, nhược điểm phương pháp thông qua kết thực nghiệm chương Chương 4: Đánh giá kết thực nghiệm Trong phần đưa chi tiết phương pháp sử dụng để đánh giá hệ thống WSI, mô tả liệu toán số 14 thi SemEval - 2010 sử dụng để huấn luyện, thử nghiệm hệ thống mô tả chi tiết thực nghiệm xây dựng hệ thống WSI ta Tiếp theo kết công việc bao gồm hiệu suất hệ thống tập liệu toán số 14 thi SemEval – 2010 so sánh kết với hai phương pháp CTM, LDA Cuối kết luận, hướng phát triển, tài liệu tham khảo phụ lục Phần kết luận trình bày tóm tắt kết thu đề xuất hướng nghiên cứu References [1] Agirre, Eneko; Edmonds, Philip (2006.) “Word Sense Disambiguation: Algorithms and Applications”; Springer [2] Blei, D M and Lafferty, J D (2006) “Correlated topic models” In Advances in Neural Information Processing System 18 (Y Weiss, B Scholkopf and J Platt, eds) MIT Press, Cambridge, MA [3] Blei, D M., NG, A and Jordan, M (2003) “Latent Dirichlet allocation” Journal of Machine Learning Research 3, pp 993-1022 [4] Chong Wang (2010) Code for HDP with C++ http://www.cs.princeton.edu/~blei/topicmodeling.html [5] D M Blei, J.D Lafferty (2007) “A correlated topic model of Science” The Annals of Applied Statistics, 2007, Vol 1, No 1, pp 17-35 [6] David Blei (2011) “Introduction to Probabilistic Topic models” [7] Eneko Agirre and Aitor Soroa (2007) Semeval-2007 Task 02: “Evaluating Word Sense Induction And Discrimination Systems” In Proceedings of the 4th International Workshop on Semantic Evaluations, SemEval 2007, pp 7–12 [8] Hoang T.T, Nguyen P.T, (2012) “Word Sense Induction Using Correlated Topic Model” [9] Ioannis P Klapaflis and Suresh Manandhar (2007) “UOY: A hypergraph 53 model for word sense induction and disambiguation” Proceedings of the 4th International Workshop on Semantic Evaluation (SemEval-2007), pp 414-417 [10] J Knopp, J Văolker, and S.P Ponzetto (2013) Topic Modeling for Word Sense Induction” Springer-Verlag Berlin Heidelberg 2013, pp 97–103 [11] Patrick Pantel and Dekang Lin (2002) “Discovering word senses from text” In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data minin , pp 613-619 [12] Samuel Brody and Mirella Lapata (2009) “Bayesian Word Sense Induction” Proceeding of the 12th Conference of the European Chapter of the ACL, pp 103-111 [13] Stefan Borda (2006) “Word Sense Induction: Triplet-Based Clustering And Automatic Evaluation” In Proceedings of the 11th EACL, pp 137–144 [14] Suresh Manandhar, Ioannis P Klapftis, Dmitriy Dligach and Sameer S Pradhan (2010) SemEval-2010 Task 14: Word Sense Induction and Disambiguation [15] Wilks Y., Stevenson M (1997) “Sense Tagging: Semantic Tagging with a Lexicon” In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C [16] Xuchen Yao and Benjamin Van Durme (2011) “Nonparametric Bayesian Word Sense Induction” Proceedings of the TextGraphs-6 Workshop, pp 10-14 [17] Y W Teh, M I Jordan, M J Beal, and D M Blei (2006) “Hierarchical Dirichlet Processes” Journal of the American Statistical Association, 101(476) pp 1566–1581 [18] Zellig Harris (1954) Distributional Structure, pp 146-162 ... số) cách sử dụng chúng WSI Chương 3: Sử dụng phương pháp HDP cho WSI Với tính linh hoạt việc xác định nghĩa từ cách tự động Trong khuôn khổ luận văn quan tâm đến việc xác định nghĩa từ dựa vào... Đánh giá kết thực nghiệm Trong phần đưa chi tiết phương pháp sử dụng để đánh giá hệ thống WSI, mơ tả liệu tốn số 14 thi SemEval - 2010 sử dụng để huấn luyện, thử nghiệm hệ thống mô tả chi tiết thực... (2006.) “Word Sense Disambiguation: Algorithms and Applications”; Springer [2] Blei, D M and Lafferty, J D (2006) “Correlated topic models” In Advances in Neural Information Processing System 18