Kịch bản thực nghiệm: Từ một động từ, truy vấn vào kho CSDL câu, để trích chọn ra các câu chứa động từ đó. Từ các câu trích được này, tách từ và gán nhãn, sau đó trích ra bộ <N/Npi, N/Npj> thỏa mãn mẫu <N/Npi, V, N/Npj>. Sử dụng bộ <N/Npi, N/Npj>, truy vấn vào CSDL và truy vấn máy tìm kiếm google để trích ra các câu chứa bộ <N/Npi, N/Npj>. Tiến hành tách từ, gán nhãn để trích ra thành phần động từ của câu, thỏa mãn mẫu <N/Npi, V*, N/Npj>. Sử dụng động từ V*, thực hiện vòng lặp, lặp lại từ bước ban đầu (quá trình dừng khi không sinh mới được bộ <N/Npi, N/Npj> hoặc thành phần động từ V*, hoặc quy định bước dừng). Tiếp theo, sử dụng tập câu có dạng <N/Npi, V, N/Npj> trong bước 1, tập câu đồng dạng với câu ở bước 1 (chỉ khác thành phần động từ) có dạng <N/Npi, V*, N/Npj> và tập câu giải nghĩa động từ đầu vào (sử dụng từ điển giải nghĩa từ tiếng Việt), tiến hành phân cụm các câu đó. Cuối cùng, từ kết quả của bước phân cụm, tiến hành thống kê, lựa chọn các động từ gần nghĩa.
Sau đây, khóa luận trình bày quá trình thực nghiệm:
Trích chọn các câu chứa bộ <N/Npi, V, N/Npj>:
Từ động từ, ví dụ “phát minh”, làm đầu vào, chúng tôi tiến hành trích chọn ra các câu có chứa “phát minh”:
Bảng 4: Ví dụ về trích câu và tách từ, gán nhãn
Câu chứa động từ Tách từ, gán nhãn
Martin Coorper phát minh ra
điện thoại Martin_Coorper /
Np phát_minh /V ra /E điện_thoại / Np
Samuel Morse phát minh ra mã điện
Samuel_Mourse /Np phát_minh /V ra /E mã_điện /Np
Thái Luân phát minh ra giấy Thái_Luân /Np phát_minh /V ra /E giấy /N
Khoa học, công nghệ và phát
minh Khoa_học /
Np , /, công_nghệ /Np và /C phát_minh /Np
Từ tập câu này, sử dụng bộ công cụ JvnTextPro để tách từ, gán nhãn: trong bài toán của chúng tôi, chúng tôi quan tâm tới nhãn N, Np, V (tương ứng là danh từ, cụm danh từ và động từ).
30
Sau khi tách từ, gán nhãn, chúng tôi trích chọn ra tập câu chứa bộ <N/Npi, V, N/Npj>. Ví dụ trong bảng 4 sẽ thu được hai câu: “Martin Coorper phát minh ra điện thoại” và “Samuel Morse phát minh ra mã điện”.
Trích trọn các câu đồng dạng:
Tiếp theo, tiến hành trích chọn các câu đồng dạng với từng câu đã trích chọn được ở trên bằng cách: từ các câu đó, chúng tôi trích rút ra bộ <N/Npi, N/Npj>:
Bảng 5: Ví dụ về trích bộ <N/Npi, N/Npj>
Câu chứa động từ Bộ <N/Npi, N/Npj>
Martin Coorper phát minh ra điện thoại <Martin Coorper, điện thoại> Samuel Morse phát minh ra mã điện <Samuel Morse , mã điện> Thái Luân phát minh ra giấy <Thái Luân, giấy>
Sau đó dùng bộ <N/Npi, N/Npj> truy vấn vào CSDL và truy vấn vào máy tìm kiếm Với truy vấn vào CSDL:
Ví dụ với bộ < Thái Luân, giấy>, thu được kết quả như sau: Cách chế giấy của Thái Luân .
Cách sản xuất giấy của Thái Luân
Sau sáng chế của Thái Luân năm 105, giấy ñã ñược phổ biến ở Trung Quốc Người phát minh ra nghề làm giấy là hoạn quan Thái Luân .
Cho nên Thái Luân chỉ ñược coi là người có công cải tiến kỹ thuật làm giấy ở Trung Quốc .
Với truy vấn máy tìm kiếm:
Ví dụ, với bộ <Thái Luân, giấy> truy vấn vào máy tìm kiếm google, máy tìm kiếm trả về snippet chứa từ khóa truy vấn:
<b>Thái Luân</b> ñã chú tâm chế biến loại <b>giấy</b> thô vì ông cần vật liệu ñể viết chữ. Năm 55 tuổi, sau nhiều cố gắng không ñạt ñược kết quả, <b>...</b>. Từ khi có <b>giấy</b>, sự kế thừa và truyền bá kiến thức tiến vào thời ñại hoàn toàn mới. <b>Thái Luân</b> là người ñổi mới kỹ thuật làm <b>giấy</b> quan trọng.”
31
Tiến hành tiền xử lý các đoạn snippet: Tách câu, tách từ, gán nhãn sử dụng bộ công cụ mã nguồn mở JvnTextpro. Sau đó lựa chọn các câu chứa bộ <Thái Luân, giấy>:
Thái Luân ñã chú tâm chế biến loại giấy thô vì ông cần vật liệu ñể viết chữ.
Thái Luân là người ñổi mới kỹ thuật làm giấy quan trọng.
Từ những câu trên, trích ra được các động từ “chế”, “sản xuất”, “sáng chế”, “phổ biến”, … thỏa mãn mẫu <N/Npi, V*, N/Npj>. Từ các động từ này, tiếp tục lặp lại bước 1 (trích chọn các câu chứa động từ). Quá trình dừng khi không sinh mới bộ <N/Npi, N/Npj> hoặc không sinh mới động từ hoặc quy định bước dừng.
Phân cụm:
Từ các câu trong bước 1, bước 2 và các câu giải nghĩa của động từ, chúng tôi biểu diễn mỗi câu dưới dạng vector đặc trưng, thuộc tính của vector chính là các từ thuộc câu đó (đã loại bỏ từ dừng). Sau đó, biểu diễn TFIDF để tính trọng số các từ.
Tiến hành phân cụm, sử dụng bộ công cụ mã nguồn mở toolboxHAC. Qua quá trình thực nghiệm, chúng tôi chọn ngưỡng là 0,86 và thu được 21 cụm. Từ các cụm thu được, tiến hành thống kê trên các cụm chứa động từ đang xét (động từ đầu vào ban đầu): lựa chọn các động từ thuộc mỗi cụm, rồi tính tần suất xuất hiện của các động từ trong mỗi cụm. Độ gần nghĩa của mỗi động từ được tính bằng tần suất xuất hiện của các động từ trong cụm.
Với động từ đầu vào ban đầu là “phát minh”, chúng tôi thu được các động từ và tần suất xuất hiện tương ứng của động từ trong cụm đó:
32
Bảng 6. Bảng kết quả trên top 3 cụm chứa động từđang xét
Động từ xuất hiện Tần suất Động từ xuất hiện Tần suất Động từ xuất hiện Tần suất
Khám phá 10 Sáng chế 8 Sáng chế 11
Phát minh 9 Phát hiện 5 Phát minh 4
Sáng chế 4 Khám phá 3 Hoạt động 2
Nghiên cứu 2 Phát minh 3 Xuất hiện 1
Sản xuất 2 Thí nghiệm 1 Chế tạo 1
Cải tiến 1 Suy luận 1 Ra đời 1
Biết đến 1 Tồn tại 1
Giải nghĩa 1 Giới thiệu 1
Xây dựng 1
Tìm ra 1
Nhận xét: Từ bảng kết quả trên, chúng tôi quan niệm rằng, với top 3 động từ có tần suất xuất hiện cao nhất trong mỗi cụm có chứa động từ đang xét (động từ đầu vào ban đầu) là những động từ gần nghĩa với động từ đang xét đó. Do đó, các động từ “khám phá, sáng chế, phát hiện” là có khả năng gần nghĩa với động từ “phát minh” là cao nhất trong từng ngữ cảnh mà nó xuất hiện (xem giải nghĩa trong phần phụ lục). Theo Inkpen [11], cách tự nhiên nhất là yêu cầu độc giả đánh giá chất lượng đầu ra của thuật toán. Chúng tôi tiếp tục tiến hành thực nghiệm để khẳng định thêm nữa mô hình đề xuất của chúng tôi.
33
Kết luận
Kết quảđạt được của khóa luận
Trong khóa luận này, chúng tôi đã tìm hiểu được khái niệm, các đặc trưng của quan hệ gần nghĩa, một số phương pháp trích rút quan hệ gần nghĩa và kỹ thuật boostrapping trong trích rút quan hệ ngữ nghĩa.
Từ tham khảo các kết quả nghiên cứu về trích chọn quan hệ gần nghĩa, đặc biệt là các kết quả của Diana Inkpen và cộng sự [15, 16, 17], chúng tôi đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa, áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt và thực nghiệm trên miền dữ liệu wikipedia tiếng Việt.
Chúng tôi đã cài đặt, thử nghiệm việc trích chọn tập câu; phân cụm các tập câu đó và thống kê, lựa chọn các động từ trong cụm; động từ thuộc một cụm, nó sẽ mang một nghĩa gần với các động từ khác trong cùng một ngữ cảnh của một cụm. Quá trình thực nghiệm, chúng tôi đã lựa chọn được các động từ gần nghĩa với động từ ban đầu.
Các hạn chế còn tồn tại
Bước trích chọn câu và động từ mới, phụ thuộc nhiều vào việc tách từ và gán nhãn, do đó nếu kết quả của việc tách từ và gán nhãn không tốt, sẽ ảnh hưởng đến kết quả của bài toán.
Đối với truy vấn máy tìm kiếm: các snippet trả về có chứa đầy đủ thành phần truy vấn, tuy nhiên các từ khóa thường không xuất hiện trong một câu, mà nó xuất hiện rời rạc, khiến việc lựa chọn câu gặp khó khăn.
Việc trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt là một bài toán lớn, gồm nhiều phần phức tạp, do thời gian, cũng như kiến thức có hạn nên khóa luận chưa thực hiện được một hệ thống hoàn chỉnh.
Định hướng nghiên cứu tiếp theo
Chúng tôi thử nghiệm bổ sung thêm việc trích chọn các câu bằng cách mở rộng vòng lặp, tiếp tục thực nghiệm phân cụm, thống kê, đánh giá kết quả để đưa ra các động từ gần nghĩa. Đồng thời, tiếp tục nghiên cứu, hoàn thiện việc mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt.
34
Phụ lục
Động từ Giải nghĩa từ
Phát minh Tìm ra cái có ý nghĩa, có giá trị lớn cho khoa học và loài người Khám phá Tìm ra, phát hiện ra cái còn Nn giấu, cái bí mật
Sáng chế Chế tạo ra cái trước đó chưa có Phát hiện Tìm thấy, tìm ra cái chưa ai biết
35
Tài liệu tham khảo
Tiếng Việt:
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn CNm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản giáo dục Việt Nam, 2009.
[2] Trần Xuân Tứ, Lê Đức Trọng, Nguyễn Tiến Tùng. Mô hình hệ thống hỏi đáp thực thể tên người cho tiếng Việt. Báo cáo NCKH năm 2011, Trường Đại học Công nghệ, ĐHQGHN.
[3] Nguyễn Chánh Thành. Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản. Luận án tiến sĩ, Trường đại học Bách khoa TP.HCM, Đại học Quốc gia TP.HCM, năm 2010.
[4] Mai Ngọc Chừ; Vũ Đức Nghiệu và Hoàng Trọng Phiến. Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, H., 1997.
[5] Vũ Bội Hằng (2005). Phát hiện quan hệ ngữ nghĩa "Nguyên nhân - Kết quả" từ các văn bản, MSc. Thesis (Draft) , College of Technology, Vietnam National University, Hanoi - VNU
Tiếng Anh:
[6] Aminul Islam and Diana Inkpen.Near-Synonym Choice using a 5-gram Language Model. Research in Computing Sciences, 46:41--52, 2010.
[7] Bernardo Magnini. Open Domain Question Answering: Techniques, Resources and Systems. RANLP 2005.
[8]Corina Roxana Girju . Text mining for semantic relations, PhD. Thesis, The University of Texas at Dallas, 2002
[9] D. Downey, O. Etzioni, and S. Soder- land. A Probabilistic Model of Redundancy in Information Extraction. In Proc. of IJCAI, 2005
[10] Deepak Ravichandran, Eduard Hovy. Learning Surface Text Patterns for a Question Answering System, In Proceedings of the ACL Conference, 2002, Information Sciences Institute University of Southern California
36
[11] Diana Inkpen. Near-Synonym Choice in an Intelligent Thesaurus. Proceedings of NAACL HLT 2007, pages 356–363
[12] Eugene Agichtein, Luis Gravano. Snowball: extracting relations from large plain- text collections, ACM DL 2000: 85-94
[13] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External Knowledge in Factoid QA. Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November 13-16.
[14] Girju R., Badulescu A., and Moldovan D. 2003. Learning Semantic Constraints for the Automatic Discovery of Part-Whole Relations. In the Proceedings of the Human Language Technology Conference, Edmonton, Canada, May-June 2003.
[15] Inkpen, D.Z., Hirst, G.: Near-synonym choice in natural language generation. In: Proceedings of the International Conference RANLP-2003 (Recent Advances in Natural Language Processing), Borovets, Bulgaria (2003) 204-211
[16] Inkpen,D.Z. and Hirst, G. Building and using a lexical knowledge-base of near- synonym differences. Comput. Linguis. 32,2, in 2006.
[17] Inkpen, D. 2007. A statistical model for near-synonym choice. ACM Trans. Speech Lang. Process. 4, 1, Article 2 (January 2007), 17 pages
[18] M. A. Hearst. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the Fourteenth International Conference on Computational Linguistics, pages 539–545, Nantes France, 1992. ACL.
[19] M. Banko, M. J. Cafarella, S. Soderland, M. Broadhead, and O. Etzioni.
Open information extraction from the Web. In Proc. 20th IJCAI, pp. 2670–2676, Jan. 2007
[20] Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le, Automatic Named Entity Set Expansion Using Semantic Rules and Wrappers for Unary Relations. IALP 2010: 170-173
[21] Matthew W. Bilotti. Query Expansion Techniques for Question Answering. Department of Electrical Engineering and Computer Science on May 20, 2004. [22] O. Etzioni, M. Cafarella, D. Downey, S. Kok, A.-M. Popescu, T. Shaked, S.
37
(preliminary results). In Proceedings of the 13th international conference on World Wide Web, pages 100–110, New York, NY, USA, 2004. ACM.
[23]Philip Edmonds, Graeme Hirst. Near-Synonymy and Lexical Choice. Compuptational Linguistics, Volume 28, Number 2, in 2002.
[24] Richard C. Wang, William W. Cohen (2008). Iterative Set Expansion of Named Entities Using the Web, ICDM 2008: 1091-1096
[25] Robert Krovetz, W. Bruce Croft. Lexical ambiguity and information retrieval. ACM Transactions on Information Systems (TOIS), Volume 10, Issue 2 (April 1992), pp.115–141. 1992. ISSN: 1046-8188
[26] Sanda M. Harabagiu, Marius A. Paşca, Steven J. Maiorano. Experiments with open- domain textual Question Answering. International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics - Volume 1, 2000, tr. 292 – 298.
[27] Sergey Brin. Extracting Patterns and Relations from the World Wide Web, WebDB Workshop at EDBT’98, 1998.
[28] Suomela Sari, Kekäläinen Jaana. Ontology as a search-tool: A study of real users query formulation with and without conceptual support. Proceedings of the 27th European Conference on IR Research (ECIR2005), pp.315–329. Berlin, Heidelberg: Springer-Verlag. 2005.
[29] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran, Tien-Tung Nguyen, Tri-Thanh Nguyen, and Quang-Thuy Ha (2011). A Model of Person Named Entity Question Answering System in Vietnam, The 2011 International Conference on Active Media Technology (AMT 2011), September 7-9, 2011, Lanzhou, China (Submitted, Paper
ID A252).
[30] W. Wang, C. Thomas, A.P. Sheth, and V. Chan. Pattern-based synonym and antonym extraction, in Proc. ACM Southeast Regional Conference, 2010, pp.64-64. [31] http://www.db.dk/bh/Lifeboat_KO/CONCEPTS/semantic_relations.htm
38
Khóa luận tốt nghiệp
Inbox X
Reply |
Tung Nguyen Tien to me, cuongnv, Tran show details 9 Apr Kính thưa các thầy,
Em xin ý kiến về vấn đề khóa luận tốt nghiệp của em ạ:
1. Theo như kế hoạch phân công người hướng dẫn của Nhà trường thì khóa luận của em là:
- Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy - Giáo viên đồng hướng dẫn: TS. Nguyễn Việt Cường
Trong quá trình nghiên cứu khoa học, em được sự hướng dẫn của thầy Nguyễn Trí Thành và anh Trần Mai Vũ. Vì vậy em xin phép được anh Vũ là người trực tiếp chỉ dẫn em làm khóa luận ạ (như phân công của thầy trong file đính kèm ạ)
2. Hướng khóa luận của em:
Trong thời gian đầu đăng ký tên đề tài khóa luận thì thầy có gợi ý cho em tên đề tài: "Trích chọn tự động quan hệ vị trí trên web và cài đặt thử vào hệ thống hỏi đáp tiếng Việt", nhưng sau khi nhóm làm xong nghiên cứu khoa học với tên đề tài "Mô hình hệ thống hỏi đáp thực thể tên người cho tiếng Việt", để kế thừa và phát triển dựa trên nghiên cứu khoa học, sau khi họp với anh Vũ thì trong khóa luận của em dự định như sau ạ: Từ cặp thực thể <A, B> trích xuất ra quan hệ đồng nghĩa R (có thể tạo từ điển đồng nghĩa) ứng dụng vào việc mở rộng câu hỏi cho hệ thống hỏi đáp thực thể tên người cho tiếng Việt.
Ví dụ:
Có câu: Edison là người phát minh ra bóng đèn/ Edison là người chế tạo ra bóng đèn. Ta có:
- A = Edison - B = bóng đèn
- R = {người phát minh, người sáng chế}
39
dùng hỏi "Ai là người phát minh ra bóng đèn?" Trong kho dữ liệu trả lời của hệ thống, giả sử không có câu "Edison là người phát minh ra bóng đèn" mà chỉ có câu "Edison là người chế tạo ra bóng đèn", do hệ thống hiểu được quan hệ đồng nghĩa giữa "người phát minh" và "người sáng chế" nên vẫn đưa ra được câu trả lời là Edison.
Em xin phép thầy cho em xin ý kiến về: tên đề tài khóa luận có thể đặt như thế nào cho phù hợp ạ? Và tài liệu cũng như hướng viết Niên luận đối với khóa luận hướng này ạ?