Thực nghiệm phân biệt nhập nhằng tên người trên tập văn bản.
Quá trình tiền xử lý:
• Tiến hành loại bỏ thẻ HTML, lấy nội dung chính của trang. • Tiến hành tách câu, tách từ bằng phần mềm vnTokenizer [20]. • Loại bỏ từ dừng (tập từ dừng có trong file stoplist.txt) .
Trích chọn đặc trưng:
• Lọc lấy những câu chứa tên người.
• Xác định thực thể tên người có trong văn bản:
• Xác định tập tên riêng sử dụng phần mềm vnTokenizer [20].
• Sử dụng tập luật để xác định tên riêng nào là tên người, sử dụng 2 bộ từ điển các từ tiền tố trước tên người và tiền tố không tên người
oBộ từđiển từ tiền tố trước tên người: “ông” , “bà” , “chị” , “cô” , “dì” , “chú” , “bác”, “cụ” , “anh” , “em” , “hắn” , “tên” …
oBộ từ điển từ tiền tố không đứng trước tên người: “chợ” , “đường” , “phố” , “quận” , “huyện” , “xã” , “thôn” , “tỉnh” , “bệnh viện” ….
Thuật toán phân cụm HAC:
Đối với phương pháp 1, qua quá trình khảo sát thực nghiệm chúng tôi chọn α = 0.1 làm ngưỡng để cắt cây phân cụm, còn phương pháp 2 giá trị ngưỡng là α = 3.5
Bảng kết quả thực nghiệm. Đặc trưng Purity Inverse Purity F0.5 F0.2 PP1 0.707 0.673 0.689 0.679 PP1 + đặc trưng mạng xã hội 0.731 0.708 0.719 0.712 PP2 0.792 0.722 0.755 0.735 PP2 + đặc trưng mạng xã hội 0.825 0.761 0.791 0.773
38
Bảng kết quả từ khóa, và thực thể người liên quan với tên “Nguyễn Hữu Đức”
Từ khóa Tên người
Hiệu trưởng, GS, TS, ĐHCN Nguyễn Ngọc Bình, Nguyễn Văn Hiệu, Phạm Bảo Sơn… Tiến sỹ, đại học, y dược, TPHCM Đạo diễn, miền đồi ấm áp, con chung, mùa báo bão, gia đình thợ mỏ
Đàm Hằng
Trưởng phòng, đầu tư, xây dựng
Ngô Quang Thạch, Nguyễn Thị Tuyết, Lê Hoài Chương…
Tổ chức, đánh bạc, BLHS
Võ Thị Kim Hương, Trương Văn Cam, Nguyễn Văn Thọ…
Nhận xét:
Phương pháp 1: Trong tính toán độ tương đồng có một số trường hợp sau ảnh hưởng
đến kết quả tính toán.
Việc tách câu của phần mềm Vntokenizer trong một số trường hợp chưa chính xác, dẫn đến việc xây dựng vector đặc trưng chưa thật chính xác.
Khi cùng một người tham gia các hoạt động thuộc lĩnh vực khác nhau thì độ lặp nội dung trong các câu là thấp dẫn đến độ tương đồng thấp, trong những trường hợp dưới ngưỡng dẫn đến kết quả sai vì coi đó là 2 người khác nhau.
Ngược lại, 2 người khác nhau tham gia hoạt động trong cùng một lĩnh vực, trong trường hợp độ tương đồng vượt ngưỡng cũng dẫn đến kết quả sai vì coi đó là cùng một người.
Phương pháp 2:
Phương pháp 2 sử dụng có độ chính xác cao hơn phương pháp 1, điều này phù hợp với đặc trưng đầu tiên đã nêu trong phần cơ sở thực tiễn rằng: các thông tin định danh mạnh cho người thường tập trung ở xung quanh phần tên đầy đủ, phương pháp 2 lấy cửa sổ với độ rộng 10 xung quanh tên đầy đủ, còn phương pháp 1 lấy tất cả các câu chứa cả tên đầy đủ hoặc chỉ tên không.
39
Với những người tương nổi tiếng trong âm nhạc thể thao, bài báo thường không kèm theo thông tin định danh mạnh về người đó nên với việc sử dụng phương pháp 2 không thực sự hiệu quả. Ví dụ trong trường hợp của tên “Nguyễn Ngọc Minh” có một ca sỹ tương đối nổi tiếng thì kết quả của Purity và Inverse Prity tương ứng chỉ là 0.72 và 0.69
Việc sử dụng viết tắt khác nhau cho cùng một tên cũng làm tỉ lệ trùng lặp giảm xuống, làm sai lệch kết quả. Ví dụ cùng một tên “Đại học Quốc Gia Hà Nội” có một số cách viết tắt Đại học QGHN” , “ ĐHQGHN”…hoặc chức danh ví dụ như “tiến sỹ” có viết tắt là “ts” , “giáo sư” là “gs”…..
Trong rất nhiều trường hợp, một người tham gia các lĩnh vực khác nhau và những đặc trưng ở mỗi trang để giúp nhận ra đó chỉ là một người là quá ít. Rõ ràng điều này khó có thể khắc phục được bằng các thuật toán không giám sát vì không có một tri thức đầy đủ và toàn diện về người đó để phân biệt và ghép nối các thông tin. Ví như như trong hai bài báo dưới đây cùng nói về giáo sư tiến sỹ Nguyễn Hữu Đức, với những thông tin trong bài báo thì chưa đủ để biết được đó làm một người, chúng ta phải có một tri thức về người đó thì mới vượt qua được vấn đề này.
Hình 22 - Trích từ bài viết “Lê Thị Thanh Nhàn – nữ PGS toán học trẻ nhất VN” -báo dantri.com.vn
Hình 23 - Trích từ bài viết “Kịch tính vòng chung khảo Nhân tài đất Việt CNTT 2008!” – báo dantri.com.vn
Việc bổ sung thêm đặc trưng về mạng xã hội (các thực thể người khác xuất hiện trong ngữ cảnh) làm tăng độ các chỉ số cho các kết quả, nó khắc phục được một số trường hợp việc lấy ngữ cảnh quanh tên ở phương pháp 1 và 2 thiếu sót. Điều này
40
cũng hoàn toàn dễ hiểu, nhưđã trình bày ở phần cơ sở thực tiễn, việc trích chọn ra các tên người khác thể hiện cho ngữ cảnh là những đặc trưng tiêu biểu cho mối quan hệ xã hội của một người.
41
Kết luận
Kết quả đạt được của khóa luận
Trong khóa luận này, chúng tôi đã khảo sát miền dữ liệu báo điện tử tiếng Việt để đề xuất phương pháp phân biệt tên người trên tập văn bản sử dụng hai độ đo dựa trên đặc trưng về vùng trọng tâm thông tin và mạng xã hội. Những phương pháp này có ưu điểm là không cần sử dụng quá nhiều các tài nguyên về xử lý ngôn ngữ tự nhiên và dễ cài đặt. Tuy nhiên vấp phải hạn chế là chưa tận dụng được hết các đặc trưng tốt khác xuất hiện trong toàn bộ văn bản, và việc so khớp từ vẫn còn nhiều vấn đề như: từ viết tắt, các từ nghề nghiệp nên có trọng số cao hơn…
Chúng tôi cũng đã cài đặt, thử nghiệm ban đầu trên một tập nhỏ tên người có độ nhập nhằng cao và cho kết quả khá tốt
Dựa trên kết quả của bài toán phân biệt nhập nhằng tên người trên tập văn bản, chúng tôi đề xuất mô hình hệ thống tìm kiếm thực thể người dựa trên bài toán phân biệt nhập nhằng tên. Tuy nhiên hệ thống tìm kiếm là một bài toán lớn gồm nhiều thành phần phức tạp, do thời gian có hạn nên khóa luận chưa thực hiện được một hệ thống hoàn chỉnh.
Định hướng tương lai
Thử nghiệm bổ sung các từ điển về từ viết tắt và danh từ nghề nghiệp để tăng chất lượng cho việc phân biệt nhập nhằng.
Kết hợp thêm một sốđặc trưng về thực thể định danh ,siêu liên kết và các độ đo tương đồng cho ngữ cảnh tên người.
42
Tài liệu tham khảo
Tiếng Việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web, Nhà xuất
bản giáo dục Việt Nam, 2009, tr. 124-125.
[2] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web, Nhà xuất
bản giáo dục Việt Nam, 2009, tr. 197-200.
[3] Trần Nam Khánh. Some studies on a probabilistic framework for finding object-oriented information in unstructured data, undergraduate thesis, College of Technology, VietNam National Univeristiy, Hanoi,2009
[3] http://vnexpress.net [4] http://dantri.com.vn [5] http://vietnamnet.vn
Tiếng Anh
[6] A. Bagga, and B. Baldwin. 1998. Entity-Based Cross-Document Coreferencing Using the Vector Space Model. COLING-ACL'98.
[7] Breck Baldwin, Mike Collins, Jason Eisner, Adwait Ratnaparkhi, Joseph Rosenzweig, Anoop Sarkar: University of Pennsylvania: description of the University of Pennsylvania system used for MUC-6. MUC 1995: 177-191
[8] Bekkerman, R., McCallum, A. (2005), "Disambiguating web appearances of people in a social network", Proceedings of the 14th Conference on World Wide
Web, Chiba, Japan, May 10-14, ACM Publications, New York, NY, pp.463-70.
[9] Bollegala, D., Matsuo, Y., Ishizuka, M. (2006), "Disambiguating personal names on the web using automatically extracted key phrases", Proceedings of the 17th European Conference on Artificial Intelligence, Riva del Garda, Italy, 28 August-1 September, IOS Press, Amsterdam.
[10] Brin S., Page L. (1998), "The anatomy of a large-scale hypertextual web search engine", Proceedings of the 7th World Wide Web Conference, Brisbane, Australia, pp.107-17.
43
for a question answering system. In Proceedings of the40th Annual Meeting of the Association for ComputationalLinguisti.
[12] E. Elmacioglu, Y. F. Tan, S. Yan, M.-Y. Kan, and D. Lee. PSNUS: Web people name disambiguation by simple clustering with rich features. In Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007), pages 268--271, 2007.
[13] Gideon S. Mann and David Yarowsky. Unsupervised personal name disambiguation. In Proceedings of CoNLL-7, pages 33–40, 2003.
[14] K.T. Frantzi and S. Ananiadou, Extracting nested collocations, in 16th
Conference on Computational Lingustics, pp. 41–46, (1996).
[15] K.T. Frantzi and S. Ananiadou, The c-value/nc-value domain independent method for multi-word term extraction, Journal of Natural LanguageProcessing, 6(3), 145–179, (1999).
[16] Malin, B. (2005), "Unsupervised Name Disambiguation via Social Network Similarity," in Proceedings of the 2005 SIAM Workshop on Link Analysis,
Counterterrorism, and Security, Newport Beach, CA, pp. 93-102.
Min-Yen Kan and Hoang Oanh Nguyen Thi. 2005. Fast webpage classification using URL features. In CIKM, pages 325–326, October/November.
[17] Reema Al-Kamha and David W. Embley, 2004. Grouping search-engine returned citations for person-name queries. In Proceedings of the 6th annual ACM international workshop on Web information and data management, pages 96–103.
[18] Tao Cheng, Xifeng Yan, Kevin Chen-Chuan Chang. EntityRank: Searching Entities Directly and Holistically. In VLDB 2007: Proceedings of the 33rd
international conference on very large data bases.
Công cụ sử dụng
[19] Roberto Perdisci, Implementation of single and complete-linkage hierarchical clustering. http://roberto.perdisci.com/projects/weka-code
[20] Lê Hồng Phương (2009), “vnTokenizer, an automatic tokenizer for tokenization of Vietnamese texts”