M Ở ĐẦU
4.3. Xây dựng tập dữ liệu thực nghiệm
Để tiến hành thực nghiệm, tôi xin đưa ra 10 tên người được coi là phổ biến trên Web để đánh giá phương pháp đề xuất. Tập dữ liệu mà trên đó chúng tôi thực hiện công việc STT Tên phần mềm Tác giả Nguồn 1 eclipse-SDK- 3.4.1-win32 http://www.eclipse.org/downl oads 2 JvntextPro-v2 Phan Xuân Hiếu, Nguyễn C9m Tú, Nguyễn Thu Trang
http://sourceforge.net/project s/jvntextpro/
41
Bảng 3. Tập tên người thực nghiệm
STT Tên Người Số văn bản 1 Nguyễn Hữu Đức 35 2 Nguyễn Mạnh Hùng 25 3 Nguyễn Thị Hạnh 27 4 Nguyễn Thành Trung 27 5 Nguyễn Tuấn Anh 27 6 Nguyễn Thị Thu Hà 18
7 Nguyễn Thị Lan Anh 30
8 Nguyễn Thị Minh Ngọc 20 9 Nguyễn Trung Dũng 19 10 Nguyễn Tiến Đạt 27 4.5. Thực nghiệm và Kết quả Quá trình thực nghiệm • Quá trình thu thập
Sử dung truy vấn với cú pháp [<dấu cách> <câu hỏi người dùng> <dấu cách> {[<dấu cách> site:.edu OR site:.edu.vn <dấu cách>]}, lấy 100 trang Web đầu tiên trả về từ máy tìm kiếm Google.
Với mỗi tập trang Web thu thập tiến hành kiểm tra và loại bỏ các trang Web không phù hợp
• Quá trình tiền xử lý
Tiến hành lọc bỏ thẻ html
Lấy nội dung chính của trang
42
Dựa vào danh sách các nhãn và một số đặc trưng, trích chọn 12 thuộc tính cho mỗi thực thể người. Trong khóa luận này, tôi thực hiện công việc trích rút các thuộc tính về thực thể người bằng tay để đạt độ chính xác cao nhất có thể được. Các trường thông tin thuộc tính cho mỗi thực thể người được lưu dưới một file.txt như sau:
Hình 13. Ví dụ các thuộc tính sau khi trích chọn
• Quá trình phân cụm
Cài đặt thuật toán phân cụm phân cấp HAC. Trong khóa luận này, chúng tôi sử dụng hai ngưỡng tương đồng để cắt cây phân cấp là ngưỡng tương đồng alpha và số lượng cụm mong muốn k với α = 0.48 và k = 3
43 Bảng 4. Kết quả phân cụm STT Tên Người Số lượng cụm thực thể người mong muốn Số lượng cụm thực thể người nhận được 1 Nguyễn Hữu Đức 15 20 2 Nguyễn Mạnh Hùng 17 20 3 Nguyễn Thị Hạnh 26 24 4 Nguyễn Thành Trung 24 21 5 Nguyễn Tuấn Anh 25 27 6 Nguyễn Thị Thu Hà 17 18
7 Nguyễn Thị Lan Anh 29 30
8 Nguyễn Thị Minh Ngọc 20 19
9 Nguyễn Trung Dũng 18 17
10 Nguyễn Tiến Đạt 20 23
Xếp hạng thực thể
Một số kết quả xếp hạng thực thể .
Kết quả xếp hạng ứng với hai tên người: Nguyễn Tuấn Anh, Nguyễn Thị Lan Anh, và điểm số tương ứng với mỗi thực thể
44
Bảng 5. Một số kết quả xếp hạng
Nguyễn Tuấn Anh Nguyễn Thị Lan Anh
Nguyễn Tuấn Anh_clus1.txt 9.0 Nguyễn Tuấn Anh_clus2.txt 8.0 Nguyễn Tuấn Anh_clus3.txt 8.0 Nguyễn Tuấn Anh_clus4.txt 8.0 Nguyễn Tuấn Anh_clus5.txt 7.0 Nguyễn Tuấn Anh_clus6.txt 6.0 Nguyễn Tuấn Anh_clus7.txt 6.0 Nguyễn Tuấn Anh_clus8.txt 6.0 Nguyễn Tuấn Anh_clus9.txt 5.0 Nguyễn Tuấn Anh_clus10.txt 5.0 Nguyễn Tuấn Anh_clus11.txt 5.0 Nguyễn Tuấn Anh_clus12.txt 5.0 Nguyễn Tuấn Anh_clus13.txt 5.0 Nguyễn Tuấn Anh_clus14.txt 5.0 Nguyễn Tuấn Anh_clus15.txt 5.0 Nguyễn Tuấn Anh_clus16.txt 5.0 Nguyễn Tuấn Anh_clus17.txt 4.0 Nguyễn Tuấn Anh_clus18.txt 4.0 Nguyễn Tuấn Anh_clus19.txt 4.0 Nguyễn Tuấn Anh_clus20.txt 4.0 Nguyễn Tuấn Anh_clus21.txt 4.0 Nguyễn Tuấn Anh_clus22.txt 4.0 Nguyễn Tuấn Anh_clus23.txt 4.0 Nguyễn Tuấn Anh_clus24.txt 3.0 Nguyễn Tuấn Anh_clus25.txt 2.0
Nguyễn Thị Lan Anh_clus1.txt 13.0 Nguyễn Thị Lan Anh_clus2.txt 9.0 Nguyễn Thị Lan Anh_clus3.txt 8.0 Nguyễn Thị Lan Anh_clus4.txt 7.0 Nguyễn Thị Lan Anh_clus5.txt 7.0 Nguyễn Thị Lan Anh_clus6.txt 7.0 Nguyễn Thị Lan Anh_clus7.txt 7.0 Nguyễn Thị Lan Anh_clus8.txt 7.0 Nguyễn Thị Lan Anh_clus9.txt 6.0 Nguyễn Thị Lan Anh_clus10.txt 6.0 Nguyễn Thị Lan Anh_clus11.txt 6.0 Nguyễn Thị Lan Anh_clus12.txt 5.0 Nguyễn Thị Lan Anh_clus13.txt 5.0 Nguyễn Thị Lan Anh_clus14.txt 5.0 Nguyễn Thị Lan Anh_clus15.txt 5.0 Nguyễn Thị Lan Anh_clus16.txt 5.0 Nguyễn Thị Lan Anh_clus17.txt 5.0 Nguyễn Thị Lan Anh_clus18.txt 5.0 Nguyễn Thị Lan Anh_clus19.txt 5.0 Nguyễn Thị Lan Anh_clus20.txt 5.0 Nguyễn Thị Lan Anh_clus21.txt 4.0 Nguyễn Thị Lan Anh_clus22.txt 4.0 Nguyễn Thị Lan Anh_clus23.txt 4.0 Nguyễn Thị Lan Anh_clus24.txt 4.0 Nguyễn Thị Lan Anh_clus25.txt 4.0 Nguyễn Thị Lan Anh_clus26.txt 4.0 Nguyễn Thị Lan Anh_clus27.txt 4.0 Nguyễn Thị Lan Anh_clus28.txt 4.0 Nguyễn Thị Lan Anh_clus29.txt 3.0 Nguyễn Thị Lan Anh_clus30.txt 3.0
45
Đánh giá kết quả thực nghiệm
Bảng 6. Đánh giá kết quả phân cụm
STT Tên Người Purity
Inverse Purity F (0,2) F(0,5) 1 Nguyễn Hữu Đức 0.55 0.48 0.49 0.51 2 Nguyễn Mạnh Hùng 0.78 0.89 0.86 0.83 3 Nguyễn Thị Hạnh 0.81 0.92 0.89 0.86 4 Nguyễn Thành Trung 0.78 0.83 0.81 0.8 5 Nguyễn Tuấn Anh 1 1 1 1 6 Nguyễn Thị Thu Hà 0.94 0.91 0.91 0.92 7 Nguyễn Thị Lan Anh 0.96 0.93 0.93 0.94 8 Nguyễn Thị Minh Ngọc 0.9 0.95 0.94 0.92 9 Nguyễn Trung Dũng 0.89 0.94 0.93 0.91 10 Nguyễn Tiến Đạt 0.74 0.89 0.85 0.8
46
Xếp hạng thực thể người
Bảng 7. Đánh giá kết quả xếp hạng
Nhận Xét
Phương pháp phân cụm dữ liệu: Việc tính toán độ đo tương đồng giữa các đặc trưng vẫn còn một vài hạn chế. Một vài trường hợp ảnh hưởng tới kết quả như: Vấn đề tách câu tách từ vẫn chưa thật chính xác. Các thông tin trong các trường thuộc tính về người được trích chọn từ các trang Web lấy về chưa thật đầy đủ. Do đó, ảnh hưởng tới kết quả phân cụm.
Các đặc trưng sau khi trích chọn chưa chuNn hóa. Việc sử dụng các từ viết tắt cho cùng một tên làm sai lệch kết quả. Ví dụ, cùng một tên”Đại Học Quốc Gia
STT Tên Người P@5 P@10 MAP
1 Nguyễn Hữu Đức 0.4 0.8 0.7 2 Nguyễn Mạnh Hùng 0.6 0.7 0.73 3 Nguyễn Thị Hạnh 0.8 0.7 0..85 4 Nguyễn Thành Trung 0.4 0.9 0.71 5 Nguyễn Tuấn Anh 0.8 0.7 0.87 6 Nguyễn Thị Thu Hà 0.8 0.9 0.86 7 Nguyễn Thị Lan Anh 0.8 0.9 0.85 8 Nguyễn Thị Minh Ngọc 0.8 1 1 9 Nguyễn Trung Dũng 0.8 0.6 0.68 10 Nguyễn Tiến Đạt 0.6 0.7 0.73
47
Hà Nội” tồn tại một số cách viết tắt như “Đại Học Quốc Gia HN”, “ĐHQGHN” hay cùng tên “Thành Phố Hồ Chí Minh” có các từ viết tắt như “TP.HCM”, “TP.Hồ Chí Minh”,”Thành Phố HCM”,….
Trong rất nhiều trường hợp, một người tham gia các lĩnh vực khác nhau với các nơi làm việc khác nhau nhưng những đặc trưng ở mỗi trang để giúp nhận ra đó chỉ là một người là quá ít. Rõ ràng điều này khó có thể khắc phục được bằng các thuật toán không giám sát vì không có một tri thức đầy đủ và toàn diện về người đó để phân biệt và ghép nối các thông tin.
Ngoài ra, tên người thực nghiệm là những tên người phổ biến, ít hoặc không nổi tiếng. Số lượng các trang cùng trỏ tới một thực thể người là không nhiều. Chẳng hạn, với tên “Nguyễn Thị Thu Hà” thì số lượng cụm thực thể thu được là 17 trên tổng số 18 trang Web thu thập được. Như vậy, chỉ có hai trang Web cùng trỏ tới một người. Thêm vào đó, số lượng trang Web nhận được ứng với một tên người sau khi đã lọc bỏ các trang không phù hợp là không nhiều. Vì vậy kết quả phân cụm chỉ là trên tập dữ liệu nhỏ.
Phương pháp xếp hạng thực thể người cùng tên
Việc thực thi phân cụm không chính xác tuyệt đối. Do đó, còn tồn tại trường hợp những người khác nhau được gom vào thành một cụm hoặc hai văn bản cùng trỏ tới một thực thể người lại gom vào hai cụm khác nhau, làm sai lệch kết quả tính hạng cho các thực thể.
Với truy vấn đầu vào chỉ chứa tên người mà không chứa thông tin ngữ cảnh cho người nên việc xếp hạng thực thể không tập trung vào độ phù hợp với ngữ cảnh mà chỉ tập trung xếp hạng dựa trên số lượng trường thông tin có được về thực thể người đó.
48
Kết luận
Kết quảđạt được của khóa luận
Trong khóa luận này, chúng tôi đã khảo sát miền dữ liệu giáo dục tiếng Việt đểđề xuất phương pháp tìm kiếm người trên Web. Phương pháp này có ưu điểm là xử lý hai vấn đề quan trọng trong tìm kiếm người, tận dụng được các đặc trưng tốt nhất về người và dễ cài đặt. Tuy nhiên vấp phải hạn chế là việc so khớp từ vẫn còn nhiều vấn đề như: các từ viết tắt, các từ nghề nghiệp. Ngoài ra, các thông tin về người chưa thật đầy đủ làm ảnh hưởng tới kết quả tính toán, đặc biệt là vấn đề tính toán độ tương đồng giữa các đặc trưng.
Chúng tôi cũng đã cài đặt, thử nghiệm ban đầu trên một tập nhỏ tên người được coi là phố biến trên Web và cho kết quả khá tốt. Dựa trên kết quả của bài toán tìm kiếm người trên Web, chúng tôi đề xuất mô hình hệ thống tìm kiếm thực thể người dựa trên bài toán tìm kiếm người. Tuy nhiên hệ thống tìm kiếm là một bài toán lớn gồm nhiều thành phần phức tạp, do thời gian có hạn nên khóa luận chưa thực hiện được một hệ thống hoàn chỉnh.
Định hướng tương lai
Thử nghiệm bổ sung các từđiển về từ viết tắt và danh từ nghề nghiệp, thực hiện chuNn hóa các đặc trưng trích chọn để tăng chất lượng cho việc phân biệt nhập nhằng. Đồng thời thực hiện khai thác miền dữ liệu chứa đầy đủ thông tin liên quan tới người. Xây dựng được một hệ thống tìm kiếm thực thể với quy mô nhỏ.
a
Tiếng Việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn C9m Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản giáo dục Việt Nam, 2009.
[2] Nguyễn Thu Trang. Học xếp hạng trong tịnh hạng đối tượng và phân cụm tài liệu. Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN, 2009, tr. 16-27.
[3] Nguyễn Đạo Thái. Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể người. Khóa luận đại học. Trường Đại Học Công Nghệ, ĐHQGHN, 2010, tr. 5-6.
Tiếng Anh
[4] Anne-Marie, Vercoustre James and A. Thom Jovan Pehcevski. Entity Ranking in Wikipedia. INRIA Rocquencourt, France, RMIT University Melbourne, Australia, 2007, pp. 1-4.
[5] Cheng, T., Yan, X., and Chang, K. C.-C. Supporting entity search: a large- scale prototype search engine. In SIGMOD '07: Proceedings of the 2007 ACM SIGMOD international conference on Management of data (New York, NY, USA, 2007), ACM, pp. 1144-1146.
[6] Elena Smirnova1, Konstantin Avrachenkov, and Brigitte Trousse. Using Web Graph Structure for Person Name Disambiguation. 2004 route des Lucioles, 06902 Sophia Antipolis Cedex, France.
[7] Javier Artiles, Andrew Borthwick, Julio Gonzalo, Satoshi Sekine and Enrique Amigo. WePS-3 Evaluation Campaign: Overview of the Web People Search Clustering and Attribute Extraction Tasks, WePS-3, 2010, pp. 2-5 [8] Javier Artiles, Julio Gonzalo and Satoshi Sekine. The SemEval-2007 WePS
Evaluation: Establishing a benchmark for the Web People Search Task, 1st Web People SearchEvaluation Workshop (WePS 2007), 2007, pp. 67- 68. [9] Juan Martinez-Romo and Lourdes Araujo. Web People Search
Disambiguation using Language Model Techniques. April 21st - Madrid, Spain Colocated with the WWW2009 conference,.
[10] Kazunari Sugiyama and Manabu Okumura, Web People Search Task Using Semi-Supervised Clustering Approach, Tokyo Institute of Technology, 1st Web People SearchEvaluation Workshop (WePS 2007), 2007, pp. 318 -320 [11] Martin F. Porter. 1980. An algorithm for suffix stripping.Program, 14(3):130–
b
[12] Masaki Ikeda and Shingo Onossei Sato. Person Name Disambiguation on the Web by Two-Stage Clustering. In 2nd Web People SearchEvaluation Workshop (WePS 2009), 2009, pp. 1-6.
[13] Tao Cheng, Xifeng Yan, Kevin Chen-Chuan Chang. EntityRank: Searching Entities Directly and Holistically. In VLDB: Proceedings of the 33rd international conference on very large data bases, 2007, pp. 4-9.
[14] Xiaojun Wan, Jianfeng Gao, Mu Li and Binggong Ding. Person Resolution in Person Search Results: WebHawk. Proceedings of the 14th ACM international conference on Information and knowledge management, 2005, pp. 1-8.
[15] Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg.Top 10 algorithms in data mining, pages 17-19, 4 December 2007, pp.17-19.
[16] http://nlp.uned.es/weps/