Xây dựng tập dữ liệu thực nghiệm

Do chưa có bộ test chuẩn bằng tiếng Việt cho bài toán phân biệt tên người, chúng tôi chọn ra 10 tên người có độ nhập nhằng cao trên môi trường Web, tiến hành thu thập

30 trang web cho mỗi tên người từ ba trang báo tin tức điện tử phổ biến: VnExpress.Net, VietNamNet.Vn và TuoiTre.Vn. Danh sách tên người được mô tả như bảng 4-3:

Bảng 4-3: Bảng tập tên người thực nghiệm trong mô hình

STT Tên ngƣời Số thực thể ngƣời Số tài liệu

1 2 3 4 5 6 7 8 9 10

Nguyễn Văn Nam Nguyễn Thị Ngọc Anh Lê Thị Thu Hà

Nguyễn Thị Hiền Trần Văn Hùng Nguyễn Thị Loan Nguyễn Thị Thanh Nga Nguyễn Văn Sơn

Nguyễn Quang Vinh Nguyễn Anh Tuấn

8 11 12 14 15 12 17 16 16 9 20 20 20 20 20 20 20 20 20 20 Tổng số trang 200

Từ các trang web thu thập về, tiến hành tiền xử lý để lấy nội dung chính của trang. Sau đó trích chọn các đặc trưng. Khóa luận tập trung thực nghiệm pha biểu diễn mô hình thông tin Người và phân cụm các văn bản nên chúng tôi giả thiết rằng kết quả việc trích chọn đặc trưng đạt chính xác 100% (thông qua việc trích chọn bằng tay)

4.2.2. Trích chọn đặc trƣng

Trích xuất bằng tay 9 đặc trưng của người là: tên người, giới tính, ngày sinh, quê quán, nghề nghiệp, email, số điện thoại, các tên người khác và các thuật ngữ khác cùng xuất hiện với tên người cần phân biệt.

Đặc trưng giới tính được xác định theo quy tắc sau:

 Đối với các văn bản có nói về giới tính của thực thể người cần phân biệt, trích trọn đặc trưng giới tính trong văn bản.

 Đối với các văn bản không nói về giới tính của thực thể người cần phân biệt, có thể suy luận như sau:

- Các tên người đi liền với các đại từ: “ông”, “bố”, “ba”, “chú”, “anh”, “cậu”, “thằng”, “hắn”… thì giới tính của thực thể người sử dụng tên này là “Nam”. - Các tên người đi liền là các đại từ: “bà”, “mẹ”, “má”, “cô”, “gì”, “chị”, “ả”

… thì giới tính của thực thể người sử dụng tên này là “Nữ”.

Đối với các đặc trưng tên người khác và thuật ngữ khác cùng xuất hiện với tên người cần phân biệt.

 Xác định thực thể tên người cần phân biệt có trong văn bản.

 Xác định các đặc trưng danh từ và thực thể tên xung quanh tên người cần phân biệt, lọc bỏ các danh từ quá phổ biến, trích chọn các đặc trưng lấy cửa sổ với độ rộng là 10.

Các đặc trưng đã trích trọn được lưu vào văn bản đuôi .txt có định dạng như sau:

4.2.3. Biểu diễn mô hình thông tin Ngƣời:

Từ file đặc trưng của người, chúng tôi tiến hành biểu diễn thành mô hình thông tin người <N, P, Q, R>. Ví dụ, với file đặc trưng người như trong hình 21, kết quả của mô hình thông tin người:

N: <Nguyễn Văn Sơn> P: <Nam>

Q: <trưởng đoàn nghệ thuật quân khu V>

R: <Nguyễn Văn Trọng, Trương Thanh Dung> , <giấy giới thiệu, Bộ Quốc phòng>

 Tính trọng số cho các đặc trưng:

 Trọng số của đặc trưng nghề nghiệp được tính theo phương pháp Boolean

 Trọng số của đặc trưng tên người khác và thuật ngữ khác được tính theo phương pháp TF-IDF

4.2.4. Phân cụm

Trong pha này, khóa luận sử dụng gói KLTN_Disambiguation để làm các nhiệm vụ sau:

 Tính độ tương đồng:

 Xây dựng ba vector lưu các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác và các trọng số tương ứng của nó.

 Tính độ tương đồng giữa các văn bản:

- Tính độ tương đồng giữa ba cặp vector tương ứng sử dụng phương pháp tính độ tương đồng Cosin giữa hai vector.

So sánh giữa hai xâu có một số phương pháp: tính độ tương đồng cosin giữa hai xâu và so khớp.

Phương pháp sánh độ tương đồng cosin giữa hai xâu: Xét độ tương đồng

ở mức so khớp từ. Vì vây, đối với các đặc trưng khác nhau, nhưng có hình thức thể hiện qua bằng các từ là khá giống nhau, sẽ mang lại một sự tương đồng đáng kể, điều này gây sai sót trong việc tính độ tương đồng của cả vector. Ví dụ, hai xâu Nguyễn Văn A và Nguyễn Văn B.

Phương pháp so khớp: Tiến hành so khớp cả hai xâu với nhau, nếu hai

hai xâu không giống nhau, độ tương đồng là 0. Phương pháp này đang được khóa luận sử dụng.

- Tổng hợp ba độ tương đồng của ba cặp vector nghề nghiệp, tên người khác và thuật ngữ khác thành một độ đo tương đồng bằng công thức độ chắc chắn Stanford.

 Tính độ tương đồng giữa cụm cụm:

- Tổng hợp các vector đặc trưng của các văn bản trong cụm thành 3 vector đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác của cụm.

- Tính độ tương đồng giữa hai cụm giống với công việc tính độ tương đồng giữa hai văn bản đã nêu ở bước trên.

 Phân cụm HAC:

Qua quá trình khảo sát dữ liệu và kiểm thử, chúng tôi chọn các ngưỡng tương đồng cho các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác lần lượt là (3, 1.5, 1.2) và ngưỡng dừng cho thuật toán phân cụm HAC là ngưỡng chắc chắn tương đồng giữa hai

cụm . Kết quả phân cụm của chương trình như bảng sau:

Bảng 4-4: Kết quả phân cụm tự động của chương trình

STT Tên ngƣời Số thực thể ngƣời Số cụm

1 2 3 4 5 6 7 8 9 10

Nguyễn Văn Nam Nguyễn Thị Ngọc Anh Lê Thị Thu Hà

Nguyễn Thị Hiền Trần Văn Hùng Nguyễn Thị Loan Nguyễn Thị Thanh Nga Nguyễn Văn Sơn

Nguyễn Quang Vinh Nguyễn Anh Tuấn

8 11 12 14 15 11 17 16 16 9 7 14 16 12 17 14 18 18 18 13

 Mô tả cụm:

Hiển thị ra màn hình các cụm và các đặc trưng của thực thể người được mô tả trong mỗi cụm. Hình 25 mô tả các đặc trưng của thực thể người tương ứng với cụm số 3 và có tên là “Nguyễn Văn Nam”.

4.4. Đánh giá

4.4.1. Phƣơng pháp đánh giá.

Luận văn tốt nghiệp sử dụng phương pháp đánh giá Javier Artiles và cộng sự [8] tại WebPS-1, 2007 để đánh giá kết quả . (Hội nghị lớn nhất về các vấn đề trong tìm kiếm thực thể người). Phương pháp đánh giá của hội nghị được xây dựng dựa trên độ tinh khiết (purity), độ nghịch đảo tinh khiết (inverse purity) và độ đo F.

Các ký hiệu chung:

- C = {C1, C2, … } là tập các cụm cần đánh giá

- L = {L1, L2, … }là tập các mục được đánh giá bằng tay

- n là số lượng văn bản được phân cụm

Công thức độ tinh khiết

Độ tinh khiết được tính bằng phương pháp lấy trung bình có trọng số độ chính xác của việc phân cụm.

∑| |

( )

Trong đó độ chính xác của cụm Ci ứng với mỗi cụm Lj được định nghĩa như sau:

( ) | ⁄ |

Công thức độ nghịch đảo tinh khiết

∑| | ( ) Công thức độ đo F:

4.4.2. Kết quả kiểm thử

Dựa trên số lượng thực thể người của mỗi tên người và kết quả phân cụm của chương trình, chúng tôi đánh giá hệ thống dựa trên 3 độ đo là độ tinh khiết, nghịch đảo độ tinh khiết và độ đo F với hai giá trị và .

Bảng 4-4: Bảng đánh giá kết quả phân cụm của hệ thống

STT Tên Ngƣời Độ tinh khiết(P) Nghịch đảo độ tinh khiết(IP) F (0,2) F(0,5)

1 Nguyễn Văn Nam 0.9 0.95 0.94 0.92

2 Nguyễn Thị Ngọc Anh 0.85 0.8 0.81 0.82

3 Lê Thị Thu Hà 0.85 0.7 0.72 0.76

4 Nguyễn Thị Hiền 0.8 0.9 0.88 0.85

5 Trần Văn Hùng 0.9 0.8 0.82 0.85

6 Nguyễn Thị Loan 0.7 0.85 0.81 0.74

7 Nguyễn Thị Thanh Nga 0.9 0.95 0.94 0.92

8 Nguyễn Văn Sơn 0.85 0.9 0.89 0.85

9 Nguyễn Quang Vinh 0.85 0.9 0.89 0.85

10 Nguyễn Anh Tuấn 0.7 0.8 0.78 0.75

Trung bình 0.83 0.855 0.848 0.831 4.5. Nhận xét

Phương pháp phân biệt tên người của khóa luận đã kết hợp được các đặc trưng mạnh để xác định thực thể người là các đặc trưng thuộc tính và các đặc trưng mạng xã hội đã mang lại kết quả thử nghiệm khá khả quan với F0.5 = 84,8%% và F0,2 = 83.1 %. Tuy nhiên, hệ thống vẫn còn những nhược điểm sau:

Với trường hợp tên người cần phân biệt trùng với tên các người nổi tiếng trong lĩnh vực giải trí, thể thao, chính trị … các bài báo thường không mang các thông tin định danh mạnh về người đó, chính vì vậy phương pháp vẫn chưa mang được hiệu quả như mong đợi. Trong thực nghiệm của khóa luận, với tên người là “Nguyễn Thị Loan”, trùng với tên Hoa hậu biển Việt Nam năm 2010, kết quả bước phân cụm của hệ thống chưa được cao với độ đo F0.5 = 0.74.

Trong nhiều trường hợp, một người tham gia nhiều lĩnh vực khác nhau và những đặc trưng trên mỗi trang giúp nhận ra đó chỉ là một người là quá ít. Đây là một khó khăn lớn cho các hệ thống không giám sát, vì không có đầy đủ tri thức về người xuất hiện trong các bài báo để phân biệt và ghép nối thông tin. Hệ thống của chúng tôi cũng chưa đem lại kết quả tốt cho trường hợp này.

Kết luận

Từ việc nghiên cứu bài toán phân biệt tên người, khóa luận đã đưa ra mô hình phân biệt tên người dựa trên mô hình thông tin Người cho tiếng Việt. Qua những kết quả thực nghiệm đạt được cho thấy mô hình là khả thi và có thể áp dụng vào thực tế.

Về mặt nội dung, khóa luận đã đạt được những kết quả sau:

 Giới thiệu bài toán phân biệt tên người và các khái niệm liên quan.

 Tìm hiểu và phân tích các phương pháp phân biệt tên người điển hình trên thế giới, trong đó tập trung vào phương pháp dựa vào mô hình thông tin Người.  Dựa vào phân biệt đặc trưng của miền dữ liệu báo tin tức điện tử Việt Nam,

khóa luận đưa ra được mô hình phân biệt tên người phù hợp với miền dữ liệu đã chọn: Mô hình phân biệt tên người dựa vào mô hình thông tin Người trong tiếng Việt. Phương pháp có ưu điểm là sử dụng được cả các đặc trưng phân biệt tên người mạnh là các đặc trưng thuộc tính người và các đặc trưng về mạng xã hội.

 Đưa ra mô hình hệ thống tím kiếm thực thể người dựa trên bài toán phân biệt nhập nhằng

 Cài đặt và thử nghiệmpha phân cụm của hệ thống trên một tập nhỏ tên người có độ nhập nhằng cao và cho kết quả khả quan.

Bên cạnh kết quả đạt được, do hạn chế về mặt tời gian và kiến thức, khóa luận vẫn còn những hạn chế sau:

 Phương pháp sử dụng khá nhiều các tài nguyên về xử lý ngôn ngữ tự nhiên.

 Việc so khớp từ vẫn còn nhiều hạn chế như từ viết tắt, các từ về đặc trưng nghề nghiệp nên có trọng số cao hơn…

 Do hệ thống tìm kiếm là một bài toán lớn gồm nhiều thành phần phức tạp và thời gian có hạn, khóa luận chưa hoàn thành được một hệ thống hoàn chỉnh. Hướng tiếp cận giải quyết bài toán phân biệt tên người trong tiếng Việt theo mô hình thông tin Người là bước khởi đầu tốt cho việc nghiên cứu trong tương lai. Trong thời gian tới, khóa luận sẽ được phát triển theo hướng sau:

 Một là, cài đặt hệ thống tự động cho tất cả các pha bao gồm: pha thu thập và xử lý dữ liệu, pha trích chọn đặc trưng và pha phân cụm.

 Hai là, kết hợp thêm một số đặc trưng về thực thể định danh, siêu liên kết và các đọ đo tương đồng cho ngữ cảnh tên người.

PHỤ LỤC

Bảng 5-1: Nhãn của các loại đặc trưng người

Số thứ tự Nhãn Đặc trƣng

1 NAME Tên người đầy đủ

2 GENDER Giới tính

3 BIRTH Ngày sinh

4 HOMETOWN Quê quán

5 EMAIL Email

6 TEL Số điện thoại

7 JOB Nghề nghiệp

8 R1 Tên người khác

TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt

[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản giáo dục Việt Nam, 10-2009.

[2] Nguyễn Cẩm Tú. Đoán nhận và giải quyết nhập nhằng thực thể Tiếng Việt trên

môi trường Web. Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp ĐHQGHN,

2008:

[3] Nguyễn Đạo Thái. Mô hình hệ thống phân biệt nhập nhằng tên người trong tập

văn bản và áp dụng trong hệ thống tìm kiếm thực thể người. Khóa luận tốt nghiệp

Đại Học Công Nghệ-ĐHQGHN, 2010:33-34.

Tài liệu tiếng Anh

[4] A. Bagga, and B. Baldwin. Entity-Based Cross-Document Coreferencing Using the

Vector Space Model. COLING-ACL'98, 1998.

[5] E. Elmacioglu, Y. F. Tan, S. Yan, M. Kan, D. Lee. PSNUS: Web People Name

Disambiguation by Simple Clustering with Rich Features. WePS-1, 2007:268-271

[6] G. Salton, A. Wong and C. S. Yang. A Vector Space Model for Automatic

Indexing, Communication of the ACM, 18(11), 1975:613-621

[7] Hua-Ping ZHANG, Zhi-Hua LIU, Qian MO, He-Yan HUANG. Chinese Personal

Name Disambiguation Based on Person Modeling. CIPS-SIGHAN Joint

Conference on Chinese Language Processing 2010 (CLP 2010): 374-378. [8] Javier Artiles, Julio Gonzalo and Satoshi Sekine. The SemEval-2007WePS

Evaluation: Establishing a benchmark for the Web People Search Task. WePS -1,

2007:64-69

[9] Javier Artiles, Julio Gonzalo and Satoshi Sekine. WePS 2 Evaluation

[10] Javier Artiles, Andrew Borthwick, Julio Gonzalo, Satoshi Sekine, Enrique Amigo. WePS-3 Evaluation Campaign: Overview of the Web People Search

Clustering and Attribute Extraction Tasks. WePS-3, 2010.

[11] Jenny R. Finkel, Trond Grenager, and Christopher Manning. Incorporating non-

local information into information extraction systems by Gibbs sampling. In ACL,

2005:363–370.

[12] Jiashen Sun, Tianmin Wang, Li Li. Person Name Disambiguation based on Topic

Model. WePS-3, 2010.

[13] G.F. Luger and W.A. Stubblefield. Artificial Intelligence: Structures and

Strategies for Complex Problem Solving, Third Edition. Addison Wesley

Longman, Inc., 1997:263-266.

[14] Martin F. Porter. An algorithm for sufﬁx stripping. Program, 14(3), 1980:130–137. [15] Min-Yen Kan and Hoang Oanh Nguyen Thi. Fast webpage classiﬁcation using

URL features. In CIKM, 2005:325–326.

[16] Sándor Dominich. The Modern Algebra of Information Retrieval. The Book Published by Springer, 2008:84-87

[17] Trần Nam Khánh. Some studies on a probabilistic framework for finding object-

oriented information in unstructured data. Undergraduate thesis, College of

Technology, VietNam National Univeristiy, Hanoi,2009:4-5

[18] http://eblogviet.com/hitek/top-10-tu-khoa-duoc-tim-nhieu-nhat-nam-2009- michael-jackson-thong-tri-1.html [19] http://nlp.uned.es/weps [20] http://tuoitre.vn/ [21] http://vietnamnet.vn/vn/index.html [22] http://vnexpress.net/ [23] http://www.vinatut.net/2011/04/10-tu-khoa-uoc-tim-nhieu-nhat-tren.html [24] http://www.vn-seo.com/10-tu-khoa-duoc-tim-kiem-nhieu-nhat-tren-yahoo-nam- 2010/ [25] http://www.vn-seo.com/top-10-tu-khoa-duoc-tim-nhieu-nhat-tren-bing/

Mô hình không gian vector

Phân cụm phân cấp HAC (Hierachical agglomerative clustering)