STT Tên ngƣời Số thực thể ngƣời Số tài liệu
1 2 3 4 5 6 7 8 9 10
Nguyễn Văn Nam Nguyễn Thị Ngọc Anh Lê Thị Thu Hà
Nguyễn Thị Hiền Trần Văn Hùng Nguyễn Thị Loan Nguyễn Thị Thanh Nga Nguyễn Văn Sơn
Nguyễn Quang Vinh Nguyễn Anh Tuấn
8 11 12 14 15 12 17 16 16 9 20 20 20 20 20 20 20 20 20 20 Tổng số trang 200
Từ các trang web thu thập về, tiến hành tiền xử lý để lấy nội dung chính của trang. Sau đó trích chọn các đặc trưng. Khóa luận tập trung thực nghiệm pha biểu diễn mơ hình thơng tin Người và phân cụm các văn bản nên chúng tôi giả thiết rằng kết quả việc trích chọn đặc trưng đạt chính xác 100% (thơng qua việc trích chọn bằng tay)
55
4.2.2. Trích chọn đặc trƣng
Trích xuất bằng tay 9 đặc trưng của người là: tên người, giới tính, ngày sinh, quê quán, nghề nghiệp, email, số điện thoại, các tên người khác và các thuật ngữ khác cùng xuất hiện với tên người cần phân biệt.
Đặc trưng giới tính được xác định theo quy tắc sau:
Đối với các văn bản có nói về giới tính của thực thể người cần phân biệt, trích trọn đặc trưng giới tính trong văn bản.
Đối với các văn bản khơng nói về giới tính của thực thể người cần phân biệt, có thể suy luận như sau:
- Các tên người đi liền với các đại từ: “ông”, “bố”, “ba”, “chú”, “anh”, “cậu”, “thằng”, “hắn”… thì giới tính của thực thể người sử dụng tên này là “Nam”. - Các tên người đi liền là các đại từ: “bà”, “mẹ”, “má”, “cơ”, “gì”, “chị”, “ả”
… thì giới tính của thực thể người sử dụng tên này là “Nữ”.
Đối với các đặc trưng tên người khác và thuật ngữ khác cùng xuất hiện với tên người cần phân biệt.
Xác định thực thể tên người cần phân biệt có trong văn bản.
Xác định các đặc trưng danh từ và thực thể tên xung quanh tên người cần phân biệt, lọc bỏ các danh từ quá phổ biến, trích chọn các đặc trưng lấy cửa sổ với độ rộng là 10.
Các đặc trưng đã trích trọn được lưu vào văn bản đi .txt có định dạng như sau:
56
4.2.3. Biểu diễn mơ hình thơng tin Ngƣời:
Từ file đặc trưng của người, chúng tôi tiến hành biểu diễn thành mơ hình thơng tin người <N, P, Q, R>. Ví dụ, với file đặc trưng người như trong hình 21, kết quả của mơ hình thơng tin người:
N: <Nguyễn Văn Sơn> P: <Nam>
Q: <trưởng đoàn nghệ thuật quân khu V>
R: <Nguyễn Văn Trọng, Trương Thanh Dung> , <giấy giới thiệu, Bộ Quốc phịng>
Tính trọng số cho các đặc trưng:
Trọng số của đặc trưng nghề nghiệp được tính theo phương pháp Boolean
Trọng số của đặc trưng tên người khác và thuật ngữ khác được tính theo phương pháp TF-IDF
4.2.4. Phân cụm
Trong pha này, khóa luận sử dụng gói KLTN_Disambiguation để làm các nhiệm vụ sau:
Tính độ tương đồng:
Xây dựng ba vector lưu các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác và các trọng số tương ứng của nó.
Tính độ tương đồng giữa các văn bản:
- Tính độ tương đồng giữa ba cặp vector tương ứng sử dụng phương pháp tính độ tương đồng Cosin giữa hai vector.
So sánh giữa hai xâu có một số phương pháp: tính độ tương đồng cosin giữa hai xâu và so khớp.
Phương pháp sánh độ tương đồng cosin giữa hai xâu: Xét độ tương đồng
ở mức so khớp từ. Vì vây, đối với các đặc trưng khác nhau, nhưng có hình thức thể hiện qua bằng các từ là khá giống nhau, sẽ mang lại một sự tương đồng đáng kể, điều này gây sai sót trong việc tính độ tương đồng của cả vector. Ví dụ, hai xâu Nguyễn Văn A và Nguyễn Văn B.
Phương pháp so khớp: Tiến hành so khớp cả hai xâu với nhau, nếu hai
57
hai xâu không giống nhau, độ tương đồng là 0. Phương pháp này đang được khóa luận sử dụng.
- Tổng hợp ba độ tương đồng của ba cặp vector nghề nghiệp, tên người khác và thuật ngữ khác thành một độ đo tương đồng bằng công thức độ chắc chắn Stanford.
Tính độ tương đồng giữa cụm cụm:
- Tổng hợp các vector đặc trưng của các văn bản trong cụm thành 3 vector đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác của cụm.
- Tính độ tương đồng giữa hai cụm giống với cơng việc tính độ tương đồng giữa hai văn bản đã nêu ở bước trên.
Phân cụm HAC:
Qua quá trình khảo sát dữ liệu và kiểm thử, chúng tơi chọn các ngưỡng tương đồng cho các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác lần lượt là (3, 1.5, 1.2) và ngưỡng dừng cho thuật toán phân cụm HAC là ngưỡng chắc chắn tương đồng giữa hai cụm . Kết quả phân cụm của chương trình như bảng sau: