Trong pha này, khóa luận sử dụng gói KLTN_Disambiguation để làm các nhiệm vụ sau:
Tính độ tương đồng:
Xây dựng ba vector lưu các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác và các trọng số tương ứng của nó.
Tính độ tương đồng giữa các văn bản:
- Tính độ tương đồng giữa ba cặp vector tương ứng sử dụng phương pháp tính độ tương đồng Cosin giữa hai vector.
So sánh giữa hai xâu có một số phương pháp: tính độ tương đồng cosin giữa hai xâu và so khớp.
Phương pháp sánh độ tương đồng cosin giữa hai xâu: Xét độ tương đồng
ở mức so khớp từ. Vì vây, đối với các đặc trưng khác nhau, nhưng có hình thức thể hiện qua bằng các từ là khá giống nhau, sẽ mang lại một sự tương đồng đáng kể, điều này gây sai sót trong việc tính độ tương đồng của cả vector. Ví dụ, hai xâu Nguyễn Văn A và Nguyễn Văn B.
Phương pháp so khớp: Tiến hành so khớp cả hai xâu với nhau, nếu hai
57
hai xâu không giống nhau, độ tương đồng là 0. Phương pháp này đang được khóa luận sử dụng.
- Tổng hợp ba độ tương đồng của ba cặp vector nghề nghiệp, tên người khác và thuật ngữ khác thành một độ đo tương đồng bằng công thức độ chắc chắn Stanford.
Tính độ tương đồng giữa cụm cụm:
- Tổng hợp các vector đặc trưng của các văn bản trong cụm thành 3 vector đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác của cụm.
- Tính độ tương đồng giữa hai cụm giống với công việc tính độ tương đồng giữa hai văn bản đã nêu ở bước trên.
Phân cụm HAC:
Qua quá trình khảo sát dữ liệu và kiểm thử, chúng tôi chọn các ngưỡng tương đồng cho các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác lần lượt là (3, 1.5, 1.2) và ngưỡng dừng cho thuật toán phân cụm HAC là ngưỡng chắc chắn tương đồng giữa hai
cụm . Kết quả phân cụm của chương trình như bảng sau:
Bảng 4-4: Kết quả phân cụm tự động của chương trình
STT Tên ngƣời Số thực thể ngƣời Số cụm
1 2 3 4 5 6 7 8 9 10
Nguyễn Văn Nam Nguyễn Thị Ngọc Anh Lê Thị Thu Hà
Nguyễn Thị Hiền Trần Văn Hùng Nguyễn Thị Loan Nguyễn Thị Thanh Nga Nguyễn Văn Sơn
Nguyễn Quang Vinh Nguyễn Anh Tuấn
8 11 12 14 15 11 17 16 16 9 7 14 16 12 17 14 18 18 18 13
58
Mô tả cụm:
Hiển thị ra màn hình các cụm và các đặc trưng của thực thể người được mô tả trong mỗi cụm. Hình 25 mô tả các đặc trưng của thực thể người tương ứng với cụm số 3 và có tên là “Nguyễn Văn Nam”.
59