Năm 2005, Malin [16] đưa ra một cách giải quyết bài toán phân biệt nhập nhằng tên người dựa trên lý thuyết đồ thị. Bài toán này áp dụng với cơ sở dữ liệu phim
Internet (Internet Movie Database – IMDB). Trong đó, tên của diễn viên được biểu
diễn bởi một đỉnh, và cặp nối giữa 2 đỉnh hay giữa 2 diễn viên biểu thị cho mối quan hệ là họ đóng trong cùng một phim. Sau đó đồ thị này được sử dụng phân biệt các đỉnh
Trong các bài báo của tác giả Elmacioglu [12] và Reema [17] các tác giả bổ sung
thêm những đặc trưng về liên kết cho việc tính tương đồng giữa ngữ cảnh nơi tên
người xuất hiện. Reema cho rằng nếu 2 trang Web chứa tên người thuộc cùng về một
domain thì khả năng cao là 2 tên đó cùng chỉ về một người, và loại trừ những trang
web thuộc về mạng xã hội vì chúng nằm ngoài giả định này. Elmacioglu biễu diễn các
liên kết bằng mô hình vector, trong đó mỗi liên kết là một chiều và trọng số được đánh
số theo phương pháp tf-idf. Trong hệ thống PNUS, Elmacioglu còn khai thác thêm tính giàu thông tin của địa chỉ urltheo phương pháp của hệ thống MeURL[17]. Ví dụ địa chỉ url có dạng: “http://www.cs.ualberta.ca/~lindek/” tự nó gợi ý rằng đây là trang chủ củatác giảLindek tại ngành khoa học máy tính, đại học Alberta, Canada.
Tóm tắt chương hai
Trong chương hai, khóa luận giới thiệu chi tiết các phương pháp tiêu biểu trên thế giới để giải quyết vấn đề phân biệt nhập nhằng tên người trên tập văn bản. Các phương pháp tập trung vào việc thể hiện ngữ cảnh nơi mà tên người và xuất hiện và đo độ tương đồng giữa các ngữ cảnh này và cuối cùng là phân cụm ngữ cảnh hay phân
cụm văn bản chứa ngữ cảnh. Một điều dễ nhận thấy là các phương pháp này đều phụ
thuộc rất nhiều vào miễn dữ liệu để có được kết quả chính xác. Trong chương tiếp
theo, khóa luận sẽ tập trung vào việc khai thác những đặc trưng của miền dữ liệu khóa
luận thực hiện là các trang Web tin tức của các báo điện tử Việt Nam để xây dựng nên ngữ cảnh tên người và đề xuất mô hình cho việc giải quyết nhập nhằng tên người trên tập văn bản, ứng dụng của nó trong hệ thống tìm kiếm thực thể người.
Chương 3: Mô hình hệ thống phân biệt nhập nhằng tên người