Một số cách tiếp cận khác

Một phần của tài liệu ĐỀ TÀI " PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ " docx (Trang 27 - 29)

Năm 2005, Malin [16] đưa ra một cách giải quyết bài toán phân biệt nhập nhằng tên người dựa trên lý thuyết đồ thị. Bài toán này áp dụng với cơ sở dữ liệu phim Internet (Internet Movie Database – IMDB). Trong đó, tên của diễn viên được biểu diễn bởi một đỉnh, và cặp nối giữa 2 đỉnh hay giữa 2 diễn viên biểu thị cho mối quan hệ là họđóng trong cùng một phim. Sau đó đồ thị này được sử dụng phân biệt các đỉnh có cùng tên bằng cách phân tích những đỉnh hàng xóm của chúng.

21

Trong các bài báo của tác giả Elmacioglu [12] và Reema [17] các tác giả bổ sung thêm những đặc trưng về liên kết cho việc tính tương đồng giữa ngữ cảnh nơi tên người xuất hiện. Reema cho rằng nếu 2 trang Web chứa tên người thuộc cùng về một domain thì khả năng cao là 2 tên đó cùng chỉ về một người, và loại trừ những trang web thuộc về mạng xã hội vì chúng nằm ngoài giảđịnh này. Elmacioglu biễu diễn các liên kết bằng mô hình vector, trong đó mỗi liên kết là một chiều và trọng sốđược đánh số theo phương pháp tf-idf. Trong hệ thống PNUS, Elmacioglu còn khai thác thêm tính giàu thông tin của địa chỉ url theo phương pháp của hệ thống MeURL[17]. Ví dụ địa chỉ url có dạng: “http://www.cs.ualberta.ca/~lindek/” tự nó gợi ý rằng đây là trang chủ của tác giả Lindek tại ngành khoa học máy tính, đại học Alberta, Canada.

Tóm tt chương hai

Trong chương hai, khóa luận giới thiệu chi tiết các phương pháp tiêu biểu trên thế giới để giải quyết vấn đề phân biệt nhập nhằng tên người trên tập văn bản. Các phương pháp tập trung vào việc thể hiện ngữ cảnh nơi mà tên người và xuất hiện và đo độ tương đồng giữa các ngữ cảnh này và cuối cùng là phân cụm ngữ cảnh hay phân cụm văn bản chứa ngữ cảnh. Một điều dễ nhận thấy là các phương pháp này đều phụ thuộc rất nhiều vào miễn dữ liệu để có được kết quả chính xác. Trong chương tiếp theo, khóa luận sẽ tập trung vào việc khai thác những đặc trưng của miền dữ liệu khóa luận thực hiện là các trang Web tin tức của các báo điện tử Việt Nam để xây dựng nên ngữ cảnh tên người và đề xuất mô hình cho việc giải quyết nhập nhằng tên người trên tập văn bản, ứng dụng của nó trong hệ thống tìm kiếm thực thể người.

22

Chương 3: Mô hình h thng phân bit nhp nhng tên người

Một phần của tài liệu ĐỀ TÀI " PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ " docx (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(50 trang)