Một số cách tiếp cận khác

Một phần của tài liệu LUẬN VĂN: PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ ppt (Trang 27 - 29)

Năm 2005, Malin [16] đưa ra một cách giải quyết bài toán phân biệt nhập nhằng tên người dựa trên lý thuyết đồ thị. Bài toán này áp dụng với cơ sở dữ liệu phim

Internet (Internet Movie Database – IMDB). Trong đó, tên của diễn viên được biểu

diễn bởi một đỉnh, và cặp nối giữa 2 đỉnh hay giữa 2 diễn viên biểu thị cho mối quan hệ là họ đóng trong cùng một phim. Sau đó đồ thị này được sử dụng phân biệt các đỉnh

Trong các bài báo của tác giả Elmacioglu [12] và Reema [17] các tác giả bổ sung

thêm những đặc trưng về liên kết cho việc tính tương đồng giữa ngữ cảnh nơi tên

người xuất hiện. Reema cho rằng nếu 2 trang Web chứa tên người thuộc cùng về một

domain thì khả năng cao là 2 tên đó cùng chỉ về một người, và loại trừ những trang

web thuộc về mạng xã hội vì chúng nằm ngoài giả định này. Elmacioglu biễu diễn các

liên kết bằng mô hình vector, trong đó mỗi liên kết là một chiều và trọng số được đánh

số theo phương pháp tf-idf. Trong hệ thống PNUS, Elmacioglu còn khai thác thêm tính giàu thông tin của địa chỉ urltheo phương pháp của hệ thống MeURL[17]. Ví dụ địa chỉ url có dạng: “http://www.cs.ualberta.ca/~lindek/” tự nó gợi ý rằng đây là trang chủ củatác giảLindek tại ngành khoa học máy tính, đại học Alberta, Canada.

Tóm tắt chương hai

Trong chương hai, khóa luận giới thiệu chi tiết các phương pháp tiêu biểu trên thế giới để giải quyết vấn đề phân biệt nhập nhằng tên người trên tập văn bản. Các phương pháp tập trung vào việc thể hiện ngữ cảnh nơi mà tên người và xuất hiện và đo độ tương đồng giữa các ngữ cảnh này và cuối cùng là phân cụm ngữ cảnh hay phân

cụm văn bản chứa ngữ cảnh. Một điều dễ nhận thấy là các phương pháp này đều phụ

thuộc rất nhiều vào miễn dữ liệu để có được kết quả chính xác. Trong chương tiếp

theo, khóa luận sẽ tập trung vào việc khai thác những đặc trưng của miền dữ liệu khóa

luận thực hiện là các trang Web tin tức của các báo điện tử Việt Nam để xây dựng nên ngữ cảnh tên người và đề xuất mô hình cho việc giải quyết nhập nhằng tên người trên tập văn bản, ứng dụng của nó trong hệ thống tìm kiếm thực thể người.

Chương 3: Mô hình hệ thống phân biệt nhập nhằng tên người

Một phần của tài liệu LUẬN VĂN: PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ ppt (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(50 trang)