Hệ thống phân biệt thực thể người sử dụng không gian vector

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 31 - 32)

Hệ thống được xây dựng dựa trên hệ thống CAMP (phát triển bởi trường đại học Pennsylvania) sử dụng đồng tham chiếu trong một văn bản. Đầu vào của của hệ thống là tập các tài liệu chứa tên người nhập nhằng. Đầu tiên, tập văn bản được cho qua hệ thống CAMP. Với mỗi tài liệu được đưa vào, kết quả đầu ra sẽ là các chuỗi các thực thể và các tham chiếu của nó trong văn bản. Bước tiếp theo, module SentenceExtractor sẽ trích xuất tất cả các câu có chứa cụm danh từ và đại từ tạo thành chuỗi đồng tham chiếu. Nói cách khác, module SentenceExtractor sẽ tạo ra một bản tóm tắt biểu diễn chuỗi thực thể của mỗi bài viết hướng về thực thể được quan tâm. Với module VSM-Disambiguate, mỗi bản tóm tắt sẽ được được lưu dưới dạng một vector, mỗi phần tử trong vector là trọng số của từ khóa tương ứng. Sử dụng độ tương đồng Cosin để đánh giá độ tương đồng giữa hai vector, nếu độ tương đồng của chúng lớn hơn một ngưỡng nhất định thì hai tài liệu được

20

coi là cùng nói về một người. Đầu ra của thuật toán là các tài liệu đã được phân cụm, mỗi cụm là một chuỗi các tài liệu được coi là cùng đề cập đến một thực thể.

Các bước chính của thuật tốn đồng tham chiếu thơng qua tài liệu được mô tả như sau:

- Đầu tiên, mỗi tài liệu được đưa vào vào hệ thống CAMP. Kết quả của hệ thống là các chuỗi đồng tham chiếu cho mỗi thực thể được mơ tả trong bài báo đó.

Xem xét ví dụ với đầu vào là hai đoạn văn trích ra từ hai tài liệu đầu vào doc.36 và doc.38 như hình 9 và hình 10.

John Parry, of Weston Golf Club, announced his regination yesterday. He was President of Massachusetts Golf Association. During his two years, Perry guided the MGA into a closer relationship with Woment’s Golf Association of Massachusetts.

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 31 - 32)

Tải bản đầy đủ (PDF)

(78 trang)