Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA Nguyễn Thanh Hiên PHÂN GIẢI NHẬP NHẰNG THỰC THỂ CÓ TÊN DỰA TRÊN CÁC ONTOLOGY ĐÓNG VÀ MỞ Chuyên ngành: Khoa học Máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS CAO HOÀNG TRỤ TP HCM - NĂM 2010 LỜI CAM ĐOAN Tôi cam đoan nội dung luận án kết nghiên cứu thân Tất tham khảo từ nghiên cứu liên quan điều nêu rõ nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo đề cập phần sau luận án Những đóng góp luận án kết nghiên cứu tác giả công bố báo tác giả phần sau luận án chưa cơng bố cơng trình khoa học khác Tác giả luận án Nguyễn Thanh Hiên i LỜI CẢM ƠN Tôi muốn bày tỏ lời tri ân sâu sắc gởi đến thầy hướng dẫn tôi, PGS TS Cao Hồng Trụ Thầy tận tình bảo từ ngày đầu tiếp cận đường khoa học Thầy dạy từ việc tưởng chừng đơn giản cách thức để thu thập tài liệu liên quan, đến khả tư có phê phán hoài nghi cần thiết hoạt động nghiên cứu Sự tận tình hướng dẫn, cộng với động viên, khích lệ thường xuyên Thầy thật đánh thức khả tiềm ẩn, khơng luận án khơng thể hồn thành Sự cẩn thận, tỉ mỉ, kiên nhẫn nghiêm túc cơng việc đức tính mà Thầy ln nhắc nhở tơi Những Thầy dạy tơi ảnh hưởng sâu sắc đến cá nhân tôi, có tác động lâu dài đến sống, nghiệp tương lai Tôi tin rằng, lời lẽ thông thường không đủ để chuyển tải hết lịng biết ơn với Thầy dạy Dù vậy, muốn viết đây, gởi đến Thầy, lời cảm ơn chân thành Em cảm ơn Thầy! Tơi muốn bày tỏ lịng biết ơn tập thể thầy cô Khoa Khoa học Kỹ thuật máy tính, Trường Đại học Bách Khoa Tp HCM, nơi tơi học tập gắn bó mười năm qua, tính thời gian tơi học đại học làm luận văn thạc sĩ Các thầy ln tạo điều kiện để tơi hồn thành tốt cơng việc mình, dạy dỗ q thầy cô giúp trưởng thành Xin chân thành cảm ơn q thầy Khoa Khoa học Kỹ thuật máy tính Tơi chân thành cảm ơn hỗ trợ giúp đỡ nhiệt thành Phòng Quản lý Sau Đại học, Trường Đại học Bách Khoa Tp HCM thời gian thực luận án Cảm ơn Ban giám hiệu Trường Đại học Bách Khoa Tp HCM, Phịng Khoa học Cơng nghệ & Dự án xét duyệt cho thực đề tài nghiên cứu cấp trường, hỗ trợ tài để trang trải phần kinh phí học tập nghiên cứu thời gian qua Tôi chân thành cảm ơn Tiến sĩ Lê Vinh Danh, Hiệu trưởng Trường Đại học Tôn Đức Thắng, động viên tạo điều kiện thuận lợi cho tơi hồn thành luận án Cảm ơn anh chị Phịng Điện tốn Thông tin tư liệu, Trường Đại học Tôn Đức Thắng, nhiệt tình giúp đỡ tơi thời gian vừa qua Cuối cùng, chân thành cảm ơn người thân, bạn bè bên cạnh động viên, hỗ trợ mặt tinh thần để tơi vượt qua khó khăn hồn thành tốt luận án ii TĨM TẮT Thực thể có tên thực thể tham khảo đến tên riêng, người, tổ chức, nơi chốn Phân giải nhập nhằng thực thể có tên nhằm ánh xạ tên văn vào thực thể nguồn tri thức cho trước Nổi lên gần tốn đầy thách thức, có nhiều ý nghĩa việc thực hóa Web có ngữ nghĩa, phát triển nâng cao ứng dụng xử lý ngôn ngữ tự nhiên, phân giải nhập nhằng thực thể có tên thu hút quan tâm nhiều nhóm nghiên cứu khắp giới Luận án đề xuất ba phương pháp cho tốn này, nghiên cứu sâu ba yếu tố quan trọng ảnh hưởng đến hiệu phân giải nhập nhằng nguồn tri thức sử dụng, đặc trưng biểu diễn thực thể, mô hình phân giải nhập nhằng Các nguồn tri thức khai thác ontology đóng Wikipedia Các ontology đóng xây dựng chuyên gia theo hướng tiếp cận từ xuống, với khái niệm có quan hệ thứ bậc dựa tập từ vựng có kiểm sốt ràng buộc chặt chẽ Wikipedia, xem ontology mở, xây dựng người tình nguyện theo hướng tiếp cận từ lên, với khái niệm hình thành từ tập từ vựng tự thoả thuận mang tính cộng đồng Các đặc trưng nghiên cứu tên thực thể đồng xuất hiện, định danh thực thể xác định, từ với cụm từ xuất xung quanh tên xem xét xung quanh tên đồng tham chiếu với tên văn Ngồi luận án khai thác vị trí xuất hiện, chiều dài tên, tên thường dùng thực thể Luận án đề xuất ba mơ hình phân giải nhập nhằng tương ứng với ba phương pháp nói là: (i) mơ hình dựa heuristic; (ii) mơ hình dựa thống kê; (iii) mơ hình lai - kết hợp heuristic thống kê Điểm chung ba phương pháp phân giải nhập nhằng theo q trình lặp cải thiện dần, bao gồm số bước lặp Thực thể xác định bước lặp sử dụng để phân giải nhập nhằng thực thể lại bước lặp Các thí nghiệm thực để đánh giá chứng tỏ tính hiệu phương pháp đề xuất Luận án nghiên cứu xử lý trường hợp mà tên văn nhận bán phần thực thể đề cập đến văn nằm nguồn tri thức sử dụng, đồng thời đề xuất độ đo hiệu phân giải nhập nhằng tương ứng iii Abstract Named entities are those that are referred to by names such as people, organizations, or locations Named entity disambiguation is a problem that aims at mapping entity names in a text to the right referents in a given source of knowledge Having been emerging in recent years as a challenging problem, but significant to realization of the semantic web, as well as advanced development of natural language processing applications, named entity disambiguation has attracted much attention by researchers all over the world This thesis proposes three methods for disambiguating named entities, and rigoruously investigates the three important factors affecting disambiguation performance, namely, employed knowledge sources, named entity representation features, and disambiguation models The knowledge sources exploited are close ontologies and Wikipedia Close ontologies are built by experts following a top-down approach, with a hierarchy of concepts based on a controlled vocabulary and strict constraints Wikipedia, considered as an open ontology, is built by volunteers following a bottom-up approach, with concepts formed by a free vocabulary and community agreements The investigated features are entity names, identifiers of resolved entities, and words together with phrases surrounding a target name and surrounding names that are coreferential with that target name Besides, the thesis exploits occurrence positions and lengths of names, and main alias of entities This thesis proposes three models corresponding to the three above-mentioned methods: (i) a heuristic-based model; (ii) a statistical model; and (iii) a hybrid model, combining heuristics and statistics The common novelty of the proposed methods is disambiguating named entities iteratively and incrementally, including several iterative steps Those named entities that are resolved in each iterative step will be used to disambiguate the remaining ones in the next iterative steps Experiments are conducted to evaluate and show the advantages of the proposed methods Besides, this thesis deals with the cases when entity names in text are partially recognized and entities referred to in text are outside an employed knowledge source, as well as proposes new corresponding disambiguation performance measures iv MỤC LỤC Lời cam đoan i Lời cảm ơn ii Tóm tắt iii Abstract iv Mục lục v Danh mục bảng vii Danh mục hình ix Danh mục giải thuật x Danh mục thuật ngữ viết tắt xi Chương 1: GIỚI THIỆU 1 1.1 Lịch sử động nghiên cứu 1 1.2 Bài toán phạm vi 15 1.3 Phương pháp luận đề xuất 17 1.4 Những đóng góp luận án 24 1.5 Cấu trúc luận án 26 Chương 2: NỀN TẢNG KIẾN THỨC 28 2.1 Giới thiệu 28 2.2 Ontology 29 2.3 Wikipedia 36 2.4 Mơ hình khơng gian véctơ 45 2.5 Nhận dạng thực thể có tên 46 2.6 Phân giải đồng tham chiếu văn 51 2.7 Phân giải nhập nhằng 59 v 2.8 Kết luận 72 Chương 3: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY 74 3.1 Giới thiệu 74 3.2 Phân hạng ứng viên dựa ontology 75 3.3 Các độ đo hiệu 80 3.4 Thí nghiệm đánh giá 84 3.5 Kết luận 91 Chương 4: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ĐƯỢC LÀM GIÀU 93 4.1 Giới thiệu 93 4.2 Mơ hình phân hạng ứng viên dựa thống kê 95 4.3 Làm giàu ontology 106 4.4 Thí nghiệm đánh giá 110 4.5 Kết luận 111 Chương 5: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN WIKIPEDIA 113 5.1 Giới thiệu 113 5.2 Phương pháp lai 116 5.3 Thí nghiệm đánh giá 125 5.4 Kết luận 130 Chương 6: TỔNG KẾT 132 6.1 Tóm tắt 132 6.2 Hướng nghiên cứu mở rộng 135 CÁC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 137 TÀI LIỆU THAM KHẢO 138 vi DANH MỤC CÁC BẢNG Bảng 2.1: Số liệu thống kê trang, thể loại liên kết trang Wikipedia 45 Bảng 2.2: Các loại trả lời để đánh giá hệ thống nhận dạng thực thể có tên 49 Bảng 2.3: Kết phân giải đồng tham chiếu tên riêng tiếng Việt 59 Bảng 2.4: Minh họa tập liệu huấn luyện Bunescu Paşca (2006) 66 Bảng 2.5: Minh họa đánh giá hiệu phân giải nhập nhằng phương pháp phân giải nhập nhằng vùng địa lý (Leidner, 2007) 71 Bảng 3.1: Định nghĩa ánh xạ sai cho tên văn 82 Bảng 3.2: Minh hoạ cách tính độ xác, độ đầy đủ độ F ánh xạ 84 Bảng 3.3: Số lần xuất (“Georgia”, Location) tập liệu De1 85 Bảng 3.4: Số lần xuất (“Smith”, Person) tập liệu De1 86 Bảng 3.5: Kết phân giải nhập nhằng cho (“Georgia”, Location) 86 Bảng 3.6: Kết phân giải nhập nhằng cho (“Smith”, Person) 87 Bảng 3.7: Kết phân giải nhập nhằng OntoNEON tập Dv sử dụng ontology VN-KIM 87 Bảng 3.8: Độ xác độ đầy đủ ánh xạ VN-KIM OntoNEON tập liệu Dv 88 Bảng 4.1: Thơng tin thực thể Wikipedia có tên “John McCarthy”, “John Williams”, “Georgia”, “Columbia” số lần đề cập đến tập liệu De2 101 Bảng 4.2: Thông tin số lần xuất tên đề cập đến thực thể có bốn tên “John McCarthy”, “John Williams”, “Georgia”, “Columbia” số lượng ánh xạ thực phương pháp 102 vii Bảng 4.3: Độ xác độ đầy đủ ánh xạ tính tốn cho tên “John McCarthy” “John Williams” 103 Bảng 4.4: Độ xác độ đầy đủ ánh xạ tính tốn cho tên “Georgia” “Columbia” 104 Bảng 4.5: Độ xác độ đầy đủ ánh xạ tính trung bình cho tên “John McCarthy”, “John Williams”, “Georgia”, “Columbia” 105 Bảng 4.6: Thống kê lỗi không sử dụng sử dụng định danh thực thể đặc trưng 106 Bảng 4.7: Thông tin số lần xuất tên đề cập đến thực thể có hai tên “Georgia”, “Columbia” số lượng ánh xạ thực phương pháp NOW 110 Bảng 4.8: Kết thực phân giải nhập nhằng NOW tập liệu với “Georgia” “Columbia” 111 Bảng 5.1: Thông tin xuất tên tập liệu De3 126 Bảng 5.2: Thông tin xuất tên tập liệu De31 127 Bảng 5.3: Độ xác độ đầy đủ ánh xạ sau thực thi Giải thuật 5.1 tập liệu De32 128 Bảng 5.4: Độ xác độ đầy đủ ánh xạ sau thực thi Giải thuật 5.1 tập liệu De31 129 viii DANH MỤC CÁC HÌNH Hình 1.1: Một mơ hình phân giải nhập nhằng tiêu biểu 13 Hình 1.2: Một ví dụ phân giải nhập nhằng thực thể có tên 15 Hình 2.1: Một số lớp xử lý ứng dụng rút trích thơng tin 28 Hình 2.2: VN-KIM xử lý thích thực thể có tên trang web tiếng Việt 33 Hình 2.3: Chú thích ngữ nghĩa 33 Hình 2.4: RDF biểu diễn mối quan hệ thực thể sở tri thức VNKIM 34 Hình 2.5: Một mơ hình xử lý động rút trích thơng tin dựa GATE 35 Hình 2.6: Một trang thực thể Wikipedia tiếng Việt 38 Hình 2.7: Minh họa mối liên kết trang Wikipedia 39 Hình 2.8: Minh họa hệ thống thể loại Wikipedia 40 Hình 2.9: Một phần đồ thị thể loại thực thể Anna Maria Mozart 41 Hình 2.10: Biểu diễn thực thể China Wikipedia tiếng Anh 41 Hình 2.11: Minh họa phần trang phân giải nhập nhằng cho tên “John McCarthy” 42 Hình 2.12: Luật nhận biết tên người tiếng Anh viết đảo ngược GATE 49 Hình 2.13: Minh họa chuỗi đồng tham chiếu 51 Hình 5.1: Minh họa đặc trưng rút trích từ đoạn văn mẫu 117 Hình 5.2: Một phần trang phân giải nhập nhằng tên “Atlanta” 120 ix ... khăn hồn thành tốt luận án ii TĨM TẮT Thực thể có tên thực thể tham khảo đến tên riêng, người, tổ chức, nơi chốn Phân giải nhập nhằng thực thể có tên nhằm ánh xạ tên văn vào thực thể nguồn tri thức... tốn phân biệt thực thể có tên Đối với NED, tên xuất văn ánh xạ vào thực thể mô tả nguồn tri thức thực thể có tên, điều kiện dừng vừa đề cập đoạn không cần thiết Khi tên văn cần phân giải nhập nhằng, ... Truy hồi thơng tin Xử lý ngơn ngữ tự nhiên Thực thể có tên Web có ngữ nghĩa Cơ sở tri thức Nhận dạng thực thể có tên Phân giải nhập nhằng thực thể có tên Tìm kiếm người Web WSD TR SVM MP MR MF