Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
2,2 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH MINH HUY PHÂN GIẢI NHẬP NHẰNG THỰC THỂ BẰNG PHƯƠNG PHÁP HỌC MÁY Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2013 Cơng trình hồn thành tại: Trường Đại Học Bách Khoa – ĐHQG-HCM Cán hướng dẫn khoa học: GS.TS Cao Hoàng Trụ (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ tại: Trường Đại Học Bách Khoa, ĐHQG TP HCM ngày … tháng … năm …… Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: GS.TS Cao Hoàng Trụ GS.TS Phan Thị Tươi PGS.TS Quản Thành Thơ TS Hồ Bảo Quốc TS Nguyễn Hứa Phùng Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập -Tự -Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: HUỲNH MINH HUY MSHV: 11070453 Ngày, tháng, năm sinh: 01/01/1988 Nơi sinh: TP ĐÀ NẴNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 604801 I TÊN ĐỀ TÀI: PHÂN GIẢI NHẬP NHẰNG THỰC THỂ BẰNG PHƯƠNG PHÁP HỌC MÁY…… NHIỆM VỤ VÀ NỘI DUNG: II NGÀY GIAO NHIỆM VỤ: 20/08/2012…………… …… III NGÀY HOÀN THÀNH NHIỆM VỤ: 22/11/2013.….……………… IV CÁN BỘ HƯỚNG DẪN: GS.TS CAO HOÀNG TRỤ TP HCM, ngày tháng năm 20… CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) GS.TS CAO HOÀNG TRỤ TRƯỞNG KHOA….…………… (Họ tên chữ ký) LỜI CẢM ƠN Trước hết, xin gửi lời cảm ơn chân thành sâu sắc đến thầy hướng dẫn tôi, GS.TS Cao Hồng Trụ Trong suốt q trình làm luận văn này, thầy tận tình, kiên nhẫn dẫn tơi bước thường xun khích lệ tơi Sự hướng dẫn lời khuyên quý báu từ thầy nhân tố khơng thể thiếu để tơi hồn thành luận văn Tơi xin gửi lời cảm ơn đến TS Nguyễn Thanh Hiên, người tạo điều kiện ban đầu cho bước vào đường nghiên cứu giúp gặp thầy hướng dẫn luận văn tơi GS.TS Cao Hồng Trụ Tơi xin gửi lời cảm ơn đến gia đình tơi, người ủng hộ, cổ vũ tạo điều kiện tốt cho việc học tập nghiên cứu tơi Xin chân thành biết ơn tận tình giảng dạy giúp đỡ tất quý thầy cô trường Đại học Bách khoa, đặc biệt thầy cô khoa Khoa học Kỹ thuật Máy tính TĨM TẮT Trong văn thường tồn cụm từ (nhãn tham chiếu) bị nhập nhằng Tùy thuộc vào ngữ cảnh văn mà cụm từ mang nghĩa khác Việc xác định xác nghĩa cho cụm từ văn gọi phân giải nhập nhằng Mục tiêu luận văn hướng đến việc phân giải nhập nhằng ánh xạ cụm từ xuất văn vào thực thể tương ứng Wikipedia Dựa phương pháp Milne Witten (2008), cải tiến phương pháp họ việc tích hợp số kỹ thuật đồng tham chiếu, heuristic, lặp cải thiện dần sử dụng từ gốc Kết nhận tương đối khả quan, hiệu suất cao tương đối rõ so sánh với phương pháp Milne Witten (2008) phương pháp cho tân thời Ratinov cộng (2011) ABSTRACT In a document, there may contain several terms (mentions) whose meanings are ambiguous That is, depending on the context, the meaning of the same term may vary between different documents The task of identifying correct meaning of a term is called disambiguation The goal of this thesis is to disambiguate and link terms to their correct referent entities in Wikipedia Based upon Milne and Witten's work (2008), we enhancing it by integrating with various techniques; in particular, the coreference relations, heuristics, incremental and stemming The results of our experiments show that our method achieves better performance than the baseline method, which is Milne and Witten's method (2008), and Ratinov et al's method (2011), which is considered the state-of-the-art one LỜI CAM ĐOAN Tôi xin cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, nội dung trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường khác TP.HCM, ngày … tháng … năm 20… Huỳnh Minh Huy MỤC LỤC MỤC LỤC i DANH MỤC HÌNH iii DANH MỤC BẢNG iv CHƯƠNG TỔNG QUAN Giới thiệu Bài toán phạm vi Các cơng trình liên quan CHƯƠNG CƠ SỞ LÝ THUYẾT Wikipedia Thực thể nhãn tham chiếu 11 Học máy 13 Nhận dạng nhãn tham chiếu 17 Phân giải đồng tham chiếu .18 Gom cụm thực thể nằm sở tri thức 20 Các độ đo 22 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT .24 Phương pháp 24 Phương pháp cải tiến 28 CHƯƠNG ĐÁNH GIÁ PHƯƠNG PHÁP 35 Tập huấn luyện .35 Tập đánh giá 36 Phương pháp đánh giá 37 Kết thí nghiệm 42 CHƯƠNG TỔNG KẾT 47 Các đóng góp 47 i Hướng phát triển 47 TÀI LIỆU THAM KHẢO .49 ii DANH MỤC HÌNH Hình 1.1: Trích từ [21] cho thấy cụm từ Baghdad thích thêm thơng tin từ Wikipedia .2 Hình 1.2: Một mơ hình phân giải nhập nhằng thực thể có tên [23] .5 Hình 2.1: Một trang thực thể Wikipedia Hình 2.2: Các trang chuyển hướng 10 Hình 2.3: Trang phân giải nhập nhằng 11 Hình 2.4: Minh họa cho hệ thống phân loại Wikipedia .12 Hình 2.5: Một ví dụ giải thuật C4.5 .16 Hình 2.6: Một ví dụ chuỗi đồng tham chiếu .19 Hình 2.7: Một ví dụ gom cụm thực thể nằm sở tri thức 21 Hình 3.1: Mơ hình tổng quát MACH 25 Hình 3.2: Một ví dụ truy hồi ứng viên với nhãn tham chiếu đại diện 29 Hình 3.3: Một ví dụ heuristic lọc ứng viên 30 iii DANH MỤC BẢNG Bảng 3.1: Kết phân giải giải thuật học máy theo Milne 25 Bảng 4.1: Các tập đánh giá phổ thông 36 Bảng 4.2: Các tập đánh giá TAC .36 Bảng 4.3: Kết MAA phương pháp tập đánh giá phổ thông 43 Bảng 4.4: Kết FBOT phương pháp tập đánh giá phổ thông 43 Bảng 4.5: Kết MAA mô hình tập đánh giá TAC 2011 2012 45 Bảng 4.6: Hiệu suất MACH tập đánh giá TAC 2012 45 Bảng 4.7: So sánh kết FB-Cubed+ MACH số phương pháp dẫn đầu TAC 2012 46 Bảng 4.8: Số lượng đặc trưng sử dụng phân giải nhập nhằng 46 iv ... phân giải nhập nhằng thực thể Trong tốn phân giải nhập nhằng thực thể có tên trọng đến việc phân giải thực thể có tên riêng (con người, tổ chức, nơi chốn ) tốn phân giải nhập nhằng thực thể lại phân. .. trung vào việc giải tốn phân giải nhập nhằng thực thể tổng quát thử sức với toán phân giải nhập nhằng thực thể đặc trưng TAC Các cơng trình liên quan Phân giải nhập nhằng thực thể trường hợp... bước tiền xử lý phân giải nhập nhằng Hình 1.2 cho thấy ví dụ tiêu biểu hệ thống phân giải nhập nhằng thực thể có tên Nói chung phương pháp tiếp cận cho toán phân giải nhập nhằng thực thể chia thành