Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
2,1 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA VĂN KHÁNH DUY PHÂN GIẢI NHẬP NHẰNG THỰC THỂ TRONG MẠNG XÃ HỘI TWITTER Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2014 Cơng trình đƣợc hồn thành tại: Trƣờng Đại Học Bách Khoa – ĐHQG-HCM Cán hƣớng dẫn khoa học: TS Nguyễn Thanh Hiên (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng Đại Học Bách Khoa, ĐHQG TP HCM ngày … tháng … năm …… Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: VĂN KHÁNH DUY MSHV: 12070502 Ngày, tháng, năm sinh: 18/02/1988 Nơi sinh: TP TRÀ VINH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60480101 I TÊN ĐỀ TÀI: PHÂN GIẢI NHẬP NHẰNG THỰC THỂ TRONG MẠNG XÃ HỘI TWITTER …… NHIỆM VỤ VÀ NỘI DUNG: II NGÀY GIAO NHIỆM VỤ: 20/01/2014…………… …… III NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014.….……………… IV CÁN BỘ HƢỚNG DẪN: TS NGUYỄN THANH HIÊN TP HCM, ngày tháng năm 20… CÁN BỘ HƢỚNG DẪN TRƢỞNG KHOA….……… (Họ tên chữ ký) (Họ tên chữ ký) TS NGUYỄN THANH HIÊN LỜI CẢM ƠN Trƣớc hết, xin gửi lời cảm ơn chân thành sâu sắc đến thầy hƣớng dẫn tơi, TS NGUYỄN THANH HIÊN Trong suốt q trình làm luận văn này, thầy tận tình dẫn tơi bƣớc thƣờng xun khích lệ, động viên Sự hƣớng dẫn lời khuyên quý báu từ thầy nhân tố thiếu để hồn thành đƣợc luận văn Tơi xin gửi lời cảm ơn đến gia đình tơi, ngƣời ủng hộ, cổ vũ tạo điều kiện tốt cho việc học tập nghiên cứu Xin chân thành biết ơn tận tình giảng dạy giúp đỡ tất quý thầy cô trƣờng Đại học Bách Khoa Tp.HCM, đặc biệt thầy cô khoa Khoa học Kỹ thuật Máy tính Cuối cùng, tơi xin gửi lời cảm ơn đến ThS Huỳnh Minh Huy, ngƣời bạn thân bên cạnh động viên cho nhiều dẫn, lời khuyên thiết thực TÓM TẮT Ngày nay, mạng xã hội trực tuyến nhƣ Twitter Facebook ngày trở nên phổ biến trở thành kênh truyền tải chia sẻ thơng tin yếu Chính vậy, việc khai thác cách nguồn liệu mạng xã hội trực tuyến tạo thơng tin có giá trị sử dụng vào nhiều mục đích khác Chúng tơi quan tâm tin tải mạng xã hội, cụm từ bị nhập nhằng, khơng rõ ràng gây khó khăn cho hệ thống phân tích văn Do đó, tốn thu hút nhiều quan tâm nghiên cứu xác định thực thể tin đăng tải mạng xã hội trực tuyến Mục tiêu luận văn thực việc phân giải nhập nhằng thực thể mẫu tin (tweet) tải mạng xã hội Twitter, nhằm mục đích xác định thực thể đƣợc đề cập đến mẫu tin Với đặc thù nội dung tweet ngắn, nhiễu bất quy tắc nên việc phân giải nhập nhằng thực thể tweet thật khó khăn thách thức Trong nghiên cứu này, dựa cơng trình nghiên cứu liên kết thực thể tài liệu tiếng Anh giàu ngữ cảnh, nhƣ tin tức báo, để xây dựng hệ thống phân giải nhập nhằng cho tweet tiếng Anh tiếng Việt Chúng xây dựng tập liệu tiếng Việt bao gồm 524 tweet tiếng Việt sử dụng tập liệu tiếng Anh đƣợc cung cấp Meij gồm 562 tweet tiếng Anh Chúng thực đánh giá hệ thống hiệu suất đạt đƣợc tƣơng đối tốt cho hai ngôn ngữ ABSTRACT To date, many popular online social networks (OSNs) such as Twitter and Facebook, or social media in general, have become a channel for users to share information with each other The popularity of online social media together with their diversity have drastically changed humans’ attitude towards communications and information sharing over the internet However, the useful information may contain several terms (mentions) whose meanings are ambiguous and unclear, thus, make it difficult for text analysis systems Hence, the task of disambiguation whose the requirements are to determine correct meaning of ambiguous terms have been attracting attention of research over the world The purpose of this thesis is to develope an entity disambiguation system for tweets on Twitter Since, the content of postings on Twitter is noisy, irregular, short (a message posted on Twitter has maximum 140 characters), and temporal dynamics; entity disambiguation for tweet is a critical challenging task In this research, we adapt an entity linking methods for long texts in literature to tweet for both Vietnamese and English We build a Vietnamse dataset include 524 Vietnamese tweets and use a public English dataset by Meij include 562 English tweets The evaluation results show that our system performs quite well on both datasets LỜI CAM ĐOAN Tôi xin cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác nhƣ ghi rõ luận văn, nội dung trình bày luận văn tơi thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng khác TP.HCM, ngày … tháng … năm 20… Văn Khánh Duy MỤC LỤC MỤC LỤC i DANH MỤC HÌNH iii DANH MỤC BẢNG iv CHƢƠNG TỔNG QUAN 1.1 Giới thiệu 1.2 Bài toán phạm vi 1.3 Các cơng trình liên quan CHƢƠNG CƠ SỞ LÝ THUYẾT 11 2.1 Wikipedia .11 2.2 Thực thể nhãn tham chiếu 14 2.3 Học máy 15 2.4 Đánh giá chéo 20 2.5 Các độ đo 21 CHƢƠNG PHƢƠNG PHÁP ĐỀ XUẤT .22 3.1 Nhận diện nhãn tham chiếu 22 3.2 Truy hồi ứng viên 25 3.3 Phân giải nhập nhằng thực thể .26 3.3.1 Phƣơng pháp 26 3.3.2 Các đặc trƣng 27 3.3.3 Phƣơng pháp khác 29 3.4 Lặp cải thiện dần 29 CHƢƠNG ĐÁNH GIÁ PHƢƠNG PHÁP 31 4.1 Tập huấn luyện .31 4.2 Tập đánh giá 31 4.3 Đánh giá hiệu suất kết thí nghiệm 32 i 4.4 Các lỗi ảnh hƣởng đến hiệu suất hệ thống .40 CHƢƠNG TỔNG KẾT 42 5.1 Các đóng góp 42 5.2 Hƣớng phát triển 43 TÀI LIỆU THAM KHẢO 44 ii DANH MỤC HÌNH Hình 1.1 Ví dụ phân giải nhập nhằng thực thể Hình 1.2 Ví dụ phân giải nhập nhằng thực thể .5 Hình 1.3 Mơ tả tổng quan hệ thống Meij .6 Hình 1.4 Mô tả tổng quan hệ thống Cassidy Hình 1.5 Mơ tả tổng quan hệ thống Liu .9 Hình 1.6 Mơ hình phân giải nhập nhằng thực thể Huỳnh Minh Huy [6] 10 Hình 2.1 Trang thực thể “Vịnh Hạ Long” Wikipedia tiếng Việt 13 Hình 2.2 Hai trang chuyển hƣớng “ManU” “Manchester United FC” trang thực thể “Manchester United F.C.” 14 Hình 2.3 Trang phân giải nhập nhằng .15 Hình 2.4 Minh họa phân loại Wikipedia 16 Hình 2.5 Ví dụ định .19 Hình 3.1 Giải thuật nhận dạng nhãn tham chiếu n-gram 25 Hình 3.2 Mơ hình tổng qt hệ thống ED-Tweet 26 Hình 3.3 Lặp cải thiện dần Nguyễn Thanh Hiên [13] 30 iii ... việc phân giải nhập nhằng thực thể cho văn quy khác với việc phải phân giải nhập nhằng thực thể cho mạng xã hội Vấn đề khác biệt mà đề cập q trình nhận diện thực thể xuất nội dung tweet trình phân. .. Ngồi cơng trình nghiên cứu phân giải nhập nhằng thực thể hay liên kết thực thể cho mạng xã hội chúng tơi tìm hiểu thêm cơng trình nghiên cứu khác phân giải nhập nhằng thực thể văn Nói chung phƣơng... thực thể xuất nội dung tweet trình phân giải nhập nhằng cho thực thể Các cơng trình nghiên cứu liên kết thực thể hay phân giải nhập nhằng thực thể cho tweet thực theo nhiều hƣớng phƣơng pháp khác