Nhiệm vụ trích rút từ chỗ chỉ tập trung vào việc nhận dạng tên của thực thể nhƣ tên ngƣời, tên công ty và mối quan hệ giữa chúng trong văn bản ngôn ngữ tự nhiên, giờ đây đã gia tăng một
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỖ BÁ LÂM Đỗ Bá Lâm CÔNG NGHỆ THÔNG TIN XÂY DỰNG TỰ ĐỘNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC CƠNG NGHỆ THƠNG TIN KHĨA 2010 Hà Nội – 2011 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061131363681000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Đỗ Bá Lâm XÂY DỰNG TỰ ĐỘNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Lê Thanh Hương Hà Nội – 2011 MỤC LỤC Lời cam đoan iv Lời cảm ơn v Danh mục kí hiệu, chữ viết tắt vi Danh mục hình vẽ .vii Danh mục bảng ix I MỞ ĐẦU I.1 Lý chọn đề tài I.2 Lịch sử nghiên cứu I.3 Mục đích nghiên cứu luận văn, đối tƣợng, phạm vi nghiên cứu I.4 Tóm tắt đọng luận điểm đóng góp tác giả .3 I.5 Phƣơng pháp nghiên cứu II NỘI DUNG CHƢƠNG TỔNG QUAN VỀ BÀI TỐN TRÍCH RÚT THÔNG TIN 1.1 Giới thiệu chung .5 1.1.1 Các ứng dụng 1.1.2 Phân loại tốn trích rút thơng tin 1.1.3 Các thách thức 13 1.2 Trích rút thực thể: phƣơng pháp dựa luật 15 1.2.1 Cách biểu diễn luật 15 1.2.2 Tổ chức tập luật .19 i 1.3 Trích rút thực thể: phƣơ ng pháp thống kê .20 1.3.1 Các mơ hình mức token 21 1.3.2 Các mơ hình mức phân đoạn 23 1.3.3 Các mơ hình dựa văn phạm .23 1.4 Trích rút quan hệ 25 1.4.1 Dự đoán quan hệ cặp thực thể đƣợc đƣa 26 1.4.2 Trích rút cặp thực thể cho loại quan hệ đƣa 29 CHƢƠNG XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CNTT 34 2.1 Tìm hiểu hệ thống ArnetMiner 34 2.2 Tìm hiểu hệ thống CiteSeerX 39 2.3 Tìm hiểu hệ thống DBLP 43 2.4 Cơ sở lý thuyết xây dựng hệ thống ITVN 47 2.4.1 Gán nhãn liệu 48 2.4.2 Giải trùng lặp tên file cá nhân 58 2.4.3 Cập nhật liệu từ file gán nhãn .61 2.4.4 Cập nhật liệu từ hệ thống DBLP 62 CHƢƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 65 3.1 Kiến trúc chung hệ thống 65 3.2 Thu thập liệu 66 3.3 Gán nhãn liệu 67 3.4 Cập nhật liệu .82 ii III KẾT LUẬN 85 III.1 Kết luận chung .85 III.1.1 Đóng góp luận văn 85 III.1.2 Những hạn chế 85 III.2 Hƣớng phát triển 86 TÀI LIỆU THAM KHẢO 87 iii Lời cam đoan Tôi – Đỗ Bá Lâm – cam kết Luận văn tốt nghiệp Cao học cơng trình nghiên cứu thân tôi, dƣới hƣớng dẫn TS Lê Thanh Hương Các kết nêu luận văn trung thực, khơng phải chép tồn văn cơng trình khác iv Lời cảm ơn Để có đƣợc thành nhƣ ngày hôm nay, muốn gửi lời cảm ơn chân thành đến tập thể thầy giáo, cô giáo Viện Công nghệ thông tin Truyền thông, Trƣờng Đại học Bách Khoa Hà Nội, nuôi dƣỡng niềm đam mê học tập, tìm tịi, nghiên cứu khoa học tơi Các thầy, cô với tận tụy, tâm huyết tài gƣơng sáng cho tơi học tập noi theo Tôi xin gửi cảm ơn tới giáo TS Lê Thanh Hƣơng hƣớng dẫn thực đề tài từ việc xác định định hƣớng tới nội dung luận văn Tôi muốn gửi lời cảm ơn tới TS Nguyễn Thị Oanh cho tơi nhiều góp ý, cảm ơn bạn Nguyễn Thành Trung, Trần Thị Hƣơng chia sẻ, giúp đỡ thời gian thực luận văn Lời cuối cùng, xin cảm ơn gia đình Gia đình ln nguồn động viên, quan tâm vô bờ bến thân Hà Nội, ngày 11 tháng 11 năm 2011 Học viên Đỗ Bá Lâm v Danh mục kí hiệu, chữ viết tắt Thuật ngữ, từ viết tắt ACE – Acknowledge Ý nghĩa Content Một chƣơng trình phát triển cơng Extraction nghệ trích rút nội dung tự động CNTT Cơng nghệ thông tin CRF – Conditional Random Field Trƣờng ngẫn nhiên có điều kiện CSDL Cơ sở liệu FlexCRFs- Flexible Contiditional Một công cụ gán nhãn liệu dựa Random Fields mơ hình CRF HMM – Hiden Makov Model Mơ hình Markov ẩn IE – Information Extraction Trích rút thông tin LP2 Một giải thuật học luật IE MCU - Message Understanding Một hội thảo trích rút thơng tin Conference MEMM – Maximum Entropy Markov Mơ hình Markov với Entropy lớn Model vi Danh mục hình vẽ Hình 1.1 Trích rút quan hệ tên thực thể từ văn Hình 1.2 Phân chia văn từ ghi địa Hình 1.3 Một số luật để xác định tên công ty từ nhận dạng tên thực thể 18 GATE 18 Hình 1.4 Phân tách hai câu thành chuỗi token 21 Hình 1.5 Một phân đoạn câu 23 Hình 1.6 Một phân tích cú pháp 28 Hình 1.7 Đồ thị phụ thuộc câu 28 Hình 2.1 Lƣợc đồ Profile nhà nghiên cứu 36 Hình 2.2 Trang cá nhân nhà nghiên cứu 37 Hình 2.3 Thơng tin nhà nghiên cứu trang DBLP 38 Hình 2.4 Profile thu đƣợc 38 Hình 2.5 Kiến trúc hệ thống CiteSeerX 40 Hình 2.6 Một số bảng liệu hệ thống CiteSeerX 42 Hình 2.7 Ví dụ mơ hình Markov ẩn thời tiết 50 Hình 2.8 Mơ hình Markov ẩn 50 Hình 2.9 Đồ thị phụ thuộc mơ hình HMM (a) MEMM (b) 52 vii Hình 2.10 Vấn đề label bias 53 Hình 3.1 Kiến trúc chung hệ thống 65 Hình 3.2 Mối liên hệ bảng hệ thống 82 viii