Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,93 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Nguyên Cương TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH ĐỒ THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ THỬ NGHIỆM ĐÁNH GIÁ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Nguyên Cương TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH ĐỒ THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ THỬ NGHIỆM ĐÁNH GIÁ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: TS. Nguyễn Việt Cường HÀ NỘI - 2011 LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến các thầy giáo PGS.TS Hà Quang Thụy và TS.Nguyễn Việt Cường, những người đã tận tình hướng dẫn em suốt quá trình nghiên cứu khoa học và thực hiện khóa luận tốt nghiệp. Em xin chân thành cảm ơn các thầy, cô giáo đã giảng dạy em trong bốn năm học qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp em vững bước trong tương lai. Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm KT-Sislab đã cho em những lời khuyên bổ ích về chuyên môn trong quá trình nghiên cứu. Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận. Em xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ khuyến khích em trong suốt quá trình học tập tại trường. Cuối cùng, em muốn được gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt là ba mẹ và các chị - những người thân yêu luôn kịp thời động viện và giúp đỡ em vượt qua những khó khăn trong học tập cũng như trong cuộc sống. Hà Nội, ngày 19 tháng 05 năm 2011 Sinh viên Phan Nguyên Cương TÓM TẮT Bài toán trích chọn quan hệ hướng dẫn – hướng dẫn khoa học (quan hệ giữa người cố vấn – người được hướng dẫn) từ các công trình khoa học được công bố trên DBLP là bài toán thời sự có ý nghĩa, đặc biệt trong hệ thống tìm kiếm các chuyên gia khoa học, chẳng hạn như hệ thống Arnetminer của nhóm Knowledge Engineering Tsinghua University, China [11], AI Genealogy Project [10]… Khóa luận này trình bày và nghiên cứu về một phương pháp trích chọn quan hệ cố vấn – hướng dẫn dựa trên cơ sở lý thuyết đồ thị và xác suất. Trên cơ sở phân tích và tìm hiểu một số hướng tiếp cân bài toán về trích chọn quan hệ trên mạng thông tin, khóa luận áp dụng phương pháp trích chọn quan hệ dựa trên mô hình đồ thị xác suất phụ thuộc thời gian. Dữ liệu trích chọn được trên miền dữ liệu DBLP, sẽ được lưu trữ trong cơ sở dữ liệu, tiến hành quá trình lọc và xử lý dữ liệu, tìm ra các cặp người cố vấn – người được hướng dẫn “tiềm năng”, từ đó làm dữ liệu đầu vào cho mô hình học dữ liệu để trích chọn ra được các cặp quan hệ. Khóa luận đưa ra mô hình thử nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời gian, tìm được các cặp “tiềm năng”. Kết quả bước đầu cho thấy, mô hình là khả quan và có thể tiếp tục thực nghiệm các pha xử lý tiếp theo. LỜI CAM ĐOAN Em xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng em, dưới sự hướng dẫn của PTS.TS Hà Quang Thụy và TS. Nguyễn Việt Cường, không sao chép từ các công trình nghiên cứu khác. Em đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong nước và quốc tế. Nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của ĐHQH Hà Nội và Nhà trường. Hà Nội, ngày 19 tháng 5 năm 2011 Sinh viên Phan Nguyên Cương MỤC LỤC LỜI CẢM ƠN TÓM TẮT LỜI CAM ĐOAN MỤC LỤC 6 Danh sách các bảng 8 Danh sách các hình vẽ 9 Danh sách các từ viết tắt 10 Mở đầu 1 Chương 1. Giới thiệu về quan hệ cố vấn – hướng dẫn khoa học 1 1.1. Trích chọn thông tin từ cộng đồng Web 1 1.2. Phát hiện cộng đồng 3 1.3. Quan hệ cố vấn – hướng dẫn khoa học 4 1.3.1. Động lực và mục đích 4 1.3.2. Phát biểu bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học 6 Chương 2. Một số hướng tiếp cận bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học 8 2.1. Xếp hạng dựa trên phân tích chỉ dẫn khoa học 8 2.2. Học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục 11 2.3. Dự báo mối quan hệ đồng tác giả 14 2.4. Mô hình đồ thị xác suất phụ thuộc thời gian TPFG 16 2.4.1. Một số định nghĩa và công thức 16 2.4.2. Một số giả thiết ràng buộc 20 2.5. Mô hình xử lý 22 2.6. Học mô hình 27 Chương 3. Mô hình thực nghiệm 32 3.1. Đặc trưng của DBLP Computer Science Bibliography Database 32 3.2. Mô hình thực nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời gian 34 3.2.1. Phát biểu bài toán 34 3.2.2. Xây dựng tập dữ liệu học 35 3.2.3. Mô hình thực nghiệm 36 Chương 4. Thực nghiệm và đánh giá kết quả 40 4.1. Môi trường thực nghiệm 40 4.1.1. Cấu hình phần cứng 40 4.1.2. Công cụ phần mềm 40 4.2. Dữ liệu thực nghiệm 41 4.3. Thực nghiệm 41 4.4. Đánh giá kết quả 52 4.5. Nhận xét 53 Tài liệu tham khảo 55 Danh sách các bảng Bảng 2-1: Thuật toán suy diễn TPFG 31 Bảng 3-1: Cấu trúc một bản ghi trong dblp.xml 36 Bảng 4-1: Cấu hình phần cứng 40 Bảng 4-2: Công cụ phần mềm 40 Bảng 4-3 Phân tích bản ghi trong dblp.xml 42 Bảng 4-4: Bảng các thực thể 44 Bảng 4-6: Bảng kết quả 50 Bảng 4-7: Kết quả một số cặp quan hệ “tiềm năng” 52 Danh sách các hình vẽ Hình 1: Hệ thống Arnetminer 5 Hình 2: Mô tả bài toán 6 Hình 3: Kiến trúc hệ thống 9 Hình 4: Mô hình tổng quát 12 Hình 5: Ví dụ về đường liên kết giữa hai tác giả 15 Hình 6: Minh họa đồ thị chuyển đổi 19 Hình 7: Minh họa đồ thị xác suất phụ thuộc thời gian 26 Hình 8: Sơ đồ truyền thông điệp ở hai pha 28 Hình 10: Thông tin trên trang DBLP 33 Hình 11: Quá trình xây dựng tập dữ liệu học 35 Hình 12: Mô hình thực nghiệm 37 Hình 13: ParserDBLP Package 42 Hình 14: Sơ đồ biểu diễn mối quan hệ thực thể 47 Hình 15: Kết quả truy vấn 48 Hình 16: Kết quả thực thi con trỏ 49 Danh sách các từ viết tắt Viết tắt Từ hoặc cụm từ CRFs Conditional Random Fields DAG Directed Acyclic Graph DBLP Digital Bibliography & Library Project EM Expectation Maximization TPFG Time-constrained Probabilistic Factor Graph [...]... việc giới thiệu mô hình đồ thị xác suất phụ thuộc thời gian do Chi Wang và cộng sự (2010) [4] đề xuất Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mô hình thực nghiệm một phần mô hình hệ thống được các tác giả xây dựng Chương 3: Khóa luận xây dựng mô hình thực nghiệm, trích chọn quan hê dựa vào nghiên cứu của Chi Wang và cộng sự (2010) [4] đồ thị xác suất phụ thuộc thời gian để giải quyết... quan hệ cố vấn – hướng dẫn khoa học Trong chương tiếp theo, khóa luận sẽ tập trung làm rõ một số hướng tiếp cận về bài toán trích chọn quan hệ trên mạng cộng tác 7 Chương 2 Một số hướng tiếp cận bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học Nghiên cứu quan hệ cố vấn – được hướng dẫn khác với những nghiên cứu trước đó trong khai phá quan hệ và học quan hệ Trong khai phá quan hệ thì những nghiên... likelihood) để nhận giá trị ߚ, với giá trị cực đại của hàm likelihood cho các cặp dữ liệu huấn luyện: = ܮෑ ሺ1 − ሻሺଵି ௬ ሻ ௬ 15 (2.7) 2.4 Mô hình đồ thị xác suất phụ thuộc thời gian TPFG Theo Chi Wang và cộng sự (2010) [4], xem xét vấn đề quan hệ hướng dẫn như là vấn đề về tính hạng xác suất Các tác giả giới thiệu và đề xuất mô hình đồ thị xác suất phụ thuộc thời gian (Time-constrained Probabilistic... dựng mô hình thực nghiệm dựa trên phương pháp trích chọn quan hệ hướng dẫn – được hướng dẫn của các tác giả 1 Chương 4: Tiến thành thực nghiệm một phần của mô hình, đánh giá kết quả Tiến hành thực nghiệm việc xây dựng tập dữ liệu học, đánh giá kết quả trích chọn Phần kết luận và định hướng phát triển khóa luận: Tóm tắt những nội dung chính đạt được của khóa luận đồng thời chỉ ra những điểm cần khắc phục... thực nghiệm mô hình Mục đích của mô hình không chỉ là để trích chọn mối quan hệ hướng dẫn – cố vấn giữa những tác giả mà còn được mở rộng mô hình cho những người có sự cộng tác Xây dựng một đồ thị với các đỉnh là các tác giả, và thêm vào mỗi cạnh là một đường nối trực tiếp từ người được hướng dẫn tới người cố vấn của họ Cây như thế sẽ được gọi là cây phả hệ nghiên cứu và tương tự như cây phả hệ được... được hình thành để duy trì và phát triển hướng nghiên cứu này như hệ thống Arnetminer [11], The Mathematics Genealogy Project [12], the Computer Engineering Academic Genealogy, the AI Genealogy Project [8], the Software Engineering Academic Genealogy Gần đây, Chi Wang và các cộng sự (2010) [4] đề xuất mô hình trích chọn quan hệ cố vấn – được hướng dẫn dựa trên đồ thị xác suất phụ thuộc thời gian trên. .. nghiên cứu cộng đồng có thể được hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – hướng dẫn giúp chúng ta giải quyết những câu hỏi đó Khai phá quan hệ cố vấn – được hướng dẫn từ các công trình khoa học được công bố trên DBLP là bài toán thời sự, có ý nghĩa Tìm hiểu mối quan hệ này mang lai nhiều lợi ích và nhiều ứng dụng như để tìm kiếm chuyên gia khoa học và khám phá cộng đồng Có nhiều... khác và làm thế nào mà nghiên cứu cộng đồng có thể được hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – được hướng dẫn giúp chúng ta giải quyết những câu hỏi đó 4 Bài toán trích chọn quan hệ cố vấn – được hướng dẫn đề cập tới bài toán phát hiện quan hệ giữa các đồng tác giả từ các công trình khoa học được công bố trên DBLP Đây là bài toán thời sự có ý nghĩa, đặc biệt trong các hệ thống... ng ti thước rất rộng lớn (theo hàm m Vấn đề đặt ra quan trọng là phải tìm ra một ớn mũ) ng ph phương pháp có th thích hợp được với dữ liệu có qui mô lớn ng thể n 1.3.2 Phát biểu bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học u n h Bài toán trích chọn quan h cố vấn – hướng dẫn khoa học của được Chi Wang và n hệ đư cộng sự (2010) [4][5] phát bi biểu: • Đầu vào: Mạng cộng tác, gồm tập các bài... tại thời điểm (t) trong khoảng thời gian x công bố bài báo, x có thể là người được hướng dẫn hoặc không được hướng dẫn Mỗi khi x bắt đầu hướng dẫn cho một người khác thì sẽ không bao giờ hướng dẫn lại, tức là x không thể hướng dẫn y tại năm t1 nếu x đang hướng dẫn bởi p tại thời thời điểm t1 Nếu x hướng dẫn y, tại thời điểm y được hướng dẫn bởi x là khoảng thời gian [t1 – t2], với t1 < t2 Nếu y được hướng . QG.10.38 trong thời gian em thực hiện khóa luận. Em xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ khuyến khích em trong suốt quá trình học tập tại trường. Cuối cùng, em. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Nguyên Cương TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH ĐỒ. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Nguyên Cương TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH