1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khám phá cộng đồng trong mạng trích dẫn: luận văn thạc sĩ

72 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 3,62 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGƠ LÊ HỒNG LONG KHÁM PHÁ CỘNG ĐỒNG TRONG MẠNG TRÍCH DẪN LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Đồng Nai, Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGÔ LÊ HỒNG LONG KHÁM PHÁ CỘNG ĐỒNG TRONG MẠNG TRÍCH DẪN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Chuyên ngành: Công nghệ thông tin Mã số: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐỖ PHÚC Đồng Nai, Năm 2018 LỜI CÁM ƠN *** Bằng tất lòng chân thành kính phục người học viên thầy mình, tơi xin trân trọng cảm ơn Thầy PGS.TS Đỗ Phúc Mặc dù bận rộn với công việc nghiên cứu, giảng dạy cơng việc gia đình, nhiên suốt thời gian hướng dẫn đề tài, Thầy ln sẵn sàng nhiệt tình xếp thời gian để định hướng, hướng dẫn, động viên giúp đỡ tận tình giúp tơi hồn thành luận văn Tôi xin gửi lời chân thành cảm ơn đến Ban Giám hiệu trường Đại học Lạc Hồng, Quý Thầy, Cô thuộc khoa sau đại học tạo điều kiện tốt để tơi hồn thành chương trình cao học Cám ơn Ban Giám đốc, lãnh đạo phòng Quản lý khoa học Sở Khoa học Công nghệ Đồng Nai tạo điều kiện cho tham gia học tập nghiên cứu Bên cạnh đó, xin cảm ơn sâu sắc đến anh chị khóa nhiệt tình đóng góp ý kiến, chia sẻ động viên để tơi hồn thiện đề tài Ngồi ra, tơi xin cảm ơn gia đình, người thân ln khích lệ, động viên, giúp đỡ suốt trình học tập, nghiên cứu, tạo nên sức mạnh to lớn để tơi hồn thành kết học tập Mặc dù cố gắng Luận văn khó tránh khỏi thiếu sót, tơi kính mong Q Thầy, Cơ bạn bè hướng dẫn, góp ý để nội dung nghiên cứu ngày hồn thiện có ứng dụng thực tiễn Một lần nữa, xin chân thành cảm ơn! Đồng Nai, ngày tháng năm 2018 HỌC VIÊN Ngô Lê Hồng Long LỜI CAM ĐOAN *** Tơi xin cam đoan : - Những nội dung luận văn thực hướng dẫn trực tiếp thầy PGS.TS Đỗ Phúc - Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian, địa điểm công bố - Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm NGƯỜI CAM ĐOAN Ngơ Lê Hồng Long MỤC LỤC Trang Trang bìa phụ Lời cảm ơn Lời cam đoan Mục lục Danh mục hình Danh mục bảng CHƯƠNG 1: TỔNG QUAN 1.1 Giới thiệu đề tài 1.2 Lý chọn đề tài 1.3 Mục tiêu đề tài 1.4 Phạm vi nghiên cứu CHƯƠNG 2: CƠ SỞ LÝ LUẬN 2.1 Giới thiệu báo khoa học 2.1.1 Tiêu đề 2.1.2 Tóm tắt 2.1.3 Từ khóa (Key words) 2.1.4 Giới thiệu 2.1.5 Dữ liệu phương pháp nghiên cứu 2.1.6 Kết 2.1.7 Thảo luận 2.1.8 Tài liệu tham khảo 2.2 Cách biểu diễn mạng trích dẫn 2.2.1 Định nghĩa 2.2.2 Cách biểu diễn mạng trích dẫn 2.2.2.1 Đồ thị sử dụng rộng rãi để biểu diễn mạng trích dẫn 2.2.2.2 Ma trận kề tồn kết nối actor 2.2.3 Các khái niệm tổ chức mạng trích dẫn 2.2.3.1 Tập đỉnh 2.2.3.2 Tập cạnh 11 2.2.3.3 Giới thiệu đường đường ngắn mạng cộng đồng 11 2.2.3.4 Các kỹ thuật đo trung tâm đồ thị mạng trích dẫn 12 2.3 Giới thiệu cộng đồng 21 2.4 Giới thiệu sở liệu đồ thị Neo4j 23 2.4.1 Tổng quan Neo4j 23 2.4.2 Cơ sở liệu đồ thị Neo4j 24 2.4.2.1 Nodes 25 2.4.2.2 Relationships 25 2.4.2.3 Properties 27 2.4.2.4 Đường Paths 28 2.4.2.5 Duyệt đồ thị 29 CHƯƠNG 3: GIẢI THUẬT KHÁM PHÁ CỘNG ĐỒNG TRONG MẠNG TRÍCH DẪN BẰNG THUẬT TỐN GIRVAN NEWMAN 30 3.1 Lý chọn thuật toán 30 3.2 Thuật toán Girvan Newman 30 CHƯƠNG 4: XÂY DỰNG HỆ THỐNG VÀ THỰC HIỆN 34 4.1 Yêu cầu thực nghiệm 34 4.2 Các chức chương trình 35 4.2.1 Tạo sở liệu đồ thị mạng trích dẫn (Create Graph Database) 35 4.2.2 Đọc thông tin báo (Read Paper) 37 4.2.3 Đọc trích dẫn báo (Read Citation) 38 4.2.4 Tính bậc nút (Calculate Node Degree) 40 4.2.5 Trích dẫn từ báo có liên quan đến báo khác (Citing Set) 41 4.2.6 Trích dẫn từ báo khác có liên quan đến báo (Cited Set) 45 4.2.7 Khám phá cộng đồng (Community Detection) 47 4.2.8 Write to Pajek File (Viết vào tệp Pajek) 51 4.2.9 Community Analysis (Phân tích cộng đồng) 53 CHƯƠNG 5: KẾT LUẬN 61 Danh mục tài liệu tham khảo DANH MỤC HÌNH Hình 1.1: Ví dụ mơ hình đồ thị mạng trích dẫn Hình 2.1: Ví dụ biểu diễn trích dẫn thành viên hội đồng Hình 2.2: Mạng trích dẫn biểu diễn đồ thị Hình 2.3: Mạng gồm 11 node Hình 2.4: Ma trận kề 11 node Hình 2.5: Mạng có hướng Hình 2.6: Ma trận kề mạng có hướng Hình 2.7: Biểu diễn tập đỉnh mơ hình mạng 10 Hình 2.8: Biểu diễn đồ thị có hướng đồ thị vô hướng 11 Hình 2.9: Đường ngắn 12 Hình 2.10: Mạng vô hướng 13 Hình 2.11: Mạng có hướng 13 Hình 2.12: Betweenness centrality 14 Hình 2.13: Mơ tả mạng trích dẫn 16 Hình 2.14: Các giá trị Centrality 17 Hình 2.15: Mạng hợp tác nhà khoa học làm việc học viện Santa Fee (SFI)[10] 23 Hình 2.16: Kiến trúc logic Neo4j 24 Hình 2.17: Node, relationships properties 25 Hình 2.18: Ví dụ đồ thị đơn giản với node property 25 Hình 2.19: Relationship quan hệ liên quan 25 Hình 2.20: Một relationship start node end node 26 Hình 2.21: Quan hệ vào quan hệ node 26 Hình 2.22: Quan hệ node 26 Hình 2.23: Ví dụ mạng trích dẫn 27 Hình 2.24: Biểu diễn Property 28 Hình 2.25: Path 28 Hình 2.26: Đường đến node 28 Hình 2.27: Đường từ node đến node có quan hệ relationship 29 Hình 3.1: Q trình thuật tốn 32 Hình 4.1: Giao diện hệ thống 35 Hình 4.2: Create Graph Database 36 Hình 4.3: Read Paper 38 Hình 4.4: Read Citation 39 Hình 4.5: Calculate Node Degree 40 Hình 4.6: Calculate Node Degree 41 Hình 4.7: Citing Set 43 Hình 4.8: Cited Set 46 Hình 4.9: Community Detection 50 Hình 4.10: Community Detection 50 Hình 4.11: Giao diện Pajek 51 Hình 4.12: Giao diện đọc đồ thị Pajek 52 Hình 4.13: Community Detection Pajek 53 Hình 4.14: Biểu đồ cột cộng đồng 57 Hình 4.15: Biểu đồ tỉ lệ % cộng đồng 58 Hình 4.16: Biểu đồ cột cộng đồng 60 Hình 4.17: Biểu đồ tỉ lệ % cộng đồng 60 DANH MỤC BẢNG Bảng 2.1: Trích dẫn số báo nhà khoa học 18 Bảng 2.2: Biểu diễn relationships mạng trích dẫn 27 Bảng 3.1: Egde betweenness 31 Bảng 4.1: Liệt kê năm báo cộng đồng 56 Bảng 4.2: Liệt kê từ khóa báo cộng đồng 59 CHƯƠNG 1: TỔNG QUAN 1.1 Giới thiệu đề tài Những năm gần với phát triển nhanh chóng bùng nổ ngành cơng nghệ thông tin, kho liệu tri thức truyền tải Internet vô to lớn đồ sộ, việc khai thác nguồn liệu trở nên cấp thiết thách thức lớn cho ngành công nghệ thông tin Thông qua diễn đàn Internet, ta dễ dàng truyền tải, thu thập nhiều thông tin, viết nghiên cứu nhiều lĩnh vực khác Các thông tin thu thập ta dễ dàng xem tìm hiểu để xem hết thơng tin địi hỏi ta phải bỏ công sức, thời gian nghiên cứu lớn Từ đặt vấn đề cho ngành cơng nghệ cần phải nghiên cứu giải pháp để thực việc rút trích ý từ thông tin thu thập Egghe & Rousseau (1990, p 228), giải thích tài liệu A trích dẫn tài liệu B, thấy điều mũi tên từ nút đại diện cho A đến nút đại diện cho B Bằng cách văn gôm thành tập D tạo thành đồ thị có hướng, gọi đồ thị trích dẫn mạng trích dẫn Hình 1.1 Ví dụ mơ hình đồ thị mạng trích dẫn Từ trang website http://aminer.org/citation, cung cấp cho đề tài môi trường thực nghiệm để nghiên cứu tập hợp thơng tin trích dẫn thu thập từ trung tâm công bố báo khoa học như: DBLP (Tính đến tháng năm 2016, DBLP liệt kê 3,6 triệu báo, báo hội thảo, ấn phẩm khác khoa học máy tính)[1], ACM (ACM có thư viện số với khối lượng đáng kể tạp chí, journal tổ 49 for (int i=0;i

Ngày đăng: 16/08/2020, 10:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w