LUẬN ÁN TIẾN SĨ – ĐH CNTT (UIT), ĐHQG TP HCM (VNU HCM) ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN PHẠM THẾ ANH PHÚ NGHIÊN CỨU MÔ HÌNH KHAI THÁC MẠNG THÔNG TIN KHÔNG ĐỒNG NHẤT VÀ ỨNG DỤ[.]
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN _ PHẠM THẾ ANH PHÚ NGHIÊN CỨU MƠ HÌNH KHAI THÁC MẠNG THƠNG TIN KHƠNG ĐỒNG NHẤT VÀ ỨNG DỤNG Chun ngành Cơng Nghệ Thơng Tin Mã ngành: 62.48.02.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN TP Hồ Chí Minh, tháng 04/2021 Cơng trình hồn thành tại: Trường Đại học Công nghệ Thông tin (UIT), Đại học Quốc gia TP.HCM Người hướng dẫn khoa học 1: PGS TS Đỗ Phúc Phản biện độc lập 1: Phản biện độc lập 2: Luận án bảo vệ trước Hội đồng chấm luận án họp tại: Vào lúc ngày tháng năm Có thể tìm luận án tại: Thư viện Quốc gia Việt Nam Thư viện Trường Đại học Công nghệ Thông tin, ĐHQG-HCM MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀ LUẬN ÁN 1.1 Dẫn nhập 1.2 Khái quát toán động lực luận án 1.2.1 Khai phá mạng thông tin đồng (Homogeneous Information Network - HoIN) không đồng (Heterogeneous Information Network - HIN) 1.2.2 Các hạn chế tồn động lực thực luận án 1.3 Mục tiêu, phạm vi nghiên cứu luận án 1.3.1 Bài tốn 1: Tính tốn tương đồng mạng thơng tin không đồng giàu nội dung (C-HIN) 1.3.2 Bài toán 2: Tiếp cận nhúng mạng thông tin (INE/NRL) ngữ cảnh mạng thông tin không đồng giàu nội dung 1.3.3 Bài toán 3: Tiếp cận nhúng mạng thông tin (INE/NRL) việc giải tốn dự đốn liên kết mạng khơng đồng giàu nội dung (C-HIN) 1.4 Bố cục luận án CHƯƠNG 2: CƠ SỞ LÝ THUYẾT & CÁC MƠ HÌNH LIÊN QUAN 2.1 Cơ sở lý thuyết khai phá mạng thông tin 2.1.1 Tổng quan phân tích khai phá mạng thông tin (INAM) 2.1.2 Tổng quan khai phá mạng thông tin không đồng (heterogeneous information network mining) 2.2 Tính tốn tương đồng mạng khơng đồng theo meta-path & thuật toán phổ biến 2.3 Giới thiệu mơ hình PathSim 10 2.3.1 So sánh ưu/nhược điểm mơ hình tính tốn tương đồng phổ biến áp dụng cho mạng HIN 10 2.3.2 Các hạn chế tiếp cận hướng liên kết (link-based) tính tốn tương đồng HIN 10 CHƯƠNG 3: TÌM KIẾM TƯƠNG ĐỒNG TRONG MẠNG THƠNG TIN GIÀU NỘI DUNG, MƠ HÌNH W-PATHSIM 11 3.1 Tương đồng chủ đề thực thể giàu ngữ liệu văn 11 3.1.1 Áp dụng mơ hình chủ đề LDA khám phá phân bố chủ đề thực thể dạng văn 11 3.1.2 Tính tốn tương đồng thực thể giàu nội dung 12 3.2 Thuật tốn W-PathSim: tương đồng theo meta-path có trọng số chủ đề 12 3.3 Thực nghiệm mơ hình đánh giá kết đạt 13 CHƯƠNG 4: TIẾP CẬN NHÚNG MẠNG THÔNG TIN (INE) TRONG MẠNG C-HIN, MƠ HÌNH W-METAPATH2VEC 14 4.1 Tổng quan ánh xạ/nhúng mạng thông tin (INE) 14 4.2 Sơ nét mơ hình INE/NRL phổ biến & động lực 15 4.2.1 Tổng quan chế hoạt động INE/NRL 15 4.2.2 Các hạn chế mơ hình INE 16 4.3 Mơ hình W-Metapath2Vec: tiếp cận INE cho mạng thông tin không đồng giàu nội dung (C-HIN) 16 4.3.1 Bước ngẫu nhiên dựa meta-path theo hướng chủ đề (topicdriven meta-path-based random walk) 16 4.3.2 Áp dụng Skip-grams dành cho HIN mơ hình WMetapath2Vec 18 4.4 Thực nghiệm mơ hình đánh giá kết đạt 18 CHƯƠNG 5: DỰ ĐOÁN LIÊN KẾT TRÊN MẠNG C-HIN, MƠ HÌNH W-MMP2VEC 20 5.1 Dự đoán tồn liên kết dựa việc phân tích liên kết khác loại có theo meta-path 20 5.2 W-MMP2Vec: mơ hình dự đốn liên kết (link prediction) theo hướng tiếp cận hướng INE 21 5.2.1 Ý tưởng & câu hỏi đặt trình nghiên cứu 21 5.2.2 Hàm mục tiêu mơ hình W-MMP2Vec 22 5.2.3 Tương quan chủ đề toán dự đoán liên kết 23 5.2.4 Thực nghiệm & đánh giá kết mơ hình W-MMP2Vec 24 CHƯƠNG 6: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 25 6.1 Kết luận & kết đạt 25 6.2 Các hạn chế tồn & hướng phát triển 27 CÁC ĐỀ TÀI KHOA HỌC ĐÃ THAM GIA i DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ i TÀI LIỆU THAM KHẢO ii CHƯƠNG 1: TỔNG QUAN VỀ LUẬN ÁN 1.1 Dẫn nhập A Sự phổ biến & đa dạng B Phân tích khai phá mạng nhiều mạng thông tin thông tin giúp đem lại nhiều tồn cầu tri thức hữu ích cho người Hình 1-1 Sự phổ biến & tầm quan trọng việc phân tích khai phá mạng thơng tin Phân tích & khai phá mạng thơng tin (Information Network Analysis & Mining – INAM) [1] [2] chủ đề nghiên cứu quan trọng đóng vai trò ứng dụng nhiều lĩnh vực khác nhau, điển hình như: phân tích mạng xã hội (social network analysis), xây dựng hệ khuyến nghị (recommedation system) dựa liệu mạng thông tin, truy hồi liệu mạng thơng tin (networked data retrieval), hay phân tích dạng liệu có cấu trúc mạng thơng tin gene, protein (trong tin sinh học), cấu trúc & thành phần phân tử (hóa học), v.v Bên cạnh đó, lĩnh vực khai phá mạng thơng tin cịn đặc biệt quan tâm thời gian gần ứng dụng việc phân tích hành vi xu người, thông qua tương tác họ mạng xã hội phổ biến như: Facebook[1], Twitter[2], Weibo[3], Instagram[4], IMDb[5] (minh họa Hình 1-1) Bản chất liên kết liệu tầm quan trọng khai phá mạng thông tin Qua ví dụ trên, cho thấy tầm quan trọng việc phân tích khai phá mạng thơng tin hồn tồn khơng thể phủ nhận Có thể thấy hầu hết dạng cấu trúc liệu mà tiếp xúc ngày ít/nhiều tồn dạng liên kết với nhau, điển hình như: mạng Internet (WWW), trang mạng xã hội (Facebook, Twitter, MySpace, Weibo, v.v.), mạng học thuật (DBLP, DBIS, v.v.), bách khoa toàn thư mở (encyclopedia) dạng đồ thị tri thức (Wikipedia, YAGO, v.v.), hay diễn đàn, trang mạng tin tức, v.v Và liên kết thực thể liệu mạng thông tin giúp hỗ trợ làm giàu thêm ngữ nghĩa cho thực thể mà liên kết đến, ví dụ liên kết/tham chiếu thông qua siêu liên kết (hyperlink) website, mối quan hệ người dùng với mạng xã hội, khái niệm Mạng XH Facebook: https://www.facebook.com/ Mạng XH Twitter: https://twitter.com/ Mạng XH Weibo: https://www.weibo.com Mạng XH hình ảnh Instagram: https://www.instagram.com/ Mạng thông tin phim IMDb: https://www.imdb.com/ (concept) có quan hệ tham chiếu lẫn bách khoa tồn thư, v.v Bên cạnh đó, ta thấy chất “liên kết”/“cung”/“quan hệ” mạng thông tin không hỗ trợ làm giàu ngữ nghĩa cho “thực thể”/“nút” mạng thông tin mà mà thân mang nhiều thơng tin quan trọng hàm chứa bên làm cho khác biệt với quan hệ khác Động lực luận án Kích thước lớn, tốc độ tăng trưởng nhanh đa dạng cấu trúc xem yếu tố thách thức coi tiềm cho việc phát triển hữu ích cho người nhiều lĩnh vực dựa việc phân tích khai phá tri thức mạng thông tin Đặc biệt đa dạng cấu trúc mạng thơng tin xem thách thức lớn cho lĩnh vực khai phá mạng thông tin Sự đa dạng loại nút mối quan hệ chúng khiến mơ hình khai phá truyền thống P-PageRank, SimRank, v.v khơng cịn áp dụng cách hiệu Do trào lưu khai phá mạng thông tin, gọi khai phá mạng thông tin không đồng đời 1.2 Khái quát toán động lực luận án 1.2.1 Khai phá mạng thông tin đồng (Homogeneous Information Network HoIN) không đồng (Heterogeneous Information Network - HIN) Với mơ hình phân tích khai phá mạng thơng tin truyền thống, việc đánh giá mức độ liên kết nút mạng thơng tin có vai trị quan trọng yếu tố khác Việc xác định mức độ tương đồng hay xếp hạng nút hầu hết dựa số lượng/mật độ liên kết với nút khác (điển hình P-PageRank, SCAN SimRank) Và mơ hình truyền thơng bỏ qua khác biệt loại nút mối quan hệ chúng (chỉ có loại nút quan hệ nhất) – hướng tiếp cận gọi khai phá mạng thông tin đồng (homogeneous: đơn nhất/đồng nhất) Tuy nhiên thực tế cấu trúc mạng thơng tin phức tạp đa dạng với tham gia nhiều loại nút liên kết khác nhau, ví dụ mạng học thuật (DBLP, DBIS, v.v.) có nhiều loại nút như: tác giả (author), báo (paper), hội nghị/tạp chí (venue/journal), v.v mạng xã hội (Facebook Twitter), tin tức (VnEprress BBC) có loại nút: người dùng (user), viết (post), bình luận (comment) hay nhóm (group) Giữa nút có hay nhiều loại liên kết viết khác nhau, ví dụ mạng học thuật: tác_giả → bài_báo, bài_báo nộp/xuất_bản → bạn_bè hội_nghị/tạp_chí, hay tham_gia mạng xã hội: người dùng → người dùng, người dùng → nhóm Sự đa dạng loại nút mối quan hệ gây nhiều khó khăn cho việc áp dụng mơ hình phân tích khai phá mạng thơng tin truyền thống Do đó, cần có hướng tiếp cận mới, việc phân tích khai phá mạng thơng tin cần trọng đến khác biệt loại nút mối quan hệ chúng (heterogeneous: đa dạng/đa tạp), hướng tiếp cận gọi phân tích khai phá mạng thơng tin khơng đồng (HIN) Nền tảng sở lý thuyết việc phân tích khai phá mạng thơng tin không đồng HIN – lần đầu đề xuất Sun Y & J Han (2011), mơ hình đề xuất phải đảm bảo khả phân tách khác biệt loại thực thể liên kết đảm toàn ngữ nghĩa mối quan hệ nút/thực thể 1.2.2 Các hạn chế tồn động lực thực luận án Trong hầu hết hướng tiếp cận tốn phân tích khai phá mạng thông tin không đồng (HIN), bao gồm hướng tiếp cận học mơ hình biểu diễn (NRL) trọng vào việc phân tích mối quan hệ thực thể/nút HIN quan tâm đến ảnh hưởng nội dung chủ đề thực thể/nút mạng thơng tin có giàu nội dung hay cịn gọi là: Content-based HIN – C-HIN Có thể thấy thực tế tất mạng thông tin phổ biến hay mạng xã hội (Facebook hay Twitter), mạng học thuật (DBLP hay DBIS) hay diễn đàn (forum), tin tức online, v.v chứa lượng lớn thực thể/nút dạng văn bản, thực thể/nút giàu nội dung (content-based nodes) đóng vai trị phổ biến xuất hầu hết quan hệ ngữ nghĩa (mô tả dạng meta-paths) thực thể loại Sự tương đồng nội dung, chủ đề nút giàu ngữ liệu đóng vai trị quan trọng việc đánh giá tương đồng nút xét thông qua meta-path mà chúng xuất 1.3 Mục tiêu, phạm vi nghiên cứu luận án Đề tài: Nghiên Cứu Mơ Hình Khai Thác Mạng Thông Tin Không Đồng Nhất Và Ứng Dụng Bài Tốn 01: (Giai đoạn luận án) Phân tích phân bố chủ đề + đề xuất mơ hình tính tốn tương đồng theo meta-path C-HIN (Các mơ hình đề xuất: CDO + LDAGOW[CT5][CT6] W-PathSim [CT9][CT10] Bài Toán 02: (Giai đoạn luận án) Đề xuất mơ hình nhúng/ánh xạ mạng thông tin (INE) khai phá mạng C-HIN (Các mơ hình đề xuất: W-Metapath2Vec[CT1]) Bài Tốn 03: (Giai đoạn luận án) Dự đoán liên kết theo tiếp cận nhúng mạng thông (INE) mạng không đồng giàu nội dung (C-HIN) (Các mơ hình đề xuất: W-MPP2Vec[CT4]) Hình 1-2 Tổng quan nội dung phạm vi nghiên cứu luận án Toàn luận án chia thành tốn thực giai đoạn luận án, sau (minh họa Hình 1-2): 1.3.1 Bài tốn 1: Tính tốn tương đồng mạng thông tin không đồng giàu nội dung (C-HIN) Trong giai đoạn đầu luận án, NCS GVHD tập trung vào việc xây dựng tảng lý thuyết cho việc khám phá phân bố chủ đề mạng thông tin CHIN, để từ kết hợp tương đồng chủ đề với mối quan hệ thực thể/nút nhằm đưa mơ hình cải tiến phù hợp cho việc khai phá mạng thông tin giàu nội dung thông qua mô hình chủ đề LDA, để hỗ trợ cho việc phân tích phân bố chủ đề có nút giàu ngữ liệu mạng thông tin Sự phân bố chủ đề nút dạng văn sau sử dụng để xác định mức độ tương đồng chủ đề nút mạng thông tin dựa metapath, với mô hình cải tiến đề xuất, bao gồm: mơ hình W-PathSim (cơng bố [CT10]) với mơ hình mở rộng: DW-PathSim (công bố [CT9]), ComRank TopCPathSim (công bố [CT6]) 1.3.2 Bài tốn 2: Tiếp cận nhúng mạng thơng tin (INE/NRL) ngữ cảnh mạng thông tin không đồng giàu nội dung Từ kết nghiên cứu giai đoạn 1, NCS & GVHD đề xuất kết hợp với hướng tiếp cận nhúng/ánh xạ thực thể/nút mạng C-HIN môi trường không gian vector, trình rút trích đặc trưng nút để huấn luyện mơ hình học áp dụng ngun lý bước ngẫu nhiên dựa meta-path theo hướng tiếp cận tương đồng chủ đề (topic-driven meta-path-based random walk) Để thực hóa ý tưởng, NCS xây dựng đề xuất mơ hình WMetapath2Vec[CT1] W-Metagraph2Vec[CT2], kế thừa từ ý tưởng mơ hình W-PathSim xây dựng giai đoạn Mơ hình WMetapath2Vec hỗ trợ cho việc biểu diễn nút tương đồng nhau, dựa hai tiêu chí mức độ liên kết tương quan chủ đề mạng C-HIN, dạng vector tương đương Từ hỗ trợ cho việc giải toán cốt lõi INAM tìm kiếm tương đồng (node similarity search), gom cụm (node clustering), phân lớp (node classification), v.v 1.3.3 Bài tốn 3: Tiếp cận nhúng mạng thơng tin (INE/NRL) việc giải toán dự đoán liên kết mạng không đồng giàu nội dung (C-HIN) Trong phần nội dung cuối luận án NCS & GVHD kết hợp thành hai phần nội dung trước để đề xuất mơ hình ứng dụng cho việc giải toán dự đoán liên kết nút mạng C-HIN Mơ hình dự đốn liên kết xây dựng dựa hướng tiếp cận INE nhằm hỗ trợ cho việc ánh xạ nút có khả cao xuất liên kết mạng thông tin vector số thực tương đương với số chiều quy định Việc xây dựng rút trích đặc trưng cặp nút - dùng cho huấn luyện mơ hình học biểu diễn nút mạng thông – dựa việc đánh giá hình mẫu liên kết tương quan chủ đề thực thể Để thực hóa mơ hình trên, NCS & GVHD đề xuất xây dựng mơ hình W-MMP2Vec[CT4] nhằm hỗ trợ cho việc giải toán dự đoán liên kết mạng C-HIN Ngoài NCS & GVHD dựa ý tưởng kết đạt mơ hình: W-Metapath2Vec, W-Metagraph2Vec W-MMP2Vec để xây dựng mơ hình W-Com2Vec (cơng bố [CT3]) nhằm giải tốn nhận diện & biểu diễn cộng đồng mạng thông tin không đồng 1.4 Bố cục luận án Nội dung luận án tổ chức thành chương & phần phụ khác, chương bao gồm phần nội dung sau: Chương - Tổng quan luận án: chương này, NCS trình bày tổng quan luận án sơ nét hướng tiếp cận phổ biến khai phá mạng thơng tin Để từ đưa nhận định hạn chế tồn cần phải giải Thơng qua xác định đối tượng phạm vi nghiên cứu luận án Chương – Cơ sở lý thuyết & mô hình liên quan: nội dung chương này, NCS tập trung trình bày tổng quan tảng lý thuyết khai phá mạng thông tin, tập trung chuyên sâu khai phá mạng thông tin không đồng NCS giới thiệu sơ nét lịch sử phát triển mơ hình/hướng tiếp cận phổ biến hai trào lưu khai phá mạng thông tin đồng (HoIN) khai phá mạng không đồng (HIN) Chương – Tìm kiếm tương đồng mạng thơng tin giàu nội dung (C-HIN), mơ hình W-PathSim: nội dung chương 2, NCS trình bày ý tưởng việc áp dụng mơ hình chủ LDA, việc phân tích phân bố chủ đề tiềm ẩn thực thể giàu nội dung mạng thông tin không đồng Để từ làm tảng cho việc xây dựng mơ hình tìm kiếm tương đồng theo hướng tiếp cận nội dung/tương quan chủ đề mạng thông tin khơng đồng nhất, với mơ hình đề xuất W-PathSim làm tảng có mơ hình đề xuất kết tiếp bao gồm: ComRank[CT8] TopCPathSim[CT7] Chương - Nhúng mạng thông tin (INE/NRL) không đồng giàu nội dung, mơ hình W-Metapath2Vec: Trong nội dung chương này, NCS trình bày tổng quan lịch sử phát triển hướng tiếp cận nhúng mạng thông tin (INE) khai phá mạng thông tin đồng không đồng Nội dung trọng tâm chương trình bày chi tiết ý tưởng chế hai mơ hình cải tiến W-Metapath2Vec mơ hình WMetagraph2Vec phát triển dựa ý tưởng W-Metapath2Vec Chương - Dự đoán liên kết mạng thông tin không đồng dựa INE, mơ hình W-MMP2Vec: chương này, NCS trình bày hướng tiếp cận giải toán ứng dụng mạng thơng tin, dự đốn liên kết (link prediction), dựa tiếp cận INE NCS đề xuất mơ hình W-MMP2Vec[CT4] mơ hình kế thừa lại kết mơ hình trước đó, bao gồm: W-PathSim, W-Metapath2Vec WMetagraph2Vec Trong nội dung chương này, NCS tập trung trình bày ý tưởng chế phương pháp biểu diễn nút mạng thơng tin mơ hình W-MMP2Vec theo hướng tiếp cận tương quan chủ đề Chương - Kết luận, hạn chế & hướng phát triển: nội dung chương này, NCS trình bày tổng quát kết luận kết quả, đóng góp hướng phát triển luận án CHƯƠNG 2: CƠ SỞ LÝ THUYẾT & CÁC MƠ HÌNH LIÊN QUAN 2.1 Cơ sở lý thuyết khai phá mạng thông tin 2.1.1 Tổng quan phân tích khai phá mạng thông tin (INAM) Đi với phát triển Internet phân tích khai phá mạng thơng tin (Information Network Analysis and Mining – INAM) [1] [2] [3] [4] coi lĩnh vực đóng vai trị then chốt hầu hết tảng hệ thống ứng dụng hỗ trợ cho nhu cầu thiết yếu người INAM coi lĩnh vực quan trọng lĩnh vực khai phá liệu (data mining), chất liệu có gắn kết với Từng thực thể riêng biệt khối liệu ln có hay nhiều mối quan hệ chúng khơng có thực thể tồn cách độc lập riêng biệt thực tế Điển liệu mạng xã hội: Facebook, Twitter, v.v với nhiều thực thể liệu người dùng, nhóm, v.v liên kết với nhau, hay mạng lưới website (WWW) liên kết với siêu liên kết (hyperlinks), v.v Bởi chất tự nhiên kết nối thực thể tập liệu, nên mối quan hệ đóng vai trị quan trọng định chứa đựng thông tin tri thức quý giá Khởi thủy INAM coi phân nhánh lĩnh vực khai phá liệu có liên kết (networked data mining), với hàng loạt thuật toán tiếng như: PageRank, HITS, SCAN, v.v hỗ trợ cho việc khai phá liệu hiệu cách từ CSDL có liên kết, điển WWW, mạng xã hội (social networks), mạng trích dẫn (citation networks), v.v Tuy nhiên sau, độ phức tạp cấu trúc kích thước khối liệu có liên kết trở nên lớn với số lượng liên kết loại liên kết ngày đa dạng hơn, gây nhiều thách thức cho thuật toán hành Các nhà khoa học thay đổi góc nhìn đánh giá tầm quan trọng khối liệu có nhiều liên kết như khơng có cấu trúc định gọi chung loại liệu dạng “mạng thông tin” (Information Network - IN) 2.1.2 Tổng quan khai phá mạng thông tin không đồng (heterogeneous information network mining) 2.1.2.1 Lý thuyết mạng thông tin khái niệm tổng quát Lý thuyết khai phá liệu từ mạng thông tin lần đầu đề cập đến cơng trình nghiên cứu L Page & S Brin (1999) [5] trình đề xuất thuật tốn PageRank tiếng hỗ trợ việc xếp hạng websites thông qua đánh giá số lượng liên kết mà chúng kết nối đến (hay gọi vote) Tiếp nối kết đạt từ L Page & S Brin mơ hình PageRank, hàng loạt mơ hình tính tốn tương đồng xếp hạng nút mạng thông tin đề xuất, điển hình như: HITS [6], Persionalized PageRank (P-PageRank) [7], SimRank [8], SCAN [9],v.v đạt nhiều bước tiến việc giải toán liên quan đến tính tốn tương đồng (similarity measure) xếp hạng (ranking) nút mạng thông tin Tuy nhiên mơ hình phù hợp ... Bố cục luận án Nội dung luận án tổ chức thành chương & phần phụ khác, chương bao gồm phần nội dung sau: Chương - Tổng quan luận án: chương này, NCS trình bày tổng quan luận án sơ nét... tìm luận án tại: Thư viện Quốc gia Việt Nam Thư viện Trường Đại học Công nghệ Thông tin, ĐHQG- HCM MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀ LUẬN ÁN 1.1 Dẫn nhập 1.2 Khái quát toán... luận án Toàn luận án chia thành tốn thực giai đoạn luận án, sau (minh họa Hình 1-2): 1.3.1 Bài tốn 1: Tính tốn tương đồng mạng thông tin không đồng giàu nội dung (C-HIN) Trong giai đoạn đầu luận