Nghiên Cứu Mô Hình Khai Thác Mạng Thông Tin Không Đồng Nhất Và Ứng Dụng = Researches On Heterogeneous Information Networks Mining Model And Applications

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN _ PHẠM THẾ ANH PHÚ NGHIÊN CỨU MƠ HÌNH KHAI THÁC MẠNG THƠNG TIN KHƠNG ĐỒNG NHẤT VÀ ỨNG DỤNG Chun ngành: Cơng Nghệ Thơng Tin Mã ngành: 62 48 02 01 TĨM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN TP HỒ CHÍ MINH – NĂM 2022 Cơng trình hồn thành tại: Trường Đại học Công nghệ Thông tin (UIT), Đại học Quốc gia TP.HCM Người hướng dẫn khoa học 1: PGS TS Đỗ Phúc Phản biện độc lập: Miễn Luận án bảo vệ trước Hội đồng chấm luận án cấp trường - họp trực tuyến bằng: Microsoft Teams (link trực tiếp: https://bitly.com.vn/p0ewdl) Vào lúc: 08 30 ngày 07 tháng 12 năm 2021 Có thể tìm luận án tại: • Thư viện Quốc gia Việt Nam • Thư viện Trường Đại học Công nghệ Thông tin, ĐHQG-HCM MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀ LUẬN ÁN 1.1 Dẫn nhập 1.2 Khái quát toán động lực luận án 1.2.1 Khai phá mạng thông tin đồng (Homogeneous Information Network - HoIN) không đồng (Heterogeneous Information Network - HIN) 1.2.2 Các hạn chế tồn động lực thực luận án 1.3 Mục tiêu, phạm vi nghiên cứu luận án 1.3.1 Bài toán 1: Mạng thông tin không không đồng giàu nội dung tốn tìm kiếm tương đồng theo meta-path 1.3.2 Bài tốn 2: Tìm kiếm tương đồng mạng thông tin không đồng giàu nội dung theo hướng tiếp cận nhúng mạng thông tin (INE/NRL) 1.3.3 Bài toán 3: Dự đoán liên kết ngữ cảnh mạng thông tin không đồng giàu nội dung theo hướng tiếp cận nhúng mạng thông tin (INE/NRL) 1.4 Bố cục luận án CHƯƠNG 2: CƠ SỞ LÝ THUYẾT & CÁC MƠ HÌNH LIÊN QUAN 2.1 Cơ sở lý thuyết khai phá mạng thông tin 2.1.1 Tổng quan phân tích khai phá mạng thông tin (INAM) 2.1.2 Tổng quan khai phá mạng thông tin không đồng (heterogeneous information network mining) 2.2 Tính tốn tương đồng mạng khơng đồng theo meta-path & thuật toán phổ biến 10 2.3 Giới thiệu mơ hình PathSim 10 2.3.1 So sánh ưu/nhược điểm mơ hình tính tốn tương đồng phổ biến áp dụng cho mạng HIN 11 2.3.2 Các hạn chế tiếp cận hướng liên kết (link-based) tính tốn tương đồng HIN 11 CHƯƠNG 3: TÌM KIẾM TƯƠNG ĐỒNG TRONG MẠNG THƠNG TIN GIÀU NỘI DUNG, MƠ HÌNH W-PATHSIM 12 3.1 Tương đồng chủ đề thực thể giàu ngữ liệu văn 12 3.1.1 Áp dụng mơ hình chủ đề LDA khám phá phân bố chủ đề thực thể dạng văn 12 3.1.2 Tính tốn tương đồng thực thể giàu nội dung 12 3.2 Thuật toán W-PathSim: tương đồng theo meta-path có trọng số chủ đề 13 3.3 Thực nghiệm mơ hình đánh giá kết đạt 14 CHƯƠNG 4: TIẾP CẬN NHÚNG MẠNG THÔNG TIN (INE) TRONG MẠNG C-HIN, MƠ HÌNH W-METAPATH2VEC 15 4.1 Tổng quan ánh xạ/nhúng mạng thông tin (INE) 15 4.2 Sơ nét mơ hình INE/NRL phổ biến & động lực 16 4.2.1 Tổng quan chế hoạt động INE/NRL 16 4.2.2 Các hạn chế mơ hình INE 16 4.3 Mơ hình W-Metapath2Vec: tiếp cận INE cho mạng thông tin không đồng giàu nội dung (C-HIN) 17 4.3.1 Bước ngẫu nhiên dựa meta-path theo hướng chủ đề (topicdriven meta-path-based random walk) 17 4.3.2 Áp dụng Skip-grams dành cho HIN mơ hình WMetapath2Vec 18 4.4 Thực nghiệm mô hình đánh giá kết đạt 19 CHƯƠNG 5: DỰ ĐOÁN LIÊN KẾT TRÊN MẠNG C-HIN, MƠ HÌNH W-MMP2VEC 20 5.1 Dự đoán tồn liên kết dựa việc phân tích liên kết khác loại có theo meta-path 20 5.2 W-MMP2Vec: mơ hình dự đốn liên kết (link prediction) theo hướng tiếp cận hướng INE 21 5.2.1 Ý tưởng & câu hỏi đặt trình nghiên cứu 21 5.2.2 Hàm mục tiêu mơ hình W-MMP2Vec 22 5.2.3 Tương quan chủ đề toán dự đoán liên kết 24 5.2.4 Thực nghiệm & đánh giá kết mô hình W-MMP2Vec 25 CHƯƠNG 6: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 26 6.1 Kết luận & kết đạt 26 6.2 Các hạn chế tồn & hướng phát triển 27 CÁC ĐỀ TÀI KHOA HỌC ĐÃ THAM GIA i DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ i TÀI LIỆU THAM KHẢO ii CHƯƠNG 1: TỔNG QUAN VỀ LUẬN ÁN 1.1 Dẫn nhập A Sự phổ biến & đa dạng B Phân tích khai phá mạng nhiều mạng thông tin thông tin giúp đem lại nhiều tồn cầu tri thức hữu ích cho người Hình 1-1 Sự phổ biến & tầm quan trọng việc phân tích khai phá mạng thơng tin Phân tích & khai phá mạng thơng tin (Information Network Analysis & Mining – INAM) [1] [2] chủ đề nghiên cứu quan trọng đóng vai trị ứng dụng nhiều lĩnh vực khác nhau, điển hình như: phân tích mạng xã hội (social network analysis), xây dựng hệ khuyến nghị (recommedation system) dựa liệu mạng thông tin, truy hồi liệu mạng thơng tin (networked data retrieval), hay phân tích dạng liệu có cấu trúc mạng thơng tin gene, protein (trong tin sinh học), cấu trúc & thành phần phân tử (hóa học), v.v Bên cạnh đó, lĩnh vực khai phá mạng thơng tin cịn đặc biệt quan tâm thời gian gần ứng dụng việc phân tích hành vi xu người, thông qua tương tác họ mạng xã hội phổ biến như: Facebook[1], Twitter[2], Weibo[3], Instagram[4], IMDb[5] (minh họa Hình 1-1) Bản chất liên kết liệu tầm quan trọng khai phá mạng thơng tin Qua ví dụ trên, cho thấy tầm quan trọng việc phân tích khai phá mạng thơng tin hồn tồn khơng thể phủ nhận Có thể thấy hầu hết dạng cấu trúc liệu mà tiếp xúc ngày ít/nhiều tồn dạng liên kết với nhau, điển hình như: mạng Internet (WWW), trang mạng xã hội (Facebook, Twitter, MySpace, Weibo, v.v.), mạng học thuật (DBLP, DBIS, v.v.), bách khoa toàn thư mở (encyclopedia) dạng đồ thị tri thức (Wikipedia, YAGO, v.v.), hay diễn đàn, trang mạng tin tức, v.v Và liên kết thực thể liệu mạng thông tin giúp hỗ trợ làm giàu thêm ngữ nghĩa cho thực thể mà liên kết đến, ví dụ liên kết/tham chiếu thông qua siêu liên kết (hyperlink) website, mối quan hệ người dùng với mạng xã hội, khái niệm Mạng XH Facebook: https://www.facebook.com/ Mạng XH Twitter: https://twitter.com/ Mạng XH Weibo: https://www.weibo.com Mạng XH hình ảnh Instagram: https://www.instagram.com/ Mạng thơng tin phim IMDb: https://www.imdb.com/ (concept) có quan hệ tham chiếu lẫn bách khoa tồn thư, v.v Bên cạnh đó, ta thấy chất “liên kết”/“cung”/“quan hệ” mạng thông tin không hỗ trợ làm giàu ngữ nghĩa cho “thực thể”/“nút” mạng thơng tin mà mà thân mang nhiều thơng tin quan trọng hàm chứa bên làm cho khác biệt với quan hệ khác Động lực luận án Kích thước lớn, tốc độ tăng trưởng nhanh đa dạng cấu trúc xem yếu tố thách thức coi tiềm cho việc phát triển hữu ích cho người nhiều lĩnh vực dựa việc phân tích khai phá tri thức mạng thông tin Đặc biệt đa dạng cấu trúc mạng thơng tin xem thách thức lớn cho lĩnh vực khai phá mạng thông tin Sự đa dạng loại nút mối quan hệ chúng khiến mơ hình khai phá truyền thống P-PageRank, SimRank, v.v khơng cịn áp dụng cách hiệu Do trào lưu khai phá mạng thông tin, gọi khai phá mạng thông tin không đồng đời 1.2 Khái quát toán động lực luận án 1.2.1 Khai phá mạng thông tin đồng (Homogeneous Information Network HoIN) không đồng (Heterogeneous Information Network - HIN) Với mơ hình phân tích khai phá mạng thơng tin truyền thống, việc đánh giá mức độ liên kết nút mạng thơng tin có vai trị quan trọng yếu tố khác Việc xác định mức độ tương đồng hay xếp hạng nút hầu hết dựa số lượng/mật độ liên kết với nút khác (điển hình P-PageRank, SCAN SimRank) Và mơ hình truyền thơng bỏ qua khác biệt loại nút mối quan hệ chúng (chỉ có loại nút quan hệ nhất) – hướng tiếp cận gọi khai phá mạng thông tin đồng (homogeneous: đơn nhất/đồng nhất) Tuy nhiên thực tế cấu trúc mạng thông tin phức tạp đa dạng với tham gia nhiều loại nút liên kết khác nhau, ví dụ mạng học thuật (DBLP, DBIS, v.v.) có nhiều loại nút như: tác giả (author), báo (paper), hội nghị/tạp chí (venue/journal), v.v mạng xã hội (Facebook Twitter), tin tức (VnEprress BBC) có loại nút: người dùng (user), viết (post), bình luận (comment) hay nhóm (group) Giữa nút có hay nhiều loại liên kết viết khác nhau, ví dụ mạng học thuật: tác_giả → bài_báo, bài_báo nộp/xuất_bản → bạn_bè hội_nghị/tạp_chí, hay tham_gia mạng xã hội: người dùng → người dùng, người dùng → nhóm Sự đa dạng loại nút mối quan hệ gây nhiều khó khăn cho việc áp dụng mơ hình phân tích khai phá mạng thơng tin truyền thống Do đó, cần có hướng tiếp cận mới, việc phân tích khai phá mạng thơng tin cần trọng đến khác biệt loại nút mối quan hệ chúng (heterogeneous: đa dạng/đa tạp), hướng tiếp cận gọi phân tích khai phá mạng thông tin không đồng (HIN) Nền tảng sở lý thuyết việc phân tích khai phá mạng thơng tin khơng đồng HIN – lần đầu đề xuất Sun Y & J Han (2011), mơ hình đề xuất phải đảm bảo khả phân tách khác biệt loại thực thể liên kết đảm toàn ngữ nghĩa mối quan hệ nút/thực thể 1.2.2 Các hạn chế tồn động lực thực luận án Trong hầu hết hướng tiếp cận tốn phân tích khai phá mạng thơng tin không đồng (HIN), bao gồm hướng tiếp cận học mơ hình biểu diễn (NRL) trọng vào việc phân tích mối quan hệ thực thể/nút HIN quan tâm đến ảnh hưởng nội dung chủ đề thực thể/nút mạng thơng tin có giàu nội dung hay cịn gọi là: Content-based HIN – C-HIN Có thể thấy thực tế tất mạng thơng tin phổ biến hay mạng xã hội (Facebook hay Twitter), mạng học thuật (DBLP hay DBIS) hay diễn đàn (forum), tin tức online, v.v chứa lượng lớn thực thể/nút dạng văn bản, thực thể/nút giàu nội dung (content-based nodes) đóng vai trị phổ biến xuất hầu hết quan hệ ngữ nghĩa (mô tả dạng meta-paths) thực thể loại Sự tương đồng nội dung, chủ đề nút giàu ngữ liệu đóng vai trị quan trọng việc đánh giá tương đồng nút xét thông qua meta-path mà chúng xuất 1.3 Mục tiêu, phạm vi nghiên cứu luận án Đề tài: Nghiên Cứu Mơ Hình Khai Thác Mạng Thơng Tin Khơng Đồng Nhất Và Ứng Dụng Bài Tốn 01: (Giai đoạn luận án) Phân tích phân bố chủ đề + đề xuất mơ hình tính tốn tương đồng theo meta-path C-HIN (Các mơ hình đề xuất: CDO + LDAGOW[CT5][CT6] W-PathSim [CT9][CT10] Bài Toán 02: (Giai đoạn luận án) Đề xuất mơ hình nhúng/ánh xạ mạng thông tin (INE) khai phá mạng C-HIN (Các mơ hình đề xuất: W-Metapath2Vec[CT1]) Bài Tốn 03: (Giai đoạn luận án) Dự đoán liên kết theo tiếp cận nhúng mạng thông (INE) mạng không đồng giàu nội dung (C-HIN) (Các mơ hình đề xuất: W-MPP2Vec[CT4]) Hình 1-2 Tổng quan nội dung phạm vi nghiên cứu luận án Toàn luận án chia thành tốn thực giai đoạn luận án, sau (minh họa Hình 1-2): 1.3.1 Bài tốn 1: Mạng thơng tin khơng khơng đồng giàu nội dung tốn tìm kiếm tương đồng theo meta-path Trong giai đoạn đầu luận án, NCS GVHD tập trung vào việc xây dựng tảng lý thuyết cho việc khám phá phân bố chủ đề mạng thông tin CHIN Để từ kết hợp tương đồng chủ đề với mối quan hệ thực thể/nút nhằm đưa mơ hình cải tiến phù hợp cho việc khai phá mạng thông tin giàu nội dung Bài tốn tìm kiếm tương đồng mạng thơng tin Đối với tốn tìm kiếm tương đồng mạng thơng tin nói chung mạng thơng tin khơng đồng giàu nội dung (C-HIN) nói riêng, mơ hình tính tốn tương đồng giúp xác định mức độ (trọng số) tương đồng hai nút/thực thể loại với Điển thuật tốn PageRank, SimRank hay PathSim Trong luận án thơng qua mơ hình chủ đề LDA giúp hỗ trợ cho việc phân tích phân bố chủ đề có nút giàu ngữ liệu mạng thông tin Sự phân bố chủ đề nút dạng văn sau sử dụng để xác định mức độ tương đồng chủ đề nút mạng thơng tin dựa metapath, với mơ hình cải tiến đề xuất, bao gồm: mơ hình W-PathSim (cơng bố [CT10]) với mơ hình mở rộng: DW-PathSim (cơng bố [CT9]), ComRank TopCPathSim (công bố [CT6]) 1.3.2 Bài tốn 2: Tìm kiếm tương đồng mạng thơng tin không đồng giàu nội dung theo hướng tiếp cận nhúng mạng thông tin (INE/NRL) Từ kết nghiên cứu giai đoạn 1, NCS & GVHD đề xuất kết hợp với hướng tiếp cận nhúng/ánh xạ thực thể/nút mạng C-HIN môi trường không gian vector, q trình rút trích đặc trưng nút để huấn luyện mơ hình học áp dụng nguyên lý bước ngẫu nhiên dựa meta-path theo hướng tiếp cận tương đồng chủ đề (topic-driven meta-path-based random walk) Bài tốn nhúng/học mơ hình biểu diễn mạng thông tin Là hướng tiếp cận lĩnh vực phân tích khai phá mạng thơng tin Các mơ hình nhúng/biểu diễn mạng thơng tin giúp chuyển đổi nút/thực thể hay liên kết mạng dạng vector số thực với số chiều quy định Để từ giúp cho việc giải hàng loạt tốn điển hình khai phá mạng thơng tin tính tốn tương đồng, gom cụm, phân lớp, v.v nút/thực thể mạng thông tin xét Để thực hóa ý tưởng, NCS xây dựng đề xuất mơ hình WMetapath2Vec[CT1] W-Metagraph2Vec[CT2], kế thừa từ ý tưởng mơ hình W-PathSim xây dựng giai đoạn Mơ hình WMetapath2Vec hỗ trợ cho việc biểu diễn nút tương đồng nhau, dựa hai tiêu chí mức độ liên kết tương quan chủ đề mạng C-HIN, dạng vector tương đương Từ hỗ trợ cho việc giải toán cốt lõi INAM tìm kiếm tương đồng (node similarity search), gom cụm (node clustering), phân lớp (node classification), v.v 1.3.3 Bài toán 3: Dự đoán liên kết ngữ cảnh mạng thông tin không đồng giàu nội dung theo hướng tiếp cận nhúng mạng thông tin (INE/NRL) Trong phần nội dung cuối luận án NCS & GVHD kết hợp thành hai phần nội dung trước để đề xuất mơ hình ứng dụng cho việc giải toán dự đoán liên kết nút mạng C-HIN Bài toán dự đoán liên kết mạng thông tin không đồng Là toán ứng dụng phổ biến lĩnh vực phân tích khai phá mạng thơng tin Dự đoán liên kết giúp hỗ trợ cho việc đánh giả khả xuất liên kết kỳ vọng hai cặp nút mạng thông tin dựa việc phân tích tương quan đặc tính liên kết chúng Tương tự ngữ cảnh mạng thông tin không đồng nhất, quan hệ cấu trúc liên kết cặp nút loại với dạng meta-path, mơ hình đề xuất hỗ trợ cho việc dự đoán khả xuất meta-path kỳ vọng hai cặp nút loại với Mơ hình dự đốn liên kết xây dựng dựa hướng tiếp cận INE nhằm hỗ trợ cho việc ánh xạ nút có khả cao xuất liên kết mạng thông tin vector số thực tương đương với số chiều quy định Việc xây dựng rút trích đặc trưng cặp nút - dùng cho huấn luyện mơ hình học biểu diễn nút mạng thông – dựa việc đánh giá hình mẫu liên kết tương quan chủ đề thực thể Để thực hóa mơ hình trên, NCS & GVHD đề xuất xây dựng mơ hình W-MMP2Vec[CT4] nhằm hỗ trợ cho việc giải toán dự đốn liên kết mạng C-HIN Ngồi NCS & GVHD dựa ý tưởng kết đạt mơ hình: W-Metapath2Vec, W-Metagraph2Vec W-MMP2Vec để xây dựng mơ hình W-Com2Vec (cơng bố [CT3]) nhằm giải toán nhận diện & biểu diễn cộng đồng mạng thông tin không đồng 1.4 Bố cục luận án Nội dung luận án tổ chức thành chương & phần phụ khác, chương bao gồm phần nội dung sau: • Chương - Tổng quan luận án: chương này, NCS trình bày tổng quan luận án sơ nét hướng tiếp cận phổ biến khai phá mạng thông tin Để từ đưa nhận định hạn chế tồn cần phải giải Thơng qua xác định đối tượng phạm vi nghiên cứu luận án • Chương – Cơ sở lý thuyết & mô hình liên quan: nội dung chương này, NCS tập trung trình bày tổng quan tảng lý thuyết khai phá mạng thông tin, tập trung chuyên sâu khai phá mạng thông tin không đồng NCS giới thiệu sơ nét lịch sử phát triển mơ hình/hướng tiếp cận phổ biến hai trào lưu khai phá mạng thông tin đồng (HoIN) khai phá mạng khơng đồng (HIN) • Chương – Tìm kiếm tương đồng mạng thơng tin giàu nội dung (C-HIN), mơ hình W-PathSim: nội dung chương 2, NCS trình bày ý tưởng việc áp dụng mơ hình chủ LDA, việc phân tích phân bố chủ đề tiềm ẩn thực thể giàu nội dung mạng thông tin khơng đồng Để từ làm tảng cho việc xây dựng mơ hình tìm kiếm tương đồng theo hướng tiếp cận nội dung/tương quan chủ đề mạng thơng tin khơng đồng nhất, với mơ hình đề xuất W-PathSim làm tảng có mơ hình đề xuất kết tiếp bao gồm: ComRank[CT8] TopCPathSim[CT7] • • • Chương - Nhúng mạng thông tin (INE/NRL) khơng đồng giàu nội dung, mơ hình W-Metapath2Vec: Trong nội dung chương này, NCS trình bày tổng quan lịch sử phát triển hướng tiếp cận nhúng mạng thông tin (INE) khai phá mạng thông tin đồng không đồng Nội dung trọng tâm chương trình bày chi tiết ý tưởng chế hai mơ hình cải tiến W-Metapath2Vec mơ hình WMetagraph2Vec phát triển dựa ý tưởng W-Metapath2Vec Chương - Dự đốn liên kết mạng thơng tin khơng đồng dựa INE, mơ hình W-MMP2Vec: chương này, NCS trình bày hướng tiếp cận giải tốn ứng dụng mạng thơng tin, dự đốn liên kết (link prediction), dựa tiếp cận INE NCS đề xuất mơ hình W-MMP2Vec[CT4] mơ hình kế thừa lại kết mơ hình trước đó, bao gồm: W-PathSim, W-Metapath2Vec WMetagraph2Vec Trong nội dung chương này, NCS tập trung trình bày ý tưởng chế phương pháp biểu diễn nút mạng thông tin mơ hình W-MMP2Vec theo hướng tiếp cận tương quan chủ đề Chương - Kết luận, hạn chế & hướng phát triển: nội dung chương này, NCS trình bày tổng quát kết luận kết quả, đóng góp hướng phát triển luận án CHƯƠNG 2: CƠ SỞ LÝ THUYẾT & CÁC MƠ HÌNH LIÊN QUAN 2.1 Cơ sở lý thuyết khai phá mạng thông tin 2.1.1 Tổng quan phân tích khai phá mạng thơng tin (INAM) Đi với phát triển Internet phân tích khai phá mạng thông tin (Information Network Analysis and Mining – INAM) [1] [2] [3] [4] coi lĩnh vực đóng vai trị then chốt hầu hết tảng hệ thống ứng dụng hỗ trợ cho nhu cầu thiết yếu người INAM coi lĩnh vực quan trọng lĩnh vực khai phá liệu (data mining), chất liệu ln có gắn kết với Từng thực thể riêng biệt khối liệu ln có hay nhiều mối quan hệ chúng khơng có thực thể tồn cách độc lập riêng biệt thực tế Điển liệu mạng xã hội: Facebook, Twitter, v.v với nhiều thực thể liệu người dùng, nhóm, v.v liên kết với nhau, hay mạng lưới website (WWW) liên kết với siêu liên kết (hyperlinks), v.v Bởi chất tự nhiên kết nối thực thể tập liệu, nên mối quan hệ đóng vai trò quan trọng định chứa đựng thông tin tri thức quý giá Khởi thủy INAM coi phân nhánh lĩnh vực khai phá liệu có liên kết (networked data mining), với hàng loạt thuật toán tiếng như: PageRank, HITS, SCAN, v.v hỗ trợ cho việc khai phá liệu hiệu cách từ CSDL có liên kết, điển WWW, mạng xã hội (social networks), mạng trích dẫn (citation networks), v.v Tuy nhiên sau, độ phức tạp cấu trúc kích thước 𝑎𝑟𝑔𝑚𝑎𝑥 ∏ ∏ 𝑃𝑟𝑜𝑏(𝑐|𝑣; 𝜃) 𝜃 𝑎𝑟𝑔𝑚𝑎𝑥 ∑ ∑ 𝜃 (4.3) 𝑣∈𝑉 𝑐∈𝑁(𝑣) ∑ 𝑃𝑟𝑜𝑏(𝑐𝑡 |𝑣; 𝜃) (4.4) 𝑣∈𝑉 𝑡∈𝑇𝑉 𝑐𝑡 ∈𝑁𝑡 (𝑣) Trong đó: • N(v), tập thực thể lân cận thực thể (v), khơng có phân biệt loại (có thể hay khác loại) • Nt (v), tập thực thể lân cận thực thể (v), tập thực thể phải loại (t) với thực thể (v) • Prob(c|v; θ), xác suất xuất thực thể (v) tập thực thể ngữ cảnh (c), không phụ thuộc vào loại thực thể • Prob(ct |v; θ), xác suất xuất thực thể (v) tập thực thể ngữ cảnh (c), phụ thuộc vào loại (t) thực thể (v) thực thể ngữ cảnh (c), với TV tập loại thực thể mạng thông tin 4.4 Thực nghiệm mô hình đánh giá kết đạt Hình 4-3 So sánh kết tìm kiếm tác giả tương đồng với hai datasets (DAC-Dataset) (DONG8AREA-Dataset) Hình 4-4 So sánh kết tìm kiếm hội nghị/tạp chí tương đồng với hai datasets (DAC-Dataset) (DONG-8AREA-Dataset) Nhằm chứng minh tính hiệu mơ hình đề xuất W-Metapath2Vec, nội dung phần tập trung mô tả thực nghiệm so sánh W-Metapath2Vec với 19 mơ hình node embedding bao gồm cho mạng thông tin không đồng (Metapath2Vec) mạng thông tin đồng (Node2Vec, LINE, DeepWalk, NetMF NetSMF) Các mơ hình thực nghiệm tập liệu DBLP việc giải ba tốn khai phá mạng thơng tin, bao gồm: tìm kiếm tương đồng (similarity search), gom cụm (clustering) phân đa lớp (classification) Trong phần thực nghiệm mơ hình W-Metapath2Vec, tập liệu DBLP Aminer sử dụng Trong phần thực nghiệm này, kết đầu dạng tập vectors đặc trưng thực thể huấn luyện thông qua mơ hình node embedding sử dụng để tính tốn tương đồng thực thể, thơng qua độ đo cosine (cosine similarity) Trong phần thực nghiệm này, mơ hình áp dụng để giải hai tốn liên quan đến tìm tập top5, top-10 top-20 tác giả hội nghị/tạp chí tương đồng Việc thực nghiệm cho tốn tìm kiếm thực cách lựa chọn ngẫu nhiên 100 tác giả hội nghị/tạp chí sau thực truy vấn tìm kiếm tương đồng Các kết trả 100 trường hợp đánh giá thông qua độ đo nDCG, sau lấy trung bình để làm kết quản đánh giá cuối So sánh kết thực nghiệm mơ hình (Hình 4-3 Hình 4-4) cho thấy mơ hình W-Metapath2Vec đạt độ xác cao so với mơ hình Metapath2Vec tầm 4.02%, vượt trội so với mơ hình truyền thống áp dụng cho HINs (NetSFM: 11.85%, NetFM: 14.54, Node2Vec: 29.65%, LINE: 55.9% DeepWalk: 38.44%) cho hai tốn tìm kiếm tác giả hội nghị/tạp chí tương đồng CHƯƠNG 5: DỰ ĐOÁN LIÊN KẾT TRÊN MẠNG C-HIN, MƠ HÌNH WMMP2VEC Trong nội dung chương này, NCS trình bày hướng tiếp cận xây dựng ứng dụng dự đốn liên kết (link prediction) mạng thơng tin không đồng giàu nội dung (C-HIN) theo hướng tiếp cận nhúng/ánh xạ mạng thông tin môi trường vector (INE) Một phần nội dung chương công bố cơng trình: [CT3][CT4] Kế thừa từ kết đạt mơ hình INE, WMetapath2Vec áp dụng cho việc ánh xạ/nhúng nút tương đồng theo chủ đề C-HIN, NCS & GVHD đề xuất xây dựng mơ hình W-MMP2Vec (cơng bố [CT4]) nhằm hỗ trợ cho việc huấn luyện mơ hình biểu diễn nút có khả cao xuất liên kết trong mạng C-HIN vector tương tự 5.1 Dự đoán tồn liên kết dựa việc phân tích liên kết khác loại có theo meta-path Hầu hết mơ hình dự đốn liên kết theo hướng tiếp cận dựa meta-path truyền thống hay INE gặp hạn chế việc sử dụng liệu huấn luyện mơ hình dự đốn dựa vào loại quan hệ xét hai nút mạng thơng tin, dẫn đến kết dự đốn cịn chưa đạt độ xác cao Lấy lại ví dụ tốn dự đốn xuất quan hệ đồng tác giả 20 (co-authorship) (A-P-A) hai tác giả mạng thông tin DBLP, ta thấy tất tác giả có quan hệ đồng nghiệp (A-O-A) hay quan hệ tham gia/nộp báo họ cho số hội nghị/tạp chí định thường xuất mối quan hệ đồng tác giả (A-P-A) (minh họa Hình 5-1-A) Điều phù hợp với ý nghĩa thực tế, tác giả có xu hướng khả cao cộng tác cơng trình khoa học/bài báo họ đồng nghiệp hay thường gặp gỡ hội nghị khoa học Lấy ví dụ khác việc hình thành mối quan hệ bạn bè (U-U) hai người dùng mạng xã hội, ví dụ Facebook (minh họa Hình 5-1-C) Ta thấy người dùng tham gia vào hội nhóm, fanpage, v.v (thể qua meta-path U-G-U) hay bình luận viết (thể qua meta-path U-C-P-C-U) có xu xuất mối quan hệ bạn bè cao so với trường hợp chưa có mối quan hệ A: tác giả, P: báo, O: quan, V: hội nghị A-P-V-P-A A A-O-A A U: người dùng, M: phim, A: diễn viên U-M-A-M-U U U: người dùng, G: nhóm U U U-G-U U U-M-G-M-U ? ? ? U-M-U B Mạng thông tin phim IMDb A-P-A A Mạng học thuật DBLP U-U C Mạng xã hội Facebook Hình 5-1 Minh họa ảnh hưởng liên kết sẵn có việc hình thành liên kết cặp nút mạng thông tin khác b a a ? A Cặp nút với nhiều mối quan hệ HIN b B Mục tiêu ánh xạ cặp nút mơ hình W-MMP2Vec Hình 5-2 Ý tưởng mơ hình W-MMP2Vec 5.2 W-MMP2Vec: mơ hình dự đốn liên kết (link prediction) theo hướng tiếp cận hướng INE 5.2.1 Ý tưởng & câu hỏi đặt trình nghiên cứu Từ ý tưởng phụ thuộc liên kết sẵn có việc dự đốn xuất liên kết cặp nút mạng thông tin, NCS đề xuất hướng tiếp cận thông qua việc kết hợp hướng tiếp cận INE với việc xây dựng mơ hình huấn luyện đặc trưng mơ hình dự đoán xuất liên kết (ở dạng meta-path) xét cặp nút thông qua việc 21 học đặc trưng dạng liên kết sẵn có (cũng dạng meta-path) tương đồng chủ đề (ở dạng trọng số tương đồng chủ đề meta-path) chúng Ở mặt Tổng quan, mơ hình dự đốn liên kết W-MMP2Vec phát biểu có hệ thống, sau: • Cho mạng thơng tin khơng đồng có cấu trúc dạng đồ thị G = (V, E) với tập hàng loạt quan hệ khác dạng meta-path, 𝒫 = {𝒫1 , 𝒫2 … 𝒫n } • Cho cặp nút loại (a) (b), ký hiệu 〈a, b〉, ϕ(a) = ϕ(b) • Giữa có xuất hàng loại mối liên kết dạng meta-path, ký hiệu: 𝒫a↝b , 𝒫a↝b ⊆ 𝒫, (minh họa Hình 5-2-A) ký hiệu: 〈a, b, 𝒫a↝b 〉 • Mục tiêu mơ hình đặt dự đoán xuất liên kết cụ thể (a) (b) - dạng meta-path, ký hiệu: 𝒫i , 𝒫i ⊆ 𝒫 𝒫i ∉ 𝒫a↝b Từ yếu tố trên, mơ hình học W-MMP2Vec có nhiệm vụ phải cực đại hóa xác suất xuất 𝒫i cặp nút 〈a, b〉, với tồn mối quan hệ 𝒫a↝b , ký hiệu 〈a, b, 𝒫a↝b 〉 sau (xem [công thức 5.1]): 𝑃𝑟𝑜𝑏(𝒫𝑖 |〈𝑎, 𝑏, 𝒫𝑎↝𝑏 〉), 𝜙(𝑎) = 𝜙(𝑏), 𝒫𝑖 ∈ 𝒫, 𝒫𝑎↝𝑏 ⊆ 𝒫, 𝒫𝑖 ∉ 𝒫𝑎↝𝑏 (5.1) Trong đó, • 𝒫a↝b , mối quan hệ (ở dạng meta-path) xuất hai nút (a) (b) • 𝒫i , đại diện cho mối quan hệ chưa xuất cần dự đoán hai nút (a) (b) dạng meta-path 𝒫i ∉ 𝒫a↝b • Prob(𝒫i |〈a, b, 𝒫a↝b 〉) xác suất xuất quan hệ 𝒫i hai nút (a) (b) mà mơ hình W-MMP2Vec cần phải cực đại hóa 5.2.2 Hàm mục tiêu mơ hình W-MMP2Vec |V| |V| d Hình 5-3 Minh họa trình huấn luyện mơ hình W-MMP2Vec Lấy ý tưởng từ hướng tiếp cận mơ hình Trans-R, Trans-H Trans-A việc chuyển đổi tương quan cặp nút mối quan hệ chúng mạng thơng tin, Hình 5-2 minh họa Tổng quan ý tưởng huấn luyện mục tiêu tối ưu mô hình W-MMP2Vec việc giải tốn dự đốn liên kết HIN theo hướng tiếp cận INE Để biểu diễn cho cặp nút: 〈a, b〉 với số chiều ánh xạ lên không gian vector (d), ta sử dụng hai ma trận nhúng 22 (embedding matrix), Xa Xb , với kích thước là: |V| × d, hàng đại diện cho nút mạng thông tin Để biểu diễn cho mối quan hệ tập cặp nút 〈a, b〉 dạng metapaths: 𝒫a↝b , ta sử dụng ma trận nhúng X 𝒫a↝b có kích thước: |𝒫| × d Để biểu diễn cho mối quan hệ cần dự đoán, ký hiệu: 𝒫i cặp nút 〈a, b〉, ta sử dụng vector hàng có kích thước × |𝒫| dạng one-hot (gồm giá trị vị trí quan hệ 𝒫i lại mang giá trị 0) Hàm mục tiêu (objective function) mơ hình W-MMP2Vec định nghĩa sau (xem [công thức 5.2]): 𝑋𝑎 𝑎 + 𝑋𝒫 ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝒫𝑎↝𝑏 + ⃗⃗⃗ 𝒫𝑖 ≈ 𝑋𝑏 𝑏⃗ (5.2) Trong đó, • a⃗ ⃗b vector hàng (row-vector) đại diện cho nút hai nút (a) (b), tương ứng ma trận nhúng Xa Xb • ⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝒫a↝b tập vector hàng đại diện cho quan hệ hai nút (a) (b), tương ứng ma trận nhúng X𝒫 • ⃗⃗⃗ 𝒫i , vector hàng dạng one-hot vector biểu diễn cho quan hệ 𝒫i cặp nút xét 〈a, b〉 Về mặt tổng quan mơ hình W-MMP2Vec huấn luyện dạng toán phân lớp với tập liệu đầu vào nút xét (a) với tập mối quan hệ chúng 𝒫a↝b mối quan hệ kỳ vọng xuất là: 𝒫i để kết đầu phải nút (b) (minh họa Hình 5-2-B) Quá trình huấn luyện mơ hình WMMP2Vec áp dụng kiến trúc mạng neuron để tối ưu tham số mô hình gồm: Xa , Xb X𝒫 thơng qua áp dụng kỹ thuật tối ưu SGD Mơ hình WMMP2Vec đưa dạng toán phân lớp với kết đầu mạng neuron xác suất xuất liên kết xét (𝒫i ) cặp nút (a) (b), đầu mạng neuron hàm softmax áp dụng để bình thường hóa (normalized) đưa tổng kết giá trị Ta có cơng thức suy diễn tiến (feed forward) mơ hình cho lần lặp sau (xem [công thức 5.3]): 𝑃𝑟𝑜𝑏(𝒫𝑖 |〈𝑎, 𝑏, 𝒫𝑎↝𝑏 〉) = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (𝑋𝑎 𝑎 ⋅ 𝑋𝑏 𝑏⃗ ⋅ 𝜎(𝑋𝒫𝑎↝𝑏 ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝒫𝑎↝𝑏 )) Trong đó, • σ( ), hàm sigmoid, với σ(X 𝒫a↝b ⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝒫a↝b ) = (5.3) ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ) −(X𝒫 𝒫 ∙W a↝b a↝b 𝒫a↝b 1+e • softmax( ), hàm softmax giúp đưa giá trị đầu có tổng Phương thức tối ưu tham số mơ hình W-MMP2Vec (minh họa Hình 5-3) thông qua việc cập tham số mơ hình lần lặp, gồm: suy diễn tiến (feedforward) lan truyền ngược (back-propagation) đề cập phần 23 5.2.3 Tương quan chủ đề toán dự đoán liên kết Cuối cùng, để mơ hình đạt độ tối ưu cao cho toán dự đoán liên kết mạng thông tin giàu nội dung, NCS đưa thêm trọng số tương đồng chủ đề meta-path xét, ký hiệu: 𝑤_𝑡𝑜𝑝𝑠𝑖𝑚𝒫 , xác định trọng số tương đồng W-PathSim (xem [công thức 3.4], mục 3.2) vào q trình huấn luyện mơ hình W-MMP2Vec, nhằm làm tăng hiệu suất độ xác mơ hình dựa đốn Với cặp nút 〈a, b〉 bất kỳ, ta có hay nhiều mối quan hệ, dạng meta-path, chúng: 𝒫a↝b Các mối quan hệ có hai loại trọng số gán tùy thuộc vào cấu trúc chúng, bao gồm: • Trong số dạng nhị phân (binary meta-path): trọng số có hai giá trị 1, với trường hợp tồn liên kết hai nút (𝑎) (𝑏) có giá trị ngược lại Trường hợp trọng số dạng nhi phân áp dụng quan hệ (meta-path) xét không tồn tập nút dạng văn (𝐾) (𝐾 − ) đối xứng • Trong số tương đồng chủ đề (topic weighted meta-path): meta-path xét có tồn nút dạng văn đối xứng (𝐾) (𝐾 − ) trọng số tương đồng chủ đề (𝑤_𝑡𝑜𝑝𝑠𝑖𝑚𝒫 ) (xem công thức 3.2) dùng làm trọng số cho quan hệ (meta-path) xét Để huấn luyện mơ hình W-MMP2Vec dạng tốn phân lớp thơng qua kiến trúc mạng neuron với kết đầu xác suất dự đoán xuất liên kết kỳ vọng (𝒫i ) Công thức suy diễn tiến mơ hình W-MMP2Vec cải tiến lại thành sau (xem [công thức 5.4]): 𝑃𝑟𝑜𝑏(𝒫𝑖 |〈𝑎, 𝑏, 𝒫𝑎↝𝑏 〉) = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (𝑋𝑎 𝑎 ⋅ 𝑋𝑏 𝑏⃗ ⋅ 𝜎(𝑋𝒫𝑎↝𝑏 ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝒫𝑎↝𝑏 ∙ ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝑊𝒫𝑎↝𝑏 )) (5.4) Trong đó, • ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ W𝒫a↝b , vector hàng, có kích thước × |𝒫a↝b | đại diện cho trọng số mối quan hệ (ở dạng meta-path) 𝒫a↝b , hai nút (a) (b) • σ( ) softmax( ), hàm sigmoid softmax Việc đưa vào trọng số tương quan chủ đề mối quan hệ (ở dạng metapath) 𝒫a↝b cặp nút 〈a, b〉, ký hiệu W𝒫a↝b hướng tiếp cận mơ hình W-MMP2Vec so với mơ hình INE khác như: HIN2Vec, Metapath2Vec hay PME vốn phụ thuộc vào xuất liên kết dạng nhi phân mà không phân tích đến yếu tố trọng số mối quan hệ, hay cụ thể trọng số tương đồng nội dung/chủ đề thực thể Trong phần chương, NCS trình bày cac thức tối ưu tham số mơ hình W-MMP2Vec dựa SGD thông qua việc áp dụng kiến trúc mạng neuron 24 5.2.4 Thực nghiệm & đánh giá kết mơ hình W-MMP2Vec Trong nội dung phần thực nghiệm chương này, NCS trình bày phương pháp thực nghiệm, liệu thu thập nhận xét kết đạt mơ hình W-MMP2Vec Ngồi NCS tiến hành so sánh hiệu suất mơ hình W-MMP2Vec với mơ hình INE phổ biến việc giải toán dự đoán liên kết loại mạng thông tin không đồng (HIN) khác cho mạng thông tin đồng không đồng nhất, bao gồm: DeepWalk, LINE, PTE, Node2Vec, Metapath2Vec, Metagraph2Vec PME Đối với mạng thông tin DBLP, tập liệu huấn luyện (Dtrain ) kiểm thử (Dtest ) chia dựa mốc thời gian, với: • Tập liệu huấn luyện (Dtrain ) bao gồm nút mối quan hệ chúng khoản thời gian từ năm 1985 đến 2005 (căn vào năm xuất báo) • Tập liệu kiểm thử (Dtest ), bao gồm nút mối quan hệ chúng khoản thời gian từ năm 2006 đến 2019 (hiện tại) (căn vào năm xuất báo) Hình 5-4 So sánh W-MMP2Vec với mơ hình INE khác (Macro-F1) Hình 5-5 So sánh W-MMP2Vec với mơ hình INE khác (Micro-F1) Hình 5-6 Kết thực nghiệm cho toán dự đoán liên kết mơ hình INE khác mạng C-HIN - MovieLens100K Từ hai tập liệu huấn luyện kiểm thử chia, mơ hình INE sau áp dụng để hỗ trợ chuyển đổi nút tập liệu sang dạng vector với số chiều (𝑑) quy định Tập liệu Dtrain sau sử dụng để huấn luyện mơ hình phân lớp LR dự đốn xuất liên kết kỳ vọng xuất tập Dtest Kết trả sau đánh giá hai độ 25 đo MAP F-measure Trong mang thông tin DBLP, NCS tiến hành thực nghiệm dự đoán xuất quan hệ đồng tác giả, với quan hệ kỳ vọng 𝒫i : A-P-A thông qua việc xét đến mối quan hệ có phụ thuộc khác, Pa↝b : A-P-VP-A (cùng xuất báo hội nghị/tap chí) A-O-A (quan hệ đồng nghiệp) Với mơ hình Metapath2Vec PME áp dụng quan hệ A-P-A Kết thực nghiệm cho thấy mơ hình W-MMP2Vec đạt hiệu suất cao hẳn so với mơ hình INE dành cho HoIN (DeepWalk, LINE_1, LINE_2, PTE and Node2Vec), trung bình 12.03% 23.27% tương ứng với độ đo MAP F-1 So với mơ hình dành cho HIN, W-MMP2Vec đạt độ xác nhỉnh khoảng 15.5% 3.37% (Metapath2Vec), 13.89% 2.73% (Metagraph2Vec) với hai độ đo MAP F-1 Qua kết thực nghiệm kiểm chứng mức độ ổn định mơ hình, cho thấy W-MMP2Vec đạt mức độ ổn định ngưỡng chấp nhận kích thước tập liệu huấn luyện khác so với mơ hình INE dành cho HIN (Metapath2Vec, Metagraph2Vec PME) (xem Hình 5-4và Hình 5-5 Tương tự với kết thực nghiệm tập liệu MovieLens100K (xem Hình 5-6), mơ hình W-MMP2Vec đạt độ xác cao mơ hình INE/NRL khác tốn dự đoán liên kết U-M-U CHƯƠNG 6: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 6.1 Kết luận & kết đạt Xuyên suốt nội dung chương luận án, NCS trình bày tổng quan vấn đề nghiên cứu, phạm vị toán đặt luận án Luận án chia làm nội dung với kế hoạch hướng tiếp cận để giải tốn cụ thể Các tốn luận án, bao gồm: • Trong nội dung đầu luận án, NCS tiến hành khảo sát tổng quan mô hình phân tích & khai phá mạng thơng tin khơng đồng Phân tích ưu/nhược điểm mơ hình để từ đưa kết hoạch phương hướng giải cho toán cụ thể luận án Các công việc tập trung trọng giải nội dung luận án bao gồm việc tiến hành cải tiến mơ hình hỗ trợ khám phá chủ đề mạng thông tin không đồng giàu nội dung (C-HIN) theo hướng tiếp cận mơ hình chủ đề LDA Từ kết việc giải toán khám phá phân bố chủ đề có C-HIN, NCS & GVHD đề xuất xây dựng mơ hình W-PathSim (công bố [CT9][CT10]) nhằm hỗ trợ cho việc tìm kiếm tương đồng nút/thực thể loại mạng C-HIN dựa meta-path theo hướng tiếp cận tương quan chủ đề • Trong nội dung 2, từ kết đạt nội dung luận án thơng qua mơ hình W-PathSim, NCS & GVHD tiếp tục đề xuất xây dựng mơ hình cải tiến cho việc biểu diễn mạng thông tin giàu nội dung (C-HIN) theo hướng tiếp cận tương đồng chủ đề nút/thực thể Mơ hình WMetapath2Vec (cơng bố [CT1]) mơ hình ánh xạ/nhúng mạng thơng tin (INE), hỗ trợ cho việc chuyển đổi nút mạng C-HIN dạng 26 • vector với số chiều quy định, đảm bảo việc bảo toàn cấu trúc tương đồng nút mạng thông tin W-Metapath2Vec áp dụng chế nguyên lý bước ngẫu nhiên dựa meta-path theo hướng tiếp cận tương đồng chủ đề cặp nút, hay gọi topic-driven metapath-based random walk mechanism, vốn kế thừa từ mơ hình WPathSim đề xuất trước Thực nghiệm tập liệu mạng thông tin thực tế DBLP, MovieLens BlogCatalog chứng minh tính hiệu W-Metapath2Vec so với mơ hình INE phổ biến khác (DeepWalk, LINE, Node2Vec, Metapath2Vec, v.v.) Mơ hình W-Metapath2Vec tiền đề để NCS & GVHD phát triển tiếp mơ hình W-Metagraph2Vec (cơng bố [CT2]) Trong nội dung cuối luận án, nội dung 3, NCS ứng dụng thành đạt nghiên cứu hai nội dung trước để giải toán ứng dụng quan trọng mạng thơng tin tốn dự đốn liên kết (link prediction) Bài toán dự đoán liên kết cặp nút mạng thông tin không đồng giàu nội dung (C-HIN) xây dựng theo hướng tiếp cận INE, mơ hình đề xuất đặt tên là: W-MMP2Vec Dựa hướng tiếp cận INE kết thừa từ W-Metapath2Vec, W-MM2PVec phát triển dựa ý tưởng tương đồng chủ đề mối quan hệ sẵn có thực thể ảnh hưởng lớn đến khả xuất liên kết chúng Mơ hình W-MMP2Vec chứng minh tính hiệu tính đắn giải thuyết thông qua việc kiểm thử thực nghiệm so sánh với hàng loạt mơ hình INE khác W-MMP2Vec chứng minh tính vượt trội khả hiệu việc giải toán dự đốn liên kết HIN/C-HIN 6.2 Các hạn chế cịn tồn & hướng phát triển NCS tập trung vào việc khắc phục hạn chế mơ hình khai phá liên quan đến việc phân tích tương đồng nội dung/chủ đề nút mạng thông tin không đồng giàu nội dung, theo hướng tiếp cận nhúng mạng thông tin (NRL/INE) dựa meta-path Tuy nhiên, luận án số hạn chế tồn đặt hướng nghiên cứu tiếp theo, sau: • Cải tiến kiến trúc mạng nơ-ron huấn luyện mơ hình biểu diễn mạng thơng tin Hướng tiếp cận mơ hình NRL/INE đề xuất luận án áp dụng nguyên lý huấn luyện mạng nơ-ron đơn giản với tầng ẩn, hiệu suất độ xác mơ hình chưa thể đạt hiệu cao Do đó, hướng cải tiến quan trọng tương lai luận án thay chế huấn luyện kiến trúc mạng nơ-ron đa tầng lĩnh vực học sâu (deep learning) Qua đó, tăng cao hiệu suất độ xác cho việc học mơ hình biểu diễn mạng thơng tin Trong đó, kiến trúc mạng nơ-ron Graph Convolutional Network (GCN) [18] đa tầng hướng cải tiến tiềm năng, áp dụng nhiều lĩnh vực khác [19] [20] 27 • • • • Tối ưu hóa q trình học mơ hình biểu diễn mạng thơng tin với hướng tiếp cận tiền huấn luyện (pre-training) Áp dụng tiền huấn luyện kỹ thuật phổ biến lĩnh vực xử lý ngôn ngữ tự nhiên hay xử lý ảnh Trong hướng tiếp cận mơ hình/kiến trúc học máy huấn luyện trước tập liệu – có kích thước lớn & đa dạng Sau mơ hình tiền huấn luyện áp dụng đễ huấn luyện tiếp tinh chỉnh tham số tập liệu cần xử lý để đạt hiệu suất cao độ xác tiết kiệm thời gian/chi phí cho q trình huấn luyện Tương tự lĩnh vực phân tích mạng thơng tin, mơ hình học biểu diễn mạng thơng tin tiền huấn luyện trước mạng thơng tin với kích thước lớn – sau sử dụng để tinh chỉnh tối ưu mục tiêu huấn luyện mạng thông tin xét Trong giai đoạn gần việc áp dụng chế tiền huấn luyện cho lĩnh vực phân tích khai phá mạng thông tin quan tâm nhiều nhóm nghiên cứu nhà khoa học [21] [22] [23] khả tối ưu hóa cho ngữ cảnh mạng thơng tin có kích thước lớn Cải tiến việc phân tích cấu trúc liên kết mạng thơng tin Ngồi ra, mơ hình đề xuất luận án theo hướng tiếp cận NRL/INE (WMetapath2Vec W-MMP2Vec) chủ yếu dựa ngun lý bước ngẫu nhiên để mơ hình hóa cấu trúc mạng thông tin mức độ cục tương tự nút/thực thể mạng thông tin (local structure) Do đó, mơ hình đề xuất luận án chưa thể bảo toàn cách hiệu cấu trúc toàn cục (global structure) mạng thông tin [24] [25] Các cải tiến tương lai tập trung vào việc kết hợp bảo toàn cấu trúc mạng thông tin nhiều cấp độ khác (bao gồm local structure global structure) Thay mơ hình chủ đề LDA với mơ hình phân tích văn tiên tiến khác lĩnh vực học sâu Hướng tiếp cận cho bước xử lý liệu phi cấu trúc mạng thông tin áp dụng luận án mơ hình chủ đề LDA Tuy đạt hiệu định việc giải toán xác định mức độ tương đồng nút/thực thể dạng nội dung mạng C-HIN, việc áp dụng mơ hình LDA việc mơ hình hóa văn dạng chủ đề ẩn cịn gặp nhiều hạn chế Điển hình hướng tiếp cận mơ hình chủ đề gặp hạn chế liên quan đến độ dài văn khả bảo toàn cấu trúc ngữ nghĩa/thứ tự từ văn Các hạn chế phần làm giảm độ xác cho mơ hình đề xuất luận án Đi với phát triển kiến trúc học sâu thuộc lĩnh vực NLP như: autoencoding/seq2seq [26] attention [27], thuật tốn học mơ hình biểu diễn văn thuộc trào lưu này, điển hình như: ELMo [28], GPT [29], ULMFit [30], BERT [31] hướng cải tiến/thay cho mơ hình LDA đầy tiềm Hứa hẹn cho cải thiện đáng kể độ xác cho mơ hình đề xuất luận án Trong trình thực 28 • giai đoạn cuối luận án, NCS tiến hành cài đặt thử nghiệm thay mơ hình chủ đề LDA BERT việc tính tốn tương đồng thực thể/nút giàu nội dung mạng thông tin đạt số kết khả quan NCS giảng viên hướng dẫn dự kiến công bố kết tạp chí chuyên ngành uy tín tương lai Áp dụng phân tích học mơ hình biểu diễn mạng thông tin lĩnh vực tư vấn/khuyến nghị Xây dựng hệ khuyến nghị (recommendation) mạng thông tin không đồng [32] [33] hướng tiếp cận phổ biến với tính dụng cao cho nhiều toán ứng dụng đặc biệt lĩnh vực thương mại điện tử mạng xã hội Thông qua việc phân tích tương tác (các bình luận, viết hay like/share sản phẩm) tương đồng nhím người dùng trang mạng xã hội hay thương mại điện tử - hệ thống tìm kiếm đưa khuyến nghị sản phẩm phù hợp dựa sở thích họ Do đó, việc cải tiến mơ hình đề xuất luận án cho toán xây dựng hệ khuyến nghị hướng cải tiến có tiềm tính ứng dụng tương lai 29 CÁC ĐỀ TÀI KHOA HỌC ĐÃ THAM GIA Trong trình nghiên cứu giải toán đặt luận án, NCS Phạm Thế Anh Phú tham gia đề tài khoa học, bao gồm: • Đề tài NCKH “Xây dựng khai phá kho liệu báo lĩnh vực khoa học máy tính tính tốn phân tán Hadoop hỗ trợ nghiên cứu khoa học”, có mã số: B2017-26-02, tài trợ kinh phí ĐHQG TP.HCM, PGS.TS Đỗ Phúc làm chủ nhiệm nghiệm thu đạt kết tốt (NCS thành viên chính) (giai đoạn 2017-2019) • Đề tài NCKH “Phát triển hệ hỏi đáp ngôn ngữ tự nhiên đồ thị tri thức lớn sử dụng nhúng đồ thị học sâu” có mã số: DS2020-26-01, tài trợ kinh phí ĐHQG TP.HCM, PGS.TS Đỗ Phúc làm chủ nhiệm (2020-2021) DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ Trong trình nghiên cứu giải toán đặt luận án, NCS Phạm Thế Anh Phú GVHD PGS.TS Đỗ Phúc đạt số kết quả, sau: Các báo tạp chí (chỉ mục SCIE) cơng bố (tổng: 4): • • • • [CT1] PHAM, Phu; DO, Phuc; “W-MetaPath2Vec: the topic-driven meta-path-based model for large-scaled content-based heterogeneous information network representation learning” In: Expert Systems with Applications (ISSN: 0957-4174) (SCIE indexed, IF: 5.452), 2019, volume: 123, pp 328-344 (https://www.sciencedirect.com/science/article/pii/S0957417419300156) [CT2] PHAM, Phu; DO, Phuc; “W-Metagraph2Vec: a novel approval of enriched schematic topic-driven heterogeneous information network embedding” In: International Journal of Machine Learning and Cybernetics (ISSN: 1868-8071) (SCIE indexed, IF: 3.844), 2020, volume: 11, issue: 8, pp 1855-1874 (https://link.springer.com/article/10.1007%2Fs13042-020-01076-9) [CT3] PHAM, Phu; DO, Phuc; “W-Com2Vec: a novel approach of topic-driven meta-pathbased intra-community network embedding” In: Intelligent Data Analysis (ISSN: 1571-4128) (SCIE indexed, IF: 0.860), 2020, volume: 24 issue: 5, pp 1207-1233 (https://content.iospress.com/articles/intelligent-data-analysis/ida194843) [CT4] PHAM, Phu; DO, Phuc; “W-MMP2Vec: topic-driven network embedding model for link prediction in content-based heterogeneous information network” In: Intelligent Data Analysis (ISSN: 1571-4128) (SCI indexed, IF: 0.860), 2021, volume: 25, issue: Các báo tạp chí (chỉ mục Scopus) cơng bố (tổng: 4): • • [CT5] PHAM, Phu; DO, Phuc “Automatic topic labelling for text document using Ontology of graph-based concepts and dependency graph” In: International Journal of Business Information Systems (ISSN: 1746-0972) (Scopus indexed), 2021, volume: 36, issue: 2, pp 221253 (https://www.inderscienceonline.com/doi/abs/10.1504/IJBIS.2021.112826) [CT6] PHAM, Phu; DO, Phuc “The approach of using ontology as pre-knowledge source for semi-supervised labelled topic model by applying text dependency graph” In: International Journal of Business Intelligence and Data Mining (ISSN: 1743-8187) (Scopus indexed) (https://www.inderscience.com/info/ingeneral/forthcoming.php?jcode=ijbidm) i • • [CT7] PHAM, Phu; DO, Phuc “Topic-driven top-k similarity search by applying constrained meta-path based in content-based schema-enriched heterogeneous information network” In: International Journal of Business Intelligence and Data Mining (ISSN: 1743-8187) (Scopus indexed), 2020, volume: 17, issue: 3, pp 349-376 (https://www.inderscience.com/info/ingeneral/forthcoming.php?jcode=ijbidm) [CT8] PHAM, Phu; DO, Phuc “ComRank: community-based ranking approach for heterogeneous information network analysis and mining” In: International Journal of Business Intelligence and Data Mining (ISSN: 1743-8187) (Scopus indexed), 2020, volume: 17, issue: 4, pp 493-525 (https://www.inderscienceonline.com/doi/pdf/10.1504/IJBIDM.2020.110373) Các báo tạp chí chuyên ngành cơng bố (tổng: 1): • [CT9] DO, Phuc; PHAM, Phu “DW-PathSim: a distributed computing model for topic-driven weighted meta-path-based similarity measure in a large-scale content-based heterogeneous information network” In: Journal of Information and Telecommunication (ISSN: 2475-1839), 2019, volume: 3, issue: 1, pp 19-38 (https://www.tandfonline.com/doi/full/10.1080/24751839.2018.1516714) Các báo hội nghị, cơng bố (tổng: 1): • [CT10] PHAM, Phu; DO, Phuc; TA, Chien DC “W-PathSim: Novel Approach of Weighted Similarity Measure in Content-Based Heterogeneous Information Networks by Applying LDA Topic Modeling” In: Asian Conference on Intelligent Information and Database Systems Springer, Cham, 2018 p 539-549 (https://link.springer.com/chapter/10.1007/978-3-319-75417-8_51) TÀI LIỆU THAM KHẢO [1] Shi, C., Li, Y., Zhang, J., Sun, Y., & Philip, S Y., "A survey of heterogeneous information network analysis," IEEE Transactions on Knowledge and Data Engineering, vol 29, no 1, pp 17-37, 2017 [2] Sun, Y., & Han, J., "Mining heterogeneous information networks: principles and methodologies," Synthesis Lectures on Data Mining and Knowledge Discovery, vol 3, no 2, pp 1-159, 2012 [3] ZHANG, Daokun, et al., "Network representation learning: A survey," IEEE transactions on Big Data, 2018 [4] CUI, Peng, et al., "A survey on network embedding," IEEE Transactions on Knowledge and Data Engineering, vol 31, no 5, pp 833-852, 2018 [5] Page, L., Brin, S., Motwani, R., & Winograd, T., "The PageRank citation ranking: Bringing order to the web," Stanford InfoLab, 1999 [6] KLEINBERG, Jon M., "Authoritative sources in a hyperlinked environment," Journal of the ACM (JACM), pp 604-632, 1999 [7] Jeh, G., & Widom, J., "Scaling personalized web search," Proceedings of the 12th international conference on World Wide Web, pp 271-279, 2003 [8] Jeh, G., & Widom, J., "SimRank: a measure of structural-context similarity," Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pp 538-543, 2002 ii [9] Xu, X., Yuruk, N., Feng, Z., & Schweiger, T A., "Scan: a structural clustering algorithm for networks," Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 824-833, 2007 [10] Sun, Y., Han, J., Yan, X., Yu, P S., & Wu, T., "Pathsim: Meta path-based top-k similarity search in heterogeneous information networks," Proceedings of the VLDB Endowment, vol 4, no 11, pp 992-1003, 2011 [11] Shi, C., Kong, X., Huang, Y., Philip, S Y., & Wu, B., "HeteSim: A General Framework for Relevance Measure in Heterogeneous Networks," IEEE Trans Knowl Data Eng., vol 26, no 10, pp 2479-2492, 2014 [12] Li, C., Sun, J., Xiong, Y., & Zheng, G., "An efficient drug-target interaction mining algorithm in heterogeneous biological networks," Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 65-76, 2014 [13] Blei, D M., Ng, A Y., & Jordan, M I., "Latent dirichlet allocation," Journal of machine Learning research, vol 3, no Jan, pp 993-1022, 2003 [14] Wang, X., Cui, P., Wang, J., Pei, J., Zhu, W., & Yang, S., "Community preserving network embedding," Thirty-First AAAI Conference on Artificial Intelligence, 2017 [15] CAO, Shaosheng; LU, Wei; XU, Qiongkai, "Grarep: Learning graph representations with global structural information," Proceedings of the 24th ACM international on conference on information and knowledge management ACM, pp 891-900, 2015 [16] OU, Mingdong, et al., "Asymmetric transitivity preserving graph embedding," Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining ACM, pp 1105-1114, 2016 [17] Dong, Y., Chawla, N V., & Swami, A., "metapath2vec: Scalable representation learning for heterogeneous networks," Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining ACM, pp 135-144, 2017 [18] Kipf, T N., & Welling, M., "Semi-supervised classification with graph convolutional networks," 5th International Conference on Learning Representations, ICLR, 2017 [19] Zitnik, M., Agrawal, M., & Leskovec, J., "Modeling polypharmacy side effects with graph convolutional networks.," Bioinformatics, vol 34, no 13, pp i457-i466, 2018 [20] He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M., "Lightgcn: Simplifying and powering graph convolution network for recommendation," in Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, 2020 [21] Meng, Z., Liu, S., Macdonald, C., & Ounis, I., "Graph Neural Pre-training for Enhancing Recommendations using Side Information," arXiv preprint arXiv:2107.03936, 2021 [22] Qiu, J., Chen, Q., Dong, Y., Zhang, J., Yang, H., Ding, M., & Tang, J., "Gcc: Graph contrastive coding for graph neural network pre-training," in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020 [23] Hu, Z., Dong, Y., Wang, K., Chang, K W., & Sun, Y., "Gpt-gnn: Generative pre-training of graph neural networks," in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020 [24] Wu, Z., Pan, S., Chen, F., Long, G., Zhang, C., & Philip, S Y., "A comprehensive survey on graph neural networks," IEEE transactions on neural networks and learning systems, vol 32, no 1, pp 4-24, 2020 [25] Abadal, S., Jain, A., Guirado, R., López-Alonso, J., & Alarcón, E., "Computing graph neural networks: A survey from algorithms to accelerators," ACM Computing Surveys (CSUR), vol 54, no 9, pp 1-38, 2021 iii [26] Bahdanau, D., Cho, K., & Bengio, Y., "Neural machine translation by jointly learning to align and translate," in 3rd International Conference on Learning Representations (ICLR), 2015 [27] Vaswani, Ashish, et al., "Attention is all you need," in Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017 [28] Peters, M E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L., "Deep contextualized word representations," in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2018 [29] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I., "Improving language understanding by generative pre-training," OpenAI, 2018 [30] Howard, J., & Ruder, S., "Universal language model fine-tuning for text classification," in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018 [31] Devlin, J., Chang, M W., Lee, K., & Toutanova, K., "Bert: Pre-training of deep bidirectional transformers for language understanding," in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019 [32] Shi, C., Hu, B., Zhao, W X., & Philip, S Y., "Heterogeneous information network embedding for recommendation," IEEE Transactions on Knowledge and Data Engineering, vol 31, no 2, pp 357-370, 2018 [33] Zhao, Z., Zhang, X., Zhou, H., Li, C., Gong, M., & Wang, Y., "HetNERec: Heterogeneous network embedding based recommendation," Knowledge-Based Systems, vol 204, p 106218, 2020 iv ... gọi khai phá mạng thông tin không đồng đời 1.2 Khái quát toán động lực luận án 1.2.1 Khai phá mạng thông tin đồng (Homogeneous Information Network HoIN) không đồng (Heterogeneous Information Network... MƠ HÌNH LIÊN QUAN 2.1 Cơ sở lý thuyết khai phá mạng thông tin 2.1.1 Tổng quan phân tích khai phá mạng thơng tin (INAM) 2.1.2 Tổng quan khai phá mạng thông tin không đồng (heterogeneous information. .. Cứu Mơ Hình Khai Thác Mạng Thông Tin Không Đồng Nhất Và Ứng Dụng Bài Toán 01: (Giai đoạn luận án) Phân tích phân bố chủ đề + đề xuất mơ hình tính tốn tương đồng theo meta-path C-HIN (Các mơ hình

Định dạng
Số trang	37
Dung lượng	1,69 MB