lí }l ĐẠI HỌC QC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN UIT-HCM PHẠM THẾ ANH PHÚ NGHIÊN CỬU MƠ HÌNH KHAI THÁC MẠNG THƠNG TIN KHƠNG ĐỒNG NHẤT VÀ ỨNG DỤNG (Researches on heterogeneous information networks mining model and applications) Chuyên ngành: Công Nghệ Thông Tin Mã sổ: 62 48 02 01 LUẬN ÁN TIẾN Sĩ CÔNG NGHỆ THÔNG TIN CÁN BỘ HƯỚNG KHOA HỌC: PGS.TS ĐỎ PHÚC PHẢN BIỆN ĐỘC LẬP: Miễn TP HỊ CHÍ MINH - NÁM 2022 LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) LÒĨ CÃM ƠN Lời xin gửi lời cám ơn chân thành sâu sắc đến thầy PGS.TS ĐỎ „ PHÚC người thay tận tinh hướng dẫn, động viên định hướng cho tơi suốt q trình nghiên cứu thực luận án Tôi xin gửi lời cám ơn đên Quý lãnh đạo, thây/cô trường Đại Học Công Nghệ Thông Tin (U1T), Đại Học Quốc Gia Tp.HCM (VNU-HCM) khoa Khoa Học & Kỹ Thuật Thông Tin hướng dẫn đóng góp ý kiến quý báu cho tơi suốt q trình thực hồn thành luận án Tôi xin gửi lời cám ơn đến tất ca thành viên nhóm nghiên cứu Trí Nhân, thầy PGS.TS ĐỎ PHÚC cỏ nhừng ý kiến đóng góp quý báu đồng hành tơi suốt q trình nghiên cứu thực luận án Cuối cùng, tơi xin gửi lịng tri ân tràn thành lời cảm ơn sâu sac đến Cha, Mẹ, Chị, Em Vợ, Con ln sát cánh, dộng viên chăm sóc đế tơi hồn thành tốt luận án Tp Ho Chí Minh, ngày tháng năm NGHIÊN CÚU SINH PHẠM THÉ ANH PHŨ LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, báo cáo, kết nghiên cứu luận án trung thực chưa dược cơng bổ cơng trình khác ngoại trừ cơng trình, tư liệu trích dần phần tài liệu tham khảo cúa luận án Tp Hồ Chí Minh, ngày tháng năm NGHIÊN cúu SINH PHẠM THÉ ANH PHỦ ii LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) TĨM TẤT LUẬN ÁN Phân tích khai phá mạng thơng tin khơng đồng (Heterogeneous Information Network - HIN) có the dược xem lĩnh vực nghiên cứu dược quan lâm nhiều thời gian gần Tồn nội dung luận án trình bày vấn đế nghiên cứu liên quan đến lĩnh vực phân tích khai phá mạng thơng tin khơng đồng ngữ cảnh giàu nội dung Nội dung trọng tâm cúa cải tiến luận án tập trung vào việc kết hợp yếu tố tương đồng nội dụng cấu trúc liên kết, dạng meta-path, nút mạng HIN Để từ nâng cao hiệu suất cho tốn tính tốn tưưng đồng Các vấn đề cần giải đề xuất cài tiến luận án tổ chức thành tốn sau: • Bài Tốn 1: Trong toán 1, NCS trung vào việc xây dựng sờ lý thuyết cho vấn đồ khám phá phân bố cua chủ đề mạng thông tin không đong giàu nội dung (Content-based HIN, hay gọi C-HIN) Đê từ kết hợp tương đồng chu đề với mối quan hệ thực thế/núl nhằm đưa mơ hình cải tiến phù hợp cho việc khai phá mạng thông tin giàu nội dung Với thuật toán đề xuất tương ứng W-PathSim DW-PathSim (được cơng bố [CT9][CT10]) • Bài Tốn 2: kế thùa từ kết đạt từ mơ hình W-PathSim đề xuất tốn 1, NCS xây dựng phát triên mơ hình học biếu diễn mạng thông tin không đồng giàu nội dung, với mơ hình đề xuất: W-MetaPath2Vec WMetaGraph2Vec (được cơng bố |CT1|[CT2J) • Bài Tốn 3: Từ kết đạt hai mơ hình đề xuất toán 2, NCS áp dụng tiến cho toán dự đoán liên kết mạng C-HIN theo hướng tiếp cận học mơ hình biểu diễn mạng thông tin không đồng Trong tâm nội dung tốn giái với mơ hình đề xuất thuật tốn W-MMP2Vec (được cơng bổ [CT3HCT4]) Luận án đề xuất mơ hình cải tiến kết hợp việc đánh giá tương quan giừa thực thể, thông quan việc đánh giá cá hai tiêu chí mối quan tương đồng nội dung/chủ đề chúng Việc kết hợp sê hồ trợ cho việc tăng cao hiệu suất độ xác việc tìm kiếm tương đồng mạng thông tin không đồng iii LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) ABSTRACT Heterogeneous information network (H1N) analysis and mining is considered as a hot research topic in recent time Our studies in this thesis include contents regarding with literature reviews as well as proposed improvements on the similarity search problem within HIN The core contributions of this thesis mainly focus on the enhancements of integrating between the content-based similarity and graph-based topological features, in the form of meta-paths, between nodes in a given HIN This combination enables to improve the performance of similarity measurement problem in H1N In the overall, the stated research issues as well as proposed enhancements in this thesis are generally structured into main problems, as the following: • Problem 01: In the first problem, our research mainly concentrating on building a theoretical background and problem formulation of discovering the distribution of latent topics over the content-based heterogeneous information network (a.k.a Content-based HIN, or: C-HIN) For sovling this problem, we proposed two novel models, called as: W-PathSim and DW-PathSim (published in [CT9][CT10]) • Problem 2: majorly inheriting from the previous achievements with the proposed W-PathSim model, in the second problem, we mainly focus on enhancing the performance of C-HIN based network representation learning problem To deal with the network representation learning in C-H1N, in this thesis we proposed two novel models: W-MetaPath2Vec and W-MetaGraph2Vec (published in [CT1J[CT2J) • Problem 3: From the achievements which are obtained in the two previous problems (1 & 2), we apply the integrated content-based and structure-based similarity evaluation paradigms in handling the link prediction problem with CHIN The main content of the third problem is concentrated on the proposal of the W-MMP2Vec algorithm (published in |CT3](CT4|) Our proposed models in this thesis enable to improve the performance of similarity search on the information network as well as provide meaningful similarity search results in H1N In our approach, the similarity weight between nodes which are under evaluated in both content-based and structure-based relevancies iv LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) MỤC LỤC LỜI CẢM ƠN .i LỜI CAM ĐOAN .ỉi TÓM TÁT LUẬN ÁN iii ABSTRACT iv MỤC LỤC V DÀNH MỤC CÁC TÙ VIÉT TẤT ix DANH MỤC CÁC BẢNG X DANH MỤC CÁC HÌNH xii DANH MỤC CÁC THUẬT TOÁN DO NCS PHÁT TRIẾN XV CHU'ONG 1: TÓNG QUAN VÈ LUẬN ÁN 1.1 Dần nhập 1.1.1 Khái quát khai phá mạng thông tin 1.1.2 Tồng quan hướng tiếp cận lình vực khai phá mạng thơng tin 1.2 Các hạn chế tồn động lực thực luận án .7 1.3 Mục tiêu, phạm vi nghiên cứu luận án 1.3.1 BÀI TỐN 1: Mạng thơng tin khơng khơng đồng giàu nội dung tốn tìm kiếm tương đồng theo meta-path 1.3.2 BÀI TOÁN 2: Tim kiếm tương đồng mạng thông tin không đồng giàu nội dung theo hướng tiếp cận nhúng mạng thông tin (INE/NRL) 1.3.3 BÀI TOÁN 3: Dự đốn liên kết ngừ cảnh mạng thơng tin khơng đồng giàu nội dung theo hướng tiếp cận nhúng mạng thông tin (INE/NRL) 10 1.4 Phương pháp nghiên cứu hướng tiếp cận 12 1.4.1 Phương pháp nghiên cứu tổng luận 12 1.4.2 Phương pháp phân tích thiết ke thuật tốn 12 1.4.3 Phương pháp nghiên cứu thực nghiệm & so sánh 13 1.5 Các đóng góp cúa luận án 13 1.5.1 Đóng góp ỷ nghTa học thuật & khoa học 13 1.5.2 Đóng góp ý nghĩa thực tiễn ứng dụng 14 1.6 Bố cục luận án 15 CHƯƠNG 2: CO SỎ LÝ THUYẾT & CÁC MƠ HÌNH LIÊN QUAN 18 2.1 Cơ sở lý thuyết khai phá mạng thông tin 18 2.1.1 Tong quan ve phân tích khai phá mạng thông tin (1NAM) 18 2.1.2 Tổng quan khai phá mạng thông tin không đồng (heterogeneous information network mining) 21 2.2 Tính tốn tương đồng mạng thông tin không đồng (IIIN) 28 2.2.1 Giới thiệu khái quát mơ hình tính tốn tương đồng bật mạng HIN 28 2.2.2 So sánh ưu/nhược điếm cùa mơ hình khai phá HIN 37 2.2.3 Các hạn chế cua tiếp cận hướng liên kết (link-based) tính tốn tương đồng HIN / A2 2.2.4 Các hạn chế thách thức cịn ton mơ hình tính tốn tương đồng mạng thông tin không đồng giàu nội dung (C-HIN) 43 V LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) 2.3 Tống quan hướng tiếp cận INE/NRL nguyên lý 45 2.3.1 Các hướng tiếp cận mơ hình NRL/INE 49 2.3.2 Khái qt mơ hình INE phô biến 50 2.3.3 So sánh ưu/nhược điếm mơ hình INE 53 2.3.4 Các hạn chế mơ hình 1NE 57 2.4 Kết luận chương 58 CHƯƠNG 3: TÌM KIẾM TƯƠNG ĐỊNG TRONG MẠNG THƠNG TIN GIÀU NỘI DUNG, MƠ HÌNH W-PATHSIM 60 3.1 Phát biêu toán tìm kiếm tương đong mạng thơng tin khơng đong giàu nội dung (C-HIN) 60 3.2 Tương đồng đề thực the giàu ngữ liệu văn bán .61 3.2.1 Áp dụng mơ hình chủ đề LDA việc khám phá phân bố chủ đề nút/thực thể giàu nội dung 61 3.2.2 Tính tốn tương đồng thực thê 63 3.3 Thuật toán W-PathSim: tương đồng theo meta-path có trọng sổ chủ đề 64 3.3.1 Đe xuất tiếp cận meta-path có trọng số tương đồng chu đề 64 3.3.2 Ý nghĩa meta-path có trọng số tương đồng chủ đề tính toán tương đồng mạng C-H1N 69 3.4 Phân tích độ phức tạp cùa thuật tốn W-PathSim 70 3.4.1 Phân tích phân bố chủ đề ẩn thực thể giàu nội dung thơng qua mơ hình chủ đề LDA 70 3.4.2 Xác định trọng số chủ đề path instances cặp nút theo meta-path : .70 3.5 Thực nghiệm mơ hình đánh giá kết đạt 71 3.5.1 Mô tả liệu thực nghiệm & phương pháp cài đặt mơ hình 71 3.5.2 Cài đặt mơ hình W-PathSim thiết lập môi trường thực nghiệm 75 3.5.3 Phương pháp kiêm thử, kịch thực nghiệm đánh giá kết 76 3.5.4 Kết quà thực nghiệm thảo luận 80 3.6 Kết luận chương 85 CHƯƠNG 4: TIẾP CẬN NHÚNG MẠNG THÔNG TIN (INE) TRONG MẠNG CHIN, MƠ HÌNH W-METAPATH2VEC 86 4.1 Phát biểu tốn nhúng mạng thơng tin (INE) mạng thõng tin không đồng giàu nội dung (C-H1N) 86 4.2 Mơ hình W-Mctapath2Vcc: tiổp cận INE cho mạng thông tin không đồng giàu nội dung (C-HIN) 87 4.2.1 Hạn chế mô hình Mctapath2Vec mạng C-H1N 87 4.2.2 Bước ngầu nhiên dựa meta-path theo hướng chủ đề (topic-driven metapath-based random walk) 88 4.2.3 Áp dụng Skip-grams dành cho HIN mơ hình W-Metapath2Vec 96 4.2.4 Phân tích độ phức tạp thuật tốn mơ hình W-Metapath2Vec 100 4.3 Thực nghiệm mơ hình đánh giá kết đạt 101 4.3.1 Dừ liệu thực nghiệm, phương pháp đánh giá cài đặt mơ hình 101 4.3.2 Ket thực nghiệm thảo luận 107 4.3.3 Phân tích ánh hưởng số lượng chu đồ ấn (k) đến độ xác mơ hình W-Metapath2Vec 114 vi „ .7 .7 .7 .7 LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) 4.3.4 Phân tích ảnh hưởng tham số khác mơ hình W-Metapath2Vec ’ 115 4.4 Kết luận chương 116 CHƯƠNG 5: Dự ĐOÁN LIÊN KẾT TRÊN MẠNG C-HIN, MƠ HÌNH WMMP2VEC 118 5.1 Ý tưởng cua mơ hình W-MMP2Vec cho toán dự đoán liên kết 118 5.2 Tổng quan toán dự đoán liên kết mạng thông tin 119 5.2.1 Bài tốn dự đốn liên kết mạng thơng tin dạng toán phân lớp 119 5.2.2 Dự đoán liên kết mạng thông tin đồng (HoIN) không đồng (HIN) 124 5.3 Các hạn che cịn tồn cúa mơ hình dự đốn liên kết HIN 125 5.3.1 Hạn chế tương quan chủ đề mơ hình dự đốn liên kết HIN L L 125 5.3.2 Dự đoán ton liên kết dựa liên kết khác loại có 125 5.4 W-MMP2Vec: mơ hình dự đốn liên kct (link prediction) theo hướng tiếp cận hướng INE 126 5.4.1 Ý tường câu hỏi đặt trình nghiên cứu 126 5.4.2 Hàm mục tiêu mơ hình W-MMP2Vec 128 5.4.3 Tương quan đề toán dự đoán liên kết 129 5.4.4 Tối ưu mơ hình W-MMP2Vec dựa SGD 131 5.4.5 Sinh tập liệu huấn luyện tăng tốc q trình huấn luyện mơ hình WMMP2Vec 132 5.4.6 Dự đoán liên kết dựa hướng tiếp cận ĨNE/NRL 136 5.4.7 Phân tích độ phức tạp thuật toán W-MMP2Vec 137 5.5 Thực nghiệm đánh giá kết mô hình W-MMP2Vec 138 5.5.1 Mơ tả liệu thực nghiệm bước tiền xử lý 138 5.5.2 Phương pháp đánh giá kết quà thực nghiệm cài đặt 140 5.5.3 Thực nghiệm mạng thông tin học thuật DBLP .142 5.5.4 Mạng thông tin MovicLcnslOOK BlogCatalog 144 5.5.5 Thực nghiệm thảo luận thời gian thực thi mơ hình W-MMP2Vec 147 5.5.6 Thực nghiệm phân tích ánh hưởng số lượng chủ đề ấn (k) tham số khác mơ hình W-MMP2Vec 148 5.6 Kết luận chương 150 CHƯƠNG 6: KÉT LUẬN VÀ HƯỚNG PHÁT TRIÊN 152 6.1 Ket luận kết đạt 152 6.2 Các đóng góp luận án 153 6.2.1 Các đóng góp ý nghĩa học thuật khoa học 153 6.2.2 Các đóng góp ứng dụng/thực tiễn - hệ thống tư vấn/khuyển nghị công tác học thuật VnScholar 154 6.3 Các hạn chế tồn hướng phát triển 157 CÁC ĐÈ TẢI KHOA HỌC ĐÃ TH AM GIA 160 CÁC KÉT QUẢ CƠNG BĨ ĐÃ ĐẠT ĐƯỢC TRƠNG Q TRÌNH NGHIÊN cúu 161 TÀI LIỆU THAM KHẢO 163 VII LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) viii LUẬN ÁN TIẾN SÌ - ĐH CNTT (UIT), ĐHỌG TP.HCM (VNU-HCM) DANH MỤC CÁC TÙ VIÉT TẮT Từ viết tắt AI C-HIN DB GD HIN HoIN IN INAM INE KG ML MP NLP NRL PCA RW SGD CNTT CSDL KHMT MTT Nội dung tiếng Anh Nội dung tiếng Việt Từ viết tắt từ tiếng Anh Artificial intelligence Trí tuệ nhân tạo Mạng thịng tin khơng đồng Content-based Heterogeneous giàu nội dung Information Network Database Cư sờ liệu Suy giảm độ dốc Gradient Descent Heterogeneous Information Mạng thông tin không đồng Network Homogeneous Information Mạng thông tin đồng Network Information Network Mạng thơng tin Information Network Analysis Phân tích khai phá mạng thông and Mining tin Information Network Nhúng/ánh xạ mạng thông tin Embedding Đồ thị tri thức Knowledge Graph Machine Learning _ Học máy Meta-path Natural Language Processing Xứ lý ngôn ngữ tự nhiên Biêu diễn mạng thông tin môi Network Representation Learning trường khơng gian vector Phân tích thành phần Principle Component Analysis Bước ngẫu nhiên (lý thuyết đồ Random Walk thị) Suy giảm giảm độ dốc ngẫu nhiên Stochastic Gradient Descent Từ viết tắt từ tiếng Việt Công Nghệ Thông Tin Cơ Sở Dữ Liệu Khoa Học Máy Tính Mạng Thông Tin _ ix xây dựng phục vụ công tác nghiên cứu khoa học lĩnh vực CNTT sau sê mở rộng nhiều lĩnh vực khác hũT) 6.2.2 ỉ Giới thiệu mạng thông tin học thuật VnScholar - động lực mục đích Đe thực hóa tính ứng dụng thuật tốn đà đề xuất luận án, NCS tiến hành xây dựng hệ thống tư vấn/khuyến nghị khoa học cộng tác dạng mạng xã hội học thuật, tương tự mạng học thuật sẵn có như: Google Scholar, ResearchGate, v.v dành riêng cho nhà khoa học Việt Nam NCS đặt tên cho ứng dụng VnScholar (minh họa Hình 6-1) Động lực cho việc xây dựng mạng học thuật VnScholar đến từ việc quan sát trải nghiệm tinh có mạng học thuật phổ biến nhận định hạn chế tính cịn tồn cứa chúng, điển hình như: • Các mạng thông tin học thuật phô biên hâu chưa có liệu đặc thù dành riêng cho nhà khoa học Việt Nam • Bên cạnh trang mạng học thuật phổ biến Google Scholar hay ResearchGate có tính xem thông tin danh sách công bố, thông tin tác già, v.v Chúng đơn chủ đóng vai trị hệ thống chia thơng tin học thuật • Hơn nữa, mạng thông tin học thuật phổ biến chưa có tính quan trọng dien tư vấn/khuycn nghị cộng tác khoa học nhà nghiên cứu có quan hệ gần gũi quan tâm chù đề nghiên cứu giống • Và cuối khả tim kiếm công bố hay tác giả có tương đồng với người dùng dựa chu đề/nội dung nhiều hạn chế Đê xây dựng mạng học thuật VnScholar, NCS đà thu thập liệu nhà khoa học công bố quốc tể từ nhiều nguồn khác nhau, điển hình như: DBLP, ACM Digital Library, Aminer, ReseachGate Google Scholar Sau liệu tổ chức lưu trữ nham hồ trợ cho việc huấn luyện mơ hình học đề xuất luận án 6.2.2.2 Các tinh xây dựng cùa mạng học thuật VhScholar Mạng học thuật xây dựng có tính hữu ích như: tìm kiếm cơng trình khoa học nước theo tương quan chu đề, phát chu đề tiềm ấn 155 Do đó, cấp thiết cần phái có mạng học thuật Việt, nhàm hỗ trợ cho việc kết nối nhà khoa học Việt Nam lại nhằm đề mạnh việc hợp tác nghiên cứu khoa học đưa sản phẩm khoa học có giá trị cho thực tiễn cho sống người 6.3 Các hạn chê cịn tơn hưóng phát triên NCS tập trung vào việc khắc phục hạn chế mơ hình khai phá liên quan đến việc phân tích tương đồng nội dung/chú dề nút mạng thịng tin khơng đồng giàu nội dung, theo hướng tiếp cận nhúng mạng thông tin (NRL/INE) dựa meta-path Tuy nhiên, luận án vần số hạn chế tồn đặt hướng nghiên cứu tiếp theo, sau: • Cải tiến kiến trúc mạng nơ-ron huấn luyện mơ hình biểu diễn mạng thông tin Hướng tiếp cận mô hình NRL/INE đề xuất luận án chi áp dụng nguyên lý huấn luyện mạng nư-ron đưn gian với tầng ấn, đỏ hiệu suất độ xác mơ hình chưa thể đạt hiệu cao Do đó, hướng cải tiến quan trọng tương lai luận án thay chế huấn luyện kiến trúc mạng nơ-ron đa tầng lĩnh vực học sâu (deep learning) Qua đó, có thề tăng cao hiệu suất độ xác cho việc học mơ hình biểu diễn mạng thơng tin Trong dó, kiến trúc mạng nơ-ron Graph Convolutional Network (GCN) [79] đa tầng hướng cải tiến tiềm năng, áp dụng nhiều lĩnh vực khác [80] [81], • Tối ưu hóa q trình học mơ hình biếu diễn mạng thơng tin với hướng tiếp cận tiền huấn luyện (pre-training) Áp dụng tiền huấn luyện kỹ thuật phổ biển lĩnh vực xử lý ngôn ngữ tự nhiên hay xử lý ảnh Trong hướng tiếp cận mơ hình/kiến trúc học máy huấn luyện trước tập dừ liệu - có thề có kích thước lớn & đa dạng Sau mơ hình tiền huấn luyện áp dụng đễ huấn luyện tiếp tinh chỉnh tham sổ tập liệu cần xử lý đe đạt hiệu suất cao độ xác tiết kiệm thời gian/chi phí cho q trình huấn luyện Tương tự lình vực phân tích mạng thơng tin, mơ hình học biếu diễn mạng thơng tin tiền huấn luyện trước mạng thơng tin với kích thước lớn - sau sừ dụng để tinh chinh tổi ưu mục tiêu huấn luyện mạng thông tin xét Trong giai đoạn gần 157 gán nhãn công bố khoa học, tìm kiếm tác gia tương đồng khuyến nghị cộng tác khoa học Ý tưởng việc xây dựng hệ thống VnScholar từ hạn chế Google Scholar việc tư vấn báo khoa học theo chủ đề dựa thông tin (profile) công bổ tác giả, mà tính khuyến nghị cộng tác khoa học xác định lương dồng tác giá Các linh minh họa Hình 6-2, Hình 6-3 Hình 6-4 s vnSchola xz _ _ z_ , Xem tư vân cộng tác khoa họ Q Trang chủ ũí Các bãi bá © Các toc gia^ong bin £5 Tỉm tac già cộng tie )28 ỊỂỂ Xem thõng kẽ Ồ Đáng xuãt/thoat blẽn [2019] Hình 6-3 Minh họa tinh tìm kiếm tác giá tương đồng với người dùng hệ thống VnScholar thơng qua thuật tốn W-Metapath2Vec o— TMMTWa»Ut7MM) Danh sách tác giã ban cỏ thẻ cõng tác w dựng dựa trfn to+r w HI S»-lwỉhr»«»Ww , * ùs x«5 IV| Son Bao Pham xhb IVI tz Cong Phap Huynh Dai Quoc Nguyen «■ — Duc-Than Nguyen - - A * * :, o ; c« a un C«rr Mter * Hình 6-4 Minh họa tinh khuyến nghị công tác tác gia hệ thống VnSchoỉar thông qua thuật tốn W-MMP2Vec Các tính sè xây dựng dựa việc áp dụng thuật tốn/mơ hình phát •> triên nội dung cùa luận vãn Việc xây dựng mạng học thuật VnScholar vô cân thiêt giai đoạn nay, Việt Nam chuyên X ' cách mạng công nghiệp 4.0 CNTT ngành mũi nhọn cân phải đâu 156 việc áp dụng chế tiền huấn luyện cho lĩnh vực phân tích khai phá mạng thông tin quan tàm cùa nhiều nhóm nghiên cứu nhà khoa học [82] [83] [84] khả tối ưu hóa cho ngừ cảnh mạng thơng tin có kích thước lớn • Cải tiến việc phân tích cấu trúc liên kết mạng thơng tin Ngồi ra, mơ hình đề xuất luận án theo hướng tiếp cận NRL/INE (W-Metapath2Vec W-MMP2Vcc) chủ yếu dựa trcn nguyên lý bước ngầu nhicn để mô hình hóa cấu trúc mạng thơng tin mức độ cục tương tự nút/thực thê mạng thơng tin (local structure) Do đó, mơ hình đề xuất luận án chưa thể bảo toàn cách hiệu cấu trúc toàn cục (global structure) cua mạng thông tin [85] [86], Các tiến tương lai tập trung vào việc kết hợp bảo tồn cấu trúc mạng thơng tin nhiều cấp độ khác (bao gồm local structure global structure) • Thay mơ hình chủ đề LDA vó'i mơ hình phân tích văn tiên tiến khác lĩnh vực học sâu Hướng tiếp cận cư bán cho bước xử lý liệu phi cấu trúc mạng thông tin áp dụng luận án mơ hình chù đề LDA Tuy đặt hiệu định việc giải toán xác định mức độ tương đồng nút/thực the dạng nội dung mạng C-HIN, việc áp dụng mơ hình LDA việc mơ hình hóa văn bán dạng chu đề ẩn cịn gặp nhiều hạn chế Điển hình hướng tiếp cận bàng mơ hình chủ đồ gặp hạn chc liên quan đến độ dài văn khả bảo toàn cấu trúc ngừ nghĩa/thứ tự cúa từ văn Các hạn chế phần làm giảm độ xác cho mó hình đề xuất luận án Đi với phát triền kiến trúc học sâu thuộc lĩnh vực NLP như: auto-cncoding/scq2scq [87] attention [88], thuật tốn học mơ hình biêu diễn văn bán thuộc trào lưu này, điên hình như: ELMo [89], GPT [90], ULMFit [91], BERT [92] hướng cải tiến/thay thể cho mơ hình LDA đầy tiềm Hứa hẹn cho cài thiện đáng kể độ xác cho mơ hình đề xuất luận án Trong trình thực giai đoạn cuối luận án, NCS tiến hành cài đặt thử nghiệm thay mơ hình chủ đe LDA bang BERT việc tinh toán tương đồng giừa thực 158 thc/núl giàu nội dung mạng thông tin đạt số kết khà quan, dự kiến cơng bố tạp chí chun ngành uy tín tương lai Áp dụng phân tích học mơ hình biểu diễn mạng thơng tin lĩnh vực tư vấn/khuyến nghị Xây dựng hệ khuyến nghị (recommendation) mạng thông tin không đồng [93] [94] hướng tiếp cận phồ biến với tính dụng cao cho nhiều tốn ứng dụng đặc biệt lĩnh vực thương mại điện tứ mạng xã hội Thơng qua việc phân tích tương tác (các binh luận, viết hay like/share sản phẩm) tương đồng nhím người dùng trang mạng xã hội hay thương mại điện tử - hệ thống tìm kiếm đưa khuyến nghị sản phẩm phù hợp dựa trẽn sở thích cúa họ Do đó, việc tiến mơ hình đề xuất luận án cho tốn xây dựng hệ khuyến nghị hướng cải tiến có tiềm tinh ứng dụng tương lai 159 CÁC ĐÈ TÀI KHOA HỌC ĐÃ THAM GIA Trong q trình nghiên cứu giải tốn đặt cua luận án, NCS Phạm Thế Anh Phú tham gia đề tài khoa học, bao gồm: • Đe tài NCKH “Xây dựng khai phá kho liệu báo lĩnh vực khoa học máy tỉnh tính tốn phân tản Hadoop hỗ trợ nghiên cứu khoa học", có mã số: B2017-26-02, tài trợ kinh phí ĐHQG TP.HCM, PGS.TS Đồ Phúc làm nhiệm nghiệm thu đạt kct tốt (NCS thành viên chính) (giai đoạn 2017-2019) • Đe tài NCKH “Phát triến hệ hói dáp ngơn ngữ tự nhiên dồ thị tri thức lớn sử dụng nhúng đồ thị học sâu' có mã so: DS2020-26-01, tài trợ kinh phí bời ĐHQG TP.HCM, PGS.TS Đỗ Phúc làm chủ nhiệm (2020-2021) 160 CÁC KÉT QUẢ CƠNG BĨ ĐÃ ĐẠT ĐƯỢC TRONG Q TRÌNH NGHIÊN CỨU Trong trình nghiên cứu giai toán đặt cua luận án, NCS Phạm The Anh Phú GVHD PGS.TS Đỗ Phúc đạt số kết quả, sau: Các báo tạp chí (chỉ mục SCIE) cơng bố (tổng: 4): • [CT1] PHAM, Phu; DO, Phuc; “W-MetaPath2Vec: the topic-driven meta-pathbased model for large-seeded content-based heterogeneous information network representation learning" In: Expert Systems with Applications (ISSN: 0957-4174) (SCĨE indexed, IF: 6.954), 2019, volume: 123, pp 328-344 (https://www.sciencedirect.com/science/article/pii/S0957417419300156) • |CT2| PHAM, Phu; DO, Phuc; “W-Metagraph2Vec: a novel approval of enriched schematic topic-driven heterogeneous information network embedding" In: International Journal of Machine Learning and Cybernetics (ISSN: 1868-8071) (SCIE indexed, IF: 4.012), 2020, volume: 11, issue: 8, pp 1855-1874 (https://link.springer.eom/article/l 0.1007%2Fsl 3042-020-01076-9) • [CT3] PHAM, Phu; DO, Phuc; “W-Com2Vec: a novel approach of topic-driven meta-path-based intra-community network embedding" In: Intelligent Data Analysis (ISSN: 1571-4128) (SCTE indexed, IF: 0.860), 2020, volume: 24 issue: 5, pp 1207-1233 (https://content.iospress.com/articles/intel I igent-data-analysis/ida 194843) • [CT4| PHAM, Phu; DO, Phuc; “W-MMP2 Vec: topic-driven network embedding modelfor link prediction in content-based heterogeneous information network" In: Intelligent Data Analysis (ISSN: 1571-4128) (SCI indexed, IF: 0.860), 2021, volume: 25, issue: 3, pp 711-738 (https://contcnt.iosprcss.com/articlcs/intclligcnt-data-analysis/ida205168) Các báo tạp chí (chỉ mục Scopus) cơng bố (tổng: 4): • [CT5] PHAM, Phu; DO, Phuc “Automatic topic labelling for text document using Ontology! of graph-based concepts and dependency graph" In: International Journal of Business Information Systems (ISSN: 1746-0972) (Scopus indexed), 2021, volume: 36, issue: 2, pp 221-253 (https://www.inderscienceonline.com/doi/abs/10.1504/1JBIS.2021.112826) • [CT6] PHAM, Phu; DO, Phuc “The approach of using ontology as pre-knowledge source for semi-supervised labelled topic model by applying text dependency graph" In: International Journal of Business Intelligence and Data Mining (ISSN: 1743-8187)(Scopus indexed) (https://www.inderscience.com/infb/ingeneral/forthcoming.php?icode=ijbidm) 161 TÀI LIỆU THAM KHẢO [1] Shi, c., Li, Y., Zhang, J., Sun, Y., & Philip, s Y., "A survey of heterogeneous information network analysis," IEEE Transactions on Knowledge and Data Engineering, vol 29, no 1, pp 17-37, 2017 [2] Sun, Y., & Han, J., "Mining heterogeneous information networks: principles and methodologies," Synthesis Lectures on Data Mining and Knowledge Discovery, vol 3, no 2, pp 1-159, 2012 [3] ZHANG, Daokun, et al., "Network representation learning: A survey," IEEE transactions on Big Data, 2018 [4] Sun, Y., Han, J., Yan, X., Yu, p s., & Wu, T., "Pathsim: Meta path-based top-k similarity search in heterogeneous information networks," Proceedings of the VLDB Endowment, vol 4, no 11, pp 992-1003, 2011 [5] Qiao, Y., Luo, X., Li, c., Tian, H., & Ma, J., "Heterogeneous graph-based joint representation learning for users and POIs in location-based social network," Information Processing & Management, vol 57, no 2, p 102151,2020 [6] Yu, J., Gao, M., Li, J., Yin, H., & Liu, H., "Adaptive implicit friends identification over heterogeneous network for social recommendation," in Proceedings of the 27th ACM international conference on information and knowledge management, 357-366, 2018 [7] Deng, w., "Leveraging consumer behaviors for product recommendation: an approach based on heterogeneous network," Electronic Commerce Research, pp 127, 2020 [8] Lande, D., Fu, M., Guo, w., Balagura, L, Gorbov, L, & Yang, H., "Link prediction of scientific collaboration networks based on information retrieval," World Wide Web, pp 1-19, 2020 [9] Wan, F., Hong, L., Xiao, A., Jiang, T., & Zeng, J., "NeoDTI: neural integration of neighbor information from a heterogeneous network for discovering new drug target interactions," Bioinformatics, vol 35, no 1, pp 104-111, 2019 [10] Yu, G., Wang, K., Domeniconi, c., Guo, M., & Wang, J., "Isoform function prediction based on bi-random walks on a heterogeneous network," Bioinformatics, vol 36, no 1, pp 303-310, 2020 [11] Liu, H, Zhang, w., Song, Y., Deng, L., & Zhou, s., "HNet-DNN: Inferring New Drug-Disease Associations with Deep Neural Network Based on Heterogeneous Network Features," Journal of chemical information and modeling, vol 60, no 4, pp 2367-2376, 2020 [12] ZENG, Xiangxiang, et al., "Target identification among known drugs by deep learning from heterogeneous networks," Chemical Science, vol 11, no 7, pp 17751797,2020 [13] Balakrishnan, M., & TV, G., "A neural network framework for predicting dynamic variations in heterogeneous social networks," PloS one, vol 15, no 4, p C0231842, 2020 163 • [CT7] PHAM, Phu; DO, Phuc ‘‘''Topic-driven top-k similarity search by applying constrained meta-path based in content-based schema-enriched heterogeneous information network" In: International Journal of Business Intelligence and Data Mining (ISSN: 1743-8187) (Scopus indexed), 2020, volume: 17, issue: 3, pp 349376 (https://www.indcrsciencc.com/info/ingencral/forthcoming.php?icode=iibidm) • [CT8] PHAM, Phu; DO, Phuc “ComRank: community-based ranking approach for heterogeneous information network analysis and mining" In: International Journal of Business Intelligence and Data Mining (ISSN: 1743-8187) (Scopus indexed), 2020, volume: 17, issue: 4, pp 493-525 (https://www.inderscienceonline.com/doi/pdf/10.1504/lJBIDM.2020.110373) Các báo tạp chí chun ngành cơng bố (tống: 1): • [CT9] DO, Phuc; PHAM, Phu "DlV-PathSim: a distributed computing model for topic-driven weighted meta-path-based similarity measure in a large-scale contentbased heterogeneous information network" In: Journal of Information and Telecommunication (ISSN: 2475-1839), 2019, volume: 3, issue: 1, pp 19-38 (https://www.tandfonlinc.com/doi/full/10.1080/24751839.2018.1516714 )■ Các báo hội nghị, công bo (tong: 1): • [CT10] PHAM, Phu; DO, Phuc; TA, Chien DC “W-PathSim: Novel Approach of Weighted Similarity Measure in Content-Based Heterogeneous Information Networks by Applying LDA Topic Modeling" In: Asian Conference on Intelligent Information and Database Systems Springer, Cham, 2018 p 539-549 (https://link.springer.com/chapter/10.1007/978-3-319-75417-8 51) 162 [28] Zhang, D., Yin, J., Zhu, X., & Zhang, c., "Metagraph2vec: Complex semantic path augmented heterogeneous network embedding," in Pacijic-Asia conference on knowledge discovery and data mining, Springer, Cham, 2018 [29] Shi, c., Zhou, c., Kong, X., Yu, p s., Liu, G., & Wang, B., "HeteRecom: a semantic based recommendation system in heterogeneous networks," Proceedings of the Ỉ 8th ACM S1GKDD international conference on Knowledge discovery and data mining A CM, pp 1552-1555, 2012 [30] KLEINBERG, Jon M., "Authoritative sources in a hyperlinked environment," Journal of the A CM (JA CM), pp 604-632, 1999 [31] Jeh, G., & Widom, J., "Scaling personalized web search," Proceedings of the 12th international conference on World Wide Web, pp 271-279, 2003 [32] Jeh, G., & Widom, J., "SimRank: a measure of structural-context similarity," Proceedings of the eighth ACM SỈGKDD international conference on Knowledge discovery and data mining, pp 538-543, 2002 [33] Xu, X., Yuruk, N., Feng, z., & Schweiger, T A., "Scan: a structural clustering algorithm for networks," Proceedings of the 13 th ACM SỈGKDD international conference on Knowledge discovery and data mining, pp 824-833, 2007 [34] Shi, c., Kong, X., Huang, Y., Philip, s Y., & Wu, B., "HctcSim: A General Framework for Relevance Measure in Heterogeneous Networks," IEEE Trans Knowl Data Eng., vol 26, no 10, pp 2479-2492, 2014 [35] LI, Congcong, et al., "An efficient drug-target interaction mining algorithm in heterogeneous biological networks," in Pacific-Asia Conference on Knowledge Discovery and Data Mining Springer, Cham, 2014 [36] MENG, Xiaofeng, et al., "Relevance measure in large-scale heterogeneous networks," Asia-Pacific Web Conference Springer, Cham, pp 636-643, 2014 [37] ZHANG, Mingxi, et al., "Top-k similarity search in heterogeneous information networks with x-star network schema," Expert Systems with Applications, vol 42, no 2, pp 699-712, 2015 [38] WANG, Chenguang, et al., "Relsim: relation similarity search in schema-rich heterogeneous information networks," Proceedings of the 2016 SIAM International Conference on Data Mining Society for Industrial and Applied Mathematics, pp 621-629,2016 [39] Sun, Y., Han, J., Zhao, p., Yin, z., Cheng, H., & Wu, T., "Rankclus: integrating clustering with ranking for heterogeneous information network analysis," Proceedings of the 12th International Conference on Extending Database Technology: Advances in Database Technology, pp 565-576, 2009 [40] SUN, Yizhou; YU, Yintao; HAN, Jiawei, "Ranking-based clustering of heterogeneous information networks with star network schema," in Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, 2009 [41] SUN, Yizhou, et al., "Pathselclus: Integrating meta-path selection with user-guided object clustering in heterogeneous information networks," ACM Transactions on Knowledge Discovery from Data (TKDD), vol 7, no 3, pp 1-23, 2013 165 [14] Page, L., Brin, s., Motwani, R., & Winograd, T., "The PageRank citation ranking: Bringing order to the web," Stanford InfoLab, 1999 [15] Tang, J., Zhang, J., Yao, L., Li, J., Zhang, L., & Su, z., "Arnetminer: extraction and mining of academic social networks," in Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, 2008 [16] Song, Y., Huang, J., Councill, I G., Li, J., & Giles, c L., "Efficient topic-based unsupervised name disambiguation," in Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries, 2007 [17] Tang, J., Fong, A c., Wang, B., & Zhang, J., "A unified probabilistic framework for name disambiguation in digital library," IEEE Transactions on Knowledge and Data Engineering, vol 24, no 6, pp 975-987, 2011 [18] Ferreira, A A., Gonẹalves, M A., & Laender, A H., "A brief survey of automatic methods for author name disambiguation," Acm Sigmod Record, vol 41, no 2, pp 15-26,2012 [19] LAO, Ni; COHEN, William w., "Fast query execution for retrieval models based on path-constrained random walks," Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 881-888, 2010 [20] SHI, Chuan, et al., "Heterecom: a semantic-based recommendation system in heterogeneous networks," in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, 2012 [21] SHI, Chuan, et al., "Hetesim: A general framework for relevance measure in heterogeneous networks," IEEE Transactions on Knowledge and Data Engineering, vol 26, no 10, pp 2479-2492, 2014 [22] CUI, Peng, et al., "A survey on network embedding," IEEE Transactions on Knowledge and Data Engineering, vol 31, no 5, pp 833-852, 2018 [23] Yang, c., Xiao, Y., Zhang, Y., Sun, Y., & Han, J., "Heterogeneous network representation learning: Survey, benchmark, evaluation, and beyond," IEEE Transactions on Knowledge and Data Engineering (Early Access), 2020 [24] PEROZZI, Bryan; AL-RFOU, Rami; SK1ENA, Steven, "Deepwalk: Online learning of social representations," Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 701-710, 2014 [25] Tang, J., Ọu, M., Wang, M., Zhang, M., Yan, J., & Mei, Q., "Line: Large-scale information network embedding," Proceedings of the 24th international conference on world wide web International World Wide Web Conferences Steering Committee, pp 1067-1077, 2015 [26] GROVER, Aditya; LESKOVEC, Jure, "node2vec: Scalable feature learning for networks," Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining ACM, pp 855-864, 2016 [27] Dong, Y., Chawla, N V., & Swami, A., "mctapath2vcc: Scalable representation learning for heterogeneous networks," Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining ACM, pp 135144, 2017 164 [42] Tsai, M H., Aggarwal, c., & Huang, T., "Ranking in heterogeneous social media," Proceedings of the 7th ACM international conference on Web search and data mining, pp 613-622, 2014 [43] Ji, M., Sun, Y., Danilevsky, M., Han, J., & Gao, J., "Graph regularized transductive classification on heterogeneous information networks," Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pp 570-586, 2010 [44] Luo, c., Guan, R., Wang, z., & Lin, c., "Hetpathmine: A novel transductive classification algorithm on heterogeneous information networks," European Conference on Information Retrieval, pp 210-221,2014 [45] SUN, Yizhou, et al., "Co-author relationship prediction in heterogeneous bibliographic networks," Advances in Social Networks Analysis and Mining (ASONAM), 20ỉ International Conference on IEEE, pp 121-128, 2011 [46] Yang, Y., Chawla, N., Sun, Y., & Hani, J., "Predicting links in multi-relational and heterogeneous networks," Data Mining (ICDM), 2012 IEEE 12th International Conference on IEEE, pp 755-764, 2012 [47] CAO, Xiaohuan, et al., "Meta-path-based link prediction in schema-rich heterogeneous information network," International Journal of Data Science and Analytics, vol 3, no 4, pp 285-296, 2017 [48] YANG, Yang, et al., "Mining competitive relationships by learning across heterogeneous networks," in Proceedings of the 21 st ACM international conference on Information and knowledge management, 2012 [49] SHI, Chuan, et al., "Semantic path based personalized recommendation on weighted heterogeneous information networks," in Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, 2015 [50] YANG, Chen, et al., "Scientific collaborator recommendation in heterogeneous bibliographic networks," in 2015 48th Hawaii International Conference on System Sciences, 2015 [51] Li, c., Sun, J., Xiong, Y., & Zheng, G., "An efficient drug-target interaction mining algorithm in heterogeneous biological networks," Paciftc-Asia Conference on Knowledge Discovery and Data Mining, pp 65-76, 2014 [52] Mikolov, T., Chen, K., Corrado, G., & Dean, J., "Efficient estimation of word representations in vector space," arXiv preprint arXiv:1301.3781, 2013 [53] Wang, X., Cui, p., Wang, J., Pei, J., Zhu, w., & Yang, s., "Community preserving network embedding," Thirty-First AAAI Conference on Artificial Intelligence, 2017 [54] CAO, Shaoshcng; LU, Wei; XU, Qiongkai, "Grarcp: Learning graph representations with global structural information," Proceedings of the 24th ACM international on conference on information and knowledge management ACM, pp 891-900, 2015 [55] OU, Mingdong, et al., "Asymmetric transitivity preserving graph embedding," Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining ACM, pp 1105-1114, 2016 [56] Tang, J., Qu, M., & Mei, Q., "Pte: Predictive text embedding through large-scale heterogeneous text networks," in Proceedings of the 21 th ACM SIGKDD international conference on knowledge discovery and data mining, 2015 166 [57] Cai, H., Zheng, V w., & Chang, K c c., "A comprehensive survey of graph embedding: Problems, techniques, and applications," IEEE Transactions on Knowledge and Data Engineering, vol 30, no 9, pp 1616-1637, 2018 [58] Li, J., Zhu, J., & Zhang, B., "Discriminative deep random walk for network classification," in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016 [59] Fu, T Y., Lee, w c., & Lei, z., "Hin2vec: Explore meta-paths in heterogeneous information networks for representation learning," Proceedings of the 2017 ACM on Conference on Information and Knowledge Management, pp 1797-1806, 2017 [60] Ribeiro, L F., Saverese, p FL, & Figueiredo, D R, "struc2vec: Learning node representations from structural identity," in Proceedings of the 23 rd ACM SIGKDD international conference on knowledge discovery and data mining, 2017 [61] Cao, s., Lu, w., & Xu, Ọ., "GraRep: Learning graph representations," in Proceedings of the 24th ACM international on conference on information and knowledge management, 2015 [62] Yang, c., Liu, z., Zhao, D., Sun, M., & Chang, E Y., "Network representation learning with rich text information," in IJCAI, 2015 [63] Ou, M., Cui, p., Pci, J., Zhang, z., & Zhu, w., "Asymmetric transitivity preserving graph embedding," in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, 2016 [64] Wang, X., Cui, p., Wang, J., Pei, J., Zhu, w., & Yang, s., "Community preserving network embedding," in Proceedings of the AAAI Conference on Artificial Intelligence, 2017 [65] Qiu, J., Dong, Y., Ma, FL, Li, J., Wang, K., & Tang, J., "Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec," in Proceedings of the eleventh ACM international conference on web search and data mining, 2018 [66] Qiu, J., Dong, Y., Ma, FL, Li, J., Wang, c., Wang, K., & Tang, J., "Netsmf: Largescale network embedding as sparse matrix factorization," in The World Wide Web Conference, 2019 [67] Wang, s., Tang, J., Aggarwal, c., & Liu, FL, "Linked document embedding for classification," in Proceedings of the 25th ACM international on conference on information and knowledge management, 2016 [68] Wang, s., Tang, J., Morstatter, F., & Liu, H„ "Paired restricted boltzmann machine for linked data," in Proceedings of the 25th ACM International on Conference on Information and Knowledge Management, 2016 [69] Wang, Hongwei, et al., "Graphgan: Graph representation learning with generative adversarial nets," in Proceedings of the AAAI conference on artificial intelligence, 2018 [70] Cao, s., Lu, w., & Xu, Q., "Deep neural networks for learning graph representations," in Proceedings of the AAAI Conference on Artificial Intelligence, 2015 [71 ] Wang, D., Cui, p., & Zhu, w., "Structural deep network embedding," in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, 2016 167 [72] Feng, R., Yang, Y., Hu, w., Wu, F., & Zhang, Y., "Representation learning for scalefree network," in Proceedings of the AAAI Conference on Artificial Intelligence, 2018 [73] Chen, H., Perozzi, B., Hu, Y., & Skiena, s., "Hierarchical representation learning for networks," in Proceedings of the AAAI Conference on Artificial Intelligence, 2018 [74] Biei, D M., Ng, A Y., & Jordan, M I., "Latent dirichlct allocation," Journal oj machine Learning research, vol 3, no Jan, pp 993-1022, 2003 [75] Sontag, D., & Roy, D M., "Complexity of inference in topic models," in Advances in Neural Information Processing: Workshop on Applications for Topic Models: Text and Beyond, 2009 [76] Jarvelin, K., & Kekălãinen, J., "Cumulated gain-based evaluation of IR techniques," ACM Transactions on Information Systems (TOIS), vol 20, no 4, pp 422-446, 2002 [77] Burges, c., Shaked, T., Renshaw, E., Lazier, A., Deeds, M., Hamilton, N., & llullender, G, "Learning to rank using gradient descent," in Proceedings of the 22nd international conference on Machine learning, 2005 [78] Chen, H., Yin, H., Wang, w., Wang, H„ Nguyen, ọ V H., & Li, X., "PME: projected metric embedding on heterogeneous networks for link prediction," in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018 [79] Kipf, T N., & Welling, M., "Semi-supervised classification with graph convolutional networks," 5th International Conference on Learning Representations, ICLR, 2017 [80] Zitnik, M., Agrawal, M., & Leskovec, J., "Modeling polypharmacy side effects with graph convolutional networks.," Bioinformatics, vol 34, no 13, pp Í457-Í466, 2018 [81] He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M., "Lightgen: Simplifying and powering graph convolution network for recommendation," in Proceedings of the 43rd International ACM SỈGIR Conference on Research and Development in Information Retrieval, 2020 [82] Meng, z., Liu, s., Macdonald, c., & Oums, 1., "Graph Neural Pre-training for Enhancing Recommendations using Side Information," arXiv preprint arXiv:2107.03936, 2021 [83] Qiu, J., Chen, Q., Dong, Y., Zhang, J., Yang, H., Ding, M., & Tang, J., "Gcc: Graph contrastive coding for graph neural network pre-training," in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020 [84] Hu, z., Dong, Y., Wang, K., Chang, K w., & Sun, Y., "Gpt-gnn: Generative pretraining of graph neural networks," in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020 [85] Wu, z., Pan, s., Chen, F., Long, G., Zhang, c., & Philip, s Y., "A comprehensive survey on graph neural networks," IEEE transactions on neural networks and learning systems, vol 32, no 1, pp 4-24, 2020 [86] Abadal, s., Jain, A., Guirado, R., Lopez-Alonso, J., & Alarcón, E., "Computing graph neural networks: A survey from algorithms to accelerators," ACM Computing Surveys (CSUR), vol 54, no 9, pp 1-38, 2021 168 [87] Bahdanau, D., Cho, K., & Bengio, Y., "Neural machine translation by jointly learning to align and translate," in 3rd International Conference on Learning Representations (ICLR),20\5 [88] Vaswani, Ashish, et al., "Attention is all you need," in Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017 [89] Peters, M E., Neumann, M., Iyyer, M., Gardner, M., Clark, c., Lee, K., & Zettlemoyer, L., "Deep contextualized word representations," in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2018 [90] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I., "Improving language understanding by generative pre-training," OpenAI, 2018 [91] Howard, 1., & Ruder, s., "Universal language model fine-tuning for text classification," in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018 [92] Devlin, J., Chang, M wLee, K., & Toutanova, K., "Bert: Pre-training of deep bidirectional transformers for language understanding," in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019 [93] Shi, c., Hu, B., Zhao, w X., & Philip, s Y., "Heterogeneous information network embedding for recommendation," IEEE Transactions on Knowledge and Data Engineering, vol 31, no 2, pp 357-370, 2018 [94] Zhao, z., Zhang, X., Zhou, H., Li, c., Gong, M., & Wang, Y., "HetNERec: Heterogeneous network embedding based recommendation," Knowledge-Based Systems, vol 204, p 106218, 2020 169