Bài viết này trình bày cách tiếp cận xây dựng mô hình khai phá mạng dữ liệu không đồng nhất phục vụ cho công tác nghiên cứu khoa học. Cụ thể chú trọng đến việc tìm kiếm sự tương đồng giữa các thực thể trong mạng học thuật không đồng nhất, bao gồm: Hỗ trợ tìm kiếm các đối tượng như là: Tác giả, đồng tác giả, hội nghị tính toán top-k vùng lân cận giữa các đối tượng nhằm hỗ trợ tìm kiếm và biểu diễn trực quan giúp cho người dùng có cái nhìn tổng quan hơn về sự phân bố, độ tương đồng của nhóm tác giả, nhóm hội nghị.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thơng tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00062 TÌM KIẾM TƯƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHÔNG ĐỒNG NHẤT Nguyễn Văn Gia1, Đỗ Phúc2 1,2 Công ty CP Thực phẩm Dinh dƣỡng NutiFood Trƣờng ĐH Công nghệ thông tin, ĐHQG TP.HCM gianvdba@gmail.com, phucdo@uit.edu.vn TÓM TẮT: Khai phá mạng liệu không đồng xu hướng lĩnh vực khoa học liệu (Data Science) Đa số cơng bố cịn dừng mức độ giải thuật mơ hình, áp dụng thực tế cho việc xây dựng hệ thống hỗ trợ nhu cầu thiết thực Bài báo trình bày cách tiếp cận xây dựng mơ hình khai phá mạng liệu khơng đồng phục vụ cho công tác nghiên cứu khoa học Cụ thể trọng đến việc tìm kiếm tương đồng thực thể mạng học thuật không đồng nhất, bao gồm: Hỗ trợ tìm kiếm đối tượng là: Tác giả, đồng tác giả, hội nghị… tính toán top-k vùng lân cận đối tượng nhằm hỗ trợ tìm kiếm biểu diễn trực quan giúp cho người dùng có nhìn tổng quan phân bố, độ tương đồng nhóm tác giả, nhóm hội nghị Nguồn liệu trích từ DBLP ngày 22/05/2019 với 1,408,606 tác giả, 1,965,362 báo 1,746 địa điểm hội nghị Từ khóa: Heterogeneous Information Networks, Similarity; Heterogeneous Representation Learning, Metapath2vec, Metapath2vec++, Network Embedding, word2vec, node2vec I GIỚI THIỆU Trong năm qua, với phát triển nhanh chóng cơng nghệ làm cho kho liệu ngày trở nên đồ sộ lớn dần Chính điều đặt thử thách lớn vấn đề khái thác biểu diễn trực quan Xã hội mạng liệu chứa lƣợng thơng tin phong phú phức tạp, hiểu mạng liệu ánh xạ xã hội có loại tƣơng tác ngƣời Những tiến gần xử lý ngơn ngữ tự nhiên (NLP) [1] đƣợc áp dụng cách tự nhiên nhƣ word2vec [3, 4] Một số báo nghiên cứu gần đề xuất sử dụng frameworks học biểu diễn mạng dựa word2vec, chẳng hạn nhƣ DeepWalk [5], LINE [10] node2vec [13] Thay thiết kế tính mạng thủ cơng, phƣơng pháp học biểu diễn cho phép phát tự động tính hữu ích có ý nghĩa (tiềm ẩn) từ “mạng thô” Tuy nhiên, công việc tập trung vào việc học biểu diễn cho mạng đồng - biểu diễn cho số loại nodes mối quan hệ chúng Đa số mạng xã hội thông tin không đồng tự nhiên, liên quan đến đa dạng loại nodes mối quan hệ chúng [6] Các mạng khơng đồng có khó khăn đặc biệt mà khơng thể xử lý mơ hình học biểu diễn đƣợc thiết kế đặc biệt cho mạng đồng Cụ thể nhƣ mạng học thuật không đồng nhất: Làm cách để giữ nguyên bối cảnh nhiều loại nodes, ví dụ: tác giả, báo, địa điểm, ? Liệu bƣớc ngẫu nhiên (random walks) cách sử dụng DeepWalk node2vec cho mạng nhiều loại nodes? Liệu áp dụng trực tiếp kiến trúc nhúng theo hƣớng mạng đồng (ví dụ, skip-gram) cho mạng khơng đồng nhất? Để giải thách thức này, phƣơng pháp nhúng (embeddings) ngầm mạng khơng đồng áp dụng cho tác vụ khai thác mạng, chẳng hạn nhƣ phân loại node [2], phân cụm [8, 9] tìm kiếm tƣơng đồng [7, 11] Ngƣợc lại với phƣơng pháp dựa meta-path thông thƣờng [6], lợi việc học biểu diễn không gian ngầm khai thác đƣợc tƣơng đồng nodes mà không cần kết nối meta-path Ví dụ, tác giả chƣa xuất báo địa điểm - tƣởng tƣợng ngƣời xuất tất 50 báo vKDD ngƣời có 50 báo đƣợc xuất ICML Nhƣ điểm tƣơng đồng Path- Sim họ dựa “ A-P-C-P-A ” số không - điều đƣợc khắc phục cách học biểu diễn mạng (network representation learning) Nội dung báo đƣợc tổ chức nhƣ sau: Phần tốn, phần trình bày phƣơng pháp xây dựng mơ hình tìm kiếm tƣơng đồng mạng liệu không đồng (HINs), phần trình bày kết thực nghiệm, phần kết luận hƣớng phát triển, phần lời cảm ơn, phần cuối tài liệu tham khảo II BÀI TỐN Xét mạng học thuật khơng đồng nhất, làm khai thác xác “những chủ đề nghiên cứu tƣơng đồng nay?”,“nhóm tác giả có cơng trình nghiên cứu liên quan với nhau?”, “hƣớng nghiên cứu có tƣơng đồng với mình?”, “Nhóm hội nghị có tƣơng đồng với nhau?" hay “Tài liệu tham khảo có giá trị nhất, phù hợp với hƣớng nghiên cứu tại?”… Câu hỏi đặt “Làm để xây dựng hệ thống tìm kiếm hiệu mạng liệu không đồng nhất?” - Để trả lời đƣợc câu hỏi cần xây dựng mơ hình tìm kiếm có khả giải tốn sau: Bài tốn: Làm để dự đốn xác hiệu vùng lân cận nodes khơng đồng nhất? TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHƠNG ĐỒNG NHẤT 488 Bài tốn đƣợc phát biểu nhƣ sau: Xét tập đối tƣợng (objects) ta có khoảng cách đối tƣợng với Mục tiêu tốn tìm top-k đối tƣợng lân cận (nearest neighbor) cách xếp khoảng cách đối tƣợng từ Ví dụ: danh sách top-k đối tƣợng lân cận o1, với k = ta có danh sách khoảng cách đƣợc xếp nhƣ sau: list = [ ] với Xét mạng liệu không đồng (HINs) G = (V, E, T) meta-path → , mục tiêu tốn tìm đƣợc vùng lân cận node với Để thực đƣợc mục tiêu trên, sử dụng khoảng cách Euclidean để đo khoảng cách vector, ta có vector với số chiều vector Khoảng cách Euclidean đƣợc tính theo cơng thức sau: ( ) (1) √∑ Hình Mô tả lý sử dụng độ đo khoảng cách Euclidean: trƣờng hợp (B), vector phƣơng cosine( = nhƣng khoảng cách Euclidean lớn ( ⃗⃗⃗⃗ ⃗⃗⃗⃗ ) , III PHƢƠNG PHÁP Phƣơng pháp khai phá liệu mạng liệu không đồng dựa mơ hình metapath2vec metapath2vec ++ [12] để tính tốn vùng lân cận nodes khơng đồng A Meta-path mạng không đồng Lƣợc đồ liên kết (Network Schema - NS): Một lƣợc đồ kết nối mạng liệu (INs) tập hợp mẫu loại đỉnh cung liên kết Meta-path: Đƣợc định nghĩa loại lƣợc đồ liên kết (NS) đặc biệt đồ thị G - với hình thức tổng quát nhƣ sau: NSG = (A,R), với tập (P) tập meta-paths đồ thị G - meta-path có dạng nhƣ sau: → Thơng thƣờng ta biểu diễn tập meta-paths HINs dƣới dạng trƣờng hợp khơng có quan hệ khác loại Ví dụ: ta có meta-path → → nghị, báo, tác giả] đƣợc xem dạng meta-path → → [tác giả, báo, hội B Phương pháp nhúng mạng không đồng vào khơng gian vector (Heterogeneous Network Embedding) Metapath2vec trì cấu trúc mạng không đồng nhất, sử dụng skip-gram bƣớc ngẫu nhiên (Random Walks) dựa meta-path mạng không đồng gọi Meta-Path-Based Random Walks để biến node thành vector Skip-gram không đồng nhất: Phƣơng pháp metapath2vec kích hoạt skip-gram để học biểu diễn node cho mạng không đồng G = (V,E,T) với |TV| > cách tối đa hóa xác suất có bối cảnh không đồng Nt (v), t TV cho node v: ∑ ∑ ∑ (2) Trong đó: Nt(v) biểu thị vùng lân cận node v với loại nodes tth p (ct | v; θ) đƣợc định nghĩa hàm softmax [12], ∑ (3) Nguyễn Văn Gia, Đỗ Phúc 489 hàng thứ vth X, biểu diễn vector nhúng cho node v Với Meta-Path-Based Random Walks: Là phƣơng pháp tạo đƣờng dẫn phản ánh mối tƣơng quan ngữ nghĩa cấu trúc loại nodes khác nhau, tạo điều kiện chuyển đổi cấu trúc mạng không đồng thành vector Giả sử ta có mạng khơng đồng G = (V, E, T) lƣợc đồ meta-path → , xác suất dịch chuyển bƣớc i đƣợc xác định nhƣ biểu thức sau: ( ) ( Trong | biểu thị loại ) ( (4) ) ( { vùng lân cận node ) C Phương pháp Metapath2vec++ tác giả Yuxiao Dong Phƣơng pháp lấy mẫu âm khơng đồng để tính tốn vùng lân cận nodes Đây phƣơng pháp mở rộng từ metapath2vec hàm softmax đƣợc chuẩn hóa theo bối cảnh loại node ct Đặc biệt, đƣợc điều chỉnh theo kiểu node cụ thể t, nghĩa là: (5) ∑ Trong đó: Vt tập hợp node loại t mạng Metapath2vec ++ định phân bố đa cực cho loại vùng lân cận lớp đầu mơ hình Skipgram kích thƣớc phân bố đa cực đầu số lƣợng node mạng Thuật toán metapath2vec++ tác giả Yuxiao Dong Đầu vào (input): Mạng không đồng G = (V, E,T), Lƣợc đồ Meta-path , số lần (walks) node w, Chiều dài , kích thƣớc nhúng d, kích thƣớc vùng lân cận k Đầu (output): Các nhúng Node ngầm (latent node embeddings) X R|V|×d Khởi tạo X for i = w : for : MP = MetaPathBasedRandomWalk ; X = SkipGramKhongDongNhat(X,k,MP); return X; MetaPathBasedRandomWalk : MP[1] = ; for i = l -1 Vẽ u theo biểu thức (4); MP[i + 1] = u; return MP; SkipGramKhongDongNhat(X,k,MP): for i = l : v = MP[i]; for j = max(0, i-k) min(i+k,l) & j ≠ i ct = MP [j]; Xnew = X old - (biểu thức 6); Độ dốc thuật toán đƣợc dẫn xuất nhƣ sau: [ ( ( ∑ Trong đó: [ ] hàm cho biết ( ( ])) [ (6) ])) có phải node bối cảnh vùng lân cận hay không m = 0, Mơ hình metapath2vec++ đƣợc tác giả tối ƣu hóa thuật toán giảm độ dốc ngẫu nhiên 490 TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHƠNG ĐỒNG NHẤT D Tìm top k thực thể gần thơng qua cách tính khoảng cách Euclidean để tìm tác giả, hội nghị tương đồng Chúng tiến hành bổ sung thêm chức tìm kiếm top k thực thể gần thơng qua cách tính khoảng cách Euclidean vector đƣợc trình bày ngơn ngữ python nhƣ sau: E Biểu diễn trực quan thư viện D3.js để dễ dàng nhìn thấy độ tương đồng tác giả, hội nghị Chúng tiếp tục bổ sung thêm chức biểu diễn trực quan top-k thực thể gần ngơn ngữ lập trình python thƣ viện D3.js nhƣ sau: Lƣu kết vào file csv Biểu diễn trực quan với thƣ viện D3.js IV THỰC NGHIỆM A Môi trường thực nghiệm Thiết bị phần cứng (hardware) sử dụng: Hệ quản trị CSDL đồ thị sử dụng: Bộ liệu thực nghiệm: Ngôn ngữ lập trình sử dụng: CPU: Intel(R) Core(TM) i7-7500U CPU @ 2.70 GHz 2.90 GHz Bộ nhớ: 16 Gb RAM Hệ điều hành: Windows 10 Pro 64-bit (10.0.17763 N/A Build 17763) Neo4j 3.2.6 Community Edition, tảng Windows 64-bit DBLP ngày 22/05/2019 Python, Java, Javascripts, Cypher (Neo4J) B Kết thực nghiệm Trong báo này, thực nghiệm dựa phƣơng pháp metapath2vec metapath2vec++ tác giả Yuxiao Dong [12] với meta-path “APVPA” biểu thị ngữ nghĩa không đồng tác giả xuất báo địa điểm để thực bƣớc ngẫu nhiên Nguồn liệu đƣợc chúng tơi rút trích từ DBLP ngày 22/05/2019 bao gồm 1,408,606 tác giả, 1,965,362 báo 1,746 địa điểm hội nghị Tham số đầu vào nhƣ sau: (1) Số bƣớc node w: 1000; (4) Chiều dài l: 100; (2) Kích thƣớc d: 128; (5) Kích thƣớc vùng lân cận k: 7; (3) Kích thƣớc mẫu âm: Nguyễn Văn Gia, Đỗ Phúc 491 Sau tiến hành thực nghiệm thấy rằng, cách mô hình hóa vùng lân cận metapath2vec kết hợp với kỹ thuật lấy mẫu âm khơng đồng nhất, metapath2vec++ đạt đƣợc kết tốt top-5 kết tƣơng đồng cho hai câu truy vấn [Bảng 1] Điều đáng ý metapath2vec++ có khả tự động tổ chức loại nodes (Tác giả, Hội nghị) ngầm học mối quan hệ nội chúng [hình 2] [hình 3] Ví dụ nhƣ liệu training cặp dạng meta-path nhƣ XiangLi → PVLDB, YongLiu → Complexity…, metapath2vec++ nhóm căp tác giả → hội nghị chặc chẽ (chẳng hạn nhƣ TaoWang → The Journal of Supercomputing [bảng 1]) Điều khơng thể phát đƣợc từ mơ hình nhúng mạng thơng thƣờng Bảng Top-5 kết tìm kiếm tƣơng đồng liệu DBLP # Query Metapath2vec PVLDB VLDB J IEEE Data Eng Bull SIGMOD Record IEEE Trans Knowl Data Eng XiangLi BinLiu HaoWang WeiLiu YuWang ACM Trans Database Syst JianChen Metapath2vec++ PVLDB The Journal of Supercomputing IEEE Trans Contr Sys Techn Computer Physics Communications Microelectronics Journal IEEE Trans Intelligent Transportation Systems XiangLi TaoWang LoetLeydesdorff ThomasS.Huang Han-ChiehChao Ekram Hossain Hình Các vector đại diện cho tác giả, hội nghị đƣợc nhúng metapath2vec Hình Các vector đại diện cho tác giả, hội nghị đƣợc nhúng metapath2vec++ Hình Top 10 tác giả tƣơng đồng với “aXiangLi”, phƣơng pháp Metapath2vec Hình Top 10 tác giả tƣơng đồng với “aXiangLi” ” , phƣơng pháp Metapath2vec++ Chúng tiếp tục thử nghiệm tìm Top-10 thực thể gần cách tính khoảng cách Euclidean nhận thấy điều thú vị rằng, metapath2vec++ có khả tối đa hóa vùng lân cận tốt nhiều so với metapath2vec Trong top-10 tác giả gần đƣợc xử lý metapath2vec++ có khoảng cách Euclidean từ 0.03574 → 0.038779 [hình 5] với phƣơng pháp metapath2vec [hình 4] khoảng cách Euclidean lớn từ 0.848738 → 0.938837 Và điều đƣợc thề tƣơng tự với vector đại diện cho hội nghị nhƣ [hình 6] [hình 7] 492 TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHƠNG ĐỒNG NHẤT Hình Top 10 hội nghị tƣơng đồng với “vPVLDB” phƣơng pháp Metapath2vec Hình Top 10 hội nghị tƣơng đồng với “vPVLDB” phƣơng pháp Metapath2vec++ Biểu diễn trực quan kết top 10 tác giả hội nghị tƣơng đồng giúp ngƣời dùng dễ dàng nhận biết Hình Biểu diễn trực quan top 10 tác giả tƣơng đồng với “aXiangLi” Hình Biểu diễn trực quan top 10 hội nghị tƣơng đồng với “vPVLDB” Ngồi chúng tơi tiến hành thực nghiệm so sánh tốc độ xử lý (microsecond) phƣơng pháp query liệu truyền thống sở liệu đồ thị Neo4j so với phƣơng pháp tính khoảng cách Euclidean dựa kết metapath2vec++ [bảng 2] Kết cho thấy, phƣơng pháp thật hữu ích với tốc độ trung bình vƣợt trội nhiều so với phƣơng pháp query truyền thống, yếu tố làm tăng thêm giá trị tính thuyết phục cho việc áp dụng phƣơng pháp metapath2vec++ để xây dựng cơng cụ tìm kiếm tƣơng đồng mạng liệu không đồng Bảng So sánh tốc độ thực thi phƣơng pháp truyền thống với metapath2vec++ Phƣơng pháp Top-k Thời gian thực thi trung bình (Microsecond) Truy vấn meta-path A-P-V-P-A CSDL đồ thị Neo4j 500 216,091 1000 279,866 2000 Tất 801,787 392,919 metapath2vec++ Hình 10 Minh họa biến thiên TB tổng cho tất lần chạy thực nghiệm [Bảng 2] V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Bài báo trình bày cách tiếp cận xây dựng mơ hình tìm kiếm tƣơng đồng mạng liệu khơng đồng dựa metapath2vec, metapath2vec++ [12] độ đo khoảng cách Euclidean Đây giải pháp hiệu dễ dàng tìm đƣợc thực thể hay nodes gần Tuy nhiên kết báo áp dụng cho loại thực thể tác giả hội nghị, tƣơng lai cố gắng phát triển thêm nhiều loại thực thể khác nhƣ tìm kiếm báo tƣơng đồng phục vụ cho Nguyễn Văn Gia, Đỗ Phúc 493 cơng tác nghiên cứu hay áp dụng để giải toán liên quan đến mạng xã hội phục vụ cho kinh doanh, VI LỜI CẢM ƠN Xin chân thành cảm ơn anh Phạm Thế Anh Phú hỗ trợ chúng tơi q trình thực báo TÀI LIỆU THAM KHẢO [1] Yoshua Bengio, Aaron Courville, and Pierre Vincent 2013 Representation learning: A review and new perspectives IEEE TPAMI 35, (2013), 1798-1828 [2] Ming Ji, Jiawei Han, and Marina Danilevsky 2011 Ranking-based classification of heterogeneous information networks In KDD ’11 ACM, 1298-1306 [3] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean 2013 Efficient Estimation of Word Representations in Vector Space CoRR abs/1301.3781 (2013 [4] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean 2013 Distributed representations of words and phrases and their compositionality In NIPS ’13 3111-3119 [5] Bryan Perozzi, Rami Al-Rfou, and Steven Skiena 2014 DeepWalk: Online Learning of Social Representations In KDD ’14 ACM, 701-710 [6] Yizhou Sun and Jiawei Han 2012 Mining Heterogeneous Information Networks: Principles and Methodologies Morgan & Claypool Publishers [7] Yizhou Sun, Jiawei Han, Xifeng Yan, Philip S Yu, and Tianyi Wu 2011 Pathsim: Meta path-based top-k similarity search in heterogeneous information networks In VLDB ’11 992-1003 [8] Yizhou Sun, Brandon Norick, Jiawei Han, Xifeng Yan, Philip S Yu, and Xiao Yu 2012 Integrating Meta-path Selection with User-guided Object Clustering in Heterogeneous Information Networks In KDD ’12 ACM, 13481356 [9] Yizhou Sun, Yintao Yu, and Jiawei Han 2009 Ranking-based Clustering of Heterogeneous Information Networks with Star Network Schema In KDD ’09 ACM, 797-806 [10] Jian Tang, Meng Qy, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei 2015 LINE: Large-scale Information Network Embedding In WWW ’15 ACM [11] Jing Zhang, Jie Tang, Cong Ma, Hanghang Tong, Yu Jing, and Juanzi Li 2015 Panther: Fast top-k similarity search on large networks In KDD ’15 ACM, 1445-1454 [12] YuxiaoDong, AnanthramSwami, Nitesh V.Chawla metapath2vec: ScalableRepresentationLearningfor HeterogeneousNetworks KDD’17, August 13-17, 2017, Halifax, NS, Canada [13] Aditya Grover and Jure Leskovec 2016 Node2Vec: Scalable Feature Learning [14] https://dblp.uni-trier.de/xml/ accessed on 22/05/2019 SIMILARITY SEARCH IN HETEROGENEOUS INFORMATION NETWORKS Nguyen Van Gia, Do Phuc ABTRACT: Mining Heterogeneous Information Networks is a new trend and direction in the field of data science Most of the current publications also stop at the level of model algorithms rather than building a system to support today's essential demands This paper presents an approach to build a heterogeneous information network mining model for scientific researchs Specifically focus on finding similarities between entities in the heterogeneous academic network, including: Supporting finding objects in the information network such as: Author, co-author, conference calculating top-k neighborhoods between objects to support visual search and representation helps users have a better overview of the distribution, the similarity of the author group, the conference group Data source is extracted from DBLP on May 22, 2019 with 1,408,606 authors, 1,965,362 articles and 1,746 conference locations Keywords: Heterogeneous Information Networks, Similarity; Heterogeneous Representation Learning, Metapath2vec, Metapath2vec++, Network Embedding, word2vec, node2vec ... dốc ngẫu nhiên 490 TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHƠNG ĐỒNG NHẤT D Tìm top k thực thể gần thơng qua cách tính khoảng cách Euclidean để tìm tác giả, hội nghị tương đồng Chúng tiến hành... [hình 6] [hình 7] 492 TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHƠNG ĐỒNG NHẤT Hình Top 10 hội nghị tƣơng đồng với “vPVLDB” phƣơng pháp Metapath2vec Hình Top 10 hội nghị tƣơng đồng với “vPVLDB” phƣơng...TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHƠNG ĐỒNG NHẤT 488 Bài toán đƣợc phát biểu nhƣ sau: Xét tập đối tƣợng (objects) ta có khoảng cách đối tƣợng với Mục tiêu tốn tìm top-k đối