1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số

108 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai thác đồ thị con phổ biến trên đồ thị có trọng số
Tác giả Lê Thị Ngọc Thảo
Người hướng dẫn GS.TS. Lê Hoài Bắc, PGS.TS. Vừ Đình Bảy
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận án tiến sĩ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 108
Dung lượng 29,6 MB

Cấu trúc

  • 1.3. Cơ sở lý thuyết về khai thác đồ thị con trên đồ thị có trọng số (39)
    • 1.3.1. Các định nghĩa về đồ thị có trọng SỐ... TT E111 111111111111171115111 11111. ceE 28 1.3.2. Phát biểu Dai toán......................- -2¿22 <+St2E2E2E1E212112112117171121121111711 21111. cre. 30 1.3.3. Cơ sở lý thuyết và mô hình bài toán khai thác đồ thị có trọng số (39)
  • 1.4. Kết chương..................---¿- 5c St221 E21 1EE151111211111211 21.1111 11111111111 111111 xe. 34 CHƯƠNG 2. PHƯƠNG PHAP KHAI THÁC DO THỊ CON TREN ĐỎ THỊ CÓ (45)
    • 2.1.4. Cắt tia không gian tìm kiếm dựa vào trọng số của đồ thị con (0)
    • 2.1.5. Mô tả thuật toán WeGraMi ............................ ---- - << 5+ 133222111199 21 11199 vn vn ngư 42 2.1.6. Độ phức tap của thuật toán WeGralMI.................. ..- -- -c S cs St sisirrerrrirrrrrree 46 2.1.7. Cơ sở dt liệu và môi trường thực nghiỆm ..........................- .-- 5555525 S + ++sesseess 48 2.1.8. Kết quả thực nghiệm .....................-- ¿- -- cSESE+SE+EE2EE2EEEEEEEEEEEEEEEE1121121E11 11111. xe. 50 2.2. Thuật toán OWGraMII.........................- - - --G 1 111 2111101111100 111g 111g KH kg kết 56 2.2.1. Tia danh sách cạnh phổ biến ......................-- 2-2 2 2 E+EE+EE+2EE2EE£EEtEEZEEzEErrkrrrerer 56 2.2.2. Xác định trọng số các đồ thị con dua trên trọng số của đồ thị cha (53)
  • 3.2. Cơ sở lý thuyết về chiến lược AveMin trong thuật toán AWeGraMi (86)
  • 3.3. Thuật toán AWeralMII.......................... .- -. ---- 2111011199230 1 11H 11g kg kg 76 1. Sử dụng chiến lược AveMin dé tinh trong số cho các dé thị con pho biến (0)
    • 3.3.2. Giới hạn chặn trên dựa vào Chiến lược MaxMin.......................--- - =2 s+szsexszx2 78 3.3.3. Mô tả thuật toán AWeGralMI........................- --- ác St. kS HT TH HH HH HH Hệ, 80 3.3.4. Độ phức tạp của thuật toán AWeraMI....................... ..-- Ă cty 82 3.3.5. Cơ so đữ liệu và môi trường thực nghiỆm.............................-- -- + + + ++++++serseerees 82 3.3.6. Kết quả thực nghiệm........................-- 2-2: 5£ £+SE+EE‡EESEEE2EEEE1711211211271712211 211 E1, 84 3.4. KẾt chương....................----:- s- s2 212121 2171211121121121121111111111011 1111111111 1e. 87 951019)/°E0.930007 900010107 (89)
  • 4.2. Hạn chế................---:-55++t222+vt22211122211127111127.1112.T.1 TT (101)
  • 4.3. i0 6.8 ng ăảậíọ‡3121 (0)

Nội dung

xuất hiện trong các đồ thị khác; 2 liệt kê một cách hiệu quả tất cả các đồ thị conphổ biến: vì số lượng các đồ thị con sẽ tăng lên theo kích thước của chính nó và kích thước của đồ thị,

Cơ sở lý thuyết về khai thác đồ thị con trên đồ thị có trọng số

Các định nghĩa về đồ thị có trọng SỐ TT E111 111111111111171115111 11111 ceE 28 1.3.2 Phát biểu Dai toán - -2¿22 <+St2E2E2E1E212112112117171121121111711 21111 cre 30 1.3.3 Cơ sở lý thuyết và mô hình bài toán khai thác đồ thị có trọng số

Hướng tới việc đề xuất và giải quyết van đề trọng số trong khai thác đồ thị con phô biến, luận án đề xuất các định nghĩa liên quan đến cách thức biểu diễn trọng số trong đồ thị, bao gồm: trọng số của đỉnh trong đồ thị, đồ thị có trọng số, đồ thị con có trọng sô và đô thị con phô biên có trọng sô.

Hình 1.1 mô tả một vi dụ cho bài toán khai thác đồ thị con phô biến trên một đồ thị lớn có trọng số trong thực tế Cụ thé, vi dụ này khảo sat dir liệu các bài báo được công bồ trên các tạp chí khoa học quốc tế Mỗi bài báo đều có một chỉ số trích dẫn (citation index) và thuộc về một chủ đề: DM (Data Mining), AI (Artificial

Trong mô hình đồ thị G, đỉnh đại diện cho bài báo khoa học, nhãn đỉnh thể hiện chủ đề bài báo và trọng số đỉnh tương ứng với chỉ số trích dẫn của bài báo Cạnh trong đồ thị thể hiện mối quan hệ giữa các bài báo, có nhãn cạnh tương ứng Bài toán tìm nhóm chủ đề liên quan chặt chẽ trong các công bố quốc tế với ngưỡng chỉ số trích dẫn cho trước tương đương với việc tìm kiếm các đồ thị con không trọng số S trong đồ thị lớn G thỏa mãn ngưỡng trọng số.

Trọng số của một đỉnh uj trong đồ thị, ký hiệu W(u;), là một số thực có giá trị không âm Trọng số là đại lượng cho biết độ tin cậy, tầm quan trọng của các đỉnh trên đồ thị, phục vụ cho việc so sánh, tính toán hay nghiên cứu.

Ví dụ 1.1: Khao sát Hình 1.1, đỉnh uo trong đồ thị G (nhãn của uo là “DM”) có trọng số là W(uo) = 5; đỉnh wy trong đồ thị G (nhãn của u; là “AT”) có trọng số là

W(u›) = 3. Định nghĩa 1.13 (Do thi có trọng so) [CTI]

Một đồ thị có trọng số được biểu dién như sau G = (V, E, LW), trong đó gồm CÓ:

— V: là một tập các đỉnh của đồ thị

— Eœ€ V xYV: là một tập các cạnh của đồ thị

— L: hàm dùng dé gan nhãn cho tat cả các đỉnh và cạnh trong đồ thị

— W: hàm dùng dé an định trong số cho tat cả các đỉnh trong G. Định nghĩa 1.14 (Dé thi con co trong số) [CT1]

Cho trước 2 đồ thị có trọng số: $ = (Vs, Es, Ls, Ws) và G = (V, E, L, W) Đồ thị

S được gọi là đồ thị con có trọng số của đồ thị lớn G nếu tồn tại một đăng cấu của $ trong G là một hàm ƒ: Vs — V thỏa mãn điều kiện: thỏa điều kiện sau:

— Vy€Vs: Vs CV, Es © E, Ls(v) = L(v) và Ws(v) = W0).

— V(u,v) € Es: (f(u), flv) € E và Ls(u, v) = L(ƒ(u), fv).

Dinh nghia 1.15 (Đồ thị con có trọng số phổ biến) [CTI]

Đồ thị S được coi là đồ thị con phổ biến trong đồ thị G nếu nó đáp ứng các yêu cầu: S là một tập con của G; mọi đỉnh trong S đều tồn tại trong G; mọi cạnh trong S đều tồn tại trong G; trọng số của mọi cạnh trong S nhỏ hơn hoặc bằng ngưỡng trọng số w; và tần suất xuất hiện của mỗi đỉnh trong S lớn hơn hoặc bằng ngưỡng min-sup.

Cho đồ thị có trọng số Œ = (V, E, L,W), gom co:

— V: là một tập các đỉnh của đồ thị

— ECV xYV: là một tập các cạnh của đồ thị

—L: hàm gan nhãn cho tất cả các đỉnh và cạnh trong đồ thị

—_ W: hàm gan trọng số cho tat cả các đỉnh trong G, W(v;) là biéu thị cho trọng số của mỗi đỉnh v;

Bài toán khai thác đồ thị con có trọng sé phô biến trên đồ thị có trọng số là bài toán đi tim tat cả các đồ thị con có trọng số phổ biến S trong đồ thị G sao cho S thỏa đồng thời ngưỡng min-sup và ngưỡng w.

1.3.3 Cơ sở lý thuyết và mô hình bài toán khai thác đồ thị có trọng số

Các định nghĩa về khai thác đồ thị có trọng số

Luận án kế thừa từ thuật toán GraMi [6] nhằm tận dụng lại các cơ sở lý thuyết được sử dụng dé biểu diễn đồ thi Do đó, luận án sử dụng lại các định nghĩa đã được công bồ trong [6] về miền giá trị của đỉnh trong đồ thị, phép gán hợp lệ của một đỉnh trong đô thị, mô hình CSP biểu diễn dữ liệu đồ thị, Độ hỗ trợ tối thiểu dựa trên hình ảnh MNI.

30 Định nghĩa 1.16 (Miễn giá trị của đỉnh trong đồ thị) [6]

Mỗi đỉnh y € Vs có một miền riêng D chứa tất cả các đỉnh u có cùng nhãn đỉnh, và vì vậy có thé được gan cho v Các miền D cho tat cả các đỉnh v trong một đồ thi con được dùng dé đánh dau và đếm tần suất xuất hiện của đỉnh v tương ứng trong đồ thị G, ký hiệu là D(v).

Vi dụ 1.2: Khảo sát Hình 1.1, với đỉnh u; trong đồ thị S (nhãn của v¡ là “DM”) cú miền giỏ trị là D(v1) = {uo, M4, Mứ, usr, M13},

Nhận xét: Xét ví dụ trong Hình J.] và các ví dụ sau, luận án sử dụng các đỉnh u; dé định danh các đỉnh trên đồ thị G và v; là định danh của các đỉnh trên đồ thị con

S. Định nghĩa 1.17 (Phép gan hợp lệ của một đỉnh trong đồ thi) [6]

Cho hai đồ thị S = (Vs, Es, Ls) và G = (V, E, L), v€ Vs ,u€ V.

Một phép gan một đỉnh (trong đồ thị G) cho biến v là hợp lệ nếu và chỉ nếu:

— Tén tại một đăng cấu I trong đó: đỉnh w có thé gan với đỉnh v.

— Mỗi một phép gán hợp lệ tương ứng với một đăng cấu.

Ví dụ 1.3: Khảo sát Hình 1.1, đồ thị S có 3 đỉnh vị, v2, v3 với các phép gan hợp lệ tương ứng với các đẳng cấu trong đồ thị G được liệt kê như sau:

Bảng 1.1.Các phép gan hợp lệ của các đỉnh trong do thị S Đồ thị S V, V„ V, Đăng cầu L Uy u, u, Dang cau L u, u, u, Dang cau I, uw, Uy uy Dang cau I, U3 u, u, Dang cau I, U3 u, U4

Căn cứ vào các đăng câu bên trên, miên giá tri hợp lệ của của các biên v¡, v2, y3 trong đồ thi con S được mô tả như sau:

Biến và miền giá trị

Hình 1.2 Miễn giá trị hợp lệ của các đỉnh trong S dựa trên phép gan hợp lệ Định nghĩa 1.18 (M6 hình CSP - Constraint Satisfaction Problem) [6]

Mô hình CSP được biéu diễn như là một bộ (X, D, C) trong đó:

(1) X - là một tập các biến được sắp xếp, (2) D - là một tập các miền tương ứng với các biến x, EX,

(3) C - là một tập hợp các ràng buộc sau:

(c) L(x, xv’) = Ls(v, v’), Wxv, Xv € X sao cho (9, v’) € Es,

Một CSP (tương đương một đăng cấu) là một phép gan cho các biến trong X, sao cho tat cả các ràng buộc trong C đêu được thỏa mãn.

Ví dụ 1.4: Khảo sát Hình 1.1, đồ thị con S trong đồ thị G, mô hình CSP được biểu diễn như sau: Í(Vi.va,V3), [{Mo, ,M14}, (Mo, ,M14},(Mo, ,14}}

(vì va #93, L(vi)=DM, L(v2)=Al, L(v3)=IS, L(v1,v2)=h, L(v2,v3)=c}}

32 Định nghĩa 1.19 (Đó hỗ trợ tối thiểu dựa trên hình ảnh MNI - Minimum Image Based

Cho trước 2 đồ thi: S = (Vs, Es, Ls), G = (V, E, L).

Dat fi, , fm la tập các đăng cau của đồ thị con S trong đồ thị G. Đặt F(v) ={ fi(v), , fn(v)} : là tập chứa các đỉnh trong đồ thị G mà các hàm fi, fn ánh xạ đến các đỉnh v trong đồ thị con S. Độ hỗ trợ tối thiểu dựa trên hình ảnh MNI của đồ thị con Š trong đồ thị G, ký hiệu là sc(S) được định nghĩa như sau:

Thuật toán GraMi [6] giải quyết mô hình CSP băng cách tìm các đăng cấu cho đến khi tìm được MNI của S trong G đủ dé đánh giá S là đồ thị con phổ biến Tuy nhiên, khi áp dụng MNI để tính toán trên đồ thị con có trọng số thì không phù hợp.

Do đó, luận án đã đề xuất tính Độ hỗ trợ đầy đủ của đồ thị con có trọng số thay cho MNI Định nghĩa Độ hỗ trợ đầy đủ của đồ thị con có trọng số được xây dựng trong công trình nghiên cứu [CT1].

Cho trước 2 đồ thị có trọng số: Š = (Vs, Es, Ls, Ws) và G = (V, E, L, W).

Kết chương -¿- 5c St221 E21 1EE151111211111211 21.1111 11111111111 111111 xe 34 CHƯƠNG 2 PHƯƠNG PHAP KHAI THÁC DO THỊ CON TREN ĐỎ THỊ CÓ

Mô tả thuật toán WeGraMi - << 5+ 133222111199 21 11199 vn vn ngư 42 2.1.6 Độ phức tap của thuật toán WeGralMI - -c S cs St sisirrerrrirrrrrree 46 2.1.7 Cơ sở dt liệu và môi trường thực nghiỆm - 5555525 S + ++sesseess 48 2.1.8 Kết quả thực nghiệm . ¿- cSESE+SE+EE2EE2EEEEEEEEEEEEEEEE1121121E11 11111 xe 50 2.2 Thuật toán OWGraMII .- - - G 1 111 2111101111100 111g 111g KH kg kết 56 2.2.1 Tia danh sách cạnh phổ biến 2-2 2 2 E+EE+EE+2EE2EE£EEtEEZEEzEErrkrrrerer 56 2.2.2 Xác định trọng số các đồ thị con dua trên trọng số của đồ thị cha

Thuật toán WeGraMi lợi dụng chiến lược MaxMin nhằm tính được trọng số của từng đồ thị con Về bản chất, WeGraMi kế thừa từ thuật toán GraMi, do đó thuật toán

WeGraMi sử dụng lại toàn bộ thuật toán GraMI, bên trong có sử dung hàm đệ quy

SubgraphExtension Tuy nhiên, luận án đã thêm một tham số w (ngưỡng trọng số) dé cải tiến hàm SubgraphExtension này.

Input: Đồ thị G, ngưỡng ƒ, ngưỡng trọng số w

Output: Tập hợp các đồ thị con phổ biến thoả ngưỡng trọng số S của G

2 Đặt fEdges là tập hợp các cạnh phô biến của G

Cụ thê hơn, luận án xem xét thuật toán SubgraphExtension cải tiến sử dụng hàm ComputeFullSupport và thêm một ràng buộc đó là trọng số của đồ thị con ứng viên phải lớn hơn hoặc bằng ngưỡng trọng số w cho trước.

Input: Đồ thi con S của đồ thi G, ngưỡng ƒ, ngưỡng trọng số w, tập hợp các cạnh phô biến fEdges của đồ thị G

Output: Tập đồ thị con phố biến thoả ngưỡng trọng số của G được mở rộng từ Š

1 result — Š, candidateSet — ỉ foreach cạnh e trong fEdges và đỉnh u cua S do if e có thé duoc sử dung dé mở rong u then

Dat ext là mở rộng của Š với e if ext chưa được phát sinh then candidateSet — candidateSet U ext foreach S € candidateSet do

YD CC: + W WV if ComputeFullSupport(S,G,f) >ƒ và ComputeWeight(S,G,w) > w then

Thuật toán WeGraMi [CT1], bao gồm hai bước chủ yếu như sau:

Bước 1: Cắt tỉa các đỉnh, cạnh không phổ biến:

Với ngưỡng phổ biến ƒ, thuật toán tiến hành cắt tia các đỉnh, cạnh không phô biến nếu không thỏa ngưỡng ƒ.

Bước 2: Phát sinh các đồ thị con, sử dụng hàm Max tính trọng số các đỉnh, ham Min dé tính trọng số của đồ thị con; nếu đồ thị con vừa phát sinh không thỏa ngưỡng trọng số w thì sẽ bị cắt tỉa.

Ví dụ 2.5: Áp dụng thuật toán WeGraMi Với đồ thị G trong Hình 2.4, danh sách cạnh phổ biến: fEdges = {DM-Š-AI, AI-3-1S, IS-“WA}

Cho trước ngưỡng phô biến f= 2, ngưỡng trọng số w=4.

Trọng số của đồ thị con Sp ban đầu là 8 Tuy nhiên, khi thêm đỉnh mới v3 vào để tạo thành đồ thị con S7, trọng số W(S7) không thể nhỏ hơn cả W(Sp) và W(v3), dẫn đến nhiệm vụ tìm cực tiểu của trọng số trở nên phức tạp hơn.

Vì khi xét Š;, các đỉnh uz, us, u;: đã bị cat tỉa do không có dang cau tương ứng trên đồ thị lớn G, nên làm thay đổi trọng số của hai đỉnh W(v;) và W(12).

Do đó, khi tính trong số cho một đồ thi con, thuật toán WeGraMi phải tính lại trọng số của tất cả các đỉnh tham gia vào đồ thị con đó; vì các đỉnh v; với trọng số wi của đồ thị con cấp cha có thể không còn tôn tại trong đồ thị con cấp con.

Cũng trong Hình 2.4, đồ thị con S2 có độ hỗ trợ ##o(S2) = 2 (thỏa mãn ngưỡng phô biến f= 2) vậy S2 là một đồ thị con phổ biến Thuật toán GraMi sẽ phát sinh thêm các đồ thị con ứng viên là đồ thị con cấp con của đồ thị S›; tiếp tục xét các đồ thị con ứng viên vừa được phát sinh này có phổ biến hay không; néu có đồ thị con phố biến thì quá trình phát sinh và đánh giá được lặp lại Điều này dẫn đến GraMi có số lượng đồ thị con ứng viên rất lớn Ngược lại, WeGraMi cắt tỉa 52 vi trọng số của S2 là W(S2) = 3 không thỏa ngưỡng trong số w = 4 và không phát sinh thêm đồ thị con ứng viên; quá trình phát sinh và đánh giá cũng không được lặp lại Đây chính là ưu điểm của việc sử dụng chiến lược MaxMin dé cắt tia không gian tìm kiếm khi tinh trọng

SỐ, thay vì phát sinh tất cả các đồ thị con có thé rồi tìm các đồ thị con phổ biến trước, tính trọng số đề tìm đồ thị con thỏa trọng số sau Đó cũng chính là thế mạnh của thuật toán WeGraMi khi so sánh với thuật toán GraMi gốc.

Biến và miền giá trị Trọng số đỉnh

Trọng số của dé thị con Sp

So thoả ngưỡng trọng số w

Biến và miền giá trị vị;8 Vạ; 7 | v3.9 es ul: u;:2

Biến và miền giá trị VỊ; 8 | V2 7 V3: 3 V4: 6

—>< 2 Phép gan không hợp lệ của S2

Hình 2.4 Các đô thị con duoc phát sinh từ cạnh DM-AI

2.1.6 Độ phức tạp của thuật toán WeGraMi

Gọi N và n lần lượt là số đỉnh của đồ thị G và đồ thị con S Thuật toán WeGraMi kế thừa từ thuật toán GraMi [6] Do đó, độ phức tạp của quy trình tong quát của quá trình khai thác là thời gian O( thước của đồ thị [6].

2N, N") theo cấp số nhân đối với kích

Trong thuật toán WeGraMi, luận án tập trung tinh chỉnh thuật toán SubgraphExtension, áp dụng chiến lược MaxMin để tính trọng số của đồ thị con Mục đích là tỉa sớm các đồ thị không thỏa mãn ngưỡng phổ biến f và ngưỡng trong số w Thuật toán SubgraphExtension này tương đồng với thuật toán trong bài báo "Mining Large Frequent Subgraph in Large Graph" của Mozes et al.

46 toán GraMi [6] Các thuật toán khai thác đồ thị gồm 2 bước chính: (1) Phát sinh đồ thị con và (2) Đánh giá đồ thị con vừa phát sinh Từ dòng số 2 đến dòng số 5 là quá trình phát sinh, từ dòng số 6 tới dòng số 8 là quá trình đánh giá Trong đó, luận án sử dụng chiến lược MaxMin tại dong số 7 dé tia bớt không gian tìm kiếm của thuật toán gốc Đối với thuật toán GraMi nguyên bản thi đồ thị con S có độ hỗ trợ (support) lớn hơn hoặc bằng ngưỡng ƒ (S là đồ thị con phổ biến) thì quá trình sẽ tiếp tục phát sinh và đánh giá các đồ thị con của đồ thị của nó Đối với thuật toán WeGraMi, đồ thị con ứng viên phải thỏa mãn đồng thời ngưỡng ƒ và ngưỡng w (Dòng 7) thì quá trình phát sinh và đánh giá mới được tiếp tục một cách đệ quy.

Phân tích độ phức tạp của thuật toán IsFrequent trong GraMi [6] dé tính độ hỗ trợ nhằm xác định đồ thị con là pho biến Gọi N va n lần lượt là số đỉnh trong G và S, ngưỡng phổ biến là f, p là các xác suất mà một đỉnh eŒ trong miễn giá trị của một đỉnh veS được đánh dau là “valid” là tương ứng trong thuật toán GraMi gốc và thuật toán WeGraMi. Đối với thuật toán GraMi, độ phức tạp của quá trình đánh giá độ hỗ trợ của S trong G là O(n flp N”? [6] Sau khi tìm được tất cả các đồ thị con thỏa ngưỡng phd biến thì chương trình mới tiễn hành lọc các đồ thị con thỏa mãn ngưỡng trọng số.

Trong chiến lược MaxMin, S phải thỏa mãn thêm ngưỡng trong số w, gọi pw là xác suất một đỉnh weG trong miền gia tri của một đỉnh ve S được có trọng số lớn hơn hoặc bằng w (dé giúp đỉnh v thỏa ngưỡng w với phép toán Max) và thuật toán cũng chỉ cần tìm 1 đỉnh trong miền giá trị của v thỏa ngưỡng trọng số w là đủ dé xác định đỉnh v này cũng thoả ngưỡng w.

Như vậy quá trình đánh giá độ hỗ trợ và trọng số của S trong G đối với thuật toán WeGraMi sẽ là O(n flp N“T pw), với xác xuất py < 1, độ phức tap của WeGraMi luôn nhỏ hơn hoặc bằng độ phức tạp của GraMi.

2.1.7 Cơ sở dữ liệu và môi trường thực nghiệm

Tất cả các thực nghiệm mà luận án thực hiện trên ba thuật toán WeGraMI [CT1], OWGraMI [CT2], AWeGraMI [CT3] đều sử dụng môi trường Java SE

Development Kit 8 trên Windows 10, may core I5 3.2GHz, RAM 4GB.

Ba bộ dữ liệu đã được luận án sử dung trong thực nghiệm:

- MiCo: Bộ dữ liệu lưu trữ thông tin đồng tác giả của Microsoft, đó là một đồ thị vô hướng với 100.000 đỉnh và hơn 1 triệu cạnh Các đỉnh đại diện cho các tác giả và được gán nhãn với lĩnh vực quan tâm của tác giả Các cạnh biểu diễn sự hợp tác giữa hai tác giả và được gán nhãn với số lượng bài báo đồng tác giả Luận án sử dụng bộ đữ liệu MiCo do Elseidy [6] cung cấp.

- Facebook: Bộ dit liệu được cung cấp tại: http://snap.stanford.edu/data/ Bộ dữ liệu này bao gồm 40.389 đỉnh, 88.235 cạnh, đó là các ‘circles’ (hoặc

Cơ sở lý thuyết về chiến lược AveMin trong thuật toán AWeGraMi

Số trung bình thường được dùng để biéu thị các dau hiệu, đặc biệt khi so sánh các dấu hiệu cùng loại Mức trung bình cũng làm cho việc đánh giá dữ liệu một cách tong quát dé dàng hơn Trong một số trường hợp, khi can chọn một giá trị dé so sánh trọng SỐ giữa hai đồ thị con, độ đo trung bình có nhiều hệ số phù hợp có thể sử dụng. Đối với hướng tiếp cận này, luận án sử dụng độ đo trung bình dé tính trọng số của đồ thị con (gọi là chiến lược AveMin) Tuy nhiên độ đo này không thỏa mãn tính chất DCP, vì vậy luận án sử dụng thêm giới hạn chặn trên (upper-bound) nhằm đảm bảo tinh chất DCP và cắt tia bớt không gian tìm kiếm của thuật toán Thuật toán AWeGraMi [CT3] sử dụng một độ đo hoàn toàn khác so với hướng tiếp cận của hai thuật toán WeGraMi [CT1] và OWGraMi [CT2], có kết quả khác và phục vụ các mục đích (nghiên cứu hoặc ứng dụng) khác nhau như đã trình bay trong mục ở 7. Định nghĩa 3.1 (Trong số của một đỉnh trong chiến lược AveMin) [CT3]

Trọng số của một đỉnh ve Vs , ky hiệu là Wa(v), là giá trị trung bình của trọng số của tat cả các đỉnh trong miền D tương ứng (các đỉnh này là các phép gan hợp lệ vì các phép gán không hợp lệ đã bị loại bỏ) Trọng số của một đỉnh trong chiến lược AveMin được tính theo công thức sau: ¡=i W(Mi) n

Wa(v) = , Vụ¡ € D. Định nghĩa 3.2 (Trong số của một đô thị trong chiến lược AveMin) [CT3] Đồ thị con S có trọng SỐ, ký hiệu là Wam(S), được xác định là giá trị nhỏ nhất của tất cả các trọng số của các đỉnh W(v;), trong đó vie S Trọng số của một đồ thị trong chiến lược AveMin được tính theo công thức sau:

Wam(S) = Min{Wa(vi)}, Vvị € S. Định nghĩa 3.3 (Do thi con phổ biến thỏa ngưỡng trong so) [CT3]

Một đồ thị con phổ biến S là một đồ thị con phô biến thỏa ngưỡng trọng số nếu: Waw(S) > w , trong đó w là một ngưỡng trọng số cho trước.

Ví dụ 3.1: Với dir liệu từ Hình 1.1, giả sử ngưỡng trọng số là w = 3, đồ thị con truy van $; (Hình 3.1) là một đồ thị con thỏa ngưỡng trong số vì

Biến và miền giá trị

Wwu(Su) = 7 Wam(So) = 4.67 w2 wed a 40:6

Biến va miền giá tri c

>< Phép gan không họp lệ cua S

Hình 3.2 Một vi dụ tinh trọng số do thị con theo chiến lược MaxMin và AveMin

Vi dụ 3.2: Xét đồ thị con Š trong đồ thị G (Hình 1.1), đồ thị S có trọng số theo chiến lược MaxMin và chiến lược AveMin lần lượt là Wua(S) = 7 và Wam(S) = 7

Bang 3.1 Tính trọng số đô thị con phổ biến S theo chiến lược MaxMin và AveMin

Tinh trọng số cho các đỉnh Vv € S

Ww(vi) = Max { 5, 3, 7, 8} = 8 WA (vị) = Average {5, 3, 7, 8} = 5.75

Tinh trọng sô cho các dé thị con phô biến Š

Wwum (S) = Min{Wu (v1), Ww(v2), Wau (v3 )} Wam (S) = Min{Wa(v1 ), Wa(v2 ), Wa(vs )}

Tuy nhiên, chiến lược AveMin không thỏa mãn tính chất DCP, điển hình trong Hình 3.3: S; được tạo từ Sơnhưng Wau (Si) > Waw (So) Do đặc điểm này, luận án không thể sử dụng phương pháp cắt bớt không gian tìm kiếm thông qua chiến lược AveMin.

Thuật toán AWeralMII - - 2111011199230 1 11H 11g kg kg 76 1 Sử dụng chiến lược AveMin dé tinh trong số cho các dé thị con pho biến

Giới hạn chặn trên dựa vào Chiến lược MaxMin . - - =2 s+szsexszx2 78 3.3.3 Mô tả thuật toán AWeGralMI - - ác St kS HT TH HH HH HH Hệ, 80 3.3.4 Độ phức tạp của thuật toán AWeraMI Ă cty 82 3.3.5 Cơ so đữ liệu và môi trường thực nghiỆm + + + ++++++serseerees 82 3.3.6 Kết quả thực nghiệm 2-2: 5£ £+SE+EE‡EESEEE2EEEE1711211211271712211 211 E1, 84 3.4 KẾt chương :- s- s2 212121 2171211121121121121111111111011 1111111111 1e 87 951019)/°E0.930007 900010107

Độ đo trung bình không thỏa mãn tính chat DCP, do đó ngay cả khi đồ thị con phé biến S; không thé thỏa mãn ngưỡng trọng số w, thì đồ thi con phổ biến S được mở rộng từ Sy vẫn có thé đạt đến ngưỡng trọng số (Hình 3.3) Không thé loại bỏ các ứng viên sớm dựa trên độ do AveMin có nghĩa là không gian tìm kiếm của thuật toán sẽ cực kỳ lớn Để giải quyết vấn đề này, luận án đề xuất sử dụng phương pháp MaxMin làm giới hạn chặn trên của phương pháp AveMin nhằm loại bỏ sớm các đồ thị con không thoả ngưỡng trọng số.

Vị V2 tutị:3 ua:2 ua:4 uạ:l

Www(So) = 5 LWad5)% | 2.5 usd us:6 uị;:Š mu:

Wwm(S+) = 4 (> Wam(S:)=3 || DB | số | u64 ua:Š u¡:l

Hình 3.3 Một vi dụ về chiến lược MaxMin và AveMin Định ly 3.1: Cho S; là đồ thị con phổ biến và S là đồ thị con mở rộng sinh từ

% Gọi Www(S) là trọng số của đô thị con S sử dụng phép đo MaxMin , và WAw(S) là trọng số của đồ thị con S sử dụng phép đo AveMin

Ta có : (1) Www( Sp) = Www(S‹), VSÂD Se ô (2) Wuw( Sp) = Wav(Sy) VWSp-

Cần chứng minh hai điều kiện (1) và (2) nêu trên: Điều kiện (1) đã được chứng minh hướng tiếp cận (1) ở phần trên, trọng số của tất cả các trọng số con trong đồ thị con S được mở rộng từ đồ thị con Sp nhỏ hơn hoặc bằng trọng số của đồ thị con của chúng theo độ đo MaxMin Do đó, chi cần chứng minh (2).

Miền D của đỉnh y e S Cể ủ! phần ti HỊ, U2, , Un. Đặt W(umax) là giá tri lớn nhất trong D và W(uaverage) là giá trị trung bình trong D

Mặt khác, W(umax ) là giá tri trọng số lớn nhất trong D, do đó

SW (Umax) +-.-+W(uyax) 2 Wu) + -+ W(uạ) ©n.W(uwax) = W(u¡) + W(u;) + +W (uy).

Nêu nhân các mệnh dé này với -, ta có n n.W (Umax).W G1) + W(u;¿) + +W(un)

W (umax) > W (uaverage) © Điều kiện (2) được chứng minh.

Ww(%r) = Wuw(Se) = Wam (Se)

Do đó, trọng số của đồ thị con phô biến S; được tính bằng độ đo MaxMin luôn lớn hơn hoặc bằng trọng số của tất cả các đồ thị con mở rộng $ được tinh băng

79 độ đo AveMin Nếu đồ thị con cấp cha $% có trọng sé (dugc tinh bang độ đo MaxMin) không thé đạt đến ngưỡng trọng số w , thì có thé lược bỏ tat cả các đồ con ứng viên mở rộng S nhưng dam bao số lượng tất ca các đồ thị con có trọng số được khai thác trong kết quả đầu ra.

Ví dụ 3.3 minh họa khi ngưỡng trọng số w = 5, quá trình khai thác không cần tìm kiếm các ứng viên cho đồ thị con S' vì với cận trên Wu (S') < w thì mọi đồ thị con ứng viên S' được sinh từ S đều sẽ là đồ thị con không trọng số.

Thuật toán AWeGraMi áp dụng hai kỹ thuật chính để tối ưu hóa tìm kiếm đồ thị con: độ đo trung bình AveMin để xác định trọng số của đồ thị con và kỹ thuật giới hạn chặn trên với chiến lược MaxMin để đảm bảo tính chất DCP (đường đi che phủ) khi cắt tỉa không gian tìm kiếm Những kỹ thuật này giúp thuật toán tìm ra các đồ thị con tối ưu thỏa mãn yêu cầu về trọng số và tính bao phủ.

Input: Đồ thị con phố biến S , đồ thị G, ngưỡng trọng số w

Output: Trọng số của Š được tính dựa theo độ đo AveMin trong trường hợp trọng số này được tinh theo độ đo MaxMin thoả w, ngược lại là 0

3 foreach đỉnh v trong miền giá tri D của đồ thị S do

7 foreach uw trong miền giá trị của đỉnh v do //u là phép gan hợp lệ

12 if MM < w then return 0 //trong số (tính theo độ đo MaxMin) của một đỉnh không thoả w

Input: đồ thị G, ngưỡng ƒ, ngưỡng trong số w

Output: Tập hợp tat cả các đồ thị con phổ biến S thoả ngưỡng trọng số

2 fEdges = { e € G| sG(e) > f và WMM(e) > w} // danh sách cạnh phô biến

Input: Đồ thị con S, đồ thị G, ngưỡng f, ngưỡng trong số w, tập hợp tat cả các cạnh phổ biến fEdges

Output: Tập hợp các đồ thị con phô biến thoả ngưỡng trong số được mở rộng từ Š

1 if AveMin(S, G, w) > w then // trong số được tinh theo AveMin của S > w rerus

Candidates — © foreach e € fEdges & dinh u € S do nA FB W N if S có thé được mở rộng bang cách thêm e vào wu then

6 Đặt exCan là ứng viên được mở rộng của S bằng cách thêm e

7 if exCan chưa có sẵn then

10 if FullSupport(C, G, f) > 0 then //C là phô biến

12 ExtendSubgraph(C, G, ƒ w, fEdges) //goi đệ quy

3.3.4 Độ phức tạp của thuật toán AWeGraMi Đối với thuật toán AWeGraMi [CT3], luận án cũng sử dụng hàm đệ quy ExtendSubgraphQ đề phát sinh và đánh giá các đồ thị con có phải là đồ thị con thỏa ngưỡng trọng số hay không.

Hàm đệ quy ExtendSubgraphQ cũng bao gồm hai giai đoạn: (1) Phát sinh đồ thị con (dong 4 tới dòng 8) và (2) Đánh giá đồ thi con (dong 9 tới dong 12) Trong quá trình đánh giá, luận án sử dụng hàm AveMinQ dé tinh trọng số của các đồ thị con, quá trình tính trọng số này được sử dụng bởi cả hai thuật toán GraMi gốc [6] và AWeGraMi [CT3] nên chi phí là như nhau đối với hai thuật toán.

Tuy nhiên, với thuật toán AWeGraMI, luận án có sử dụng chiến lược MaxMin (giống như thuật toán WeGraMi [CT1]) làm upper-bound dé cắt tia không gian tìm kiếm và giảm độ phức tạp của thuật toán Như vậy thuật toán AWeGraMi có độ phức tap bằng với thuật toán WeGraMi (do cùng sử dụng chiến lược MaxMin) và độ phức tạp này nhỏ hơn của thuật toán GraMI (như đã phân tích ở trên).

3.3.5 Cơ sở dữ liệu và môi trường thực nghiệm

Luận án dựa trên bộ dữ liệu và môi trường thực nghiệm đã mô tả ở mục 2.1.7 để tiến hành kiểm thử và đánh giá thuật toán AWeGraMi.

82 Đề đánh giá thuật toán AWeGraMi, luận án ghi lại và so sánh hiệu suất của thuật toán mới AWeGraMi với Post-GraMI Vì WeGraMi [CT1] và OWGraMI [CT2] dụng một độ đo MaxMin va kết quả của nó khác với AWeGraMi [CT3] (áp dụng độ đo AveMin), nên luận án không so sánh AWeGraMi với hai thuật toán này.

Hai bộ dữ liệu Facebook và CiteSeer đã thử nghiệm với WeGraMI cũng được đưa vào thử nghiệm trong phần này Luận án lay kết quả xử lý hậu kỳ GraMi (trước tiên tìm tất cả các đồ thị con phô biến, sau đó tính trọng số và lọc tất cả các đồ thị con có trọng sô).

Hinh 3.4 Ty lé trong số trong hai bộ dit liệu (Facebook và CiteSeer)

Bộ dữ liệu gốc của luận án chưa có trọng SỐ, vi vậy luận án thêm trọng số cho từng đỉnh với giá trị từ 1 đến 10 Luận án chon mức trung bình (w = 5) dé minh hoa sự đóng góp của giới han chặn trên cho độ đo trung bình Ty lệ trọng số cho hai bộ dữ liệu được mô tả trong Hình 3.4.

Phân phối rời rac được sử dụng dé phát sinh trọng số đỉnh của đồ thị trong các bộ dữ liệu thực nghiệm với thuật toán AWeGraMi được mô tả như sau:

Gọi X là trọng số đỉnh của đồ thị, X là một biến ngẫu nhiên rời rạc, ta đặt:

Do hướng tiếp cận AveMin là một hướng mới nên chưa có công trình nào tương đương dé so sánh (trong khi hướng tiếp cận của thuật toán WeGraMi [CT1] và OWGraMi [CT2] sử dụng độ đo khác, nên không có sự tương đồng để so sánh), luận án chỉ có thể so sánh AWeGraMi (tính toán trọng số theo phương pháp AveMin mới, sử dụng giới hạn chặn trên dé lược bỏ các đồ thị con không thoả trọng số) với thuật toán gốc GraMi [6] (tính trọng số theo phương pháp AveMin rồi lọc tất cả các đồ thị con có trọng số theo ngưỡng trọng số) Mặc dù AveMin không thỏa mãn tính chat DCP, việc bổ sung chiến lược sử dụng giới hạn giới hạn chặn trên giúp thuật toán vẫn thỏa mãn tính chat DCP và làm giảm đáng ké số lượng đồ thị con ứng viên không cần thiết phải phát sinh.

Hạn chế -:-55++t222+vt22211122211127111127.1112.T.1 TT

Các chiên lược khai thác do luận an dé xuât van còn đôi mặt với thách thức về sô lượng ứng viên cân phải kiêm tra rât lớn dẫn đên tôn thời gian và bộ nhớ tạm trong quá trình khai thác Ngoài ra, trong phạm vi của luận án, nghiên cứu này cũng mới dừng lại ở trọng số đỉnh, chưa quan tâm đến trọng số cạnh của đồ thị.

Các hướng phát triển tiếp theo trên cơ sở các nghiên cứu đã được công bố của luận án bao gồm:

- Phat triển các phương pháp khai thác đồ thị con có trọng số phé biến bằng cách sử dụng các phương pháp tiếp cận khác cũng như nghiên cứu sử dụng các độ đo khác dé tính trọng số của đồ thị con sao cho đảm bảo tính chất DCP nhằm phục vụ cho mục tiêu cắt tỉa sớm không gian tìm kiếm khi khai thác đồ thị con phô biến.

Mở rộng đối tượng nghiên cứu trọng số của đồ thị sang trọng số trên cạnh, kết hợp giữa trọng số cạnh và đỉnh hoặc phát triển mô hình đồ thị đa trọng số để phục vụ cho mô phỏng việc thể hiện các dữ liệu trọng số đa dạng trong thực tiễn, đáp ứng nhu cầu phân tích chuyên sâu và đưa ra các quyết định sáng suốt hơn.

- _ Hướng đến phát triển các phiên bản song song của các thuật toán đã được luận án đề xuất, sử dụng các hệ thống tính toán hiệu năng cao dé triển khai trên môi trường phân tán [1, 32, 43], nhằm áp dụng hiệu quả cho việc khai thác dữ liệu lớn.

CONG TRÌNH CUA TÁC GIÁ

[CT1] Le, N T., Vo, B., Nguyen, L B., Fujita, H., & Le, B (2020) Mining weighted subgraphs in a single large graph Information Sciences, 514, 149-165.

[CT2] Le, N T., Vo, B., Nguyen, L.B., Le, B (2022) OWGraMi: Efficient Method for Mining Weighted Subgraphs in a Single Graph Expert Systems with Applications 204 117625 (SCIE, Q1, IF 8.665).

[CT3] Le, N T., Le, B., Yun U., Vo, B (2023) A novel approach to discover frequent weighted subgraphs using the average measure Applied

Intelligence (SCIE, Q2, IF 5.019) (https://doi.org/10.1007/s10489-023- 04501-y).

[1] E Abdelhamid, I Abdelaziz, P Kalnis, Z Khayyat, F Jamour (2016).

ScaleMine: scalable parallel frequent subgraph mining in a single large graph, in: Interna- tional Conference for High Performance Computing, Networking, Storage and Analysis, pp 716-727.

[2I B Boden, S Giinnemann, H Hoffmann, T Seidl (2012) Mining coherent subgraphs in multi-layer graphs with edge labels, ACM-SIGKDD 12, 1258— 1266.

[3| H Bui, B Vo, H Nguyen, T Nguyen-Hoang, T Hong (2018) A weighted N- list-based method for mining frequent weighted itemsets, Expert Syst Appl 96, 388-405.

[4] C.H Cai, A.W Fu, C.H Cheng, W.W Kwong (1998) Mining association rules with weighted items, IDEAS 98, 68-77.

[5] J.D Costa, F Bernardini, D Artigas, J.V Filho (2019) Mining direct acyclic graphs to find frequent substructures - An experimental analysis on educational data, Inf Sci (Ny) 482, 266-278.

[6] M Elseidy, E Abdelhamid, S Skiadopoulos, P Kalnis (2014) GRAMI: frequent subgraph and pattern mining in a single large graph, PVLDB 14 (7), 517-528.

[7] P Fournier-Viger, Y Zhang, J.C.W Lin, H Fujita, Y.S Koh (2019) Mining local and peak high utility itemsets, Inf Sci (Ny) 481, 344-367.

[8] W Gan, J.C.W Lin, P Fournier- Viger, H.C Chao, H Fujita (2018) Extracting non-redundant correlated purchase behaviors by utility measure, Knowl Based Syst 143, 30-41.

[9] Goswami, S., Murthy, C., & Das, A.K (2018) Sparsity measure of a network graph: Gini index ArXiv, abs/1612.07074.

[10] E Gudes, S.E Shimony, N Vanetik (2006) Discovering frequent graph patterns using disjoint paths, IEEE Trans Knowl Data Eng 18 (11), 1441-1456.

J Huan, W Wang, J Prins (2003) Efficient mining of frequent subgraphs in the presence of isomorphism, ICDM 03, 549-558.

V Ingalalli, D Ienco, P Poncelet (2018) Mining frequent subgraphs in multigraphs, Inf Sci (Ny), 50-66 451-452, 50-66.

A Inokuchi, T Washio, H Motoda (2000) An apriori-based algorithm for mining frequent substructures from graph data, PKDD 00, 13-23.

C Jiang, F Coenen, M Zito, Finding frequent subgraphs in longitudinal social network data using a weighted graph mining approach, ADMA 10 (2010) 405— 416.

C Jiang, F Coenen, M Zito (2010) Frequent sub-graph mining on edge weighted graphs, DaWak 10, 77-88.

R Jin, C.C Wang, D Polshakov, S Parthasarathy, G Agrawal (2005). Discovering frequent topological structures from graph datasets, ACM- SIGKDD 05, 606-611.

M Kuramochi, G Karypis (2001) Frequent subgraph discovery, ICDM 01, 313-320.

M Kuramochi, G Karypis (2002) Discovering frequent geometric subgraphs, ICDM 02, 258-268.

M Kuramochi, G Karypis (2004) GREW - a scalable frequent subgraph discovery algorithm, ICDM 04, 439-442.

R Li, X Wu, H Liu, J Wu, M Yin (2018) An efficient local search for the maximum edge weighted clique problem, IEEE Access 6, 10743-10753.

[21] J.C.W Lin, W Gan, P Fournier- Viger, T.P Hong, H.C Chao (2017) FDHUP: fast algorithm for mining discriminative high utility patterns, Knowl Inf Syst.

[22] L Lin, L Xu, Y Huang, Y Xiang, X He (2019) On exploiting priority relation graph for reliable multi-path communication in mobile social networks, Inf Sci. (Ny) 477, 490-507.

[23] W Liu, L Zhu, L Chu, H Ma (2017) A common subgraph correspondence mining framework for map search services, Multimed Tools Appl 78, 747— 766.

[24] X Lu, K Kuzmin, M Chen, B.K Szymanski (2018) Adaptive modularity maximization via edge weighting scheme, Inf Sci (Ny) 424, 55-68.

[25] S.T Mai, S Amer-Yahia, I Assent, M.S Birk, M.S Dieu, J Jacobsen, J.M.

Kristensen (2018) Scalable interactive dynamic graph clustering on multicore CPUs, IEEE Trans Knowl Data Eng 31 (7), 1239-1252.

[26] S.T Mai, I Assent, J Jacobsen, M.S Dieu (2018) Anytime parallel density- based clustering, Data Min Knowl Discov 32 (4), 1121-1176.

[27] S.T Mai, I Assent, M Storgaard (2016) AnyDBC: an efficient anytime density- based clustering algorithm for very large complex datasets, ACM-SIGKDD 16, 1025-1034.

[28] S.T Mai, X He, J Feng, C Plant, C Bửhm (2015) Anytime density-based clustering of complex data, Knowl Inf Syst 45 (2), 319-355.

[29] S.T Mai, M.S Dieu, I Assent, J Jacobsen, J Kristensen, M Birk (2017).

Scalable and interactive graph clustering algorithm on multicore CPUs, ICDE

[30] D Nguyen, W Luo, T.D Nguyen, S Venkatesh, D Phung (2018) Learning graph representation via frequent subgraphs, SDM 18, 306-314.

[31] H Nguyen, B Vo, M Nguyen, W Pedrycz (2016) An efficient algorithm for mining frequent weighted itemsets using interval word segments, Appl Intell.

[32] L.T Nguyen, P Nguyen, T.D Nguyen, B Vo, P Fournier-Viger, V.S Tseng

(2019) Mining high-utility itemsets in dynamic profit databases, Knowl Based Syst 175, 130-144.

[33] S Nijssen, J.N Kok (2004) A quickstart in frequent structure mining can make a difference, ACM-SIGKDD 04, 647-652.

[34] G Preti, M Lissandrini, D Mottin, Y Velegrakis (2018) Beyond frequencies: graph pattern mining in multi-weighted graphs, EDBT 18, 169-180.

[35] F Qiao, X Zhang, P Li, Z Ding, S Jia, H Wang (2018) A parallel approach for frequent subgraph mining in a single large graph using spark, Appl Sci 8 (2), 230.

[36] M Rysz, M Mirghorbani, P.A Krokhmal, E.L Pasiliao (2014) On risk-averse maximum weighted subgraph problems, J Comb Optim 28 (1),167—185.

[37] L.T Thomas, S.R Valluri, K Karlapalem (2006) MARGIN: maximal frequent subgraph mining, ICDM 06, 1097-1101.

[38] T Tran, B Vo, T.T Le, N.T Nguyen (2017) Text clustering using frequent weighted utility itemsets, Cybern Syst 48 (3), 193-209.

[39] B Vo (2017) An efficient method for mining frequent weighted closed itemsets from weighted item transaction databases, J Inf Sci Eng 33 (2),199—216.

[40] B Vo, F Coenen, H.B Le (2013) A new method for mining frequent weighted itemsets based on WIT-trees, Expert Syst Appl 40 (4), 1256-1264.

[41] B Vo, T.P Hong, B Le (2013) A lattice-based approach for mining most generalization association rules, Knowl Based Syst 45, 20-30.

[42] B Vo, B Le (2011) Interestingness measures for association rules: combination between lattice and hash tables, Expert Syst Appl 38 (9), 11630- 11640.

[43] B Vo, D Nguyen, T.L Nguyen (2015) A parallel algorithm for frequent subgraph mining, Adv Comput Methods Knowl Eng, 163-173.

[44] J Wang, X Ren, S Anirban, X Wu (2019) Correct filtering for subgraph isomorphism search in compressed vertex-labeled graphs, Inf Sci (Ny) 482, 363-373.

[45] Y Wang, J Ramon, T Fannes (2013) An efficiently computable subgraph pattern support measure: counting independent observations, Data Min Knowl. Discov 27 (3), 444-477.

[46] D Wu, J Ren, L Sheng (2018) Uncertain maximal frequent subgraph mining algorithm based on adjacency matrix and weight, Int J Mach Learn. Cybernetics 9 (9), 1445-1455.

[47] X Yan, J Han (2002) gSpan: graph-Based substructure pattern mining, ICDM

[48] J Yang, W Su, S Li, M.M Dalkilic (2012) WIGM: discovery of subgraph patterns in a large weighted graph, SDM 12, 1083-1094.

[49] U Yun (2007) Wis: weighted interesting sequential pattern mining with a similar level of support and/or weight, ETRI J 29 (3), 336-352.

[50] F Zarrinkalam, M Kahani, E Bagheri (2018) Mining user interests over active topics on social networks, Inf Process Manag 54, 339-357.

[51] Cook, D.J., Holder, L.B (1994) Substructure Discovery Using Minimum

Description Length and Background Knowledge, Journal of Artificial Intellligence Research 1, 231-255.

[52] Cook, D.J., Holder, L.B (2000) Graph-based Data Mining, IEEE Intelligent

[53] Borgelt, C., Berthold, M R (2002) Mining molecular fragments: Finding relevant substructures of molecules In IEEE International Conference on Data Mining, pp 51-58.

[54] Flores-Garrido, M., Carrasco-Ochoa, JA., Martinez-Trinidad, J.F (2015).

AGraP: an algorithm for mining frequent patterns in a single graph using inexact matching Knowl Inf Syst 44, 385-406.

[55] N Ketkar, L Holder, J Cook (2005) Subdue: CompressionBased Frequent

Pattern Discovery in Graph Data.

[56] C Chen, X Yan, F Zhu, J Han (2007) gApprox: Mining Frequent Approximate

Patterns from a Massive Network Seventh IEEE International Conference on Data Mining, pp 445-450.

Ngày đăng: 02/10/2024, 00:42

HÌNH ẢNH LIÊN QUAN

Hình 1.1 mô tả một vi dụ cho bài toán khai thác đồ thị con phô biến trên một - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 1.1 mô tả một vi dụ cho bài toán khai thác đồ thị con phô biến trên một (Trang 39)
Ví dụ 1.3: Khảo sát Hình 1.1, đồ thị S có 3 đỉnh vị, v2, v3 với các phép gan hợp - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
d ụ 1.3: Khảo sát Hình 1.1, đồ thị S có 3 đỉnh vị, v2, v3 với các phép gan hợp (Trang 42)
Hình 1.2. Miễn giá trị hợp lệ của các đỉnh trong S dựa trên phép gan hợp lệ - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 1.2. Miễn giá trị hợp lệ của các đỉnh trong S dựa trên phép gan hợp lệ (Trang 43)
Hình 1.3. Các phép gan hợp lệ và không hợp lệ của S trong G - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 1.3. Các phép gan hợp lệ và không hợp lệ của S trong G (Trang 45)
Hình 2.1. Trọng số của các đỉnh trong đồ thị con và trọng số của đồ thị con - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.1. Trọng số của các đỉnh trong đồ thị con và trọng số của đồ thị con (Trang 47)
Đồ thị lớn G, nên làm thay đổi trọng số của hai đỉnh W(v;) và W(12). - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
th ị lớn G, nên làm thay đổi trọng số của hai đỉnh W(v;) và W(12) (Trang 55)
Hình 2.4. Các đô thị con duoc phát sinh từ cạnh DM-AI - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.4. Các đô thị con duoc phát sinh từ cạnh DM-AI (Trang 57)
Hình 2.5. Số lượng đô thị con ứng viên (a) và số lượng đô thị con phổ biến thỏa - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.5. Số lượng đô thị con ứng viên (a) và số lượng đô thị con phổ biến thỏa (Trang 61)
Hình 2.6. Số lượng đô thị con ứng viên (a) và số lượng đ thị con phổ biến thỏa - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.6. Số lượng đô thị con ứng viên (a) và số lượng đ thị con phổ biến thỏa (Trang 62)
Hình 2.7. Số lượng đô thị con ứng viên (a) và số lượng đô thị con pho biến thoả - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.7. Số lượng đô thị con ứng viên (a) và số lượng đô thị con pho biến thoả (Trang 62)
Đồ thị con có trọng số. - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
th ị con có trọng số (Trang 63)
Hình 2.9. Thời gian thực thi trên bộ đữ liệu Facebook [CT1] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.9. Thời gian thực thi trên bộ đữ liệu Facebook [CT1] (Trang 64)
Đồ thị con phổ biến thoả ngưỡng trọng số. - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
th ị con phổ biến thoả ngưỡng trọng số (Trang 64)
Hình 2.10. Thời gian thực thi trên bộ dữ liệu CiteSeer [CT1] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.10. Thời gian thực thi trên bộ dữ liệu CiteSeer [CT1] (Trang 65)
Hình 2.11. Yêu cầu bộ nhớ doi với bộ dit liệu MiCo [CT1] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.11. Yêu cầu bộ nhớ doi với bộ dit liệu MiCo [CT1] (Trang 65)
Hình 2.13. Yêu cau bộ nhớ đối với bộ dữ liệu CiteSeer [CT1] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.13. Yêu cau bộ nhớ đối với bộ dữ liệu CiteSeer [CT1] (Trang 67)
Hình 2.16. Các đồ thị con thoả trọng số kết hợp với một cạnh không thoả ngưỡng - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.16. Các đồ thị con thoả trọng số kết hợp với một cạnh không thoả ngưỡng (Trang 73)
Hình 2.17. Phát sinh các đồ thị con không thỏa trọng sỐ từ một cạnh phổ biến - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.17. Phát sinh các đồ thị con không thỏa trọng sỐ từ một cạnh phổ biến (Trang 74)
Đồ thị con S; tai Hình 2.18, có 2 đỉnh cũ là v;, v2 và một đỉnh mới v3. Áp dụng trường hợp 2, thuật toán chỉ cần thời gian dé duyệt qua miền của đỉnh v3 mới này và tái sử dung W(So) dé tính W(S,). - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
th ị con S; tai Hình 2.18, có 2 đỉnh cũ là v;, v2 và một đỉnh mới v3. Áp dụng trường hợp 2, thuật toán chỉ cần thời gian dé duyệt qua miền của đỉnh v3 mới này và tái sử dung W(So) dé tính W(S,) (Trang 76)
Bảng 2.3. So sảnh ba bước khai thác giữa thuật toán WeGraMi và OWGraMi - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Bảng 2.3. So sảnh ba bước khai thác giữa thuật toán WeGraMi và OWGraMi (Trang 77)
Hình 2.21. Thời gian thực hiện trên tập dit liệu Facebook [CT2] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.21. Thời gian thực hiện trên tập dit liệu Facebook [CT2] (Trang 82)
Hình 2.22. Thời gian thực hiện trên tập đữ liệu CiteSeer [CT2] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.22. Thời gian thực hiện trên tập đữ liệu CiteSeer [CT2] (Trang 83)
Hình 2.24. Lượng bộ nhớ tiêu thu trên tập dit liệu Citeseer [CT2] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 2.24. Lượng bộ nhớ tiêu thu trên tập dit liệu Citeseer [CT2] (Trang 84)
Ví dụ 3.1: Với dir liệu  từ Hình 1.1, giả sử ngưỡng trọng số là w = 3, đồ thị con truy van $; (Hình 3.1) là một đồ thị con thỏa ngưỡng trong số vì - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
d ụ 3.1: Với dir liệu từ Hình 1.1, giả sử ngưỡng trọng số là w = 3, đồ thị con truy van $; (Hình 3.1) là một đồ thị con thỏa ngưỡng trong số vì (Trang 87)
Hình 3.2. Một vi dụ tinh trọng số do thị con theo chiến lược MaxMin và AveMin - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 3.2. Một vi dụ tinh trọng số do thị con theo chiến lược MaxMin và AveMin (Trang 88)
Hình 3.3. Một vi dụ về chiến lược MaxMin và AveMin - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 3.3. Một vi dụ về chiến lược MaxMin và AveMin (Trang 89)
Hình 3.7. Yêu cầu về bộ nhớ cho hai bộ dét liệu [CT3] - Luận án tiến sĩ Khoa học máy tính: Khai thác đồ thị con trên đồ thị có trọng số
Hình 3.7. Yêu cầu về bộ nhớ cho hai bộ dét liệu [CT3] (Trang 98)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w