Thuật toán song song khai phá Top-K đồ thị con phổ biến

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	2,7 MB

Nội dung

Khai phá đồ thị là một nhiệm vụ quan trọng của khai phá dữ liệu đồ thị và nó có rất nhiều ứng dụng trong thực tiễn, ví dụ như: phân tích liên kết web, phân tích mạng xã hội, phát hiện gian lận, phát hiện ngoại lệ, phân tích phân tử hóa học,... Bài viết đề xuất một thuật toán song song để khắc phục điểm yếu này. Hiệu suất và khả năng mở rộng của thuật toán đề xuất được minh họa thông qua các thực nghiệm trên hai bộ dữ liệu cụ thể.

Nghiên cứu khoa học cơng nghệ THUẬT TỐN SONG SONG KHAI PHÁ TOP-K ĐỒ THỊ CON PHỔ BIẾN Phạm Văn Lai1*, Nguyễn Mạnh Hùng2, Nguyễn Doãn Cường1, Phan Việt Anh2 Tóm tắt: Khai phá đồ thị nhiệm vụ quan trọng khai phá liệu đồ thị có nhiều ứng dụng thực tiễn, ví dụ như: phân tích liên kết web, phân tích mạng xã hội, phát gian lận, phát ngoại lệ, phân tích phân tử hóa học, Tuy nhiên, khai phá đồ thị phổ biến có hạn chế nghiêm trọng áp dụng vào thực tế, khó xác định giá trị ngưỡng minSup phù hợp Nếu đặt minSup q cao đồ thị phổ biến tìm thấy thơng tin hữu ích bị bỏ lỡ Nhưng đặt minSup thấp, thời gian khai phá lâu số lượng lớn đồ thị phổ biến tìm thấy Do đó, việc xác định giá trị minSup phù hợp để tìm đồ thị phổ biến vừa đủ tốn thời gian Thuật tốn khai phá Top-K đồ thị phổ biến đề xuất đề giải hạn chế Một số thuật toán khai phá Top-K đồ thị phổ biến đề xuất; nhiên, hầu hết thuật tốn khơng thể mở rộng liệu lớn Trong báo này, đề xuất thuật toán song song để khắc phục điểm yếu Hiệu suất khả mở rộng thuật tốn đề xuất minh họa thơng qua thực nghiệm hai liệu cụ thể Từ khóa: Khai phá đồ thị; Khai phá đồ thị phổ biến; Khai phá Top-K đồ thị phổ biến ĐẶT VẤN ĐỀ Khai phá đồ thị phổ biến chủ đề quan trọng lĩnh vực khai phá đồ thị Bài tốn có nhiều ứng dụng thực tiễn như: phân tích liên kết web [1], phân tích mạng xã hội [4], phát ngoại lệ [2], phân tích phân tử hố học [3], Mục tiêu khai phá đồ thị phổ biến (FSM) tìm tất đồ thị có tần suất xuất lớn giá trị ngưỡng minSup người dùng định Tuy nhiên, hạn chế thuật toán khai phá đồ thị phổ biến người dùng thường khó chọn giá trị minSup phù hợp Nếu ngưỡng minSup cao, vài đồ thị phổ biến tìm thấy vậy, người dùng bỏ lỡ thơng tin có giá trị Mặt khác, ngưỡng thấp, lượng lớn đồ thị phổ biến tìm thấy đồng thời yêu cầu thời gian tính tốn cao tốn nhớ Vì người dùng thường quan tâm lượng thông tin định để phân tích, nên họ thường quan tâm đến việc tìm đủ số đồ thị phổ biến Việc xác định giá trị minSup phù hợp để tìm đủ số lượng đồ thị phổ biến khó phụ thuộc vào liệu mà người dùng thường Do đó, người dùng phải tốn nhiều thời gian để chạy thuật toán nhiều lần với giá trị minSup khác đến đạt kết mong muốn Để giải vấn đề này, Li et al [6] đề xuất thuật tốn TGP để tìm trực tiếp k đồ thị đóng phổ biến sở liệu đồ thị, giá trị k người dùng chọn Cách tiếp cận có ưu điểm trực quan cho người dùng người ta định trực tiếp số lượng đồ thị phổ biến cần tìm Tuy nhiên, vấn đề lớn TGP tạo tất đồ thị phổ biến sau tìm k đồ thị đóng phổ biến Việc số lượng đồ thị phổ biến tăng theo cấp số nhân theo kích thước đồ thị, dẫn đến cách tiếp cận không hiệu Để giải nhược điểm trên, thuật toán TKG[7] đề xuất để khai phá xác k đồ thị phổ biến Đã có số thuật tốn khai phá Top-K đồ thị phổ biến đề xuất Tuy nhiên, Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 437 Tốn học – Cơng nghệ thơng tin thuật tốn tuần tự, đó, nhiều thời gian tính tốn để khai phá liệu lớn Cùng với phát triển phần cứng đại, xử lý đa nhân trở thành xu hướng chủ đạo Intel AMD giới thiệu chip đa nhân thương mại họ vào năm 2008 [8], cho phép tính tốn song song thuận tiện, dễ dàng Do đó, báo nhằm mục đích đề xuất thuật toán song song khai phá Top-K đồ thị phổ biến kiến trúc tính tốn đa nhân Phần lại báo sau: Phần trình bày nghiên cứu liên quan; Phần trình bày thuật tốn TKG làm sở cho thuật toán đề xuất; Phần đề xuất thuật toán song song khai phá k đồ thị phổ biến ParaTKG; Phần trình bày thực nghiệm nhằm minh chứng hiệu suất thuật toán đề xuất; Kết luận trình bày phần CÁC NGHIÊN CỨU LIÊN QUAN Khai phá đồ thị phổ biến nhiệm vụ quan trọng khai phá liệu đồ thị, mục đích việc khai phá đồ thị phổ biến để tìm tất đồ thị có số lần xuất với giá trị ngưỡng tối thiểu người dùng quy định Hầu hết thuật toán FSM bao gồm hai giai đoạn quan trọng: tạo tập ứng viên xác định tần suất xuất Để tính tần suất xuất đồ thị con, cần phải xác định số đồ thị CSDL có đồ thị đẳng cấu với đồ thị Bài toán tìm đồ thị tốn duyệt tập ứng viên 02 toán tảng thuật tốn khai phá đồ thị phổ biến có độ phức tạp NP-khó [9] Các thuật tốn khai phá đồ thị phổ biến có 02 hướng tiếp cận để sinh tập ứng viên: phương pháp Apriori [11- 13] phương pháp tăng trưởng mẫu [10, 11, 14, 15] Để xác định đồ thị đẳng cấu thuật toán thường sử dụng canonical adjacency matrix (CAM) [11] and DFS code [14] Các thuật toán dựa Apriori [11-13] nói chung bao gồm hai bước: tạo ứng viên kiểm tra đẳng cấu Các thuật toán dựa Apriori phần mở rộng thuật toán Apriori [16] Trong thuật toán Apriori làm việc với tập phần tử, thuật toán FSM làm việc với đồ thị Trong bước đầu tiên, ứng cử viên kích thước k tạo từ đồ thị phổ biến kích thước k-1 kiểm tra xem chúng có phổ biến hay khơng Các thuật tốn dựa Apriori thường sử dụng tính chất đóng đề giảm số lượng tập ứng viên, thu hẹp khơng gian tìm kiếm Tính chất cụ thể là: đồ thị khơng phổ biến tất đồ thị chứa khơng phổ biến.Vì vậy, cắt tỉa tập ứng viên chứa đồ thị này, điều giúp thu hẹp khơng gian tìm kiếm đặc biệt trường hợp có đồ thị phổ biến kích thước lớn Cách tiếp cận thứ hai thực tăng trưởng mẫu cách tiếp cận phần mở rộng thuật tốn tăng trưởng FP [17] Mục đích thuật toán dựa tăng trưởng mẫu [10, 11, 14, 15] tìm tất mẫu phổ biến mà không sinh ứng cử viên Cách tiếp cận dựa phương pháp chia để trị Thay tạo tất đồ thị ứng cử viên, cạnh thêm vào vị trí đồ thị phổ biến thời Tuy nhiên, cách tiếp cận có nhược điểm đồ thị tạo nhiều lần thêm vào cạnh Vấn đề khắc phục chiến lược mở rộng bên phải (rightmost path) [10, 14] Với ứng cử viên, thuật toán AGM [12] duyệt lại toàn liệu để xác định tần suất xuất Thuật tốn FSG [13] sử dụng nhãn tắc để tạo xác định đồ thị đẳng cấu Để tạo nhãn tắc đồ thị, thuật tốn sử dụng số phương pháp heuristic Tuy nhiên, phương pháp heuristic yêu cầu số lượng lớn nhãn cạnh khác để xác định đồ thị nhãn tắc Thuật tốn FSG vượt trội thuật tốn AGM thời gian tính toán [13] 438 P V Lai, …, P V Anh, “Thuật toán song song khai phá Top-K đồ thị phổ biến.” Nghiên cứu khoa học cơng nghệ Thuật tốn gSpan [14] xây dựng mã DFS thay việc sinh tập ứng viên sử dụng mã DFS tối thiểu để xác định đồ thị đẳng cấu Vì thế, thuật tốn gSpan u cầu sử dụng nhớ so với FSG vượt trội FSG [14] Thuật toán FFSM đề xuất hai phương thức để tạo ứng viên: FFSMjoin FFSM-extension sử dụng CAM để xác định đồ thị đẳng cấu FFSM nhanh thuật toán gSpan tập liệu IC93 [11] Thuật toán MOFA [15] tạo nhiều Vì thế, đồ thị phổ biến tạo khơng thực phổ biến Thuật toán gSpan FFSM vượt trội thuật toán MOFA thời gian tính tốn[18] Mặc dù có nhiều thuật toán đề xuất thuật toán khai phá đồ thị phổ biến có hạn chế nghiêm trọng, người dùng thường khó chọn giá trị minSup phù hợp Để giải vấn đề này, toán khai phá Top-K đồ thị phổ biến đề xuất Một số thuật tốn điển hình khai phá Top-K đồ thị phổ biến là: thuật toán TGP[6] thuật toán TKG[7] - thuật tốn tuần tự, đó, đòi hỏi thời gian lớn để khai phá liệu lớn Với phát triển mạnh mẽ phần cứng, xử lý (CPU) đa nhân, GPU mơ hình Map/Reduce trở thành tảng cho tính tốn song song [20] Một số thuật tốn song song phát triển để giải toán khai phá đồ thị phổ biến Năm 2014, Lin đồng nghiệp phát triển thuật toán song song khai phá đồ thị phổ biến dựa mơ hình Map/Reduce [23], Kessl đồng nghiệp [22] đề xuất thuật toán khai phá mẫu cấu trúc dựa đồ thị dựa tảng GPU có nhiều thuật tốn song song khai phá đồ thị phổ biến dựa kiến trúc song song sử dụng mơ hình nhớ chia sẻ đề xuất [21, 24] Vì tốn chưa có nghiên cứu song song hoá thuật toán khai phá Top-K đồ thị phổ biến Phần tiếp theo, báo trình bày chi tiết thuật tốn TKG đề xuất thuật toán song song khai phá Top-K đồ thị phổ biến kiến trúc tính tốn đa nhân THUẬT TOÁN TKG Trong phần này, báo trình bày tóm tắt thuật tốn TKG (Top-K Graph miner) thuật tốn sở để chúng tơi đề xuất thuật tốn song song ParaTKG Định nghĩa (Đồ thị có gán nhãn) Một đồ thị có gán nhãn G năm thành phần G = (V, E, LV, LE, φV φE) Trong đó: V, E, LV LE tập cạnh, tập đỉnh, tập nhãn đỉnh tập nhãn cạnh; φV φE hàm ánh xạ đỉnh cạnh tới nhãn chúng (φV: V→ LV φE: E→ LE) Định nghĩa (Cơ sở liệu đồ thị) Một sở liệu đồ thị GD = {G1, G2, , Gn} định nghĩa tập hợp n đồ thị có gán nhãn Định nghĩa (Đồ thị đẳng cấu) Cho đồ thị có gán nhãn Gx = (Vx, Ex, LxV, LxE, φxV, φxE) đồ thị có gán nhãn khác Gy = (Vy, Ey, LyV, LyE, φyV, φyE) Người ta nói rằng, đồ thị Gx đẳng cấu với Gy tồn ánh xạ f: Vx→Vy thoả mãn hai điều kiện sau: Điều kiện 1: Đối với đỉnh v∈Vx LxV(v) = LyV (f(v)) Điều kiện 2: Đối với cặp đỉnh (u, v)∈Ex (f (u), f (v)) ∈ Ey LxE (u, v) = LyE (f (u), f (v)) Để kiểm tra xem đồ thị có xuất đồ thị hay không, mối quan hệ đồ thị đẳng cấu khái niệm hỗ trợ định nghĩa sau Định nghĩa (Đồ thị đẳng cấu) Cho hai đồ thị Gx = (Vx, Ex, LxV, LxE, φxV, φxE) Gz = (Vz, Ez, LzV, LzE, φzV, φzE) Đồ thị Gx xác định xuất đồ thị Gz, Gx đồ thị đẳng cấu Gz, Gx đẳng cấu với đồ thị Gy ⊆ Gz Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 439 Tốn học – Cơng nghệ thông tin Mục tiêu khai phá đồ thị phổ biến tìm tất đồ thị có độ hỗ trợ lớn minSup Độ hỗ trợ định nghĩa dựa khái niệm đồ thị đẳng cấu đồ thị đẳng cấu Định nghĩa Cho sở liệu đồ thị GD Độ hỗ trợ (tần suất xuất hiện) đồ thị Gx GD định nghĩa sup(Gx) = |{g|g∈GD Gx đẳng cấu với đồ thị g}| Định nghĩa (Khai phá đồ thị phổ biến) Cho giá trị ngưỡng minSup>0 người dùng xác định sở liệu đồ thị GD Bài toán khai phá đồ thị phổ biến tìm tất đồ thị có độ hỗ trợ không nhỏ minSup Định nghĩa (Khai phá Top-k đồ thị phổ biến) Cho giá trị tham số k ≥ người dùng xác định sở liệu đồ thị GD Bài toán khai phá Top-k đồ thị phổ biến tìm tập T gồm k đồ thị cho độ hỗ trợ chúng lớn với đồ thị khác khơng có T Định nghĩa (Mở rộng đường dẫn bên phải cùng) Thực tìm kiếm theo chiều sâu đồ thị việc sử dụng ngăn xếp Các đỉnh ngăn xếp tạo thành đường dẫn bên phải đồ thị đỉnh thời xử lý gọi đỉnh bên phải Việc mở rộng đường dẫn bên phải thực hai loại mở rộng: mở rộng tiến (forward extensions) mở rộng lùi (backword extensions) Mở rộng lùi thực trước mở rộng tiến Đối với mở rộng tiến, đỉnh bên phải xem xét mở rộng trước, sau đến đỉnh nằm đường dẫn bên phải Định nghĩa (Cạnh mở rộng) Cho cạnh hai đỉnh vi, vj hàm gán nhãn φ Một gồm (vi, vj, φ(vi), φ(vj), φ(vi vj)) biểu diễn cạnh, nhãn đỉnh đỉnh nhãn cạnh gọi cạnh mở rộng Định nghĩa 10 (mã DFS) Mã DFS đồ thị chuỗi cạnh mở rộng, xếp theo thứ tự tìm kiếm theo chiều sâu Định nghĩa 11 (Thứ tự tổng thể cạnh mở rộng) Gọi t1 t2 hai cạnh mở rộng: t1 = (vi, vj, L(vi), L(vj), L(vi, vj)) t2 = (vx, vy, L (vx), L(vy), L(vx, vy)) Cạnh t1 cho nhỏ t2 khi: i) (vi, vj)

Ngày đăng: 05/11/2020, 20:24