Đánh giá hiệu quả của thuật toán khai phá luật kết hợp trong môi trường xử lý song song

Thông tin tài liệu

Mục đích của bài viết là đánh giá hiệu quả của các thuật toán Apriori, FP-Growth và Apriori cải tiến trong môi trường xử lý song song. Việc so sánh các thuật toán dựa vào hai yếu tố thời gian thực thi và hiệu suất của thuật toán sử dụng.

8 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh ĐÁNH GIÁ HIỆU QUẢ CỦA THUẬT TỐN KHAI PHÁ LUẬT KẾT HỢP TRONG MÔI TRƯỜNG XỬ LÝ SONG SONG EVALUATING THE EFFECTIVENESS OF ASSOCIATION RULES MINING ALGORITHMS IN PARALLEL PROCESSING ENVIRONMENT Nguyễn Đăng Cẩm, Nguyễn Thành Sơn Trường Đại học Sư phạm Kỹ thuật TP.HCM, Việt Nam Ngày soạn nhận 30/11/2018, ngày phản biện đánh giá 14/2/2019, ngày chấp nhận đăng 2/4/2019 TÓM TẮT Luật kết hợp mối quan hệ, kết hợp hay mối tương quan đối tượng sở liệu Khai phá luật kết hợp toán quan tâm nghiên cứu lĩnh vực khai phá liệu Các thuật toán thường sử dụng khai phá luật kết hợp Apriori, FP-Growth Mục đích báo đánh giá hiệu thuật toán Apriori, FP-Growth Apriori cải tiến môi trường xử lý song song Việc so sánh thuật toán dựa vào hai yếu tố thời gian thực thi hiệu suất thuật toán sử dụng Kết thực nghiêm liệu thực cho thấy môi trường xử lý song song, thuật tốn PF-Growth thực hiệu Từ khóa: Khai phá liệu; Khai phá luật kết hợp; Apriori; FP-Growth; Apriory cải tiến ABSTRACT An association rule indicates the relationship, association, or correlation between objects in the database Association Rule Mining is a problem which has received an increasing amount of attention lately in data mining Appriori and FP-Growth have commonly used algorithms in association rule mining The aim of the paper is to evaluate the effectiveness of the Apriori, FP_Growth and Improved Apriori in a parallel processing environment The comparison is based on execution time and the performance The experimental results showed that in the parallel processing environment the FP-growth algorithm is the most efficient one Keywords: Data Mining; Association Rule Mining; Apriori; FP-Growth; Improved Apriory GIỚI THIỆU Khai phá liệu trình đầy hứa hẹn phát triển phân tích liệu ứng dụng nhiều lĩnh vực Khai phá liệu cốt lõi trình “Phát tri thức từ sở liệu” (Knowledge Discovery in Database-KDD), q trình khai phá, trích xuất, khai thác sử dụng liệu có giá trị tiềm ẩn từ bên lượng lớn liệu lưu trữ sở liệu (CSDL), kho liệu, trung tâm liệu lớn Các thuật toán khai phá luật kết hợp sử dụng với liệu lớn nhiều thời gian Vì vậy, u cầu cần có thuật tốn song song hiệu cho việc phát luật kết hợp khai phá liệu cần thiết Hai hướng tiếp cận thiết kế thuật tốn khai phá luật kết hợp song song mơ hình song song liệu, mơ hình song song thao tác Bài báo nhằm mục đích đánh giá hiệu thuật toán Apriori, Apriori cải tiến, Apriori cải tiến FP-Growth môi trường xử lý song song Phần lại báo bao gồm: Phần trình bày khái niệm cơng trình liên quan Phần giới thiệu giải thuật khai phá luật kết hợp Cách tiếp cận khai phá luật kết hợp sử dụng giải thuật song song trình bày phần Phần Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh kết thực nghiệm Phần kết luận hướng phát triển đề tài CÁC KHÁI NIỆM CƠ BẢN VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các khái niệm Cho D = {t1, t2, …, tm} sở liệu giao dịch Mỗi giao dịch ti bao gồm tập n thuộc tính I = {i1, i2, …, in} có định danh TID  Một luật định nghĩa kéo theo có dạng X ⇒ Y X,Y ⊆ I X ∩ Y = Ø Trong dó, X gọi phần mệnh đề điều kiện Y gọi mệnh đề kết luật tương ứng  Độ phổ biến (1) Supp(X) = |X| / |D| Supp( X  Y )   T  D : X  Y  T  (2) D Độ tin cậy Conf(X⇒Y) = Supp(X⇒Y) Supp(X) (3) 2.2 Các cơng trình liên quan Một thuật tốn khai phá luật kết hợp, thuật toán Apriory, RaKesh Agrawal cộng đề suất năm 1993 [1] Thuật tốn sau trở thành tảng cho phát triển thuật toán sau Năm 2000, Jiawei Hai cộng đề xuất thuật tốn FP-Growth Thuật tốn sử dụng FP-tree để tìm tập mục phổ biến, nhằm giảm số lần quét qua sở liệu [2] Trong [3], Z H Deng cộng đề xuất kiểu liệu theo chiều dọc gọi N-list, bắt nguồn từ FP-tree-like gọi PPC-Tree Dựa cấu trúc liệu N-list, phát triển thuật toán khai thác hiệu PrePost, để khai thác tập mục phổ biến Các thực nghiệm cho thấy thuật toán PrePost hiệu nhanh tất trường hợp Mặc dù thuật toán tốn nhiều nhớ liệu nhỏ Trong [4], Aiman Moyaid Said cộng cài đặt so sánh thuật toán cải tiến Fpgrowth, AFOPT, Nonordfp, Fpgrowth với liệu T10I4D100k, T40I10D100K, Mushroom, Connect4 Với thuật toán Fpgrowth chạy liệu T10I4D100k, T40I10D100K, Mushroom, Connect Kết luận hiệu suất thuật toán APFOPT ổn định hầu hết loại liệu Trong [5], Zhi-Hong Deng cộng trình bày thuật tốn hiệu gọi FIN để khai thác tập mục thường xuyên Để đánh giá hiệu suất FIN, họ tiến hành thực nghiệm để so sánh với PrePost FP-growth nhiều liệu thực tổng hợp Kết thử nghiệm cho thấy FIN có hiệu suất cao thời gian chạy mức sử dụng nhớ Trong [6], Dawen Xia, Yanhui Zhou, Zhuobo Rong, Zili Zhang đề xuất thuật toán FP-Growth sử dụng giải thuật song song cải tiến (IPFP), sử dụng MapReduce để thực thuật toán FP-Growth sử dụng giải thuật song song Do cải thiện hiệu suất tổng thể hiệu khai phá tập mục phổ biến Một số giải thuật khai phá luật kết hợp sử dụng môi trường xử lý song song đề xuất nhằm tăng tốc độ xử lý thuật toán Chẳng hạn, [7] Yanbin Ye and Chia-Chu Chiang giới thiệu giải thuật song song để khai phá tập mục phổ biến sử dụng thuật toán Apriory; [8], Yi Wang công sử dụng giải thuật FP-Growth môi trường song song để khai phá tập mục phổ biến Cách tiếp cận chung giải thuật khai phá luật kết hợp thường thực qua hai giai đoạn: (1) Tìm tất tập mục liệu có độ hỗ trợ thỏa ngưỡng tối thiểu cho trước, gọi tập mục liệu phổ biến (2) Tìm luật kết hợp từ tập mục liệu phổ biến thỏa độ tin cậy cho trước Các cơng trình nghiên cứu toán khai phá luật kết hợp thường tập trung đề xuất cải tiến thuật toán thực giai đoạn tìm tất tập mục phổ biến Còn giai đoạn thường xử lý 10 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh MỘT SỐ GIẢI THUẬT KHAI PHÁ LUẬT KẾT HỢP 3.1 Giải thuật Apriori Thuật toán sinh tập mục ứng viên từ tập mục phổ biến bước trước, sử dụng kỹ thuật “tỉa” để bỏ tập mục ứng viên không thỏa mãn ngưỡng hỗ trợ cho trước Thuật toán gồm bước sau: - Tìm tất tập mục phổ biến 1- phần tử (C1) - Tạo tập ứng viên có k – phần tử (k candidate itemset) từ tập phổ biến có (k-1) – phần tử Ví dụ, tạo tập ứng viên C2 từ tập phổ biến C1 - Kiểm tra độ phổ biến ứng viên CSDL loại ứng viên không phổ biến ta tập mục phổ biến Li, với ≤ i ≤ k - Dừng không tạo tập mục phổ biến hay tập ứng viên, i.e., Lk = {} hay Ck = {} Mã giả thuật toán Apriori Dữ liệu vào: Tập giao dịch D, ngưỡng hỗ trợ minsup Dữ liệu ra: Tập trả lời bao gồm tập mục phổ biến D Giải thuật: L1 = {large 1-itemset}; for (k = 2; Lk-1 ≠ 𝜙; k++) begin Ck = apriori_gen(Lk-1); // sinh tập mục ứng viên Ck; For all giao dịch t ∈ D begin Ct = subset(Ck, t); // tập mục ứng viên chứa t; For all tập mục ứng viên ci ∈ Ct ci.count ++ ; end; Lk = {ci ∈ Ck | ci.count ≥ minsup} end; Return tất tập mục phổ biến Lk; Ưu điểm thuật toán Apriori - Là thuật toán đơn giản, dễ hiểu dễ cài đặt - Thuật toán Apriori tìm tập mục phổ biến thực tốt rút gọn kích thước tập ứng viên nhờ kỹ thuật “tỉa” Nhược điểm thuật toán Apriori - Phải duyệt CSDL nhiều lần - Số lượng lớn tập ứng viên tạo làm gia tăng phức tạp không gian - Để xác định độ support tập ứng viên, thuật tốn ln phải qut lại tồn CSDL 3.2 Thuật toán Apriori cải tiến Để nâng cao hiệu khai phá itemset phổ biến, Girja Shankar Latita Bargadiya [9] thảo luận hai vấn đề thuật toán Apriori Đầu tiên, thuật toán cần phải quét sở liệu nhiều lần lần thứ hai, tạo itemset ứng viên lớn làm tăng thời gian xử lý, độ phức tạp không gian Để khắc phục khuyết điểm trên, tác giả đề xuất cải tiến sau: tìm frequent_one_itemset sở liệu sau tạo tập power frequent_one_itemset khởi tạo itemset count = Gọi power set Global power set Khi thuật toán quét qua sở liệu để đếm itemset, xóa item từ giao dịch khơng có mặt danh sách frequent_one_itemset Sau q trình xóa thuật tốn tạo Local Power set từ item lại giao dịch so sánh với Global power set Khi phù hợp tăng số lượng itemset lên Bước làm giảm số lần quét qua sở liệu Nội dung thuật toán: Input: 1) Cơ sở liệu D với định dạng (TID, itemset), TID định danh giao dịch itemset tập mục tương ứng 2) Ngưỡng hỗ trợ tối thiểu: min-sup Output: tập mục phổ biến D Các bước xử lý: 1) Tìm tập mục phổ biến phần từ L1 = frequent_one_itemset (D) 2) Tạo power set L1 khởi tạo itemset count = 0, gọi Global power set; Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh 3) Quét sở liệu D đến hết a) Đọc itemset từ giao dịch xóa item khơng L1 sau tạo local power set từ item lại giao dịch b) So sánh local power set với Global power set itemset phù hợp tăng số lượng itemset lên Global power set Tỉa ứng cử itemset 4) Quét Global power set đếm số ứng viên itemset; Nếu độ hỗ trợ ứng viên itemset nhỏ minsup xóa item set từ Global power set 5) Các itemset lại Global power set itemset phổ biến yêu cầu 3.3 Thuật toán FP-Growth Thuật toán FP-Growth đề xuất nhằm khắc phục nhược điểm thuật toán Apriori Nội dung thuật toán: Bước 1: Xây dựng FP-Tree: - Duyệt CSDL lần một, xác định tập mục phổ biến L xếp chúng theo độ hỗ trợ - Duyệt qua CSDL lần hai, với giao dịch T xếp tập mục theo thứ tự tập L Giả sử tập mục phổ biến T có dạng [p|P] với p tập mục cần đưa vào FP-Tree P danh sách tập mục lại, N nút cần chèn Nếu nút N giống p, tăng biến count nút lên Ngược lại, tạo nút cho N có tên mục p count = Tiếp tục chèn P vào nút vừa xét 11 (single path), sau tiến hành sinh tất tổ hợp mục phổ biến KHAI PHÁ LUẬT KẾT HỢP TRONG MÔI TRƯỜNG XỬ LÝ SONG SONG 4.1 Khai phá luật kết hợp sử dụng giải thuật song song Khai phá luật kết hợp sử dụng giải thuật song song dựa ý tưởng khai phá luật kết hợp, thực song song hóa nhằm đáp ứng tăng lên nhanh chóng liệu giảm thời gian thực Các giải thuật xử lý song song áp dụng giai đoạn tìm tập mục phổ biến nhằm giảm thời gian thực thi giai đoạn Trong thuật toán dùng khai phá luật kết hợp, thuật toán FP-Growth thường sử dụng giải thuật xử lý song song tính hiệu Khai phá luật kết hợp môi trường xử lý song song thực qua bước sau: (1) Cơ sở liệu ban đầu phân hoạch cho xử lý; (2) Mỗi xử lý thực thuật toán FP-Growth để phát sinh tập mục phổ biến cục bộ; (3) Bộ xử lý chủ tổng hợp tập mục phổ biến cục từ xử lý khác để phát sinh tập mục phổ biến toàn cục; (4) Các luật kết hợp phát sinh từ tập mục phổ biến tồn cục Hình minh họa bước thực thuật toán khai phá luật kết hợp FP-Growth môi trường xử lý song song Bước 2: Xây dựng sở mẫu điều kiện (Conditional Patern Bases) cho tập mục phổ biến Bước 3: Xây dựng FP-Tree điều kiện (Conditional FP-Tree) cho tập mục phổ biến sở mẫu điều kiện Bước 4: Đệ quy xây dựng FP-Tree điều kiện đến FP-Tree điều kiện cịn nhánh Hình Mơ hình giải thuật song song dùng thuật tốn FP-Growth 12 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh 4.2 Thuật toán song song sử dụng Apriori cải tiến Thuật toán khai phá luật kết hợp gồm hai nhiệm vụ chính: Dựa vào thuật tốn Apriori cải tiến, thuật tốn sử dụng mơ hình “Chủ-Tớ” - Xây dựng song song FP-Tree - Khai phá song song sinh tập mục phổ biến Nội dung thuật toán: Input: 1) Cơ sở liệu D với định dạng (TID, itemset), TID định danh giao dịch itemset tập mục tương ứng với công việc kinh doanh D1, D2,…, Dp: phân hoạch CSDL, p số xử lý 2) Ngưỡng hỗ trợ tối thiểu: min-sup Output: Các tập mục phổ biến D Các bước xử lý: 1) Với xử lý i, L1(i) = tìm frequent_one_itemset (Di); 2) Nhận L1(i) từ xử lý i Tạo power set L1 khởi tạo itemset count = 0, gọi Global power set; 3) Bộ xử lý chủ quét sở liệu D đến hết Đọc itemset từ giao dịch xóa item khơng L1 sau tạo local power set từ item lại giao dịch Gửi local power set Global power set (i) tới xử lý tớ 4) Bộ xử lý tớ i so sánh local power set với Global power set (i) Nếu itemset phù hợp tăng số lượng itemset lên Global power set (i) 5) Bộ xử lý chủ nhận Global power set (i) từ xử lý tớ Quét Global power set đếm số ứng viên itemset; Nếu số ứng viên itemset minsup xóa itemset khỏi Global power set 6) Các itemset cịn lại Global power set itemset phổ biến yêu cầu 4.3 Thuật toán song song sử dụng FP-Growth Thuật toán xây dựng số Fp-tree cục môi trường nhớ phân tán dựa mô hình “Chủ - Tớ” (1) Xây dựng song song FP-Tree  Chia CSDL giao dịch D cho P xử lý  Mỗi xử lý tính tốn độ hỗ trợ (flocal(i)) mục i cách quét phân hoạch CSDL cục Sau đó, tất xử lý gửi flocal(i) cục đến xử lý chủ  Bộ xử lý chủ kết hợp flocal(i) lại để sinh độ hỗ trợ toàn cục (fglocal (i))  Tập 1-itemset phổ biến thu truyền cho tất xử lý nhóm  Xây dựng FP-Tree cục bộ, Mỗi xử lý quét CSDL cục chèn mục phổ biến vào FP-Tree (2) Khai phá song song sinh tập mục phổ biến  Đầu tiên, thuật tốn duyệt tồn FP-Tree tạo mẫu điều kiện sở  Tiếp theo, thuật toán tập hợp mẫu điều kiện sở từ xử lý để xây dựng FP-Tree điều kiện sở (CFPT) cho mục phổ biến  Cuối thực thi việc khai phá cách xây dựng đệ qui mẫu điều kiện sở CFPTs sinh tất tập mục phổ biến KẾT QUẢ THỰC NGHIỆM 5.1 Môi trường thực nghiệm Hệ thống thực nghiệm cài đặt C# Microsoft Windows 10 Enterprise 64bit, Net Framework 4.5, thực CPU Intel® Core™ i5-3210M CPU @ 2.50GHz 2.50GHz, RAM 12.0GB, SSD 240GB Hệ thống phần mềm sử dụng: Visual Studio 2017 Enterprise, Microsoft’s Message Passing Interface (MS-MPI) [10] 5.2 Các tập liệu thực nghiệm Gồm tập liệu: Dữ liệu mushroom.dat lấy từ liệu UCI, có 8124 giao dịch; liệu T10I4D100K tạo cách sử dụng trình tạo từ nhóm nghiên cứu IBM Almaden Quest, có 100000 giao dịch; liệu BMS_WebView_1 chứa 59.602 giao dịch liệu nhấp chuột từ trang web thương mại điện tử 5.3 Kết thực nghiệm Chúng tơi cài đặt thuật tốn Apriori, Apriori cải tiến, Apriori cải tiến sử dụng giải thuật song song, FP-Growth FP-Growth sử dụng giải thuật song song, so sánh thuật toán dựa vào thời gian thực thi số lượng tài nguyên mà thuật toán sử dụng 5.3.1 Thời gian thực thi Thời gian (giây) Hình 2, 3, Mô tả kết thực nghiệm thời gian thực thi thuật tốn tính giây 80 70 60 50 40 30 20 10 Apriori Apriori cải tiến 2.5 3.5 4.5 Độ hỗ trợ Apriori Apriori cải tiến FPGrowth FPGrowth song song Hình Thời gian thực thi thuật tốn với liệu BMS_WebView_1 Kết thực nghiệm cho thấy thời gian thực thi thuật toán FP-Growth sử dụng giải thuật song song nhanh nhất, thời gian thực thi thuật toán Apriori cải tiến Apriori cải tiến sử dụng giải thuật song song thời tăng đột biến độ hỗ trợ nhỏ 5.3.2 Tài nguyên thuật tốn sử dụng Bảng 1, 2, trình bày kết thực nghiệm hiệu suất (số lượng tài nguyên sử dụng) thuật toán Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 60% với liệu mushrom Tài nguyên 60 13 120 100 80 60 40 20 Độ hỗ trợ (%) 50 70 80 Độ hỗ trợ Hình Thời gian thực thi thuật toán với liệu mushroom 100 Thời gian (giây) Thời gian (giây) Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh Apriori Apriori cải tiến FPGrowth FPGrowth song song Apriori cải tiến song song 60 CPU (%) 24.94 24.86 24.97 44.21 51.72 RAM (MB) 68.15 67.41 71.54 132.75 148.08 Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 7% với liệu T10I4D100K 50 Độ hỗ trợ (%) Độ hỗ trợ Apriori Apriori cải tiến FPGrowth FPGrowth song song Hình Thời gian thực thi thuật toán với liệu T10I4D100K Tài nguyên Apriori Apriori cải tiến FPGrowth FPGrowth song song Apriori cải tiến song song CPU (%) 24.96 24.93 24.97 50.32 51.40 RAM (MB) 87.42 86.09 89.65 283.68 286.83 14 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 Độ hỗ trợ (%) Tài nguyên Apriori Apriori cải tiến FPGrowth FPGrowth song song Apriori cải tiến song song CPU (%) 24.90 24.95 24.97 42.79 46.73 3.5 RAM (MB) 79.61 80.09 81.42 199.75 196.61 Kết thực nghiệm cho thấy số lượng tài nguyên sử dụng thuật tốn mơi trường xử lý song song gần gấp hai lần thuật toán nhớ RAM (Mb) phần trăm % CPU 5.3.3 Độ xác thuật tốn Vì khơng biết trước tập liệu thực nghiệm có xác tập mục phổ biến, nên để đánh giá độ xác thuật tốn liệt kê danh sách tập mục phổ biến trả từ thuật toán tập liệu so sánh chúng với Nếu chúng giống độ xác Ngược lại khơng xác Do giới hạn số trang báo, Bảng trình bày kết tập mục phổ biến tìm thuật toán liệu mushroom với độ hỗ trợ 80% Kết cho thấy thuật toán sinh 23 tập mục phổ biến giống Thực nghiệm liệu lại cho kết tương tự Như kết luận độ xác thuật tốn 5.4 Nhận xét kết thực nghiệm Kết thực nghiệm cho thấy thời gian thực thi thuật toán FP-Growth, FP-Growth song song nhỏ thuật toán Apriori tuần tự, thuật toán Apriori cải tiến, Apriori cải tiến song song liệu Ta thấy FP-Growth song song thời gian thực nhanh FP-Growth ổn định liệu Thuật toán Apriori cải tiến thời gian thực thi nhanh thuật toán Apriori với độ hỗ trợ lớn, với độ hỗ trợ nhỏ phát sinh số lượng tập 1-item lớn, nên thuật toán Apriori sinh nhiều tập mục ứng viên, thời gian thực thi Apriori cải tiến lớn nhiều so với Apriori Tuy nhiên mặt tài nguyên, thuật toán song song cần sử dụng số lượng tài nguyên lớn khoảng lần so với số lượng tài nguyên mà thuật toán cần dùng So sánh giải thuật song song FP-Growth song song sử dụng thuật tốn Apriori cải tiến song song Bảng Kết tập mục phổ biến thu chạy thuật toán liệu mushroom Supp (%) Apriori Apriori cải tiến FPGrowth FPGrowth song song Apriori cải tiến song song 80 {85} (s:100%) {86} (s:97.54%) {85, 86} (s:97.54%) {34} (s:97.42%) {85, 34} (s:97.42%) {86, 34} (s:97.32%) {86, 85, 34} (s:97.32%) {90} (s:92.17%) {85, 90} (s:92.17%) {85} (s:100%) {86} (s:97.54%) {85, 86} (s:97.54%) {34} (s:97.42%) {85, 34} (s:97.42%) {86, 34} (s:97.32%) {86, 85, 34} (s:97.32%) {90} (s:92.17%) {85, 90} (s:92.17%) {85} (s:100%) {86} (s:97.54%) {85, 86} (s:97.54%) {34} (s:97.42%) {85, 34} (s:97.42%) {86, 34} (s:97.32%) {86, 85, 34} (s:97.32%) {90} (s:92.17%) {85, 90} (s:92.17%) {85} (s:100%) {86} (s:97.54%) {85, 86} (s:97.54%) {34} (s:97.42%) {34, 85} (s:97.42%) {34, 86} (s:97.32%) {34, 85, 86} (s:97.32%) {90} (s:92.17%) {85, 90} (s:92.17%) {85} (s:100%) {86} (s:97.54%) {85, 86} (s:97.54%) {34} (s:97.42%) {85, 34} (s:97.42%) {86, 34} (s:97.32%) {86, 85, 34} (s:97.32%) {90} (s:92.17%) {85, 90} (s:92.17%) Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh Supp (%) FPGrowth song song {86, 90} {86, 90} {86, 90} {86, 90} (s:89.71%) (s:89.71%) (s:89.71%) (s:89.71%) {86, 85, 90} {86, 85, 90} {86, 85, 90} {85, 86, 90} (s:89.71%) (s:89.71%) (s:89.71%) (s:89.71%) {34, 90} {34, 90} {34, 90} {34, 90} (s:89.81%) (s:89.81%) (s:89.81%) (s:89.81%) {34, 85, 90} {34, 85, 90} {34, 85, 90} {34, 85, 90} (s:89.81%) (s:89.81%) (s:89.81%) (s:89.81%) {34, 86, 90} {34, 86, 90} {34, 86, 90} {34, 86, 90} (s:89.71%) (s:89.71%) (s:89.71%) (s:89.71%) {34, 86, 85, 90} {34, 86, 85, 90} {34, 86, 85, 90} {34, 85, 86, 90} (s:89.71%) (s:89.71%) (s:89.71%) (s:89.71%) {36} (s:83.85%) {36} (s:83.85%) {36} (s:83.85%) {36} (s:83.85%) {85, 36} {85, 36} {85, 36} {36, 85} (s:83.85%) (s:83.85%) (s:83.85%) (s:83.85%) {86, 36} {86, 36} {86, 36} {36, 86} (s:81.49%) (s:81.49%) (s:81.49%) (s:81.49%) {86, 85, 36} {86, 85, 36} {86, 85, 36} {36, 85, 86} (s:81.49%) (s:81.49%) (s:81.49%) (s:81.49%) {34, 36} {34, 36} {34, 36} {34, 36} (s:81.27%) (s:81.27%) (s:81.27%) (s:81.27%) {34, 85, 36} {34, 85, 36} {34, 85, 36} {34, 36, 85} (s:81.27%) (s:81.27%) (s:81.27%) (s:81.27%) {34, 86, 36} {34, 86, 36} {34, 86, 36} {34, 36, 86} (s:81.27%) (s:81.27%) (s:81.27%) (s:81.27%) {34, 86, 85, 36} {34, 86, 85, 36} {34, 86, 85, 36} {34, 36, 85, 86} (s:81.27%) (s:81.27%) (s:81.27%) (s:81.27%) Apriori Apriori cải tiến KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày so sánh hiệu số thuật toán khai phá luật kết hợp thuật toán khai phá luật kết hợp sử dụng giải thuật song song, qua ta thấy thuật toán sử dụng giải thuật song song giải FPGrowth 15 Apriori cải tiến song song {86, 90} (s:89.71%) {86, 85, 90} (s:89.71%) {34, 90} (s:89.81%) {34, 85, 90} (s:89.81%) {34, 86, 90} (s:89.71%) {34, 86, 85, 90} (s:89.71%) {36} (s:83.85%) {85, 36} (s:83.85%) {86, 36} (s:81.49%) {86, 85, 36} (s:81.49%) {34, 36} (s:81.27%) {34, 85, 36} (s:81.27%) {34, 86, 36} (s:81.27%) {34, 86, 85, 36} (s:81.27%) vấn đề khai phá liệu liệu lớn tốc độ xử lý Trong tương lai tiếp tục nghiên cứu sâu thuật toán khai phá luật kết hợp sử dụng giải thuật song song, tìm cách cải tiến khắc phục nhược điểm giải thuật song song có, xây dựng thuật toán nhằm đạt hiệu tốt TÀI LIỆU THAM KHẢO [1] [2] [3] [4] R Agrawal; , R Srikant, "Fast algorithms for minning association rules," in In 20th VL.DBConf,, 1994 Jiawei Han , Jian Pei , Yiwen Yin, "Mining Frequent Patterns without Candidate Generation," in SIGMOD, 2000 Z H Deng; , Z Wang; , J Jiang, A New Algorithm for Fast Mining Frequent Itemsets Using N-Lists SCIENCE CHINA Information Sciences, 55 (9), 2008 - 2030, 2012 Aiman Moyaid SaidA; , Dr P D D DominicB; , Dr Azween B AbdullahC, "A Comparative Study of FP-growth Variations," In IJCSNS International Journal of Computer Science and Network Security, no VOL.9 No.5, pp 266-272, May 2009 16 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh [5] Zhi-HongDeng and Sheng-LongLv, "Fast mining frequent itemsets using Nodesets," Expert Systems with Applications, no Volume 41, Issue 10, pp 4505-4512, August 2014 [6] Dawen Xia, Yanhui Zhou, Zhuobo Rong and Zili Zhang, "IPFP: An Improved Parallel FP-Growth Algorithm for Frequent Itemsets Mining," Proceedings 59th ISI World Statistics Congress, vol Hong Kong (Session CPS026), p 4034, 25-30 August 2013 [7] Yanbin Ye and Chia-Chu Chiang, "A Parallel Apriori Algorithm for Frequent Itemsets Mining," in Fourth International Conference on Software Engineering Research, Management and Applications (SERA'06), Seattle, WA, USA, 2006 [8] Yi Wang , Haoyuan Li , Dong Zhang , Ming Zhang , Edward Chang, "PFP: Parallel FP-Growth for Query Recommendation," in ACM, 2001 [9] Girja Shankar , Latita Bargadiya, "A New Improved Apriori Algorithm For Association Rules Mining," International Journal of Engineering Research & Technology (IJERT), vol 2, no 6, June 2013 [10] Douglas Gregor, Benjamin Martin, MPI.NET Tutorial in C#, Open Systems Laboratory, Indiana University., 2008 Tác giả chịu trách nhiệm viết: Nguyễn Thành Sơn Trường Đại học Sư phạm Kỹ thuật TP.HCM Email: sonnt@hcmute.edu.vn ... hợp mục phổ biến KHAI PHÁ LUẬT KẾT HỢP TRONG MÔI TRƯỜNG XỬ LÝ SONG SONG 4.1 Khai phá luật kết hợp sử dụng giải thuật song song Khai phá luật kết hợp sử dụng giải thuật song song dựa ý tưởng khai. .. thi giai đoạn Trong thuật toán dùng khai phá luật kết hợp, thuật toán FP-Growth thường sử dụng giải thuật xử lý song song tính hiệu Khai phá luật kết hợp môi trường xử lý song song thực qua bước... cải tiến KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày so sánh hiệu số thuật toán khai phá luật kết hợp thuật toán khai phá luật kết hợp sử dụng giải thuật song song, qua ta thấy thuật toán sử

Ngày đăng: 02/11/2020, 13:10

Xem thêm: