Khai thác tập mục thường xuyên trong cơ sở dữ liệu lớn với thuật toán quét đơn

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG TRẦN THỊ LỤA KHAI THÁC TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN VỚI THUẬT TOÁN QUÉT ĐƠN LUẬN VĂN THẠC SĨ KHÁNH HÒA – 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG TRẦN THỊ LỤA KHAI THÁC TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN VỚI THUẬT TOÁN QUÉT ĐƠN LUẬN VĂN THẠC SĨ Ngành: Công nghệ thông tin Mã số: 8480201 Quyết định giao đề tài: Quyết định thành lập HĐ: 453/QĐ – ĐHNT ngày 05/5/2019 1523/QĐ -ĐHNT ngày 27/11/2019 Ngày bảo vệ: 23/12/2019 Người hướng dẫn khoa học TS NGUYỄN HỮU TRỌNG Chủ tịch Hội đồng Phòng đào tạo sau đại học: KHÁNH HÒA - 2019 LỜI CAM ĐOAN Tôi xin cam đoan kết đề tài: “Khai thác tập mục thường xuyên sở liệu lớn với thuật tốn qt đơn” cơng trình nghiên cứu cá nhân tơi chưa cơng bố cơng trình khoa học khác thời điểm Khánh Hòa, Ngày 31 tháng 12 năm 2019 Tác giả luận văn TRẦN THỊ LỤA iii LỜI CẢM ƠN Trong suốt thời gian thực đề tài, nhận giúp đỡ quý phòng ban trường Đại học Nha Trang, Khoa Công nghệ thông tin tạo điều kiện tốt cho tơi hồn thành đề tài Đặc biệt hướng dẫn tận tình TS Nguyễn Hữu Trọng giúp tơi hồn thành tốt đề tài Xin bày tỏ lòng biết ơn chân thành tới thầy giáo, cô giáo, người đem lại cho kiến thức vơ q giá, có ích năm học vừa qua Mặc dù có nhiều cố gắng trình nghiên cứu, song khả kinh nghiệm thân có hạn, nên luận văn không tránh khỏi tồn tại, hạn chế thiếu sót Vì tơi mong nhận đóng góp chân thành thầy giáo, giáo, đồng nghiệp nhằm bổ sung hoàn thiện q trình nghiên cứu Cuối tơi xin gửi lời cảm ơn chân thành đến gia đình, bạn bè đồng nghiệp tập thể lớp cao học Cơng nghệ thơng tin khóa giúp đỡ, động viên tơi suốt q trình học tập thực đề tài Tôi xin chân thành cảm ơn! Khánh Hòa, ngày 31 tháng 12 năm 2019 Tác giả luận văn TRẦN THỊ LỤA iv MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC KÝ HIỆU vii DANH MỤC CHỮ VIẾT TẮT viiii DANH MỤC BẢNG ix DANH MỤC HÌNH x TRÍCH YẾU LUẬN VĂN xii LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Các khái niệm 1.1.1 Khái niệm khai phá tri thức khai phá liệu 1.1.2 Lịch sử phát triển KPDL 1.1.3 Sự cần thiết khai phá liệu 1.2 Các công đoạn khám phá tri thức từ sở liệu 1.2.1 Chọn lọc liệu 1.2.2 Làm liệu 2.3 Mã hóa liệu 2.4 Khai phá liệu 1.2.5 Trình diễn liệu 1.3 Ứng dụng khai phá liệu Khái quát kỹ thuật khai phá liệu 10 1.5 Những thách thức khai phá liệu 11 CHƯƠNG CÁC THUẬT TỐN CƠ BẢN TÌM TẬP MỤC THƯỜNG XUYÊN 12 2.1 Một số khái niệm 12 2.1.1 Cơ sở liệu giao tác 12 2.1.2 Tính chất tập thường xuyên 15 2.2 Khai phá luật kết hợp 15 2.3 Một số thuật toán khai phá tập mục thường xuyên luật kết hợp 17 2.4 Thuật toán Apriori 18 v 2.5 Thuật toán FP-Growth 20 CHƯƠNG KHAI THÁC MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN VỚI THUẬT TOÁN QUÉT ĐƠN HIỆU QUẢ 24 3.1 Giới thiệu 24 3.2 Các hướng tiếp cận khai phá tập thường xuyên 26 3.3 Khai phá tập mục thường xuyên phương pháp quét đơn (Single Scan Frequent Itemset Mining - SSFIM) 28 3.3.1 Mơ tả thuật tốn 28 3.3.2 Minh họa thuật toán 29 3.3.3 Phân tích lý thuyết 32 3.4 Thuật toán EA-SSFIM (Evolutionary Algorithm - Single Scan Frequent Itemset Mining) 33 3.4.1 Ý tưởng thuật toán 33 3.4.2 Quá trình tạo cá thể 33 3.5 Thuật toán MR-SSFIM (Map/Reduce - Single Scan Frequent Itemset Mining) 36 3.5.1 Mơ tả thuật tốn 36 3.5.2 Minh họa thuật toán 39 3.6 Đánh giá kết thuật toán SSFIM 40 Apriori SSFIM 41 3.7 Hiệu suất EA-SSFIM 43 3.8 Hiệu suất MR-SSFIM 43 CHƯƠNG 45 PHÁT TRIỂN THUẬT TOÁN QUÉT ĐƠN SSFIM TRÊN 45 CƠ SỞ DỮ LIỆU GIA TĂNG 45 4.1 Mở đầu 45 4.2 Phát triển thuật toán SSFIM sở liệu gia tăng 45 4.2.1 Ý tưởng thuật toán phát triển 45 4.2.3 Minh họa thuật toán 46 4.2.4 Cài đặt thử nghiệm thuật toán 50 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 5.1 Kết luận 51 5.2 Hướng phát triển 52 TÀI LIỆU THAM KHẢO 53 vi DANH MỤC KÝ HIỆU I = {x1, x2, …, xn}: Tập n mục liệu T = {t1, t2, …, tm}: Cơ sở liệu T có m giao tác ti: Giao tác thứ i m: Số giao tác sở liệu giao tác n: Số mục liệu sở liệu giao tác A, B, C…: Tên mục liệu sở liệu X, Y,…: Tập tập mục liệu I; X, Y ⊆ I X = ABC: thay cho X = {A,B,C} sở liệu giao tác S = 1234: Thay cho S = {t1, t2, t3, t4} ví dụ minh họa minsup: Ngưỡng độ hỗ trợ tối thiểu minconf: Ngưỡng độ tin cậy tối thiểu ∥X∥: Số phần tử tập hợp X xj: Mục liệu thứ j supp(X) : Độ hỗ trợ tập mục X supp(X→Y): Độ hỗ trợ luật kết hợp X → Y conf ( X → Y ) : Độ tin cậy luật kết hợp X → Y vii DANH MỤC CHỮ VIẾT TẮT BFS : Breadth First Search (Duyệt theo chiều rộng) CNTT : Công nghệ Thông tin CSDL : Cơ sở liệu DFS : Depth First Search (Duyệt theo chiều sâu) EA : Evolutionary Algorithm (Thuật tốn tiến hóa) FIM : Frequent Itemset Mining (Khai thác tập mục thường xuyên) GPU : Graphical Processing Unit (Bộ xử lý đồ hoạ) HPC : High Performance Computing (Tính tốn hiệu cao) KDD : Knowledge Discovery in Database (Khám phá tri thức sở liệu) KPDL : Khai phá liệu MR : MapReduce SSFIM : Single Scan Frequent Itemset Mining (Khai thác tập mục thường xuyên phương pháp quét đơn) viii DANH MỤC BẢNG Bảng 2.1 Biểu diễn sở liệu giao tác ngang 12 Bảng 2.2 Biểu diễn sở liệu giao tác dọc 13 Bảng 2.3 Biểu diễn sở liệu giao tác ma trận 13 Bảng 3.1 Bảng so sánh kết thời gian chạy thuật toán Apriori SSFIM 41 Bảng 3.2 Thời gian chạy phương pháp SS-FIM Apriori với độ hỗ trợ tối thiểu khác liệu 41 Bảng 3.3 Bảng so sánh thuật toán Apriori thuật toán SSFIM 42 Bảng 4.1 CSDL giao tác T 46 Bảng 4.2 CSDL giao tác T’ 46 Bảng 4.3 Bảng so sánh kết chạy thuật tốn khơng gia tăng (SSFIM) thuật toán gia tăng 50 ix DANH MỤC HÌNH Hình 1.1 Vị trí KPDL Hình 2.1 Phân loại thuật toán khai phá luật kết hợp 17 Hình 2.2 Kết thuật tốn Apriori 19 Hình 2.3 Những biến đổi liệu FP_Tree 21 Hình 2.4 FP_Tree liệu bảng 2.1 21 Hình 2.5 Thành phần FP_Tree 22 Hình 3.1 Minh họa phương pháp tiếp cận SS-FIM 31 Hình 3.2 Khung MR-SSFIM 36 Hình 3.3 Minh họa MR-SSFIM 39 Hình 4.1 Minh họa thuật tốn phát triển SSFIM CSDL gia tăng 49 x Bảng 3.1 Bảng so sánh kết thời gian chạy thuật toán Apriori SSFIM Kiểu tập Tổng số Số mục liệu giao tác liệu 50 9 490 25 12 8.758 137 9.975 Nhỏ Trung bình Lớn Thời gian tính (giây) Tổng số Số mục mục dữ liệu Ngưỡng hỗ tối đa liệu trợ tối thiểu thường giao dịch xuyên Apriori SSFIM 20 30 97 118 254 100 102 2.420 148 16 100 168 3.540 930 49.900 92 17 100 100 15.731 1.060 1999997 90 16 100.000 84 13.020 8.240 Bảng 3.2 Thời gian chạy phương pháp SS-FIM Apriori với độ hỗ trợ tối thiểu khác liệu Thời gian tính (giây) Tổng số giao tác 45.000 Ngưỡng hỗ trợ tối thiểu Apriori SSFIM 100 15.731 1.060 200 7.200 1.060 300 3.600 1.060 400 3.100 1.060 500 2.820 1.060 Dựa vào bảng kết quả, thấy, số liệu cho kết tìm tập thường xun thuật tốn xác Mỗi thuật tốn có, ưu nhược điểm riêng So sánh thuật toán Apriori thuật toán SSFIM 41 Bảng 3.3 Bảng so sánh thuật toán Apriori thuật toán SSFIM Apriori - Quét nhiều lần sở liệu SSFIM - Quét lần sở liệu - Theo lý thuyết độ phức tạp thuật - Độ phức tạp thuật toán là: toán là: o(m  n2 ) , m số lượng giao o(m(2T )) , m số lượng giao dịch max dịch sở liệu T n số lượng sở liệu T Tmax số lượng mục sở liệu tập mục tối đa giao dịch Giá trị Tmax nhỏ nhiều so với số lượng mục sở liệu nên độ phức tạp thuật toán SSFIM bé độ phức tạp thuật toán Apriori - Đối với sở liệu nhỏ thời gian - Đối với sở liệu nhỏ thời gian thực nhanh thuật toán SSFIM thực lớn thuật toán Apriori - Khi thay đổi độ hỗ trợ tối thiểu thời - Khi thay đổi độ hỗ trợ tối thiểu thời gian thực tăng gian thực ổn định bé thời gian thực thuật toán Apriori - Apriori cách tiếp cận dựa - SSFIM không phụ thuộc với thay mục liệu, số lượng ứng cử đổi độ hỗ trợ tối thiểu Điều viên tạo phụ thuộc vào hỗ chứng minh thực tế trợ tối thiểu SSFIM cách tiếp cận dựa giao dịch, số lượng mục ứng viên tạo không phụ thuộc vào độ hỗ trợ tối thiểu chọn - Trường hợp liệu lớn cách - Trường hợp liệu lớn cách thay đổi số lượng giao dịch xem thay đổi số lượng giao dịch từ 10% đến xét quy trình khai thác từ 10% 100% thời gian chạy SSFIM đến 100% thời gian chạy thuật tương đối ổn định với gia tăng số toán Apriori tăng lên lượng giao dịch so với thuật toán Apriori 42 3.7 Hiệu suất EA-SSFIM Trong thử nghiệm này, nhóm tác giả Youcef Djenouri, Djamel Djenouri, Jerry Chun-weilin, Asma Belhadi [8] so sánh EA-SSFIM với SSFIM với kết sau: Đối với trường hợp liệu nhỏ trung bình, tỷ lệ phần trăm hài lòng cho tất thuật toán tương đối cao Đối với trường hợp liệu rộng lớn kết cho thấy EASSFIM vượt trội thuật toán G3PARM chiếm 95% mục thường xuyên trường hợp Kết giải thích EA-SSFIM thiết kế có khả xử lý không gian giải pháp lớn lớn SSFIM thủ tục tiến hóa, khơng gian giải pháp SSFIM giảm (chỉ xem xét mục giao dịch), khám phá tốt thủ tục tiến hóa Điều trái ngược với G3PARM, nơi không gian giải pháp xác định tất mục Đánh giá thời gian thực (tính giây) EASSFIM SSFIM cách sử dụng liệu lớn Wikilinks ((http://www.iesl.cs.umass.edu/data/wiki-links) Bằng cách thay đổi tỷ lệ phần trăm giao dịch từ 20% đến 100%, EA-SSFIM vượt trội so với SSFIM Để khai thác tất giao dịch (100%), thời gian chạy SSFIM vượt 60000 giây, thời gian chạy EA-SSFIM 19000 giây Những kết chứng minh kết hợp SSFIM thủ tục tiến hóa để khám phá khơng gian giải pháp lớn Tuy nhiên, thời gian chạy cao trường hợp liệu lớn Wikilinks 3.8 Hiệu suất MR-SSFIM Trong thử nghiệm này, nhóm tác giả Youcef Djenouri, Djamel Djenouri, Jerry Chun-weilin, Asma Belhadi [8] cho thấy tốc độ tăng tốc MR-SSFIM so với phiên sử dụng liệu nhỏ, vừa lớn, cách thay đổi số lượng nút từ đến 32 với liệu khác Kết cho thấy tốc độ tăng tốc MRSSFIM tăng đáng kể theo số lượng nút Cụ thể, trường hợp lớn, tốc độ tăng lên tới 700 Những kết tạo cải thiện đáng kể cách tiếp cận song song SSFIM Họ chứng minh MR-SSFIM hiệu tăng số lượng nút kích thước sở liệu 43 Kết luận SSFIM, cách tiếp cận khai thác mục thường xuyên hiệu cho sở liệu lớn đề xuất Nó nhằm mục đích khai thác mục thường xuyên với lần quét sở liệu giao dịch Hai biến thể EA-SSFIM MRSSFIM phát triển dựa phương pháp tiến hóa mơ hình Map/Reduce tương ứng Đánh giá thử nghiệm cho thấy SSFIM vượt trội thuật tốn FIM cho kích thước sở liệu khác 44 CHƯƠNG PHÁT TRIỂN THUẬT TOÁN QUÉT ĐƠN SSFIM TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG 4.1 Mở đầu Rất nhiều công trình nghiên cứu khai phá liệu, từ thuật toán AIS lần Agrawal R giới thiệu năm 1993 [25] công bố gần đây, chủ yếu xử lý tập liệu xác định trước Ta biết rằng, tập liệu bổ sung gia tăng theo thời gian, tập thường xuyên luật kết hợp tính tốn khơng cịn giá trị tập liệu Ngoài ra, với liệu ổn định, cần tìm tập thường xuyên với độ hỗ trợ khác, cơng việc phải tính lại từ đầu Chương trình bày thuật tốn khai phá tập mục thường xuyên sở liệu gia tăng dựa vào việc cải tiến thuật toán quét đơn SSFIM 4.2 Phát triển thuật toán SSFIM sở liệu gia tăng 4.2.1 Ý tưởng thuật toán phát triển Với CSDL giao tác T = {t1, t2, …, tm} tập mục liệu I = {x1, x2, …, xn} Khi tìm tập mục liệu thường xuyên theo ngưỡng minsup đó, ta cần tính độ hỗ trợ tất tập ứng viên lưu lại: HT = {(X, Sup) | X tập ứng viên Sup = Supp(X)} Khi liệu chưa gia tăng, cần tìm tập mục liệu thường xuyên có độ hỗ trợ S1 > minsup, cơng việc đơn giản lọc từ HT để tạo tập: FS1 = {X | (X, Sup)  HT Sup  S1} Dữ liệu gia tăng Với CSDL giao tác T={t1, t2, …, tm} tập mục liệu I={x1, x2, …, xn} Khi liệu tăng thêm với CSDL giao tác T’={t’1, t’2, …, t’m’} tập thuộc tính I’={ x’1, x’2, …, x’n} Sau làm gia tăng liệu ta CSDL giao tác T=TT’ 45 Bước 1: Load HT (tập ứng viên độ hỗ trợ) CSDL T tính trước vào - Root Bước 2: Chạy thuật toán SSFIM cho CSDL T’ vào Root Sau chạy xong SSFIM T’ ta lưu lại HT với T=TT’ 4.2.3 Minh họa thuật toán Với CSDL T={t1, t2, …, t5} tập mục liệu I = {a, b, c, d,e} cho hình 3.1 sau: Bảng 4.1 CSDL giao tác T TID t1 t2 t3 t4 t5 Items {a,b} {b,c,d} {a,b,c} {e} {c,d,e} Khi liệu tăng thêm với CSDL giao tác T’ = {t’1, t’2, …, t’5} tập thuộc tính I’={a, b, c, d, e, f, g} sau: Bảng 4.2 CSDL giao tác T’ TID t’1 t’2 t’3 t’4 t’5 Items {b,e} {a,c,e} {c,d} {e,f,g} {d,g} Sau làm gia tăng liệu ta CSDL giao tác T = T  T’ Bước Chạy thuật tốn SSFIM ta có tập ứng viên độ hỗ trợ HT sau, lưu lại HT 46 HT a b ab c d bc bd cd bcd ac abc e ce de cde 2 2 1 1 Bước - Load HT - Thực thuật toán SSFIM CSDL T’ HT TID t’1 t’2 t’3 t’4 t’5 Items {b,e} {a,c,e} {c,d} {e,f} {d,g} a b ab c d bc bd cd bcd ac abc e ce de cde be Items b e be 47 2 2 1 1 1 HT TID t’1 t’2 t’3 t’4 t’5 Items {b,e} {a,c,e} {c,d} {e,f} {d,g} a b ab c d bc bd cd bcd ac abc e ce de cde be ae ace Items a c e ac ae ce ace 2 1 1 HT TID t’1 t’2 t’3 t’4 t’5 Items {b,e} {a,c,e} {c,d} {e,f} {d,g} a b ab c d bc bd cd bcd ac abc e ce de cde be ae ace Items c d cd 48 4 2 2 1 1 a b ab c d bc bd cd bcd ac abc e ce de cde be ae ace f ef HT TID t’1 t’2 t’3 t’4 t’5 Items {b,e} {a,c,e} {c,d} {e,f} {d,g} Items e f ef 4 2 2 1 1 1 HT TID t’1 t’2 t’3 t’4 t’5 Items {b,e} {a,c,e} {c,d} {e,f} {d,g} a b ab c d bc bd cd bcd ac abc e ce de cde be ae ace f ef g dg Items d g dg 4 2 1 1 1 1 Hình 4.1 Minh họa thuật toán phát triển SSFIM CSDL gia tăng 49 4.2.4 Cài đặt thử nghiệm thuật toán Tiến hành cài đặt thuật tốn chạy máy tính Intel Core i5-7200U 2.50 GHZ, trình thử nghiệm sau: Cơ sở liệu giao tác T có m giao tác n mục liệu Chạy thuật toán SSFIM thời gian Sec0 giây Sau liệu gia tăng thêm tập T’ có m’ giao tác, giống giao tác T, chạy thuật toán gia tăng thời gian Sec1 giây Sau chạy thuật tốn khơng gia tăng tập T  T’, thời gian chạy Sec2 giây Kết thử nghiệm sau: Bảng 4.3 Bảng so sánh kết chạy thuật tốn khơng gia tăng (SSFIM) thuật toán gia tăng CSDL Số giao tác Số mục Thời gian (s) liệu giao tác giảm SSFIM Dữ liệu Dữ liệu Tỷ lệ thời gian T 89.650 300 41 T’ 89.830 300 35 TT’ 179.480 300 97 T 98.241 200 2.290 T’ 98.288 200 1.834 TT’ 196.529 200 7.151 Gia tăng 57 41% 3.317 53,6% Kết luận Dựa vào bảng kết thực nghiệm ta thấy thuật toán phát triển SSFIM sở liệu gia tăng giải vấn đề sau: Với CSDL lớn, theo thời gian, liệu tăng thêm tập T’, thuật toán phát triển SSFIM sở liệu tăng trưởng tính tốn lại độ hỗ trợ tập ứng viên HT dựa vào tập liệu tăng thêm T’, không cần tính tốn lại từ đầu, tiết kiệm nhiều thời gian tính tốn 50 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Trong trình tìm hiểu hồn thành luận văn tốt nghiệp với đề tài “Khai thác tập mục thường xuyên sở liệu lớn với thuật toán quét đơn” thân đạt số kết định sau: Về mặt lý thuyết, luận văn trình bày kiến thức tổng quan khai phá liệu, trình bày số khái niệm tập mục, cách tiếp cận khai phá tập mục thường xun, số thuật tốn điển hình tìm tập mục thường xun thuật tốn Apriori, thuật tốn FP-Growth Trình bày thuật tốn qt đơn SSFIM hai thuật tốn phát triển thuật toán EA-SSFIM MR-SSFIM Đặc biệt nêu phần mở đầu, mục tiêu luận văn phát triển thuật toán khai phá tập mục thường xuyên sở liệu gia tăng, luận văn nghiên cứu phát triển thuật toán quét đơn SSFIM sở liệu gia tăng Dữ liệu tăng thêm tập T’, thuật toán phát triển SSFIM sở liệu gia tăng tính tốn lại độ hỗ trợ tập ứng viên dựa vào tập liệu tăng thêm T’, khơng cần tính tốn lại từ đầu, tiết kiệm nhiều thời gian tính tốn Về mặt chương trình, cài đặt thuật toán SSFIM thuật toán phát triển SSFIM sở liệu gia tăng, từ đánh giá kết thuật tốn, phân tích ưu điểm nhược điểm thuật toán Hạn chế luận văn chưa cài đặt thuật toán EA-SSFIM, MR-SSFIM, đánh giá hai thuật toán dựa vào kết nghiên cứu Youcef Djenouri cộng [8] Khai thác tập mục thường xuyên khai phá liệu lĩnh vực nghiên cứu rộng lớn, đạt luận văn nhỏ bé, để khám phá tri thức, cần cố gắng tiếp tục nghiên cứu, tìm hiểu nhiều nữa, đặc biệt phương pháp, cách tiếp cận khai thác tập mục thường xuyên, từ có nhìn tốt hơn, bao qt lựa chọn thuật toán tối ưu giải toán khai thác tập mục thường xuyên 51 5.2 Hướng phát triển Với mà luận văn thực đạt được, hướng phát triển sau luận văn sau: Tìm hiểu sâu thuật tốn EA-SSFIM, MR_SSFIM cài đặt hai thuật tốn Tìm hiểu thuật toán khai thác tập mục thường xuyên sở liệu gia tăng Các thuật toán khai phá luật kết hợp liệu gia tăng liên quan đến yếu tố thời gian Việc đưa yếu tố thời gian vào sở liệu công việc phức tạp, đòi hỏi nghiên cứu sâu thêm thuật tốn khai phá luật kết hợp có yếu tố thời gian: • Nghiên cứu thuật tốn khai phá luật kết hợp sở liệu có yếu tố thời gian • Khai phá luật kết hợp sở liệu có trọng số 52 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt Nguyễn Hữu Trọng, Bài giảng tổng quan khai phá liệu Nguyễn Hữu Trọng (2007), Thuật toán khai thác tập thường xuyên hiệu dựa kỹ thuật phân lớp liệu, Tạp chí Tin học Điều khiển học, Viện Khoa học Công Nghệ Việt Nam, Số 3, tập 23, trang 260-271 Nguyễn Hữu Trọng (2007), Thuật toán khai phá tập mục liệu thường xuyên sở liệu gia tăng dựa phân lớp liệu, Tạp chí Khoa học Cơng nghệ, Viện Khoa học Công Nghệ Việt Nam, Số 3, tập 45, trang 15-26 Nguyễn Hữu Trọng (2007), Thuật toán khai thác luật kết hợp sở liệu gia tăng theo chiều ngang Hội nghị Nghiên cứu ứng dụng Công nghệ Thông tin lần thứ FAIR-3, Nha Trang Nguyễn Đức Thuần (2013)., Phát tri thức khai phá liệu, NXB Thông tin Truyền thông Hà Nội Nguyễn Đức Thuần, Bài giảng mơn khai phá liệu Hồng Kiếm - Đỗ Phúc (2005), Giáo trình khai phá liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh Tài liệu Tiếng Anh Youcef Djenouri, Djamel Djenouri, Jerry Chun-weilin, Asma Belhadi (2017), Frequent Itemset Mining in Big Data with Effective Single Scan Algorithms, 10.1109/ACCESS.2017, IEEE Access M.J.Zaki and C.J.Hsiao (2002),“Charm:An efﬁcient algorithm for closed itemset mining” in Proceedings of the 2002 SIAM international conference on data mining SIAM, pp 457–473 10 G Lee and U Yun (2018), “Single-pass based efﬁcient erasable pattern mining using list data structure on dynamic incremental databases,” Future Generation Computer Systems, vol 80, pp 12–28 11 Y Yuan, G Wang, J Y Xu, and L Chen (2015), “Efficient distributed subgraph similarity matching,” The VLDB Journal, vol 24, no 3, pp 369-394 53 12 B Schlegel, T Kiefer, T Kissinger, and W Lehner (2013), “Pcapriori: scalable apriori for multiprocessor systems,” in Proceedings of the 25th Inter¬national Conference on Scientific and Statistical Database Management ACM, p 20 13 Y Djenouri, M Comuzzi, and D Djenouri (2017), “SS-FIM: Single scan for frequent itemsets mining in transactional databases,” in Pacific-Asia Con¬ference on Knowledge Discovery and Data Mining Springer, pp 644654 14 H Huang, X Wu, and R Relue (2002), “Association analysis with one scan of databases,” in IEEE International Conference on Data Mining, pp 630-632 15 D Apiletti, E Baralis, T Cerquitelli, P Garza, F Pulvirenti, and L Ven- turini (2017), “Frequent itemsets mining for big data: a comparative analysis,” Big Data Research, vol 9, pp 67-83 16 L Jian, C Wang, Y Liu, S Liang, W Yi, and Y Shi (2013), “Parallel data mining techniques on graphics processing unit with compute unified device architecture (cuda),” The Journal of Supercomputing, vol 64, no 3, pp 942967 17 Y Li, J Xu, Y H Yuan, and L Chen (2017), “A new closed frequent itemset min¬ing algorithm based on gpu and improved vertical structure,” Concurrency and Computation: Practice and Experience, vol 29, no 18 X Gu, Y Zhu, S Zhou, C Wang, M Qiu, and G Wang (2016), “A real-time fpga- based accelerator for ecg analysis and diagnosis using association-rule mining,” ACM Transactions on Embedded Computing Systems, vol 15, no 2, p 25 19 S Moens, E Aksehirli, and B Goethals (2013), “Frequent itemset mining for big data,” in Big Data, 2013 IEEE international conference on IEEE, pp 111118 20 N Talukder and M J Zaki (2016), “A distributed approach for graph mining in massive networks,” Data Mining and Knowledge Discovery, vol 30, no 5, pp 1024-1052 54 21 Y Xun, J Zhang, and X Qin (2016), “Fidoop: Parallel mining of frequent itemsets using mapreduce,” IEEE transactions on Systems, Man, and Cybernetics: systems, vol 46, no 3, pp 313-325 22 Y Xun, J Zhang, X Qin, and X Zhao (2017), “Fidoop-dp: data partitioning in frequent itemset mining on hadoop clusters,” IEEE Transactions on Parallel and Distributed Systems, vol 28, no 1, pp 101-114 23 Ulrich Guntzer, Jochen Hipp, Gholamreza (2000), "Algorithms for Association Rule Mining – A General Survey and Comparison", ACM SIGKDD Explorations Newsletter, Volume Issue 1, pp 58-64 24 Agrawal, R., Srikant, R (1994), "Fast algorithms for mining association rules", In Proc 20th Int Conf Very Large Data Bases, VLDB, J B Bocca, M Jarke, and C Zaniolo, Eds Morgan Kaufmann, pp 487-499 25 Agrawal, R., Imielinski, T., Swami, A N (1993) "Mining association rules between sets of items in large databases", Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207 – 216 26 J Han, J Pei, Y Yin, and R Mao (2004), “Mining frequent patterns without candidate generation: A frequent-pattern tree approach,” Data Mining and Knowledge Discovery, vol 8, no 1, pp 53–87 27 M Hegland (2007), “The apriori algorithm-a tutorial,” in Mathematics and com¬putation in imaging science and information processing World Scientific, pp 209-262 28 Y Djenouri, D Djenouri, and Z Habbas (2018), “Intelligent mapping between gpu and cluster computing for discovering big association rules,” Applied Soft Computing, vol 65, pp 387-399 29 J Dean and S Ghemawat (2008), “Mapreduce: simplified data processing on large clusters,” Communications of the ACM, vol 51, no 1, pp 107-113 30 T Friedrich, T Kotzing, and M Wagner (2017), “A generic bet-and-run strategy for speeding up stochastic local search.” in AAAI, pp 801-807 55 ... tập mục liệu ứng viên tìm tập mục liệu thường xuyên Tập mục liệu ứng viên tập mục liệu mà ta phải tính độ hỗ trợ để xem có phải tập mục liệu thường xuyên hay không Tập mục liệu thường xuyên tập. .. Các thuật tốn tìm tập thường xun Trình bày thuật tốn tìm tập thường xun thuật toán Apriori, thuật toán FP-Growth Chương 3: Khai thác tập thường xuyên sở liệu lớn với thuật tốn qt đơn Trình bày thuật. .. CHƯƠNG KHAI THÁC MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN VỚI THUẬT TOÁN QUÉT ĐƠN HIỆU QUẢ 3.1 Giới thiệu FREQUENT Itemset Mining (FIM) trình khai thác mục thường xuyên có tương quan cao sở liệu giao

Định dạng
Số trang	67
Dung lượng	843,61 KB