Phát triển thuật toán khai phá luật kết hợp dựa vào sự phân lớp dữ liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Bùi Chí Thành PHÁT TRIỂN THUẬT TỐN KHAI PHÁ LUẬT KẾT HỢP DỰA VÀO SỰ PHÂN LỚP DỮ LIỆU Chuyên ngành: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN HỮU TRỌNG HÀ NỘI – 2013 LỜI CẢM ƠN Trước hết, tác giả muốn gửi lời cảm ơn đến người Thầy hướng dẫn khoa học TS Nguyễn Hữu Trọng - Trường Đại học Nha Trang làm công việc tuyệt vời Mặc dù bận rộn với với tư cách nhà quản lý, nhà nghiên cứu giảng viên thầy luôn dành thời gian để giúp đỡ, hỗ trợ tác giả hoàn thành luận văn Tác giả xin chân thành cảm ơn quý Thầy Cô Viện Công nghệ thông tin Truyền Thông – Trường Đại học Bách Khoa Hà Nội, quý Thầy cô Trường Đại học Nha Trang, … quan tâm giúp đỡ tận tâm trình học tập, nghiên cứu q trình hồn thành luận văn Cuối xin chân thành cảm ơn đến người vợ thân yêu, người thân, bạn bè đồng nghiệp động viên, giúp đỡ suốt trình học tập viết luận văn Hà Nội, tháng năm 2013 Bùi Chí Thành LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu hướng dẫn TS Nguyễn Hữu Trọng Các số liệu, kết nêu luận án trung thực chưa công bố cơng trình khác Hà Nội, ngày 15 tháng năm 2013 Bùi Chí Thành MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BIỂU BẢNG .7 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .11 1.1 MỞ ĐẦU 11 1.2 CÁC MƠ HÌNH KHAI PHÁ DỮ LIỆU 14 1.2.1 Luật kết hợp 14 1.2.2 Phân lớp liệu 15 1.2.3 Phân nhóm liệu 16 1.3 CÁC KHÁI NIỆM CƠ BẢN 17 1.3.1 Cơ sở liệu giao tác .17 1.3.2 Tính chất tập thường xuyên .20 1.4 KHAI PHÁ LUẬT KẾT HỢP .21 1.4.1 Cách tiếp cận khai phá luật kết hợp 21 1.4.2 Nhóm thuật tốn duyệt theo chiều rộng 23 1.4.3 Nhóm thuật tốn duyệt theo chiều sâu 29 1.4.4 Thuật toán Partition_P_Tree .36 1.4.5 Thuật toán phân hoạch kép 37 1.5 KẾT LUẬN .39 CHƯƠNG PHÁT TRIỂN THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP DỰA VÀO SỰ PHÂN LỚP DỮ LIỆU 40 2.1 PHÂN LỚP DỮ LIỆU 40 2.1.1 Một số định nghĩa CSDL giao tác .40 2.1.2 Phân lớp CSDL giao tác 41 2.2 THUẬT TOÁN PHÂN LỚP DỮ LIỆU 42 2.2.1 Mô tả toán 42 2.2.2 Xử lý 42 2.3 PHÁT TRIỂN THUẬT TỐN TÌM TẬP THƯỜNG XUN TRÊN CSDL ĐÃ PHÂN LỚP .45 2.3.1 Phát triển thuật toán xây dựng FP_Tree 45 2.3.2 Thuật toán Apriori 45 2.4 VÍ DỤ MINH HỌA 46 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 50 3.1 CẤU TRÚC DỮ LIỆU 50 3.2 CÁC THỦ TỤC CÀI ĐẶT .51 3.3 KẾT QUẢ THỬ NGHIỆM .57 3.4 ĐÁNH GIÁ THUẬT TOÁN 58 PHẦN KẾT LUẬN 59 NHỮNG KẾT QUẢ ĐẠT ĐƯỢC 59 HƯỚNG PHÁT TRIỂN 60 TÀI LIỆU THAM KHẢO 61 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Trong suốt luận văn này, ký hiệu, chữ viết tắt dùng thống nhất: Ký hiệu: I = {x , x , …, x n }: Tập n mục liệu T = {t , t , …, t m }: Cơ sở liệu có m giao tác x j : Mục liệu thứ j t i : Giao tác thứ i m: Số giao tác sở liệu giao tác n: Số mục liệu sở liệu giao tác A, B, C, …: Tên mục liệu sở liệu giao tác ví dụ X, Y: Là tập tập mục liệu I, X, Y ⊆ I S: Là tập giao tác sở liệu giao tác T, S ⊆ T X = ABC thay cho X = {A, B, C} ví dụ minh họa S = 1234 thay cho S = {t , t , t , t } ví dụ minh họa S , Minsup: Ngưỡng tối thiểu Supp(x i ) thay cho Supp({x i }) ∥X∥: Số phần tử tập hợp X Subset(U) = {X | X ⊆ U}: Tập tập U Viết tắt: CSDL: Cơ sở liệu DL: Dữ liệu MDL: Mục liệu TT: Thuật toán DANH MỤC CÁC BIỂU BẢNG Bảng 1.1 Biểu diễn ngang sở liệu giao tác .18 Bảng 1.2 Biểu diễn dọc sở liệu giao tác 18 Bảng 1.3 Ma trận giao tác sở liệu giao tác cho bảng 1.1 .19 Bảng 2.1 CSDL giao tác mẫu 496 Bảng 2.2 CSDL xếp giảm dần độ hỗ trợ 47 Bảng 2.3 CSDL có trọng số rút gọn 48 Bảng 2.4 CSDL có trọng số loại bỏ mục không thường xuyên 49 Bảng 2.5 CSDL có trọng số rút gọn thỏa ngưỡng S =2 49 Bảng 3.1 So sánh kết trước sau phân lớp 57 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Q trình khám phá tri thức .12 Hình 1.2 Kiến trúc hệ thống khai phá liệu 13 Hình 1.3 Cây định 16 Hình 1.4 Phân loại thực toán khai phá luật kết hợp 23 Hình 1.5 Kết thuật tốn AIS 24 Hình 1.6 Kết thuật toán Apriori 26 Hình 1.7 Những biến đổi liệu FP_Tree 30 Hình 1.8 FP_Tree liệu bảng 1.1 31 Hình 1.9 Thành phần FP_Tree 31 Hình 1.10 Cấu trúc SOTrieIT 34 Hình 1.11 SOTrieIT liệu bảng 1.1 .35 Hình 2.1 Cây trọng số W_Tree 42 Hình 2.2 Cây trọng số W_Tree dựa vào bảng 2.1 48 Hình 2.3 Cây FP_Tree CSDL có trọng số rút gọn 489 MỞ ĐẦU Thông tin thu thập khắp nơi sống nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật, …và với phát triển nhanh chóng ứng dụng cơng nghệ thông tin Internet tạo nhiều sở liệu khổng lồ mức độ terabytes đến mức độ petabytes Để khai thác hiệu nguồn thông tin từ sở liệu lớn hỗ trợ tiến trình định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phương pháp, kỹ thuật phần mềm hỗ trợ tiến trình khám phá, phân tích tổng hợp thơng tin Có nhiều kỹ thuật khai phá liệu khai phá luật kết hợp kỹ thuật tiếng Bài toán khai phá luật kết hợp giải theo hai bước chính: Bước một, tìm tất tập thường xuyên theo ngưỡng S cho trước Bước hai, dựa vào tập thường xuyên, tìm luật kết hợp Tất khó khăn toán tập trung bước Các nghiên cứu khai phá luật kết hợp tập trung cải tiến tốc độ xử lý, dung lượng nhớ số lần truy cập đĩa Tốc độ xử lý phụ thuộc vào số giao tác sở liệu giao tác Mục tiêu luận văn tìm hiểu số thuật toán khai phá luật kết hợp, đề xuất phương án phân lớp liệu giao tác cách thêm ”trọng số” cho mục liệu, rút gọn số giao tác sở liệu nhằm rút gọn không gian xử lý, lưu trữ Đưa thuật tốn cải tiến thuật tốn Apriori FP_Growth để tìm tập thường xuyên sở liệu phân lớp Bố cục luận văn bao gồm phần mở đầu, ba chương nội dung, phần kết luận tài liệu tham khảo Chương trình bày tổng quan khai phá liệu: Các mơ hình khai phá liệu, khái niệm khai phá luật kết hợp số thuật toán khai phá luật kết hợp: Các thuật toán duyệt theo chiều rộng (AIS, Apriori, DIC), thuật toán duyệt theo chiều sâu (FP_Tree, RARM), thuật toán PARTITION_P_TREE, thuật toán phân hoạch kép Đóng góp luận văn trình bày chương Chương này, tác giả đề xuất phương án phân lớp liệu để rút gọn số giao tác CSDL phát triển thuật toán (Apriori, Fp_Tree) sở liệu phân lớp để tìm tập thường xuyên Chương Xây dựng chương trình kết thử nghiệm Cuối cùng, phần kết luận nêu đóng góp luận văn, hướng phát triển vấn đề quan tâm tác giả 10 tid Tập MDL có trọng số t’1 ((B,3), (A,2), (E,2)) t’2 ((B,2), (C,2)) t’3 ((B,1), (A,1)) t’4 ((B,2), (A,2),(C,2),(E,1)) t’5 ( (A,2), (C,2)) Bảng 2.4 CSDL có trọng số loại bỏ mục không thường xuyên Với t’1 = ((B,3), (A,2), (E,2)) t’3 = ((B,1), (A,1)) Ta có t1⊕T’ t2 = ((B,4), (A,3), (E,2)) Rút gọn T’ ta được: tid Tập MDL có trọng số t’1 ((B,4), (A,3), (E,2)) t’2 ((B,2), (C,2)) t’3 ((B,2), (A,2),(C,2),(E,1)) t’4 ( (A,2), (C,2)) Bảng 2.5 CSDL có trọng số rút gọn thỏa ngưỡng S0=2 - Xây dựng FP_Tree: Hình 2.3 Cây FP_Tree CSDL có trọng số rút gọn 2.4.3 Chạy thuật toán Apriori CSDL rút gọn Cơ sở liệu giao tác ban đầu có 10 mục liệu, cở sở liệu giao tác rút gọn có mục liệu, chạy thuật toán Apriori, lần tính độ hỗ trợ tập ứng viên, duyệt qua sở liệu rút gọn, số lần đọc giao tác giảm nhiều 49 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM Trong chương trước, tác giả đưa thuật tốn cải tiến thuật tốn Apriori FP_Growth để tìm tập thường xuyên sở liệu phân lớp Để minh họa tính đắn thuật tốn, tác giả dùng ngơn ngữ lập trình Delphi để cài đặt thuật toán cải tiến thuật toán FP_Growth 3.1 CẤU TRÚC DỮ LIỆU Pt_1=^Node_1; Node_1=Record Inf:Item; Right:Pt_1; Left:Pt_2; End; Pt_2=^Node_2; Node_2=Record Inf:Transaction; Right:Pt_2; Left:Pt_3; End; Pt_3=^Node_3; Node_3=Record ItemName:Transaction; ItemCount:Integer; Next:Pt_3; End; 50 3.2 CÁC THỦ TỤC CÀI ĐẶT Thủ tục xác định độ hỗ trợ mục liệu Procedure Support ; Input: CSDL giao tác T = {t1, t2, …, tm} I = {x1, x2, …, xn}; Output: SuppT = ((x1,w1), (x2,w2),…, (xn,wn)) với wi độ hỗ trợ xi Method: For i := to n wi:= 0; EndFor; For j := to m For i:=1 to n If xi ∈ tj then wi := wi + 1; EndIf; EndFor; EndFor; EndProcedure; Thủ tục xếp mục liệu giao tác theo thứ tự giảm dần độ hỗ trợ Procedure Support ; Input: CSDL giao tác T = {t1, t2, …, tm} I = {x1, x2, …, xn}; SupT = ((x1,w1), (x2,w2),…, (xn,wn)) với wi độ hỗ trợ xi Output: CSDL giao tác T = {t1, t2, …, tm} I = {x1, x2, …, xn}; Vơi tj= (xj1, xj2, …, xjk) ∈ T với w j1 ≥ w j2 ≥ … ≥ w jk Method: For each tj= (xj1, xj2, …, xjk) ∈ T 51 For i:=1 to k-1 For l:=i+1 to k If wjl ≥ wji ∈ tj then hoán vị xjl xji EndIf; EndFor; EndFor; EndFor; EndProcedure; Thủ tục chèn giao tác vào W_Tree Procedure InsertItem_1(t, P) ; Input: t = (xi1, x i2, …, x ik) P:Pt_2; Output: P:Pt_2 Method: New(P); P^.Inf:=t; New(P1); P^.Right:=Nil; //P1: Pt_3 P1^.ItemName:=xi1; P1^.ItemCount:=1; P^.Left:=P1; For each j:=2 to k New(P2); P2^.ItemName:=xij; P2^.Next:=Nil; //P2: Pt_3 P2^.ItemCount:=1; P1^.Next:=P2; 52 P1:=P2; EndFor; EndProcedure; Procedure InsertItem_2(t, P) ; Input: t = (xi1, x i2, …, x ik) P:Pt_2; Output: P:Pt_2 Method: If t ⊆P^.Inf then Th:=1 Else If P^.Inf ⊆ t then Th:=2 Else Th:=3; Case Th of 1: Begin PP:=P^.Left; For j:=1 to k Begin PP^.Count:=PP^.Count+1; PP:=PP^.Next; EndFor; End 1; 53 2:Begin PP:=P^.Left; P1:=PP; J:=1; While PPNil PP^.Count:=PP^.Count+1; P1:=PP; PP:=PP^.Next; j:=j+1; EndWhile; For r:=j to k New(PtD); //PtD:Pt_3 PtD^.Inf:=xir; PtD^.Count:=1; PtD^.Next:=Nil; P1^.Next:=PtD; P1:=P1^.Next; EndFor; End2; 3: If P^.Right=Nil then InsertItem1(S,P^.Right) Else InsertItem2(S,P^.Right); 54 EndIf; End 3; EndCase; EndProcedure; Thủ tục tạo W_Tree Procedure Creat_W_Tree; Input : T = {t1, t2, …, tm} CSDL giao tác đước sắp: tj= (xj1,xj2,… xjk) ∈ T có Supp(xj1) ≥ Supp(xj2) ≥ … ≥ Supp(xjk) SupT = ((xi1,w1), (xi2,w2),…, (xin,wn)) với w1 ≥ w2 ≥ … ≥ wn Output: Root:Pt_1; Method: New(Root); //Root:Pt_1; Root^.Inf:=xi1; Root^.Left:=Nil; PP1:=Root; For r:=2 to n New(P1); //P1:Pt_1; P1^.Inf:=xir; P1^.Left:=Nil; P1^.Right:=Nil; PP1^.Right:=P1; PP1:=P1; EndFor For each tj= (xj1,xj2,… xjk) in T Tìm xâu nút cấp nút P có P^.Inf= xj1; If P^.Left=Nil then New(P2); P2^.Inf:=t; //P2:Pt_2 P2^.Right:=Nil; 55 P^.Left:=P2; InsertItem1(t,P2); Else InsertItem2(t,P^.Left); EndIff EndFor; EndProcedure; Thủ tục chuyển liệu từ W_tree thành CSDL giao tác có trọng số Procedure Tree_To_Data; Input: Root:Pt_1; Output: T = {t1,t2,…,tm} với ti=((xi1,wi1),(xi2,wi2),…,(xik,wik)) với Supp(xi1)≥ ≥ Supp(xik), wi1 ≥ ≥ wi1; Method: T:= ∅; P1:=Root; While P1Nil P2:=P1^.Left; //P2:Pt_2 While P2Nil P3:=P2^.Left; t:=’’; While P3Nil t:=t+(P3^.ItttemName,P3^.ItemCount); 56 P3:=P3^.Next; EndWhile; T:=T ∪ t; P2:=P2^.Right; EndWhile; P1:=P1^.Right; EndWhile; EndProcedure; 3.3 KẾT QUẢ THỬ NGHIỆM Tác giả chạy thuật toán rút gọn liệu kết bảng sau DỮ LIỆU BAN ĐẦU STT SỐ DÒNG SAU KHI RÚT GỌN SỐ CỘT DUNG LƯỢNG (KB) SỐ DÒNG SỐ CỘT DUNG LƯỢNG (KB) 10.000.000 20 75.182 104.079 20 2.058 18.298.481 20 105.948 132.665 20 2.722 23.502.497 20 110.108 133.157 20 2.752 115.360.110 40 679.053 286.998 40 4.870 Bảng 3.1 So sánh kết trước sau phân lớp 57 3.4 ĐÁNH GIÁ THUẬT TỐN Thuật tốn phân lớp liệu biến đổi sở liệu giao tác thành sở liệu giao tác có trọng số rút gọn chia làm bốn bước: Bước một: Tính độ hỗ trợ mục liệu Bước hai: Sắp xếp mục liệu giao tác theo thứ tự giảm dần độ hỗ trợ Bước ba: Xây dựng W_Tree Bước bốn: Chuyển liệu W_Tree thành thành sở liệu giao tác có trọng số rút gọn Với sở liệu giao tác có trọng số rút gọn có số giao tác dung lượng nhỏ nhiều lần so với liệu ban đầu, việc áp dụng thuật tốn tìm tập thường xun nhanh nhiều lần 58 PHẦN KẾT LUẬN NHỮNG KẾT QUẢ ĐẠT ĐƯỢC - Tìm hiểu số thuật tốn khai phá luật kết hợp như: AIS, Apriori, DIC, FP_Tree, RARM, … - Đóng góp luận văn đề xuất phương án phân lớp sở liệu giao tác cách thêm “trọng số” cho mục liệu nhằm rút gọn không gian xử lý lưu trữ Việc phân lớp liệu thực qua bốn bước: Tính độ hỗ trợ mục liệu, xếp mục liệu giao tác theo thứ tự giảm dần độ hỗ trợ, xây dựng W_Tree bước cuối chuyển liệu W_Tree thành thành sở liệu giao tác có trọng số rút gọn Với sở liệu giao tác cố định, lần thực bước một, tìm tập thường xuyên ta cần thực bước hai Tác giả đưa thuật toán cải tiến thuật toán Apriori FP_Growth để tìm tập thường xuyên dựa vào CSDL phân lớp Xây dựng chương trình phân lớp liệu ngơn ngữ lập trình Delphi Cải tiến thuật tốn Apriori: Với thuật tốn này, chi phí nhiều duyệt qua CSDL để tính độ hỗ trợ tập ứng viên Với CSDL giao tác có trọng số phân lớp, số giao tác rút gọn nhiều lần nên thời gian thực giảm nhiều lần Cải tiến thuật toán FP_Growth: Thuật toán xây dựng FP-Tree sở liệu giao tác có trọng số chia làm hai bước: Bước phân lớp liệu cách biến đổi sở liệu giao tác thành sở liệu giao tác có trọng số rút gọn, bước hai xây dựng FP-Tree Với sở liệu giao tác cố định lần thực bước một, tìm tập thường xuyên ta cần thực bước hai Ở bước một, việc chuyển đổi sở liệu giao tác thành cở liệu giao tác rút gọn có trọng số làm cho số giao tác giảm nhiều lần, đặc biệt với liệu lớn, từ việc xây dựng FP_Tree nhanh chóng 59 HƯỚNG PHÁT TRIỂN Các sở liệu thường gia tăng có liên quan đến yếu tố thời gian Hai thuật toán cải tiến xử lý dựa sở liệu cố định, nghĩa liệu tăng thêm tập giao tác thuật tốn phải tính tốn lại từ đầu Do vậy, cần nghiên cứu phát triển thuật toán khai phá luật kết hợp liệu gia tăng sở liệu liên quan đến yếu tố thời gian Sau hướng phát triển nghiên cứu ứng dụng luận văn: - Nghiên cứu thuật toán khai phá luật kết hợp dựa phân lớp sở liệu có yếu tố thời gian - Khai phá luật kết hợp dựa vào phân lớp sở liệu gia tăng 60 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Hữu Trọng, Bùi Chí Thành, Nguyễn Thị Minh Châu, Phạm Ngọc Công (2012) “Một cách tối ưu sở liệu giao tác cho thuật tốn tìm luật kết hợp”, Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông- Hà Nội [2] Nguyễn Hữu Trọng (2008) “Phát triển số thuật toán khai phá luật kết hợp sở liệu gia tăng”, Luận án tiến sĩ, Viện Công nghệ thông tin [3] Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Hữu Trọng, Huỳnh Văn Đức (2007) "Thuật tốn khai thác liệu tăng trưởng", Tạp chí Khoa học Công nghệ, Viện Khoa học Công Nghệ Việt Nam, Số 2, tập 45, trang 9-18 [4] Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Hữu Trọng, (2007) "Phát triển thuật toán khai thác liệu dựa bao đóng tập thuộc tính", Tạp chí Tin học Điều khiển học, Viện Khoa học Công Nghệ Việt Nam, Số 2, tập 23, trang 113-141 [5] Nguyễn Hữu Trọng (2007), "Thuật toán khai thác tập thường xuyên hiệu dựa kỹ thuật phân lớp liệu", Tạp chí Tin học Điều khiển học, Viện Khoa học Công Nghệ Việt Nam, Số 3, tập 23, trang 260-271 [6] Nguyễn Hữu Trọng (2007), “Thuật toán khai phá tập mục liệu thường xuyên sở liệu gia tăng dựa phân lớp liệu”, Tạp chí Khoa học Cơng nghệ, Viện Khoa học Công Nghệ Việt Nam, Số 3, tập 45, trang 15-26 [7] Nguyễn Hữu Trọng (2007), Thuật toán khai thác luật kết hợp sở liệu tăng trưởng theo chiều ngang Hội nghị Nghiên cứu ứng dụng Công nghệ Thông tin lần thứ FAIR-3, Nha Trang 61 Tiếng Anh: [8] Han J and Kamber (2000), Data Mining Concepts and Techniques, Morgan Kanufmann [9] Agrawal, R., Imielinski, T., Swami, A N (1993) "Mining association rules between sets of items in large databases", Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207 – 216 [10] Murthy, S K (1998), "Automatic construction of decision trees from data: A multi-disciplinary survey" Data Mining and Knowledge Discovery 2(4), pp 345389 [11] Agrawal, R., Srikant, R (1994), "Fast algorithms for mining association rules", In Proc 20th Int Conf Very Large Data Bases, VLDB, J B Bocca, M Jarke, and C Zaniolo, Eds Morgan Kaufmann, pp 487-499 [12] Sergey, B., Rajeev M., Je_rey D U., Shalom T (1997) "Dynamic itemset counting and implication rules for market basket data" In Proceedings of the ACM SIGMOD International Conference on Management of Data, ACM, ACM Press, New York, pp 255-264 [13] Savesere, A., Omiecinski, E., and Navathe, S (1995), "An efficient algorithm for mining association rules in large databases", In Proceedings of 20th International Conference on VLDB, pp 432-444 [14] Han J, Pei H, and Yin Y (2000), "Mining Frequent Patterns without Candidate Generation", In: Proc Conf on the Management of Data (SIGMOD’00, Dallas, TX) ACM Press, New York, NY, USA, pp 1-12 [15] Amitabha Das, Wee-keong Ng, Yew-kwong Woon (2001), "Rapid association rule mining", In Proceedings of the tenth international conference on Information and knowledge management ACM Press, pp 474 -481 62 [16] Ulrich Guntzer, Jochen Hipp, Gholamreza (2000), "Algorithms for Association Rule Mining – A General Survey and Comparison", ACM SIGKDD Explorations Newsletter, Volume Issue 1, pp 58-64 [17] Shakil, A,., Coenen, F., Leng, P., (2006), "Tree-based Partitioning of Data for Association Rule Mining", Knowledge and Information Systems, Volume 10, Number 3, pp 315-331 63 ... quan khai phá liệu: Các mơ hình khai phá liệu, khái niệm khai phá luật kết hợp số thuật toán khai phá luật kết hợp: Các thuật toán duyệt theo chiều rộng (AIS, Apriori, DIC), thuật toán duyệt... … Lựa chọn chức khai phá liệu: Tóm tắt hóa, phân loại /phân lớp, hồi quy/dự đốn, kết hợp, phân cụm Lựa chọn /phát triển giải thuật khai phá liệu phù hợp Tiến hành trình khai phá liệu Đánh giá mẫu... nghiên cứu công khai mã nguồn giải thuật họ, việc đánh giá so sánh thực nghiệm giải thuật thật khó khăn 39 CHƯƠNG PHÁT TRIỂN THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP DỰA VÀO SỰ PHÂN LỚP DỮ LIỆU Trong chương

Định dạng
Số trang	63
Dung lượng	677,51 KB

Phát triển thuật toán khai phá luật kết hợp dựa vào sự phân lớp dữ liệu

.6 Kết quả thuật toán Apriori

Nhóm thuật tốn duyệt theo chiều sâu