Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
676,42 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THỊ MẠNH “KHAI THÁCTẬPCÓTHỂXÓA ĐÓNG” LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THỊ MẠNH “KHAI THÁCTẬPCÓTHỂXÓA ĐÓNG” LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng 10 năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS VÕ ĐÌNH BẢY (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ Tên Chưc danh hội đồng GS TSKH Hoàng Văn Kiếm Chủ tịch PGS TS Lê Hoài Bắc Phản biện TS Hồ Đắc Nghĩa Phản biện TS Cao Tùng Anh Ủy viên TS Vũ Thanh Hiền Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 01 tháng 09 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thị Mạnh Giới tính: Nữ Ngày, tháng, năm sinh: 1980 Nơi sinh: Kiên Giang Chuyên ngành: Công nghệ thông tin MSHV: 1341860045 I- Tên đề tài: Khaitháctậpxóa đóng II- Nhiệm vụ nội dung: - Tập trung tìm hiểu, đánh giá đề xuất hướng tiếp cận hiệu thuật toán khaitháctậpxoá đóng - Khảo sát phương pháp khaitháctập phổ biến đóng tậpxoá - Định hướng đề xuất hướng tiếp cận khaitháctập phổ biến xoá đóng III- Ngày giao nhiệm vụ: Ngày 03 tháng 04 năm 2015 IV- Ngày hoàn thành nhiệm vụ: ngày 17 tháng năm 2015 V- Cán hướng dẫn: TS.VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Nguyễn Thị Mạnh ii LỜI CẢM ƠN Trong suốt trình học tập thực luận văn, nhận truyền đạt kiến thức quý báo từ quý thầy cô, kinh nghiệm sâu sắc từ bạn bè, đồng nghiệp Vớ ọng biế ợ ời cảm ơn chân thành tới: ản lý Khoa học - Ban Giám Hiệu, Khoa Công Nghệ Đào tạo sau Đại học trường Đại Học Công Nghệ Thành Phố Hồ Chí Minh tạo điều kiện thuận lợi giúp đỡ trình học tập hoàn thành luận văn Đặc biệt xin gửi lời cảm ơn sâu sắc tới thầy TS.Võ Đình Bảy – thầy hướng dẫn suốt trình làm đề tài Những lời dạy, phương pháp hướng dẫn đặc biệt tận tình hướng dẫn thầy giúp cho đạt kiến thức bổ ích trình học tập thực luận văn Anh Võ Minh Quân nhiệt tình giúp đở, hướng dẫn trình thực luận văn Toàn thể quý thầy cô nhiệt tình giảng dạy truyền đạt kiến thức bổ ích cho suốt khóa học vừa qua Học viên thực Luận văn (Ký ghi rõ họ tên) Nguyễn Thị Mạnh iii TÓM TẮT Khaithác liệu ứng dụng rộng rãi nhiều lĩnh vực có nhiều công cụ thương mại phi thương mại triển khai nhiệm vụ khaithác liệu Khaithác liệu (data mining) trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu cóKhaithác mô hình phổ biến tập phổ biến vấn đề cần thiết nhiều ứng dụng khaithác liệu Các ứng dụng bao gồm việc khám thác luật kết hợp, luật vững chắc, tương quan, luật tuần tự, tập, mô hình đa chiều, nhiều nhiệm vụ khám thác quan trọng khác Khaithác luật kết hợp mô hình quan trọng khaithác liệu Khaitháctậpxóakhaitháctập phổ biến đóng biến thiên thú vị khaitháctập phổ biến, cho phép nhà quản lý xem xét cẩn thận kế hoạch sản xuất họ để đảm bảo ổn định củ Xuất phát từ thực tế đó, đề tài “khai tháctậpxoá đóng” với mục đích kết hợp hai vấn pề khaitháctập đóng khaitháctậpxoá thành vấn đề chung nhằm tìm tập phổ biến tập liệu rộng lớn mà không tốn nhiều chi phí thời gian thực đảm bảo lợi nhuận hiệu suất khaithác iv MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN CHƯƠNG CƠ SỞ LÝ THUYẾT 10 2.1 Tập phổ biến 10 2.1.1 Định nghĩa 10 2.1.2 Ví dụ 10 2.2 Khaitháctậpxóa 11 2.2.1 Định nghĩa 11 2.2.2 Cấu trúc dpidset 12 2.2.3 Thuật toán MEI 16 2.2.3.1 Hiệu thuật toán trừ hai dpidset 16 2.2.3.2 Thuật toán trừ hai dpidset 17 2.2.3.3 Phát sinh lớp tương đương 19 2.2.3.4 Giải thuật MEI 20 2.3 Khaitháctập phổ biến đóng 25 2.3.1 Định nghĩa toán tử đóng 25 2.3.2 Định nghĩa tập phổ biến đóng 25 2.3.3 Cây tìm kiếm IT lớp tương đương 25 2.3.4 Thuật toán Charm 29 2.3.5 Ví vụ minh họa 39 2.4 Khaitháctậpxóa đóng 40 2.4.1 Định nghĩa 40 2.4.2 Thuật toán MECI 40 2.4.3 Ví dụ minh họa 42 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 3.1 Môi trường liệu thực nghiệm 43 3.2 Kết thời gian thực 43 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 v 4.1 Kết đạt 49 4.2 Hạn chế 49 4.3 Hướng phát triển 50 TÀI LIỆU THAM KHẢO 51 vi DANH MỤC CÁC TỪ VIẾT TẮT CSDL: Cơ sở liệu DB: Database EIS: Erasableitemsets EPS: Erasable patterns ECPS: Erasable closed patterns MEI: Mining erasable itemset MECI: Mining erasable closed itemset FCIs: Frequent closed itemsets DFS: Depth-first-search 40 2.4 Khaitháctậpxóa đóng [4] 2.4.1 Định nghĩa Một tậpxóa gọi tậpxóa đóng không tồn tập cha có lợi nhuận với Ví dụ 2.11: Xét CSDL cho EIS hình 2.6 ta có: {e} {eg} tập xóa, {eg} superset {e} có lợi nhuận 600 Do {e} tậpxóa đóng {eg} tậpxóa đóng 2.4.2 Thuật toán MECI Ý tưởng thuật toán: - Trước tiên thuật toán quét CSDL tính tổng lợi nhuận (T), gain xác định tập 1-itemset - Sắp xếp tập 1-itemset theo thứ tự - Gọi thủ tục expand_E để tìm tập (k-1)itemset - Tìm item xóa Xét item xóa tìm có phải đóng hay không: Nếu đóng lưu trữ Nếu không đóng bỏ qua tăng j lên để tìm tiếp - Sau thực đệ qui lại Mô tả thuật toán Đầu vào: CSDL DB ngưỡng ξ ả: Tập ECIS 41 Input: product database DBand threshold ξ Output: , the set of all ECPs Scan to determine the total profit of ( ), the index of gain ( ), and erasable 1-patterns with their pidsets ( 1) Sort by the length of their pidsets in ascending order If has more than one element, the algorithm will call Expand_E( 1) Procedure Expand_E( ) For i ← to | | Begin for ←φ For j ← i+1 to | | (ECP) = dP( [j]) \dP( [i]) If ECP.val then 26 Expand_E( ) 27 End for Function Check_Closed_Property(EI) Let ECPs ← Hashtable[EI.val] If ECPs is not null then For each ECP in ECPs If EI ⊂ ECP then Return false Hình 2.15 Thuật toán MECI [4] 42 2.4.3 Ví dụ minh họa Hình 2.16 minh họa trình tìm kiếm tập ECIS có gain thỏa ngưỡng phổ biến T × ξ (16% x 5000=800) IT Đầu tiên, tập I = {d,e,f,g,h} xếp theo chiều giảm dần pidset thành t={e,f,d,h,g} Khi ti={e}, kết hợp với tj={f,d,h,g} có gain thỏa ngưỡng T × ξ thành nút con{ed,eh,eg} Nút {ef} có gain =900 không thỏa ngưỡng T × ξ nên bị cắt bỏ không sinh mức IT-tree Mặt khác, gain {e} = 600 với superset {eg}=600 nên {e} tậpxóa đóng mà ta thay tập {eg} {}x1234567891011 {f}x7891011 {e}x45678 600 {fdhg}x φ 600 {eg}x φ {h}x810 350 {dg}x φ 600 600 600 500 350 {dhg}x φ 500 {edh}x10 {edg}x φ {ehg}x φ {fdh}x φ {fdg}x φ {fhg}x φ 800 600 600 {edhg}x φ 650 600 750 {dhg}x φ 500 800 800 250 {eg}x φ {fd}x φ {fh}x φ {fg}x φ {dh}x10 {dg}x φ {hg}x7 650{edg}x φ750{ehg}x φ 600 750 650 {edhg}x φ {g}x7 350 600 600 {ed}x9 {eh}x10 {d}x789 {fdhg}x φ 600 Hình2.16 IT-tree tìm ECIs thỏa ngưỡng T × ξ 450 200 43 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Môi trường liệu thực nghiệm Tất thí nghiệm trình bày báo cáo thực máy tính xách tay với xử lý Intel corei3 –2375M-1.5GHz nhớ Ram 4GB Hệ điều hành sử dụng Microsoft Windows 8- 64-bit Các thí nghiệm thực sở liệu chess, mushroom,connect tải từ địa http://sdrv.ms/14eshVm Các thuật toán code ngôn ngữ java, môi trường Eclipse Đặc tính CSDL thể bảng 3.1 Trong số liệu chess, connect mushroom có đặc tính riêng, tiến hành thực nghiệm áp dụng ngưỡng chung cho tất liệu Đối với liệu Mushroom Connect hai liệu dày đặc cho số lượng lớn ECIS Ngoài số lượng items products liệu Mushroom Connect tương đối lớn nên nhiều thời gian để khaithác ECIS, tiến hành thực nghiệm với ngưỡng lý tưởng 0,75% ξ 1, 5% Còn liệu Chess với ngưỡng giá trị 10% ξ 25% cho số lượng ECIS tốt thời gian thực nhanh số lượng items products tương đối Bảng 3.1 Đặc tính liệu sử dụng thực nghiệm Dataset # of Products # of Items Chess 3,196 76 Mushroom 8,124 120 Connect 67,557 130 3.2 Kết thời gian thực Để đánh giá thời gian thực lượng nhớ tiêu thụ, tương ứng với ngưỡng trình thực nghiệm thực lần liệu Các bảng 3.2- 3.4 trình bày kết thực nghiệm liệu Chess, Mushroom, Connect Bảng 3.5 so sánh kết thực nghiệm số lượng EIs 44 ảng kết trung bình cộng lần thi hành chương ECIs Mỗ trình ứng với liệu, tương ứng với ngưỡng (Threshold ξ (%)) sử dụng để thực nghiệm thuật toán MECI Dựa vào kết thực nghiệm bảng 3.2- 3.5 cho thấy số lượng ECIS thu tập liệu Chess, Mushroom Connect rõ rang nhiều so với số lượng EIS số lượng Items ban đầu Do đó, nguồn tài nguyên cần thiết hệ thống thông minh giảm làm cho hệ thống tốt Bảng3.2 Kết thực nghiệm tập liệu Chess CSDL CHESS Ngưỡng ξ (%) Số ECIS Thời gian (ms) Bộ nhớ (mb) 10 % 521 368.6 13.4 15 % 2065 490.4 15.48 20 % 6203 631.6 6.8 25 % 15480 1315.8 4.14 Bảng3.3 Kết thực nghiệm tập liệu Connect CSDL CONNECT Ngưỡng ξ (%) Số ECIS Thời gian (ms) 0.75 % 1636 1903 64.5 1.0 % 4862 4631.4 103.8 1.25 % 12183 6709.4 46.7 1.5 % 25737 12341 50.34 Bộ nhớ (mb) 45 Bảng3.4 Kết thực nghiệm tập liệu Mushroom CSDL MUSHROOM Ngưỡng ξ (%) Số ECIS Thời gian (ms) Bộ nhớ (mb) 0.75 % 127 434.4 6.45 1.0 % 245 434.6 6.77 1.25 % 456 503 7.38 1.5 % 950 553.2 8.64 Bảng3.5 Số lượng EIs ECIs CSDL thực nghiệm CSDL Chess Connect Mushroom Ngưỡng ξ (%) Số EIs Số ECIs 10 665 521 15 3083 2065 20 10913 6203 25 30815 15480 0.75 1677 1636 1.0 5185 4862 1.25 13625 12183 1.5 30540 25737 0.75 1830 127 1.0 8368 245 1.25 24537 456 1.5 63033 950 Hình 3.1-3.3so sánh thời gian thực liệu Chess, Connect, Mushroom hai thuật toán MEI MECI ngưỡng thời gian 46 The mining time (ms) 1400 1200 1000 800 MEI 600 MECI 400 200 10 15 20 25 Ngưỡng Hình 3.1 Thời gian khaithác MEI MECI tập liệu Chess The mining time (ms) 14000 12000 10000 8000 MEI 6000 MECI 4000 2000 0.75 1.25 1.5 Ngưỡng Hình 3.2 Thời gian khaithác MEI MECI tập liệu Connect 47 The mining time (ms) 3000 2500 2000 MEI 1500 MECI 1000 500 0.75 1.25 1.5 Ngưỡng Hình 3.3 Thời gian khaithác MEI MECI tập liệu Mushroom Dựa vào giản đồ thời gian hình từ 3.1-3.3 cho ta thấy thời gian khaithác MECI thường nhanh so MEI Đặt biệt chênh lệch lớn tập liệu Mushroom Đối với CSDL Chess độ chênh lệch không lớn Tuy nhiên CSDL Connect MECI tỏ không khả quan hơn, không tiết kiệm so với MEI Đối với CSDL thưa với độ dài item ngắn thời gian khaithác không đáng quan tâm nhiều Nhưng CSDL dày chứa item dài thời gian khaithác quan trọng, đặc biệt cần truy tìm thông tin item thời gian vấn đề có ảnh hưởng lớn Hình 3.4 - 3.6 so sánh việc sử dụng nhớ liệu Chess, Connect, Mushroom hai thuật toán MEI MECI 48 The memory usage (mb) 18 16 14 12 MEI 10 MECI 10 15 20 25 Ngưỡng Hình 3.4 Sử dụng nhớ MEI MECI tập liệu Chess The memory usage (mb) 120 100 80 MEI 60 MECI 40 20 0.75 1.25 1.5 Ngưỡng Hình 3.5 Sử dụng nhớ MEI MECI tập liệu Connect 49 The memory usage (mb) 30 25 20 MEI 15 MECI 10 0.75 1.25 1.5 Ngưỡng Hình 3.6 Sử dụng nhớ MEI MECI tập liệu Mushroom Kết thể hình từ 3.4 - 3.6 cho ta thấy thuật toán MECI hiệu nhiều so với MEI việc sử dụng nhớ Đây kết khả quan mô hình khaithác liệu Đặc biệt hệ thống thông minh, hệ thống với CSDL dày đặc với chiều dài item lớn hay hệ thống với CSDL tăng trưởng việc biến động việc lưu trữ vấn đề lớn Cụ thể ta thấy CSDL Connect độ chênh lệch sử dụng nhớ hai thuật toán MECI MEI không lớn Nhưng nhìn vào so sánh hai CSDL Chess Mushroom ta thấy với ngưỡng cao MECI hiệu MEI việc sử dụng nhớ (chẳng hạn với Chess ngưỡng 25%, với Mushroom với ngưỡng 1.25% 1.5%) 50 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết đạt Luận văn đáp ứng vấn đề đặt giải vấn đề khó khăn khaithác CSDL với số lượng lớn EIS Khaitháctậpxóa đóng theo phương pháp ngây thơ khaithác hết tất EIs sau khaithác ECIs từ tập EIs thu nên thường sinh luật dư thừa không hữu ích phải tốn thời gian để khaithác cắt tỉa luật này, đồng thời gây khó khăn không cho người sử dụng Do cần thiết phải có phương pháp khaithác hiệu tậpxóa đóng phương pháp trình bày luận văn đáp ứng đươc vấn đề đặt ra, nguồn tài nguyên cần thiết hệ thống thông minh giảm đảm bảo hệ thống hoạt động tốt ổn định Các kết thực nghiệm cho thấy số lượng EIs giảm đáng kể mà không làm thông tin Bên cạnh triển khai thuật toán làm giảm đáng kể thời gian khaitháctập liệu giảm thiểu sử dụng nhớ Thuật toán khaithác luật không dư thừa mà không cần phải tốn thời gian chi phí đểcắt tỉa luật bị dư thừa Thuật toán khaitháctập phổ biến xóa đóng ứng dụng cách khôn ngoan kỹ thuật dPidset, diffset dcharm đáp ứng mục tiêu hạn chế không gian lưu trữ, tìm kiếm làm giảm thiểu số tập hợp, thật đạt hiệu suất cao liệu dày đặc với mẫu liệu dài Phương pháp đề xuất thực nghiệm CSDL thực với số ngưỡng cho khaithác thành công EIs ECIs Chỉ với khoảng thời gian ngắn lượng nhớ tiêu tốn không nhiều thuât toán cho số lượng ECIs nhiều so với số lượng EIs đảm bảo không bị thông tin 4.2 Hạn chế Mặc dù thuật toán đáp ứng vấn đề đặt ra, số lượng item tìm giảm nhiều mà đảm bảo không bị thông tin, từ giải vấn đề thời gian khaithác lượng nhớ sử dụng Tuy nhiên, với CSDL Connect (với ngưỡng 1.25% 1.5%) thời gian khaithác sử dụng nhớ thuật toán MECI chưa hiệu thuật toán 51 MEI Do thời gian kiến thức hạn chế nên thuật toán thực nghiệm tốt CSDL Chess, Connect Mushroom mà chưa thể thực nghiệm CSDL tăng trưởng hay CSDL rộng lớn 4.3 Hướng phát triển Trong tương lai tiến hành nghiên cứu vấn đề liên quan đến mô hình xóa đóng chẳng hạn khaithác EIS từ tập liệu lớn, khaithác top-rank-k EIS, khaithác EIS tối đa, khaithác EIS từ tập liệu tăng Tiến hành tìm phương pháp kiểm tra hiệu với mong muốn làm giảm thời gian khaithác Mặc dù thân cố ập trung nghiên cứu tham khảo tài liệu, báo, tạp chí khoa học nước, trình độ ạn chế nên ững thiếu sót Rất mong nhận đóng góp quý thầy cô nhà khoa học để luận văn hoàn thiện Xin chân thành cảm ơn 52 TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Võ Đình Bảy,2011 Nâng cao hiệu thuật toán khaithác luật kết hợp dựa dàn Luận án tiến sĩ công nghệ thông tin, trường đại học khoa học tự nhiên Thành phố Hồ chí minh [2] Võ Đình Bảy, Lê Hoài Bắc,2008.Khai thác luật thiết yếu từ tập phổ biến đóng.Science & Technology Development, 11(1),p 40 - 50 TIẾNG ANH [3] Le T., Vo B., 2014.MEI: an efficient algorithm for mining erasable itemset., Engineering Appli-cations of Artificial Intelligence, 27, 155-166 [4] Giang N., Tuong L., Bay V., Bac L.,2015.Discovering erasable closed patterns ACIIDS, 368-376 [5] Deng Z.H., Xu X.R., 2012.Fast mining erasable itemsets using NC_sets Expert Systems with Applications, 39(4), 4453–4463 [6] M J Zaki, j Hsiao, Itemsets and Their April 2005 Efficient Algorithms for Mining Closed Lattice Structure IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 17(4) [7] D Cristofor, L Cristofor, and D Simovici, 2000.Galois Connection and Data Mining J Universal Computer Science, 6(1), 60-73 [8] J Pei, J Han, and R Mao, May 2000 Closet: An Efficient Algorithm for Mining Frequent Closed Itemsets Proc SIGMOD Int’l Workshop Data Mining and Knowledge discovery [9] J Wang, J Han, and J Pei, Aug 2003 Closet+: Searching for the Best Strategies for Mining Frequent Closed Itemsets Proc ACM SIGKDD Int’l Conf Knowledge Discovery and Data Mining [10] D Burdick, M Calimlim, and J Gehrke, Apr 2001 MAFIA: A Maximal Frequent Itemset Algorithm for Transactional Databases,” Proc Proc Int’l Conf Data Eng 53 [11] Y Bastide, R Taouil, N Pasquier, G Stumme, and L Lakhal, Dec 2000 Mining Frequent Patterns with Counting Inference SIGKDD Explorations, 2(2) [12] J Han, J Pei, and Y Yin, May 2000 Mining Frequent Patterns without Candidate Generation Proc ACM SIGMOD Conf Management of Data [13] Deng Z.H., Fang G., Wang Z., Xu X, 2009.Mining erasable itemsets In ICMLC’09, 67–73 [14] N Pasquier, Y Bastide, R Taouil, and L Lakhal, Jan 1999 Discovering Frequent Closed Itemsets for Association Rules Proc Seventh Int’l Conf Database Theory [15] Claudio Lucchese, Salvatore Orlando, Raffaele Perego, Nov 2004.Fast and Memory Efficient Mining of Frequent Closed Itemsets , Technical Report CS2004-9 [16] M.J Zaki, J.Hsiao CHARM: An Efficient Algorithm for Closed Itemset Mining Computer Science Department, Rensselaer Polytechnic Institute, Troy NY 12180 [17] B Dunkel, N Soparkar,March 1999 Data organization and access for efficient data mining In 15th IEEE Intl.Conf on Data Engineering [18] A Savasere, E Omiecinski, S Navathe, 1995.An efficient algorithm for mining association rules in large databases In 21st VLDB Conf [19] P Shenoy, J.R Haritsa, S Sudarshan, G Bhalotia, M Bawa, D Shah,May 2000 Turbo-charging verticalmining of large databases In ACM SIGMOD Intl Conf Management of Data [20] M J Zaki,May-June 2000 Scalable algorithms for association mining IEEE Transactions on Knowledge and DataEngineering, 12(3):372-390 [21] M J Zaki and K Gouda,March 2001 Fast vertical mining using Diffsets Technical Report 01-1, Computer ScienceDept., Rensselaer Polytechnic Institute 54 [22] M J Zaki, j Hsiao, Nov 2003 Mining Closed & Maximal Frequent Itemsets Computer Science Department Rensselaer Polytechnic Institute Troy NY 12180 USA ... nhiều nhiệm vụ khám thác quan trọng khác Khai thác luật kết hợp mô hình quan trọng khai thác liệu Khai thác tập xóa khai thác tập phổ biến đóng biến thiên thú vị khai thác tập phổ biến, cho phép... thuật toán đề xuất để khai thác tập phổ biến từ sở liệu, nhằm giải toán khai thác tập đóng hay khai thác tập xoá, thuật toán có ưu khuyết điểm riêng Chẳng hạn, để khai thác tập xoá, số thuật toán... đóng khai thác tập xoá thành vấn đề chung nhằm tìm tập phổ biến tập liệu rộng lớn mà không tốn nhiều chi phí thời gian thực đảm bảo lợi nhuận hiệu suất khai thác Khai thác tập phổ biến xóa khai thác