Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
849,08 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THỊ MẠNH “KHAI THÁC TẬP CÓ THỂ XÓA ĐÓNG” LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THỊ MẠNH “KHAI THÁC TẬP CÓ THỂ XÓA ĐÓNG” LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng 10 năm 2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS VÕ ĐÌNH BẢY (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ Tên Chưc danh hội đồng GS TSKH Hoàng Văn Kiếm Chủ tịch PGS TS Lê Hoài Bắc Phản biện TS Hồ Đắc Nghĩa Phản biện TS Cao Tùng Anh Ủy viên TS Vũ Thanh Hiền Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 01 tháng 09 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thị Mạnh Giới tính: Nữ Ngày, tháng, năm sinh: 1980 Nơi sinh: Kiên Giang Chuyên ngành: Công nghệ thông tin MSHV: 1341860045 I- Tên đề tài: Khai thác tập xóa đóng II- Nhiệm vụ nội dung: - Tập trung tìm hiểu, đánh giá đề xuất hướng tiếp cận hiệu thuật tốn khai thác tập xố đóng - Khảo sát phương pháp khai thác tập phổ biến đóng tập xố - Định hướng đề xuất hướng tiếp cận khai thác tập phổ biến xố đóng III- Ngày giao nhiệm vụ: Ngày 03 tháng 04 năm 2015 IV- Ngày hoàn thành nhiệm vụ: ngày 17 tháng năm 2015 V- Cán hướng dẫn: TS.VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Nguyễn Thị Mạnh ii LỜI CẢM ƠN Trong suốt trình học tập thực luận văn, nhận truyền đạt kiến thức quý báo từ quý thầy cô, kinh nghiệm sâu sắc từ bạn bè, đồng nghiệp Vớ ọng biế ợ ời cảm ơn chân thành tới: ản lý Khoa học - Ban Giám Hiệu, Khoa Công Nghệ Đào tạo sau Đại học trường Đại Học Cơng Nghệ Thành Phố Hồ Chí Minh tạo điều kiện thuận lợi giúp đỡ tơi q trình học tập hồn thành luận văn Đặc biệt xin gửi lời cảm ơn sâu sắc tới thầy TS.Võ Đình Bảy – thầy hướng dẫn suốt trình làm đề tài Những lời dạy, phương pháp hướng dẫn đặc biệt tận tình hướng dẫn thầy giúp cho tơi đạt kiến thức bổ ích q trình học tập thực luận văn Anh Võ Minh Qn nhiệt tình giúp đở, hướng dẫn tơi q trình thực luận văn Tồn thể q thầy nhiệt tình giảng dạy truyền đạt kiến thức bổ ích cho tơi suốt khóa học vừa qua Học viên thực Luận văn (Ký ghi rõ họ tên) Nguyễn Thị Mạnh iii TÓM TẮT Khai thác liệu ứng dụng rộng rãi nhiều lĩnh vực có nhiều cơng cụ thương mại phi thương mại triển khai nhiệm vụ khai thác liệu Khai thác liệu (data mining) trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có Khai thác mơ hình phổ biến tập phổ biến vấn đề cần thiết nhiều ứng dụng khai thác liệu Các ứng dụng bao gồm việc khám thác luật kết hợp, luật vững chắc, tương quan, luật tuần tự, tập, mơ hình đa chiều, nhiều nhiệm vụ khám thác quan trọng khác Khai thác luật kết hợp mơ hình quan trọng khai thác liệu Khai thác tập xóa khai thác tập phổ biến đóng biến thiên thú vị khai thác tập phổ biến, cho phép nhà quản lý xem xét cẩn thận kế hoạch sản xuất họ để đảm bảo ổn định củ Xuất phát từ thực tế đó, đề tài “khai thác tập xố đóng” với mục đích kết hợp hai vấn pề khai thác tập đóng khai thác tập xố thành vấn đề chung nhằm tìm tập phổ biến tập liệu rộng lớn mà khơng tốn nhiều chi phí thời gian thực đảm bảo lợi nhuận hiệu suất khai thác iv MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN CHƯƠNG CƠ SỞ LÝ THUYẾT 10 2.1 Tập phổ biến 10 2.1.1 Định nghĩa 10 2.1.2 Ví dụ 10 2.2 Khai thác tập xóa 11 2.2.1 Định nghĩa 11 2.2.2 Cấu trúc dpidset 12 2.2.3 Thuật toán MEI 16 2.2.3.1 Hiệu thuật toán trừ hai dpidset 16 2.2.3.2 Thuật toán trừ hai dpidset 17 2.2.3.3 Phát sinh lớp tương đương 19 2.2.3.4 Giải thuật MEI 20 2.3 Khai thác tập phổ biến đóng 25 2.3.1 Định nghĩa tốn tử đóng 25 2.3.2 Định nghĩa tập phổ biến đóng 25 2.3.3 Cây tìm kiếm IT lớp tương đương 25 2.3.4 Thuật toán Charm 29 2.3.5 Ví vụ minh họa 39 2.4 Khai thác tập xóa đóng 40 2.4.1 Định nghĩa 40 2.4.2 Thuật toán MECI 40 2.4.3 Ví dụ minh họa 42 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 3.1 Môi trường liệu thực nghiệm 43 3.2 Kết thời gian thực 43 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 v 4.1 Kết đạt 49 4.2 Hạn chế 49 4.3 Hướng phát triển 50 TÀI LIỆU THAM KHẢO 51 vi DANH MỤC CÁC TỪ VIẾT TẮT CSDL: Cơ sở liệu DB: Database EIS: Erasableitemsets EPS: Erasable patterns ECPS: Erasable closed patterns MEI: Mining erasable itemset MECI: Mining erasable closed itemset FCIs: Frequent closed itemsets DFS: Depth-first-search 40 2.4 Khai thác tập xóa đóng [4] 2.4.1 Định nghĩa Một tập xóa gọi tập xóa đóng khơng tồn tập cha có lợi nhuận với Ví dụ 2.11: Xét CSDL cho EIS hình 2.6 ta có: {e} {eg} tập xóa, {eg} superset {e} có lợi nhuận 600 Do {e} khơng phải tập xóa đóng {eg} tập xóa đóng 2.4.2 Thuật toán MECI Ý tưởng thuật toán: - Trước tiên thuật tốn qt CSDL tính tổng lợi nhuận (T), gain xác định tập 1-itemset - Sắp xếp tập 1-itemset theo thứ tự - Gọi thủ tục expand_E để tìm tập (k-1)itemset - Tìm item xóa Xét item xóa tìm có phải đóng hay khơng: Nếu đóng lưu trữ Nếu khơng đóng bỏ qua tăng j lên để tìm tiếp - Sau thực đệ qui lại Mơ tả thuật tốn Đầu vào: CSDL DB ngưỡng ξ ả: Tập ECIS 41 Input: product database DBand threshold ξ Output: , the set of all ECPs Scan to determine the total profit of ( ), the index of gain ( ), and erasable 1-patterns with their pidsets ( 1) Sort by the length of their pidsets in ascending order If has more than one element, the algorithm will call Expand_E( 1) Procedure Expand_E( ) For i ← to | | Begin for ←φ For j ← i+1 to | | (ECP) = dP( [j]) \dP( [i]) If ECP.val then 26 Expand_E( ) 27 End for Function Check_Closed_Property(EI) Let ECPs ← Hashtable[EI.val] If ECPs is not null then For each ECP in ECPs If EI ⊂ ECP then Return false Hình 2.15 Thuật tốn MECI [4] 42 2.4.3 Ví dụ minh họa Hình 2.16 minh họa q trình tìm kiếm tập ECIS có gain thỏa ngưỡng phổ biến T × ξ (16% x 5000=800) IT Đầu tiên, tập I = {d,e,f,g,h} xếp theo chiều giảm dần pidset thành t={e,f,d,h,g} Khi ti={e}, kết hợp với tj={f,d,h,g} có gain thỏa ngưỡng T × ξ thành nút con{ed,eh,eg} Nút {ef} có gain =900 khơng thỏa ngưỡng T × ξ nên bị cắt bỏ khơng sinh mức IT-tree Mặt khác, gain {e} = 600 với superset {eg}=600 nên {e} khơng thể tập xóa đóng mà ta thay tập {eg} {}x1234567891011 {f}x7891011 {e}x45678 600 {fdhg}x φ 600 {eg}x φ {h}x810 350 {dg}x φ 600 600 600 500 350 {dhg}x φ 500 {edh}x10 {edg}x φ {ehg}x φ {fdh}x φ {fdg}x φ {fhg}x φ 800 600 600 {edhg}x φ 650 600 750 {dhg}x φ 500 800 800 250 {eg}x φ {fd}x φ {fh}x φ {fg}x φ {dh}x10 {dg}x φ {hg}x7 650{edg}x φ750{ehg}x φ 600 750 650 {edhg}x φ {g}x7 350 600 600 {ed}x9 {eh}x10 {d}x789 {fdhg}x φ 600 Hình2.16 IT-tree tìm ECIs thỏa ngưỡng T × ξ 450 200 43 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Môi trường liệu thực nghiệm Tất thí nghiệm trình bày báo cáo thực máy tính xách tay với xử lý Intel corei3 –2375M-1.5GHz nhớ Ram 4GB Hệ điều hành sử dụng Microsoft Windows 8- 64-bit Các thí nghiệm thực sở liệu chess, mushroom,connect tải từ địa http://sdrv.ms/14eshVm Các thuật tốn code ngơn ngữ java, mơi trường Eclipse Đặc tính CSDL thể bảng 3.1 Trong số liệu chess, connect mushroom có đặc tính riêng, tiến hành thực nghiệm áp dụng ngưỡng chung cho tất liệu Đối với liệu Mushroom Connect hai liệu dày đặc cho số lượng lớn ECIS Ngoài số lượng items products liệu Mushroom Connect tương đối lớn nên nhiều thời gian để khai thác ECIS, tiến hành thực nghiệm với ngưỡng lý tưởng 0,75% ξ 1, 5% Còn liệu Chess với ngưỡng giá trị 10% ξ 25% cho số lượng ECIS tốt thời gian thực nhanh số lượng items products tương đối Bảng 3.1 Đặc tính liệu sử dụng thực nghiệm Dataset # of Products # of Items Chess 3,196 76 Mushroom 8,124 120 Connect 67,557 130 3.2 Kết thời gian thực Để đánh giá thời gian thực lượng nhớ tiêu thụ, tương ứng với ngưỡng trình thực nghiệm thực lần liệu Các bảng 3.2- 3.4 trình bày kết thực nghiệm liệu Chess, Mushroom, Connect Bảng 3.5 so sánh kết thực nghiệm số lượng EIs 44 ảng kết trung bình cộng lần thi hành chương ECIs Mỗ trình ứng với liệu, tương ứng với ngưỡng (Threshold ξ (%)) sử dụng để thực nghiệm thuật toán MECI Dựa vào kết thực nghiệm bảng 3.2- 3.5 cho thấy số lượng ECIS thu tập liệu Chess, Mushroom Connect rõ rang nhiều so với số lượng EIS số lượng Items ban đầu Do đó, nguồn tài nguyên cần thiết hệ thống thông minh giảm làm cho hệ thống tốt Bảng3.2 Kết thực nghiệm tập liệu Chess CSDL CHESS Ngưỡng ξ (%) Số ECIS Thời gian (ms) Bộ nhớ (mb) 10 % 521 368.6 13.4 15 % 2065 490.4 15.48 20 % 6203 631.6 6.8 25 % 15480 1315.8 4.14 Bảng3.3 Kết thực nghiệm tập liệu Connect CSDL CONNECT Ngưỡng ξ (%) Số ECIS Thời gian (ms) 0.75 % 1636 1903 64.5 1.0 % 4862 4631.4 103.8 1.25 % 12183 6709.4 46.7 1.5 % 25737 12341 50.34 Bộ nhớ (mb) 45 Bảng3.4 Kết thực nghiệm tập liệu Mushroom CSDL MUSHROOM Ngưỡng ξ (%) Số ECIS Thời gian (ms) Bộ nhớ (mb) 0.75 % 127 434.4 6.45 1.0 % 245 434.6 6.77 1.25 % 456 503 7.38 1.5 % 950 553.2 8.64 Bảng3.5 Số lượng EIs ECIs CSDL thực nghiệm CSDL Chess Connect Mushroom Ngưỡng ξ (%) Số EIs Số ECIs 10 665 521 15 3083 2065 20 10913 6203 25 30815 15480 0.75 1677 1636 1.0 5185 4862 1.25 13625 12183 1.5 30540 25737 0.75 1830 127 1.0 8368 245 1.25 24537 456 1.5 63033 950 Hình 3.1-3.3so sánh thời gian thực liệu Chess, Connect, Mushroom hai thuật toán MEI MECI ngưỡng thời gian 46 The mining time (ms) 1400 1200 1000 800 MEI 600 MECI 400 200 10 15 20 25 Ngưỡng Hình 3.1 Thời gian khai thác MEI MECI tập liệu Chess The mining time (ms) 14000 12000 10000 8000 MEI 6000 MECI 4000 2000 0.75 1.25 1.5 Ngưỡng Hình 3.2 Thời gian khai thác MEI MECI tập liệu Connect 47 The mining time (ms) 3000 2500 2000 MEI 1500 MECI 1000 500 0.75 1.25 1.5 Ngưỡng Hình 3.3 Thời gian khai thác MEI MECI tập liệu Mushroom Dựa vào giản đồ thời gian hình từ 3.1-3.3 cho ta thấy thời gian khai thác MECI thường nhanh so MEI Đặt biệt chênh lệch lớn tập liệu Mushroom Đối với CSDL Chess độ chênh lệch khơng lớn Tuy nhiên CSDL Connect MECI tỏ không khả quan hơn, không tiết kiệm so với MEI Đối với CSDL thưa với độ dài item ngắn thời gian khai thác khơng đáng quan tâm nhiều Nhưng CSDL dày chứa item dài thời gian khai thác quan trọng, đặc biệt cần truy tìm thơng tin item thời gian vấn đề có ảnh hưởng lớn Hình 3.4 - 3.6 so sánh việc sử dụng nhớ liệu Chess, Connect, Mushroom hai thuật toán MEI MECI 48 The memory usage (mb) 18 16 14 12 MEI 10 MECI 10 15 20 25 Ngưỡng Hình 3.4 Sử dụng nhớ MEI MECI tập liệu Chess The memory usage (mb) 120 100 80 MEI 60 MECI 40 20 0.75 1.25 1.5 Ngưỡng Hình 3.5 Sử dụng nhớ MEI MECI tập liệu Connect 49 The memory usage (mb) 30 25 20 MEI 15 MECI 10 0.75 1.25 1.5 Ngưỡng Hình 3.6 Sử dụng nhớ MEI MECI tập liệu Mushroom Kết thể hình từ 3.4 - 3.6 cho ta thấy thuật toán MECI hiệu nhiều so với MEI việc sử dụng nhớ Đây kết khả quan mơ hình khai thác liệu Đặc biệt hệ thống thông minh, hệ thống với CSDL dày đặc với chiều dài item lớn hay hệ thống với CSDL tăng trưởng việc biến động việc lưu trữ vấn đề lớn Cụ thể ta thấy CSDL Connect độ chênh lệch sử dụng nhớ hai thuật toán MECI MEI khơng lớn Nhưng nhìn vào so sánh hai CSDL Chess Mushroom ta thấy với ngưỡng cao MECI hiệu MEI việc sử dụng nhớ (chẳng hạn với Chess ngưỡng 25%, với Mushroom với ngưỡng 1.25% 1.5%) 50 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết đạt Luận văn đáp ứng vấn đề đặt giải vấn đề khó khăn khai thác CSDL với số lượng lớn EIS Khai thác tập xóa đóng theo phương pháp ngây thơ khai thác hết tất EIs sau khai thác ECIs từ tập EIs thu nên thường sinh luật dư thừa khơng hữu ích phải tốn thời gian để khai thác cắt tỉa luật này, đồng thời gây khó khăn khơng cho người sử dụng Do cần thiết phải có phương pháp khai thác hiệu tập xóa đóng phương pháp trình bày luận văn đáp ứng đươc vấn đề đặt ra, nguồn tài nguyên cần thiết hệ thống thông minh giảm đảm bảo hệ thống hoạt động tốt ổn định Các kết thực nghiệm cho thấy số lượng EIs giảm đáng kể mà không làm thông tin Bên cạnh triển khai thuật tốn làm giảm đáng kể thời gian khai thác tập liệu giảm thiểu sử dụng nhớ Thuật tốn khai thác luật khơng dư thừa mà khơng cần phải tốn thời gian chi phí đểcắt tỉa luật bị dư thừa Thuật toán khai thác tập phổ biến xóa đóng ứng dụng cách khơn ngoan kỹ thuật dPidset, diffset dcharm đáp ứng mục tiêu hạn chế khơng gian lưu trữ, tìm kiếm làm giảm thiểu số tập hợp, thật đạt hiệu suất cao liệu dày đặc với mẫu liệu dài Phương pháp đề xuất thực nghiệm CSDL thực với số ngưỡng cho khai thác thành công EIs ECIs Chỉ với khoảng thời gian ngắn lượng nhớ tiêu tốn không nhiều tht tốn cho số lượng ECIs nhiều so với số lượng EIs đảm bảo không bị thông tin 4.2 Hạn chế Mặc dù thuật toán đáp ứng vấn đề đặt ra, số lượng item tìm giảm nhiều mà đảm bảo không bị thông tin, từ giải vấn đề thời gian khai thác lượng nhớ sử dụng Tuy nhiên, với CSDL Connect (với ngưỡng 1.25% 1.5%) thời gian khai thác sử dụng nhớ thuật toán MECI chưa hiệu thuật toán 51 MEI Do thời gian kiến thức hạn chế nên thuật toán thực nghiệm tốt CSDL Chess, Connect Mushroom mà chưa thể thực nghiệm CSDL tăng trưởng hay CSDL rộng lớn 4.3 Hướng phát triển Trong tương lai tiến hành nghiên cứu vấn đề liên quan đến mơ hình xóa đóng chẳng hạn khai thác EIS từ tập liệu lớn, khai thác top-rank-k EIS, khai thác EIS tối đa, khai thác EIS từ tập liệu tăng Tiến hành tìm phương pháp kiểm tra hiệu với mong muốn làm giảm thời gian khai thác Mặc dù thân cố ập trung nghiên cứu tham khảo tài liệu, báo, tạp chí khoa học ngồi nước, trình độ khơng thể ạn chế nên ững thiếu sót Rất mong nhận đóng góp quý thầy cô nhà khoa học để luận văn hoàn thiện Xin chân thành cảm ơn 52 TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Võ Đình Bảy,2011 Nâng cao hiệu thuật toán khai thác luật kết hợp dựa dàn Luận án tiến sĩ công nghệ thông tin, trường đại học khoa học tự nhiên Thành phố Hồ chí minh [2] Võ Đình Bảy, Lê Hoài Bắc,2008.Khai thác luật thiết yếu từ tập phổ biến đóng.Science & Technology Development, 11(1),p 40 - 50 TIẾNG ANH [3] Le T., Vo B., 2014.MEI: an efficient algorithm for mining erasable itemset., Engineering Appli-cations of Artificial Intelligence, 27, 155-166 [4] Giang N., Tuong L., Bay V., Bac L.,2015.Discovering erasable closed patterns ACIIDS, 368-376 [5] Deng Z.H., Xu X.R., 2012.Fast mining erasable itemsets using NC_sets Expert Systems with Applications, 39(4), 4453–4463 [6] M J Zaki, j Hsiao, Itemsets and Their April 2005 Efficient Algorithms for Mining Closed Lattice Structure IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 17(4) [7] D Cristofor, L Cristofor, and D Simovici, 2000.Galois Connection and Data Mining J Universal Computer Science, 6(1), 60-73 [8] J Pei, J Han, and R Mao, May 2000 Closet: An Efficient Algorithm for Mining Frequent Closed Itemsets Proc SIGMOD Int’l Workshop Data Mining and Knowledge discovery [9] J Wang, J Han, and J Pei, Aug 2003 Closet+: Searching for the Best Strategies for Mining Frequent Closed Itemsets Proc ACM SIGKDD Int’l Conf Knowledge Discovery and Data Mining [10] D Burdick, M Calimlim, and J Gehrke, Apr 2001 MAFIA: A Maximal Frequent Itemset Algorithm for Transactional Databases,” Proc Proc Int’l Conf Data Eng 53 [11] Y Bastide, R Taouil, N Pasquier, G Stumme, and L Lakhal, Dec 2000 Mining Frequent Patterns with Counting Inference SIGKDD Explorations, 2(2) [12] J Han, J Pei, and Y Yin, May 2000 Mining Frequent Patterns without Candidate Generation Proc ACM SIGMOD Conf Management of Data [13] Deng Z.H., Fang G., Wang Z., Xu X, 2009.Mining erasable itemsets In ICMLC’09, 67–73 [14] N Pasquier, Y Bastide, R Taouil, and L Lakhal, Jan 1999 Discovering Frequent Closed Itemsets for Association Rules Proc Seventh Int’l Conf Database Theory [15] Claudio Lucchese, Salvatore Orlando, Raffaele Perego, Nov 2004.Fast and Memory Efficient Mining of Frequent Closed Itemsets , Technical Report CS2004-9 [16] M.J Zaki, J.Hsiao CHARM: An Efficient Algorithm for Closed Itemset Mining Computer Science Department, Rensselaer Polytechnic Institute, Troy NY 12180 [17] B Dunkel, N Soparkar,March 1999 Data organization and access for efficient data mining In 15th IEEE Intl.Conf on Data Engineering [18] A Savasere, E Omiecinski, S Navathe, 1995.An efficient algorithm for mining association rules in large databases In 21st VLDB Conf [19] P Shenoy, J.R Haritsa, S Sudarshan, G Bhalotia, M Bawa, D Shah,May 2000 Turbo-charging verticalmining of large databases In ACM SIGMOD Intl Conf Management of Data [20] M J Zaki,May-June 2000 Scalable algorithms for association mining IEEE Transactions on Knowledge and DataEngineering, 12(3):372-390 [21] M J Zaki and K Gouda,March 2001 Fast vertical mining using Diffsets Technical Report 01-1, Computer ScienceDept., Rensselaer Polytechnic Institute 54 [22] M J Zaki, j Hsiao, Nov 2003 Mining Closed & Maximal Frequent Itemsets Computer Science Department Rensselaer Polytechnic Institute Troy NY 12180 USA ... nhiều nhiệm vụ khám thác quan trọng khác Khai thác luật kết hợp mơ hình quan trọng khai thác liệu Khai thác tập xóa khai thác tập phổ biến đóng biến thiên thú vị khai thác tập phổ biến, cho phép... thuật toán đề xuất để khai thác tập phổ biến từ sở liệu, nhằm giải tốn khai thác tập đóng hay khai thác tập xố, thuật tốn có ưu khuyết điểm riêng Chẳng hạn, để khai thác tập xố, số thuật tốn đề... tài: Khai thác tập xóa đóng II- Nhiệm vụ nội dung: - Tập trung tìm hiểu, đánh giá đề xuất hướng tiếp cận hiệu thuật tốn khai thác tập xố đóng - Khảo sát phương pháp khai thác tập phổ biến đóng tập