Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,61 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN HOÀNG DŨNG KHAI THÁC LUẬT KẾT HỢP KHÔNG DƢ THỪA LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 TP HỒ CHÍ MINH, tháng 03 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN HOÀNG DŨNG KHAI THÁC LUẬT KẾT HỢP KHÔNG DƢ THỪA LUẬN VĂN THẠC SĨ Chuyên ngành : Công Nghệ Thông Tin Mã số ngành: 60340102 CÁN BỘ HƢỚNG DẪN KHOA HỌC: PGS.TS LÊ TRỌNG VĨNH TP HỒ CHÍ MINH, tháng 03 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học: PGS.TS Lê Trọng Vĩnh Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày … tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ Tên Chức danh Hội đồng PGS.TS Đỗ Phúc Chủ tịch TS Võ Đình Bảy Phản biện TS Lƣ Nhật Vinh Phản biện PGS.TS Lê Hoàng Thái Ủy viên TS Lê Tuấn Anh Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN HOÀNG DŨNG Giới tính: Nam Ngày, tháng, năm sinh: 21/04/1973 Nơi sinh: Phú Yên Chuyên ngành: Công nghệ thông tin MSHV: 1341860003 I- Tên đề tài: KHAI THÁC LUẬT KẾT HỢP KHÔNG DƢ THỪA II- Nhiệm vụ nội dung: - Khai thác luật kết hợp không dƣ thừa Đề xuất thủ tục tránh tạo luật dƣ thừa Xây dựng thủ tục tìm kiếm hỗ trợ cho thuật tốn Xây dựng chƣơng trình Demo III- Ngày giao nhiệm vụ: 18/08/2014 IV- Ngày hoàn thành nhiệm vụ: 14/03/2015 V- Cán hƣớng dẫn: (Ghi rõ học hàm, học vị, họ, tên) PGS.TS LÊ TRỌNG VĨNH CÁN BỘ HƢỚNG DẪN PGS.TS Lê Trọng Vĩnh KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn nhƣ trích dẫn hay tài liệu học thuật tham khảo đƣợc cảm ơn đến tác giả thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn Nguyễn Hoàng Dũng ii LỜI CÁM ƠN Trƣớc hết, cho đƣợc gửi lời cảm ơn đến hƣớng dẫn giúp đỡ tận tình PGS.TS Lê Trọng Vĩnh Xin cảm ơn Thầy/Cô, Khoa CNTT Đại Học Công Nghệ TP HCM giúp đỡ cung cấp cho tơi kiến thức q giá suốt thời gian học tập nghiên cứu thực luận văn Tôi xin gởi lời cảm ơn đến gia đình, bạn bè ngƣời thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận đƣợc ý kiến đóng góp ngƣời cho luận văn đƣợc hồn thiện Tơi xin chân thành cảm ơn TP Hồ Chí Minh, ngày 16 tháng năm 2015 Nguyễn Hoàng Dũng iii TÓM TẮT Khai phá tri thức tiềm n sở liệu mục tiêu chung ngành khoa học khai thác liệu đƣợc nhiều nhà nghiên cứu quan tâm Với b ng nổ liệu ngày nay, thách thức cho ngành khoa học ngày phát triển mạnh chiều rộng chiều sâu Khai thác luật kết hợp không dƣ thừa hƣớng nghiên cứu Hƣớng nghiên cứu đề xuất thuật toán khai thác liệu cho: kết luật thu đƣợc khơng chứa luật dƣ thừa (các luật khơng có ý nghĩa thực tế) Từ giảm nhớ lƣu trữ tập luật thu đƣợc, tăng hiệu thực việc khai thác sở liệu lớn Nghiên cứu luận văn tập trung vào nghiên cứu thuật toán khai thác luật kết hợp khơng dƣ thừa nhƣ TopKRuLe TNR Ngồi phân tích mặt lý thuyết, Kết thực nghiệm cho thấy TNR đề xuất tốt cho việc khai thác luật kết hợp không dƣ thừa số chiến lƣợc khai thác có chi phí thấp so với TopKRuLe, số chiến lƣợc có chi phí cao so với TopKRuLe iv ABSTRACT Mining knowledge hidden in the current database is the common goal of science data mining is very much interested researchers With the development of today's data, the challenge for this science is growing strongly in both width and depth Mining association rules is not redundant is a new research This research proposes data mining algorithms that the results obtained are association rules is not redundant (the association rules does not make sense in practice) Thereby reducing the memory storage of the collected sets of rules, increasing efficiency when performing the extraction on large databases Research in this thesis focuses on the study of algorithms to mining nonredundant association rules as TopKRuLe and TNR In addition to analysis theoretical, experimental results also show that TNR is a good proposal for mining of nonredundant association rules and in some strategy mining will have lower costs than TopKRuLe, in a number of strategies will have higher costs than TopKRuLe v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa CSDL Cơ sở liệu DB DataBase KPTT Khám phá tri thức kNN Thuật toán k-Nearest Neighbor Itemset Tập mục TID Nhận dạng giao dịch - Transaction IDentifier vi DANH MỤC CÁC BẢNG Bảng 2.1 CSDL Giao dịch………………………………………………………… 16 Bảng 2.2 CSDL Giao dịch cho IT-Tree…………………………………………… 21 Bảng 2.3 Kết chạy thuật tốn tìm AR với minconf=80% ……………………….23 Bảng 3.1 CSDL Giao dịch – Luật kết hợp tìm thấy …………………………………27 Bảng 3.2 CSDL Giao dịch cho thuật tốn TopKRules ………………………………31 Bảng 3.3 Kết tính Item đơn từ CSDL giao dịch ……………………………… 31 Bảng 3.4 Kết tìm luật từ bảng 3.3 ………………………………………… 32 Bảng 3.5 Kết chọn luật từ bảng 3.4 thỏa minconf ………………………….33 Bảng 3.6 Kết khai thác k=10 luật kết hợp ……………………………………….33 Bảng 3.7 Dữ liệu giao dịch ………………………………………………………….40 Bảng 3.8 Kết tính sup Item đơn từ bảng 3.7 ……………………………… 40 Bảng 3.9 Kết sinh luật từ bảng 3.8………………………………………………41 Bảng 3.10 Kết khai thác k luật kết hợp không dƣ thừa ………………………….42 Bảng 4.1 Dữ liệu thực nghiệm ………………………………………………………44 Bảng 4.2 Kết thực nghiệm với TopKRules TNR ……………………………46 39 L luật dƣ thừa luật rb luật đƣợc lấy khỏi L Ý tƣởng đƣợc thức hóa nhƣ chiến lƣợc sau: Chiến lƣợc : Đối với luật rb đƣợc tạo mà sup(rb) ≥ minsup, tồn ra L | sup(rb) = sup(ra) dƣ thừa so với rb đƣợc lấy khỏi L Khi sử dụng chiến lƣợc 2, thuật toán trở nên gần Lý luật đƣợc tìm thấy chiến lƣợc chiếm vị trí tập L Bởi diện L, luật làm tăng biến minsup cục Nếu điều xảy ra, thuật tốn bỏ qua số luật có độ hỗ trợ thấp luật nhƣng không luật dƣ thừa Khi thuật toán gần đúng, muốn cải tiến để làm tăng khả cho kết xác Để đạt đƣợc điều này, đề xuất thêm tham số mà đặt tên Δ, tăng khoảng Δ số luật k khắc phục đƣợc việc nâng cao biến cục minsup Ví dụ, ngƣời d ng đặt k = 1000 Δ = 100, đƣợc yêu cầu phải có k + Δ = 1100 luật tập L để nâng cao biến minsup cục thay k = 1000 Điều có nghĩa có đến 100 luật dƣ thừa c ng lúc có L kết xác Điều đƣợc khẳng định tính chất sau: Tính chất 2: Nếu số lƣợng luật dƣ thừa L khơng nhiều Δ luật, kết thuật tốn xác k luật L có độ hỗ trợ cao top-k luật không dƣ thừa Lý do, nhƣ giải thích phía trên, nguy hiểm có q nhiều luật dƣ thừa L nhƣ buộc phải để nâng cao minsup bớt phần khơng gian tìm kiếm có chứa top-k luật khơng dƣ thừa Nếu khơng có Δ luật dƣ thừa c ng lúc L k + Δ mức nâng cao minsup, luật dƣ thừa làm nâng cao minsup Đề xuất điều kiện để Chiến lƣợc đảm bảo tạo kết xác Dựa đề xuất này, câu hỏi quan trọng "Nó tích hợp phép kiểm tra cho tính xác thuật tốn?" Câu trả lời tốn để xác minh nhiều Δ luật dƣ thừa có mặt c ng lúc L Lý luật 40 đƣợc biết đến dƣ thừa chúng bị xóa Chiến lƣợc Do đó, việc kiểm tra tính chất tốn Tính chất 3: Nếu số lƣợng luật dƣ thừa đƣợc loại bỏ Chiến lƣợc thực thuật toán nhỏ Δ, kết cuối c ng xác Khi k luật L luật không dƣ thừa Lý Ta dễ dàng thấy rằng, tính chất tính chất Tính chất thực dễ dàng thuật tốn Để thực chức này, chúng tơi thêm biến đếm, biến đƣợc tăng thêm sau lần loại bỏ luật từ tập L Chiến lƣợc Sau đó, thuật tốn kết thúc, biến đếm đƣợc so sánh với Δ Nếu giá trị biến đếm thấp Δ, ngƣời d ng đƣợc thơng báo kết xác Ngƣợc lại, ngƣời d ng đƣợc thông báo kết khơng xác Trong trƣờng hợp này, ngƣời d ng chọn để chạy lại thuật toán với giá trị Δ cao Trong phần thực nghiệm (chƣơng 4), giải câu hỏi làm để chọn Δ Lƣu ý thuật tốn chúng tơi, sử dụng số tối ƣu đƣợc sử dụng TopKRules tƣơng thích với TNR Tối ƣu cố gắng tìm luật có triển vọng khơng gian khai thác luật kết hợp Điều luật có độ hỗ trợ cao dễ tìm thấy Thuật tốn làm tăng biến cục minsup nhanh để nhằm giảm khơng gian tìm kiếm Để thực điều này, biến cục R đƣợc thêm vào để lƣu trữ tất luật để mở rộng hội tìm kiếm luật có giá trị Tập R sau đƣợc sử dụng để xác định luật có giá trị với độ hỗ trợ cao để tăng biến minsup nhanh nhằm giảm phần lớn khơng gian tìm kiếm Tối ƣu hóa thứ hai sử dụng vectơ bit nhƣ cấu trúc liệu để biểu diễn tập hợp giao dịch có chứa luật (tidsets) Tối ƣu hóa thứ ba thực cấu trúc liệu nhị phân tìm kiếm cân hỗ trợ chèn, xóa tìm kiếm phần tử nhỏ nhất, lớn hiệu 41 3.3.2 Minh họa thuật toán Để minh họa thuật tốn xem ví dụ sau: Cho bảng liệu giao dịch nhƣ bảng 3.7 với điều kiện đầu vào minconf = 70%, K =10 u cầu tìm top-k luật khơng dƣ thừa Các bƣớc thực đƣợc mô tả chi tiết nhƣ sau: Bảng 3.7 Dữ liệu giao dịch (tƣơng đƣơng bảng 3.2) TID Item t1 a, b, c, d, e t2 a, c, d, e t3 a, b, e t4 b, c, d, e t5 c, d, e Bƣớc 1: Tính sup item đơn với minsup=0 ta có kết bảng 3.8 Bảng 3.8 Kết tính sup item đơn từ bảng liệu 3.7 Item Sup a b c d e 42 Bƣớc 2: gán minsup=0, phát sinh luật có dạng i→j j→i Nếu luật thỏa điều kiện lơn minsup minconf đƣa vào tập R kết nhƣ bảng 3.9 Bảng 3.9 Kết sinh luật từ bảng 3.8 Rule Sup Conf a→e 3/3 b→e 3/3 c→d 4/4 d→c 4/4 c→e 4/4 e→c 4/5 d→e 4/4 e→d 4/5 Bƣớc 3: Tìm kiếm – thay luật Trong bƣớc thuật toán TNR thực gần giống thuật toán TopKRules, điểm khác biệt phát sinh luật thỏa điều kiện để thêm vào L kiểm tra L có luật rb dƣ thừa với loại rb khỏi L dƣ thừa với rb khơng đƣợc thêm vào Chọn luật R có sup cao nhất, tiến hành phát triển bên trái bên phải để tìm luật thỏa : minsup=3, minconf=70%, Không dƣ thừa 43 Trong ví dụ này, chọn c→d luật có sup cao để phát triền vế trái thành ce→d thỏa sup=4, conf=4/4 nhƣng lại tồn c→d có L mà ce→d lại dƣ thừa so với c→d nên ce→d không đƣợc thêm vào L (chiến lƣợc 1) Khi phát triển vế phải thành c→de, luật thỏa điều kiện với sup=4, conf=4/4 không dƣ thừa với luật có L nên đủ điều kiện để thêm vào L Lúc theo chiến lƣợc 2, tìm L có luật c→d dƣ thừa so với luật c→de c→d phải bị loại khỏi L Tiếp tục tìm kiếm thay luật ta có kết luật khơng dƣ thừa nhƣ bảng 3.10 Bảng 3.10 Kết khai thác luật kết hợp không dƣ thừa Rule Sup Conf a→e 3/3 b→e 3/3 c→de 4/4 d→ce 4/4 e→cd 4/5 So sánh bảng kết hai thuật toán bảng 3.6 bảng 3.10 nhận thấy: -Với c ng bảng liệu đầu vào, k=10, minconf=70% ta có kết khác Trong bảng kết thuật tốn TopKRules có nhiều luật dƣ thừa thừa, ví dụ có luật e→dc nhƣng tồn hai luật e→d luật e→c 44 - Ngoài ra, yêu cầu khai thác k luật nên kết bỏ luật có sup thấp nhƣng cần thiết ngƣời d ng ví dụ hai luật a→e b→e Chi tiết xem hình 3.3 Rule Sup Conf Rule Sup Conf c→e 4/4 a→e 3/3 e→c 4/5 b→e 3/3 d→e 4/4 c→de 4/4 e→d 4/5 d→ce 4/4 ce→d 4/4 e→cd 4/5 de→c 4/4 d→ce 4/4 cd→e 4/4 e→cd 4/5 Bảng kết TopKRules Bảng kết TNR Hình 3.3 So sánh kết thuật toán TopKRules TNR 45 CHƢƠNG THỰC NGHIỆM – ĐÁNH GIÁ THUẬT TỐN Để đo tính hiệu thuật tốn TopKRules TNR thí nghiệm đƣợc thực liệu tổng hợp Chess Retail đƣợc sửa đổi Máy tính: Sony 3.40 GHz xử lý Core i5 GB nhớ chính, chạy hệ điều hành Windows 7.0-64bit Ngơn ngữ lập trình Java sử dụng với trình biên dịch Eclipse 4.1 MƠ TẢ DỮ LIỆU Dữ liệu sử dụng để chạy chƣơng trình đƣợc download từ nguồn http://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php Với cấu trúc liệu đƣợc mô tả bảng 4.1 Bảng 4.1 Dữ liệu thực nghiệm CSDL Số Giao dịch Số mặt hàng Kích thƣớc Trung bình giao dịch Chess 3,196 75 37 Retail 88,162 16,469 52 Connect 67,557 129 43 Pumsb 49,046 7,116 74 Khi chọn CSDL thực nghiệm, cố gắng chọn loại liệu có kích thƣớc khác nhau, ví dụ nhƣ CSDL Chess có số giao dịch số mặt hàng nhỏ nhƣng CSDL Retail có số lƣợng giao dịch số lƣợng mặt hàng lớn Ngồi ra, CSDL Retail có độ lệch số mặt hàng giao dịch lớn Có giao dịch có 46 mặt hàng nhƣng có giao dịch lên đến hàng trăm mặt hàng Riêng CSDL Connect có số lƣợng mặt hàng tất giao dịch 4.2 CHƢƠNG TRÌNH THỰC NGHIỆM Chƣơng trình thuật tốn đƣợc lấy từ nguồn http://www.philippe-fournierviger.com/spmf/index.php?link=algorithms.php Các mã nguồn đƣợc viết java, chạy trình biên dịch mã nguồn mở Eclipse Chúng tơi nghiên cứu việt hóa số chức Khi thực chƣơng trình, hình có cấu trúc nhƣ hình 4.1 Hình 4.1 Màn hình Combobox d ng để chọn thuật tốn thực Ở có thuật tốn để chọn thuật toán TopKRules thuật toán TNR Khi chọn thuật toán TNR, textbox cho nhập 47 hệ số k (số luật khơng dƣ thừa cần tìm), ngƣỡng tối thiểu độ tin cậy (minconf) số delta để đảm bảo thuật tốn chạy xác Với textbox chọn file liệu, chọn file liệu cần thực thi dƣới dạng file.txt ví dụ ta chọn Chess.txt, Retail.txt, Connect.txt Pumsb.txt Mục textbox chọn file xuất kết ta định file.txt có sẵn hay file để ghi luật tìm đƣợc sau trình khai thác Dấu check mục “Mở file kết thuật toán kết thúc” đƣợc check tự động mở file kết hình Nút lệnh “thực hiện” thực trình khai thác theo thuật toán CSDL chọn, xuất kết file.txt hiển thị thời gian thực thi, khối lƣợng nhớ tối đa mà thuật tốn chiếm q trình thực thi Để đảm bảo kết khách quan, chúng tơi chạy thí nghiệm lần ứng với c ng CSDL hệ số k, ghi nhận kết lần chạy lấy giá trị trung bình chúng Bảng kết thực nghiệm đƣợc ghi bảng 4.2 Bảng 4.2 Kết thực nghiệm với TopKRules TNR Dataset Chess Retail Connect pumsb Algorithm Execution Time (ms) Maximum Memory Usage (MB) k = 10 k = 20 k = 30 k = 10 k = 20 k = 30 TopKRules 116 60 28 32 23.98 8.53 TNR 223 125 62 12.93 29.40 26 TopKRules 5943 6807 8034 1546.70 1584.10 1615 TNR 5102 6231 9876 1636.40 1672.50 1693.40 TopKRules 619 635 537 152.70 268.71 318.50 TNR 814 876 789 339.95 386.75 520.53 TopKRules 669 717 1188 374.14 397.47 429.69 TNR 721 923 1322 484.79 462.22 453.06 48 Ứng với bảng kết trên, vẽ đồ thị để so sánh thời gian chạy nhớ sử dụng tối đa CSDL Với CSDL Chess, Thời gian thực TNR cao so với TopKRules, nhiên việc sử dụng nhớ khơng thể đƣợc ƣu điểm thuật tốn 250 200 150 TopKRules TNR 100 50 k=10 (a) k=20 k=30 (b) Hình 4.2 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Chess (a) (b) Hình 4.3 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Retail 49 Đối với kết thực nghiệm CSDL Retail hình 4.3 thấy, thời gian thực hiện, thuật toán TNR tốt hệ số k thấp cao hệ số k lớn Về phần sử dụng nhớ thuật tốn TNR ln cao so với TopKRules (a) (b) Hình 4.4 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Connect 400 1,400 1,200 1,000 800 600 400 200 300 TopKRules 200 100 TopKR… TNR k=10 k=20 k=30 k=10 (a) k=20 k=30 (b) Hình 4.5 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Pumsb 50 Nhƣ qua kết thực nghiệm CSDL mẫu, thấy thuật toán TNR cần thời gian nhớ cao so với thuật toán TopKRules Điều lý giải giải thuật tìm kiếm thay luật dƣ thừa tập trung gian nhiều thời gian nhớ Thay vào đó, kết luật tìm đƣợc không tồn luật dƣ thừa tập kết Ngồi ra, thuộc vào độ xác thuật tốn, xảy tình trạng, hệ số delta thấp khơng đủ để thuật tốn TNR chạy cho kết xác phải thực lại thuật toán với delta cao hơn, nhƣ thời gian chạy cao nhiều tăng tỷ lệ thuận với độ lớn số delta 51 PHẦN KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận Luận văn trình bày đƣợc phần lý thuyết khai thác luật kết hợp thuật toán khai thác k luật kết hợp, luật kết hợp khơng dƣ thừa Trong nêu rõ thuật toán khai thác k luật kết hợp, ví dụ minh họa Luật văn nêu số khái niệm luật dƣ thừa chiến lƣợc cải tiến thủ tục tìm kiếm thay luật dƣ thừa tập luật kết để thực thu đƣợc tập luật mà khơng tồn luật dƣ thừa Do q trình thay luật phát sinh trƣờng hợp luật đƣợc tìm thấy chiến lƣợc chiếm vị trí tập luật kết nhƣ diện tập kết làm tăng biến minsup cục (do minsup luật ra) Nếu điều xảy ra, thuật tốn bị bỏ qua số luật có độ hỗ trợ thấp luật nhƣng luật bị bỏ không luật dƣ thừa Nhƣ vậy, cần khắc phục tình trạng luật khơng dƣ thừa có minsup thấp luật dƣ thừa bị bỏ đề xuất sử dụng biến Δ biến đếm cục Chúng thêm biến đếm cục Biến đƣợc tăng thêm sau lần loại bỏ luật từ tập kết Chiến lƣợc Sau đó, thuật toán kết thúc, biến đếm đƣợc so sánh với Δ Nếu giá trị biến đếm thấp Δ, ngƣời d ng đƣợc thông báo kết xác Ngƣợc lại, ngƣời d ng đƣợc thơng báo kết khơng xác Trong trƣờng hợp này, ngƣời d ng chọn để chạy lại thuật toán với giá trị Δ cao Kết thực nghiệm cho thấy thuật toán TNR có thời gian chạy chi phí nhớ cao so với thuật tốn tìm k luật kết hợp (TopKRules) Điều đƣợc chúng tơi giải thích phần thực nghiệm chƣơng 52 Hƣớng phát triển Việc thay đổi số Δ nhiều lần hạn chế lớn thuật toán TNR Trong tƣơng lai nghiên cứu đề xuất phƣơng pháp chọn Δ cho hiệu quả, để số lần phải chạy lại Ngồi ra, thời gian thực thuật tốn TNR cịn cao so với thuật tốn tìm k luật kết hợp Việc cải tiến thủ tục tìm kiếm thay theo hƣớng tiếp cận luật có tiềm luật dƣ thừa thay phải quét tất luật tập kết nhƣ để tìm luật dƣ thừa Nếu thực đƣợc điều này, thuật toán cho kết xác với thời gian chạy nhiều Việc áp dụng thuật toán khai thác luật kết hợp với thời gian chạy ngắn thay sử dụng thuật tốn nhƣ đƣợc đƣa vào hƣớng nghiên cứu 53 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc, “ Giáo trình khai thác liệu”, NXB Đại học Quốc gia TP.HCM, 2008 [2] Lê Hoài Bắc, “Bài giảng môn Data Mining”, Đại học KHTN (Đại học Quốc gia Tp.HCM), 2013 [3] Nguyễn Tiến Trung, “Khai thác tập mục lợi ích cao bảo tồn tính riêng tư”, luận văn thạc sỹ, Đại học Công nghệ TP HCM, 2015 Tiếng Anh [4] Fournier-Viger, P., Wu, C.-W., Tseng, V S “Mining Top-K Association Rules”, Proc 25th Canadian Conf on Artificial Intelligence (AI 2012), Springer, 2012, pp 61-73 [5] Bay Vo, Bac Le “ A Frequent Closed Itemsets Lattice-based Approach for Mining Minimal Non-Redundant Association Rules”, International Journal of Database Theory and Application, Vol 4, No 2, June 2011, pp 23 – 33 [6] Philippe Fournier-Viger and Vincent S Tseng “Mining Top-K Non-Redundant Association Rules” Foundations of Intelligent Systems Lecture Notes in Computer Science Volume 7661, 2012, pp 31-40 [7] X.Wu, V.Kumar, J.Ross Quinlan, J.Ghosh, Q.Yang, H.Motoda, G.J McLachlan, A.Ng, B.Liu, P.S.Yu, Z.-H.Zhou, M.Steinbach, D.J.Hand, D Steinberg (2008), Top 10 Algorithms in Data Mining, Knowl Inf Syst volume14, pp 1–37 ... CHƢƠNG KHAI THÁC LUẬT KẾT HỢP KHÔNG DƢ THỪA 3.1 LUẬT KẾT HỢP DƢ THỪA Khai thác luật kết hợp bao gồm phát mối liên quan tập mục giao dịch Nó nhiệm vụ khai thác liệu quan trọng Nó đƣợc tích hợp nhiều... toán khai thác k luật kết hợp luật kết hợp không dƣ thừa Đầu vào thuật toán liệu dƣới dạng giao dịch đầu k luật với k số luật cần tìm khơng có luật dƣ thừa số k luật Vì không loại bỏ luật dƣ thừa. .. khác dƣ thừa luật đƣợc đề xuất [6] Tuy nhiên, thách thức mở để kết hợp ý tƣởng nhằm khai thác luật không dƣ thừa Ý tƣởng đề xuất thuật toán hiệu nhằm khai thác luật kết hợp không dƣ thừa Lợi