1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai thác luật kết hợp không dư thừa

67 225 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,46 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN HOÀNG DŨNG KHAI THÁC LUẬT KẾT HỢP KHÔNGTHỪA LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 TP HỒ CHÍ MINH, tháng 03 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN HOÀNG DŨNG KHAI THÁC LUẬT KẾT HỢP KHÔNGTHỪA LUẬN VĂN THẠC SĨ Chuyên ngành : Công Nghệ Thông Tin Mã số ngành: 60340102 CÁN BỘ HƢỚNG DẪN KHOA HỌC: PGS.TS LÊ TRỌNG VĨNH TP HỒ CHÍ MINH, tháng 03 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học: PGS.TS Lê Trọng Vĩnh Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày … tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ Tên Chức danh Hội đồng PGS.TS Đỗ Phúc Chủ tịch TS Võ Đình Bảy Phản biện TS Lƣ Nhật Vinh Phản biện PGS.TS Lê Hoàng Thái Ủy viên TS Lê Tuấn Anh Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN HOÀNG DŨNG Giới tính: Nam Ngày, tháng, năm sinh: 21/04/1973 Nơi sinh: Phú Yên Chuyên ngành: Công nghệ thông tin MSHV: 1341860003 I- Tên đề tài: KHAI THÁC LUẬT KẾT HỢP KHÔNGTHỪA II- Nhiệm vụ nội dung: - Khai thác luật kết hợp khôngthừa Đề xuất thủ tục tránh tạo luậtthừa Xây dựng thủ tục tìm kiếm hỗ trợ cho thuật toán Xây dựng chƣơng trình Demo III- Ngày giao nhiệm vụ: 18/08/2014 IV- Ngày hoàn thành nhiệm vụ: 14/03/2015 V- Cán hƣớng dẫn: (Ghi rõ học hàm, học vị, họ, tên) PGS.TS LÊ TRỌNG VĨNH CÁN BỘ HƢỚNG DẪN PGS.TS Lê Trọng Vĩnh KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn nhƣ trích dẫn hay tài liệu học thuật tham khảo đƣợc cảm ơn đến tác giả thông tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn Nguyễn Hoàng Dũng ii LỜI CÁM ƠN Trƣớc hết, cho đƣợc gửi lời cảm ơn đến hƣớng dẫn giúp đỡ tận tình PGS.TS Lê Trọng Vĩnh Xin cảm ơn Thầy/Cô, Khoa CNTT Đại Học Công Nghệ TP HCM giúp đỡ cung cấp cho kiến thức quí giá suốt thời gian học tập nghiên cứu thực luận văn Tôi xin gởi lời cảm ơn đến gia đình, bạn bè ngƣời thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận đƣợc ý kiến đóng góp ngƣời cho luận văn đƣợc hoàn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, ngày 16 tháng năm 2015 Nguyễn Hoàng Dũng iii TÓM TẮT Khai phá tri thức tiềm n sở liệu mục tiêu chung ngành khoa học khai thác liệu đƣợc nhiều nhà nghiên cứu quan tâm Với b ng nổ liệu ngày nay, thách thức cho ngành khoa học ngày phát triển mạnh chiều rộng chiều sâu Khai thác luật kết hợp khôngthừa hƣớng nghiên cứu Hƣớng nghiên cứu đề xuất thuật toán khai thác liệu cho: kết luật thu đƣợc không chứa luậtthừa (các luật ý nghĩa thực tế) Từ giảm nhớ lƣu trữ tập luật thu đƣợc, tăng hiệu thực việc khai thác sở liệu lớn Nghiên cứu luận văn tập trung vào nghiên cứu thuật toán khai thác luật kết hợp khôngthừa nhƣ TopKRuLe TNR Ngoài phân tích mặt lý thuyết, Kết thực nghiệm cho thấy TNR đề xuất tốt cho việc khai thác luật kết hợp khôngthừa số chiến lƣợc khai thác có chi phí thấp so với TopKRuLe, số chiến lƣợc có chi phí cao so với TopKRuLe iv ABSTRACT Mining knowledge hidden in the current database is the common goal of science data mining is very much interested researchers With the development of today's data, the challenge for this science is growing strongly in both width and depth Mining association rules is not redundant is a new research This research proposes data mining algorithms that the results obtained are association rules is not redundant (the association rules does not make sense in practice) Thereby reducing the memory storage of the collected sets of rules, increasing efficiency when performing the extraction on large databases Research in this thesis focuses on the study of algorithms to mining nonredundant association rules as TopKRuLe and TNR In addition to analysis theoretical, experimental results also show that TNR is a good proposal for mining of nonredundant association rules and in some strategy mining will have lower costs than TopKRuLe, in a number of strategies will have higher costs than TopKRuLe v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa CSDL Cơ sở liệu DB DataBase KPTT Khám phá tri thức kNN Thuật toán k-Nearest Neighbor Itemset Tập mục TID Nhận dạng giao dịch - Transaction IDentifier vi DANH MỤC CÁC BẢNG Bảng 2.1 CSDL Giao dịch………………………………………………………… 16 Bảng 2.2 CSDL Giao dịch cho IT-Tree…………………………………………… 21 Bảng 2.3 Kết chạy thuật toán tìm AR với minconf=80% ……………………….23 Bảng 3.1 CSDL Giao dịch – Luật kết hợp tìm thấy …………………………………27 Bảng 3.2 CSDL Giao dịch cho thuật toán TopKRules ………………………………31 Bảng 3.3 Kết tính Item đơn từ CSDL giao dịch ……………………………… 31 Bảng 3.4 Kết tìm luật từ bảng 3.3 ………………………………………… 32 Bảng 3.5 Kết chọn luật từ bảng 3.4 thỏa minconf ………………………….33 Bảng 3.6 Kết khai thác k=10 luật kết hợp ……………………………………….33 Bảng 3.7 Dữ liệu giao dịch ………………………………………………………….40 Bảng 3.8 Kết tính sup Item đơn từ bảng 3.7 ……………………………… 40 Bảng 3.9 Kết sinh luật từ bảng 3.8………………………………………………41 Bảng 3.10 Kết khai thác k luật kết hợp khôngthừa ………………………….42 Bảng 4.1 Dữ liệu thực nghiệm ………………………………………………………44 Bảng 4.2 Kết thực nghiệm với TopKRules TNR ……………………………46 39 L luậtthừa luật rb luật đƣợc lấy khỏi L Ý tƣởng đƣợc thức hóa nhƣ chiến lƣợc sau: Chiến lƣợc : Đối với luật rb đƣợc tạo mà sup(rb) ≥ minsup, tồn ra L | sup(rb) = sup(ra) dƣ thừa so với rb đƣợc lấy khỏi L Khi sử dụng chiến lƣợc 2, thuật toán trở nên gần Lý luật đƣợc tìm thấy chiến lƣợc chiếm vị trí tập L Bởi diện L, luật làm tăng biến minsup cục Nếu điều xảy ra, thuật toán bỏ qua số luật có độ hỗ trợ thấp luật nhƣng không luậtthừa Khi thuật toán gần đúng, muốn cải tiến để làm tăng khả cho kết xác Để đạt đƣợc điều này, đề xuất thêm tham số mà đặt tên Δ, tăng khoảng Δ số luật k khắc phục đƣợc việc nâng cao biến cục minsup Ví dụ, ngƣời d ng đặt k = 1000 Δ = 100, đƣợc yêu cầu phải có k + Δ = 1100 luật tập L để nâng cao biến minsup cục thay k = 1000 Điều có nghĩa có đến 100 luậtthừa c ng lúc có L kết xác Điều đƣợc khẳng định tính chất sau: Tính chất 2: Nếu số lƣợng luậtthừa L không nhiều Δ luật, kết thuật toán xác k luật L có độ hỗ trợ cao top-k luật khôngthừa Lý do, nhƣ giải thích phía trên, nguy hiểm có nhiều luậtthừa L nhƣ buộc phải để nâng cao minsup bớt phần không gian tìm kiếm có chứa top-k luật khôngthừa Nếu Δ luậtthừa c ng lúc L k + Δ mức nâng cao minsup, luậtthừa làm nâng cao minsup Đề xuất điều kiện để Chiến lƣợc đảm bảo tạo kết xác Dựa đề xuất này, câu hỏi quan trọng "Nó tích hợp phép kiểm tra cho tính xác thuật toán?" Câu trả lời tốn để xác minh nhiều Δ luậtthừa có mặt c ng lúc L Lý luật 40 đƣợc biết đến dƣ thừa chúng bị xóa Chiến lƣợc Do đó, việc kiểm tra tính chất tốn Tính chất 3: Nếu số lƣợng luậtthừa đƣợc loại bỏ Chiến lƣợc thực thuật toán nhỏ Δ, kết cuối c ng xác Khi k luật L luật khôngthừa Lý Ta dễ dàng thấy rằng, tính chất tính chất Tính chất thực dễ dàng thuật toán Để thực chức này, thêm biến đếm, biến đƣợc tăng thêm sau lần loại bỏ luật từ tập L Chiến lƣợc Sau đó, thuật toán kết thúc, biến đếm đƣợc so sánh với Δ Nếu giá trị biến đếm thấp Δ, ngƣời d ng đƣợc thông báo kết xác Ngƣợc lại, ngƣời d ng đƣợc thông báo kết không xác Trong trƣờng hợp này, ngƣời d ng chọn để chạy lại thuật toán với giá trị Δ cao Trong phần thực nghiệm (chƣơng 4), giải câu hỏi làm để chọn Δ Lƣu ý thuật toán chúng tôi, sử dụng số tối ƣu đƣợc sử dụng TopKRules tƣơng thích với TNR Tối ƣu cố gắng tìm luật có triển vọng không gian khai thác luật kết hợp Điều luật có độ hỗ trợ cao dễ tìm thấy Thuật toán làm tăng biến cục minsup nhanh để nhằm giảm không gian tìm kiếm Để thực điều này, biến cục R đƣợc thêm vào để lƣu trữ tất luật để mở rộng hội tìm kiếm luật có giá trị Tập R sau đƣợc sử dụng để xác định luật có giá trị với độ hỗ trợ cao để tăng biến minsup nhanh nhằm giảm phần lớn không gian tìm kiếm Tối ƣu hóa thứ hai sử dụng vectơ bit nhƣ cấu trúc liệu để biểu diễn tập hợp giao dịch có chứa luật (tidsets) Tối ƣu hóa thứ ba thực cấu trúc liệu nhị phân tìm kiếm cân hỗ trợ chèn, xóa tìm kiếm phần tử nhỏ nhất, lớn hiệu 41 3.3.2 Minh họa thuật toán Để minh họa thuật toán xem ví dụ sau: Cho bảng liệu giao dịch nhƣ bảng 3.7 với điều kiện đầu vào minconf = 70%, K =10 yêu cầu tìm top-k luật khôngthừa Các bƣớc thực đƣợc mô tả chi tiết nhƣ sau: Bảng 3.7 Dữ liệu giao dịch (tƣơng đƣơng bảng 3.2) TID Item t1 a, b, c, d, e t2 a, c, d, e t3 a, b, e t4 b, c, d, e t5 c, d, e Bƣớc 1: Tính sup item đơn với minsup=0 ta có kết bảng 3.8 Bảng 3.8 Kết tính sup item đơn từ bảng liệu 3.7 Item Sup a b c d e 42 Bƣớc 2: gán minsup=0, phát sinh luật có dạng i→j j→i Nếu luật thỏa điều kiện lơn minsup minconf đƣa vào tập R kết nhƣ bảng 3.9 Bảng 3.9 Kết sinh luật từ bảng 3.8 Rule Sup Conf a→e 3/3 b→e 3/3 c→d 4/4 d→c 4/4 c→e 4/4 e→c 4/5 d→e 4/4 e→d 4/5 Bƣớc 3: Tìm kiếm – thay luật Trong bƣớc thuật toán TNR thực gần giống thuật toán TopKRules, điểm khác biệt phát sinh luật thỏa điều kiện để thêm vào L kiểm tra L có luật rb dƣ thừa với loại rb khỏi L dƣ thừa với rb không đƣợc thêm vào Chọn luật R có sup cao nhất, tiến hành phát triển bên trái bên phải để tìm luật thỏa : minsup=3, minconf=70%, Khôngthừa 43 Trong ví dụ này, chọn c→d luật có sup cao để phát triền vế trái thành ce→d thỏa sup=4, conf=4/4 nhƣng lại tồn c→d có L mà ce→d lại dƣ thừa so với c→d nên ce→d không đƣợc thêm vào L (chiến lƣợc 1) Khi phát triển vế phải thành c→de, luật thỏa điều kiện với sup=4, conf=4/4 khôngthừa với luật có L nên đủ điều kiện để thêm vào L Lúc theo chiến lƣợc 2, tìm L có luật c→d dƣ thừa so với luật c→de c→d phải bị loại khỏi L Tiếp tục tìm kiếm thay luật ta có kết luật khôngthừa nhƣ bảng 3.10 Bảng 3.10 Kết khai thác luật kết hợp khôngthừa Rule Sup Conf a→e 3/3 b→e 3/3 c→de 4/4 d→ce 4/4 e→cd 4/5 So sánh bảng kết hai thuật toán bảng 3.6 bảng 3.10 nhận thấy: -Với c ng bảng liệu đầu vào, k=10, minconf=70% ta có kết khác Trong bảng kết thuật toán TopKRules có nhiều luậtthừa thừa, ví dụluật e→dc nhƣng tồn hai luật e→d luật e→c 44 - Ngoài ra, yêu cầu khai thác k luật nên kết bỏ luật có sup thấp nhƣng cần thiết ngƣời d ng ví dụ hai luật a→e b→e Chi tiết xem hình 3.3 Rule Sup Conf Rule Sup Conf c→e 4/4 a→e 3/3 e→c 4/5 b→e 3/3 d→e 4/4 c→de 4/4 e→d 4/5 d→ce 4/4 ce→d 4/4 e→cd 4/5 de→c 4/4 d→ce 4/4 cd→e 4/4 e→cd 4/5 Bảng kết TopKRules Bảng kết TNR Hình 3.3 So sánh kết thuật toán TopKRules TNR 45 CHƢƠNG THỰC NGHIỆM – ĐÁNH GIÁ THUẬT TOÁN Để đo tính hiệu thuật toán TopKRules TNR thí nghiệm đƣợc thực liệu tổng hợp Chess Retail đƣợc sửa đổi Máy tính: Sony 3.40 GHz xử lý Core i5 GB nhớ chính, chạy hệ điều hành Windows 7.0-64bit Ngôn ngữ lập trình Java sử dụng với trình biên dịch Eclipse 4.1 MÔ TẢ DỮ LIỆU Dữ liệu sử dụng để chạy chƣơng trình đƣợc download từ nguồn http://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php Với cấu trúc liệu đƣợc mô tả bảng 4.1 Bảng 4.1 Dữ liệu thực nghiệm CSDL Số Giao dịch Số mặt hàng Kích thƣớc Trung bình giao dịch Chess 3,196 75 37 Retail 88,162 16,469 52 Connect 67,557 129 43 Pumsb 49,046 7,116 74 Khi chọn CSDL thực nghiệm, cố gắng chọn loại liệu có kích thƣớc khác nhau, ví dụ nhƣ CSDL Chess có số giao dịch số mặt hàng nhỏ nhƣng CSDL Retail có số lƣợng giao dịch số lƣợng mặt hàng lớn Ngoài ra, CSDL Retail có độ lệch số mặt hàng giao dịch lớn Có giao dịch có 46 mặt hàng nhƣng có giao dịch lên đến hàng trăm mặt hàng Riêng CSDL Connect có số lƣợng mặt hàng tất giao dịch 4.2 CHƢƠNG TRÌNH THỰC NGHIỆM Chƣơng trình thuật toán đƣợc lấy từ nguồn http://www.philippe-fournierviger.com/spmf/index.php?link=algorithms.php Các mã nguồn đƣợc viết java, chạy trình biên dịch mã nguồn mở Eclipse Chúng nghiên cứu việt hóa số chức Khi thực chƣơng trình, hình có cấu trúc nhƣ hình 4.1 Hình 4.1 Màn hình Combobox d ng để chọn thuật toán thực Ở có thuật toán để chọn thuật toán TopKRules thuật toán TNR Khi chọn thuật toán TNR, textbox cho nhập 47 hệ số k (số luật khôngthừa cần tìm), ngƣỡng tối thiểu độ tin cậy (minconf) số delta để đảm bảo thuật toán chạy xác Với textbox chọn file liệu, chọn file liệu cần thực thi dƣới dạng file.txt ví dụ ta chọn Chess.txt, Retail.txt, Connect.txt Pumsb.txt Mục textbox chọn file xuất kết ta định file.txt có sẵn hay file để ghi luật tìm đƣợc sau trình khai thác Dấu check mục “Mở file kết thuật toán kết thúc” đƣợc check tự động mở file kết hình Nút lệnh “thực hiện” thực trình khai thác theo thuật toán CSDL chọn, xuất kết file.txt hiển thị thời gian thực thi, khối lƣợng nhớ tối đa mà thuật toán chiếm trình thực thi Để đảm bảo kết khách quan, chạy thí nghiệm lần ứng với c ng CSDL hệ số k, ghi nhận kết lần chạy lấy giá trị trung bình chúng Bảng kết thực nghiệm đƣợc ghi bảng 4.2 Bảng 4.2 Kết thực nghiệm với TopKRules TNR Dataset Chess Retail Connect pumsb Algorithm Execution Time (ms) Maximum Memory Usage (MB) k = 10 k = 20 k = 30 k = 10 k = 20 k = 30 TopKRules 116 60 28 32 23.98 8.53 TNR 223 125 62 12.93 29.40 26 TopKRules 5943 6807 8034 1546.70 1584.10 1615 TNR 5102 6231 9876 1636.40 1672.50 1693.40 TopKRules 619 635 537 152.70 268.71 318.50 TNR 814 876 789 339.95 386.75 520.53 TopKRules 669 717 1188 374.14 397.47 429.69 TNR 721 923 1322 484.79 462.22 453.06 48 Ứng với bảng kết trên, vẽ đồ thị để so sánh thời gian chạy nhớ sử dụng tối đa CSDL Với CSDL Chess, Thời gian thực TNR cao so với TopKRules, nhiên việc sử dụng nhớ đƣợc ƣu điểm thuật toán 250 200 150 TopKRules TNR 100 50 k=10 (a) k=20 k=30 (b) Hình 4.2 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Chess (a) (b) Hình 4.3 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Retail 49 Đối với kết thực nghiệm CSDL Retail hình 4.3 thấy, thời gian thực hiện, thuật toán TNR tốt hệ số k thấp cao hệ số k lớn Về phần sử dụng nhớ thuật toán TNR cao so với TopKRules (a) (b) Hình 4.4 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Connect 400 1,400 1,200 1,000 800 600 400 200 300 TopKRules 200 100 TopKR… TNR k=10 k=20 k=30 k=10 (a) k=20 k=30 (b) Hình 4.5 So sánh thời gian thực (a) sử dụng nhớ (b) hai thuật toán TopKRules TNR CSDL Pumsb 50 Nhƣ qua kết thực nghiệm CSDL mẫu, thấy thuật toán TNR cần thời gian nhớ cao so với thuật toán TopKRules Điều lý giải giải thuật tìm kiếm thay luậtthừa tập trung gian nhiều thời gian nhớ Thay vào đó, kết luật tìm đƣợc không tồn luậtthừa tập kết Ngoài ra, thuộc vào độ xác thuật toán, xảy tình trạng, hệ số delta thấp không đủ để thuật toán TNR chạy cho kết xác phải thực lại thuật toán với delta cao hơn, nhƣ thời gian chạy cao nhiều tăng tỷ lệ thuận với độ lớn số delta 51 PHẦN KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận Luận văn trình bày đƣợc phần lý thuyết khai thác luật kết hợp thuật toán khai thác k luật kết hợp, luật kết hợp khôngthừa Trong nêu rõ thuật toán khai thác k luật kết hợp, ví dụ minh họa Luật văn nêu số khái niệm luậtthừa chiến lƣợc cải tiến thủ tục tìm kiếm thay luậtthừa tập luật kết để thực thu đƣợc tập luậtkhông tồn luậtthừa Do trình thay luật phát sinh trƣờng hợp luật đƣợc tìm thấy chiến lƣợc chiếm vị trí tập luật kết nhƣ diện tập kết làm tăng biến minsup cục (do minsup luật ra) Nếu điều xảy ra, thuật toán bị bỏ qua số luật có độ hỗ trợ thấp luật nhƣng luật bị bỏ không luậtthừa Nhƣ vậy, cần khắc phục tình trạng luật khôngthừa có minsup thấp luậtthừa bị bỏ đề xuất sử dụng biến Δ biến đếm cục Chúng thêm biến đếm cục Biến đƣợc tăng thêm sau lần loại bỏ luật từ tập kết Chiến lƣợc Sau đó, thuật toán kết thúc, biến đếm đƣợc so sánh với Δ Nếu giá trị biến đếm thấp Δ, ngƣời d ng đƣợc thông báo kết xác Ngƣợc lại, ngƣời d ng đƣợc thông báo kết không xác Trong trƣờng hợp này, ngƣời d ng chọn để chạy lại thuật toán với giá trị Δ cao Kết thực nghiệm cho thấy thuật toán TNR có thời gian chạy chi phí nhớ cao so với thuật toán tìm k luật kết hợp (TopKRules) Điều đƣợc giải thích phần thực nghiệm chƣơng 52 Hƣớng phát triển Việc thay đổi số Δ nhiều lần hạn chế lớn thuật toán TNR Trong tƣơng lai nghiên cứu đề xuất phƣơng pháp chọn Δ cho hiệu quả, để số lần phải chạy lại Ngoài ra, thời gian thực thuật toán TNR cao so với thuật toán tìm k luật kết hợp Việc cải tiến thủ tục tìm kiếm thay theo hƣớng tiếp cận luật có tiềm luậtthừa thay phải quét tất luật tập kết nhƣ để tìm luậtthừa Nếu thực đƣợc điều này, thuật toán cho kết xác với thời gian chạy nhiều Việc áp dụng thuật toán khai thác luật kết hợp với thời gian chạy ngắn thay sử dụng thuật toán nhƣ đƣợc đƣa vào hƣớng nghiên cứu 53 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc, “ Giáo trình khai thác liệu”, NXB Đại học Quốc gia TP.HCM, 2008 [2] Lê Hoài Bắc, “Bài giảng môn Data Mining”, Đại học KHTN (Đại học Quốc gia Tp.HCM), 2013 [3] Nguyễn Tiến Trung, “Khai thác tập mục lợi ích cao bảo toàn tính riêng tư”, luận văn thạc sỹ, Đại học Công nghệ TP HCM, 2015 Tiếng Anh [4] Fournier-Viger, P., Wu, C.-W., Tseng, V S “Mining Top-K Association Rules”, Proc 25th Canadian Conf on Artificial Intelligence (AI 2012), Springer, 2012, pp 61-73 [5] Bay Vo, Bac Le “ A Frequent Closed Itemsets Lattice-based Approach for Mining Minimal Non-Redundant Association Rules”, International Journal of Database Theory and Application, Vol 4, No 2, June 2011, pp 23 – 33 [6] Philippe Fournier-Viger and Vincent S Tseng “Mining Top-K Non-Redundant Association Rules” Foundations of Intelligent Systems Lecture Notes in Computer Science Volume 7661, 2012, pp 31-40 [7] X.Wu, V.Kumar, J.Ross Quinlan, J.Ghosh, Q.Yang, H.Motoda, G.J McLachlan, A.Ng, B.Liu, P.S.Yu, Z.-H.Zhou, M.Steinbach, D.J.Hand, D Steinberg (2008), Top 10 Algorithms in Data Mining, Knowl Inf Syst volume14, pp 1–37 ... thuật toán khai thác k luật kết hợp luật kết hợp không dƣ thừa Đầu vào thuật toán liệu dƣới dạng giao dịch đầu k luật với k số luật cần tìm luật dƣ thừa số k luật Vì không loại bỏ luật dƣ thừa k... nghĩa luật kết hợp 23 2.3.2 Thuật toán xác định luật từ tập phổ biến 24 CHƢƠNG KHAI THÁC LUẬT KẾT HỢP KHÔNG DƢ THỪA 27 3.1 LUẬT KẾT HỢP DƢ THỪA 27 3.1.1 Khái niệm luật. .. MSHV: 1341860003 I- Tên đề tài: KHAI THÁC LUẬT KẾT HỢP KHÔNG DƢ THỪA II- Nhiệm vụ nội dung: - Khai thác luật kết hợp không dƣ thừa Đề xuất thủ tục tránh tạo luật dƣ thừa Xây dựng thủ tục tìm kiếm

Ngày đăng: 11/09/2017, 20:37

TỪ KHÓA LIÊN QUAN

w