Khai phá tập mục thường xuyên có trọng số

87 449 0
Khai phá tập mục thường xuyên có trọng số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ====== NGUYỄN VĂN PHÓNG KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN CÓ TRỌNG SỐ LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ====== NGUYỄN VĂN PHÓNG KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN CÓ TRỌNG SỐ Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS NGUYỄN LONG GIANG HÀ NỘI, 2015 LỜI CẢM ƠN Để hoàn thành luận văn nhận giúp đỡ tận tình thầy hướng dẫn khoa học, thầy cô trường Đại học Sư phạm Hà Nội Tôi xin chân thành cảm ơn thầy cô trường Đại học Sư phạm Hà Nội tạo điều kiện học tập, nghiên cứu giúp đỡ nhiều trình làm luận văn Đặc biệt xin cảm ơn thầy TS Nguyễn Long Giang Viện Công Nghệ Thông Tin tận tình hướng dẫn, bảo suốt trình học tập, nghiên cứu đề tài giúp đỡ hoàn thành luận văn Vĩnh Phúc, ngày 01 tháng 10 năm 2015 Học viên Nguyễn Văn Phóng LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên Nguyễn Văn Phóng i MỤC LỤC MỤC LỤC i Danh mục ký hiệu, chữ viết tắt .iii Danh mục bảng .iv Danh mục hình v MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 1.1 Các khái niệm 1.1.1 Cơ sở liệu giao tác 1.1.2 Tập mục thường xuyên luật kết hợp 1.1.3 Các tính chất tập mục thường xuyên 1.1.4 Bài toán khai phá luật kết hợp 1.2 Một số thuật toán khai phá tập mục thường xuyên 1.2.1 Thuật toán Apriori 1.2.2 Thuật toán FP-growth 14 1.3 Kết luận 21 Chƣơng 2: KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN CÓ TRỌNG SỐ 22 2.1 Thuật toán MINW L theo tiếp cận Apriori 22 2.1.1 Các khái niệm 22 2.1.2 Thuật toán MINW L 25 2.1.3 V dụ minh họa 28 2.2 Thuật toán WFIM theo tiếp cận FP-Growth 50 2.2.1 Các khái niệm 51 2.2.2 Thuật toán WFIM 55 2.2.3 Ví dụ minh họa 56 2.3 THUẬT TOÁN FSM 60 ii 2.3.1 Cơ sở lý thuyết thuật toán FSM 60 2.3.2 Thuật toán FSM 61 2.3.3 Nhận xét thuật toán FSM 63 2.4 Kết luận 64 Chương 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 65 3.1 Chuẩn bị số liệu thử nghiệm 66 3.2 Kết thử nghiệm đánh giá thuật toán 66 3.2.1 Đánh giá thuật toán WFIM với thuật toán FP-Growth 66 3.2.2 Đánh giá thuật toán WFIM, FP-Growth MINWAL 68 KẾT LUẬN 71 TÀI LIỆU THAM KHẢO .72 PHỤ LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Diễn giải CSDL Cơ sở liệu TID Transction Identifcation W Tập trọng số mục L Tập tất mục thường xuyên Ck Tập k-tập mục ứng viên Lk Tập k-tập mục thường xuyên SC(X) Số đếm hỗ trợ tập mục X WFIk Tập k-tập mục thường xuyên có trọng số WFI Tập tất tập mục thường xuyên có trọng số MaxW Trọng số có giá trị lớn CSDL giao tác MinW Trọng số có giá trị nhỏ tập mục điều kiện min_weight Ngưỡng trọng số tối thiểu min_sup Ngưỡng hỗ trợ tối thiểu support Độ hỗ trợ tập mục conf Độ tin cậy minconf Độ tin cậy cực tiểu BFS Breadth First Search DFS Depth First Search WFIM Weighted Frequent Itemset Mining iv Danh mục bảng Bảng 1.1 Biểu diễn ngang sở liệu giao tác Bảng 1.2 Biểu diễn dọc sở liệu giao tác Bảng 1.3 Ma trận giao tác sở liệu bảng 1.1 Bảng 1.4 CSDL giao tác minh họa thực thuật toán Apriori 12 Bảng 1.5 CSDL giao tác minh họa cho thuật toán FP- growth 15 Bảng 2.1 CSDL giao tác 24 Bảng 2.2 Trọng số mục 24 Bảng 2.3 CSDL giao tác D 28 Bảng 2.4 Trọng số mục 29 Bảng 2.5 CSDL giao tác 51 Bảng 2.6 Ví dụ mục với khoảng trọng số khác 52 Bảng 2.7 Tập tập mục thường xuyên với khoảng trọng số khác 54 Bảng 2.8 Mục thường xuyên có trọng số (sắp xếp tăng dần theo trọng số) 57 v Danh mục hình Hình 1.2 Cây FP-tree xây dựng dần thêm giao tác ti, t2, t3 16 Hình 1.3 Cây FP-tree CSDL DB bảng 17 Hình 1.4 FP-tree phụ thuộc m 19 Hình 1.5 Các FP-tree phụ thuộc am, cm cam 20 Hình 2.1 Cây FP-Tree tổng quát thuật toán FP-Tree 57 Hình 2.2 Cây FP-Tree với tiền tố {r} 59 Hình 3.1 Số lượng tập mục thường xuyên thuật toán WFIM so với FPGrowth (tập liệu Connect) 67 Hình 3.2 Thời gian thực thuật toán WFIM so với FP-Growth (tập liệu Connect) 67 Hình 3.3 Số lượng tập mục thường xuyên thuật toán FP-Growth, WFIM MINWAL (tập liệu Connect) 69 Hình 3.4 Thời gian thực thuật toán FP-Growth, WFIM MINWAL (tập liệu Connect) 70 MỞ ĐẦU Lý chọn đề tài Khai phá luật kết hợp giới thiệu Agrawal [4] vào năm 1994 phân t ch sở liệu bán hàng siêu thị, phân tích sở thích mua khách hàng cách tìm mặt hàng khác khách hàng mua lần mua Những thông tin giúp người quản lý kinh doanh tiếp thị chọn lọc thu xếp không gian bày hàng hợp lý hơn, giúp cho kinh doanh hiệu Bài toán khai phá luật kết hợp bao gồm hai toán Bài toán thứ tìm tập mục thường xuyên (Frequent itemset) thỏa mãn ngưỡng hỗ trợ tối thiểu cho trước, toán thứ hai sinh luật kết hợp (Association rule) thỏa mãn ngưỡng tin cậy cho trước từ tập mục thường xuyên tìm Mọi khó khăn toán khai phá luật kết hợp tập trung toán thứ nhất, khai phá tất tập mục thường xuyên thỏa mãn ngưỡng độ hỗ trợ cho trước, nghiên cứu khai phá luật kết hợp phần lớn tập trung vào toán khai phá tập mục thường xuyên Kể từ grawal đề xuất, khai phá tập mục thường xuyên thu hút quan tâm nhiều nhà nghiên cứu, có hàng trăm kết nghiên cứu công bố giới thiệu thuật toán hay đề xuất giải pháp nâng cao hiệu thuật toán có Tập mục thường xuyên có vai trò quan trọng nhiều ứng dụng thực tế quản lý quan hệ khách hàng, nâng cao hiệu thương mại điện tử, lĩnh vực sinh tin học, phân tích cấu trúc Protein DNA, mở rộng truy vấn, hỗ trợ tư vấn tuyển sinh đào tạo, phát xâm nhập mạng Bài toán khai phá luật kết hợp kinh điển Agrawal cộng đề xuất [4] gọi toán khai phá luật kết hợp nhị phân giá trị mục liệu giao tác 1, tức quan tâm mục liệu có xuất giao tác hay không Do đó, mang ngữ nghĩa thống kê, 64 2.4 Kết luận Chương trình bày hai thuật toán khai phá tập mục thường xuyên có trọng số sở liệu giao tác, bao gồm khái niệm sử dụng, thuật toán ví dụ minh họa Thuật toán MINWAL với định nghĩa độ hỗ trợ chuẩn hóa, ràng buộc giới hạn k-cận hỗ trợ để giữ lại tính chặn đóng tập mục thường xuyên Thuật toán WFIM phát triển từ ý tưởng thuật toán FP-Growth Chương luận văn cài đặt, thử nghiệm đánh giá thuật toán số liệu mẫu đưa hương phát triển 65 Chƣơng 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN Trong chương chương 2, luận văn trình bày thuật toán khai phá tập mục thường xuyên khai phá tập mục thường xuyên có trọng số, bao gồm: 1) Thuật toán FP-Growth khai phá tập mục thường xuyên (không có trọng số) dựa cấu trúc FP-Tree 2) Thuật toán MINWAL khai phá tập mục thường xuyên có trọng số dựa thuật toán Apriori 3) Thuật toán WFIM khai phá tập mục thường xuyên có trọng số dựa cấu trúc FP-Tree cách đưa vào ràng buộc khoảng trọng số ngưỡng trọng số nhỏ làm điều kiện để cắt tỉa tập mục Mục tiêu chương là: 1) Cài đặt thuật toán FP-Growth, MINWAL, WFIM ngôn ngữ lập trình Java để hiểu rõ bước làm việc thuật toán 2) Chuẩn bị số liệu thử nghiệm để thực thuật toán nêu 3) Chạy thử nghiệm thuật toán nêu với số liệu thử nghiệm nhằm so sánh, đánh giá thuật toán trình bày nắm bắt thay đổi kết thử nghiệm đưa trọng số vào tập mục, bao gồm: - Thực thuật toán FP-Growth (không có trọng số) số liệu chọn Thực thuật toán WFIM (có trọng số) đưa trọng số vào số liệu So sánh thời gian thực kết thực đưa trọng số vào - Thực thuật toán MINWAL (theo tiếp cận Apriori) thuật toán WFIM (theo tiếp cận FP-Growth) So sánh thời gian thực kết thực hai thuật toán theo hai cách tiếp cận khác 66 3.1 Chuẩn bị số liệu thử nghiệm Hai tập liệu thử nghiệm chọn Connect Mushroom kho liệu mẫu UCI Tập liệu Connect tập liệu dày chứa đựng thông tin trạng thái game Tập liệu Mushroom t dày đặc chứa đựng đặc điểm loài nấm Những tập liệu thực tế tìm thấy nguồn liệu học máy UCI đường link (http://archive.ics.uci.edu/ml/) [11] Tập liệu Kích thƣớc Số giao tác Số mục Connect 12.14M 67557 150 Mushroom 0.83M 8124 120 3.2 Kết thử nghiệm đánh giá thuật toán Trước hết, luận văn thực cài đặt thuật toán FP-Growth, MINWAL WFIM ngôn ngữ lập trình Java Tiếp theo, luận văn tiến hành chạy thử nghiệm thuật toán Môi trường thử nghiệm thực máy sử dụng Windows, xử lý 2GHz, 1024M RAM Trong trình thử nghiệm, thuật toán FP-Growth chạy số liệu gốc chọn (không có trọng số) Thuật toán MINWAL WFIM sử dụng hàm tạo cách ngẫu nhiên trọng số nằm khoảng trọng số cho trước để gán cho mục 3.2.1 Đánh giá thuật toán WFIM với thuật toán FP-Growth Mục tiêu thử nghiệm đánh giá thời gian thực kết thực thuật toán WFIM đưa trọng số vào thuật toán gốc FPGrowth (không có trọng số) Đồng thời, thử nghiệm đánh giá thời gian thực kết thực thuật toán WFIM đưa vào khoảng trọng số khác Thử nghiệm thực số liệu Connect 67 Kết thử nghiệm số tập mục thường xuyên tìm thời gian thực thuật toán WFIM thuật toán FP-Growth minh họa hình 3.1 hình 3.2 tương ứng Chú thích: Đường màu xanh đậm thuật toán FP-Growth, đường màu đỏ thuật toán WFIM với khoảng trọng số từ 0.8 đến 1.0, đường màu vàng thuật toán WFIM với khoảng trọng số từ 0.7 đến 0.9 Hình 3.1 Số lượng tập mục thường xuyên thuật toán WFIM so với FPGrowth (tập liệu Connect) Hình 3.2 Thời gian thực thuật toán WFIM so với FP-Growth (tập liệu Connect) 68 Hình 3.1 Hình 3.2 cho thấy: 1) Với ngưỡng hỗ trợ tối thiểu cho trước, thuật toán WFIM tạo tập mục thường xuyên có trọng số chạy nhanh so với thuật toán FP-Growth 2) Với ngưỡng hỗ trợ tối thiểu cho trước, với thuật toán WFIM số lượng tập mục thường xuyên có trọng số tìm thấy nhỏ khoảng trọng số giảm xuống 3.2.2 Đánh giá thuật toán WFIM, FP-Growth MINWAL Như nói phần 2, giải thuật WFIM (Apriori) dựa giải thuật priori sử dụng khoảng trọng số ngưỡng trọng số nhỏ Giải thuật WFIM giải thuật khai phá tập mục thường xuyên sử dụng mô hình giải thuật FP-Growth nghiên cứu mở rộng [6], cho thấy hiệu giải thuật dựa thuật toán FP-Growth tốt nhiều so với giải thuật dựa thuật toán priori phương diện thời gian thực hướng mở rộng thuật toán Đầu tiên, so sánh giải thuật WFIM với số giải thuật khác MINW L, WFIM (Apriori), FP-Growth Thuật toán WFIM có cải tiến so với thuật toán lại Cải tiến thứ cách mô tả trọng số mới, khoảng trọng số ngưỡng trọng số nhỏ Cải tiến thứ hai sử dụng phương pháp tập mục lớn dần để khai phá tập mục thường xuyên có trọng số Để đánh giá hiệu cải tiến trên, luận văn so sánh thuật toán với WFIM với thuật toán MINWAL, WFIM (Apriori) FP-Growth Thuật toán MINWAL thuật toán khai phá tập mục thường xuyên có trọng số sử dụng k-cận hỗ trợ để giữ nguyên tính chặn đóng tập mục thường xuyên Thuật toán FP-Growth thuật toán sử dụng mô hình tập mục lớn dần để khai phá tập mục thường xuyên có trọng số 69 Tiếp theo, người viết phân tích hiệu khoảng trọng số khác ngưỡng trọng số tối thiểu khác Cho thấy số lượng tập mục thường xuyên có trọng số thời gian thực giảm bớt nhờ việc điều chỉnh khoảng trọng số ngưỡng trọng số nhỏ Mục tiêu thử nghiệm đánh giá thời gian thực kết thực thuật toán FP-Growth với thuật toán WFIM MINWAL đưa trọng số vào Thử nghiệm thực số liệu Connect Kết thử nghiệm số tập mục thường xuyên tìm thời gian thực thuật toán FP-Growth, WFIM MINW L minh họa hình 3.3 hình 3.4 tương ứng Chú thích: Đường màu xanh đậm thuật toán MINWAL với khoảng trọng số từ 0.9 đến 0.92, đường màu đỏ thuật toán WFIM với khoảng trọng số từ 0.9 đến 0.92, đường màu vàng thuật toán FP-Growth Hình 3.3 Số lượng tập mục thường xuyên thuật toán FP-Growth, WFIM MINWAL (tập liệu Connect) 70 Hình 3.4 Thời gian thực thuật toán FP-Growth, WFIM MINWAL (tập liệu Connect) Trong hình 3.3, số lượng tập mục thường xuyên có trọng số thuật toán WFIM tạo t so với thuật toán MINWAL FP-Growth thuật toán WFIM giảm số lượng tập mục thường xuyên có trọng số thời gian thực nhờ điều chỉnh khoảng trọng số MINWAL không sử dụng khoảng trọng số Tuy nhiên hình 3.4, thuật toán FP-Growth lại chạy nhanh so với thuật toán lại thuật toán FP-Growth sử dụng mô hình tập mục lớn dần nên không cần tạo tập ứng viên kiểm tra duyệt CSDL giao tác nhiều lần Hình 3.3 hình 3.4 cho thấy, thuật toán WFIM có thời gian thực t so với thuật toán MINWAL Ngoài ra, số lượng tập mục thường xuyên có trọng số phát thuật toán WFIM t so với số lượng tập mục thường xuyên có trọng số phát MINWAL 71 KẾT LUẬN Những ết luận văn 1) Tìm hiểu nắm bắt hai thuật toán khai phá tập mục thường xuyên có trọng số: thuật toán MINW L dựa thuật toán priori thuật toán WFIM dựa thuật toán FP-Growth Thuật toán MINW L với định nghĩa độ hỗ trợ chuẩn hóa, ràng buộc giới hạn k-cận hỗ trợ để giữ lại t nh chặn đóng tập mục thường xuyên Độ hỗ trợ k-tập mục tạo phải lớn k-cận hỗ trợ MINW L xây dựng dựa thuật toán Apriori, nhiên phần lớn tập ứng viên không thường xuyên Theo đánh giá người viết, thuật toán tốn sử dụng k-cận hỗ trợ để giữ lại t nh chặn đóng tập mục thường xuyên Thuật toán WFIM có tác dụng phát triển mô hình khai phá tập mục thường xuyên có trọng số Thuật toán WFIM ứng dụng phương pháp chia để trị giữ nguyên t nh chặn đóng tập mục thường xuyên Thuật toán WFIM có thời gian thực nhanh so với thuật toán khác MINW L, WFIM (Apriori) FP-Growth Ngoài ra, nhanh tìm t tập mục thường xuyên tập mục quan trọng CSDL lớn với ngưỡng hỗ trợ nhỏ nhỏ 2) Cài đặt, thử nghiệm đánh giá thuật toán số số liệu mẫu từ kho liệu UCI [1] Hƣớng nghiên cứu đề tài Áp dụng thuật toán tìm hiểu phương pháp khai phá luật kết hợp có trọng số vào toán thực tiễn lĩnh vực kinh doanh, tài ch nh, ngân hàng… 72 TÀI LIỆU THAM KHẢO Tiếng Việt: Nguyễn Huy Đức, Khai phá tập mục cổ phần cao lợi ch cao sở liệu, Luận án tiến sĩ toán học, Viện Công nghệ thông tin, 2010 Vũ Đức Thi, Nguyễn Huy Đức (2008), “Khai phá tập mục thường xuyên cổ phần cao sở liệu lớn”, Tạp chí Tin học Điều khiển học, 24(2), tr 168-178 Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật toán hiệu khai phá tập mục thường xuyên cổ phần cao”, Kỷ yếu Hội thảo Một số vấn đề chọn lọc CNTT TT, Huế, 12/2008, tr 431-444 Tiếng Anh: Agrawal R And Srikant R (1994), “Fast algorithms for mining association rules”, in proceedings of 20th International Conference on Very Large Databases, Santiago, Chile C.H.Cai, W.Chee Fu, C.H.Cheng, and W.W.Kwong “Mining ssociation Rules with Weighted Items”, IDEAS '98 Proceedings of the 1998 International Symposium on Database Engineering & Applications, pp.68-77, 1998 J.Han, J.Pei, and Y.Yin, “Mining Frequent Patterns without Candidate Generation,” Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, pp 1-12 El-Hajj M and Zaiane Osmar R (2003), “Non recursive generation of frequent kitemsets from frequent pattern tree representations”, In Proc of 5th International Conference on Data Warehousing and Knowledge Discovery (DaWak‟2003), pp 371380 El-Hajj M and Zaiane Osmar R (2003), “COFI-tree Mining: A New pproach to Pattern Growth with Reduced Candidacy Generation”, In Proc 73 2003 Int’l Conf on Data Mining and Knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA R.Agrawal, T.Imielinski, and Swami, “Mining ssociation Rules between Sets of Items in Large Databases”, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207-216 10 Unil Yun, John J Leggett, „WFIM: Weighted Frequent Itemset Mining with a weight range and a minimum weight‟, Proceedings of the 2005 SIAM International Conference on Data Mining, 2005, pp 636-640 11 The UCI machine learning repository, PHỤ LỤC Một số giao diện chƣơng trình thử nghiệm Giao diện hình Nạp tệp liệu 2.1 Nạp tệp liệu giao tác Người dùng nạp tệp liệu giao tác dạng TXT, cấu trúc tệp sau: Ở đây, 1, 2, 3, 4, tên tập mục, dòng tệp TXT giao dịch (transaction) 2.2 Nạp tệp liệu trọng số Người dùng nạp tệp liệu trọng số dạng tệp TXT cho tệp giao tác chọn Với tệp giao tác trên, tệp trọng số Mỗi dòng giá trị trọng số tương ứng với mục 1, 2, 3, 4, Tiếp theo, người sử dụng chọn tham số tương ứng với thuật toán chọn thực thuật toán Nhập tham số cho thuật toán 3.1 Nhập tham số cho thuật toán WFIM Thực thuật toán 4.1 Thực thuật toán WFIM [...]... thứ tự tăng dần Đầu ra: Tập các tập mục thường xuyên có trọng số chuẩn hóa L Ký hiệu: D Cơ sở dữ liệu W Tập các trọng số của các mục Lk Tập các k -tập mục thường xuyên có trọng số chuẩn hóa L Tập tất cả các tập mục thường xuyên có trọng số chuẩn hóa Ck Tập các k -tập mục ứng viên có thể là tập con của j -tập mục thường xuyên có trọng số chuẩn hóa, j > k SC(X) Số đếm hỗ trợ của tập mục X trong D Wminsup... của X mà mỗi mục trong Y đều có trọng số lớn hơn hoặc bằng trọng số của các mục trong X - Y, ta có tập mục Y được gọi là tập con bậc cao (high-order subset) của X Mệnh đề 2.2 [5] Nếu X là tập mục thường xuyên có trọng số chuẩn hóa thì bất kỳ một tập con bậc cao nào của X cũng sẽ là tập mục thường xuyên có trọng số chuẩn hóa Mệnh đề 2.3 [5] Nếu X là một (k +1) - tập mục thường xuyên có trọng số chuẩn hóa... mục thường xuyên tập trung vào tìm các thuật toán mới hoặc đề xuất giải pháp nâng cao hiệu quả các thuật toán đã có Phần này sẽ trình bày khái quát các kỹ thuật ch nh để khai phá tập mục thường xuyên Bài toán khai phá tập mục thường xuyên có thể chia thành hai bài toán nhỏ: tìm các tập mục ứng viên và tìm các tập mục thường xuyên Tập mục ứng viên là tập mục mà ta hy vọng nó là tập mục thường xuyên, phải... 22 Chƣơng 2: KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN CÓ TRỌNG SỐ Chương này trình bày thuật toán khai phá tập mục thường xuyên có trọng số MINWAL [5] dựa trên thuật toán Apriori và thuật toán khai phá tập mục thường xuyên có trọng số WFIM dựa trên thuật toán FP-Growth [10] theo hướng tiếp cận cấu trúc cây (FP-Tree) bằng cách đưa vào ràng buộc trọng số là phân khoảng trọng số và ngưỡng trọng số nhỏ nhất 2.1 Thuật... kết nối để tạo ra tập ứng viên Ck Theo mệnh đề 2.3, một k-tâp mục ứng viên chỉ có thể là tập mục thường xuyên có trọng số chuẩn hóa nếu nó là tập cha bậc thấp của một (k-1) -tập mục thường xuyên có trọng số chuẩn hóa Vì thế, khi thủ tục con này thực hiện, nó sẽ kết nối các tập mục thường xuyên có trọng số chuẩn hóa trong Lk-1 với một trong số các mục có trọng số nhỏ hơn để lập thành một tập cha bậc thấp... trợ có trọng số của chúng và nhập các tập mục thường xuyên có trọng số chuẩn hóa tìm được vào tập Lk Tập Lk này cũng sẽ là tập các ứng viên được sử dụng để tạo các tập mục cha có khả năng là tập mục thường xuyên có trọng số chuẩn hóa tại vòng lặp tiếp theo Cấu trúc của thuật toán MINWAL(W) tương tự như thuật toán Apriori, nhưng về chi tiết có một số khác biệt Mặc dù các k -tập mục thường xuyên có trọng. .. phá dữ liệu và học máy, có ý nghĩa khoa học và thực tiễn cao Do đó, tôi chọn đề tài Khai phá tập mục thường xuyên có trọng số 2 Mục đích nghiên cứu Nắm bắt được kiến thức tổng quan về các phương pháp khai phá tập mục thường xuyên kinh điển và một số phương pháp khai phá tập mục thường xuyên có trọng số, trên cơ sở đó cài đặt, thử nghiệm và đánh giá các thuật toán trên các bộ số liệu mẫu 3 Nhiệm vụ... được gọi là tập mục thường xuyên có trọng số chuẩn hóa nếu: NWsupport  X   wminsupp (2.3) Trường hợp ngược lại, X được gọi là tập mục không thường xuyên có trọng số chuẩn hóa Giả sử Y là một q -tập mục con của I và k là một số nguyên thỏa mãn q

Ngày đăng: 09/05/2016, 14:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan