Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
1,29 MB
Nội dung
B ộ• GIÁO DỤC VÀ ĐÀO TẠO • • TRƯỜNG ĐẠI HỌC s PHẠM HÀ NỘI • • • • ===£0lũ3o8=== NGUYỄN VĂN PHÓNG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN CÓ TRỌNG SỐ LUÂN VĂN THAC SĨ MÁY TÍNH • • HÀ NỘI, 2015 B ộ GIÁO DỤC VÀ ĐÀO TẠO • • • TRƯỜNG ĐẠI HỌC s PHẠM HÀ NỘI • • • • ===sofflca=== NGUYỄN VĂN PHÓNG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN CÓ TRỌNG SỐ • Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUÂN VĂN THAC SĨ MÁY TÍNH • • Người hướng dẫn khoa học: TS NGUYỄN LONG GIANG HÀ NỘI, 2015 LỜI CẢM ƠN Để hoàn thành luận văn nhận giúp đỡ tận tình thầy hướng dẫn khoa học, thầy cô trường Đại học Sư phạm Hà Nội Tôi xin chân thành cảm ơn thầy cô trường Đại học Sư phạm Hà Nội tạo điều kiện học tập, nghiên cứu giúp đỡ nhiều trình làm luận văn Đặc biệt xin cảm ơn thầy TS Nguyễn Long Giang Viện Công Nghệ Thông Tin tận tình hướng dẫn, bảo suốt trình học tập, nghiên cứu đề tài giúp đỡ hoàn thành luận văn Vĩnh Phúc, ngày 01 tháng 10 năm 2015 Hoc viên Nguyễn Văn Phóng LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Hoc viên Nguyễn Văn Phóng MỤC LỤC MỤC LỤC i Danh mục ký hiệu, chữ viết tắt iii Danh mục bảng iv Danh mục hình V MỞ ĐÀU Chương 1: TỔNG QUAN VỀ KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 1.1 Các khái niệm 1.1.1 Cơ sở liệu giao tác 1.1.2 Tập mục thường xuyên luật kết hợp 1.1.3 Các tính chất tập mục thường xuyên 1.1.4 Bài toán khai phá luật kết hợp 1.2 Một số thuật toán khai phá tập mục thường xuyên 1.2.1 Thuật toán Apiioii 1.2.2 Thuật toán FP-growth 14 1.3 Kết luận 21 Chmmgo 2: KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN CÓ TRỌNG SỐ 22 • • • 2.1 Thuật toán MINWAL theo tiếp cận Aprioii 22 2.1.1 Các khái niệm 22 2.1.2 Thuật toán MINWAL 25 2.1.3 Ví dụ minh họa 28 2.2 Thuật toán WFIM theo tiếp cận FP-Growth 50 2.2.1 Các khái niệm 51 2.2.2 Thuật toán WFIM 55 2.2.3 Ví dụ minh họa 56 2.3 THUẬT TOÁN FSM 60 ii 2.3.1 Cơ sở lý thuyết thuật toán FSM 60 2.3.2 Thuật toán FSM 61 2.3.3 Nhận xét thuật toán FSM 63 2.4 Kết luận 64 Chương 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 65 3.1 Chuẩn bị số liệu thử nghiệm 66 3.2 Kết thử nghiệm đánh giá thuật toán 66 3.2.1 Đánh giá thuật toán WFIM vói thuật toán FP-Growth 66 3.2.2 Đánh giá thuật toán WFIM, FP-Growth MINWAL 68 KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 72 PHỤ LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT TV • Ã • Ký hiệu, chữ viết tắt Diên giải CSDL Cơ sở liệu TID Transction Identifcation w Tập trọng sô mục L Tập tât mục thường xuyên Ck Tập cấc k-tập mục ứng viên Lk Tập k-tập mục thường xuyên SCịX) Sô đêm hô trợ tập mục X WFIk Tập k-tập mục thường xuyên có trọng sô WFI Tập tất tập mục thường xuyên có trọng sô MaxW Trọng sô có giá trị lớn nhầt CSDL giao tác MinW Trọng sô có giá trị nhỏ nhât tập mục điêu kiện min_weight Ngưỡng trọng sô thiêu min_sup Ngưỡng hô trợ thiêu support Độ hô trợ tập mục conf Độ tin cậy minconf Độ tin cậy cực tiêu BFS Breadth First Search DFS Depth First Search WFIM Weighted Frequent Itemset Mining Danh mục bảng Bảng 1.1 Biểu diễn ngang sở liệu giao tác Bảng 1.2 Biểu diễn dọc sở liệu giao tác Bảng 1.3 Ma trận giao tác sở liệu bảng 1 Bảng 1.4 CSDL giao tác minh họa thực thuật toán Apriori 12 Bảng 1.5 CSDL giao tác minh họa cho thuật toán FP- growth 15 Bảng 2.1 CSDL giao tác .24 Bảng 2.2 Trọng sổ mục 24 Bảng 2.3 CSDL giao tác D 28 Bảng 2.4 Trọng sổ mục 29 Bảng 2.5 CSDL giao tấc 51 Bảng 2.6 Ví dụ mục với khoảng trọng sổ khác .52 Bảng 2.7 Tập tập mục thường xuyên với khoảng trọng sổ khác 54 Bảng 2.8 Mục thường xuyên có trọng số (sắp xếp tăng dần theo trọng số) 57 Danh mục hình Hình 1.2 Cây FP-tree xây dựng dần thêm giao tác tỉ, t2, t3 16 Hình 1.3 Cây FP-tree CSDL DB bảng 17 Hình 1.4 FP-tree phụ thuộc m .19 Hình 1.5 Các FP-tree phụ thuộc am, cm cam 20 Hình 2.1 Cây FP-Tree tổng quát thuật toán FP-Tree 57 Hình 2.2 Cây FP-Tree với tiền tổ {r} 59 Hình 3.1 Sổ lượng tập mục thường xuyên thuật toán WFIM so với FPGrowth (tập liệu Connect) .67 Hình 3.2 Thời gian thực thuật toán WFIM so với FP-Growth (tập liệu Connect) 67 Hình 3.3 Số lượng tập mục thường xuyên thuật toán FP-Growth, WFIM MINWAL (tập liệu Connect) 69 Hình 3.4 Thời gian thực thuật toán FP-Growth, WFIM MINWAL (tập liệu Connect) 70 MỞ ĐẦU Lý chọn đề tài Khai phá luật kết họp giói thiệu Agrawal [4] vào năm 1994 phân tích sở liệu bán hàng siêu thị, phân tích sở thích mua khách hàng cách tìm mặt hàng khác khách hàng mua lần mua Những thông tin giúp người quản lý kinh doanh tiếp thị chọn lọc thu xếp không gian bày hàng hợp lý hơn, giúp cho kinh doanh hiệu Bài toán khai phá luật kết hợp bao gồm hai toán Bài toán thứ tìm tập mục thường xuyên (Frequent itemset) thỏa mãn ngưỡng hồ trợ tối thiểu cho trước, toán thứ hai sinh luật kết hợp (Association rule) thỏa mãn ngưỡng tin cậy cho trước từ tập mục thường xuyên tìm Mọi khó khăn toán khai phá luật kết hợp tập trung toán thứ nhất, khai phá tất tập mục thường xuyên thỏa mãn ngưỡng độ hỗ trợ cho trước, nghiên cứu khai phá luật kết hợp phần lớn tập trung vào toán khai phá tập mục thường xuyên Kể từ Agrawal đề xuất, khai phá tập mục thường xuyên thu hút quan tâm nhiều nhà nghiên cứu, có hàng trăm kết nghiên cứu công bố giới thiệu thuật toán hay đề xuất giải pháp nâng cao hiệu thuật toán có Tập mục thường xuyên có vai trò quan trọng nhiều ứng dụng thực tế quản lý quan hệ khách hàng, nâng cao hiệu thương mại điện tử, lĩnh vực sinh tin học, phân tích cấu trúc Protein DNA, mở rộng truy vấn, hỗ trợ tư vấn tuyển sinh đào tạo, phát xâm nhập mạng Bài toán khai phá luật kết hợp kinh điển Agrawal cộng đề xuất [4] gọi toán khai phá luật kết hợp nhị phân giá trị mục liệu giao tác 1, tức quan tâm mục liệu có xuất giao tác hay không Do đó, mang ngữ nghĩa thống kê, 63 for each XeCk 17 if lmv(X)> lmv 18 19 20 else if CF(X)[...]... Chươngo 2: KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN CÓ TRỌNG SỐ • • • Chương này trình bày thuật toán khai phá tập mục thường xuyên có trọng số MINWAL [5] dựa trên thuật toán Aprioii và thuật toán khai phá tập mục thường xuyên có trọng số WFIM dựa trên thuật toán FP-Growth [10] theo hướng tiếp cận cấu trúc cây (FP-Tree) bằng cách đưa vào ràng buộc trọng số là phân khoảng trọng số và ngưỡng trọng số nhỏ nhất 2.1... mục thường xuyên tập trung vào tìm các thuật toán mới hoặc đề xuất giải pháp nâng cao hiệu quả các thuật toán đã có Phần này sẽ trình bày khái quát các kỹ thuật chính để khai phá tập mục thường xuyên Bài toán khai phá tập mục thường xuyên có thể chia thành hai bài toán nhỏ: tìm các tập mục ứng viên và tìm các tập mục thường xuyên Tập mục ứng viên là tập mục mà ta hy vọng nó là tập mục thường xuyên, phải... nối để tạo ra tập ứng viên c k Theo mệnh đề 2.3, một k-tâp mục ứng viên chỉ có thể là tập mục thường xuyên có trọng số chuẩn hóa nếu nó là tập cha bậc thấp của một (k-l) -tập mục thường xuyên có trọng số chuẩn hóa Vì thế, khi thủ tục con này thực hiện, nó sẽ kết nối các tập mục thường xuyên có trọng số chuẩn hóa trong Lk_i với một trong số các mục có trọng số nhỏ hơn để lập thành một tập cha bậc thấp... trợ có trọng số của chúng và nhập các tập mục thường xuyên có trọng số chuẩn hóa tìm được vào tập Lk Tập Lk này cũng sẽ là tập các ứng viên được sử dụng để tạo các tập mục cha có khả năng là tập mục thường xuyên có trọng số chuẩn hóa tại vòng lặp tiếp theo Cấu trúc của thuật toán MESTWAL(W) tương tự như thuật toán Apriori, nhưng về chi tiết có một số khác biệt Mặc dù các k -tập mục thường xuyên có trọng. .. phá dữ liệu và học máy, có ý nghĩa khoa học và thực tiễn cao Do đó, tôi chọn đề tài Khai phá tập mục thường xuyên có trọng số 2 Mục đích nghiên cứu Nắm bắt được kiến thức tổng quan về các phương pháp khai phá tập mục thường xuyên kinh điển và một số phương pháp khai phá tập mục thường xuyên có trọng số, trên cơ sở đó cài đặt, thử nghiệm và đánh giá các thuật toán trên các bộ số liệu mẫu 3 Nhiệm vụ... Cho tập mục Y = x15x2, xk Gọi Wj là giá trị nhỏ nhất trong số các trọng số của các mục thuộc Y Tập mục X = YuZ, trong đó mọi mục thuộc z đều có trọng số không lớn hơn W j, cha bậc thấp (lower-order superset) của Y ta có tập mục X được gọi là tập 25 Định nghĩa 2.6 Cho tập mục X Tập mục con Y của X mà mỗi mục trong Y đều có trọng số lớn hơn hoặc bằng trọng số của các mục trong X - Y, ta có tập mục. .. được gọi là tập con bậc cao (high-order subset) của X Mệnh đề 2.2 [5] Neu X là tập mục thường xuyên có trọng sổ chuẩn hóa thì bất kỳ một tập con bậc cao nào của X cũng sẽ là tập mục thường xuyên có trọng sổ chuẩn hóa Mệnh đề 2.3 [5] Neu X là một (к +1) - tập mục thường xuyên có trọng số chuẩn hóa thì X phải là tập cha bậc thấp của một k -tập mục thường xuyên có trọng sổ chuẩn hóa Y Vói các kết luận nêu... có trọng số chuẩn hóa L Ký hiệu: D Cơ sở dữ liệu w Tập các trọng sô của các mục Lk Tập các k -tập mục thường xuyên có trọng sô chuân hóa L Tập tât cả các tập mục thường xuyên có trọng sô chuân hóa ck Tập các k -tập mục ứng viên có thê là tập con của j -tập mục thường xuyên có trọng số chuẩn hóa, j > к SC(X) Sô đêm hô trợ của tập mục X trong D Wminsup Ngưỡng hô trợ tôi thiêu 26 Thuật toán MINWAL(W) main... wminsupp X được gọi là tập mục thường xuyên có trọng số chuẩn hóa nếu: NWsupport (x)>wminsupp (2.3) Trường hợp ngược lại, X được gọi là tập mục không thường xuyên có trọng số chuẩn hóa Giả sử Y là một q -tập mục con của I và k là một số nguyên thỏa mãn q