Khai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSC (Luận văn thạc sĩ)

80 439 3
Khai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSC (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSCKhai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSC

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Trọng Thắng KHAI PHÁ TẬP MỤC LỢI ÍCH CAO VÀ ỨNG DỤNG TẠI CÔNG TY CỔ PHẦN SIÊU THỊ VHSC LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2018 HỌC VIÊN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Trọng Thắng KHAI PHÁ TẬP MỤC LỢI ÍCH CAO VÀ ỨNG DỤNG TẠI CÔNG TY CỔ PHẦN SIÊU THỊ VHSC Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC GS.TS VŨ ĐỨC THI HÀ NỘI – 2018 i LỜI CAM ĐOAN Tôi xin cam đoan nội dung kết luận văn "Khai phá tập mục lợi ích cao ứng dụng cơng ty Cổ phần siêu thị VHSC" cơng trình riêng hướng dẫn GS.TS Vũ Đức Thi trung thực không trùng lặp với đề tài khác Trong toàn luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tôi xin cam đoan tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Hà nội, tháng 10 năm 2017 Tác giả Nguyễn Trọng Thắng ii LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới GS.TS Vũ Đức Thi - Viện trưởng Viện Công nghệ Thông tin - Trường Đại học Quốc gia Hà nội, người thầy bảo hướng dẫn tận tình cho tơi suốt q trình hướng dẫn nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn thầy, cô giáo Khoa công nghệ thông tin 1- Học viện Bưu Viễn thơng tham gia giảng dạy, tạo điều kiện cho học tập, nâng cao trình độ kiến thức để phục vụ cho cơng tác sau Tôi xin cảm ơn Ban lãnh đạo, cán chun mơn phịng ban chức Công ty cổ phần siêu thị VHSC, tạo điều kiện cho tiếp xúc trực tiếp tìm hiểu thơng tin liên quan đến chun môn ngành giúp tiếp cận với kho liệu bán hàng Công ty Cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp động viên, hỗ trợ trình học tập nghiên cứu đề tài Mặc dù cố gắng, song luận văn khơng thể tránh khỏi thiếu sót, kính mong dẫn, góp ý Q thầy bạn Tôi xin trân trọng cảm ơn ! Hà nội, tháng 10 năm 2017 Tác giả Nguyễn Trọng Thắng iii MỤC LỤC Trang phụ bìa Trang LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii MỞ ĐẦU Chương - CƠ SỞ LÝ THUYẾT 1.1 Mở đầu 1.1.1 Quy trình khai phá liệu phát tri thức 1.1.2 Các phương pháp khai phá liệu .5 1.1.3 Các sở liệu khai phá 1.1.4 Kiến trúc hệ thống khai phá liệu 1.1.5 Khai phá liệu số lĩnh vực liên quan 1.1.6 Một số ứng dụng khai phá liệu 1.1.7 Các vấn đề sở liệu 1.2 Giới thiệu toán khai phá tập mục lợi ích cao 11 1.2.1 Khai phá tập mục thường xuyên 11 1.2.2 Giới thiệu tốn khai thác tập lợi ích cao 12 1.2.3 Cách tiếp cận khai thác tập lợi ích cao .13 1.3 Các định nghĩa quy ước khai thác tập mục lợi ích cao 13 1.4 Kết luận chương 16 Chương - THUẬT TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 17 2.1 Thuật toán FHM 17 2.1.1 Đặt vấn đề 17 2.1.2 Nội dung thuật toán FHM 18 2.2 Thuật toán FHN 22 iv 2.2.1 Đặt vấn đề 22 2.2.2 Nội dung thuật toán FHN 26 2.3 Thuật toán PHM 31 2.3.1 Đặt vấn đề 31 2.3.2 Nội dung thuật toán PHM 37 2.4 Thuật toán FOSHU 41 2.4.1 Đặt vấn đề 41 2.4.2 Nội dung thuật toán FOSHU .45 2.5 Kết luận chương 52 Chương - CÀI ĐẶT ỨNG DỤNG THỬ NGHIỆM 53 3.1 Phát biểu toán 53 3.2 Thông tin sở liệu mẫu 53 3.3 Lựa chọn công cụ phát triển 54 3.4 Quy trình xây dựng ứng dụng khai phá tập mục lợi ích cao 56 3.5 Áp dụng khai phá tập mục lợi ích cao 57 3.5.1 Lựa chọn liệu giao dịch 57 3.5.2 Thu thập tiền xử lý liệu 57 3.5.3 Thực chương trình khai phá lợi ích cao .59 3.5.4 Kết thu sử dụng thuật toán .60 3.5.5 Đánh giá kết chương trình 64 3.6 Kết luận chương 65 KẾT LUẬN 66 TÀI LIỆU THAM KHẢO 67 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt ALC Tiếng Anh Tiếng Việt Abandoning List Ngừng xây dựng danh sách lợi ích Construction early tập điều kiện cụ thể DataBase (DB) đáp ứng Cơ sở liệu Estimated Average Phương pháp ước lượng chu kì trung EAPP Periodicity Pruning Estimated Utility bình Phương pháp ước lượng giá trị EUCP Cooccurrence Pruning Estimated Utility Co- lợi ích đồng thời Cấu trúc ước lượng giá trị lợi ích EUCS occurrence Structure đồng thời Faster High-Utility Itemset Tên thuật toán khai thác tập mục lợi Mining us Estimated Utility ích cao sử dụng phương pháp cắt tỉa Co-occurrence Pruning đồng thời Efficient Mining of High- Khai phá hiệu tập mục lợi ích FHN Utility Itemsets with cao với lợi nhuận đơn vị dương FIM Negative Unit Profits âm Frequent Itemset Mining Khai phá tập mục xuyên Faster On-Shelf High Utility Khai phá hiệu tập mục lợi ích FOSHU Itemset Mining – with or CSDL FHM cao có yêu tố thời gian bán với lợi without Negative Unit Profit nhuận đơn vị dương âm HOUs High on-shelf utility itemset Tập mục lợi ích cao có yếu tố thời HUIs High utility itemsets gian Tập mục lợi ích cao HUIM High utility itemset mining Khai thác tập mục lợi ích cao ITEMSET Itemset Tập mục vi ITEM Item Mục Knowledge Discovery and Kỹ thuật khám phá tri thức KDD Data Mining khai thác liệu KPDL Data Mining Khai thác liệu MIUTI Minimum item utility Độ lợi ích tối thiểu MINULTI Min utility Giá trị ngưỡng tối thiểu PFP Periodic frequent patterns Mẫu thường xuyên định kỳ PHM Mining Periodic High-Utility Khai thác tập mục lợi ích cao theo Itemsets chu kỳ PHUIs Periodic high-utility itemsets Tập mục lợi ích cao theo chu kỳ TID Transaction Item Database Giao tác TU Transaction Utility Độ lợi ích giao tác Transaction-weighted TWDCP Downward Closure Property Trọng số giao dịch đóng giảm Transaction – Weighted TWU UL Utilization Utility-list Trọng số độ lợi ích giao tác Danh sách giá trị lợi ích UP – Growth Utility Pattern Growth Thuật toán UP – Growth UP – Tree Utility Pattern Tree Cây Up – tree Weighted Itemset – Tidset Cây WIT – Tree Tree Transaction-Weighted Giao dịch có trọng số giảm WIT – Tree TWD vii DANH SÁCH BẢNG Bảng 1.1: Cơ sở liệu (trái) giá trị lợi ích bên ngồi (phải) 13 Bảng 1.2: Lợi ích giao tác (trái), giá trị TWU (giữa) EUCS (phải) .14 Bảng 2.1: Cơ sở liệu (trái) giá trị lợi ích bên ngồi (phải) 23 Bảng 2.2: Lợi ích giao tác (trái), giá trị TWU mục đơn (giữa), EUCS (phải) 25 Bảng 2.3: Tập PHUI 35 Bảng 2.4: Cơ sở liệu giao tác .41 Bảng 2.5: Giá trị lợi nhuận (lợi nhuận theo đơn vị) 42 Bảng 3.1: Bảng mẫu hóa đơn bán lẻ 54 Bảng 3.2: Cơ sở liệu giao dịch mẫu .54 Bảng 3.3: Dữ liệu sau lọc thông tin 58 Bảng 3.4: Dữ liệu đầu vào (mẫu) cho thuật toán FHN, FHM,PHM 58 Bảng 3.5: Dữ liệu đầu vào thuật toán FOSHU 59 Bảng 3.6: Dữ liệu đầu thuật toán FHM 61 Bảng 3.7: Dữ liệu đầu thuật toán FHN 61 Bảng 3.8: Bảng liệu đầu thuật toán PHM 62 Bảng 3.9: Dữ liệu đầu thuật toán FOSHU 63 viii DANH SÁCH HÌNH VẼ Hình 1.1: Quy trình phát tri thức Hình 1.2: Kiến trúc hệ khai phá liệu điển hình Hình 1.3: Khai phá liệu lĩnh vực có liên quan Hình 2.1: Thuận tốn FHM .18 Hình 2.2: Thuật tốn Seach .20 Hình 2.3: Thuật toán Construct 21 Hình 2.4: Thuật tốn FHN 26 Hình 2.5:Thuật tốn Seach 27 Hình 2.6: Thuật tốn Construct 30 Hình 2.7: Thuật tốn PHM 37 Hình 2.8: Thuật toán Seach .39 Hình 2.9: Thuật tốn Construct 40 Hình 2.10: Thuật tốn FOSHU 47 Hình 2.11: Thuật toán Seach .48 Hình 2.12: Thuật tốn Construct .50 Hình 3.1: Giao diện chương trình 55 Hình 3.2: Giao diện chọn tệp liệu đầu vào với thuật toán .55 Hình 3.3: Quy trình ứng dụng khai phá tập mục lợi ích cao .56 Hình 3.4: Chương trình với thuật tốn FHM 59 Hình 3.5: Chương trình với thuật toán FHN .60 Hình 3.6: Chương trình với thuật tốn PHM 60 Hình 3.7: Chương trình với thuật tốn FOSHU 60 56 + In đĩa: sau chương trinh chạy xong kết lưu vào file Ketqua.txt chọn bước mở ứng dụng khác hình + Xem kết quả: sau chương trinh chạy xong kết lưu vào file Ketqua.txt chọn bước đồng thời cho kết xem mở ứng dụng chương trình hình Bước Ấn vào nút Thực hiện“ để thực chạy chương trình 3.4 Quy trình xây dựng ứng dụng khai phá tập mục lợi ích cao Lựa chọn liệu giao dịch: + Hóa đơn giao dịch Cơ sở liệu + Khoảng thời gian giao dịch dấu trắng kết thúc dấu: (hai chấm) + Phần 2: phân cách với phần trắng tổng + Nhóm hàng giao dịch + Xuất cửa hàng, POS …… Tiền xử lý liệu giao dịch: Mỗi dòng liệu gồm: + Phần 1: Các mã hàng bán phân biệt với lợi ích giao dịch (tổng lợi nhuận) kết thúc dấu: (hai chấm) + Phần 3: phân cách với phần trắng tổng lợi nhuận mặt hàng + Phần 4: phân cách với phần kết thúc dấu: (hai chấm) thời gian bán mặt hàng (phần dùng cho thuật toán FOSHU) Đánh giá kết thu khi: Kết thu khi: Khai phá liệu giao dịch: + Sử dụng thuật toán FHM + Sử dụng thuật toán FHM + Sử dụng thuật toán FHM + Sử dụng thuật toán FHN + Sử dụng thuật toán FHN + Sử dụng thuật toán FHN + Sử dụng thuật toán PHM + Sử dụng thuật toán PHM + Sử dụng thuật toán PHM + Sử dụng thuật toán FOSHU + Sử dụng thuật toán FOSHU + Sử dụng thuật tốn FOSHU Hình 3.3: Quy trình ứng dụng khai phá tập mục lợi ích cao Từ hệ thống sở liệu, trình khai phá liệu thực theo bước sau: Bước thứ nhất: Lựa chọn liệu giao dịch: Tại bước tiến hành xuất liệu từ hệ thống sở liệu bao gồm liệu sau: + Lựa chọn khoảng thời gian cần xuất liệu + Lựa chọn cửa hàng bán định xuất liệu + Lựa chọn nhóm hàng định xuất liệu Bước thứ hai: Thu thập tiền xử lý liệu: Tại bước tiến hành làm 57 liệu bao gồm thơng tin khơng cần thiết cho q trình sử dụng cho chương trình, thực trích lọc thơng tin bổ sung xử lý liệu thiếu:  Xử lý liệu giao dịch dư thừa: + Lược bỏ tất cột khơng cần thiết cho chương trình: liệu trung gian + Tính giá trị cho liệu mẫu (lợi nhuận) + Kết bảng liệu bảng kê hóa đơn bán lẻ  Xử lý liệu giao dịch theo định dạng cho dòng liệu: + Phần 1: Các mã hàng bán phân biệt với dấu trắng kết thúc dấu: (hai chấm) + Phần 2: phân cách với phần trắng tổng lợi ích giao dịch ( tổng lợi nhuận) kết thúc dấu: (hai chấm) + Phần 3: phân cách với phần trắng tổng lợi nhuận mặt hàng + Phần 4: phân cách với phần kết thúc dấu: (hai chấm) thời gian bán mặt hàng tự quy ước vào nhu cầu tính tốn dựa thời gian xuất hóa đơn, ví dụ: hóa đơn xuất ngày 01-09-2017 chọn 1; hóa đơn xuất ngày 0109-2017 chọn (phần dùng cho thuật toán FOSHU) Bước thứ ba: Khai phá liệu giao dịch: Sử dụng thuật toán FHM, thuật toán FHN, thuật toán PHM, thuật toán FOSHU Bước thứ tư: Kết thu sử dụng thuật toán: Sử dụng thuật toán FHM, thuật toán FHN, thuật toán PHM, thuật toán FOSHU Bước thứ năm: Đánh giá kết thu khi: Sử dụng thuật toán FHM, thuật toán FHN, thuật toán PHM, thuật toán FOSHU 3.5 Áp dụng khai phá tập mục lợi ích cao 3.5.1 Lựa chọn liệu giao dịch Do tính chất số lượng giao tác lớn ( hóa đơn bán lẻ), tác giả sử dụng số liệu từ ngày 01-09-2017 đến ngày 05-09-2017 ( 04 ngày) thông qua 01 máy bán hàng với thông tin mô tả 3.5.2 Thu thập tiền xử lý liệu 58 Trên liệu thu tiến hành xử lý liệu chọn liệu cho chương trình khai phá Mỗi mặt hàng xuất hàng giao dịch Bước thực xử lý giao dịch dòng đủ thơng tin định dạng cho q trình làm đầu vào cho liệu chương trình Bảng 3.3: Dữ liệu sau lọc thơng tin Ngày xuất Số hóa đơn Mã hàng Tên hàng Lợi nhuận 9/1/2017 79010825A14 38042 Romano-Dầu gội ME 6g-Classic 9/1/2017 79010825A14 56083 Đĩa giấy trung 6308 3592 9/1/2017 79010825A14 84887 Hộp tăm VIP Phú Gia 1600 5387 9/1/2017 79010825A14 85095 Cốc dựng lần 6209 4818 9/1/2017 79010909A14 76196 Jumbo chất xông đuổi muỗi Super Liquid 6136 9/1/2017 79010911314 30658 NRT Lifebouy CS da chai 180g 2281 9/1/2017 79010911314 83583 Men xử lý bể phốt Win 200g 5716 9/1/2017 79010913A14 33780 BVS Kotex liner hương tự nhiên 8M 1042 9/1/2017 79010913A14 44293 Giấy thấm dầu Kokusai 20 tờ 2223 9/1/2017 79010913A14 46099 Khăn ướt Fressi care-Táo 669 9/1/2017 79010913A14 63148 NĐ-Khăn mặt TE viền-825 2591 9/1/2017 79010913A14 78721 KA21A o ba lỗ Kendo 9/1/2017 79010941J14 50789 KHÓA KĐR PS sensitive 100g 3521 9/1/2017 79010941J14 62578 Khăn lau đầu HP1 (35*80 cm) 9582 9/1/2017 79010941J14 8267 BCĐR P/S Double Care sensitive (1 chiếc) 1975 258 16091 Bảng 3.4: Dữ liệu đầu vào (mẫu) cho thuật toán FHN, FHM,PHM 38042 56083 84887 85095:14055:258 3592 5387 4818 76196:6136:6136 30658 83583:7996:2281 5716 33780 44293 46099 63148 78721:22616:1042 2223 669 2591 16091 …… 59 Bảng 3.5: Dữ liệu đầu vào thuật toán FOSHU 38042 56083 84887 85095:14055:258 3592 5387 4818:1 76196:6136:6136:1 30658 83583:7996:2281 5716:1 33780 44293 46099 63148 78721:22616:1042 2223 669 2591 16091:1 8267 50789 62578 87600:17837:1975 3521 9582 2759:1 56168 59182:10792:5398 5395:1 …………… 3.5.3 Thực chương trình khai phá lợi ích cao Khai phá lợi ích cao FHM + Các thơng số liệu đầu vào Hình 3.4: Chương trình với thuật tốn FHM + Dữ liệu thử nghiệm: FHM đầu vào sở liệu giao dịch với thơng tin lợi ích tối thiểu lợi ích min_utility (số nguyên dương) Mỗi dòng liệu bao gồm phần: Phần 1: bao gồm mục(mã hàng bán) phân biệt với dấu trắng kết thúc dấu: (hai chấm), Phần phân cách với phần trắng tổng lợi ích giao dịch ( tổng lợi nhuận) kết thúc dấu: (hai chấm) Phần 3: phân cách với phần trắng tổng lợi ích giao dịch mục ( Tổng lợi nhuận mặt hàng) 60 Khai phá lợi ích cao FHN + Dữ liệu thử nghiệm: Các thông số liệu đầu vào Hình 3.5: Chương trình với thuật tốn FHN Khai phá lợi ích cao theo chu kỳ PHM + Dữ liệu thử nghiệm: Các thông số liệu đầu vào Hình 3.6: Chương trình với thuật tốn PHM Khai phá lợi ích cao theo khoảng thời bán FOSHU + Dữ liệu thử nghiệm: Các thông số liệu đầu vào Hình 3.7: Chương trình với thuật tốn FOSHU 3.5.4 Kết thu sử dụng thuật toán Kết thử nghiệm sử dụng thuật toán FHM: 61 + Khi nhập giá trị tối thiểu ( ví dụ minutil= 590.000) ta thu được: 10 tập mục liệt kê lợi nhuận mặt hàng bán với có lợi nhuận ≥ 590.000 Bảng 3.6: Dữ liệu đầu thuật toán FHM 38500 41541 67485 79394 79420 83008 83009 87197 #UTIL: 590771 38500 41541 67485 79394 79420 83008 83009 87197 59995 #UTIL: 593089 38500 41541 67485 79394 79420 83008 83009 87197 59995 85083 #UTIL: 597748 38500 41541 67485 79394 79420 83008 83009 87197 85083 #UTIL: 595430 38500 41541 67485 79394 79420 83008 83009 59995 85083 #UTIL: 593202 38500 41541 67485 79394 79420 83008 83009 85083 #UTIL: 590884 38500 41541 67485 79394 83008 83009 87197 59995 85083 #UTIL: 594430 38500 41541 67485 79394 83008 83009 87197 85083 #UTIL: 592112 38500 41541 67485 79420 83008 83009 87197 59995 85083 #UTIL: 591475 38500 41541 79394 79420 83008 83009 87197 59995 85083 #UTIL: 590753 Kết thử nghiệm sử dụng thuật toán FHN: Bảng 3.7: Dữ liệu đầu thuật toán FHN 38500 41541 67485 79394 79420 83008 83009 87197 #UTIL: 590771 38500 41541 67485 79394 79420 83008 83009 87197 59995 #UTIL: 593089 38500 41541 67485 79394 79420 83008 83009 87197 59995 85083 #UTIL: 597748 38500 41541 67485 79394 79420 83008 83009 87197 85083 #UTIL: 595430 38500 41541 67485 79394 79420 83008 83009 59995 85083 #UTIL: 593202 38500 41541 67485 79394 79420 83008 83009 85083 #UTIL: 590884 38500 41541 67485 79394 83008 83009 87197 59995 85083 #UTIL: 594430 38500 41541 67485 79394 83008 83009 87197 85083 #UTIL: 592112 38500 41541 67485 79420 83008 83009 87197 59995 85083 #UTIL: 591475 38500 41541 79394 79420 83008 83009 87197 59995 85083 #UTIL: 590753 + Khi nhập giá trị tối thiểu (ví dụ minutil= 590.000): - 10 tập mục liệt kê lợi nhuận mặt hàng bán với có lợi nhuận ≥ 590.000 62 Kết thử nghiệm sử dụng thuật toán PHM: - Khi nhập giá trị: minutil = 590.000, minper = 1, maxper = 10000, minavgper = 1, maxavgper = 10000, Kết ta thu được: 10 tập mục có khoảng cách chu kỳ với lợi nhuận ≥ 590.000 Bảng 3.8: Bảng liệu đầu thuật toán PHM 3500 41541 67485 79394 79420 83008 83009 87197 #UTIL: 590771 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79394 79420 83008 83009 87197 59995 #UTIL: 593089 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79394 79420 83008 83009 87197 59995 85083 #UTIL: 597748 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79394 79420 83008 83009 87197 85083 #UTIL: 595430 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79394 79420 83008 83009 59995 85083 #UTIL: 593202 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79394 79420 83008 83009 85083 #UTIL: 590884 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79394 83008 83009 87197 59995 85083 #UTIL: 594430 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79394 83008 83009 87197 85083 #UTIL: 592112 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 67485 79420 83008 83009 87197 59995 85083 #UTIL: 591475 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 38500 41541 79394 79420 83008 83009 87197 59995 85083 #UTIL: 590753 #SUP: #MINPER: 2147483647 #MAXPER: 199 #AVGPER: 107.0 63 Kết thử nghiệm sử dụng thuật toán FOSHU + Khi nhập giá trị: minutil = 0.442 ta thu được: 12 tập mục có tỷ lệ lợi nhuận ≥ minutil = 0.442 Bảng 3.9: Dữ liệu đầu thuật toán FOSHU 38500 41541 67485 79394 79420 83008 83009 87197 #UTIL: 590771 #RUTIL: 0.44275857830646276 38500 41541 67485 79394 79420 83008 83009 87197 59995 #UTIL: 593089 #RUTIL: 0.4444958240150611 38500 41541 67485 79394 79420 83008 83009 87197 59995 85083 #UTIL: 597748 #RUTIL: 0.4479875529867436 38500 41541 67485 79394 79420 83008 83009 87197 85083 #UTIL: 595430 #RUTIL: 0.4462503072781452 38500 41541 67485 79394 79420 83008 83009 59995 85083 #UTIL: 593202 #RUTIL: 0.44458051286970807 38500 41541 67485 79394 79420 83008 83009 85083 #UTIL: 590884 #RUTIL: 0.44284326716110967 38500 41541 67485 79394 83008 83009 87197 59995 #UTIL: 589771 #RUTIL: 0.4420091194157818 38500 41541 67485 79394 83008 83009 87197 59995 85083 #UTIL: 594430 #RUTIL: 0.44550084838746423 38500 41541 67485 79394 83008 83009 87197 85083 #UTIL: 592112 #RUTIL: 0.44376360267886583 38500 41541 67485 79394 83008 83009 59995 85083 #UTIL: 589884 #RUTIL: 0.44209380827042877 38500 41541 67485 79420 83008 83009 87197 59995 85083 #UTIL: 591475 #RUTIL: 0.4432861973655021 38500 41541 79394 79420 83008 83009 87197 59995 85083 #UTIL: 590753 #RUTIL: 0.4427450880464305 64 3.5.5 Đánh giá kết chương trình Các thuật toán cho thời gian chạy với số liệu cho kết thời gian: ===== THUAT KHOAN KHAI PHA LOI ICH CAO FHM ======== Thoi gian thuc hien ~ ms Su dung bo nho ~ 23.45111846923828 MB So loi ich tap muc cao tim duoc: 10 So ung vien: 92 ==== THUAT TOAN KHAI PHA LOI ICH CAO-FHN ========= Thoi gian thuc hien ~ ms Su dung bo nho ~ 28.298622131347656 MB So Loi ich tap muc cao tim duoc: 10 So ung vien: 92 ===== THUAT TOAN KHAI PHA LOI ICH CAO-PHM ======== Kich thuoc CSDL giao tac: 214 Giao tac Thoi gian: 15.0 ms Bo nho ~ 33.292640686035156 MB So loi ich cao tim duocc: 10 So ung vien: 92 ==== THUAT TOAN KHAI PHA LOI ICH CAO THEO THOI GIAN ===== Tep du lieu: C:\Users\Luan van\Desktop\u001\input-22-10-2017-csv-FOSHUTXT.txt Thoi gian thuc hien ~ 31 ms Su dung bo nho ~ 26.45983123779297 MB So tap muc loi ich cao: 12 So ket noi: 93 ======================================================== Các thuật toán cho kết sau: + Sử dụng thuật tốn FHM FHN: Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 65 + Sử dụng thuật tốn FHN: Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 + Sử dụng thuật toán PHM: Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 nhóm xuất lần + Sử dụng thuật toán FOSHU: Với tỷ lệ lợi ích tương đối = 0.442 Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 nhóm mặt hàng có lợi nhuận lớn 580.000 Qua phân tích kết với mẫu liệu chương trình đáp ứng yêu cầu đề ra, danh sách hóa đơn bán hàng liệt kê nhóm mặt hàng bán dựa lợi nhuận, nhóm mặt hàng bán cho lợi nhuận cao theo chu kỳ, nhóm mặt hàng bán hóa đơn theo giai đoạn cụ thể đưa vào cho kết quả.Chương trình sử dụng tồn liệu thực tế 3.6 Kết luận chương Trong chương 3, tiến hành chạy thử nghiệm chương trình với thuật tốn giới thiệu chương 2, áp dụng thử nghiệm vào toán hỗ trợ hoạt động kinh doanh siêu thị Công ty cổ phần siêu thị VHSC(VIETNAM) sở liệu với mẫu thực tế 66 KẾT LUẬN Những kết luận văn Luận văn tìm hiểu cách tiếp cận khác nhằm tìm hiểu mơ hình tốn với số thuật toán quan trọng khai phá tập mục lợi ích cao sở liệu Với ba chương, nội dung luận văn đề cập vấn đề sau: -Khái quát khai phá liệu, khai phá tập mục thường xun -Trình bày tốn khai phá tập mục lợi ích cao -Tìm hiểu bốn thuật tốn quan trọng khai phá tập mục lợi ích cao Đó thuật tốn FHM, FHN, PHM FOSHU Từ đó, tìm hiểu khả áp dụng vào doanh nghiệp siêu thị, cung cấp thêm thông tin hỗ trợ cho phép người quản lý phân tích, lên kế hoạch đặt hàng, dự trữ hàng tồn kho, đảm bảo an toàn cho nhà quản trị minh hoạ ví dụ cụ thể áp dụng thuật tốn thử nghiệm vào hệ thống Cơng ty cổ phần Siêu thị VHSC Hướng nghiên cứu Trên sở trình bày luận văn, tiếp tục tìm hiểu sâu hơn:  Thuật tốn khai thác lợi ích cao sử dụng giai đoạn xử lý, đặc biệt cải tiến việc xử lý liệu thô nhằm tăng thời gian xử lý  Tìm hiểu thêm thuật tốn tập mục lợi ích cao như: + Thuật toán FHM+, FHMFreq + Thuật toán FCHM + Thuật tốn HUSRM  Làm thực nghiệm tồn thuật toán liệu thực tế lớn triệu giao tác  Tìm hiểu đánh giá độ tựơng quan kết đạt đựợc so với ý kiến ngựời bán hàng lâu năm phận liên quan  Tìm hiểu thuật tốn khai thác tập có ích cao sở liệu phân tán 67 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Huy Đức, Vũ đức Thi, Khai phá hiệu tập mục lợi ích cao sở liệu lớn, Tạp chí Tin học điều khiển học, 2008 [2] Nguyễn Huy Đức,Vũ Đức Thi, (2008),“Thuật tốn hiệu khai phá tập mục lợi ích cao cấu trúc liệu cây”, Tạp chí tin học điều khiển học, 24(3), tr 204216 [3] Nguyễn Huy Đức (2009), “Khai phá tập mục cổ phần cao lợi ích cao sở liệu”, Luận án tiến sỹ toán học, Mã số: 62.46.35.01, Hà Nội, Việt Nam [4] Nguyễn Thanh Tùng, Khám phá tập mục lợi ích cao sở liệu, Hội thảo Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, đại Lải, (2007), tr 181-197 Tiếng Anh: [5] Chu, C.-J., Tseng, V S., Liang, T.: An efficient algorithm for mining high utility itemsets with negative item values in large databases In: Applied Math Comput., 215, pp 767-778 (2009) [6] Agrawal, R., Srikant, R.: Fast algorithms for mining association rules in large databases In: Proc Int Conf Very Large Databases, pp 487–499 (1994) [7] Ahmed, C F., Tanbeer, S K., Jeong, B.-S., Lee, Y.-K.: Efficient Tree Structures for High-utility Pattern Mining in Incremental Databases In: IEEE Trans Knowl Data Eng 21(12), pp 1708–1721 (2009) [8] Amphawan, K., Lenca, P., Surarerks, A.: Mining top-k periodic-frequent pattern from transactional databases without support threshold In: Proc 3rd Intern Conf on Advances in Information Technology, pp 18–29 (2009) [9] Amphawan, K., Surarerks, A., Lenca, P.: Mining periodic-frequent itemsets with approximate periodicity using interval transaction-ids list tree In: Proc 2010 Third Intern Conf on Knowledge Discovery and Data Mining, pp 245-248 (2010) 68 [10] Fournier-Viger, P., Wu, C.-W., Zida, S., Tseng, V S.: FHM: Faster High-Utility Itemset Mining using Estimated Utility Co-occurrence Pruning In: Proc 21st Intern Symp Methodologies Intell Systems (ISMIS 2014), Springer, pp 83-92 (2014) [11] Fournier-Viger, P., Gomariz, A., Campos, M., Thomas, R.: Fast Vertical Sequential Pattern Mining Using Co-occurrence Information In: Proc 18th PacificAsia Conference on Knowledge Discovery and Data Mining, Springer, LNAI, (2014) [12].Fournier-Viger, P., Wu, C.-W., Gomariz, A., Tseng, V S.: VMSP: Efficient Vertical Mining of Maximal Sequential Patterns In: Proc 27th Canadian Conference on Artificial Intelligence, Springer, LNAI, pp 83-94 (2014) [13] Fournier-Viger, P., Wu, C.-W., Tseng, V S.: Novel Concise Representations of High Utility Itemsets using Generator Patterns In: Proc 10th International Conference on Advanced Data Mining and Applications, Springer LNAI, 14 pages (2014) [14].Fournier-Viger FHN: Efficient Mining of High-Utility Itemsets with Negative Unit Profits In Proc 10th International Conference on Advanced Data Mining and Applications, Springer, 2014 [15] Fournier-Viger, A Gomariz, A Soltani, T Gueniche, C.W Wu., V.S Tseng SPMF: a Java Open-Source Pattern Mining Library In Journal of Machine Learning Research 15:,2014 [16] Fournier-Viger, P., Nkambou, R., Tseng, V S.: RuleGrowth: Mining Sequential Rules Common to Several Sequences by Pattern-Growth In: Proc ACM 26th Symposium on Applied Computing, pp 954–959 (2011) [17] Fournier-Viger, P., Lin, C.W., Duong, Q.-H., Dam, T.-L (2016) PHM: Mining Periodic High-Utility Itemsets Proc 16th Industrial Conference on Data Mining Springer LNAI 9728, 15 pages [18] Fournier-Viger, P., Zida, S (2015) FOSHU: Faster On-Shelf High Utility Itemset Mining– with or without negative unit profit Proc 30th Symposium on Applied Computing (ACM SAC 2015) ACM Press, pp 857-864 69 [19] Lan, G C., Hong, T P and Tseng V.S Discovery of high utility itemsets from on-shelf time periods of products In Expert Systems with Applications.38:5851– 5857, 2011 [20].Lan, G C., Hong, T P, Tseng, and V.S Tseng On-shelf utility mining with negative item values In Expert Systems with Applications 41:3450–3459, 2014 [21].Lan, G C., Hong, T P., Tseng, V S.: An efficient projection-based indexing approach for mining high utility itemsets Knowl and Inform Syst 38(1), 85–107 (2014) [22].Kiran, R U., Reddy, P K.: Mining Rare Periodic-Frequent Patterns Using Multiple Minimum Supports In: Proc 15th Intern Conf on Management of Data (2009) [23].Uday, U R., Kitsuregawa, M., Reddy, P K.: Efficient Discovery of PeriodicFrequent Patterns in Very Large Databases Journal of Systems and Software, 112, 110–121 (2015) [24].Li, Y.-C., Yeh, J.-S., Chang, C.-C.: Isolated items discarding strategy for discovering high utility itemsets In: Data & Knowledge Engineering 64(1), pp 198– 217 (2008) [25].Song, W., Liu, Y., Li, J.: BAHUI: Fast and memory efficient mining of high utility itemsets based on bitmap Intern Journal of Data Warehousing and Mining 10(1), 1–15 (2014) [26].Liu, M., Qu, J.:Mining High Utility Itemsets without Candidate Generation In Proceedings of CIKM12, pp 55–64 (2012) [27].Liu, Y., Liao, W., Choudhary, A.: A two-phase algorithm for fast discovery of high utility itemsets In: Proc PAKDD 2005, pp 689–695 (2005) [28].Shie, B.-E., Cheng, J.-H., Chuang, K.-T., Tseng, V S.: A One-Phase Method for Mining High Utility Mobile Sequential Patterns in Mobile Commerce Environments In: Proceedings of IEA/AIE12, pp 616–626 (2012) 70 [29] Shie, B.-E., Cheng, J.-H, C.-W Wu and P.S Yu Efficient Algorithms for Mining High Utility Itemsets from Transactional Databases In IEEE Trans Knowl Data Eng, 25(8):1772–1786, 2013 [30].Surana, A., Kiran, R U., Reddy, P K.: An efficient approach to mine periodicfrequent patterns in transactional databases In: Proc 2011 Quality Issues, Measures of Interestingness and Evaluation of Data Mining Models Workshop, pp 254–266 (2012) [31].Tanbeer, S K., Ahmed, C F., Jeong, B S., Lee, Y K.: Discovering periodicfrequent patterns in transactional databases In: Proc 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 242–253 (2009) [32].Wu, C.-W., Fournier-Viger, P., Yu., P S, Tseng, V S.: Efficient Mining of a Concise and Lossless Representation of High Utility Itemsets In: Proceedings of ICDM11, pp 824–833 (2011) [33].Wu, C.-W., Lin, Y.-F., Yu, P S., Tseng, V S.: Mining High Utility Episodes in Complex Event Sequences In: Proceedings of ACM SIG KDD13, pp 536–544 (2013) [34].Yin, J., Zheng, Z., Cao, L.: USpan: An Efficient Algorithm for Mining High Utility Sequential Patterns In: Proceedings of ACM SIG KDD12, pp 660–668 (2012) [35].Yin, J., Zheng, Z., Cao, L., Song, Y., Wei, W.: Efficiently Mining Top-K High Utility Sequential Patterns In: Proceedings of ICDM13, pp 1259–1264 (2013) [36].Yin, J., Zheng, Z., Cao, USpan: An Efficient Algorithm for Mining High Utility Sequential Patterns In Proc 8th ACM SIGKDD Intern Conf Knowl.Discovery and Data Mining, pp 660–668, 2012 Các trang Web [37].https://archive.ics.uci.edu/ml/datasets.html [38].http://it.die.vn/d/data-mining-khai-pha-du-lieu/ [39].http://science-technology.vn/?p=296 [40].http://www.philippe-fournier-viger.com/ ... nghĩa 1.4: Khai phá tập mục lợi ích cao: Vấn đề khai phá tập mục lợi ích cao phát tất tập mục có lợi ích cao Một tập

Ngày đăng: 28/02/2018, 11:45

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan