Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
761,43 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÀNH VINH PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI DÙNG VÀ CÁC TÁC NHÂN LIÊN QUAN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÀNH VINH PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI DÙNG VÀ CÁC TÁC NHÂN LIÊN QUAN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã Số: 8480205.01 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Phát hành vi mua sắm người dùng tác nhân liên quan sử dụng kỹ thuật khai phá liệu" cơng trình nghiên cứu cá nhân tôi, hướng dẫn cán hướng dẫn khoa học, thầy giáo, TS Đặng Thanh Hải Các nội dung, kết thể luận văn hoàn toàn trung thực Ngoại trừ tài liệu tham khảo cơng trình nghiên cứu tơi trích dẫn đầy đủ luận văn hồn tồn cơng trình riêng cá nhân tơi Luận văn hồn thành q trình tơi học tập Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 10 tháng 09 năm 2018 Học viên Nguyễn Thành Vinh LỜI CẢM ƠN Lời đầu tiên, mong muốn bày tỏ trân trọng biết ơn sâu sắc đến thầy giáo, TS Đặng Thanh Hải, giảng viên trường ĐH Công nghệ, tận tình hướng dẫn, nhận xét góp ý hiệu suốt trình thực luận văn Tôi chân thành cảm ơn thầy, PGS.TS Hà Quang Thụy, PGS.TS Hoàng Xuân Huấn, PGS.TS Phạm Ngọc Hùng, PGS.TS Nguyễn Ngọc Hóa thầy khác giúp đỡ tạo điều kiện để học tập tiếp cận trình nghiên cứu trường Tôi cảm ơn anh chị bạn khóa cao học K22 anh chị đồng nghiệp công ty VNPT-IT ủng hộ, động viên tạo điều kiện giúp suốt trình học tập trường Cuối cùng, tơi muốn gửi lời cảm ơn chân thành tới gia đình, bạn bè, động viên giúp đỡ không q trình thực luận văn mà cịn hành trình Hà Nội, ngày 10 tháng 09 năm 2018 Học viên Nguyễn Thành Vinh MỞ ĐẦU Dữ liệu tạo ngày nhiều số lượng lẫn thể loại; từ khiến việc lựa chọn, khai thác, sử dụng chúng gặp nhiều khó khăn thách thức Lĩnh vực Khai phá liệu (KPDL) đời nhằm hỗ trợ việc khai thác sử dụng liệu hiệu Khai phá liệu (KPDL) trình trích xuất, khai thác sử dụng kiện rời rạc liệu thành tri thức có tính quy luật, để mang lại giá trị tích cực việc đưa định Ngày nay, việc lấy khách hàng làm trung tâm (customer centricity) yếu tố quan trọng dịch vụ khách hàng: khách hàng “cổ đông” quan trọng công ty Ngành thương mại điện tử tạo khối lượng liệu khổng lồ, bao gồm: chi tiết hóa đơn bán hàng, thơng tin cảnh báo tình trạng hệ thống liệu hàng hóa thơng tin liệu khách hàng Do đó, doanh nghiệp có nhu cầu cần hiểu rõ thị hiếu khách hàng xu hướng thị trường tới Ứng dụng khai phá liệu ngành thương mại để phát quy luật ẩn chứa khối liệu khổng lồ nhằm xây dựng mơ hình giúp xác định xu hướng mua hàng khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm, dịch vụ nhằm nâng cao hài lòng khách hàng giữ chân khách hàng tốt Khoá luận tập trung giới thiệu tổng quan khai phá liệu, nghiên cứu mơ hình phát hành vi mua hàng người dùng thử nghiệm, đánh giá thuật toán Krimp thuật tốn TopKRules áp dụng vào mơ hình thực tế dựa vào liệu hóa đơn bán hàng công ty Công nghệ Cổ phần PAC Việt Nam MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỞ ĐẦU MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC VIẾT TẮT CHƯƠNG 1: TỔNG QUAN ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC PHÁT HIỆN HÀNH VI MUA SẮM 1.1 Thị trường hành vi mua sắm hàng hóa 1.1.1 Khái niệm 1.1.2 Hành vi mua sắm người dùng 1.1.3 Hành vi mua đơn vị, tổ chức 11 1.2 Khai phá liệu phát tri thức 14 1.2.1 Khai phá liệu 14 1.2.2 Các bước trình phát tri thức 14 1.2.3 Kiến trúc hệ thống khai phá liệu 16 1.2.4 Một số kỹ thuật khai phá liệu 17 1.3 Ứng dụng khai phá liệu cho thị trường hàng hóa 20 1.3.1 Ứng dụng khai phá liệu 20 1.3.2 Phát hành vi mua sắm người dùng 22 CHƯƠNG 2: TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢP 23 2.1 Luật kết hợp 23 2.2 Khai phá luật kết hợp 25 2.2.1 Thuật toán Apriori 28 2.2.2 Thuật toán AIS 29 2.2.3 Thuật toán SETM 30 2.2.4 Thuật toán Krimp 32 2.2.5 Thuật toán TopKRules 34 CHƯƠNG 3: THỬ NGHIỆM PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI DÙNG 38 3.1 Giới thiệu toán 38 3.2 Cài đặt ứng dụng 39 3.2.1 Cấu hình phần cứng 39 3.2.2 Các công cụ phần mềm sử dụng 39 3.3 Thực nghiệm 39 3.3.1 Quá trình thực nghiệm đánh giá 39 3.3.2 Tiền xử lý liệu 40 3.3.3 Cấu hình thơng tin mơ hình Krimp 41 3.4 Kết đánh giá 42 3.4.1 Kết phân tích liệu 42 3.4.2 Đánh giá kết 43 KẾT LUẬN 55 TÀI LIỆU THAM KHẢO 56 DANH MỤC HÌNH VẼ Hình 1.1 Q trình thơng qua định mua hàng[4] 10 Hình 1.2 Quá trình phát tri thức CSDL [1] 15 Hình 1.3 Kiến trúc điển hình hệ thống khai phá liệu [1] 17 Hình 1.4 Phân tích giỏ hàng 19 Hình 2.1 Mơ tả thuật tốn AIS qua bước 30 Hình 2.2 Mơ tả thuật tốn SETM qua bước 32 Hình 2.3 Mơ hình tổng quan thuật toán Krimp [5] 34 Hình 3.1 Thơng tin phiếu xuất hàng 38 Hình 3.2 Các bước thử nghiệm phát hành vi người dùng 40 Hình 3.3 Thơng tin liệu hóa đơn bán hàng 41 Hình 3.4 Danh mục sản phẩm PAC 41 Hình 3.5 Cấu hình thơng tin Krimp 42 DANH MỤC BẢNG BIỂU Bảng 1.1 Các ứng dụng khai phá liệu bật [1] 21 Bảng 2.1 Một ví dụ sở liệu gồm giao dịch: 23 Bảng 2.2 Giao dịch mua hàng 25 Bảng 2.3 Tính độ hỗ trợ cho tập hợp chứa mặt hàng 27 Bảng 2.4 Tính độ tin cậy cho luật kết hợp 27 Bảng 3.1 Cấu hình phần cứng 39 Bảng 3.2 Các phần mềm sử dụng 39 DANH MỤC VIẾT TẮT STT Khi tiến hành thực thi krimp compress, tiến trình Krimp tự động khai phá tất itemsets sử dụng làm ứng cử viên cho lựa chọn Krimp Các frequent itemsets lưu trữ file isc ( dulieu-all-10d.isc) Sau tiêu đề dòng, dòng chứa mục nhất, sau: : () 4 Các kết thuật toán Krimp đưa tập mục phổ biến xếp theo thứ tự giảm dần độ support, độ giảm dần số lượng item Do phần mục tham số thay đổi chuyển đổi sở liệu gốc thành định dạng Krimp ( tham chiếu lại liệu phân tích dulieu-banhang.db.analysis.txt ) - Với itemset {0} có độ dài 1, support 0.91 ( 0=> mã tham chiếu sản phẩm 68 ) Với itemset {0 43 53}, có độ dài support 0.13 ( tương ứng với mã sản phẩm: 68; 71; 78; 62) Đánh giá: - Dựa vào kết mà thuật toán Krimp đưa ra, luận văn lấy 38 frequent itemset với độ dài itemsets >= với theo độ support để tiếp tục thực nghiệm để tìm luật: Length 4 45 46 Mã SP 89 56 69 33 82 90 120 Chúng xét giá trị support thỏa mãn >=10/38 ~ 0.26 Mã SP Lưỡi dao 56 Lưỡi dao 69 Lưỡi dao 33 Lưỡi dao 82 Lưỡi dao 90 Lưỡi dao 120 Lưỡi dao Dựa thuật toán sinh luật kết hợp Apriori dựa vào frequent itemsets, thực lọc item sang F2: 47 Items 56 69 33 82 90 120 56 69 56 33 56 82 56 90 56 120 69 33 69 82 69 90 69 120 33 82 33 90 33 120 82 90 82 120 90 120 48 Sau tìm itemset đánh giá theo độ support, chúng tơi thực tìm item sang F3: Items 15669 15682 15690 56 120 16982 16990 69 120 33 56 69 33 56 82 33 56 90 33 56 120 56 69 82 56 69 90 56 69 120 69 82 90 69 82 120 82 90 120 Thực lọc item sang F4: Items supp(X) 49 56 69 82 90 56 69 82 120 56 69 90 120 69 82 90 120 Dựa kết lọc item, thực tính tốn kết quả: Itemset 56 69 56 90 69 90 82 90 90 120 56 69 82 Bên cạnh thuật toán Apriori, luận văn áp dụng thuật toán TopKRules với tập liệu bán hàng frequent-items Chúng thực xử lý lần với tham số: k=2; minconf=0.5 Chạy thuật toán dựa Chúng thực tăng k = 10, giữ nguyên giá trị minconf = 0.5 51 Tiếp tục tăng giá trị k=100, minconf=0.5 Khi tăng giá trị k từ 2, 10, 100 độ tin cậy tối thiểu 0.5 nhận thấy luật kết hợp tăng giá trị độ tin cậy confidence độ hỗ trợ lại giảm Chúng lựa chọn tăng độ tin cậy 0.7; đặt giá trị k=2 52 Tiếp tục tăng giá trị k=10; giá trị minconf = 0.7 53 Với giá trị tăng k từ đến 10 mức độ tin cậy tối thiểu 0.7 luật kết hợp, giá trị độ hỗ trợ giảm độ tin cậy lại tăng lên Kết hợp thêm với trường hợp kiểm tra với thuật tốn Apriori luận văn đưa nhận định : Đối với mặt hàng Lưỡi dao GMM3020R-TMR-6D/PR1115 khách hàng thường có xu hướng mua Lưỡi dao DCMT11T304GK-TN6020 - Đối với mặt hàng Lưỡi dao TCMT110204HQ-PV7025 khách hàng thường có xu hướng mua Lưỡi dao DCMT11T304GK-TN6020 - Đối với mặt hàng Lưỡi dao DCMT11T304GK-TN6020 khách hàng thường có xu hướng mua Lưỡi dao GBA43R330-030MY/TN6020 ngược lại - Đối với mặt hàng Lưỡi dao DCMT11T304GK-TN6020 khách hàng thường có xu hướng mua Lưỡi dao GMM3020R-TMR-6D/PR1115 ngược lại Dựa thơng tin sau áp dụng thuật tốn khai phá luật kết hợp, hỗ trợ cho người quản lý đưa nhận định mang tính định hướng việc kinh doanh tới 54 KẾT LUẬN Với phát triển không ngừng công nghệ thông tin, ứng dụng công nghệ thông tin công tác quản lý chăm sóc khách hàng nhu cầu để hiểu biết hành vi mua sắm người dùng cần thiết mang lại nhiều lợi ích việc kinh doanh Tuy nhiên, nghiên cứu khai phá hành vi mua sắm người dùng quan tâm từ lâu, lĩnh vực cịn có nhiều vấn đề thách thức cần giải Nắm bắt nhu cầu đó, luận văn tiến hành nghiên cứu mơ hình phát hành vi mua hàng người dùng áp dụng thử nghiệm vào mơ hình dựa vào liệu hóa đơn bán hàng Kết đạt luận văn Luận văn tiến hành khảo sát khai phá liệu hành vi mua hàng người dùng công tác quản lý mua hàng Trong đó, luận văn sâu vào nghiên cứu mơ hình phát hành vi mua hàng người dùng dựa việc khai phá luật kết hợp thuật toán nén Krimp thuật toán TopKRules Luận văn tiến hành cài đặt thực nghiệm lược đồ (hình 3.2) để xác định tần suất giao dịch mua sắm hàng hóa người dùng mơ hình đề xuất cho tập liệu mua hàng cơng ty PAC Do khó khăn việc thu thập liệu nên dẫn đến việc luật sinh nhỏ, chưa phản ánh hết đặc trưng hành vi mua hàng mô hình thực nghiệm Định hướng nghiên cứu Trong khuôn khổ luận văn này, dừng lại việc đưa mơ hình đề xuất thực nghiệm dựa vào mơ hình Krimp, mơ hình TopKRules Trong thời gian tới, tiếp tục thực nghiệm đối sốt so sánh kết mơ hình với mơ hình khác, đồng thời xem xét hướng nghiên cứu bổ sung thêm đặc trưng hành vi mua hàng tác nhân tác động đến hành vi người dùng 55 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012) Giáo trình Khai phá liệu Nhà xuất ĐHQGHN, Hà Nội [2] Vũ Đức Thi (2012) Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Tạp chí Khoa học Cơng nghệ [3] GS.TS Trần Minh Đạo (2012), Giáo trình Marketing Nhà xuất ĐH kinh tế quốc dân [4] TS Nguyễn Thượng Thái (2009), Giáo Trình Marketing Căn Bản , Nhà xuất Thông tin truyền thông Tiếng Anh [5] Jilles Vreeken, Matthijs van Leeuwen, Arno Siebes (2010) KRIMP: mining itemsets that compress [6] Lior Shabtay, Rami Yaari and Itai Dattner (2018) A Guided FP-growth algorithm for multitude-targeted mining of big data, Israeli Science Foundation [7] Rana Alaa El-Deen Ahmeda, M.Elemam.Shehaba, Shereen Morsya, Nermeen Mekawie(2015) Performance study of classification algorithms for consumer online shopping attitudes and behavior using data mining, Arab academy for science and technology(AASTMT) [8] Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen, and A Inkeri Verkamo (1996), Advances in Knowledge Discovery and Data Mining, AAAI Press [9] J Han and M Kamber (2006), Data Mining: Concepts and Techniques, 2nd Edition, Morgan Kaufmann Publishers Agrawal and J.Shafer (1996), Parallel mining of association rules, In IEEE trans, on Knowledge and Data Engg [10] [11] I H Witten and E Frank (2000), Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers, New York Agrawal, H Mannila, R Srikant (1996), Fast discovery of association rules, MIT Press [12] Manoel Mendonca (2000) Mining Software Engineering Data: A Survey University of Maryland, Department of Computer Science, A V Williams Building #3225 College Park, MD 20742 [14] Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2005), Introduction to Data Mining, Addison-Wesley 56 [13] ... HỌC CÔNG NGHỆ NGUYỄN THÀNH VINH PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI DÙNG VÀ CÁC TÁC NHÂN LIÊN QUAN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Quản lý hệ thống thông. .. tin Mã Số: 848020 5.01 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI LỜI CAM ĐOAN Tôi xin cam đoan luận văn ? ?Phát hành vi mua sắm người dùng tác nhân liên. .. NGHIỆM PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI DÙNG 3.1 Giới thiệu tốn Do khó khăn vi? ??c thu thập liệu bán lẻ để phân tích đặc trưng hành vi người tiêu dùng nên thực nghiệm luận văn lấy liệu hành vi mua