Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,07 MB
Nội dung
- ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ ́ tê ́H uê - - ̣c K in h KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC ươ ̀n g Đ ại ho XÂY DỰNG MƠ HÌNH PHÂN LỚP BAGGING ĐỂ PHÂN LỚP KHÁCH HÀNG TỪ DỮ LIỆU MUA HÀNG TRỰC TUYẾN Tr Sinh viên thực hiện: Đoàn Thị Kim Anh Mã sinh viên: 15K4081003 Giáo viên hướng dẫn: TS Nguyễn Đình Hoa Cương Lớp: K49A Tin học kinh tế HUẾ, 2018 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương Lời Cám Ơn Em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Đình Hoa Cương, giáo viên tận tình dẫn giúp đỡ q trình em làm khóa luận ́ Em xin cảm ơn đến thầy cô trường Đại Học Kinh ́H Tế giúp em có thêm nhiều kiến thức ghế nhà trường kiến thức xã hội Tất h in luận sau tê cho em tảng vững để thực khóa ̣c K Em xin gửi lời cảm ơn đến Ban lãnh đạo công ty TNHH MTV kỹ thuật phần mềm Pi tạo hội ho cho em thực tập công ty anh chị hỗ trợ em vật chất lẫn tinh thần, chia sẻ cho em nhiều Đ ại kinh nghiệm để em bước vào môi trường làm việc thực g tế ươ ̀n Cuối em xin cảm ơn gia đình bạn bè bên cạnh ủng hộ em ngày, làm nguồn động lực để Tr em cố gắng nhiều Trong q trình thực khóa luận với kiến thức em khơng tránh khỏi sai sót, em mong nhận ý kiến đóng góp thầy Em xin chân thành cám ơn! SVTH: Đồn Thị Kim Anh I - Tr ươ ̀n g Đ ại ho ̣c K in h tê ́H ́ GVHD: TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp SVTH: Đồn Thị Kim Anh II - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương MỤC LỤC LỜI CÁM ƠN I DANH MỤC HÌNH VẼ V DANH MỤC BẢNG BIỂU VI DANH MỤC THUẬT NGỮ VII PHẦN I: MỞ ĐẦU 1 Lý chọn đề tài ́ uê Mục tiêu nghiên cứu ́H Đối tượng phạm vi nghiên cứu tê Phương pháp sử dụng Cấu trúc khóa luận in h PHẦN II: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU CHƯƠNG I: CƠ SỞ LÝ THUYẾT ̣c K 1.1 Khai phá liệu 1.1.1 Định nghĩa ho 1.1.2 Quá trình khai phá liệu 1.1.3 Kiến trúc hệ thống khai phá liệu ại 1.1.4 Các phương pháp khai phá liệu Đ 1.1.4.1 Phân lớp liệu g 1.1.4.2 Phân cụm liệu 11 ươ ̀n 1.1.4.3 Khai phá luật kết hợp 14 1.2 Phát biểu toán nghiên cứu 15 Tr 1.3 Các cơng trình liên quan 16 1.3.1 Các cơng trình nước 16 1.3.2 Các cơng trình nước ngồi 17 CHƯƠNG II: PHƯƠNG PHÁP XÂY DỰNG MƠ HÌNH 26 2.1 Giới thiệu phần mềm Weka 26 2.1.1 Tổng quan 26 2.1.2 Các ứng dụng Weka 26 2.2 Các phương pháp nghiên cứu 27 SVTH: Đoàn Thị Kim Anh III - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương 2.2.1 Naïve Bayes 27 2.2.2 Cây định (J48) 28 2.2.3 Mơ hình k-lân cận (k-NN) 29 2.2.4 Mạng nơ-ron nhân tạo (MultilayerPerceptron) 31 2.2.5 Mơ hình kết hợp theo phương pháp Bagging 31 2.3 Các phương pháp chuẩn bị liệu 32 2.3.1 Phương pháp Holdout 32 ́ uê 2.3.2 Phương pháp cross-validation 32 ́H 2.4 Các phương pháp đánh giá mơ hình phân lớp 33 CHƯƠNG III: THÍ NGHIỆM VÀ KẾT LUẬN 37 tê 3.1 Thiết lập thí nghiệm 37 h 3.1.1 Mơ tả thí nghiệm 37 in 3.1.2 Mô tả liệu 38 ̣c K 3.1.3 Chuẩn bị liệu 40 3.1.4 Tiến hành thí nghiệm 41 ho 3.1.4.1 Phân lớp phương pháp Naïve Bayes 41 3.1.4.2 Phân lớp phương pháp định (J48) 43 ại 3.1.4.3 Phân lớp phương pháp k-lân cận 44 Đ 3.1.4.4 Phân lớp phương pháp mạng nơ-ron nhân tạo 45 g 3.1.4.5 Phân lớp theo phương pháp kết hợp Bagging 47 ươ ̀n 3.1.4.6 Xây dựng đường ROC 48 3.2 Kết thí nghiệm 49 Tr 3.2.1 Hiệu mơ hình 49 3.2.2 Đường ROC mơ hình phân lớp 50 PHẦN III: KẾT LUẬN 51 Kết đạt 51 Hạn chế 52 Hướng phát triển 52 DANH MỤC TÀI LIỆU THAM KHẢO 53 SVTH: Đoàn Thị Kim Anh IV - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương DANH MỤC HÌNH VẼ Hình vẽ 1: Mơ tả q trình khai phá liệu (Nguồn: www.bienuit.wordpress.com) Hình vẽ 2: Kiến trúc hệ thống khai phá liệu (Nguồn:www.slideshare.net) Hình vẽ 3: Quá trình phân lớp liệu (Nguồn: www.viblo.asia) Hình vẽ 4: Xây dựng mơ hình phân lớp liệu (Nguồn: slideshare.net) Hình vẽ 5: Sử dụng mơ hình phân lớp liệu (Nguồn: slideshare.net) 10 Hình vẽ 6: Quá trình phân cụm liệu (Nguồn: http:www.mediafire.com) 12 ́ uê Hình vẽ 7: Giao diện phần mềm Weka 26 ́H Hình vẽ 8: Mơ hình Nạve Bayes (Nguồn: 05.05-Naive-Bayes.com) 28 Hình vẽ 9: Mơ hình định (Nguồn: dzone.com) 29 tê Hình vẽ 10: Mơ hình k-NN (Nguồn: helloacm.com) 30 h Hình vẽ 11: Mơ hình mạng noron (Nguồn: ndhcuong.wordpress.com) 31 in Hình vẽ 12: Phương pháp cross-validation (Nguồn: ndhcuong.wordpress.com) 32 ̣c K Hình vẽ 13: Dữ liệu hành vi người mua sắm trực tuyến 37 Hình vẽ 14: Giao diện liệu Explorer 40 ho Hình vẽ 15: Giao diện chia liệu 41 Hình vẽ 16: Kết phân lớp tập liệu huấn luyện phương pháp Naïve Bayes 42 ại Hình vẽ 17: Kết phân lớp tập liệu kiểm thử phương pháp Nạve Bayes 42 Đ Hình vẽ 18: Kết phân lớp tập liệu huấn luyện phương pháp J48 43 Hình vẽ 19: Kết phân lớp tập liệu kiểm thử phương pháp J48 44 ươ ̀n g Hình vẽ 20: Kết phân lớp tập liệu huấn luyện phương pháp k-lân cận 44 Hình vẽ 21: Kết phân lớp tập liệu kiểm thử phương pháp k-lân cận 45 Hình vẽ 22: Kết phân lớp tập liệu huấn luyện phương pháp mạng nơ-ron 46 Tr Hình vẽ 23: Kết phân lớp tập liệu kiểm thử phương pháp mạng nơ-ron 46 Hình vẽ 24: Kết phân lớp tập liệu huấn luyện phương pháp kết hợp Bagging 47 Hình vẽ 25: Kết phân lớp tập liệu kiểm thử phương pháp kết hợp Bagging48 Hình vẽ 26: Xây dựng đường ROC 49 Hình vẽ 27: Sơ đồ ROC xây dựng mơ hình 50 SVTH: Đoàn Thị Kim Anh V - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương DANH MỤC BẢNG BIỂU Bảng 1: Ma trận hỗn hợp (confustion matrix) .33 Bảng 2: Mơ tả thuộc tính liệu 38 ́ Tr ươ ̀n g Đ ại ho ̣c K in h tê ́H uê Bảng 3: Kết phân lớp liệu kiểm thử xác 49 SVTH: Đoàn Thị Kim Anh VI - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương DANH MỤC THUẬT NGỮ Các chữ viết tắt Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt Conf Confidence Độ tin cậy GUI Graphical User Interface Giao diện đồ họa người ́ ́H uê dùng Decision tree Cây định k-NN k-nearest neighbors ROC Receiver Operating k lân cận in h tê J48 ̣c K Characteristic Support ho Supp Support Vector Machines Máy hỗ trợ vector ại SVM Độ hỗ trợ Waikato Environment for Knowledge Analysis Tr ươ ̀n g Đ Weka SVTH: Đoàn Thị Kim Anh VII - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương PHẦN I: MỞ ĐẦU Lý chọn đề tài Sự bùng nổ Internet mở kỷ nguyên cho người, kỷ ngun cơng nghệ thơng tin Internet khơng cịn khái niệm xa vời mà xem công cụ thiếu sống người Nhờ vào Internet, kiến thức khơng cịn cố định trang sách mà kiến thức có khắp ́ uê nơi người có Internet Từ đó, trí tuệ người khơng dừng lại đời ́H sống thường ngày mà làm tăng nhu cầu tiếp xúc nhiều với giới Đó ngun nhân dẫn đến tình trạng bùng nổ thơng tin Với lượng liệu ngày tê tăng kích thước lẫn số lượng, người sử dụng để khai thác nhiều lĩnh vực in h y tế, giáo dục, xã hội, khoa học đặc biệt kinh doanh trực tuyến Trên thực tế, ngày người dùng Internet để mua sắm giới tăng vọt ̣c K số lượng Sự tăng trưởng mang lại nhiều hội cho doanh nghiệp Khối lượng liệu người dùng thu thập giúp doanh nghiệp hiểu hành vi, nhu cầu ho mong muốn khách hàng phân chia khách hàng thành nhóm khác để có ại chiến lược riêng biệt Ví dụ độ tuổi, giới tính, nghề nghiệp yếu tố khác Đ khách hàng điều doanh nghiệp cần phải quan tâm Dựa vào nguồn liệu dồi doanh nghiệp có thêm hội mở rộng thị ươ ̀n g trường tiếp cận gần với khách hàng đối tác kinh doanh Mục tiêu khơng kinh doanh nước mà cịn khắp giới Nhờ lượng khách hàng Tr đối tác tiềm không ngừng tăng lên Đây vừa hội khổng lồ vừa tốn đặt nhiều khó khăn cho doanh nghiệp cách tiếp cận gần với khách hàng để nâng cao dịch vụ sản phẩm Từ liệu thu website bán hàng, doanh nghiệp thu thập ý định hành vi mua hàng người tiêu dùng Tích hợp liệu đó, doanh nghiệp thực phân lớp kiểu khách hàng khác nhằm tạo điều kiện thuận lợi để doanh nghiệp đưa sách phù hợp Tuy nhiên, dựa liệu khổng lồ khách hàng trang bán hàng trực tuyến phương pháp truyền thống không đáp ứng vấn đề SVTH: Đoàn Thị Kim Anh - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương Với thách thức địi hỏi doanh nghiệp phải sử dụng phương pháp khai thác liệu tiếp cận sâu với khách hàng Tuy nhiên, khối lượng liệu khách hàng vô lớn gây nhiều khó khăn q trình khai thác phân tích liệu Để giải vấn đề này, áp dụng phương pháp khai phá liệu để giải tốn vơ phù hợp Vì vậy, em lựa chọn đề tài “ Xây dựng mô hình phân lớp Bagging để phân lớp khách hàng từ liệu mua hàng trực tuyến” ́ Mục tiêu tổng quát: ́H - uê Mục tiêu nghiên cứu Mục tiêu tổng qt khố luận tìm hiểu kỹ thuật khai phá liệu, tê ứng dụng kỹ thuật khai phá liệu vào xây dựng mơ hình thể ý định h mua hàng trực tuyến Giúp doanh nghiệp theo dõi phân lớp khách ̣c K Mục tiêu cụ thể: + Nghiên cứu ý tưởng, định nghĩa, lịch sử hình thành phương pháp khai phá liệu ho - in hàng thành lớp khác ại + Sử dụng thành công phương pháp kết hợp Bagging để xây dựng mơ hình phân Đ lớp ươ ̀n g Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: phương pháp phân lớp Bagging dùng để phân lớp Tr khách hàng dựa vào ý định mua hàng trực tuyến khách hàng Phạm vi nghiên cứu: đề tài nghiên cứu sử dụng thuật toán phân lớp bao gồm định, k lân cận, mạng nơ – ron nhân tạo, Naïve Bayes mơ hình phân lớp Bagging Phương pháp sử dụng Phương pháp nghiên cứu tài liệu: tìm hiểu tài liệu liên quan đến đề tài để tham khảo mặt lý thuyết đối tượng nghiên cứu phục vụ cho q trình hồn thiện đề tài SVTH: Đoàn Thị Kim Anh - ́ GVHD: TS Nguyễn Đình Hoa Cương ́H Hình vẽ 15: Giao diện chia liệu uê Khóa luận tốt nghiệp h luyện có tên online_shoppers_intention_train.arff tê Tiếp tục, chọn OK → Chọn Apply → Chọn Save để lưu lại tập liệu huấn in Với tập liệu kiểm thử, chọn Undo thực thao tác tương tự tập ̣c K liệu huấn luyện, thay đổi invertSelection từ False thành True Dữ liệu kiểm thử lưu lại có tên online_shoppers_intention_test.arff Tiến hành thí nghiệm ho 3.1.4 ại 3.1.4.1 Phân lớp phương pháp Naïve Bayes Đ Phương pháp phân lớp Naïve Bayes chạy tập liệu huấn luyện Bước 1: Mở Weka → Chọn Explorer → Chọn Open File → Chọn tập liệu ươ ̀n - g kiểm thử nên q trình thực gồm có bước: online_shoppers_intention_train.arff → Chọn Classify → Chọn Choose → Tr Chọn weka → Chọn classifiers → Chọn bayes → Chọn Naïve Bayes → Chọn Start thu kết sau: SVTH: Đoàn Thị Kim Anh 41 - ́H ́ GVHD: TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp tê Hình vẽ 16: Kết phân lớp tập liệu huấn luyện phương pháp Naïve h Bayes in + Trường hợp phân lớp xác: 80.1399% - ̣c K + Trường hợp phân lớp chưa xác: 19.8601% Bước 2: Tiếp tục bước chọn Supplied test set → Chọn Set → Chọn Open ho File → Chọn tập liệu online_shoppers_intention_test.arff → Chọn Close → ại Kích chuột phải vào mơ hình chọn Re-evaluate model on current test set thu Tr ươ ̀n g Đ kết sau: Hình vẽ 17: Kết phân lớp tập liệu kiểm thử phương pháp Naïve Bayes SVTH: Đồn Thị Kim Anh 42 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương + Trường hợp phân lớp xác: 71.9789% + Trường hợp phân lớp chưa xác: 28.0211% 3.1.4.2 Phân lớp phương pháp định (J48) Phương pháp phân lớp J48 chạy tập liệu huấn luyện kiểm thử nên trình thực gồm có bước: ́ uê Bước 1: Mở Weka → Chọn Explorer → Chọn Open File → Chọn tập liệu online_shoppers_intention_train.arff → Chọn Classify → Chọn Choose → Chọn weka → Đ ại ho ̣c K in h tê ́H Chọn classifiers → Chọn trees → Chọn J48 → Chọn Start thu kết sau: ươ ̀n g Hình vẽ 18: Kết phân lớp tập liệu huấn luyện phương pháp J48 + Trường hợp phân lớp xác: 88.1488% Tr + Trường hợp phân lớp chưa xác: 11.8512% - Bước 2: Tiếp tục bước chọn Supplied test set → Chọn Set → Chọn Open File → Chọn tập liệu online_shoppers_intention_test.arff → Chọn Close → Kích chuột phải vào mơ hình chọn Re-evaluate model on current test set thu kết sau: SVTH: Đoàn Thị Kim Anh 43 - ́H ́ GVHD: TS Nguyễn Đình Hoa Cương uê Khóa luận tốt nghiệp h + Trường hợp phân lớp xác: 93.7551% tê Hình vẽ 19: Kết phân lớp tập liệu kiểm thử phương pháp J48 in + Trường hợp phân lớp chưa xác: 6.2449% ̣c K 3.1.4.3 Phân lớp phương pháp k-lân cận Phương pháp phân lớp k-lân cận chạy tập liệu huấn luyện - ho kiểm thử nên q trình thực gồm có bước: Bước 1: Mở Weka → Chọn Explorer → Chọn Open File → Chọn tập liệu ại online_shoppers_intention_train.arff → Chọn Classify → Chọn Choose → Đ Chọn weka → Chọn classifiers → Chọn lazy → Chọn IBK → Chọn K = → Tr ươ ̀n g Chọn OK → Chọn Start thu kết sau: Hình vẽ 20: Kết phân lớp tập liệu huấn luyện phương pháp k-lân cận SVTH: Đoàn Thị Kim Anh 44 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương + Trường hợp phân lớp xác: 83.8098% + Trường hợp phân lớp chưa xác: 16.1902% - Bước 2: Tiếp tục bước chọn Supplied test set → Chọn Set → Chọn Open File → Chọn tập liệu online_shoppers_intention_test.arff → Chọn Close → Kích chuột phải vào mơ hình chọn Re-evaluate model on current test set thu ́ ̣c K in h tê ́H uê kết sau: ho Hình vẽ 21: Kết phân lớp tập liệu kiểm thử phương pháp k-lân cận ại + Trường hợp phân lớp xác: 90.7948% Đ + Trường hợp phân lớp chưa xác: 9.2052% ươ ̀n g 3.1.4.4 Phân lớp phương pháp mạng nơ-ron nhân tạo Phương pháp phân lớp mạng nơ-ron nhân tạo chạy tập liệu Tr huấn luyện kiểm thử nên trình thực gồm có bước: Bước 1: Mở Weka → Chọn Explorer → Chọn Open File → Chọn tập liệu online_shoppers_intention_train.arff → Chọn Classify → Chọn Choose → Chọn weka → Chọn classifiers → Chọn functions → Chọn MultilayerPerceptron → Chọn Start thu kết sau: SVTH: Đoàn Thị Kim Anh 45 - ́H ́ GVHD: TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp tê Hình vẽ 22: Kết phân lớp tập liệu huấn luyện phương pháp mạng nơ-ron in h + Trường hợp phân lớp xác: 87.8954% - ̣c K + Trường hợp phân lớp chưa xác: 12.1046% Bước 2: Tiếp tục bước chọn Supplied test set → Chọn Set → Chọn Open ho File → Chọn tập liệu online_shoppers_intention_test.arff → Chọn Close → Kích chuột phải vào mơ hình chọn Re-evaluate model on current test set thu Tr ươ ̀n g Đ ại kết sau: Hình vẽ 23: Kết phân lớp tập liệu kiểm thử phương pháp mạng nơron nhân tạo SVTH: Đoàn Thị Kim Anh 46 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương + Trường hợp phân lớp xác: 34.4688% + Trường hợp phân lớp chưa xác: 65.5312% 3.1.4.5 Phân lớp theo phương pháp kết hợp Bagging Xây dựng mơ hình phân lớp theo phương pháp kết hợp Bagging chạy tập liệu huấn luyện kiểm thử nên trình thực gồm có bước: - Bước 1: Mở Weka → Vào Explorer → Chọn Open File → Chọn tập liệu ́ uê online_shoppers_intention_train.arff → Chọn Classify → Chọn Choose → Chọn ́H weka → Chọn classifiers → Chọn meta → Chọn Bagging → Phương pháp Tr ươ ̀n g Đ ại ho ̣c K in h tê mục classifiers chọn phương pháp J48 → Chọn Start thu kết sau: Hình vẽ 24: Kết phân lớp tập liệu huấn luyện phương pháp kết hợp Bagging + Trường hợp phân lớp xác: 88.1387% + Trường hợp phân lớp chưa xác: 11.8613% SVTH: Đồn Thị Kim Anh 47 - Khóa luận tốt nghiệp - GVHD: TS Nguyễn Đình Hoa Cương Bước 2: Tiếp tục bước chọn Supplied test set → Chọn Set → Chọn Open File → Chọn tập liệu online_shoppers_intention_test.arff → Chọn Close → Kích chuột phải vào mơ hình chọn Re-evaluate model on current test set thu ́ g Đ ại ho ̣c K in h tê ́H uê kết sau: ươ ̀n Hình vẽ 25: Kết phân lớp tập liệu kiểm thử phương pháp kết hợp Bagging Tr + Trường hợp phân lớp xác: 94.6472% + Trường hợp phân lớp chưa xác: 5.3528% 3.1.4.6 Xây dựng đường ROC Đường ROC công cụ dùng để so sánh hiệu mơ hình khác để kiểm tra độ xác mơ hình có cao hay khơng Cách xây dựng mơ hình ROC: SVTH: Đồn Thị Kim Anh 48 - tê ́H ́ GVHD: TS Nguyễn Đình Hoa Cương uê Khóa luận tốt nghiệp h Hình vẽ 26: Xây dựng đường ROC in Quá trình xây dựng đường ROC dựa tập liệu kiểm thử từ mơ hình ̣c K phương pháp phân lớp Naïve Bayes, J48, k-NN, MultilayerPerceptron mơ hình phân lớp theo phương pháp kết hợp Bagging dựa phân lớp sở J48 Dựa ho vào kết trình mang lại nhiều đánh giá có ích cho mơ hình ại 3.2 Kết thí nghiệm Đ 3.2.1 Hiệu mơ hình g Sau thí nghiệm thực hồn thành kết thể đây: ươ ̀n Bảng 3: Kết phân lớp liệu kiểm thử xác Tr Mơ hình Nạve Bayes k-NN Multilayer Bagging (K = 5) Perceptron (J48) 90.7948% 94.6472% J48 Dữ liệu Online_shippers_intention 71.9789% 93.7551% 83.8098% Trải qua thí nghiệm liệu mua hàng trực tuyến theo phương pháp Naïve Bayes, J48, k-NN, MultilayerPerceptron xây dựng mơ hình phân lớp theo phương pháp kết hợp Bagging dựa phân lớp sở J48, ta thấy phương SVTH: Đoàn Thị Kim Anh 49 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương pháp Bagging dựa phân lớp sở J48 có kết cao Kết phương pháp Bagging dựa phân lớp sở J48 đạt tỷ lệ 94.6472% Đứng vị trí sau J48 với 93.7551%, MultilayerPerceptron với 90.7948%, k-NN với 83.8098% cuối Naïve Bayes với 71.9789% Từ thấy kết phương pháp Bagging dựa phân lớp sở J48 vượt trội thực thành cơng Thí nghiệm thực từ tập liệu với 18 thuộc tính 12330 lượt theo dõi chưa đủ lớn xét khách quan không làm ảnh hưởng đến kết ́ uê 3.2.2 Đường ROC mơ hình phân lớp ́H Dựa vào sơ đồ ROC, đường ROC phương pháp Bagging dựa phân tê lớp sở J48 chiếm vị trí cao so với mơ hình phân lớp Nạve Bayes, k- Tr ươ ̀n g Đ ại ho ̣c K in Bagging thực thành công h NN, MultilayerPerceptron J48 Từ kết cho thấy phương pháp Hình vẽ 27: Sơ đồ ROC xây dựng mơ hình Ngồi đường ROC phương pháp Bagging, kết mơ hình khác chiếm vị trí cao xếp theo vị trí giảm dần J48, Naïve Bayes, IBK, MultilayerPerceptron Tuy nhiên với trường nhãn lớp mơ tả kết q trình mua sắm mua hay không mua khách hàng, phương pháp Bagging thực thành công nhất, dựa vào kết sử dụng mơ hình để phân lớp khách hàng với hành vi mua hay không mua trang bán hàng trực tuyến SVTH: Đoàn Thị Kim Anh 50 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương PHẦN III: KẾT LUẬN Kết đạt Dựa vào kết thu được, phương pháp kết hợp Bagging xây dựng thành công với mơ hình phân lớp sở định Cho thấy với liệu mô tả hành vi mua sắm trực tuyến khách hàng doanh nghiệp sử dụng phương pháp để phân lớp khách hàng mua hay không mua ́ uê Với tập liệu giới hạn số lượng mặt khách quan q trình xây ́H dựng mơ hình phân lớp phương pháp kết hợp dựa phân lớp sở tê thực thành công Sau thực xong kết thu có độ xác đáng mong đợi in h Khai phá liệu mở đường cho người chúng ta, ̣c K đường kinh doanh đôi với công nghệ Với vốn liệu thu từ giao dịch bán hàng mình, doanh nghiệp sử dụng khai phá liệu để phân tích liệu ho thực dự đốn cho tương lai Cụ thể qua q trình hồn thành thí nghiệm từ tập liệu mua sắm trực tuyến khách hàng, nhờ công cụ khai phá ại liệu phân lớp thành công lớp khách hàng Dựa vào nhãn lớp mô tả kết q Đ trình mua sắm mua hay khơng mua khách hàng, thông qua hành vi khách hàng doanh nghiệp dự đốn lượng khách hàng tương lai Đồng thời ươ ̀n g dựa vào dự đốn doanh nghiệp có sở để cải thiện sản phẩm dịch vụ giao dịch trực tuyến để đáp ứng nhu cầu khách hàng Doanh nghiệp đưa chiến lược để nâng cấp trang Web bán hàng tăng cường chương trình chăm sóc Tr khách hàng Từ tập liệu với dung lượng chưa lớn cho thấy lợi ích liệu thu có lợi cho tương lai Để thu kết xác hơn, doanh nghiệp nên thu thập liệu nhiều tốt để trình khai phá liệu thực thành công Nhờ vào khai phá liệu làm sở, khóa luận trình bày khái quát khai phá liệu, phương pháp cách tiến hành xây dựng mơ hình khai phá liệu Mục tiêu khóa luận hướng đến xây dựng mơ hình phân lớp theo phương pháp kết SVTH: Đồn Thị Kim Anh 51 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương hợp Bagging từ liệu ý định mua hàng trực tuyến để phân lớp khách hàng Khai phá liệu giúp người tận dụng cách kho liệu Sự bùng nổ thông tin thúc đẩy lĩnh vực khai phá liệu ngày phát triển vượt bậc liên tục Nhờ vào q trình nghiên cứu khóa luận mang lại cho thân nhiều kiến thức: - Sử dụng hiệu kho liệu thu từ nhiều nguồn khác khai phá tri thức từ kho liệu ́ Nắm rõ kiến thức khai phá liệu áp dụng khai phá liệu vào - ́H cơng trình nghiên cứu Sử dụng thành thạo phần mềm Weka để phục vụ cho trình khai phá liệu - Qua trình nghiên cứu nắm bắt phương pháp Bagging để xây dựng tê - in h mơ hình ̣c K Hạn chế Trải qua trình tìm hiểu khai phá liệu, lợi ích khai phá mang lại thiết ho lập thí nghiệm từ liệu thu từ thực tế, với kiến thức thân kết hợp với tìm tịi học hỏi hỗ trợ đắc lực cho trình hồn thành khóa luận Bên cạnh kết - Đ ại thu đảm bảo đáp ứng yêu cầu đặt thiếu xót điều khơng tránh khỏi: Dữ liệu dùng để xây dựng mơ hình có kích thước chưa đủ lớn nên chưa thể - ươ ̀n g khách quan ý nghĩa tốn Kiến thức thân cịn nhiều giới hạn nên trình bày khóa luận cịn nhiều Tr sai sót - Chưa ứng dụng vào chương trình thực tiễn Hướng phát triển Qua trình xây dựng thành cơng mơ hình, để đạt kết xác hơn, có tính ứng dụng thực tế phải có thêm thời gian, cơng sức để kiểm thử đánh giá Đồng thời cần tăng cường số lượng liệu có kích thước lớn xây dựng mơ hình thành cơng Từ xây dựng nhiều mơ hình áp dụng vào chương trình thực tế SVTH: Đồn Thị Kim Anh 52 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương DANH MỤC TÀI LIỆU THAM KHẢO (2018) Data Mining vs Machine Learning: What’s the Difference? NGDATA, , accessed: 10/12/2018 Hand D.J (2007) Principles of Data Mining Drug-Safety, 30(7), 621–622 Machine Learning vs Datas Mining – What Is the Difference? | Netguru Blog on Machine ́ , accessed: 10/12/2018 tê Zachman J.A (1987) A framework for information systems architecture IBM Systems Journal, 26(3), 276–292 in h Waiyamai et al - 2004 - Object-Oriented Database Mining Use of Object Ori.pdf , ̣c K 22/11/2018 accessed: ho slideshare.vn Tóm tắt luận văn Thạc sĩ: Nghiên cứu thuật toán học máy SVM ứng dụng toán khai phá ý kiến phản hồi khách hàng website|Thạc sĩ - Tiến sĩ - Cao slideshare.vn, , ươ ̀n g Tomtat.pdf , accessed: 06/12/2018 Bag S., Tiwari M.K., Chan F.T.S (2019) Predicting the consumer’s purchase intention Tr of durable goods: An attribute-level analysis Journal of Business Research, 94, 408–419 Singh J.P., Irani S., Rana N.P cộng (2017) Predicting the “helpfulness” of online consumer reviews Journal of Business Research, 70, 346–355 10 Frasquet M., Mollá A., Ruiz E (2015) Identifying patterns in channel usage across the search, purchase and post-sales stages of shopping Electronic Commerce Research and Applications, 14(6), 654–665 SVTH: Đoàn Thị Kim Anh 53 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương 11 Nakano S Kondo F.N (2018) Customer segmentation with purchase channels and media touchpoints using single source panel data Journal of Retailing and Consumer Services, 41, 142–152 12 Liao S., Chen Y., Lin Y (2011) Mining customer knowledge to implement online shopping and home delivery for hypermarkets Expert Systems with Applications, 38(4), 3982–3991 13 Vázquez S., Moz-García Ĩ., Campanella I cộng (2014) A classification of ́ uê user-generated content into consumer decision journey stages Neural Networks, 58, 68–81 ́H 14 Macías M Guitart J (2014) SLA negotiation and enforcement policies for revenue tê maximization and client classification in cloud providers Future Generation Computer Systems, 41, 19–31 in h 15 Lee S., Lee S., Park Y (2007) A prediction model for success of services in e- ̣c K commerce using decision tree: E-customer’s attitude towards online service Expert Systems with Applications, 33(3), 572–581 ho 16 Mathwick C (2002) Understanding the online consumer: A typology of online relational norms and behavior Journal of Interactive Marketing, 16(1), 40–55 ại 17 Cho S.-E Park K (2002) Empirical taxonomy of services and service products in Đ electronic commerce Electronic Commerce Research and Applications, 1(3), 339–350 g 18 Majhi R., Majhi B., Panda G (2012) Development and performance evaluation of ươ ̀n neural network classifiers for Indian internet shoppers Expert Systems with Applications, 39(2), 2112–2118 Tr 19 Zuo Y., Ali A.B.M.S., Yada K (2014) Consumer Purchasing Behavior Extraction Using Statistical Learning Theory Procedia Computer Science, 35, 1464–1473 20 Griva A., Bardaki C., Pramatari K cộng (2018) Retail business analytics: Customer visit segmentation using market basket data Expert Systems with Applications, 100, 1–16 21 Srihadi T.F., Hartoyo, Sukandar D cộng (2016) Segmentation of the tourism market for Jakarta: Classification of foreign visitors’ lifestyle typologies Tourism Management Perspectives, 19, 32–39 SVTH: Đoàn Thị Kim Anh 54 - Khóa luận tốt nghiệp GVHD: TS Nguyễn Đình Hoa Cương 22 Stưckigt G., Schiebener J., Brand M (2018) Providing sustainability information in shopping situations contributes to sustainable decision making: An empirical study with choice-based conjoint analyses Journal of Retailing and Consumer Services, 43, 188–199 23 (2017) Cây định Wikipedia tiếng Việt, , accessed: 14/12/2017 24 Overview ́ uê , ́H accessed: 15/12/2017 tê 25 MultilayerPerceptron , accessed: 15/12/2017 Tr ươ ̀n g Đ ại ho ̣c K [10]Nguyễn Hà Nam, N T (2016) Giáo trình khai phá liệu Đại học quốc gia Hà Nội SVTH: Đoàn Thị Kim Anh 55