1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHÂN LOẠI HÀNH VI MUA SẮM CỦA KHÁCH HÀNG BẰNG MÔ HÌNH SVM

56 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Hành Vi Mua Sắm Của Khách Hàng Bằng Mô Hình SVM
Tác giả Nguyễn Sơn Tựng, Nguyễn Duy Việt, Nguyễn Quang Thiện
Người hướng dẫn TS. Nguyễn Mạnh Cường
Trường học Trường Đại Học Công Nghiệp Hà Nội
Chuyên ngành Khoa Học Máy Tính
Thể loại Đồ Án Chuyên Ngành
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 56
Dung lượng 1,98 MB

Nội dung

Trong lĩnh vực kinh doanh thời đại công nghệ tiên tiến, các doanh nghiệp luôn hướng đến cách làm sao để đạt được sự hài lòng cao của khách hàng, đạt được chỉ số doanh thu, lợi nhuận cao, từ đó, quyết định được sự thành công của doanh nghiệp. Để đạt được những điều như thế, một việc làm mà các doanh nghiệp không thể thiếu đó chính là: Từ những dữ liệu đã thu thập được, doanh nghiệp phải đưa ra được những phân tích, phân loại về hành vi mua hàng của các khách hàng, để có thể đưa ra được những phương pháp tối ưu, để có thể làm hài lòng khách mua hàng cũng như tối đa hoá được doanh thu và lợi nhuận của công ty. Và chính thế, đã có một bài toán được đặt ra cho phía doanh nghiệp, chính là: Dựa trên các hành vi mua hàng của khách hàng trước đó, phân loại ra được các hành vi mua sắm của khách hàng. Để giải quyết một bài toán có dữ liệu lớn như vậy, chúng ta không thể không áp dụng những thuật toán, phương pháp học máy vào trong việc xử lý dữ liệu. Và một trong những mô hình thuật toán hiệu quả để làm được việc đó chính là: Mô hình SVM (Support Vector Machine). Cùng với sự phát triển của ngành khoa học dữ liệu và các công cụ phân tích dữ liệu lớn, các doanh nghiệp đã có thể giải quyết, sử dụng triệt để được nguồn dữ liệu khổng lồ đã thu thập được từ hành vi mua sắm của khách hàng dễ hơn bao giờ hết. Từ đó, các doanh nghiệp có thể áp dụng các mô hình để phân tích dữ liệu, tạo ra sự thấu hiểu hơn với người mua sắm của mình.

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI ···🙞🙜🕮🙞🙜··· ĐỒ ÁN CHUYÊN NGÀNH NGÀNH: KHOA HỌC MÁY TÍNH ĐỀ TÀI: PHÂN LOẠI HÀNH VI MUA SẮM CỦA KHÁCH HÀNG BẰNG MƠ HÌNH SVM GVHD : TS Nguyễn Mạnh Cường Sinh viên : Nguyễn Sơn Tùng - 2020604853 Nguyễn Duy Việt – 2020606223 Nguyễn Quang Thiện - 2020604945 Mã lớp : 20231IT6052002 Hà Nội – 2023 MỤC LỤC DANH MỤC HÌNH ẢNH LỜI NÓI ĐẦU LỜI CẢM ƠN CHƯƠNG I Giới thiệu toán 1.1 Tổng quan khai phá liệu 1.1.1 Khái niệm khai phá liệu: 1.1.2 Các phương pháp khai phá liệu: 1.2 Bài toán phân loại hành vi mua sắm khách hàng 1.2.1 Bài toán 1.2.2 Giải toán 1.2.3 Các phương pháp chuẩn hóa liệu 10 1.2.4 Chuẩn hóa liệu 13 1.3 Đầu vào, đầu kỳ vọng toán 16 1.4 Ứng dụng thực tế toán 18 1.5 Khó khăn, thách thức toán phân loại hành vi mua sắm khách hàng 19 CHƯƠNG II Một số kỹ thuật sử dụng 21 2.1 Tiền xử lý liệu 21 2.1.1 Data cleaning 21 2.1.2 Label Encoding 24 2.1.3 One – Hot Encoding 25 2.2 PCA - Principal Component Analysis 27 2.3 Các kỹ thuật phân nhóm phân cụm 31 2.3.1 K – means 31 2.3.2 SVM - Support Vector Machine 32 CHƯƠNG III: THỰC NGHIỆM 35 3.1 Dữ liệu thực nghiệm 35 3.2 Khai phá trực quan hóa liệu 36 3.2.1 Khai phá liệu 36 3.2.2 Trực quan hóa liệu 38 3.3 Sử dụng mơ hình phân lớp, phân cụm 43 3.3.1 K means clustering 43 3.3.2 Phân lớp cụm Support Vector Machine 49 3.3.3 Các kết thực nghiệm 51 KẾT LUẬN 53 Tài liệu tham khảo 55 DANH MỤC HÌNH ẢNH Hình 1.1: Min-max scaling 10 Hình 1.2: Standardization - Z-Score 11 Hình 1.3: Max abs scaling 13 Hình 2.1: Sử dụng Pandas 23 Hình 2.2: Sử dụng one – hot coding 26 Hình 2.3: Ma trận hiệp phương sai 28 Hình 2.4: Tìm giá trị riêng 28 Hình 2.5: Tìm vector riêng 29 Hình 3.1: Bộ liệ 35 Hình 3.2: Đọc liêu 36 Hình 3.3: Bảng mơ tả thuộc tính 37 Hình 3.4: Kiểm tra thuộc tính có null 37 Hình 3.5: Vẽ biểu đồ histogram 38 Hình 3.6: Biểu đồ histogram 39 Hình 3.7: Biểu dồ bar chart 39 Hình 3.8: code biểu diễn biểu đồ tương quan 40 Hình 3.9: Biểu đồ tương quan (Heatmap) 40 Hình 3.10: Biểu đồ tương quan (Heatmap) 41 Hình 3.11: Code trực quan hóa liệu với biểu đồ scatter 41 Hình 3.12: Biểu đồ scatter 42 Hình 3.13: Code Annual Income Spending Score 42 Hình 3.14: Biểu đồ Annual Income Spending Score 42 Hình 3.15: Kiểm tra độ tương quan liệu 43 Hình 3.16: Chuẩn hóa đưa liệu vào mơ hình k-means 45 Hình 3.17: Thử với cụm kiểm tra 45 Hình 3.18: Giải thích trực quan hóa cụm 47 Hình 3.19: Cluster 48 Hình 3.20: Cluster 49 Hình 3.21: Code phân lớp 49 Hình 3.22: tạo train tập test 50 Hình 3.23: kiểm tra Dumny classifier 50 Hình 3.24: Kiểm tra tính xác Logistic Regression 50 Hình 3.25: Sử dụng Linear Support Vector Machine 51 Hình 3.26: Kiểm tra sử dụng Kernel có cải thiện độ xác hay khơng 51 Hình 3.27: sử dụng Dummy Classification 51 Hình 3.28: sử dụng Logistic Regression 52 Hình 3.29: sử dụng Linear Support Vector Machine 52 Hình 3.30: sử dụng thủ thuật kernel 52 LỜI NĨI ĐẦU Trong lĩnh vực kinh doanh thời đại cơng nghệ tiên tiến, doanh nghiệp hướng đến cách để đạt hài lòng cao khách hàng, đạt số doanh thu, lợi nhuận cao, từ đó, định thành cơng doanh nghiệp Để đạt điều thế, việc làm mà doanh nghiệp khơng thể thiếu là: Từ liệu thu thập được, doanh nghiệp phải đưa phân tích, phân loại hành vi mua hàng khách hàng, để đưa phương pháp tối ưu, để làm hài lịng khách mua hàng tối đa hoá doanh thu lợi nhuận cơng ty Và thế, có tốn đặt cho phía doanh nghiệp, là: Dựa hành vi mua hàng khách hàng trước đó, phân loại hành vi mua sắm khách hàng Để giải tốn có liệu lớn vậy, khơng thể khơng áp dụng thuật tốn, phương pháp học máy vào việc xử lý liệu Và mơ hình thuật tốn hiệu để làm việc là: Mơ hình SVM (Support Vector Machine) Cùng với phát triển ngành khoa học liệu cơng cụ phân tích liệu lớn, doanh nghiệp giải quyết, sử dụng triệt để nguồn liệu khổng lồ thu thập từ hành vi mua sắm khách hàng dễ hết Từ đó, doanh nghiệp áp dụng mơ hình để phân tích liệu, tạo thấu hiểu với người mua sắm Vậy, Đồ án chuyên ngành này, với để tài là: PHÂN LOẠI HÀNH VI MUA HÀNG CỦA KHÁCH HÀNG BẰNG MƠ HÌNH SVM Sẽ khám phá làm rõ chi tiết cách áp dụng mơ hình thuật tốn SVM để phân loại hành vi mua sắm khách hàng dựa thuộc tính, đặc điểm cụ thể Mục đích nghiên cứu: Tìm hiểu thuật tốn ứng dụng Phạm vi: Thử nghiệm data Consumer Behavior Đối tượng nghiên cứu: Mơ hình SVM dataset Consumer Behavior Nội dung nghiên cứu: Sử dụng kỹ thuật phân tích liệu với mơ hình SVM, sử dụng liệu vào thử nghiệm đánh giá Bài báo cáo chia thành phần cụ thể: Phần 1: Giới thiệu tốn Phần 2: Tìm hiểu kỹ thuật, mơ hình áp dụng vào tốn Phần 3: Thực nghiệm kết thực nghiệm Phần 4: Tổng kết Đồ án giúp người hiểu rõ mơ hình SVM, hạn chế cách sử dụng việc phân loại hành vi mua sắm khách hàng, để áp dụng kiến thức vào giới thực tế mảng kinh doanh tiếp thị LỜI CẢM ƠN Trước tiên với tình cảm sâu sắc chân thành nhất, cho phép chúng em gửi lời cảm ơn đến quý thầy cô trường Đại Học Công Nghiệp Hà Nội tạo cho em mơi trường học tập tốt để em bổ sung kiến thức mà thân thiếu trước tham gia vào dự án lớn nhỏ Và em đặc biệt gửi lời cảm ơn chân thành tới thầy giáo Tiến Sĩ Nguyễn Mạnh Cường – người tận tâm hướng dẫn chúng em qua buổi nói chuyện ngồi buổi học để giải đáp vướng mắc đề tài mà chúng em thực Trong trình làm đồ án, q trình làm báo cáo, khó tránh khỏi sai sót Em mong nhận ý kiến đóng góp thầy để học tập thêm kinh nghiệm để hoàn thành tốt báo cáo sau Chúng em xin chúc thầy dồi sức khỏe, vui vẻ thành công nghiên cứu tới thầy Chúng em xin trân trọng cảm ơn! Nhóm sinh viên thực Nguyễn Quang Thiện Nguyễn Sơn Tùng Nguyễn Duy Việt CHƯƠNG I Giới thiệu toán 1.1 Tổng quan khai phá liệu 1.1.1 Khái niệm khai phá liệu: Khai phá liệu trình tự động bán tự động phân tích liệu lớn để khám phá thơng tin ẩn, mơ hình, mẫu mối quan hệ tiềm ẩn liệu Mục tiêu khai phá liệu tìm tri thức, thơng tin hữu ích giá trị từ nguồn phức tạp Quá trình thường bao gồm kết hợp phương pháp học máy, thống kê, trí tuệ nhân tạo kỹ thuật khác để có thể: Tìm kiếm mẫu cấu trúc: Từ liệu lớn, phân tích để tìm mẫu, cấu trúc điểm quan trọng liệu, giúp hiểu rõ liệu mối quan hệ yếu tố Dự đốn phân loại: Xây dựng mơ hình để dự đoán phân loại liệu tương lai dựa học từ liệu có Phát thơng tin ẩn: Tìm kiếm thông tin, xu hướng mối quan hệ mà khơng thể dễ dàng nhận biết từ bên ngồi liệu Tối ưu hóa q trình: Áp dụng tri thức từ liệu để tối ưu hóa quy trình, từ quản lý tồn kho đến marketing dự đoán kì vọng khách hàng 1.1.2 Các phương pháp khai phá liệu: Phân cụm (Clustering): Từ liệu cho trước, nhóm cácdữ liệu giống thành cụm để phân loại Phân tích chuỗi thời gian (Time Series Analysis): Phân tích liệu theo thời gian để để đoán xu hướng tương lai Học máy (Machine learning): Sử dụng mơ hình máy học để dự đốn phân loại liệu Phân tích văn (Text Analysis): Phân tích rút trích thơng tin từ liệu kiểu văn (TEXT) Khai phá đồ thị (Graph mining): Phân tích quan hệ yếu tố liệu biểu diễn dạng đồ thị 1.2 Bài toán phân loại hành vi mua sắm khách hàng 1.2.1 Bài toán Bài toán phân loại hành vi mua sắm khách hàng phần quan trọng lĩnh vực tiếp thị phân tích liệu Mục tiêu tốn xác định đặc điểm nhóm đặc điểm dựa liệu khách hàng để hiểu hành vi mua sắm họ Dựa thông tin này, bạn tối ưu hóa chiến lược tiếp thị, tùy chỉnh trải nghiệm khách hàng, nâng cao hiệu suất kinh doanh 1.2.2 Giải toán Để giải tốn, ta có phương pháp sau: Thu thập liệu: Để phân loại hành vi mua sắm khách hàng, ta cần phải có nguồn liệu đủ lớn để làm điều Các liệu thu thập từ nguồn khác giao dịch từ hàng tiện lợi, siêu thị lớn nhỏ để thu thông tin cần thiết như: Lịch sử mua hàng, số lượng hàng hóa, giá trị hóa đơn, thời gian mua hàng, loại sản phẩm, thông tin đăng ký từ khách hàng độ tuổi, giới tính, sở thích hay số điện thoại nhiều liệu khác để thực phân tích đầy đủ hành vi mua hàng nhiều khách hàng khác Hình 3.10: Biểu đồ tương quan (Heatmap) Trực quan hóa liệu với biểu đồ scatter Age Annual Income Hình 3.11: Code trực quan hóa liệu với biểu đồ scatter 41 Hình 3.12: Biểu đồ scatter Annual Income Spending Score Hình 3.13: Code Annual Income Spending Score Hình 3.14: Biểu đồ Annual Income Spending Score 42 3.3 Sử dụng mô hình phân lớp, phân cụm 3.3.1 K means clustering Vì liệu ban đầu khơng có nhãn, sử dụng mơ hình cần liệu có nhãn (Vì mơ hình SVM mơ hình học có giám sát ) Chính cần phải dùng K-Means để chia liệu thành cụm riêng biệt đưa vào mơ hình SVM Kiểm tra độ tương quan liệu Hình 3.15: Kiểm tra độ tương quan liệu 43 Thông qua quan ma trận tương quan thuộc tính ‘age’, ‘income’, ‘purchase_frequency’ ‘spending’, đặc trưng khơng có tương quan mạnh, vây, sử dụng thuật toán tiêu chuẩn kèm theo giảm chiều liệu Chuẩn hóa đưa liệu vào mơ hình k-means 44 Hình 3.16: Chuẩn hóa đưa liệu vào mơ hình k-means Như thấy, điểm Silhouse cao số lượng cụm 2, ta thử với cụm kiểm tra Hình 3.17: Thử với cụm kiểm tra Giải thích trực quan hóa cụm 45 46 Hình 3.18: Giải thích trực quan hóa cụm 47 Giải thích cụm cách sử dụng tâm chúng Cluster 0: Hình 3.19: Cluster Bằng việc so sánh giá trị trung bình nhóm (Cụm) ta thấy rằng: Khách hàng với độ tuổi trung bình cao hơn, với thu nhập cao có tần suất mua hàng chi tiêu nhiều Cluster 1: 48 Hình 3.20: Cluster Vậy sau dùng phân cụm K-means, ta có cụm rõ ràng: Cụm khách hàng có độ tuổi trung bình cao hơn, thu nhập cao hơn, tần suất mua hàng chi tiêu cao hẳn so với cụm 3.3.2 Phân lớp cụm Support Vector Machine Hình 3.21: Code phân lớp 49 ● Tạo tập train tập test: Hình 3.22: tạo train tập test ● Kiểm tra trước Dummy classifier: Hình 3.23: kiểm tra Dumny classifier ● Kiểm tra tính xác Logistic Regression: Hình 3.24: Kiểm tra tính xác Logistic Regression 50 ● Sử dụng Linear Support Vector Machine: Hình 3.25: Sử dụng Linear Support Vector Machine ● Kiểm tra sử dụng Kernel có cải thiện độ xác hay khơng: Hình 3.26: Kiểm tra sử dụng Kernel có cải thiện độ xác hay khơng 3.3.3 Các kết thực nghiệm ● Độ xác sử dụng Dummy Classification là: Hình 3.27: sử dụng Dummy Classification ● Độ xác mơ hình sử dụng Logistic Regression là: 51 Hình 3.28: sử dụng Logistic Regression ● Độ xác mơ hình sử dụng Linear Support Vector Machine là: Hình 3.29: sử dụng Linear Support Vector Machine ● Độ xác sau sử dụng thủ thuật kernel là: Hình 3.30: sử dụng thủ thuật kernel 52 KẾT LUẬN Việc hoàn thành đồ án chuyên ngành không đánh dấu kết thúc giai đoạn, mà bước quan trọng hành trình học tập phát triển cá nhân thành viên nhóm thực đồ án Qua trình nghiên cứu thực đồ án, chúng em có hội áp dụng kiến thức học vào thực trải nghiệm sâu lĩnh vực chuyên ngành Ngồi kiến thức chun ngành, chúng em cịn học kỹ làm việc nhóm, làm việc độc lập, quản lý thời gian số kỹ mềm khác Đây chắn hành trang quý báu chúng em nghiệp tương lai Nhóm chúng em tìm hiểu, nghiên cứu, ứng dụng mơ hình học máy tận dụng nghiên cứu có sẵn xử lý, phân tích liệu để hồn thành đề tài Phân tích hành vi mua sắm khách hàng mơ hình Support Vector Machine Dưới hướng dẫn thầy Nguyễn Mạnh Cường, kiến thức dẫn thầy giúp chúng em tự xây dựng nâng cao chất lượng mơ hình phân tích liệu Mơ hình phân loại hành vi mua sắm khách hàng với độ xác lên tới 97-99% Tuy nhiên mơ hình phân loại với quy mơ liệu nhỏ hoảng 1000 thông tin khách hàng với lượng thông tin ỏi, số q nhỏ để hệ thống “Phân tích liệu khách hàng chuyên nghiệp” Từ khó khăn thách thức ấy, chúng em học tâm kỹ giải vấn đề Những học tiếp tục hỗ trợ chúng em tương lai, để chúng em 53 phát triển mơ hình lên thêm mơ hình tới mà chúng em nghiên cứu Cuối cùng, chúng em hy vọng đồ án không dừng lại việc lý thuyết mơ hình nhỏ, chúng em cố gắng phát triển mơ hình lên để xử lý liệu lớn để áp dụng thực tế đóng góp phần nhỏ vào phát triển tiến ngành công nghiệp, mang lại giá trị ứng dụng 54 Tài liệu tham khảo [1] Tổng quan thuật toán SUPPORT VECTOR MACHINE URL:https://viblo.asia/p/gioi-thieu-ve-support-vector-machine-svm6J3ZgPVElmB, lần truy cập cuối: 05/12/2023 [2] Machine Learning URL: https://machinelearningcoban.com/2017/04/09/smv/, lần truy cập cuối: 05/12/2023 [3] KAGGLE URL:https://www.kaggle.com/datasets/goyaladi/customer-spendingdataset/data, lần truy cập cuối: 05/12/2023 55

Ngày đăng: 12/01/2024, 22:12

w