Là một thư viện các quy trình xử lý, khai thác dữ liệu va là đối tượng nền tảng của C++, kết hợp với nhiều thuật toán Data Mining, đơn giản được viết bằng ngôn ngữ điện toán Python, ngườ
Trang 1BO GIAO DUC VA DAO TAO DAI HOC KINH TE THANH PHO HO CHI MINH
KHOA CONG NGHE THONG TIN KINH DOANH
Trang 218
MUC LUC
DANH MUC BANG
DANH MUC HINH ANH
CHUGNG 1: TONG QUAT
1.1 Giới thiệu về đề tài
1.2 Mục tiêu nghiên cứu
1.2.1 Mục tiêu tổng quát
1.2.2 Các mục tiêu cụ thé
CHUGNG 2: PHAN MEM ORANGE
2.1 Téng quan vé phan mém Orange
2.2 Cac k¥ thuat trich xuat mau
3.2 Đối tượng và phạm vi nghiên cứu
3.1.1 Đối tượng nghiên cứu
3.1.2 Phạm v1 nghiên cứu
3.3 M6 ta dir liéu e - commerce customer behavior
3.4 Phân tích đữ liệu va tiền xử lý
Trang 3CHƯƠNG 4: AP DUNG CÁC CÔNG CỤ ĐỀ GIẢI QUYẾT BÀI TOÁN 26
Bài toán I: Phân tích các yếu tố liên quan đến hành vi và thái độ mua sắm trên nền
tảng thương mại điện tử dựa trên dữ liệu lược đồ và công cụ thống kê 26
Bài toán 3: Bài toán phân cụm: Phân tích nhóm người có khả năng đổi trả sản
Trang 4Bảng I Mô tả về những thuộc tính (Attribute) của dữ liệu
Bảng 2 Điểm Silhouette tương ứng khi chạy K-Means từ 2 đến I0 cụm
Trang 5Minh họa biểu đồ Xác suất điều kiện và các thông số
Widget K-mean trén Orange
Minh họa biểu đồ Silhouette
Mô hình phân cụm K-mean trên Orange
Minh học kỹ thuật cây quyết định
Widget Tree trén Orange
Widget SVM trén Orange
Widget Logistic Regression trén Orange
Độ tuôi ảnh hưởng đên hành vĩ mua sắm của người tiêu dùng
Phương thức thanh toán ánh hưởng đến hành vi mua sắm
Giới tính ảnh hưởng đến hành vi mua sắm của người tiêu dùng
23
24
25 Tông sô tiên mua ảnh hưởng đên hành vĩ mua săm của người tiêu dùng
Mô hình phân tách dữ liệu
Mô hình phân lớp dự đoán mua sắm của người tiêu dùng
Kết quả đánh giá ma trận nhằm lẫn của SVM
Kết quả đánh giá ma trận nhằm lẫn của Logistic Regression
0 Kết quả đánh giá ma trận nhằm lẫn của Iree
28
28
29
30 30
Trang 6RỌC và AUC của các mô hình phân lớp khi biến target 1a 0
RỌC và AUC của các mô hình phân lớp khi biến target là I
Mô hình quá trình phân cụm dữ liệu
Mô hình phân cụm bằng K-Means
Kết quả K-Means và biểu d6 Silhouette Plot
Kết quả sau khi phân cụm K-Means
Biểu đồ thể hiện giới tính của người tiêu dùng ở cụm | va cum 2 Biêu đồ thê hiện sô tuôi người tiêu dùng của 2 cụm
Biểu đồ thê hiện giá hàng hóa của 2 cụm
Biểu đồ thể hiện tổng số tiền mua hàng hóa của 2 cụm
Biểu đồ thể hiện số lượng hàng hóa của 2 cụm
Biểu đồ thê hiện lần đối trả hàng hóa trong từng cụm
Biểu đồ thê hiện danh mục mua hàng của người tiêu dùng của 2 cụm40
41
42
43 44
Trang 7CHUONG 1: TONG QUAT 1.1 Lý do chọn đề tai
Tính tới năm 2007 hơn 627 triệu người trên thế giới đã mua hàng trực tuyến
(ACNielsen, 2007) Thuong mai dién tử đã trở thành một hiện tượng vì sự nhanh chóng
mà không cần tốn chi phí, Một yếu tố quan trọng ảnh hưởng đến quyết định và hành động mua sắm của người tiêu dùng là thái độ, hành vi của họ Vì thế, vấn đề phân tích hành vi của khách hàng trong nền tảng thương mại điện tử là thật sự cần thiết
Thông qua dự án, nhóm chúng em đặt ra những bài toán liên quan và với việc sử dụng các widget trên phần mềm Orange để tạo ra các mô hình dự đoán sẽ góp phần nâng
cao hiệu quả khi phân tích hành vi mua sắm trên nền thương mại điện tử mang lại nhiều lợi ích cho xã hội hiện nay, đặc biệt là các doanh nghiệp
1.2 Mục tiêu nghiên cứu
1.2.1 Mục tiêu tông quát
Mục tiêu tông quát của dự án nghiên cứu là hiểu rõ hơn về các yếu tố góp phần ảnh
hưởng đến hành vi người tiêu dùng thông qua việc thu thập và phân tích dữ liệu Từ đó đề
xuất những biện pháp thúc đẩy nhằm cải thiện năng suất cũng như là doanh thu cho doanh nghiệp
1.2.2 Các mục tiêu cụ thể
Dùng phần mềm Orange đề giải quyết và xử lý các bài toán sau:
- Bài toán l: Phân tích các yếu tố liên quan đến hành vi và thái độ mua sắm trên
nền tảng thương mại điện tử dựa trên dữ liệu lược đồ và công cụ thống kê
- Bài toán 2: Bài toán phân lớp: Dự đoán hành vi mua sắm của người tiêu dùng bài toán phân lớp
- Bài toán 3: Bài toán phân cụm: Phân tích nhóm người có khả năng đôi trả sản phâm khi mua hàng trực tuyến trên nền tảng thương mại điện tử
Trang 8CHUONG 2: PHAN MEM ORANGE 2.1 Tong quan vé phan mém Orange
Là một thư viện các quy trình xử lý, khai thác dữ liệu va là đối tượng nền tảng của C++, kết hợp với nhiều thuật toán Data Mining, đơn giản được viết bằng ngôn ngữ điện toán Python, người dùng có thê dễ dàng sử dụng mà không cần có kỹ năng mã hóa, hiện nhiệm vụ ngay từ quy trình chuẩn bị đến đánh giá mô hình mà không cần đến viết dịch
mã Phần mềm này được kết hợp nhiều tác vụ, từ đây phân tích những dữ liệu từ dạng đơn giản đến phức tạp, đọc những tài liệu ở định dạng dữ liệu gốc hay ở các định dạng dữ liệu
khác Với giao diện làm việc đẹp mắt nhờ các Widget đồ họa sinh động, làm cho người làm việc với phần mềm tìm được sự thú vị từ công việc, cũng nhờ thành phần cốt lõi
widget của Orange cung cấp các chức năng quan trọng đề xử lí và trực quan hóa dữ liệu, đến các bước đánh giá thuật toán và mô hình dự đoán Công cụ này giúp ứng dụng rộng rãi trong thông tin sinh học về giải mã bộ gen góp phần cung cấp những phương pháp giảng dạy tốt hơn về Data mining và học máy cho sinh viên các ngành sinh học, y sinh
học và tin học
Phần mềm Orange cung cấp các tiện ích tích hợp gọn nhất cho người dùng đề có thê sử dụng vào việc phân tích dữ liệu một cách dễ dàng
Data: chứa các chức năng đề rút, trích dữ liệu, biến đồi và nạp dữ liệu
Transform: dung đề lựa chọn đữ liệu theo điều kiện
Visualize: ding dé biéu dién biéu dé (chart) hỗ trợ cho việc quan sát, đánh giá dữ liệu tốt hơn
Model: bao gồm hàm máy lọc (machine learning) dùng phân lớp dữ liệu với Tree, Logistics, Regression, ŠVM,
Evaluate: gồm những phương pháp đánh giá mô hình: Test & Score, Prediction, Confusion
Unsupervised: gồm hàm máy lọc (machine learning) thực hiện gom nhóm dữ liệu như: Distance, K-means,
Trang 92.2 Các kỹ thuật trích xuất mẫu
Selected Data (Dữ liệu đã chọn): Các trường hợp được chọn từ biểu đồ
®_ Data (Dữ liệu): Dữ liệu với một cột bé sung cho biết liệu một trường hợp có được chọn hay không
e Histogram Data (Dữ liệu biểu đồ cột): Các bín và số lượng trường hợp từ biểu đồ cột
Widget Distributions hién thi phan phối giá frị của các thuộc tính rời rạc hoặc liên
tục Nếu dữ liệu chứa biến lớp, phân phối có thê được điều kiện theo lớp
Dưới đây là một số tùy chọn của widget Distributions:
® Sắp xếp theo tần suất: Sắp xếp các danh mục theo tần suất để hiền thị giá trị theo thứ tự tần suất
e_ Đặt chiều rộng bin: Điều chỉnh chiều rộng của các bin trong biéu dé
e Phân phối phù hợp: Cho phép phù hợp với các phân phối khác nhau với dữ liệu, vi dụ: phân phối Gaussian, Beta, Gamma, Rayleigh, Pareto, Exponential, Kernel density
e Chia cét theo lép: Hién thị phân phối giá tri cho các trường hợp của một lớp cụ thể e_ Hiển thị xác suất: Hiển thị xác suất của các giá trị lớp tại biến được chọn
e_ Hiền thị phân phối tích lũy: Hiển thị phân phối tích lũy của tần suất
Trong số các loại biểu đồ mà Distribution có khá năng hiển thị, biểu đồ xác suất
4
Trang 10điều kiện được xem là trọng tâm và quan trọng nhất trong việc phát hiện các mẫu trong khai phá dữ liệu Điều này là do biểu đồ xác suất điều kiện không chỉ đơn thuần là một công cụ trực quan hóa dữ liệu, mà còn là một công cụ mạnh mẽ giúp hiểu rõ hơn về mối quan hệ giữa các biên và khám phá các mâu ân đăng sau đữ liệu
Trong quá trình khai phá dữ liệu, việc hiểu được mỗi quan hệ giữa các biến là rất
quan trọng Biểu đồ xác suất điều kiện giúp phân tích cách mà sự biến đổi của một biến
có thể ảnh hưởng đến xác suất xuất hiện của một biên khác Nó giúp ta nhận ra những mô hình phức tạp và tiềm ân, từ đó làm nền tảng cho việc xây dựng các mô hình dự đoán và
phát hiện mẫu
Với khả năng biểu diễn một cách trực quan và rõ ràng, biểu đồ xác suất điều kiện giúp chúng ta xác định các biến quan trọng và mức độ tác động của chúng lẫn nhau Điều này rất hữu ích trong việc xây dựng và đánh giá các mô hình dự đoán, từ việc tìm kiếm các mẫu phô biến cho đến những mẫu hiểm gặp nhưng có ý nghĩa sâu sắc
Ung dung của biểu đỗ xác suất điều kiện cực kỳ đa dạng, từ y học đến tài chính và các lĩnh vực khác Chẳng hạn, trong y học, chúng có thể được sử dụng đề dự đoán nguy
cơ mắc các bệnh lý dựa trên các yêu tô rủi ro khác nhau Trong lĩnh vực tài chính, biểu đồ
nảy có thé giúp dự đoán rủi ro và hiệu suất đầu tư dựa trên các biến thị trường và kinh tế
Tóm lại, biểu đồ xác suất điều kiện không chỉ là một công cụ quan trọng trong việc
trực quan hóa dữ liệu mà còn là một công cụ phân tích mạnh mẽ, mang lại cái nhìn sâu
sắc và hiểu biết quan trọng cho các quyết định và chiến lược kinh doanh
Trang 11t& Détributions - Orang 0 x
Vi du trén cho thay với thuộc tính độ rộng của cánh hoa, nếu có giá trị bé hon | thi
100% đó loài Iris-setosa, nêu có giá trị từ I đến dưới I,5 thì đó khả năng rất cao là loài Iris-versicolor với hơn 97%, nếu giá trị từ 2 trở lên thì chắc chắn đó là loài lris-virginica
Qua đó thay được sự tác động của thuộc tính độ rộng cánh hoa đến loài hoa
2.2.2 K-mean
K-mean là phương pháp dạy máy tính sử dụng dữ liệu không được gắn nhãn, chưa được phân loại và cho phép thuật toán hoạt động trên dữ liệu đó mà không cần giám sát Không cần đào tạo dữ liệu trước đó, công việc của máy trong trường hợp này là sắp xếp dữ liệu chưa được sắp xếp theo các điểm tương đồng, mẫu và biến thẻ
K có nghĩa là phân cụm, gán các điểm dữ liệu cho một trong các cụm K tủy
thuộc vào khoảng cách của chúng với tâm cụm Nó bắt đầu bằng cách gán ngẫu nhiên các trọng tâm của cụm trong không gian Sau đó, mỗi điểm dữ liệu được gán cho một trong các cụm dựa trên khoảng cách của nó với tâm của cụm Sau khi gán từng điểm cho một trong các cụm, các trọng tâm của cụm mới sẽ được chỉ định Quá trình này chạy lặp di lap lại cho đến khi tìm thấy cụm tốt Trong phân tích, giả định rằng số cụm được đưa ra trước
Trang 12và phải đặt điểm vào một trong các nhóm
Trong một sô trường hợp, K không được xác định rõ ràng và chúng ta phải suy
nghĩ về số K tối ưu K Có nghĩa là phân cụm thực hiện tốt nhất dữ liệu được phân tách tốt
Khi các điểm dữ liệu chồng chéo nhau thì việc phân cụm này không phù hợp K Mean nhanh hơn so với các kỹ thuật phân cụm khác Nó cung cấp sự kết nỗi mạnh mẽ giữa các điểm dữ liệu K Có nghĩa là cụm không cung cấp thông tin rõ ràng về chất lượng của
cụm Việc gán trọng tâm cụm ban đầu khác nhau có thể dẫn đến các cụm khác nhau Ngoài ra, thuật toán K Means rất nhạy cảm với nhiều Nó có thê đã bị kẹt ở mức tối thiểu cục bộ
Thuật toán hoạt động như sau:
- Đầu tiên, chúng ta khởi tạo ngẫu nhiên k điểm, được gọi là phương tiện hoặc
- Các “điểm” được đề cập ở trên được gọi là phương tiện vì chúng là giá trị
trung bình của các mục được phân loại trong đó Đề khởi tạo các phương tiện này, chúng
ta có rất nhiều lựa chọn Một phương pháp trực quan là khởi tạo phương tiện tại các mục
ngẫu nhiên trong tập dữ liệu
Để thực hiện phân cụm K-mean, trước tiên cần phải chọn số lượng các cụm mong muốn Widget cung cấp hai phương thức: "Fixed"” cho việc tập hợp dữ liệu trong một số cụ thê của tập hợp và "Optimized" đề hiển thị điểm số nhóm cho phạm vi nhóm đã
chọn
Sau đó, để đánh giá chất lượng của việc phân cụm, widget cung cấp các chỉ số như Silhouette (khác biệt giữa khoảng cách trung bình của các yếu tô trong cùng một nhóm với khoảng cách trung bình của những yếu tổ ở các nhóm khác), Inter-cluster
Trang 13Tiếp theo là việc chọn phương pháp khởi tạo Có hai lựa chọn chính: K-Means++ va Random initialization Trong k-Means+-+, trung tam đầu tiên được chọn
ngẫu nhiên, sau đó, các trung tâm tiếp theo được chọn từ các điểm còn lại với xác suất
tương ứng với khoảng cách vuông từ trung tâm gần nhất Trong khi đó, Random initialization gán các cụm ngẫu nhiên ban đầu và sau đó cập nhật chúng với các lần lặp lại tiếp theo
Sau khi thực hiện phân cụm, w1Idget tạo ra một tập dữ liệu mới với thông tin tap
hợp được thêm vào Người dùng có thể chọn cách thêm thông tin nhóm, như lớp, tính năng hoặc thuộc tính meta, và đặt tên cho cột
Nếu chọn "Apply Automatically", widget sẽ tự động thực hiện thay đổi Nếu
không, người dùng có thể bấm "Apply" để thực hiện thay đối
Cuối cùng, người dùng có thê tạo báo cáo và kiểm tra điểm số của kết quả cụm cho các k khác nhau
Trang 14
Hình 2 4 Minh họa biếu đồ Silhouette
°
Hình 2 5 Mô hình phân cụm K-mean trên ()range
2.2.3 Tree
Cây quyết định là một trong những công cụ mạnh mẽ nhất của thuật toán học có
giám sát được sử dụng cho cả nhiệm vụ phân loại và hồi quy Nó xây dựng một cầu trúc cây giống như sơ đồ trong đó mỗi nút bên trong biểu thị một thử nghiệm trên một thuộc
tính, mỗi nhánh biểu thị kết quả của thử nghiệm và mỗi nút lá (nút đầu cuối) giữ một nhãn
lớp Nó được xây dựng bằng cách chia đệ quy dữ liệu huấn luyện thành các tập con dựa trên giá trị của các thuộc tính cho đến khi đáp ứng tiêu chí dừng, chẳng hạn như độ sâu tối
đa của cây hoặc số lượng mẫu tối thiểu cần thiết để phân tách một nút
Trang 15Trong quá trình đào tạo, thuật toán Cây quyết định chọn thuộc tinh tốt nhất đề phân chia dữ liệu dựa trên một số liệu như tạp chất entropy hoặc Gini, đo mức độ tạp chất hoặc tính ngẫu nhiên trong các tập hợp con Mục tiêu là tìm ra thuộc tính tối đa hóa việc thu được thông tin hoặc giảm tạp chất sau khi phân chia
Cây quyết định là một cấu trúc cây giống như sơ đồ trong đó mỗi nút bên trong
biểu thị tính năng, các nhánh biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật
toán Nó là một thuật toán học máy có giám sát linh hoạt , được sử dụng cho cả các vấn
đề phân loại và hồi quy Đây là một trong những thuật toán rất mạnh mẽ Và nó cũng được sử dụng trong Rừng ngẫu nhiên đề huấn luyện trên các tập hợp con dữ liệu huấn luyện khác nhau, điều này khiến rừng ngẫu nhiên trở thành một trong những thuật toán mạnh mẽ nhất trong học máy
[Terminal Node | | Terminal Node |
Hình 2 6 Minh học kỹ thuật cây quyết định
Cơ chế hoàn chỉnh có thê được giải thích rõ hơn thông qua thuật toán được đưa ra dưới đây:
- Bước I: Bắt đầu cây với nút gốc, gọi là S, chứa tập dữ liệu hoàn chỉnh
- Bước 2: Tìm thuộc tính tốt nhất trong tập dữ liệu bằng cách sử dụng Thước đo
lựa chọn thuộc tinh (ASM)
- Bước 3: Chia S5 thành các tập con chứa các giá trị có thể có của các thuộc tính tốt
10
Trang 16nhất
- Bước 4: Tạo nút cây quyết định chứa thuộc tính tốt nhất
- Bước 5: Tạo đệ quy các cây quyết định mới bằng cách sử dụng các tập hợp con
của tập dữ liệu được tạo ở bước -3 Tiếp tục quá trình này cho đến khi đạt đến giai đoạn
mà bạn không thé phan loai thém cac nut va goi nut cudi cùng là thuật toán Phân loại nút
lá và Cây hồi quy
Cây quyết định trén orange:
- Xây dựng cây nhị phân (Induce binary tree): thuật toán bắt đầu bằng việc xây
dựng một cây nhị phân Cây này sẽ được chia thành hai nút con, mỗi nút đại diện cho một phân nhóm của dữ liệu
- Min số lượng trường hợp trong lá (Min number of instances in leaves): néu
được kiểm tra, thuật toán sẽ không bao giờ xây dựng một phân nhánh nào đặt ít hơn số
lượng trường hợp đào tạo được chỉ định vào bất kỳ nhánh nào Điều này giúp đảm bảo
rằng các lá của cây có đủ dữ liệu để đưa ra dự đoán chính xác
- Cẩm chia nhồ các tập con nhỏ hơn (Do not split subsets smaller than): thuật toán cấm chia nhỏ các nút có ít hơn số lượng trường hợp được chỉ định Điều này giúp tránh việc tạo ra các nhánh quá nhỏ và không đủ thông tin dé phân loại
- Giới hạn độ sâu của cây (Limit the maximal tree depth): thuật toán giới hạn
độ sâu của cây phân loại đến số lượng nút được chỉ định Điều này giúp tránh việc cây quá phức tạp va overfitting
- Dừng khi tỷ lệ phần lớn đạt [%] (Stop when majority reaches [%]|): thuật toán dừng việc chia nhỏ các nút sau khi đạt được ngưỡng phần lớn cụ thê Điều này giúp
tôi ưu hóa cây và tránh việc tạo ra các nhánh không cân thiết
Trang 17| «h Tree - Orange ? x
¡ Name
Parameters
Induce binary tree
Limit the maximal tree depth to: 100 >
dữ liệu Siêu phăng này được xác định sao cho khoảng cách từ nó đến điểm dữ liệu gần nhất của mỗi lớp là lớn nhất, tạo ra một ranh giới phân loại rõ ràng Kích thước của siêu phẳng phụ thuộc vào số lượng đặc trưng: với hai đặc trưng, nó là một đường thăng: với
ba, nó trở thành một mặt phăng: và với nhiều hơn, nó trở nên khó hình dung
Ưu điểm của SVM:
- Hiệu suất cao trong không gian có nhiều chiều
- Hiệu quả về bộ nhớ, do chỉ sử dụng một tập hợp con của dữ liệu huấn luyện,
được gọi là vectơ hỗ trợ, trong hàm quyết định
- Linh hoạt, nhờ khả năng sử dụng nhiều loại hàm hạt nhân khác nhau, bao gồm cả
hạt nhân tùy chỉnh, đề phù hợp với các loại dữ liệu phức tạp
12
Trang 18Đề thực hiện phân lớp SVM trên phần mềm Orange, có thể làm theo các bước sau:
- Bước l: chọn loại SVM bạn muốn sử dụng, SVM hoặc v-SVM, tùy thuộc vào
chức năng giảm thiêu lỗi bạn muốn áp dụng
e g (gamma): Dat hang so gamma trong ham kernel
e c(c0): Dat hang sé cO trong ham kernel
e d (degree): Dat mic d6 của hạt nhân
- Bước 3: đặt Tolerance để xác định độ lệch cho phép từ giá trị dự kiến và chọn số
lần lặp tôi đa trong Giới hạn Lặp lại
Trang 19Hồi quy logistic là một phương pháp học máy có giám sát, chuyên dùng cho việc
phân loại Nó dự đoán xác suất của việc một quan sát cụ thể thuộc về một lớp nào đó Đây
là một công cụ thông kê mạnh mẽ, phân tích mối quan hệ giữa các biến và kết quả phân
loại
Trong hồi quy logistic, chúng ta sử dụng hàm sigmoid để chuyên đối giá trị đầu vào thành xác suất, nằm trong khoảng từ 0 đến I Điều này giúp dự đoán kết quả là nhị phân, như Có hoặc Không, 0 hoặc I, Đúng hoặc Sa1, và thay vì chỉ đưa ra giá trị cô định,
nó cung cấp một giá trị xác suất
Những điểm chính của hồi quy logistic:
14
Trang 20- Dự đoán xác suất của kết quả phân loại
- Kết quả là giá trị rời rạc, nhưng được biểu diễn dưới dạng xác suất
- Sử dụng hàm logistic 'S” để mô hình hóa và dự đoán kết quả
Giả định cơ bản của hồi quy logistic:
- Quan sát độc lập: mỗi quan sát là độc lập và không tương quan với nhau
- Biến phụ thuộc nhị phân: biến phụ thuộc phải là nhị phân, chỉ nhận hai giá trị Đối với trường hợp nhiều hơn hai lớp, hàm SofMax được áp dụng
- Mối quan hệ tuyến tính: có mối quan hệ tuyến tính giữa biến độc lập và log odds của biến phụ thuộc
- Không có ngoại lệ: tập dữ liệu không chứa ngoại lệ
- Cỡ mẫu lớn: cần có cỡ mầu đủ lớn đề mô hình là chính xác
Trang 21CHUONG 3: UNG DUNG CAC PHUONG PHAP VAO BAI TOAN THUC TE
3.1 Bài toán thực tế
Việt Nam đang dẫn đầu xu hướng mua sắm trực tuyến ở Đông Nam Á, với gần một nửa dân số tham gia vào thị trường này, tương đương với 49,3 triệu người, chiếm 41% tỷ
lệ dân số Sự tiện lợi, tiết kiệm thời gian và chỉ phí đã khiến thương mại điện tử trở nên
phô biến rộng rãi Tuy nhiên, các nền táng này đang đối mặt với thách thức lớn: khách hàng sau khi mua hàng một lần thì không quay lại Điều này đặt ra nhu cầu cấp thiết cho việc phát triển mô hình dự báo khả năng quay lại của khách hàng dựa trên dữ liệu hành vi mua sắm trước đây
Để nâng cao tỷ lệ khách hàng trung thành, các sản thương mại điện tử cần phải không chỉ cung cấp sản phẩm và dịch vụ chất lượng cao mà còn phải tạo ra trải nghiệm mua sắm cá nhân hóa và thu hút Việc áp dụng công nghệ phân tích dữ liệu và học máy đề
hiểu sâu hơn về hành vi và sở thích của khách hàng sẽ là chìa khóa để thiết kế các chiến
dịch marketing hiệu quả, từ đó tạo ra một chu kỳ mua săm tích cực, khuyến khích khách
hàng quay trở lại mua sắm nhiều lần hơn
Trong béi cảnh cạnh tranh khốc liệt của thị trường thương mại điện tử hiện nay,
việc tận dụng dữ liệu đề tối ưu hóa chiến lược kinh doanh không chỉ giúp các doanh
nghiệp duy trì sự tăng trưởng mà còn củng cô môi quan hệ với khách hàng, đồng thời tạo dựng được thương hiệu mạnh mẽ và uy tín trong lòng người tiêu dùng Một mô hình dự báo khả năng quay lại của khách hàng có thê trở thành chìa khóa để đảm bảo sự thành công lâu dài trong ngành thương mại điện tử đầy tiềm năng này
3.2 Đối tượng và phạm vi nghiên cứu
3.1.1 Đối tượng nghiên cứu
Nghiên cứu dựa trên các yếu tố ảnh hưởng đến hành vi, thái độ mua sắm người tiêu dùng, từ đó đưa ra dự đoán hướng phát triển và đưa ra giải pháp khắc phục
3.1.2 Phạm vi nghiên cứu
Số liệu được thu thập từ Kagsle
3.3 Mô tả dữ liệu e - commerce customer behavior
Thông tin dữ liệu E - Commerce Customer Behavior 172 người tiêu dùng với tổng
1052 lần mua hàng và các loại sản phâm khác nhau
16
Trang 22E - Commerce Customer Behavior cung cap cho ta cé cai nhìn toàn diện về hành vi mua sam của khách hàng trong nền tảng thương mại điện tử Mỗi khách hàng sẽ có các mục tương ứng và riêng biệt trong tập dữ liệu nhằm cung cấp thông tin về các tương tác
và các lần giao dịch của họ Đề nâng cao trải nghiệm cũng như đáp ứng được nhu cầu của
khách hàng thì các thông tim được tao ra để hỗ trợ phân tích về sở thích, mô hình và mức
độ hài lòng hỗ trợ doanh nghiệp đề từ đó đề xuất các quyết định dựa trên dữ liệu
Mục tiêu phân tích: từ bộ dữ liệu E-Commerce Customer Behavior ta có thé phan
tích cũng như dự báo xem liệu rằng khách hàng có tiếp tục mua sắm thường xuyên trên nền tảng thương mại điện tử hay không, có cơi việc mua sắm trên nền tảng này là phương thức chủ yếu và phố biến hiện nay hay không để từ đó rút ra kết luận và tìm ra hướng phát
triển mới cho phù hợp với xã hội hiện nay
Trang 23Bang 1 Mô tả về những thuộc tính (Atribute) của dữ liệu
Female = 0
Electronics = 0 Home = | Clothing = 2 Books =3
Paypal = 0 Credit Card = | Cash = 2 Crypto = 3
có = Ì
3.4 Phân tích dữ liệu và tiền xử lý
3.4.1, Phan tích cách sử dụng tập dữ liệu
Dữ liệu có những điểm cân hiệu như sau:
- Mỗi hàng đại diện cho l người mua hàng và mỗi cột là một thuộc tính của người
18
Trang 24mua hang do
- Dữ liệu thô chưa xử lý gồm 172 người tiêu dùng với tông 1052 lần mua hàng và
các loại sản phâm khác nhau
- Trong cột dữ liệu có các thuộc tính: Customer ID (Mã ID khách hàng), Customer Name (Tên hàng hàng ), Age (Độ tuổi), Gender (Giới tinh), Purchase Date
(Thời gian mua hàng), Product Category (Danh mục sản phẩm), Product Price (Giá sản pham ), Quantity (S6 luong), Total Purchase Amount (Téng s6 tién mua hang), Payment Method (Phương thức thanh toán), Returns (Đổi trả sản phẩm)
- Phương pháp tich hop dit liéu (Data Integration)
Do bộ dữ liệu đã có sẵn và đủ chất lượng, không có nhu cầu kết hợp dữ liệu từ nhiều nguồn khác nhau để tránh dữ liệu đữ báo thiêu sự đồng nhất, hợp lý Đồng thời, đồ
án chỉ tập trung vào phân tích các mô hình và dự báo sẽ không cần đến giai đoạn tích hợp
dữ liệu phức tạp
- Phương pháp chuyển đổi dit liéu (Data Transformation)
Nhóm sử dụng Excel để chuyên hóa các dữ liệu thành chữ thành số để dễ phân
tích và dự đoán
e_ Cột Gender (Giới tính) được mã hóa nhận giá trị Ì nêu là Male (Nam), nhận
giá trị 0 néu la Female (Nit)
e C6t Product Category (Danh mục sản phẩm) được mã hóa nhận giá trị 3 nếu
Books (Sách), nhận giá trị 2 nếu Clothing (Quần áo), nhận giá trị l nếu
Home (Nhà), nhận giá trị 0 néu Electronics (D6 ding dién)
e C6t Payment Method (Phuong thirc thanh toán) được mã hóa nhận giá trị 3 nếu chỉ trả bằng Crypto (Tiền mã hóa), nhận giá trị 2 nếu chỉ trả bằng Cash
Trang 25e C6t Returns (Déi trả sản phâm) được mã hóa nhận gia tri 1 nếu có đôi trả,
nhận giá trị 0 nếu không đổi trả
- Phương pháp làm sach dit liéu (Data Cleaning)
Trong quá trình tiền xử lý, Nhóm sử dụng chức năng Preprocess đề loại bỏ các dữ
liệu bị thiếu và bị nhiễu nhằm giúp mô hình hoạt động hiệu quả hơn và đưa ra dự đoán
chính xác hơn sau đó lưu vào ñle Excel “Data Preprocess.xÏsx” Sau quá trình tiền xử lý,
đữ liệu sau khi lọc là 1052 lượt mua hàng
Hinh 3.1 Qua trình làm sạch dữ liệu
- Phương pháp thu gon dit liéu (Data Reduction)
Để đám bảo hiệu suất, tiết kiệm tài nguyên trong quá trình xử ly và lưu trữ dữ liệu, nhóm sử dụng chức Data Sampler đề lấy ngẫu nhiên 30 phần trăm (%) tương đương 316 lượt mua hàng sau đó luu vao file Excel “Reduced Data.xlsx" làm dữ liệu phân tích cho các bải toán
Dé dam bảo sự tương đồng giữa dữ liệu ñle “Data Preprocess.xlsx” và ñle dữ liệu
“Reduced Data.xlsx" sau khi lây ngẫu nhiên, nhóm tiến hành kiểm tra lấy tỷ lệ đôi trả sản phẩm (Returns) so với số lần mua Kết quả là tý lệ đổi trả sản phẩm của ñle “Data
Preprocess.xlsx” 473/1052 chiếm ty lệ 44,96% và tỷ lệ đổi trả sản phẩm cua file
“Reduced Data.xlsx" 136/316 chiếm tỷ lệ 43.04%% Do sự chênh lệch giữa hai file không lớn nên nhóm sử dụng dữ liệu file “Reduced Data.xlsx" dé phan tich cac bai toan
Data Preprocess Data Sampler Data Table Reduced Reduced Data
Hình 3 2 Quá trình thu gọn dữ liệu
20
Trang 26- Xác định biến độc lập và phụ thuộc:
e Biến phụ thuộc la “Retums”
e Bién độc lập là các biên còn lại
°
Hình 3.3 Hình ảnh biến độc lập và phụ thuộc
Trang 273.5 Phân lớp dữ liệu
Giới thiệu phân lớp dữ liệu
Quá trình phân lớp đữ liệu
- Héi quy Logistic (Logistic Regression)
- Cay quyét dinh (Decision Tree)
- SVM (Support Vector Machine)
3.2.2 Kết quả mô hình
Bước 1: Xây dựng mô hình
Tiền xử lý dữ liệu Từ file E-commerce Customer Behavior đã được xử” lý, ta kéo chọn Data Sampler
Data Sampler
Tai Fixed proportion of data kéo chon lấy 30% dữ liệu từ tập” Dữ liệu hành vi khách hàng trong sàn thương mại điện tứ.xisx sau đó chọn Sample Data đê cho ra bảng dữ
liệu huân luyện mới
22
Trang 28@ Replicable (deterministic) sampling
(_) Stratify sample (when possible)
Trang 30CHUONG 4: AP DUNG CAC CONG CU DE GIAI QUYET BAI TOÁN Bài toán 1: Phân tích các yếu tố liên quan đến hành vi và thái độ mua sắm trên nền tảng thương mại điện tử dựa trên dữ liệu lược đồ và công cụ thống kê
4.1 Mô tả bài toán
Hàng sẽ đại diện cho hành vi của người tiêu dùng, cột sẽ tương ứng với các thuộc
tính ảnh hưởng đến hành vi của họ
Bài toán sẽ tìm ra một số điểm khác biệt và được thẻ hiện trong các thuộc tính giữa
tỷ lệ đối trả sản phẩm và tông số lần mua của người tiêu dùng
Các thuộc tính này sẽ được xem xét và đánh giá sự phân bồ bằng biểu đồ để xác định được mức độ ảnh hưởng của thuộc tính đến kết qua là “đôi trả sản phâm” và “tổng số lần mua”
4.2 Phương pháp thực hiện và đánh giá dữ liệu
Biểu đồ phân phối (Distributions): hiển thị phân phối các gia tri của các thuộc
tính rời rạc hoặc liên tục một cách trực quan nhất về sự chênh lệch của các đặc điểm dữ liệu dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu
Biéu dé kham (Mosaic Display): biéu diễn bảng tần suất hai chiều hoặc bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính và giúp nhận ra mỗi quan hệ
giữa các biên khác nhau một cách hiệu quả hơn