báo cáo đồ án học phần khoa học dữ liệu đề tài phân tích hành vi của khách hàng trên nền tảng thương mại điện tử bằng phần mềm orange

Là một thư viện các quy trình xử lý, khai thác dữ liệu va là đối tượng nền tảng của C++, kết hợp với nhiều thuật toán Data Mining, đơn giản được viết bằng ngôn ngữ điện toán Python, ngườ

Trang 1

BO GIAO DUC VA DAO TAO DAI HOC KINH TE THANH PHO HO CHI MINH

KHOA CONG NGHE THONG TIN KINH DOANH

Trang 2

18

MUC LUC

DANH MUC BANG

DANH MUC HINH ANH

CHUGNG 1: TONG QUAT

1.1 Giới thiệu về đề tài

1.2 Mục tiêu nghiên cứu

1.2.1 Mục tiêu tổng quát

1.2.2 Các mục tiêu cụ thé

CHUGNG 2: PHAN MEM ORANGE

2.1 Téng quan vé phan mém Orange

2.2 Cac k¥ thuat trich xuat mau

3.2 Đối tượng và phạm vi nghiên cứu

3.1.1 Đối tượng nghiên cứu

3.1.2 Phạm v1 nghiên cứu

3.3 M6 ta dir liéu e - commerce customer behavior

3.4 Phân tích đữ liệu va tiền xử lý

Trang 3

CHƯƠNG 4: AP DUNG CÁC CÔNG CỤ ĐỀ GIẢI QUYẾT BÀI TOÁN 26

Bài toán I: Phân tích các yếu tố liên quan đến hành vi và thái độ mua sắm trên nền

tảng thương mại điện tử dựa trên dữ liệu lược đồ và công cụ thống kê 26

Bài toán 3: Bài toán phân cụm: Phân tích nhóm người có khả năng đổi trả sản

Trang 4

Bảng I Mô tả về những thuộc tính (Attribute) của dữ liệu

Bảng 2 Điểm Silhouette tương ứng khi chạy K-Means từ 2 đến I0 cụm

Trang 5

Minh họa biểu đồ Xác suất điều kiện và các thông số

Widget K-mean trén Orange

Minh họa biểu đồ Silhouette

Mô hình phân cụm K-mean trên Orange

Minh học kỹ thuật cây quyết định

Widget Tree trén Orange

Widget SVM trén Orange

Widget Logistic Regression trén Orange

Độ tuôi ảnh hưởng đên hành vĩ mua sắm của người tiêu dùng

Phương thức thanh toán ánh hưởng đến hành vi mua sắm

Giới tính ảnh hưởng đến hành vi mua sắm của người tiêu dùng

23

24

25 Tông sô tiên mua ảnh hưởng đên hành vĩ mua săm của người tiêu dùng

Mô hình phân tách dữ liệu

Mô hình phân lớp dự đoán mua sắm của người tiêu dùng

Kết quả đánh giá ma trận nhằm lẫn của SVM

Kết quả đánh giá ma trận nhằm lẫn của Logistic Regression

0 Kết quả đánh giá ma trận nhằm lẫn của Iree

28

29

30 30

Trang 6

RỌC và AUC của các mô hình phân lớp khi biến target 1a 0

RỌC và AUC của các mô hình phân lớp khi biến target là I

Mô hình quá trình phân cụm dữ liệu

Mô hình phân cụm bằng K-Means

Kết quả K-Means và biểu d6 Silhouette Plot

Kết quả sau khi phân cụm K-Means

Biểu đồ thể hiện giới tính của người tiêu dùng ở cụm | va cum 2 Biêu đồ thê hiện sô tuôi người tiêu dùng của 2 cụm

Biểu đồ thê hiện giá hàng hóa của 2 cụm

Biểu đồ thể hiện tổng số tiền mua hàng hóa của 2 cụm

Biểu đồ thể hiện số lượng hàng hóa của 2 cụm

Biểu đồ thê hiện lần đối trả hàng hóa trong từng cụm

Biểu đồ thê hiện danh mục mua hàng của người tiêu dùng của 2 cụm40

41

42

43 44

Trang 7

CHUONG 1: TONG QUAT 1.1 Lý do chọn đề tai

Tính tới năm 2007 hơn 627 triệu người trên thế giới đã mua hàng trực tuyến

(ACNielsen, 2007) Thuong mai dién tử đã trở thành một hiện tượng vì sự nhanh chóng

mà không cần tốn chi phí, Một yếu tố quan trọng ảnh hưởng đến quyết định và hành động mua sắm của người tiêu dùng là thái độ, hành vi của họ Vì thế, vấn đề phân tích hành vi của khách hàng trong nền tảng thương mại điện tử là thật sự cần thiết

Thông qua dự án, nhóm chúng em đặt ra những bài toán liên quan và với việc sử dụng các widget trên phần mềm Orange để tạo ra các mô hình dự đoán sẽ góp phần nâng

cao hiệu quả khi phân tích hành vi mua sắm trên nền thương mại điện tử mang lại nhiều lợi ích cho xã hội hiện nay, đặc biệt là các doanh nghiệp

1.2 Mục tiêu nghiên cứu

1.2.1 Mục tiêu tông quát

Mục tiêu tông quát của dự án nghiên cứu là hiểu rõ hơn về các yếu tố góp phần ảnh

hưởng đến hành vi người tiêu dùng thông qua việc thu thập và phân tích dữ liệu Từ đó đề

xuất những biện pháp thúc đẩy nhằm cải thiện năng suất cũng như là doanh thu cho doanh nghiệp

1.2.2 Các mục tiêu cụ thể

Dùng phần mềm Orange đề giải quyết và xử lý các bài toán sau:

- Bài toán l: Phân tích các yếu tố liên quan đến hành vi và thái độ mua sắm trên

nền tảng thương mại điện tử dựa trên dữ liệu lược đồ và công cụ thống kê

- Bài toán 2: Bài toán phân lớp: Dự đoán hành vi mua sắm của người tiêu dùng bài toán phân lớp

- Bài toán 3: Bài toán phân cụm: Phân tích nhóm người có khả năng đôi trả sản phâm khi mua hàng trực tuyến trên nền tảng thương mại điện tử

Trang 8

CHUONG 2: PHAN MEM ORANGE 2.1 Tong quan vé phan mém Orange

Là một thư viện các quy trình xử lý, khai thác dữ liệu va là đối tượng nền tảng của C++, kết hợp với nhiều thuật toán Data Mining, đơn giản được viết bằng ngôn ngữ điện toán Python, người dùng có thê dễ dàng sử dụng mà không cần có kỹ năng mã hóa, hiện nhiệm vụ ngay từ quy trình chuẩn bị đến đánh giá mô hình mà không cần đến viết dịch

mã Phần mềm này được kết hợp nhiều tác vụ, từ đây phân tích những dữ liệu từ dạng đơn giản đến phức tạp, đọc những tài liệu ở định dạng dữ liệu gốc hay ở các định dạng dữ liệu

khác Với giao diện làm việc đẹp mắt nhờ các Widget đồ họa sinh động, làm cho người làm việc với phần mềm tìm được sự thú vị từ công việc, cũng nhờ thành phần cốt lõi

widget của Orange cung cấp các chức năng quan trọng đề xử lí và trực quan hóa dữ liệu, đến các bước đánh giá thuật toán và mô hình dự đoán Công cụ này giúp ứng dụng rộng rãi trong thông tin sinh học về giải mã bộ gen góp phần cung cấp những phương pháp giảng dạy tốt hơn về Data mining và học máy cho sinh viên các ngành sinh học, y sinh

học và tin học

Phần mềm Orange cung cấp các tiện ích tích hợp gọn nhất cho người dùng đề có thê sử dụng vào việc phân tích dữ liệu một cách dễ dàng

Data: chứa các chức năng đề rút, trích dữ liệu, biến đồi và nạp dữ liệu

Transform: dung đề lựa chọn đữ liệu theo điều kiện

Visualize: ding dé biéu dién biéu dé (chart) hỗ trợ cho việc quan sát, đánh giá dữ liệu tốt hơn

Model: bao gồm hàm máy lọc (machine learning) dùng phân lớp dữ liệu với Tree, Logistics, Regression, ŠVM,

Evaluate: gồm những phương pháp đánh giá mô hình: Test & Score, Prediction, Confusion

Unsupervised: gồm hàm máy lọc (machine learning) thực hiện gom nhóm dữ liệu như: Distance, K-means,

Trang 9

2.2 Các kỹ thuật trích xuất mẫu

Selected Data (Dữ liệu đã chọn): Các trường hợp được chọn từ biểu đồ

®_ Data (Dữ liệu): Dữ liệu với một cột bé sung cho biết liệu một trường hợp có được chọn hay không

e Histogram Data (Dữ liệu biểu đồ cột): Các bín và số lượng trường hợp từ biểu đồ cột

Widget Distributions hién thi phan phối giá frị của các thuộc tính rời rạc hoặc liên

tục Nếu dữ liệu chứa biến lớp, phân phối có thê được điều kiện theo lớp

Dưới đây là một số tùy chọn của widget Distributions:

® Sắp xếp theo tần suất: Sắp xếp các danh mục theo tần suất để hiền thị giá trị theo thứ tự tần suất

e_ Đặt chiều rộng bin: Điều chỉnh chiều rộng của các bin trong biéu dé

e Phân phối phù hợp: Cho phép phù hợp với các phân phối khác nhau với dữ liệu, vi dụ: phân phối Gaussian, Beta, Gamma, Rayleigh, Pareto, Exponential, Kernel density

e Chia cét theo lép: Hién thị phân phối giá tri cho các trường hợp của một lớp cụ thể e_ Hiển thị xác suất: Hiển thị xác suất của các giá trị lớp tại biến được chọn

e_ Hiền thị phân phối tích lũy: Hiển thị phân phối tích lũy của tần suất

Trong số các loại biểu đồ mà Distribution có khá năng hiển thị, biểu đồ xác suất

4

Trang 10

điều kiện được xem là trọng tâm và quan trọng nhất trong việc phát hiện các mẫu trong khai phá dữ liệu Điều này là do biểu đồ xác suất điều kiện không chỉ đơn thuần là một công cụ trực quan hóa dữ liệu, mà còn là một công cụ mạnh mẽ giúp hiểu rõ hơn về mối quan hệ giữa các biên và khám phá các mâu ân đăng sau đữ liệu

Trong quá trình khai phá dữ liệu, việc hiểu được mỗi quan hệ giữa các biến là rất

quan trọng Biểu đồ xác suất điều kiện giúp phân tích cách mà sự biến đổi của một biến

có thể ảnh hưởng đến xác suất xuất hiện của một biên khác Nó giúp ta nhận ra những mô hình phức tạp và tiềm ân, từ đó làm nền tảng cho việc xây dựng các mô hình dự đoán và

phát hiện mẫu

Với khả năng biểu diễn một cách trực quan và rõ ràng, biểu đồ xác suất điều kiện giúp chúng ta xác định các biến quan trọng và mức độ tác động của chúng lẫn nhau Điều này rất hữu ích trong việc xây dựng và đánh giá các mô hình dự đoán, từ việc tìm kiếm các mẫu phô biến cho đến những mẫu hiểm gặp nhưng có ý nghĩa sâu sắc

Ung dung của biểu đỗ xác suất điều kiện cực kỳ đa dạng, từ y học đến tài chính và các lĩnh vực khác Chẳng hạn, trong y học, chúng có thể được sử dụng đề dự đoán nguy

cơ mắc các bệnh lý dựa trên các yêu tô rủi ro khác nhau Trong lĩnh vực tài chính, biểu đồ

nảy có thé giúp dự đoán rủi ro và hiệu suất đầu tư dựa trên các biến thị trường và kinh tế

Tóm lại, biểu đồ xác suất điều kiện không chỉ là một công cụ quan trọng trong việc

trực quan hóa dữ liệu mà còn là một công cụ phân tích mạnh mẽ, mang lại cái nhìn sâu

sắc và hiểu biết quan trọng cho các quyết định và chiến lược kinh doanh

Trang 11

t& Détributions - Orang 0 x

Vi du trén cho thay với thuộc tính độ rộng của cánh hoa, nếu có giá trị bé hon | thi

100% đó loài Iris-setosa, nêu có giá trị từ I đến dưới I,5 thì đó khả năng rất cao là loài Iris-versicolor với hơn 97%, nếu giá trị từ 2 trở lên thì chắc chắn đó là loài lris-virginica

Qua đó thay được sự tác động của thuộc tính độ rộng cánh hoa đến loài hoa

2.2.2 K-mean

K-mean là phương pháp dạy máy tính sử dụng dữ liệu không được gắn nhãn, chưa được phân loại và cho phép thuật toán hoạt động trên dữ liệu đó mà không cần giám sát Không cần đào tạo dữ liệu trước đó, công việc của máy trong trường hợp này là sắp xếp dữ liệu chưa được sắp xếp theo các điểm tương đồng, mẫu và biến thẻ

K có nghĩa là phân cụm, gán các điểm dữ liệu cho một trong các cụm K tủy

thuộc vào khoảng cách của chúng với tâm cụm Nó bắt đầu bằng cách gán ngẫu nhiên các trọng tâm của cụm trong không gian Sau đó, mỗi điểm dữ liệu được gán cho một trong các cụm dựa trên khoảng cách của nó với tâm của cụm Sau khi gán từng điểm cho một trong các cụm, các trọng tâm của cụm mới sẽ được chỉ định Quá trình này chạy lặp di lap lại cho đến khi tìm thấy cụm tốt Trong phân tích, giả định rằng số cụm được đưa ra trước

Trang 12

và phải đặt điểm vào một trong các nhóm

Trong một sô trường hợp, K không được xác định rõ ràng và chúng ta phải suy

nghĩ về số K tối ưu K Có nghĩa là phân cụm thực hiện tốt nhất dữ liệu được phân tách tốt

Khi các điểm dữ liệu chồng chéo nhau thì việc phân cụm này không phù hợp K Mean nhanh hơn so với các kỹ thuật phân cụm khác Nó cung cấp sự kết nỗi mạnh mẽ giữa các điểm dữ liệu K Có nghĩa là cụm không cung cấp thông tin rõ ràng về chất lượng của

cụm Việc gán trọng tâm cụm ban đầu khác nhau có thể dẫn đến các cụm khác nhau Ngoài ra, thuật toán K Means rất nhạy cảm với nhiều Nó có thê đã bị kẹt ở mức tối thiểu cục bộ

Thuật toán hoạt động như sau:

- Đầu tiên, chúng ta khởi tạo ngẫu nhiên k điểm, được gọi là phương tiện hoặc

- Các “điểm” được đề cập ở trên được gọi là phương tiện vì chúng là giá trị

trung bình của các mục được phân loại trong đó Đề khởi tạo các phương tiện này, chúng

ta có rất nhiều lựa chọn Một phương pháp trực quan là khởi tạo phương tiện tại các mục

ngẫu nhiên trong tập dữ liệu

Để thực hiện phân cụm K-mean, trước tiên cần phải chọn số lượng các cụm mong muốn Widget cung cấp hai phương thức: "Fixed"” cho việc tập hợp dữ liệu trong một số cụ thê của tập hợp và "Optimized" đề hiển thị điểm số nhóm cho phạm vi nhóm đã

chọn

Sau đó, để đánh giá chất lượng của việc phân cụm, widget cung cấp các chỉ số như Silhouette (khác biệt giữa khoảng cách trung bình của các yếu tô trong cùng một nhóm với khoảng cách trung bình của những yếu tổ ở các nhóm khác), Inter-cluster

Trang 13

Tiếp theo là việc chọn phương pháp khởi tạo Có hai lựa chọn chính: K-Means++ va Random initialization Trong k-Means+-+, trung tam đầu tiên được chọn

ngẫu nhiên, sau đó, các trung tâm tiếp theo được chọn từ các điểm còn lại với xác suất

tương ứng với khoảng cách vuông từ trung tâm gần nhất Trong khi đó, Random initialization gán các cụm ngẫu nhiên ban đầu và sau đó cập nhật chúng với các lần lặp lại tiếp theo

Sau khi thực hiện phân cụm, w1Idget tạo ra một tập dữ liệu mới với thông tin tap

hợp được thêm vào Người dùng có thể chọn cách thêm thông tin nhóm, như lớp, tính năng hoặc thuộc tính meta, và đặt tên cho cột

Nếu chọn "Apply Automatically", widget sẽ tự động thực hiện thay đổi Nếu

không, người dùng có thể bấm "Apply" để thực hiện thay đối

Cuối cùng, người dùng có thê tạo báo cáo và kiểm tra điểm số của kết quả cụm cho các k khác nhau

Trang 14

Hình 2 4 Minh họa biếu đồ Silhouette

°

Hình 2 5 Mô hình phân cụm K-mean trên ()range

2.2.3 Tree

Cây quyết định là một trong những công cụ mạnh mẽ nhất của thuật toán học có

giám sát được sử dụng cho cả nhiệm vụ phân loại và hồi quy Nó xây dựng một cầu trúc cây giống như sơ đồ trong đó mỗi nút bên trong biểu thị một thử nghiệm trên một thuộc

tính, mỗi nhánh biểu thị kết quả của thử nghiệm và mỗi nút lá (nút đầu cuối) giữ một nhãn

lớp Nó được xây dựng bằng cách chia đệ quy dữ liệu huấn luyện thành các tập con dựa trên giá trị của các thuộc tính cho đến khi đáp ứng tiêu chí dừng, chẳng hạn như độ sâu tối

đa của cây hoặc số lượng mẫu tối thiểu cần thiết để phân tách một nút

Trang 15

Trong quá trình đào tạo, thuật toán Cây quyết định chọn thuộc tinh tốt nhất đề phân chia dữ liệu dựa trên một số liệu như tạp chất entropy hoặc Gini, đo mức độ tạp chất hoặc tính ngẫu nhiên trong các tập hợp con Mục tiêu là tìm ra thuộc tính tối đa hóa việc thu được thông tin hoặc giảm tạp chất sau khi phân chia

Cây quyết định là một cấu trúc cây giống như sơ đồ trong đó mỗi nút bên trong

biểu thị tính năng, các nhánh biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật

toán Nó là một thuật toán học máy có giám sát linh hoạt , được sử dụng cho cả các vấn

đề phân loại và hồi quy Đây là một trong những thuật toán rất mạnh mẽ Và nó cũng được sử dụng trong Rừng ngẫu nhiên đề huấn luyện trên các tập hợp con dữ liệu huấn luyện khác nhau, điều này khiến rừng ngẫu nhiên trở thành một trong những thuật toán mạnh mẽ nhất trong học máy

[Terminal Node | | Terminal Node |

Hình 2 6 Minh học kỹ thuật cây quyết định

Cơ chế hoàn chỉnh có thê được giải thích rõ hơn thông qua thuật toán được đưa ra dưới đây:

- Bước I: Bắt đầu cây với nút gốc, gọi là S, chứa tập dữ liệu hoàn chỉnh

- Bước 2: Tìm thuộc tính tốt nhất trong tập dữ liệu bằng cách sử dụng Thước đo

lựa chọn thuộc tinh (ASM)

- Bước 3: Chia S5 thành các tập con chứa các giá trị có thể có của các thuộc tính tốt

10

Trang 16

nhất

- Bước 4: Tạo nút cây quyết định chứa thuộc tính tốt nhất

- Bước 5: Tạo đệ quy các cây quyết định mới bằng cách sử dụng các tập hợp con

của tập dữ liệu được tạo ở bước -3 Tiếp tục quá trình này cho đến khi đạt đến giai đoạn

mà bạn không thé phan loai thém cac nut va goi nut cudi cùng là thuật toán Phân loại nút

lá và Cây hồi quy

Cây quyết định trén orange:

- Xây dựng cây nhị phân (Induce binary tree): thuật toán bắt đầu bằng việc xây

dựng một cây nhị phân Cây này sẽ được chia thành hai nút con, mỗi nút đại diện cho một phân nhóm của dữ liệu

- Min số lượng trường hợp trong lá (Min number of instances in leaves): néu

được kiểm tra, thuật toán sẽ không bao giờ xây dựng một phân nhánh nào đặt ít hơn số

lượng trường hợp đào tạo được chỉ định vào bất kỳ nhánh nào Điều này giúp đảm bảo

rằng các lá của cây có đủ dữ liệu để đưa ra dự đoán chính xác

- Cẩm chia nhồ các tập con nhỏ hơn (Do not split subsets smaller than): thuật toán cấm chia nhỏ các nút có ít hơn số lượng trường hợp được chỉ định Điều này giúp tránh việc tạo ra các nhánh quá nhỏ và không đủ thông tin dé phân loại

- Giới hạn độ sâu của cây (Limit the maximal tree depth): thuật toán giới hạn

độ sâu của cây phân loại đến số lượng nút được chỉ định Điều này giúp tránh việc cây quá phức tạp va overfitting

- Dừng khi tỷ lệ phần lớn đạt [%] (Stop when majority reaches [%]|): thuật toán dừng việc chia nhỏ các nút sau khi đạt được ngưỡng phần lớn cụ thê Điều này giúp

tôi ưu hóa cây và tránh việc tạo ra các nhánh không cân thiết

Trang 17

| «h Tree - Orange ? x

¡ Name

Parameters

Induce binary tree

Limit the maximal tree depth to: 100 >

dữ liệu Siêu phăng này được xác định sao cho khoảng cách từ nó đến điểm dữ liệu gần nhất của mỗi lớp là lớn nhất, tạo ra một ranh giới phân loại rõ ràng Kích thước của siêu phẳng phụ thuộc vào số lượng đặc trưng: với hai đặc trưng, nó là một đường thăng: với

ba, nó trở thành một mặt phăng: và với nhiều hơn, nó trở nên khó hình dung

Ưu điểm của SVM:

- Hiệu suất cao trong không gian có nhiều chiều

- Hiệu quả về bộ nhớ, do chỉ sử dụng một tập hợp con của dữ liệu huấn luyện,

được gọi là vectơ hỗ trợ, trong hàm quyết định

- Linh hoạt, nhờ khả năng sử dụng nhiều loại hàm hạt nhân khác nhau, bao gồm cả

hạt nhân tùy chỉnh, đề phù hợp với các loại dữ liệu phức tạp

12

Trang 18

Đề thực hiện phân lớp SVM trên phần mềm Orange, có thể làm theo các bước sau:

- Bước l: chọn loại SVM bạn muốn sử dụng, SVM hoặc v-SVM, tùy thuộc vào

chức năng giảm thiêu lỗi bạn muốn áp dụng

e g (gamma): Dat hang so gamma trong ham kernel

e c(c0): Dat hang sé cO trong ham kernel

e d (degree): Dat mic d6 của hạt nhân

- Bước 3: đặt Tolerance để xác định độ lệch cho phép từ giá trị dự kiến và chọn số

lần lặp tôi đa trong Giới hạn Lặp lại

Trang 19

Hồi quy logistic là một phương pháp học máy có giám sát, chuyên dùng cho việc

phân loại Nó dự đoán xác suất của việc một quan sát cụ thể thuộc về một lớp nào đó Đây

là một công cụ thông kê mạnh mẽ, phân tích mối quan hệ giữa các biến và kết quả phân

loại

Trong hồi quy logistic, chúng ta sử dụng hàm sigmoid để chuyên đối giá trị đầu vào thành xác suất, nằm trong khoảng từ 0 đến I Điều này giúp dự đoán kết quả là nhị phân, như Có hoặc Không, 0 hoặc I, Đúng hoặc Sa1, và thay vì chỉ đưa ra giá trị cô định,

nó cung cấp một giá trị xác suất

Những điểm chính của hồi quy logistic:

14

Trang 20

- Dự đoán xác suất của kết quả phân loại

- Kết quả là giá trị rời rạc, nhưng được biểu diễn dưới dạng xác suất

- Sử dụng hàm logistic 'S” để mô hình hóa và dự đoán kết quả

Giả định cơ bản của hồi quy logistic:

- Quan sát độc lập: mỗi quan sát là độc lập và không tương quan với nhau

- Biến phụ thuộc nhị phân: biến phụ thuộc phải là nhị phân, chỉ nhận hai giá trị Đối với trường hợp nhiều hơn hai lớp, hàm SofMax được áp dụng

- Mối quan hệ tuyến tính: có mối quan hệ tuyến tính giữa biến độc lập và log odds của biến phụ thuộc

- Không có ngoại lệ: tập dữ liệu không chứa ngoại lệ

- Cỡ mẫu lớn: cần có cỡ mầu đủ lớn đề mô hình là chính xác

Trang 21

CHUONG 3: UNG DUNG CAC PHUONG PHAP VAO BAI TOAN THUC TE

3.1 Bài toán thực tế

Việt Nam đang dẫn đầu xu hướng mua sắm trực tuyến ở Đông Nam Á, với gần một nửa dân số tham gia vào thị trường này, tương đương với 49,3 triệu người, chiếm 41% tỷ

lệ dân số Sự tiện lợi, tiết kiệm thời gian và chỉ phí đã khiến thương mại điện tử trở nên

phô biến rộng rãi Tuy nhiên, các nền táng này đang đối mặt với thách thức lớn: khách hàng sau khi mua hàng một lần thì không quay lại Điều này đặt ra nhu cầu cấp thiết cho việc phát triển mô hình dự báo khả năng quay lại của khách hàng dựa trên dữ liệu hành vi mua sắm trước đây

Để nâng cao tỷ lệ khách hàng trung thành, các sản thương mại điện tử cần phải không chỉ cung cấp sản phẩm và dịch vụ chất lượng cao mà còn phải tạo ra trải nghiệm mua sắm cá nhân hóa và thu hút Việc áp dụng công nghệ phân tích dữ liệu và học máy đề

hiểu sâu hơn về hành vi và sở thích của khách hàng sẽ là chìa khóa để thiết kế các chiến

dịch marketing hiệu quả, từ đó tạo ra một chu kỳ mua săm tích cực, khuyến khích khách

hàng quay trở lại mua sắm nhiều lần hơn

Trong béi cảnh cạnh tranh khốc liệt của thị trường thương mại điện tử hiện nay,

việc tận dụng dữ liệu đề tối ưu hóa chiến lược kinh doanh không chỉ giúp các doanh

nghiệp duy trì sự tăng trưởng mà còn củng cô môi quan hệ với khách hàng, đồng thời tạo dựng được thương hiệu mạnh mẽ và uy tín trong lòng người tiêu dùng Một mô hình dự báo khả năng quay lại của khách hàng có thê trở thành chìa khóa để đảm bảo sự thành công lâu dài trong ngành thương mại điện tử đầy tiềm năng này

3.2 Đối tượng và phạm vi nghiên cứu

3.1.1 Đối tượng nghiên cứu

Nghiên cứu dựa trên các yếu tố ảnh hưởng đến hành vi, thái độ mua sắm người tiêu dùng, từ đó đưa ra dự đoán hướng phát triển và đưa ra giải pháp khắc phục

3.1.2 Phạm vi nghiên cứu

Số liệu được thu thập từ Kagsle

3.3 Mô tả dữ liệu e - commerce customer behavior

Thông tin dữ liệu E - Commerce Customer Behavior 172 người tiêu dùng với tổng

1052 lần mua hàng và các loại sản phâm khác nhau

16

Trang 22

E - Commerce Customer Behavior cung cap cho ta cé cai nhìn toàn diện về hành vi mua sam của khách hàng trong nền tảng thương mại điện tử Mỗi khách hàng sẽ có các mục tương ứng và riêng biệt trong tập dữ liệu nhằm cung cấp thông tin về các tương tác

và các lần giao dịch của họ Đề nâng cao trải nghiệm cũng như đáp ứng được nhu cầu của

khách hàng thì các thông tim được tao ra để hỗ trợ phân tích về sở thích, mô hình và mức

độ hài lòng hỗ trợ doanh nghiệp đề từ đó đề xuất các quyết định dựa trên dữ liệu

Mục tiêu phân tích: từ bộ dữ liệu E-Commerce Customer Behavior ta có thé phan

tích cũng như dự báo xem liệu rằng khách hàng có tiếp tục mua sắm thường xuyên trên nền tảng thương mại điện tử hay không, có cơi việc mua sắm trên nền tảng này là phương thức chủ yếu và phố biến hiện nay hay không để từ đó rút ra kết luận và tìm ra hướng phát

triển mới cho phù hợp với xã hội hiện nay

Trang 23

Bang 1 Mô tả về những thuộc tính (Atribute) của dữ liệu

Female = 0

Electronics = 0 Home = | Clothing = 2 Books =3

Paypal = 0 Credit Card = | Cash = 2 Crypto = 3

có = Ì

3.4 Phân tích dữ liệu và tiền xử lý

3.4.1, Phan tích cách sử dụng tập dữ liệu

Dữ liệu có những điểm cân hiệu như sau:

- Mỗi hàng đại diện cho l người mua hàng và mỗi cột là một thuộc tính của người

18

Trang 24

mua hang do

- Dữ liệu thô chưa xử lý gồm 172 người tiêu dùng với tông 1052 lần mua hàng và

các loại sản phâm khác nhau

- Trong cột dữ liệu có các thuộc tính: Customer ID (Mã ID khách hàng), Customer Name (Tên hàng hàng ), Age (Độ tuổi), Gender (Giới tinh), Purchase Date

(Thời gian mua hàng), Product Category (Danh mục sản phẩm), Product Price (Giá sản pham ), Quantity (S6 luong), Total Purchase Amount (Téng s6 tién mua hang), Payment Method (Phương thức thanh toán), Returns (Đổi trả sản phẩm)

- Phương pháp tich hop dit liéu (Data Integration)

Do bộ dữ liệu đã có sẵn và đủ chất lượng, không có nhu cầu kết hợp dữ liệu từ nhiều nguồn khác nhau để tránh dữ liệu đữ báo thiêu sự đồng nhất, hợp lý Đồng thời, đồ

án chỉ tập trung vào phân tích các mô hình và dự báo sẽ không cần đến giai đoạn tích hợp

dữ liệu phức tạp

- Phương pháp chuyển đổi dit liéu (Data Transformation)

Nhóm sử dụng Excel để chuyên hóa các dữ liệu thành chữ thành số để dễ phân

tích và dự đoán

e_ Cột Gender (Giới tính) được mã hóa nhận giá trị Ì nêu là Male (Nam), nhận

giá trị 0 néu la Female (Nit)

e C6t Product Category (Danh mục sản phẩm) được mã hóa nhận giá trị 3 nếu

Books (Sách), nhận giá trị 2 nếu Clothing (Quần áo), nhận giá trị l nếu

Home (Nhà), nhận giá trị 0 néu Electronics (D6 ding dién)

e C6t Payment Method (Phuong thirc thanh toán) được mã hóa nhận giá trị 3 nếu chỉ trả bằng Crypto (Tiền mã hóa), nhận giá trị 2 nếu chỉ trả bằng Cash

Trang 25

e C6t Returns (Déi trả sản phâm) được mã hóa nhận gia tri 1 nếu có đôi trả,

nhận giá trị 0 nếu không đổi trả

- Phương pháp làm sach dit liéu (Data Cleaning)

Trong quá trình tiền xử lý, Nhóm sử dụng chức năng Preprocess đề loại bỏ các dữ

liệu bị thiếu và bị nhiễu nhằm giúp mô hình hoạt động hiệu quả hơn và đưa ra dự đoán

chính xác hơn sau đó lưu vào ñle Excel “Data Preprocess.xÏsx” Sau quá trình tiền xử lý,

đữ liệu sau khi lọc là 1052 lượt mua hàng

Hinh 3.1 Qua trình làm sạch dữ liệu

- Phương pháp thu gon dit liéu (Data Reduction)

Để đám bảo hiệu suất, tiết kiệm tài nguyên trong quá trình xử ly và lưu trữ dữ liệu, nhóm sử dụng chức Data Sampler đề lấy ngẫu nhiên 30 phần trăm (%) tương đương 316 lượt mua hàng sau đó luu vao file Excel “Reduced Data.xlsx" làm dữ liệu phân tích cho các bải toán

Dé dam bảo sự tương đồng giữa dữ liệu ñle “Data Preprocess.xlsx” và ñle dữ liệu

“Reduced Data.xlsx" sau khi lây ngẫu nhiên, nhóm tiến hành kiểm tra lấy tỷ lệ đôi trả sản phẩm (Returns) so với số lần mua Kết quả là tý lệ đổi trả sản phẩm của ñle “Data

Preprocess.xlsx” 473/1052 chiếm ty lệ 44,96% và tỷ lệ đổi trả sản phẩm cua file

“Reduced Data.xlsx" 136/316 chiếm tỷ lệ 43.04%% Do sự chênh lệch giữa hai file không lớn nên nhóm sử dụng dữ liệu file “Reduced Data.xlsx" dé phan tich cac bai toan

Data Preprocess Data Sampler Data Table Reduced Reduced Data

Hình 3 2 Quá trình thu gọn dữ liệu

20

Trang 26

- Xác định biến độc lập và phụ thuộc:

e Biến phụ thuộc la “Retums”

e Bién độc lập là các biên còn lại

°

Hình 3.3 Hình ảnh biến độc lập và phụ thuộc

Trang 27

3.5 Phân lớp dữ liệu

Giới thiệu phân lớp dữ liệu

Quá trình phân lớp đữ liệu

- Héi quy Logistic (Logistic Regression)

- Cay quyét dinh (Decision Tree)

- SVM (Support Vector Machine)

3.2.2 Kết quả mô hình

Bước 1: Xây dựng mô hình

Tiền xử lý dữ liệu Từ file E-commerce Customer Behavior đã được xử” lý, ta kéo chọn Data Sampler

Data Sampler

Tai Fixed proportion of data kéo chon lấy 30% dữ liệu từ tập” Dữ liệu hành vi khách hàng trong sàn thương mại điện tứ.xisx sau đó chọn Sample Data đê cho ra bảng dữ

liệu huân luyện mới

22

Trang 28

@ Replicable (deterministic) sampling

(_) Stratify sample (when possible)

Trang 30

CHUONG 4: AP DUNG CAC CONG CU DE GIAI QUYET BAI TOÁN Bài toán 1: Phân tích các yếu tố liên quan đến hành vi và thái độ mua sắm trên nền tảng thương mại điện tử dựa trên dữ liệu lược đồ và công cụ thống kê

4.1 Mô tả bài toán

Hàng sẽ đại diện cho hành vi của người tiêu dùng, cột sẽ tương ứng với các thuộc

tính ảnh hưởng đến hành vi của họ

Bài toán sẽ tìm ra một số điểm khác biệt và được thẻ hiện trong các thuộc tính giữa

tỷ lệ đối trả sản phẩm và tông số lần mua của người tiêu dùng

Các thuộc tính này sẽ được xem xét và đánh giá sự phân bồ bằng biểu đồ để xác định được mức độ ảnh hưởng của thuộc tính đến kết qua là “đôi trả sản phâm” và “tổng số lần mua”

4.2 Phương pháp thực hiện và đánh giá dữ liệu

Biểu đồ phân phối (Distributions): hiển thị phân phối các gia tri của các thuộc

tính rời rạc hoặc liên tục một cách trực quan nhất về sự chênh lệch của các đặc điểm dữ liệu dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu

Biéu dé kham (Mosaic Display): biéu diễn bảng tần suất hai chiều hoặc bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính và giúp nhận ra mỗi quan hệ

giữa các biên khác nhau một cách hiệu quả hơn

Tiêu đề	Phân tích hành vi của khách hàng trên nền tảng thương mại điện tử bằng phần mềm Orange
Tác giả	Phạm Nguyễn Kim Anh, Trương Hoàng Mỹ Duyên, Nguyễn Thị Hằng Nga, Nguyễn Thị Mỹ Nhiên, Nguyễn Hồng Nhung
Trường học	Đại Học Kinh Tế Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa học dữ liệu
Thể loại	Báo cáo đồ án học phần
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	60
Dung lượng	5,49 MB