XÁC ĐỊNH ĐỊNH BÀI TOÁN VÀ NGUỎN DỮ LIỆU CỦA BÀI TOÁN: 1.. LỜI MỞ ĐẦU Khoa học đữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích đữ liệu để dự đoán các xu hướng trong tươn
Trang 1
x TP Hồ Chí Minh, ngày 20 tháng 11 năm 2023
Trang 2
ĐÁNH GIÁ MỨC ĐỘ ĐÓNG GÓP THÀNH VIÊN
STT Họ và tên MSSV Mức độ tham gia (3⁄0)
1 Lương Mỹ Huyền 31221021108 (100%)
2 Tống Như Hoa 31221024596 (100%)
3 Trần Thảo Ngân 31221023023 (100%)
4 Lê Mai Khuê 31221026215 (100%)
5 Phạm Thị Huynh Như 31221023702 (100%)
Thành phố Hồ Chí Minh, tháng 12 năm 2022
Trang 3
LỜI MỞ ĐẦU :
I XÁC ĐỊNH ĐỊNH BÀI TOÁN VÀ NGUỎN DỮ LIỆU CỦA BÀI TOÁN:
1 Mô tả bải tOáH: Ốc 0n c HH ng n nh ng nn TT k nn kh vn kg xxx kg
2 Nguồn đữ liệu : ác C22 cọ nn nnn nn nh nn nh nh Tế nh in hy kh ty nh ng
ILBO DU LIEU:
1 Mô tả tông quát đữ liệu : cà các C22 cọ cành nh nn nn HH Kế nh cty,
2 Tiền xử lý đữ liệu :
3 Các kết quả thực nghiệm ; "La
3.1 Màn hình thế hiện ( Phân lớp dữ ữ liệu }
3.2 Kết quả với tập dữ liệu :
3.2.1 Theo Test and Score : tàn ke va
3.2.2 Kết qua với tập dữ liệu dự báo , ¬—
a Sử dụng Mô Hình SVM : che
b Sử dụng Mô Hình Logistic Regression :
c Sử dụng Mô Hình Neural Network :
3.2.3 Theo ma trận nhằm lẫn : ¬
a Kết quả theo phương ohap S SVM: "——
b Kết quả theo phương pháp Logistie Regression : no
c Kết quả theo phương pháp Neural Network : à
3.3 Màn hình thế hiện ( Phân cụm đữ liệu ): - cc 2 ccc cà S22 sàn ssên
3.4 Kết quả với tập dữ liệu : th khu
3.4.1 Theo phương pháp Hierarehical clustering - ¬_
3.4.2 “ “ “‹‹AadaadAa
HILKẾT LUẬN :
TÀI LIỆU THAM KHẢO :
Trang 4LỜI MỞ ĐẦU
Khoa học đữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích đữ liệu để dự
đoán các xu hướng trong tương lai và đưa ra các quyết định, chiến lược hành động Nhiều
doanh nghiệp, bat ké quy mô, đều cần một chiến lược khoa học đữ liệu hiệu quả đề thúc đây
tăng trưởng và duy trì lợi thế cạnh tranh Một số lợi ích chính bao gồm: khám pha cac mau
biến đổi tiềm ân; sáng tạo các sản phẩm và giải pháp mới; tối ưu hóa trong thời gian thu
Mức độ khách hàng tiềm năng luôn là một vấn dé được quan tâm của các công ty, doanh
nghiệp, đặc biệt là ngành Thương mại Với bộ sưu tập dữ liệu phong phú này, các nhà phân
tích và nhà nghiên cứu có thê đi sâu vào sự phức tạp của quá trình ra quyết định của người
tiêu dùng, hỗ trợ doanh nghiệp xây dựng các chiến lược tiếp thị có mục tiêu, tối ưu hóa việc
cung cấp sản phâm và nâng cao sự hài lòng chung của khách hàng, thúc đây đoanh số bán
hàng Từ các biến ảnh hưởng này, nhóm chúng em quyết định thực hiện đề tài dựa trên các
biến đề đánh giá mức độ và khả năng có là khách hàng tiềm năng hay không Khoa học đữ
liệu là ngành khai phá, quản trị và phân tích đữ liệu để dự đoán các xu hướng trong tương lai
và đưa ra các quyết định, chiến lược
Chúng em xin cảm ơn thầy Võ Thành Đức- giảng viên môn Khoa học đữ liệu đã giúp đỡ
chúng em trong quá trình học tập cũng như hoàn thành bài nghiên cứu này
Trang 5NỘI DUNG
I XÁC ĐỊNH ĐỊNH BÀI TOÁN VÀ NGUÒN DỮ LIỆU CUA BÀI TOÁN
1 Mô tả bài toán
Sử đụng phần mềm orange đề xử lý dữ liệu và giải quyết các bài toán sau:
- Bài 1 : Dự đoán khả năng khách hàng có tiềm năng ( Phân lớp đữ liệu )
- Bài 2 : Phân loại các nhóm khách hàng có khả năng cao là khách hàng tiềm năng (Phân
cụm đữ liệu )
2 Nguồn dữ liệu:
- Sử dụng bộ dữ liệu Consumer Behavior and Shopping Habits Dataset
https:/Awww.kaggle.com/datasets/zeesolver/consumer-behavior-and-shopping-habits-
dataset?
lid=IwAR2uxreJQx_f MtDqk93P0jN7hojBsAY_a9krq44y0 HrorE2tAnF0ik
ILBO DU LIEU
1.Mô tá tổng quát dữ liệu
- Bai viét str dụng bộ dữ liệu Consumer Behavior and Shopping Habits Dataset
-_ Dữ liệu cung cấp cái nhìn tông quan chỉ tiết về sở thích và hành vi mua hàng của
người tiêu dùng
-_ Nó bao gồm các thông tin như : lịch sử mua hàng, những món hàng yêu thích cũng
như là các kênh mua sắm yêu thích
- _ Tập đữ liệu này sẽ rất cần thiết cho các doanh nghiệp muốn điều chỉnh các chiến lược
nhăm đáp ứng nhu cầu khách hàng và nâng cao trải nghiệm mua sắm và cuối cùng là giữ
chân khách hàng
- Bảo gồm cái thuộc tính :
® ID khách hàng ( Customer ID )
s Tuổi ( Age)
* Gidi tinh ( Gender )
¢ Mat hang da mua ( Item Purchased )
® Danh mục ( Category )
¢ S6 tiền mua (USD) ( Purchase Amount )
* Vi tri ( Location )
® Kích thước ( Size)
Trang 6Màu sắc ( Color )
Mùa ( Season )
Xếp hạng đánh giá ( Review Rating )
Trang thai dang ky ( Subscription Status )
Loai van chuyén ( Shipping Type )
Giam gia duoc ap dung ( Discount Applied )
Mã khuyến mãi được sử dụng ( Promo Code Used )
Mua hàng trước đây ( Previous Purchases )
Phương thức thanh toán ( Payment Method )
Tan suat mua hang ( Frequency of Purchases )
2 Tiền xử lý dữ liệu
Bước 1: Nạp dữ liệu shopping_behavior.csv
- Dữ liệu có 3900 quan sát
- Có 18 biến và ( missing value 0% )
- Kiéu dir ligu: categorical, numeric
- Role: feature
*Chon cét Subscription Status lam cét target phù hợp và bỏ một số tính không phù hợp với
mục đích
[3 Shopping Behavior
Source
- Orange
© File: archive (1) 2\<hopping behavior.csv
URL:
File Type
Automatically detect type
Info
3900 instances
18 features (no missing values)
has no target variable
Data
O meta attributes:
Columns (Double click to edit)
Name
1? Subscription
14 Discount Applied
15 Promo Code
16 Previous
18 Frequency of
Reset
Type
categorical
categorical
categorical
numeric
@eaaageda
categorical
? 2 | B 2900
feature
feature
feature
skip
feature
— n x
mm (© Reload
Values
No, Yes
No, Yes
Annually, Bi-Weekly, Every 3 Months, Fortnightly,
Apply
Browse documentation datasets
Trang 7» - Bước 2: Quan sát dữ liệu (bằng cách nối File widget vào Data table widget Khi
double-click vào ta sẽ quan sát được dữ liệu)
1B View Data ban dau - Orange ø x
a Subscription Stats Am Gonder Thom Purchasext Category chase Amount (US
2900 instances (no missing data) ; Jin [ÂN dc S
9 fonlues ——— a puse othing ——
Taget vith 2 ves meta attributes > a 19 Male ; Sưee
, s‹- br
we áãỗ1" er sens
Öseeensickee((renD 5 7 tate Man
vaslr neerk vobe= AM 46 Male ——
B color bự retonee doees ;: re oe Shut
© 26 2 C os
peace :— — vài = '
ore -
° NNNN—— 2„« es —
2» nl Mole Yes
1 a 27 Male Yes
» tk te =
ở mm ‘=
~ 18 Mal ts =
a Yes = f Ewe 3 Monlhs
B sac 28
? B | 313900 B 3900] 3900
© Buéc 3 :Visualize di liéu ( Distribution budget: Dung biéu dién phan bé ctia mét
thuộc tính xác định Ta nối File widget dén Distribution widget Double-click vao
widget nay dé quan sát dữ liệu )
th Xem Data phan bé ban dau - Orange = n x
‡ Variable
Filte
Subscription Status
Age
@No
@ Yes
° Đ
Category
Purchase Amount (USD)
Discount Applied
Sort categories by frequency
Distributi
Fitted distribution None
e a
S ^
Bin width
Smoothing 10
Hide bars
Columns
Split by Discount Applied
C) Stack columns
© show probabilities
Show cumulative distribution n 1
Probability
of
Applied’
at
‘Subscription
Status’
2 N
a Apply Automatically Subscription Status
=? B +2l39 [3 -|3900|4
» - Bước 4: Xử lý dữ liệu bi thiéu ( missing value 0% nên bỏ qua bước nay )
3 Các kết quả thực nghiệm :
3.1 Màn hình thể hiện ( Phân lớp dữ liệu ):
Trang 8„ Distributions
r{
7 [ Data ban dau &
&
z
05 8X =~@ 2
Shopping Behavior g 3)- ⁄ “Test and Sơwe NI Š
t th Logistic Regression i ` -{ ">
Xem Data phân bố ban
đầu
Kết quả dự đoán phân
lớp
a " Ps Confusion Matrix
Neural Network
3.2 Kết quả với tập dữ liệu :
3.2.1 Theo Test and Score:
+ Test and score: Su dung phuong phap K-fold cross validation voi k = 5
Ä Test and Score - Orange
— 0 x
© Cross validation Evaluation results for target (None, show average over classes) ~
Numberoffokis |5 Model AUC CA F1 Prec Recall MCC x
° : SVM 0 0 0 0 0.787 0424
Cross validation by feature 869 787 778 776 ` Ỷ
" 00 0 0
Logistic Regression 886 847 855 894 0.847 0.697
© Random sampling
0 0 0
Repeat train/test: 10 ~ Neural Network 898 B16 B17 819 0.816 0.540
Training set size: 90% +
@ swatified
© Leave one out
© Test on train data Compare models by: Area under ROC curve Negligible diff : 0.1
oO Test on test data SVM ogistic Regression Neural Network
SVM
Logistic Regression
Neural Network
Table shows probabilities that the score for the model in the row is higher than that of the model in the column Small numbers show the
probability that the difference is negligible
2 B | +2]3900|-|mmm|- [3 3900 |3x3900
3.2.2 Kết quả với tập dữ liệu dự báo :
a Su dung M6 Hinh SVM :
Trang 9
45 SVM - Orange ? ee = U »
Verne
Name Filter 3000 @No on
SVM a8 | (es
SVM Type Gsm
osm Gost (c): 1.00 5] T———— Lovistic Regression NeunlNetwork
Regresslon loss epsllon(£)›: 0.10 €' sai
€3 v-SVM Regression cost (C): 1.00 > swe3 200
Complexity bound (v): 0.50 € ° oe
(O Sort categories by frequency
Kernel
© Linear Kernel: exp(-g|x-y|) Fitted datribution ae >
© Polynomial - auto 51 an wath
‘Smosthing lô 1000
© rer eel
© Sigmoid Columns
Optimization Parameters Slit by Bon v
Numerical tolerance: 0.0010 [S| 0 Stack columns
Œ8 tteration limit 100 [S| CS probebties 0
CO Show cumulative distribution
a Apply Automatically D ng _ =
_= ?R |+1- Bmi-l- _=?BB Ø#B-Is0|4
b Su dung M6 Hinh Logistic Regression :
Z Logistic Regre ? TH a eae!
Variable
Filter © iss)
Name eves
Logistic Regression
G Subscription Status
8s
220
|
B Logistic Regression
Neural Network 1800
® svn (no) tem
Regularization type: Lasso(L1) + ch
B Logistic Regression (No) 1401
Strength: CO sort categories by frequency "
Distribution
Weak i Strong Fitted distribution None J 100
Bin width
C=20 Smoothing t0 am
Hide bars: 601
‘Columes
() Balance class distribution me Bon ¬
CO) stack cokimns 2m
Bs Apply Automatically KT eere , ọ
No Yes
= Regression
=?8/3-GB-10- -;ss ga 4=78 3] 3900 [3 -|390014 =
c Su dung M6 Hinh Neural Network :
== Neural Network - Orange ? <a Sư Ga `
Yaisdio Z0 an
Na Fiter_
= tuteripion Statu: | os) Os
Neural Network ` l 2m
hen Network bại
Neurons in hidden layers: 100, ` a
as B Ggsc teyesion 0e) =
Activation: ReLu v eas a
Cistrintion
Solver: Adam x Fited distribution None > I =
Bin width ””
Regularization, a=0.0001: i Sea " : 7
Maximal number of iterations: 200 KY |-”“ ‘oo
TT Couns
@ Replicable training sm Gsm =
O steck columns 200]
CO Ston grobetities A
Cancel @ Apply Automatically C Shm camuatne dterbution %
_= ? B | ®1- ömỊ- = 7B B 3s B-ismjs
Trang 103.2.3 Theo ma trận nhằm lẫn :
a Kết quả theo phương pháp SVM :
¿ft Confusion Matrix - Orange = n x
Learners ¡ Clicking on cells or in headers outputs
the corresponding data instances OK got it
Show: Proportion of predicted ~
SVM
Logistic Regression Predicted
Neural Network
No Yes ›
No 628% 366% 2850
=
g Yes 17.2% 634% 1050
> 3082 818 3900
Output
B Predictions
_} Probabilities
@ Apply Automatically Select Correct Select Misclassified Clear Selection
= ? B | 4]3x3900 B -|3900
¢ Tỉ lệ sai lam loai | (Khach hang chwa dang ky nhung lai dy bao la da dang ky)
theo phuong phap SVM la 36,6%
® _ Tỉ lệ sai lâm loại 2 (Khách hàng đã đăng ký nhưng lại dự báo là chưa đăng ký)
theo phương pháp SVM là L7.2%
b Kết quả theo phương pháp Logistic Repression :
| 2! Confusion Matrix - Orange " Oo x
Clicking on cells or in headers outputs :
= ae corresponding data instances Ok, got it Show: Proportion of predicted ~
SVM
Logistic Regression Predicted
Neural Network
No Yes :
No 98.7 % 35.7% 2850
Actual < 8 1.3 % 64.3% 1050
› 2315 1585 3900
Output
@ Predictions
) Probabilities
@ Apply Automatically Select Correct Select Misclassified
= 2? B | 4) 33900 B -|3900
Clear Selection
® Ti lệ sai lâm loai | theo phuong phap Logistic Regression la 35.7%
¢ Tilé sai lam loai 2 theo phuong phap Logistic Regression la 1.3%
Trang 11c Kết quả theo phương pháp Neural Network :
=i! Confusion Matrix - Orange
Learners
SVM
Logistic Regression
Neural Network
Output
@ Predictions
() Probabilities
@ Apply Automatically
= ? B | 4) 3x3900 B -|3900
— 0 x
+ Clicking on cells or in headers outputs Ok, got it - =
the corresponding data instances Show: Proportion of predicted v
Predicted
No Yes x
No 88.1% 34.9% 2850
ẳ Yes 11.9 % 65.1% 1050
› 2798 1102 3900
Select Correct Select Misclassified Clear Selection
® Ti lệ sai lâm loại 1 theo phương pháp Neural Network là 34.9%
® - Tỉ lệ sai lâm loại 2 theo phương pháp Neural Network là 11.9%
3.3 Màn hình thể hiện ( Phân cụm dữ liệu ):
h)
Shopping 8ehavior
Data
/
( `
Data Table
k-Means
3.4 Kết quả với tập dữ liệu :
Distances
2, %, °
Đ
¢
ở
( \
{Ge}
Š
Hierarchical Clustering %
%
$ 3
⁄
{
Silhouette Plot (1)
(m
Kết quả dự đoán phân
cụm theo PP K-Mean
3.4.1 Theo phương pháp Hierarchical clustering :
Kết quả dự đoán phân
Hierarchical clustering
Silhouette Plot
® _ Bước 1: Chon File va nap file shopping behaviour _update.csv vao
Trang 12file Vien Window Help
—
Ô HO cúsyszmrosenbsssehrppeg tehsvor tpdesd.cvr
a —)]
um:
Fle Type
Aetensicaly ator ype
tele
350 retanoes
18 features Database oo musceg vals) target erable
0a,
_Cdàu®sr (Oosbie đick to ac)
Name Type Role Values
3 Category GB categorical feature Accessones, Clothing, Footwear, Outerwear
© Purchase Amou GJ numeric festue
® size B categorical stip M,5,X
° B categorical sip Biack, Blue, Brown, Charcoal, Cy Sreen, Ì vender, Magenta, Maroon, OEve, Orange, Peach, Pink, Purple, Red, Sliver
10 Season B cxtegovicat sap I, Spring Summer, Wint
11 Review Rating @ rum skip
am tm óốõỗõẽõẽðẽðẽðẽốẽẽ
13 sniping Type @ categorical siáp Day Shipping, Express, Free Shipping, Next Day Ait, Standard, ice
14 Discount Applied @ categorical feature No, Yes
15 Promo Code @ categorical feature No, Yes
16 Previous Borumerk tu
17 Payment B categorical skip
18 Frequency of (@ categorical feature Annually, Bi-Weelgy, Every 3 Months, Fortnightly, Monthly, Quarterty, Weekly
at
Munse đoounerF3boe đơf36at,
=? B | Bim
HE Search we OUBDeswooe CBS 10:22 SA
awaiaoa
® Bước 2: Tu File kéo tha chọn Distances, từ Distances kéo thả chọn
Hierarchical Clustering
- Trong hộp thoại Distance:
+ Distance Metric: chon Euclidean
A Distances - Orange ? x 1
File View Window’ Help
Compare
© Rows © Columns
; Distance Metric
© Euclidean (normalized) (©) Cosine
° Euclidean © Pearson
© Manhattan (normalized) () Pearson (absolute)
() Manhattan (O Spearman
©) Mahalanobis © Spearman (absolute)
© Hamming ©) Jaccard
a Apply Automatically
= ? B | 324 G 241x241
- Trong hộp thoai Hierarchical Clustering:
+Linkaqe: Chọn Complete ( Chọn phương pháp tính khoảng cach la Complete
vì các cụm phân bố khá đồng đều và không bị quá chênh lệch như các phương
pháp còn lại)
+Top N: Chọn 4 ( Phân thành 2 cụm)