1. Trang chủ
  2. » Luận Văn - Báo Cáo

i xác định định bài toán và nguồn dữ liệu của bài toán

17 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xác định định bài toán và nguồn dữ liệu của bài toán
Tác giả Lương Mỹ Huyền, Tống Như Hoa, Trần Thảo Ngõn, Lờ Mai Khuờ, Phạm Thị Huynh Như
Người hướng dẫn Vừ Thành Đức, Giảng Viên
Chuyên ngành Khoa học dữ liệu
Thể loại Bài nghiên cứu
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 17
Dung lượng 3,49 MB

Nội dung

XÁC ĐỊNH ĐỊNH BÀI TOÁN VÀ NGUỎN DỮ LIỆU CỦA BÀI TOÁN: 1.. LỜI MỞ ĐẦU Khoa học đữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích đữ liệu để dự đoán các xu hướng trong tươn

Trang 1

x TP Hồ Chí Minh, ngày 20 tháng 11 năm 2023

Trang 2

ĐÁNH GIÁ MỨC ĐỘ ĐÓNG GÓP THÀNH VIÊN

STT Họ và tên MSSV Mức độ tham gia (3⁄0)

1 Lương Mỹ Huyền 31221021108 (100%)

2 Tống Như Hoa 31221024596 (100%)

3 Trần Thảo Ngân 31221023023 (100%)

4 Lê Mai Khuê 31221026215 (100%)

5 Phạm Thị Huynh Như 31221023702 (100%)

Thành phố Hồ Chí Minh, tháng 12 năm 2022

Trang 3

LỜI MỞ ĐẦU :

I XÁC ĐỊNH ĐỊNH BÀI TOÁN VÀ NGUỎN DỮ LIỆU CỦA BÀI TOÁN:

1 Mô tả bải tOáH: Ốc 0n c HH ng n nh ng nn TT k nn kh vn kg xxx kg

2 Nguồn đữ liệu : ác C22 cọ nn nnn nn nh nn nh nh Tế nh in hy kh ty nh ng

ILBO DU LIEU:

1 Mô tả tông quát đữ liệu : cà các C22 cọ cành nh nn nn HH Kế nh cty,

2 Tiền xử lý đữ liệu :

3 Các kết quả thực nghiệm ; "La

3.1 Màn hình thế hiện ( Phân lớp dữ ữ liệu }

3.2 Kết quả với tập dữ liệu :

3.2.1 Theo Test and Score : tàn ke va

3.2.2 Kết qua với tập dữ liệu dự báo , ¬—

a Sử dụng Mô Hình SVM : che

b Sử dụng Mô Hình Logistic Regression :

c Sử dụng Mô Hình Neural Network :

3.2.3 Theo ma trận nhằm lẫn : ¬

a Kết quả theo phương ohap S SVM: "——

b Kết quả theo phương pháp Logistie Regression : no

c Kết quả theo phương pháp Neural Network : à

3.3 Màn hình thế hiện ( Phân cụm đữ liệu ): - cc 2 ccc cà S22 sàn ssên

3.4 Kết quả với tập dữ liệu : th khu

3.4.1 Theo phương pháp Hierarehical clustering - ¬_

3.4.2 “ “ “‹‹AadaadAa

HILKẾT LUẬN :

TÀI LIỆU THAM KHẢO :

Trang 4

LỜI MỞ ĐẦU

Khoa học đữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích đữ liệu để dự

đoán các xu hướng trong tương lai và đưa ra các quyết định, chiến lược hành động Nhiều

doanh nghiệp, bat ké quy mô, đều cần một chiến lược khoa học đữ liệu hiệu quả đề thúc đây

tăng trưởng và duy trì lợi thế cạnh tranh Một số lợi ích chính bao gồm: khám pha cac mau

biến đổi tiềm ân; sáng tạo các sản phẩm và giải pháp mới; tối ưu hóa trong thời gian thu

Mức độ khách hàng tiềm năng luôn là một vấn dé được quan tâm của các công ty, doanh

nghiệp, đặc biệt là ngành Thương mại Với bộ sưu tập dữ liệu phong phú này, các nhà phân

tích và nhà nghiên cứu có thê đi sâu vào sự phức tạp của quá trình ra quyết định của người

tiêu dùng, hỗ trợ doanh nghiệp xây dựng các chiến lược tiếp thị có mục tiêu, tối ưu hóa việc

cung cấp sản phâm và nâng cao sự hài lòng chung của khách hàng, thúc đây đoanh số bán

hàng Từ các biến ảnh hưởng này, nhóm chúng em quyết định thực hiện đề tài dựa trên các

biến đề đánh giá mức độ và khả năng có là khách hàng tiềm năng hay không Khoa học đữ

liệu là ngành khai phá, quản trị và phân tích đữ liệu để dự đoán các xu hướng trong tương lai

và đưa ra các quyết định, chiến lược

Chúng em xin cảm ơn thầy Võ Thành Đức- giảng viên môn Khoa học đữ liệu đã giúp đỡ

chúng em trong quá trình học tập cũng như hoàn thành bài nghiên cứu này

Trang 5

NỘI DUNG

I XÁC ĐỊNH ĐỊNH BÀI TOÁN VÀ NGUÒN DỮ LIỆU CUA BÀI TOÁN

1 Mô tả bài toán

Sử đụng phần mềm orange đề xử lý dữ liệu và giải quyết các bài toán sau:

- Bài 1 : Dự đoán khả năng khách hàng có tiềm năng ( Phân lớp đữ liệu )

- Bài 2 : Phân loại các nhóm khách hàng có khả năng cao là khách hàng tiềm năng (Phân

cụm đữ liệu )

2 Nguồn dữ liệu:

- Sử dụng bộ dữ liệu Consumer Behavior and Shopping Habits Dataset

https:/Awww.kaggle.com/datasets/zeesolver/consumer-behavior-and-shopping-habits-

dataset?

lid=IwAR2uxreJQx_f MtDqk93P0jN7hojBsAY_a9krq44y0 HrorE2tAnF0ik

ILBO DU LIEU

1.Mô tá tổng quát dữ liệu

- Bai viét str dụng bộ dữ liệu Consumer Behavior and Shopping Habits Dataset

-_ Dữ liệu cung cấp cái nhìn tông quan chỉ tiết về sở thích và hành vi mua hàng của

người tiêu dùng

-_ Nó bao gồm các thông tin như : lịch sử mua hàng, những món hàng yêu thích cũng

như là các kênh mua sắm yêu thích

- _ Tập đữ liệu này sẽ rất cần thiết cho các doanh nghiệp muốn điều chỉnh các chiến lược

nhăm đáp ứng nhu cầu khách hàng và nâng cao trải nghiệm mua sắm và cuối cùng là giữ

chân khách hàng

- Bảo gồm cái thuộc tính :

® ID khách hàng ( Customer ID )

s Tuổi ( Age)

* Gidi tinh ( Gender )

¢ Mat hang da mua ( Item Purchased )

® Danh mục ( Category )

¢ S6 tiền mua (USD) ( Purchase Amount )

* Vi tri ( Location )

® Kích thước ( Size)

Trang 6

Màu sắc ( Color )

Mùa ( Season )

Xếp hạng đánh giá ( Review Rating )

Trang thai dang ky ( Subscription Status )

Loai van chuyén ( Shipping Type )

Giam gia duoc ap dung ( Discount Applied )

Mã khuyến mãi được sử dụng ( Promo Code Used )

Mua hàng trước đây ( Previous Purchases )

Phương thức thanh toán ( Payment Method )

Tan suat mua hang ( Frequency of Purchases )

2 Tiền xử lý dữ liệu

Bước 1: Nạp dữ liệu shopping_behavior.csv

- Dữ liệu có 3900 quan sát

- Có 18 biến và ( missing value 0% )

- Kiéu dir ligu: categorical, numeric

- Role: feature

*Chon cét Subscription Status lam cét target phù hợp và bỏ một số tính không phù hợp với

mục đích

[3 Shopping Behavior

Source

- Orange

© File: archive (1) 2\<hopping behavior.csv

URL:

File Type

Automatically detect type

Info

3900 instances

18 features (no missing values)

has no target variable

Data

O meta attributes:

Columns (Double click to edit)

Name

1? Subscription

14 Discount Applied

15 Promo Code

16 Previous

18 Frequency of

Reset

Type

categorical

categorical

categorical

numeric

@eaaageda

categorical

? 2 | B 2900

feature

feature

feature

skip

feature

— n x

mm (© Reload

Values

No, Yes

No, Yes

Annually, Bi-Weekly, Every 3 Months, Fortnightly,

Apply

Browse documentation datasets

Trang 7

» - Bước 2: Quan sát dữ liệu (bằng cách nối File widget vào Data table widget Khi

double-click vào ta sẽ quan sát được dữ liệu)

1B View Data ban dau - Orange ø x

a Subscription Stats Am Gonder Thom Purchasext Category chase Amount (US

2900 instances (no missing data) ; Jin [ÂN dc S

9 fonlues ——— a puse othing ——

Taget vith 2 ves meta attributes > a 19 Male ; Sưee

, s‹- br

we áãỗ1" er sens

Öseeensickee((renD 5 7 tate Man

vaslr neerk vobe= AM 46 Male ——

B color bự retonee doees ;: re oe Shut

© 26 2 C os

peace :— — vài = '

ore -

° NNNN—— 2„« es —

2» nl Mole Yes

1 a 27 Male Yes

» tk te =

ở mm ‘=

~ 18 Mal ts =

a Yes = f Ewe 3 Monlhs

B sac 28

? B | 313900 B 3900] 3900

© Buéc 3 :Visualize di liéu ( Distribution budget: Dung biéu dién phan bé ctia mét

thuộc tính xác định Ta nối File widget dén Distribution widget Double-click vao

widget nay dé quan sát dữ liệu )

th Xem Data phan bé ban dau - Orange = n x

‡ Variable

Filte

Subscription Status

Age

@No

@ Yes

° Đ

Category

Purchase Amount (USD)

Discount Applied

Sort categories by frequency

Distributi

Fitted distribution None

e a

S ^

Bin width

Smoothing 10

Hide bars

Columns

Split by Discount Applied

C) Stack columns

© show probabilities

Show cumulative distribution n 1

Probability

of

Applied’

at

‘Subscription

Status’

2 N

a Apply Automatically Subscription Status

=? B +2l39 [3 -|3900|4

» - Bước 4: Xử lý dữ liệu bi thiéu ( missing value 0% nên bỏ qua bước nay )

3 Các kết quả thực nghiệm :

3.1 Màn hình thể hiện ( Phân lớp dữ liệu ):

Trang 8

„ Distributions

r{

7 [ Data ban dau &

&

z

05 8X =~@ 2

Shopping Behavior g 3)- ⁄ “Test and Sơwe NI Š

t th Logistic Regression i ` -{ ">

Xem Data phân bố ban

đầu

Kết quả dự đoán phân

lớp

a " Ps Confusion Matrix

Neural Network

3.2 Kết quả với tập dữ liệu :

3.2.1 Theo Test and Score:

+ Test and score: Su dung phuong phap K-fold cross validation voi k = 5

Ä Test and Score - Orange

— 0 x

© Cross validation Evaluation results for target (None, show average over classes) ~

Numberoffokis |5 Model AUC CA F1 Prec Recall MCC x

° : SVM 0 0 0 0 0.787 0424

Cross validation by feature 869 787 778 776 ` Ỷ

" 00 0 0

Logistic Regression 886 847 855 894 0.847 0.697

© Random sampling

0 0 0

Repeat train/test: 10 ~ Neural Network 898 B16 B17 819 0.816 0.540

Training set size: 90% +

@ swatified

© Leave one out

© Test on train data Compare models by: Area under ROC curve Negligible diff : 0.1

oO Test on test data SVM ogistic Regression Neural Network

SVM

Logistic Regression

Neural Network

Table shows probabilities that the score for the model in the row is higher than that of the model in the column Small numbers show the

probability that the difference is negligible

2 B | +2]3900|-|mmm|- [3 3900 |3x3900

3.2.2 Kết quả với tập dữ liệu dự báo :

a Su dung M6 Hinh SVM :

Trang 9

45 SVM - Orange ? ee = U »

Verne

Name Filter 3000 @No on

SVM a8 | (es

SVM Type Gsm

osm Gost (c): 1.00 5] T———— Lovistic Regression NeunlNetwork

Regresslon loss epsllon(£)›: 0.10 €' sai

€3 v-SVM Regression cost (C): 1.00 > swe3 200

Complexity bound (v): 0.50 € ° oe

(O Sort categories by frequency

Kernel

© Linear Kernel: exp(-g|x-y|) Fitted datribution ae >

© Polynomial - auto 51 an wath

‘Smosthing lô 1000

© rer eel

© Sigmoid Columns

Optimization Parameters Slit by Bon v

Numerical tolerance: 0.0010 [S| 0 Stack columns

Œ8 tteration limit 100 [S| CS probebties 0

CO Show cumulative distribution

a Apply Automatically D ng _ =

_= ?R |+1- Bmi-l- _=?BB Ø#B-Is0|4

b Su dung M6 Hinh Logistic Regression :

Z Logistic Regre ? TH a eae!

Variable

Filter © iss)

Name eves

Logistic Regression

G Subscription Status

8s

220

|

B Logistic Regression

Neural Network 1800

® svn (no) tem

Regularization type: Lasso(L1) + ch

B Logistic Regression (No) 1401

Strength: CO sort categories by frequency "

Distribution

Weak i Strong Fitted distribution None J 100

Bin width

C=20 Smoothing t0 am

Hide bars: 601

‘Columes

() Balance class distribution me Bon ¬

CO) stack cokimns 2m

Bs Apply Automatically KT eere , ọ

No Yes

= Regression

=?8/3-GB-10- -;ss ga 4=78 3] 3900 [3 -|390014 =

c Su dung M6 Hinh Neural Network :

== Neural Network - Orange ? <a Sư Ga `

Yaisdio Z0 an

Na Fiter_

= tuteripion Statu: | os) Os

Neural Network ` l 2m

hen Network bại

Neurons in hidden layers: 100, ` a

as B Ggsc teyesion 0e) =

Activation: ReLu v eas a

Cistrintion

Solver: Adam x Fited distribution None > I =

Bin width ””

Regularization, a=0.0001: i Sea " : 7

Maximal number of iterations: 200 KY |-”“ ‘oo

TT Couns

@ Replicable training sm Gsm =

O steck columns 200]

CO Ston grobetities A

Cancel @ Apply Automatically C Shm camuatne dterbution %

_= ? B | ®1- ömỊ- = 7B B 3s B-ismjs

Trang 10

3.2.3 Theo ma trận nhằm lẫn :

a Kết quả theo phương pháp SVM :

¿ft Confusion Matrix - Orange = n x

Learners ¡ Clicking on cells or in headers outputs

the corresponding data instances OK got it

Show: Proportion of predicted ~

SVM

Logistic Regression Predicted

Neural Network

No Yes ›

No 628% 366% 2850

=

g Yes 17.2% 634% 1050

> 3082 818 3900

Output

B Predictions

_} Probabilities

@ Apply Automatically Select Correct Select Misclassified Clear Selection

= ? B | 4]3x3900 B -|3900

¢ Tỉ lệ sai lam loai | (Khach hang chwa dang ky nhung lai dy bao la da dang ky)

theo phuong phap SVM la 36,6%

® _ Tỉ lệ sai lâm loại 2 (Khách hàng đã đăng ký nhưng lại dự báo là chưa đăng ký)

theo phương pháp SVM là L7.2%

b Kết quả theo phương pháp Logistic Repression :

| 2! Confusion Matrix - Orange " Oo x

Clicking on cells or in headers outputs :

= ae corresponding data instances Ok, got it Show: Proportion of predicted ~

SVM

Logistic Regression Predicted

Neural Network

No Yes :

No 98.7 % 35.7% 2850

Actual < 8 1.3 % 64.3% 1050

› 2315 1585 3900

Output

@ Predictions

) Probabilities

@ Apply Automatically Select Correct Select Misclassified

= 2? B | 4) 33900 B -|3900

Clear Selection

® Ti lệ sai lâm loai | theo phuong phap Logistic Regression la 35.7%

¢ Tilé sai lam loai 2 theo phuong phap Logistic Regression la 1.3%

Trang 11

c Kết quả theo phương pháp Neural Network :

=i! Confusion Matrix - Orange

Learners

SVM

Logistic Regression

Neural Network

Output

@ Predictions

() Probabilities

@ Apply Automatically

= ? B | 4) 3x3900 B -|3900

— 0 x

+ Clicking on cells or in headers outputs Ok, got it - =

the corresponding data instances Show: Proportion of predicted v

Predicted

No Yes x

No 88.1% 34.9% 2850

ẳ Yes 11.9 % 65.1% 1050

› 2798 1102 3900

Select Correct Select Misclassified Clear Selection

® Ti lệ sai lâm loại 1 theo phương pháp Neural Network là 34.9%

® - Tỉ lệ sai lâm loại 2 theo phương pháp Neural Network là 11.9%

3.3 Màn hình thể hiện ( Phân cụm dữ liệu ):

h)

Shopping 8ehavior

Data

/

( `

Data Table

k-Means

3.4 Kết quả với tập dữ liệu :

Distances

2, %, °

Đ

¢

( \

{Ge}

Š

Hierarchical Clustering %

%

$ 3

{

Silhouette Plot (1)

(m

Kết quả dự đoán phân

cụm theo PP K-Mean

3.4.1 Theo phương pháp Hierarchical clustering :

Kết quả dự đoán phân

Hierarchical clustering

Silhouette Plot

® _ Bước 1: Chon File va nap file shopping behaviour _update.csv vao

Trang 12

file Vien Window Help

Ô HO cúsyszmrosenbsssehrppeg tehsvor tpdesd.cvr

a —)]

um:

Fle Type

Aetensicaly ator ype

tele

350 retanoes

18 features Database oo musceg vals) target erable

0a,

_Cdàu®sr (Oosbie đick to ac)

Name Type Role Values

3 Category GB categorical feature Accessones, Clothing, Footwear, Outerwear

© Purchase Amou GJ numeric festue

® size B categorical stip M,5,X

° B categorical sip Biack, Blue, Brown, Charcoal, Cy Sreen, Ì vender, Magenta, Maroon, OEve, Orange, Peach, Pink, Purple, Red, Sliver

10 Season B cxtegovicat sap I, Spring Summer, Wint

11 Review Rating @ rum skip

am tm óốõỗõẽõẽðẽðẽðẽốẽẽ

13 sniping Type @ categorical siáp Day Shipping, Express, Free Shipping, Next Day Ait, Standard, ice

14 Discount Applied @ categorical feature No, Yes

15 Promo Code @ categorical feature No, Yes

16 Previous Borumerk tu

17 Payment B categorical skip

18 Frequency of (@ categorical feature Annually, Bi-Weelgy, Every 3 Months, Fortnightly, Monthly, Quarterty, Weekly

at

Munse đoounerF3boe đơf36at,

=? B | Bim

HE Search we OUBDeswooe CBS 10:22 SA

awaiaoa

® Bước 2: Tu File kéo tha chọn Distances, từ Distances kéo thả chọn

Hierarchical Clustering

- Trong hộp thoại Distance:

+ Distance Metric: chon Euclidean

A Distances - Orange ? x 1

File View Window’ Help

Compare

© Rows © Columns

; Distance Metric

© Euclidean (normalized) (©) Cosine

° Euclidean © Pearson

© Manhattan (normalized) () Pearson (absolute)

() Manhattan (O Spearman

©) Mahalanobis © Spearman (absolute)

© Hamming ©) Jaccard

a Apply Automatically

= ? B | 324 G 241x241

- Trong hộp thoai Hierarchical Clustering:

+Linkaqe: Chọn Complete ( Chọn phương pháp tính khoảng cach la Complete

vì các cụm phân bố khá đồng đều và không bị quá chênh lệch như các phương

pháp còn lại)

+Top N: Chọn 4 ( Phân thành 2 cụm)

Ngày đăng: 25/09/2024, 16:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w