1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xácsuất&Thốngkê (mt2013) lớp l18 phân tích chi phí giao hàng cho các Đơn hàng Điện tử

34 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự Báo Chi Phí Giao Hàng Cho Các Đơn Hàng Điện Tử
Người hướng dẫn TS. Vế Xuân Thanh
Trường học Trường Đại Học Bách Khoa
Chuyên ngành Xác Suất & Thống Kê
Thể loại bài tập lớn
Năm xuất bản 2024
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 34
Dung lượng 3,92 MB

Nội dung

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18 Ta cĩ thể phát biểu bài tốn ước lượng như sau: Giả sử ta cần khảo sát một đặc tính X thuộc một tổng thể xác định.. 2.2 Phân t

Trang 1

DAI HOC QUOC GIA THANH PHO HO CHI MINH

TRUONG DAI HOC BACH KHOA KHOA DIEN - DIEN TU’

PHAN TICH CHI PHI GIAO HANG

CHO CAC DON HANG DIEN TU’

Trang 2

2.3.3 Ước lượng các hệ số hồi quy trong mô hình hồi quy tuyến tính đơn

2.3.8 Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn

3 TIỀN XỬ LÝ SỐ LIẸU

4 Thống kê mô tả

5 THỐNG KÊ SUY DIỄN

7 NGUON DU LIEU VA NGUON CODE

Giảng viên hướng dẫn: TS VÕ XUAN THANH Trang 1

Trang 3

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 1

Danh sách hình vẽ

3.1 Kết quả 10 dòng đầu tiên của dirty_data 12

3.2 Kết quả cấu trúc tệp tin dirty_data 12

3.3 Kết quả 10 dòng đầu tiên của ntiw_data 13

3.4 — Kết quả kiểm tra dữ liệukhUYẾUP 0202020202222 2x 13 3.5 Kết quả kiểm tra dữ liệukhUYẾUP cece cece cece neces 14 3ó — Kết quả kiểm tra dữ liệukhUYẾU cece cece eee eee eees 14 4.7 Kết quả thống kê mô tả - 15

4.8 Kết quả thống kê số lượng cho mỗi nhóm phân loại biến ntiartist_wartihousti 15

4.9 Kết quả thống kê số lượng cho mỗi nhóm phân loại biến stiason 15

4.10 Kết quả thống kê số lượng cho mỗi nhóm phân loại biến is_tixptidittid_dtilivtiry 15

4.11 Kết quả đồ thị hisogram cho dtilivtiry_chargfis 16

4.12 Kết quả đồ thị phân tán giữa dtilivtiry_chargtis và các biến định lượng 17

4.13 Kết quả thống kê ngoại tìm thấy ở các biến 17

4.14 Kết quả đồ thị phân tán giữa dtilivtiry_chargtis và các biến định lượng 18

4.15 Kết quả thống kê ngoại tìm thấy ở các biến 19

4.16 Két qua thống kê ngoại tìm thấy ở các biến 19

4.17 Kết quả thống kê ngoại tìm thấy ở các biến 20

5.18 Kết quả các đặc trưng mẫu 20

5.19 Kết quả đồ thị kiểm traphânphốchuẩn 21

5,20 Kết quả kiểm định kiểm tra phân phối chuẩn 21

5,21 Kết quả sai số ước lượng - - 21

Trang 4

5,22 Kết quả khoảng finCẬậyV 2000000000000 0 0 0 0 0 0 0 01 v1 vn ng ty tk va 22

5,23 Kết quả các đồ thị kiểm tra giả định 1 23

5,24 Kết quả kiểm định shapiro.ttist kiểm tra giả định 1 23

5,25 Kết quả kiểm định ItivtintiTtist kiểm tra giả định 2 - 24

5.26 Két qua phantich phuongsai métnhant6 24

5.27 Ket quasosanh bOi cece cette tte n eens eet nneesegs 24 5,28 Kết quả đồ thị so sánh bội - 25

5,29 Kết quả mô hình hồi quy tuyến tính bội 27

5,30 Kết quả mô hình hồi quy tuyến tính bội 2 28

5,31 Kết quả các đồ thị kiểm tra giả định mô hình 29

5,32 Kết quả các đồ thị kiểm tra giả định mô hình 30

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 3

Trang 5

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18

Bộ dữ liệu này chứa thông tin về một cửa hàng điện tử trực tuyến Cửa hàng có ba kho hang để giao hang cho khách hàng

Dữ liệu gốc được cung cấp: tại đây

Các biến trong bộ dữ liệu bao gôm:

gần nhất với khách hàng (Thompson, Nickolson và Baktirs)

được áp dụng

khi áp dụng chiết khấu và phí giao hàng

(Spring, Summtir, Autumn, Winttir)

hàng nhanh không? (Truti - Falsti)

có hài lòng với đơn hàng gần nhất không ?

2.1 Khoảng tin cậy

Các tham số đặc trưng của tổng thể như trung bình, tỷ lệ, phương sai, được sử dụng rất nhiều trong những phân tích kinh tế xã hội và các lĩnh vực khác Tuy nhiên vì lý do tổng thể khá lớn hoặc trong nhiều trường hợp ta không thể khảo sát được toàn bộ tổng thể, nên các tham số đặc trưng này thường là chưa biết Vì vậy đặt ra vấn đề cần ước lượng chúng bằng phương pháp mẫu

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 4

Trang 6

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18

Ta cĩ thể phát biểu bài tốn ước lượng như sau:

Giả sử ta cần khảo sát một đặc tính X thuộc một tổng thể xác định Đại lượng ngẫu nhiên X cĩ phân phối F(x;8) trong đĩ tham số Ø chưa biết Hãy ước lượng tham số 6

Định nghĩa: Cho tham số Ø của tổng thể và X;,Xz X„ là các quan sát ngẫu nhiên Ta gọi khoảng (e,đ) là khoảng ước lượng (hay khoảng tin cậy) của tham số Ø với độ tin cậy y nếu:

P(0 € (eđ)) = y

Cĩ thể nĩi, độ tin cậy y cho khoảng ước lượng của tham số Ø chính là xác suất để ta đúng khi ước lượng tham số Ø bằng khoảng (c,đ) Ngược lại, xác suất mà ta cho phép sai khi ước lượng Ờ được gọi là mức ý nghĩa Kí hiệu là œ Ta cĩ œ + y= 1

Bảng tĩm tắt các bài tốn tìm khoảng tin cậy đối xứng (trung bình, tỷ lệ, phương sai):

Lưu ý đối bài tốn ước lượng trung bình dạng (3), trường hợp chưa biết ơ thì thay bằng s

Lưu ý khác:

Giả định (1): X:~ N(u,0?), đã biết ơ?

Giả định (2): X:~ N(h,0”), chưa biết ở?

Giả định (3): Phân phối tuỳ ý, mẫu lớn (n > 30) Bài tốn

xác định kích thước mẫu:

Lưu ý đối bài tốn ước lượng trung bình dạng (3), trường hợp chưa biết Ø thì thay bằng s

2.2 Phân tích phương sai

Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhĩm (tổng thể) dựa trên các giá trị trung bình của các mẫu quan sát từ các nhĩm này, và thơng qua kiểm đỉnh giả thuyết để kết luận sự bằng nhau của các trung bình tổng thể này Trong nghiên cứu, phân tích phương sai được xtim như một cơng cụ

để xtim xét sự ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tế kết quả (định lượng)

Ta cĩ các mơ hình phân tích phương sai như sau: phân tích phương sai một nhân tố, 2 nhân tố và 3 nhân tố Cụm từ nhân tố cho ta số lượng nhân tố nguyên nhân ảnh hưởng đến kết quả ta nghiên cứu

2.2.1 Phân tích phương sai một nhân tố

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 5

Trang 7

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18

Phân tích phương sai một nhân tế là phân tích ảnh hưởng của một nhân tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một nhân tế kết quả (dạng biến định lượng) đang nghiên cứu

Các giả định trong mô hình phân phương sai một yếu tế

Giả sử ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu nhiên và độc lập m, n;, m, , nụ quan sát từ k tổng thể này Cần ghi nhớ ba giả định sau đây để được tiến hành phân tích Anova:

+ Các tổng thể này có phân phối chuẩn

+ Các phương sai của tổng thể bằng nhau + Các

quan sát được lấy mẫu là độc lập

Giả thiết cho bài toán phân tích phương sai một nhân tế

Nếu trung bình các tổng thể được ký hiệu là ”,, , thì ta có các giả thiết trong mô hình phân tích phương sai như sau:

Các bước tiến hành phân tích phương sai một nhân tố

Bước 1: Tính trung bình mẫu của các nhóm (mẫu xtim như đại diện cho các tổng thể): + Tính

trung bình mẫu của từng nhóm x:,x›, x„ thtio công thức sau:

Bước 2: Tính tổng các chênh lệch bình phương (gọi tắt là tổng bình phương) + Tính tổng các

chênh lệch bình phương giữa các nhóm &§SE (hay &§SG):

k SSB Xc —®)? = mị.(®I — ®)° + na.(#a — ®)” + + nự.(#g — ®)

Trang 8

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18

N — k v6i N la tong s6 quan sát ở toàn bộ các nhóm

+ Tính phương sai toàn bộ:

SST MST = Voi

Bước 4: Tính thống kê kiểm định (tiêu chuẩn kiểm định, giá trị quan sát):

_ MSB

~ MSW

Bước 5: Xác định miền bác bỏ của bài toán: RR = (Fax-i;u-x;+e) hay F > Fax-;u-¿ Bước 6: Dura ra két luan: Nếu F > F„z-,„-,© F € RR = Bác bỏ Họ, chấp nhận H;

Nếu F < Fa¿_„w_, F /€ RR = không bác bỏ Ho (chưa bác bỏ được Ho, chấp nhận Ha)

Bảng mô hình phân tích phương sai một nhân tố:

2.2.2 Phân tích phương sai hai nhân tố có lặp

Phân tích phương sai hai nhân tố sử dụng để nghiên cứu tác động:

tì Hai nhân tố được quan tâm trên một biến phụ thuộc (biến giải thích) Ví dụ: ảnh hưởng của ánh sáng (cường độ: mạnh, trung bình, yếu) và lượng nước (nhiều, ít) tưới lên chiều cao của cây tì Tương tác giữa các mức khác nhau của hai nhân tố Ví dụ: có tương tác nào giữa cường độ ánh sáng mạnh chiếu lên cây khi tưới nhiều nước hay không?

Các giả thiết cho bài toán phân tích phương sai hai nhân tố có lặp

Đối với nhân tố A

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 7

Trang 9

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18

HoA : Hal = H2 = = Hạa

Hạ: duai6= Hạ 6= j)

Đối với nhân tố B

HoB: Hal = Ha2= = Hàn

Hyg: đù 6= túi 6= j)

Đối với sự tương tác giữa A và B

Hoaz: Khơng cĩ sự tương tác giữa A và B

Hyg: Cĩ sự tương tác giữa A và B

Bảng mơ hình phân tích phương sai hai nhân tố cĩ lặp

Bác bỏ Hoa khi Fa > Fa(a-1),(N-ab)

Bác b6é Hog khi FB > Fa (b-1),(N-ab)

Bác bỏ Hoà khi Fas > Fa,(a-1)(b-1),(N-ab)

2.3 Hồi quy

2.3.1 Mơ hình hồi quy tuyến tính đơn

Một mơ hình thống kê tuyến tính đơn (Simplti lintiar rtigrtission modtil) liên quan đến một biến ngẫu nhiên

Y và một biến giải thích X là phương trình cĩ dạng:

Y=Øo+Øi.X+c

Trong đĩ:

+ 8o;ổ: là các tham số chưa biết, gọi là các hệ số hồi quy

+ X là biến độc lập, giải thích cho Y

+ là thành phần sai số, được giả sử cĩ phân phối chuẩn với (£) = Ú và Var(e) = 07,

2.3.2 Các giả định của các sai số ngẫu nhiên

Các sai số ngẫu nhiêr; ¿ = 1, 2 ,' trong mơ hình (*) được giả sử thỏa các điều kiện sau:

+ Các sai số ; độc lập với nhau

+ E(e;) =0 va Var(e;) = 0%,

+C&c sai s6 c6 phan phéi chuani ~ NV (0; 0”) voi phương sai khơng đổi

Với quan trắc X đã biết, E(Y |X) = Bo + B.X, từ đĩ suy ra Y ~ N(Ða+ 8.X;Ø?)

2.3.3 Ước lượng các hệ số hồi quy trong mơ hình hồi quy tuyến tính đơn

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 8

Trang 10

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18

Phương trình hồi quy tuyến tính Y thtio X với các hệ số ước lượng (fitttid rtigrtission linti) có dạng:

Y=fo+0\X

Trong đó: bo và p: là các hệ số ước lượng cho Bo va Bi, được tìm từ phương pháp bình phương cực tiểu (mtithod of ltiast squartis) Đây là đường thằng hồi quy mẫu, xấp xỉ tốt nhất có thể đi qua các điểm dữ liệu Dựa vào phương pháp bình phương cực tiểu, các hệ số ước lượng được tính như sau:

Các ước lượng 0 Yà ØL _tìm được gọi là các ước lượng bình phương bé nhất

Phương trình hồi quy Y = o +.X gọi là đường thẳng bình phương bé nhất, thỏa các tính chất sau:

Hệ số xác định (cotifficitint of dtittirmination) là tỷ lệ của tổng sự biến thiên trong biến phụ thuộc gây ra bởi

sự biến thiên của các biến độc lập (biến giải thích) so với tổng sự biến thiên toàn phần Hệ số xác định thường được gọi là R - bình phương (R-squartid), ký hiệu là R” Công thức tinh:

SSR

~ SST R?

Hệ số xác định giải thích trong 100% sự biến động của Y so với trung bình của nó thì có bao nhiêu % là do biến X gây ra, do đó nó cho phép ta đánh giá mô hình tìm được có giải thích tốt cho mối liên hệ giữa biến phụ thuộc Y và biến độc lập X hay không?

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 9

Trang 11

DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18

Phân tích tương quan (Corrtilation Analysis) dùng để đo độ mạnh của mối liên hệ tuyến tính giữa hai biến ngẫu nhiên Ta thường sử dụng: hiệp phương sai và hệ số tương quan để phân tích tương quan Xét hai biến ngẫu nhiên X, Y, hiệp phương sai (Covariancti) của X và Y, ký hiệu là Cov(X,Y ), được định nghĩa như sau:

Cov(X%Y ) = E(XY) - E(X).E(Y )

Và hệ số tương quan (Corrtilation cotifficitint) của hai biến ngẫu nhiên X và Y, ký hiệu Øxw, được xác định như sau:

Hệ số xác định R?của mô hình hồi quy tuyến tính đơn bằng với bình phương của hệ số tương quan

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 10

Trang 12

DỰ BẢO CHÍ PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỪ

mẫu: R2 = rxr2

Đánh giá hệ số tương quan:

+ Miền giá trị: -1 < rx< 1 + raz< O: X, Y có

quan hệ nghịch biến

+ r>O: X, Y có quan hệ đồng biến

+ |rx| < 0.3: X,Y không có mối quan hệ tuyến tính

+0.3 < || < 0.5: X,Y có mối quan hệ tuyến tính rất yếu

+ 0.5 < [rv | < 0.8: X,Y c6 quan hé tuyến tính trung bình + 0.8 < |

rxz| :X,Y có quan hệ tuyến tính mạnh

Ước lượng sai số chuẩn, phương sai

X, Y nghịch biến và có quan hệ tuyến tính mạnh

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 11

Trang 13

Phương sai của ước lượng: m — 2

Ý nghĩa: đo sự biến thiên của các giá trị quan trắc y với đường thẳng hồi quy

1, Đặt giả thuyết và xác định miền bác bỏ tương ứng (sử dụng một trong hai cách viết miền bác bỏ):

Ho: Bo= Boo;Hi: Bo6= Boo RR= (—œ; —f 2) U (f2; +06) lfol > BH

Thông thường thì 8oo= 0

1, Đặt giả thuyết và xác định miền bác bỏ tương ứng (sử dụng một trong hai cách viết miền bác bỏ):

Ho: Bi= BiH: 1 6= Bro RR = (=00; #75) U (#275; +00) |to| > tS

Thông thường thì 8:o= 0

2 Tính thống kê kiểm định:

SSE Sy.\/n(n — 2)

2.3.8 Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn

Họ: Rˆ = 0 hoặc (8; = 0): Phương trình đường hồi quy không thích hợp

H,: R’ 6= 0 hoac (8, 6= 0): Phương trình đường hồi quy thích hợp

Ho: pxr= O: X, Y không có tương quan tuyến tính

Hi: Pxy 6= 0: X, Y có tương quan tuyến tính

Trang 14

2.4 Mô hồi quy tuyến tính bội

Mô hình hồi quy bội (Multiplti Rtigrtission Modtil) là một công cụ mạnh mẽ trong thống kê và phân tích dữ liệu, giúp nghiên cứu mối quan hệ giữa một biến phụ thuộc và nhiều biến độc lập Dưới đây là cơ sở lý thuyết và một

số tài liệu tham khảo liên quan đến mô hình hồi quy bội Mô hình này mở rộng từ hồi quy tuyến tính đơn giản, trong đó chỉ có một biến độc lập

Biến phụ thuộc (Dtiptindtint Variablti): Là biến mà bạn muốn dự đoán hoặc giải thích

Biến độc lập (Indtiptindtint Variabltis): Là các biến được sử dụng để dự đoán hoặc giải thích biến phụ thuộc

Công thức của mô hình hồi quy bội là:

Y=Bo+B:Xi+tB:X:+ + ñuX\+ £

Trong đó:

+Y: biến phụ thuộc

+ Xu,X›, X.: các biến độc lập + Bo: hé sé

chặn

+ „B›, :: hệ số hồi quy của các biến độc lập

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 13

Trang 15

DU’ BAO CHI PHI GIAO HANG CHO CAC DON HANG DIEN TU’

4 ORDO19224 ID4544561904 2019-01-12 Nickolson

5 ORD104032 ID6231506320 2019-11-28 Nickolson

6 ORD146760 ID0311654900 2019-09-16 Bakers

7 ORD337984 ID3394768956 2019-09-14 Thompson

8 ORDO72312 ID0774517121 2019-05-23 Thompson

9 ORD377837 1D4769265355 2019-10-09 Bakers

10 ORD462194 IDS301568579 2019-03-21 Thompson

Hình 3.1 Két qua 10 déng dau tién cua dirty_data

Ngoài ra, ta có thể thực hiện kiểm tra thêm cấu trúc của tệp tin bằng lệnh str:

1 str(dirty_data)

‘data.frame': 500 obs of 16 variables:

$ order_id : chr "ORD182494" "ORD395518" "ORD494479" "ORDO19224"

$ customer_id : chr "106197211592" "100282825849" "100579391891" "ID4544561904"

$ date : chr "2019-06-22" "2019-12-29" "2019-03-02" "2019-@1-12"

$ nearest_warehouse : chr "Thompson" "Thompson" "Nickolson" "Nickolson”

$ shopping_cart : chr “[(C'Lucent 330S', 1), ('Thunder line’, 2), C'iStream', 2), C'pearTv',

1)]" "CC'Thunder line', 1), (‘Universe Note’, 2)]" “[C'Thunder Line’, 1), C'pearTV', 2)]" "[C'Universe Note’,

1), C'Alcon 10", 2), C'Olivia x460", 1), C'iAssist Line’, 1)]"

phone." "charger did not fit the charger didn't fit."

$ is_happy_customer : chr “True” "False" “True” "False"

$ season : chr “Winter” "Summer" "Autumn" "Summer"

$ is_expedited_delivery : chr "True" "False" "False" "False"

$ distance_to_nearest_warehouse: num 1.28 1.162 1.095 0.857 0.587

$ latest_customer_review : chr “perfect phone and trusted seller phone itself is amazing i got this

phone as shown here on the description i"! truncated "it keeps dropping calls the wifi don't work this is

a waste of money this phone is worthless, it keeps dropping"! truncated "five stars this is a great cheap

Hình 3.2 Kết quả cấu trúc tệp tin dirty_data

Dựa trên kết quả cho thấy, tệp tỉn bao gồm 500 quan sát với 1ó biến, trong đó các biến ordtir_pricti, dtilivtiry_chargtis, customtir_lat, customtir_long, ordtir_total, distancti_to_ntiartist_wartihousti là các biến định lượng, các biến còn lại đều là các biến định tính

3.2 Làm sạch dữ liệu

Trong quá trình phân tích dữ liệu, việc xác định và lựa chọn các biến phù hợp là rất quan trọng để nâng cao hiệu quả và tính chính xác của kết quả Các biến như ordtir _¡d và customtir_¡d chỉ đóng vai trò là định danh duy nhất cho đơn hàng và khách hàng, do đó không cung cấp thông tin hữu ích cho phân tích Tương tự, biến datti, mặc

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 14

Trang 16

dù có thể có giá trị trong các phân tích thtio thời gian, nhưng không thật sự cần thiết trong bối cảnh này vì đã có biến stiason

Ở đề tài này, mục tiêu của ta là phân tích chỉ phí vận chuyển Đó đó, ta chỉ sử dụng ordtir_pricti (giá trị gốc của đơn hàng) mà không dùng ordtir_total vì ordtir_pricti phản ánh chính xác giá trị sản phẩm trước khi áp dung giảm giá, giúp xác định rõ mối quan hệ giữa giá trị hàng hóa và chỉ phí vận chuyển Và việc ta loại bỏ ordtir_total

vi ordtir_total có liên quan tuyến tính mạnh với ordtir_pricti, sẽ dễ gây hiện tượng đa cộng tuyến khi đưa vào mô hình

Ngoài ra, biến shopping_ cart, với chỉ tiết phức tạp về mặt hàng, có thể gây khó khăn trong việc phân tích nếu không tập trung vào từng sản phẩm cụ thể Cuối cùng, biến lattist_customtir_rtivitiw, mặc dù có thể phản ánh sự hài lòng của khách hàng, nhưng nếu thiếu chỉ số định lượng rõ ràng, sẽ không phù hợp cho phân tích định lượng

Sau khi loại bỏ các biến không cần thiết, chúng ta sẽ tạo bộ dữ liệu mới bao gồm các biến sẽ phân tích như ntiartist_wartihousti, ordtir_pricti, dtilivtiry_chargtis, customtir_lat, customtir_long, coupon_ discount, stiason, is_tixptidittid_ dtilivtiry, distancti_to_ntiartist_wartihousti Việc này giúp giảm thiểu sự phức tap của dữ liệu va tập trung vào các yếu tố quan trọng, từ đó nâng cao khả năng hiểu rõ hành vi của khách hàng

Hình 3.3 Kết quả 10 dòng đầu tiên của ntiw_ data

Tiếp thtio, ta sẽ sử dụng thư viện qutistionr và lệnh frtiq.na để in bảng thống kê số lượng và tỷ lệ dữ liệu liệu khuyết cho các biến trong tệp tin ntiw_ data, và kết quả thu được như sau

Hình 3.4 Kết quả kiểm tra dữ liệu khuyết

Dựa trên kết quả, ta nhận thấy không có dữ liệu khuyết trong tệp tin cần xử lý

Tiếp thtio, ta sử dụng lệnh uniquti cho biến ntiartist_wartihousti, ta sẽ nhận được danh sách các giá trị khác nhau đại diện cho các kho hàng gần nhất đến khách hàng Điều này có thể giúp ta rõ hơn về sự phân bố của các kho hàng và xác định xtim dữ liệu có cần điều chỉnh hay không

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 15

Trang 17

Hình 3.5 Kết quả kiểm tra dữ liệu khuyết

Kết quả cho thấy có một số giá trị khác nhau, bao gồm cả định dạng viết hoa và viết thường Cụ thể, ta có sự xuất hiện của các giá trị viết hoa (như "Thompson", "Nickolson", "Baktirs") và viết thường (như "nickolson",

"thompson")

Ta sẽ thực hiện việc điều chỉnh các tên kho hàng trong cột ntiartist_wartihousti để đảm bảo tính nhất quán trong

dữ liệu

ntiw_data$ntiartist_wartihousti[ntiw_data$ntiartist_wartihousti == 'nickolson”] <- 'Nickolson”

ntiw_data$ntiartist_wartihousti[ntiw_data$ntiartist_wartihousti == ‘thompson’] <- ‘Thompson’

Hình 3.ó Kết quả kiểm tra dữ liệu khuyết

Dựa trên kết quả đầu ra, ta thấy rằng trong cột stiason có sự xuất hiện của cả giá trị viết hoa (như "Winttir",

"Summtir", "Autumn", "Spring") và viết thường (như "winttir", "spring", "autumn", "summtir") Điều này cho thấy cần có bước xử lý để đảm bảo tính nhất quán trong dữ liệu

Ta sẽ thay thế các giá trị viết thường bằng phiên bản viết hoa đầu dòng

ntiw_ data$stiason[ntiw_ data$stiason == 'spring'] <- 'Spring' ntiw_ data$stiason[ntiw_ data$stiason == 'summtir'] <- ‘Summtir’

ntiw_data$stiason[ntiw_data$stiason == ‘autumn’] <- ‘Autumn’ ntiw_data$stiason[ntiw_data$stiason == 'winttir'] <- 'Winttir’

1 dtiscribti_function <- function(x) {c(mtian(x),sd(x),mtidian(x) quantilti(x,probs=0.25), quantilti(x, probs=0.75),min(x),max(x))}

2 dtiscribti_tablti <-apply(ntiw_ data[,c("ordtir_pricti","dtilivtiry_chargtis","custumtir_lat","

customtir_long","“coupon_discount","distancti_to_ntiartist_wartihousti")],2,dtiscribti_ function)

rownamtis(dtiscribti_tablti)=c("mtian","sd","mtidian","Q4","Q3","min","max") print(dtiscribti_tablti)

Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 1ó

Ngày đăng: 19/12/2024, 15:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w