DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18 Ta cĩ thể phát biểu bài tốn ước lượng như sau: Giả sử ta cần khảo sát một đặc tính X thuộc một tổng thể xác định.. 2.2 Phân t
Trang 1DAI HOC QUOC GIA THANH PHO HO CHI MINH
TRUONG DAI HOC BACH KHOA KHOA DIEN - DIEN TU’
PHAN TICH CHI PHI GIAO HANG
CHO CAC DON HANG DIEN TU’
Trang 22.3.3 Ước lượng các hệ số hồi quy trong mô hình hồi quy tuyến tính đơn
2.3.8 Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn
3 TIỀN XỬ LÝ SỐ LIẸU
4 Thống kê mô tả
5 THỐNG KÊ SUY DIỄN
7 NGUON DU LIEU VA NGUON CODE
Giảng viên hướng dẫn: TS VÕ XUAN THANH Trang 1
Trang 3
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 1
Danh sách hình vẽ
3.1 Kết quả 10 dòng đầu tiên của dirty_data 12
3.2 Kết quả cấu trúc tệp tin dirty_data 12
3.3 Kết quả 10 dòng đầu tiên của ntiw_data 13
3.4 — Kết quả kiểm tra dữ liệukhUYẾUP 0202020202222 2x 13 3.5 Kết quả kiểm tra dữ liệukhUYẾUP cece cece cece neces 14 3ó — Kết quả kiểm tra dữ liệukhUYẾU cece cece eee eee eees 14 4.7 Kết quả thống kê mô tả - 15
4.8 Kết quả thống kê số lượng cho mỗi nhóm phân loại biến ntiartist_wartihousti 15
4.9 Kết quả thống kê số lượng cho mỗi nhóm phân loại biến stiason 15
4.10 Kết quả thống kê số lượng cho mỗi nhóm phân loại biến is_tixptidittid_dtilivtiry 15
4.11 Kết quả đồ thị hisogram cho dtilivtiry_chargfis 16
4.12 Kết quả đồ thị phân tán giữa dtilivtiry_chargtis và các biến định lượng 17
4.13 Kết quả thống kê ngoại tìm thấy ở các biến 17
4.14 Kết quả đồ thị phân tán giữa dtilivtiry_chargtis và các biến định lượng 18
4.15 Kết quả thống kê ngoại tìm thấy ở các biến 19
4.16 Két qua thống kê ngoại tìm thấy ở các biến 19
4.17 Kết quả thống kê ngoại tìm thấy ở các biến 20
5.18 Kết quả các đặc trưng mẫu 20
5.19 Kết quả đồ thị kiểm traphânphốchuẩn 21
5,20 Kết quả kiểm định kiểm tra phân phối chuẩn 21
5,21 Kết quả sai số ước lượng - - 21
Trang 45,22 Kết quả khoảng finCẬậyV 2000000000000 0 0 0 0 0 0 0 01 v1 vn ng ty tk va 22
5,23 Kết quả các đồ thị kiểm tra giả định 1 23
5,24 Kết quả kiểm định shapiro.ttist kiểm tra giả định 1 23
5,25 Kết quả kiểm định ItivtintiTtist kiểm tra giả định 2 - 24
5.26 Két qua phantich phuongsai métnhant6 24
5.27 Ket quasosanh bOi cece cette tte n eens eet nneesegs 24 5,28 Kết quả đồ thị so sánh bội - 25
5,29 Kết quả mô hình hồi quy tuyến tính bội 27
5,30 Kết quả mô hình hồi quy tuyến tính bội 2 28
5,31 Kết quả các đồ thị kiểm tra giả định mô hình 29
5,32 Kết quả các đồ thị kiểm tra giả định mô hình 30
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 3
Trang 5DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18
Bộ dữ liệu này chứa thông tin về một cửa hàng điện tử trực tuyến Cửa hàng có ba kho hang để giao hang cho khách hàng
Dữ liệu gốc được cung cấp: tại đây
Các biến trong bộ dữ liệu bao gôm:
gần nhất với khách hàng (Thompson, Nickolson và Baktirs)
được áp dụng
khi áp dụng chiết khấu và phí giao hàng
(Spring, Summtir, Autumn, Winttir)
hàng nhanh không? (Truti - Falsti)
có hài lòng với đơn hàng gần nhất không ?
2.1 Khoảng tin cậy
Các tham số đặc trưng của tổng thể như trung bình, tỷ lệ, phương sai, được sử dụng rất nhiều trong những phân tích kinh tế xã hội và các lĩnh vực khác Tuy nhiên vì lý do tổng thể khá lớn hoặc trong nhiều trường hợp ta không thể khảo sát được toàn bộ tổng thể, nên các tham số đặc trưng này thường là chưa biết Vì vậy đặt ra vấn đề cần ước lượng chúng bằng phương pháp mẫu
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 4
Trang 6DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18
Ta cĩ thể phát biểu bài tốn ước lượng như sau:
Giả sử ta cần khảo sát một đặc tính X thuộc một tổng thể xác định Đại lượng ngẫu nhiên X cĩ phân phối F(x;8) trong đĩ tham số Ø chưa biết Hãy ước lượng tham số 6
Định nghĩa: Cho tham số Ø của tổng thể và X;,Xz X„ là các quan sát ngẫu nhiên Ta gọi khoảng (e,đ) là khoảng ước lượng (hay khoảng tin cậy) của tham số Ø với độ tin cậy y nếu:
P(0 € (eđ)) = y
Cĩ thể nĩi, độ tin cậy y cho khoảng ước lượng của tham số Ø chính là xác suất để ta đúng khi ước lượng tham số Ø bằng khoảng (c,đ) Ngược lại, xác suất mà ta cho phép sai khi ước lượng Ờ được gọi là mức ý nghĩa Kí hiệu là œ Ta cĩ œ + y= 1
Bảng tĩm tắt các bài tốn tìm khoảng tin cậy đối xứng (trung bình, tỷ lệ, phương sai):
Lưu ý đối bài tốn ước lượng trung bình dạng (3), trường hợp chưa biết ơ thì thay bằng s
Lưu ý khác:
Giả định (1): X:~ N(u,0?), đã biết ơ?
Giả định (2): X:~ N(h,0”), chưa biết ở?
Giả định (3): Phân phối tuỳ ý, mẫu lớn (n > 30) Bài tốn
xác định kích thước mẫu:
Lưu ý đối bài tốn ước lượng trung bình dạng (3), trường hợp chưa biết Ø thì thay bằng s
2.2 Phân tích phương sai
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhĩm (tổng thể) dựa trên các giá trị trung bình của các mẫu quan sát từ các nhĩm này, và thơng qua kiểm đỉnh giả thuyết để kết luận sự bằng nhau của các trung bình tổng thể này Trong nghiên cứu, phân tích phương sai được xtim như một cơng cụ
để xtim xét sự ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tế kết quả (định lượng)
Ta cĩ các mơ hình phân tích phương sai như sau: phân tích phương sai một nhân tố, 2 nhân tố và 3 nhân tố Cụm từ nhân tố cho ta số lượng nhân tố nguyên nhân ảnh hưởng đến kết quả ta nghiên cứu
2.2.1 Phân tích phương sai một nhân tố
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 5
Trang 7DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18
Phân tích phương sai một nhân tế là phân tích ảnh hưởng của một nhân tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một nhân tế kết quả (dạng biến định lượng) đang nghiên cứu
Các giả định trong mô hình phân phương sai một yếu tế
Giả sử ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu nhiên và độc lập m, n;, m, , nụ quan sát từ k tổng thể này Cần ghi nhớ ba giả định sau đây để được tiến hành phân tích Anova:
+ Các tổng thể này có phân phối chuẩn
+ Các phương sai của tổng thể bằng nhau + Các
quan sát được lấy mẫu là độc lập
Giả thiết cho bài toán phân tích phương sai một nhân tế
Nếu trung bình các tổng thể được ký hiệu là ”,, , thì ta có các giả thiết trong mô hình phân tích phương sai như sau:
Các bước tiến hành phân tích phương sai một nhân tố
Bước 1: Tính trung bình mẫu của các nhóm (mẫu xtim như đại diện cho các tổng thể): + Tính
trung bình mẫu của từng nhóm x:,x›, x„ thtio công thức sau:
Bước 2: Tính tổng các chênh lệch bình phương (gọi tắt là tổng bình phương) + Tính tổng các
chênh lệch bình phương giữa các nhóm &§SE (hay &§SG):
k SSB Xc —®)? = mị.(®I — ®)° + na.(#a — ®)” + + nự.(#g — ®)
Trang 8DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18
N — k v6i N la tong s6 quan sát ở toàn bộ các nhóm
+ Tính phương sai toàn bộ:
SST MST = Voi
Bước 4: Tính thống kê kiểm định (tiêu chuẩn kiểm định, giá trị quan sát):
_ MSB
~ MSW
Bước 5: Xác định miền bác bỏ của bài toán: RR = (Fax-i;u-x;+e) hay F > Fax-;u-¿ Bước 6: Dura ra két luan: Nếu F > F„z-,„-,© F € RR = Bác bỏ Họ, chấp nhận H;
Nếu F < Fa¿_„w_, F /€ RR = không bác bỏ Ho (chưa bác bỏ được Ho, chấp nhận Ha)
Bảng mô hình phân tích phương sai một nhân tố:
2.2.2 Phân tích phương sai hai nhân tố có lặp
Phân tích phương sai hai nhân tố sử dụng để nghiên cứu tác động:
tì Hai nhân tố được quan tâm trên một biến phụ thuộc (biến giải thích) Ví dụ: ảnh hưởng của ánh sáng (cường độ: mạnh, trung bình, yếu) và lượng nước (nhiều, ít) tưới lên chiều cao của cây tì Tương tác giữa các mức khác nhau của hai nhân tố Ví dụ: có tương tác nào giữa cường độ ánh sáng mạnh chiếu lên cây khi tưới nhiều nước hay không?
Các giả thiết cho bài toán phân tích phương sai hai nhân tố có lặp
Đối với nhân tố A
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 7
Trang 9DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18
HoA : Hal = H2 = = Hạa
Hạ: duai6= Hạ 6= j)
Đối với nhân tố B
HoB: Hal = Ha2= = Hàn
Hyg: đù 6= túi 6= j)
Đối với sự tương tác giữa A và B
Hoaz: Khơng cĩ sự tương tác giữa A và B
Hyg: Cĩ sự tương tác giữa A và B
Bảng mơ hình phân tích phương sai hai nhân tố cĩ lặp
Bác bỏ Hoa khi Fa > Fa(a-1),(N-ab)
Bác b6é Hog khi FB > Fa (b-1),(N-ab)
Bác bỏ Hoà khi Fas > Fa,(a-1)(b-1),(N-ab)
2.3 Hồi quy
2.3.1 Mơ hình hồi quy tuyến tính đơn
Một mơ hình thống kê tuyến tính đơn (Simplti lintiar rtigrtission modtil) liên quan đến một biến ngẫu nhiên
Y và một biến giải thích X là phương trình cĩ dạng:
Y=Øo+Øi.X+c
Trong đĩ:
+ 8o;ổ: là các tham số chưa biết, gọi là các hệ số hồi quy
+ X là biến độc lập, giải thích cho Y
+ là thành phần sai số, được giả sử cĩ phân phối chuẩn với (£) = Ú và Var(e) = 07,
2.3.2 Các giả định của các sai số ngẫu nhiên
Các sai số ngẫu nhiêr; ¿ = 1, 2 ,' trong mơ hình (*) được giả sử thỏa các điều kiện sau:
+ Các sai số ; độc lập với nhau
+ E(e;) =0 va Var(e;) = 0%,
+C&c sai s6 c6 phan phéi chuani ~ NV (0; 0”) voi phương sai khơng đổi
Với quan trắc X đã biết, E(Y |X) = Bo + B.X, từ đĩ suy ra Y ~ N(Ða+ 8.X;Ø?)
2.3.3 Ước lượng các hệ số hồi quy trong mơ hình hồi quy tuyến tính đơn
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 8
Trang 10DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18
Phương trình hồi quy tuyến tính Y thtio X với các hệ số ước lượng (fitttid rtigrtission linti) có dạng:
Y=fo+0\X
Trong đó: bo và p: là các hệ số ước lượng cho Bo va Bi, được tìm từ phương pháp bình phương cực tiểu (mtithod of ltiast squartis) Đây là đường thằng hồi quy mẫu, xấp xỉ tốt nhất có thể đi qua các điểm dữ liệu Dựa vào phương pháp bình phương cực tiểu, các hệ số ước lượng được tính như sau:
Các ước lượng 0 Yà ØL _tìm được gọi là các ước lượng bình phương bé nhất
Phương trình hồi quy Y = o +.X gọi là đường thẳng bình phương bé nhất, thỏa các tính chất sau:
Hệ số xác định (cotifficitint of dtittirmination) là tỷ lệ của tổng sự biến thiên trong biến phụ thuộc gây ra bởi
sự biến thiên của các biến độc lập (biến giải thích) so với tổng sự biến thiên toàn phần Hệ số xác định thường được gọi là R - bình phương (R-squartid), ký hiệu là R” Công thức tinh:
SSR
~ SST R?
Hệ số xác định giải thích trong 100% sự biến động của Y so với trung bình của nó thì có bao nhiêu % là do biến X gây ra, do đó nó cho phép ta đánh giá mô hình tìm được có giải thích tốt cho mối liên hệ giữa biến phụ thuộc Y và biến độc lập X hay không?
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 9
Trang 11DỰ BÁO CHI PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỬ Lớp: L18
Phân tích tương quan (Corrtilation Analysis) dùng để đo độ mạnh của mối liên hệ tuyến tính giữa hai biến ngẫu nhiên Ta thường sử dụng: hiệp phương sai và hệ số tương quan để phân tích tương quan Xét hai biến ngẫu nhiên X, Y, hiệp phương sai (Covariancti) của X và Y, ký hiệu là Cov(X,Y ), được định nghĩa như sau:
Cov(X%Y ) = E(XY) - E(X).E(Y )
Và hệ số tương quan (Corrtilation cotifficitint) của hai biến ngẫu nhiên X và Y, ký hiệu Øxw, được xác định như sau:
Hệ số xác định R?của mô hình hồi quy tuyến tính đơn bằng với bình phương của hệ số tương quan
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 10
Trang 12DỰ BẢO CHÍ PHÍ GIAO HÀNG CHO CÁC ĐƠN HÀNG ĐIỆN TỪ
mẫu: R2 = rxr2
Đánh giá hệ số tương quan:
+ Miền giá trị: -1 < rx< 1 + raz< O: X, Y có
quan hệ nghịch biến
+ r>O: X, Y có quan hệ đồng biến
+ |rx| < 0.3: X,Y không có mối quan hệ tuyến tính
+0.3 < || < 0.5: X,Y có mối quan hệ tuyến tính rất yếu
+ 0.5 < [rv | < 0.8: X,Y c6 quan hé tuyến tính trung bình + 0.8 < |
rxz| :X,Y có quan hệ tuyến tính mạnh
Ước lượng sai số chuẩn, phương sai
X, Y nghịch biến và có quan hệ tuyến tính mạnh
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 11
Trang 13Phương sai của ước lượng: m — 2
Ý nghĩa: đo sự biến thiên của các giá trị quan trắc y với đường thẳng hồi quy
1, Đặt giả thuyết và xác định miền bác bỏ tương ứng (sử dụng một trong hai cách viết miền bác bỏ):
Ho: Bo= Boo;Hi: Bo6= Boo RR= (—œ; —f 2) U (f2; +06) lfol > BH
Thông thường thì 8oo= 0
1, Đặt giả thuyết và xác định miền bác bỏ tương ứng (sử dụng một trong hai cách viết miền bác bỏ):
Ho: Bi= BiH: 1 6= Bro RR = (=00; #75) U (#275; +00) |to| > tS
Thông thường thì 8:o= 0
2 Tính thống kê kiểm định:
SSE Sy.\/n(n — 2)
2.3.8 Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn
Họ: Rˆ = 0 hoặc (8; = 0): Phương trình đường hồi quy không thích hợp
H,: R’ 6= 0 hoac (8, 6= 0): Phương trình đường hồi quy thích hợp
Ho: pxr= O: X, Y không có tương quan tuyến tính
Hi: Pxy 6= 0: X, Y có tương quan tuyến tính
Trang 142.4 Mô hồi quy tuyến tính bội
Mô hình hồi quy bội (Multiplti Rtigrtission Modtil) là một công cụ mạnh mẽ trong thống kê và phân tích dữ liệu, giúp nghiên cứu mối quan hệ giữa một biến phụ thuộc và nhiều biến độc lập Dưới đây là cơ sở lý thuyết và một
số tài liệu tham khảo liên quan đến mô hình hồi quy bội Mô hình này mở rộng từ hồi quy tuyến tính đơn giản, trong đó chỉ có một biến độc lập
Biến phụ thuộc (Dtiptindtint Variablti): Là biến mà bạn muốn dự đoán hoặc giải thích
Biến độc lập (Indtiptindtint Variabltis): Là các biến được sử dụng để dự đoán hoặc giải thích biến phụ thuộc
Công thức của mô hình hồi quy bội là:
Y=Bo+B:Xi+tB:X:+ + ñuX\+ £
Trong đó:
+Y: biến phụ thuộc
+ Xu,X›, X.: các biến độc lập + Bo: hé sé
chặn
+ „B›, :: hệ số hồi quy của các biến độc lập
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 13
Trang 15DU’ BAO CHI PHI GIAO HANG CHO CAC DON HANG DIEN TU’
4 ORDO19224 ID4544561904 2019-01-12 Nickolson
5 ORD104032 ID6231506320 2019-11-28 Nickolson
6 ORD146760 ID0311654900 2019-09-16 Bakers
7 ORD337984 ID3394768956 2019-09-14 Thompson
8 ORDO72312 ID0774517121 2019-05-23 Thompson
9 ORD377837 1D4769265355 2019-10-09 Bakers
10 ORD462194 IDS301568579 2019-03-21 Thompson
Hình 3.1 Két qua 10 déng dau tién cua dirty_data
Ngoài ra, ta có thể thực hiện kiểm tra thêm cấu trúc của tệp tin bằng lệnh str:
1 str(dirty_data)
‘data.frame': 500 obs of 16 variables:
$ order_id : chr "ORD182494" "ORD395518" "ORD494479" "ORDO19224"
$ customer_id : chr "106197211592" "100282825849" "100579391891" "ID4544561904"
$ date : chr "2019-06-22" "2019-12-29" "2019-03-02" "2019-@1-12"
$ nearest_warehouse : chr "Thompson" "Thompson" "Nickolson" "Nickolson”
$ shopping_cart : chr “[(C'Lucent 330S', 1), ('Thunder line’, 2), C'iStream', 2), C'pearTv',
1)]" "CC'Thunder line', 1), (‘Universe Note’, 2)]" “[C'Thunder Line’, 1), C'pearTV', 2)]" "[C'Universe Note’,
1), C'Alcon 10", 2), C'Olivia x460", 1), C'iAssist Line’, 1)]"
phone." "charger did not fit the charger didn't fit."
$ is_happy_customer : chr “True” "False" “True” "False"
$ season : chr “Winter” "Summer" "Autumn" "Summer"
$ is_expedited_delivery : chr "True" "False" "False" "False"
$ distance_to_nearest_warehouse: num 1.28 1.162 1.095 0.857 0.587
$ latest_customer_review : chr “perfect phone and trusted seller phone itself is amazing i got this
phone as shown here on the description i"! truncated "it keeps dropping calls the wifi don't work this is
a waste of money this phone is worthless, it keeps dropping"! truncated "five stars this is a great cheap
Hình 3.2 Kết quả cấu trúc tệp tin dirty_data
Dựa trên kết quả cho thấy, tệp tỉn bao gồm 500 quan sát với 1ó biến, trong đó các biến ordtir_pricti, dtilivtiry_chargtis, customtir_lat, customtir_long, ordtir_total, distancti_to_ntiartist_wartihousti là các biến định lượng, các biến còn lại đều là các biến định tính
3.2 Làm sạch dữ liệu
Trong quá trình phân tích dữ liệu, việc xác định và lựa chọn các biến phù hợp là rất quan trọng để nâng cao hiệu quả và tính chính xác của kết quả Các biến như ordtir _¡d và customtir_¡d chỉ đóng vai trò là định danh duy nhất cho đơn hàng và khách hàng, do đó không cung cấp thông tin hữu ích cho phân tích Tương tự, biến datti, mặc
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 14
Trang 16dù có thể có giá trị trong các phân tích thtio thời gian, nhưng không thật sự cần thiết trong bối cảnh này vì đã có biến stiason
Ở đề tài này, mục tiêu của ta là phân tích chỉ phí vận chuyển Đó đó, ta chỉ sử dụng ordtir_pricti (giá trị gốc của đơn hàng) mà không dùng ordtir_total vì ordtir_pricti phản ánh chính xác giá trị sản phẩm trước khi áp dung giảm giá, giúp xác định rõ mối quan hệ giữa giá trị hàng hóa và chỉ phí vận chuyển Và việc ta loại bỏ ordtir_total
vi ordtir_total có liên quan tuyến tính mạnh với ordtir_pricti, sẽ dễ gây hiện tượng đa cộng tuyến khi đưa vào mô hình
Ngoài ra, biến shopping_ cart, với chỉ tiết phức tạp về mặt hàng, có thể gây khó khăn trong việc phân tích nếu không tập trung vào từng sản phẩm cụ thể Cuối cùng, biến lattist_customtir_rtivitiw, mặc dù có thể phản ánh sự hài lòng của khách hàng, nhưng nếu thiếu chỉ số định lượng rõ ràng, sẽ không phù hợp cho phân tích định lượng
Sau khi loại bỏ các biến không cần thiết, chúng ta sẽ tạo bộ dữ liệu mới bao gồm các biến sẽ phân tích như ntiartist_wartihousti, ordtir_pricti, dtilivtiry_chargtis, customtir_lat, customtir_long, coupon_ discount, stiason, is_tixptidittid_ dtilivtiry, distancti_to_ntiartist_wartihousti Việc này giúp giảm thiểu sự phức tap của dữ liệu va tập trung vào các yếu tố quan trọng, từ đó nâng cao khả năng hiểu rõ hành vi của khách hàng
Hình 3.3 Kết quả 10 dòng đầu tiên của ntiw_ data
Tiếp thtio, ta sẽ sử dụng thư viện qutistionr và lệnh frtiq.na để in bảng thống kê số lượng và tỷ lệ dữ liệu liệu khuyết cho các biến trong tệp tin ntiw_ data, và kết quả thu được như sau
Hình 3.4 Kết quả kiểm tra dữ liệu khuyết
Dựa trên kết quả, ta nhận thấy không có dữ liệu khuyết trong tệp tin cần xử lý
Tiếp thtio, ta sử dụng lệnh uniquti cho biến ntiartist_wartihousti, ta sẽ nhận được danh sách các giá trị khác nhau đại diện cho các kho hàng gần nhất đến khách hàng Điều này có thể giúp ta rõ hơn về sự phân bố của các kho hàng và xác định xtim dữ liệu có cần điều chỉnh hay không
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 15
Trang 17Hình 3.5 Kết quả kiểm tra dữ liệu khuyết
Kết quả cho thấy có một số giá trị khác nhau, bao gồm cả định dạng viết hoa và viết thường Cụ thể, ta có sự xuất hiện của các giá trị viết hoa (như "Thompson", "Nickolson", "Baktirs") và viết thường (như "nickolson",
"thompson")
Ta sẽ thực hiện việc điều chỉnh các tên kho hàng trong cột ntiartist_wartihousti để đảm bảo tính nhất quán trong
dữ liệu
ntiw_data$ntiartist_wartihousti[ntiw_data$ntiartist_wartihousti == 'nickolson”] <- 'Nickolson”
ntiw_data$ntiartist_wartihousti[ntiw_data$ntiartist_wartihousti == ‘thompson’] <- ‘Thompson’
Hình 3.ó Kết quả kiểm tra dữ liệu khuyết
Dựa trên kết quả đầu ra, ta thấy rằng trong cột stiason có sự xuất hiện của cả giá trị viết hoa (như "Winttir",
"Summtir", "Autumn", "Spring") và viết thường (như "winttir", "spring", "autumn", "summtir") Điều này cho thấy cần có bước xử lý để đảm bảo tính nhất quán trong dữ liệu
Ta sẽ thay thế các giá trị viết thường bằng phiên bản viết hoa đầu dòng
ntiw_ data$stiason[ntiw_ data$stiason == 'spring'] <- 'Spring' ntiw_ data$stiason[ntiw_ data$stiason == 'summtir'] <- ‘Summtir’
ntiw_data$stiason[ntiw_data$stiason == ‘autumn’] <- ‘Autumn’ ntiw_data$stiason[ntiw_data$stiason == 'winttir'] <- 'Winttir’
1 dtiscribti_function <- function(x) {c(mtian(x),sd(x),mtidian(x) quantilti(x,probs=0.25), quantilti(x, probs=0.75),min(x),max(x))}
2 dtiscribti_tablti <-apply(ntiw_ data[,c("ordtir_pricti","dtilivtiry_chargtis","custumtir_lat","
customtir_long","“coupon_discount","distancti_to_ntiartist_wartihousti")],2,dtiscribti_ function)
rownamtis(dtiscribti_tablti)=c("mtian","sd","mtidian","Q4","Q3","min","max") print(dtiscribti_tablti)
Giảng viên hướng dẫn: TS VÕ XUÂN THANH Trang 1ó