ĐÓI TƯỢNG, MỤC TIỂU 1.1 Mô tả dữ liệu Bộ đữ liệu được sử dụng trong bài báo cáo này bao gôm các thong tin ve giao dịch bán lẻ của cửa hàng điện tử.. Dữ https://www.kagele.com/datasets/
Trang 1a e
DAI HOC QUOC GIA THANH PHO HO CHI MINH q
TRUONG DAI HOC BACH KHOA KHOA DIEN — DIEN TU
000
G
c2
BAO CAO BAI TAP LON
XAC SUAT VA THONG KE
Trang 2Họ và tên MSSV Đóng góp Hoàn
thành
kiên thức nên
Phạm Trường Thịnh 2313310 Code 100%
Danh sách thành viên
Trang 3
3.1 Thống kê các biến định lượng và các biến phân loại
3.2 Dùng đồ thị để thể hiện tương quan trong thống kê mô tả
3.2.1 Đồ thi Histogram
3.2.2 Đồ thị phân tán 3.2.3 Đồ thị Plotbox 3.2.4 Đồ thị Barplot
3.2.5 Đồ thị ma trận tương quan:
4 Thống kê suy diễn
4.1 Mô hình hồi quy tuyến tính
4.2 Mô hình Anova
TÀI LIỆU THAM KHẢO
Trang 41 ĐÓI TƯỢNG, MỤC TIỂU
1.1 Mô tả dữ liệu
Bộ đữ liệu được sử dụng trong bài báo cáo này bao gôm các thong tin ve
giao dịch bán lẻ của cửa hàng điện tử Dữ
https://www.kagele.com/datasets/muhammadshahrayar/transactional-retail-dataset- of-electronics-store?select=dirty_data.csv
liéu duoc lay tr:
Trong đó bao gồm các biến chính cần phân tích:
1 order 1d Phân loại Giá trị định danh cho 1 đơn hàng duy
nhất
2 custumer 1d Phân loại Giá trị định danh cho 1 khách hàng
duy nhất
3 nearest warehouse | Phân loại | Kho hàng gần khách hàng nhất
4 shopping cart Danh sách | Các sản phẩm trong giao dịch, kèm
theo số lượng sản phâm
5 order_price Dinh lượng | Gia don hang trước khi áp dụng phi
giao hàng và các chiết khẩu
6 delivery changes | Định lượng | Chi phí giao hàng
7 coupon_ discount Định lượng | Tỷ lệ chiết khâu
8 order_total Dinh lượng | GIá don hàng sau khi áp dung phi giao
hàng và các chiết khâu
9 season Phân loại Mùa đơn hàng được tạo
10 | lastest customer Định tính | Phản hỏi của khách hàng về đơn hàng
Từ dữ liệu trên, nhóm 9 sẽ sử dụng phương pháp phân tích phương sai 1 yếu
tố và phương pháp hỗi quy tuyến tính để hoàn thành mục tiêu của bài báo cáo:
- Đánh p1á sự ảnh hưởng của gia mặt hang (order_prize) va ma giam gia (coupon_ discount) lên tổng giá trị đặt hàng (order _total)
- _ Xây dựng mô hình hỏi quy tuyến tính dự báo tông giá trị đặt hang (order_total)
Trang 5
Thống kê mô tả
Xác định mô hình sẽ sử
dụng đề hoàn thành mục tiêu báo cáo
Thông kê mô tả hoặc thông kê sô lượng cho các biên
Vẽ đồ thị hisogram, đồ thị phân tán
Ước lượng, kiểm định
tông chi phí trung bình
Thống kê suy diễn
Phân tích phương sai một yêu tô
Trang 6
2 TIỀN XỬ LÝ DỮ LIỆU
2.1 Đọc dữ liệu:
- Đọc wt tin cm data.csv" vao R:
- Kiém tra thong tin trong tệp, bao gồm số dòng, số biến, định dạng các biến, tên các bién,
> str (dirty_data)
"data frame ' : 500 obs of 16 variables:
$ order_id : Chr “ORD182494" "ORD395518" "ORD494479” "ORDO19224"
S$ customer_id : chr “106197211592” "ID0282825849" "ID0579391891" “ID4544561904"
$ date : chr "2019-06-22" "2019-12-29" "2019-03-02" "2019-01-12"
S$ nearest_warehouse : chr “Thompson” “Thompson” “Nickolson™ "“Nickolson”
$ shopping_cart : chr “[C'Lucent 330S', 1), C'Thunder line’, 2), C'iStream', 2), ('pearTV', 1)]
“"(C'Thunder line’, 1), (‘Universe Note', 2)]" "[('Thunder Tiỉne', 1), ('pearTV', 2)]" "[C'Universe Note', 1), ('AT
con 10', 2), (‘Olivia x460', 1), C'iAssist Line’, 1)]"
S$ season : chr “winte "Summer" “Autumn” "Summer"
S$ is_expedited_delivery : chr “True” “False” "False" “False”
$ distance_to_nearest_warehouse: num 1.28 1.162 1.095 0.857 0.587
$ latest_customer_review : chr “perfect phone and trusted seller phone itself is amazing i got this phq
ne as shown here on the description i"| _.truncated_ "it keeps dropping calls the wifi don't work this is a wag
te of money this phone is worthless, it keeps dropping”| _truncated_ "five stars this is a great cheap phone.”
“charger did not fit the charger didn't fit."
S_is happy customer chr “True” “False” “True” “False”
Hình 3.1 Kết quả kiểm tra thông tin trong tệp 2.2 Làm sạch dữ liệu:
- Trước khi phân tích, các biến không liên quan trực tiếp đến mục tiêu nghiên
cứu đã được loại bó để tối ưu hóa đữ liệu Cụ thể:
+ Bién dinh danh (order id, customer id), bién thoi gian (date), va bién địa ly (customer lat, customer long) bị loại bỏ do không cung cấp giá
Trang 7—> Kết quả:
1.2800} 1.162] 0.8571 0.5867 0.6767] 1.3043] 0.6093]
order_total season delivery_charges order_price coupon_discount is_expedited_delivery distance_to_nearest_warehouse
Hình 3.2 Kết quả 10 dòng đầu tiên của tệp tin new_ data
- Kiểm tra dữ liệu et Tinh fone các dữ liệu SNe
— Kết quả: Tông dữ liệu khuyết bang 0 nên không có đữ liệu khuyết nảo tồn tại
Hình 3.4 Kết quả trước khi sửa lỗi định dạng
—› Nhận xét: Có 1 số kết quả bị lỗi định dạng viết thường ở biến season, ta sửa lại các kết quả bị lôi như sau:
— Kết quả:
Hình 3.5 Kết quả sau khi sửa lỗi định dạng
Trang 8
3 THONG KE MO TA
Trước tiên, ta sử dụng thông kê mô ta dé tìm ra các quy luật, tham số mà những nhân tố độc lập tuân theo Sau đó, ta nhận xét từng sự ảnh hưởng của các
biến định ¡ lượng và phân loại lên biến phụ thuộc (order_ total),
3.1 Thống kê các biến định lượng và các biến phân loại
- Lưu các biến định lượng chính cần phan tich vao data moi tén num data
bao gồm các biến chứa số liệu: “orđer total", "order_price","delivery_charges",
"coupon discount", "distance to nearest warehouse"
+ Dùng lệnh Summary dé théng ké tom tat các biến định lượng vừa lưu vào num_ data (max, min, trung vị, trung bình mẫu)
Min : S85 Min : 46.3 Min : 0.00 Min : 639 Min : 0.1078
1st Qu.: 7050 1st Qu 65.98 ist Qu.: 5.00 ist Qu.: 6455 ist Qu.: 0.7514
Median : 12808 Median : 76.31 Median £10.00 Median : 11294 Median : 1.0301
Mean : 25522 Mean : 76.66 Mean 210.89 Mean : 39210 Mean : 2.2042
Hinh 3.2 Két quả tính độ lệch chuẩn của các biến định lượng
- _ Lấy các biến phân loại trong dirty_ data bỏ vào data mới tên là clear data + Dung lénh as.factor dé chuyén déi gia tri trong các biến
“nearest warehouse”, “season”, “is expedited delivery” va
“is _happy_customer” thanh kiéu dit liéu factor
+ Cudéi cing, ta ding Iénh summary dé thông kê số lượng của các biến phân loai
Trang 9
- Nearest_warehouse: Số lượng đơn hàng của 3 kho là khác nhau Kho
Thompson chiếm số lượng đơn hàng cao nhất với 197 đơn, chứng minh được sự
hiệu quả trong hoạt động của kho và sự phô biến, quen thuộc đối với khách hàng Kho Nickolson có 184 đơn, chiếm một lượng đơn tương đối, tuy nhiên van có thé
đây mạnh hơn Kho Baker với 119 đơn chiếm tỉ trọng thấp nhất trong 3 kho, có thé
do nhiều yếu tố tác động tới, dé thấy nhất có thể là yêu tố về khoảng cách
- Season: Có sự chênh lệch nhỏ giữa các mùa, Spring cao nhất với 134 đơn
hang, theo sau do 1a Autumn voi 127 don, Summer voi 124 don va cudi cung là
Winter với 115 đơn Qua số liệu trên có thể thấy nhu cầu của khách hàng tại các thời điểm trong năm là khác nhau
-Is expedited_ delivery: Có 251 đơn hàng không yêu cầu giao hàng nhanh (False) và 242 đơn hàng có yêu cầu giao hàng nhanh (True) Dù số đơn hàng không
có nhu cầu giao hàng nhanh cao hơn, tuy nhiên không có sự chênh lệch quá lớn so
với đơn hàng yêu câu giao hàng nhanh, cho thấy đáp ứng nhu cầu giao hàng nhanh của khách hàng là cần thiết
Trang 103.2 Ding dé thi dé thé hiện tương quan trong thống kê mô tả
3.2.1 Đồ thi Histogram
Sau khi thống kê các biến định lượng, ta tiến hành vẽ đồ Histogram nham tìm hiểu cách giá trị phân bố, kiểm tra phân phối chuân, xác định yếu tô ngoại lai dựa trên biến order total cần phân tích
Trang 11
Sau đó ta thực hiện lại việc vé biéu do Histogram sau khi xoá các phân tử
Hình 3.5 Đồ thi Histogram sau khi xoa cac phan tr ngoai lai
— Nhân xét: Phân bố không đối xứng, dữ liệu có vẻ bị lệch phải, các đơn hàng giá trị gần 30.000 và 35.000 có số lượng ít
Trang 123.2.2 Đồ thị phân tán
Ta tiên hành vẽ đồ thị phân tán đề kiêm tra môi liên hệ của các biên định
lượng với “order totaf”
Trang 13
"order total"
—> Nhận xét: Ta nhận thấy chi co biéu d6 order_price theo order_total c6 dạng tuyến tính, chứng tỏ giữa chúng có sự phụ thuộc hoặc tương quan nhất định
Điều này đồng nghĩa với việc các đơn hàng có giá trị lớn thường bao gồm các sản
pham dat tiền Từ đó, ta có thể mở rộng bằng các chiến lược Upsell hoặc Premium
Product dé khai thac tối đa giá trị đơn hàng
10
Trang 14order total inter data
order total
11
Trang 15—> Nhận xét: Ta có thể thấy, mùa thu (Autumn) là mùa có trung vị cao nhất, đồng nghĩa với việc đây là mùa đỉnh điểm mua sắm Ngược lại, mùa đông (Winter) lại có trung vị thấp nhất, đồng nghĩa với việc người tiêu dùng đang thắt chặt chỉ tiêu
- Vé dé thi Boxplot mô tả sự phụ thuộc của nearest_warehouses lên
order total:
12
Trang 16- Vẽ đồ thị Boxplot mô tả sự phụ thuộc của ¡is expedited_ delivery lên order total:
13
Trang 17—> Nhận xét: False cao hơn True, ta có thé hiểu các đơn hàng có gia tri cao
thường không cân giao hàng nhanh vì khách hàng chấp nhận đợi lâu hơn đê tiết
kiệm chỉ phí giao hàng Giao hàng nhanh thường pho biến cho các đơn hàng nhỏ
hoặc gấp, do khách hàng không muốn trả thêm phí giao hàng cho các đơn hàng lớn
Vì vậy, ta nên điều chỉnh chính sách phí giao hàng nhanh đề hấp dẫn hơn với các
đơn hàng có giá trị lớn
14
Trang 18
50
Hình 3.10 Đồ thị thể hiện tan suất đữ liệu trong bién “nearest_warehouse”
— Nhân xét: Đa số khách hàng mua từ cửa hàng Thompson
- _ Đếm tân suất dit ligu trong bién “is expedited delivery”
15
Trang 19Hình 3.11 Đồ thi thé hiện tan suất đữ liệu trong biến “is expedited delivery”
— Nhận xét: Khách hàng mong muốn giao hàng nhanh và không muốn giao
hàng nhanh gần như bằng nhau
3.2.5 Đồ thị ma trận tương quan:
Vẽ đồ thị ma trận tương quan kiểm tra hiện tượng đa cộng tuyến gitra cac bién déc lap
Trang 20
Hình 3.12 Đồ thị ma trận tương quan kiểm tra hiện tượng đa cộng tuyến giữa các
biến độc lập
— Nhận xét: Ta thấy hệ số tương quan ứng với từng cặp biến độc lập đều gần bằng 0, cho thây các biến độc lập không có quan hệ tuyến tính, nên ta dự đoán không xảy ra hiện tượng đa cộng tuyến
4 Thông kề suy diễn
4.1 Mô hình hồi quy tuyến tính
Chia 2 phần dữ liệu tran data dùng đề phân tích hồi quy tuyến tính, test_data dùng để dự đoán giá trị:
17
Trang 21Phương trình hồi quy tuyến tính đơn có dạng: y =Pạ+¡xị +;xX; + +e Cac bién x1, x2, x3, lan lượt là “nearest warehouse”, “order price”,
“delivery charges”, “coupon discount”, “season”,
“is expedited delivery”, “distance to nearest warehouse
Gia thuyết Hạ: Mô hình không có ý nghĩa trone thống kê Giả thuyết H,: Mô hình có ý nghĩa trong thống kê
Mức ý nghĩa = 5%
Thực hiện hàm hồi quy tuyến tính cho các biến “nearest warehouse’’,
“order price”, “delivery charges”, “coupon discount”, “season”,
“is expedited delivery”, “distance to nearest warehouse:
Call:
LmCformula = order_total ~ nearest_warehouse + order_price +
delivery_charges + coupon_discount + season + is_expedited_delivery + distance_to_nearest_warehouse, data = train_data)
Residual standard error: 1188 on 341 degrees of freedom
Ta nhận thay p-value cua cac bien “nearest warehouse”, “delivery_
18
Trang 22
charges”, seasonSpring”, “seasonWinter’”’, is expedited delivery”,“distance to_
nearest warehouse” lớn hơn mức ý nghĩa 5% Nên ta chưa bác bỏ được giả thuyết
Hị, dự đoán các biên này không ảnh hưởng đến “orđer /oza/”, ta thực hiện lại hàm hồi quy tuyên tính mà loại bỏ các biên trên
Estimate Std Error t value Pr@ltl)
Residual standard error: 1186 on 346 degrees of freedom
3 ức
Ta nhận thay p-value cua cac bien “seasonSpring”, “seasonSummer”’,
“seasonWWimer ” lớn hơn mức ý nghĩa 5% Nên ta cũng chưa thể bác bó giả thuyết
Hạ, ta tiếp tục loại bỏ biến “seasoz” và thực hiện hàm hồi quy tuyến tính:
19
Trang 23Estimate Std Error t value Pr(>ltl)
CIntercept) 1.689e+03 1.509e+02 11.20 <2e-16 ***
Signif codes: 0 ‘***’ Q.Q01 ‘**’ 0.01 “*' 0.05 “.' 0.1 “ ° 1
Residual standard error: 1187 on 349 degrees of freedom
Ta nhan thay p-value cua cac bién “order _price” va “coupon discount” bé
hơn mức ý nghĩa 5% Nên ta cũng bác bỏ giả thuyết Hạ và chấp nhận giả thuyết HI
Hệ số xác định hiệu chỉnh (Adjusted R-squared): R* hiéu chinh = 0.9732
nghĩa là 97.32% sự bién thién trong “order total” duoc giai thich bởi các biến độc
lập, phần còn lại là do sai số hoặc những biên ta chưa đem vào trong mô hình
Mô hình hồi quy tuyến tính về sự ảnh hướng các nhan t6 lén “order_total”:
order,„„¡=8.867 x 10ˆ” xorđer „„„„+(— 1.333 x 10°) X COUPONGiscoune
Giả định mô hình hồi quy ta có :
- Tinh tuyén tính của Y và độc lập của X
- _ Sai số có phân phối chuẩn
- Phuong sai của sai số là hằng số
- Không có hiện tượng đa cộng tuyến
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:
20
Trang 242770
=1 2770
15 |
10000 ©446:so
Fitted values Leverage
Hình 4.1 Đồ thị kiểm tra các giả định của mô hình thông qua phân tích thặng dư
—> Nhận xét:
Residuals vs Fitted: Duong màu đỏ chưa nằm ngang hoản toàn và có vài điểm lệch xa khỏi đường màu đó Nên tính tuyến tính của Y và tính độc lập X của có thé vi phạm
Q-Q Plot of Residuals: Ta thấy các phân tử nằm lệch ra khỏi đường thẳng nên sai số không có phân phối chuân
Scale-Location: Các sai số đường màu đỏ có xu hướng tăng nhẹ về phía cudi của trục, cho thấy sự tăng nhẹ của phương sai Điều này chỉ
Phân phối không hoàn toàn chuẩn và phương sai là ngẫu nhiên
Cân nhắc loại bỏ các điểm hoặc sử dụng phương pháp khác để giảm
thiểu ảnh hưởng của các điểm này
21