1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo bài tập lớn xác suất và thống kê Đề tài “cửa hàng Điện tử bán lẻ

31 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cửa Hàng Điện Tử Bán Lẻ
Tác giả Phan Bảo Huân, Nguyễn Văn Thắng, Phạm Trường Thịnh, Phan Ngọc Hoàng Phong, Huỳnh Thị Thuý Nga
Người hướng dẫn GVHD: Huynh Thai Duy Phuong
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Khoa Điện — Điện Tử
Thể loại Báo Cáo Bài Tập Lớn
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 31
Dung lượng 3,04 MB

Nội dung

ĐÓI TƯỢNG, MỤC TIỂU 1.1 Mô tả dữ liệu Bộ đữ liệu được sử dụng trong bài báo cáo này bao gôm các thong tin ve giao dịch bán lẻ của cửa hàng điện tử.. Dữ https://www.kagele.com/datasets/

Trang 1

a e

DAI HOC QUOC GIA THANH PHO HO CHI MINH q

TRUONG DAI HOC BACH KHOA KHOA DIEN — DIEN TU

000

G

c2

BAO CAO BAI TAP LON

XAC SUAT VA THONG KE

Trang 2

Họ và tên MSSV Đóng góp Hoàn

thành

kiên thức nên

Phạm Trường Thịnh 2313310 Code 100%

Danh sách thành viên

Trang 3

3.1 Thống kê các biến định lượng và các biến phân loại

3.2 Dùng đồ thị để thể hiện tương quan trong thống kê mô tả

3.2.1 Đồ thi Histogram

3.2.2 Đồ thị phân tán 3.2.3 Đồ thị Plotbox 3.2.4 Đồ thị Barplot

3.2.5 Đồ thị ma trận tương quan:

4 Thống kê suy diễn

4.1 Mô hình hồi quy tuyến tính

4.2 Mô hình Anova

TÀI LIỆU THAM KHẢO

Trang 4

1 ĐÓI TƯỢNG, MỤC TIỂU

1.1 Mô tả dữ liệu

Bộ đữ liệu được sử dụng trong bài báo cáo này bao gôm các thong tin ve

giao dịch bán lẻ của cửa hàng điện tử Dữ

https://www.kagele.com/datasets/muhammadshahrayar/transactional-retail-dataset- of-electronics-store?select=dirty_data.csv

liéu duoc lay tr:

Trong đó bao gồm các biến chính cần phân tích:

1 order 1d Phân loại Giá trị định danh cho 1 đơn hàng duy

nhất

2 custumer 1d Phân loại Giá trị định danh cho 1 khách hàng

duy nhất

3 nearest warehouse | Phân loại | Kho hàng gần khách hàng nhất

4 shopping cart Danh sách | Các sản phẩm trong giao dịch, kèm

theo số lượng sản phâm

5 order_price Dinh lượng | Gia don hang trước khi áp dụng phi

giao hàng và các chiết khẩu

6 delivery changes | Định lượng | Chi phí giao hàng

7 coupon_ discount Định lượng | Tỷ lệ chiết khâu

8 order_total Dinh lượng | GIá don hàng sau khi áp dung phi giao

hàng và các chiết khâu

9 season Phân loại Mùa đơn hàng được tạo

10 | lastest customer Định tính | Phản hỏi của khách hàng về đơn hàng

Từ dữ liệu trên, nhóm 9 sẽ sử dụng phương pháp phân tích phương sai 1 yếu

tố và phương pháp hỗi quy tuyến tính để hoàn thành mục tiêu của bài báo cáo:

- Đánh p1á sự ảnh hưởng của gia mặt hang (order_prize) va ma giam gia (coupon_ discount) lên tổng giá trị đặt hàng (order _total)

- _ Xây dựng mô hình hỏi quy tuyến tính dự báo tông giá trị đặt hang (order_total)

Trang 5

Thống kê mô tả

Xác định mô hình sẽ sử

dụng đề hoàn thành mục tiêu báo cáo

Thông kê mô tả hoặc thông kê sô lượng cho các biên

Vẽ đồ thị hisogram, đồ thị phân tán

Ước lượng, kiểm định

tông chi phí trung bình

Thống kê suy diễn

Phân tích phương sai một yêu tô

Trang 6

2 TIỀN XỬ LÝ DỮ LIỆU

2.1 Đọc dữ liệu:

- Đọc wt tin cm data.csv" vao R:

- Kiém tra thong tin trong tệp, bao gồm số dòng, số biến, định dạng các biến, tên các bién,

> str (dirty_data)

"data frame ' : 500 obs of 16 variables:

$ order_id : Chr “ORD182494" "ORD395518" "ORD494479” "ORDO19224"

S$ customer_id : chr “106197211592” "ID0282825849" "ID0579391891" “ID4544561904"

$ date : chr "2019-06-22" "2019-12-29" "2019-03-02" "2019-01-12"

S$ nearest_warehouse : chr “Thompson” “Thompson” “Nickolson™ "“Nickolson”

$ shopping_cart : chr “[C'Lucent 330S', 1), C'Thunder line’, 2), C'iStream', 2), ('pearTV', 1)]

“"(C'Thunder line’, 1), (‘Universe Note', 2)]" "[('Thunder Tiỉne', 1), ('pearTV', 2)]" "[C'Universe Note', 1), ('AT

con 10', 2), (‘Olivia x460', 1), C'iAssist Line’, 1)]"

S$ season : chr “winte "Summer" “Autumn” "Summer"

S$ is_expedited_delivery : chr “True” “False” "False" “False”

$ distance_to_nearest_warehouse: num 1.28 1.162 1.095 0.857 0.587

$ latest_customer_review : chr “perfect phone and trusted seller phone itself is amazing i got this phq

ne as shown here on the description i"| _.truncated_ "it keeps dropping calls the wifi don't work this is a wag

te of money this phone is worthless, it keeps dropping”| _truncated_ "five stars this is a great cheap phone.”

“charger did not fit the charger didn't fit."

S_is happy customer chr “True” “False” “True” “False”

Hình 3.1 Kết quả kiểm tra thông tin trong tệp 2.2 Làm sạch dữ liệu:

- Trước khi phân tích, các biến không liên quan trực tiếp đến mục tiêu nghiên

cứu đã được loại bó để tối ưu hóa đữ liệu Cụ thể:

+ Bién dinh danh (order id, customer id), bién thoi gian (date), va bién địa ly (customer lat, customer long) bị loại bỏ do không cung cấp giá

Trang 7

—> Kết quả:

1.2800} 1.162] 0.8571 0.5867 0.6767] 1.3043] 0.6093]

order_total season delivery_charges order_price coupon_discount is_expedited_delivery distance_to_nearest_warehouse

Hình 3.2 Kết quả 10 dòng đầu tiên của tệp tin new_ data

- Kiểm tra dữ liệu et Tinh fone các dữ liệu SNe

— Kết quả: Tông dữ liệu khuyết bang 0 nên không có đữ liệu khuyết nảo tồn tại

Hình 3.4 Kết quả trước khi sửa lỗi định dạng

—› Nhận xét: Có 1 số kết quả bị lỗi định dạng viết thường ở biến season, ta sửa lại các kết quả bị lôi như sau:

— Kết quả:

Hình 3.5 Kết quả sau khi sửa lỗi định dạng

Trang 8

3 THONG KE MO TA

Trước tiên, ta sử dụng thông kê mô ta dé tìm ra các quy luật, tham số mà những nhân tố độc lập tuân theo Sau đó, ta nhận xét từng sự ảnh hưởng của các

biến định ¡ lượng và phân loại lên biến phụ thuộc (order_ total),

3.1 Thống kê các biến định lượng và các biến phân loại

- Lưu các biến định lượng chính cần phan tich vao data moi tén num data

bao gồm các biến chứa số liệu: “orđer total", "order_price","delivery_charges",

"coupon discount", "distance to nearest warehouse"

+ Dùng lệnh Summary dé théng ké tom tat các biến định lượng vừa lưu vào num_ data (max, min, trung vị, trung bình mẫu)

Min : S85 Min : 46.3 Min : 0.00 Min : 639 Min : 0.1078

1st Qu.: 7050 1st Qu 65.98 ist Qu.: 5.00 ist Qu.: 6455 ist Qu.: 0.7514

Median : 12808 Median : 76.31 Median £10.00 Median : 11294 Median : 1.0301

Mean : 25522 Mean : 76.66 Mean 210.89 Mean : 39210 Mean : 2.2042

Hinh 3.2 Két quả tính độ lệch chuẩn của các biến định lượng

- _ Lấy các biến phân loại trong dirty_ data bỏ vào data mới tên là clear data + Dung lénh as.factor dé chuyén déi gia tri trong các biến

“nearest warehouse”, “season”, “is expedited delivery” va

“is _happy_customer” thanh kiéu dit liéu factor

+ Cudéi cing, ta ding Iénh summary dé thông kê số lượng của các biến phân loai

Trang 9

- Nearest_warehouse: Số lượng đơn hàng của 3 kho là khác nhau Kho

Thompson chiếm số lượng đơn hàng cao nhất với 197 đơn, chứng minh được sự

hiệu quả trong hoạt động của kho và sự phô biến, quen thuộc đối với khách hàng Kho Nickolson có 184 đơn, chiếm một lượng đơn tương đối, tuy nhiên van có thé

đây mạnh hơn Kho Baker với 119 đơn chiếm tỉ trọng thấp nhất trong 3 kho, có thé

do nhiều yếu tố tác động tới, dé thấy nhất có thể là yêu tố về khoảng cách

- Season: Có sự chênh lệch nhỏ giữa các mùa, Spring cao nhất với 134 đơn

hang, theo sau do 1a Autumn voi 127 don, Summer voi 124 don va cudi cung là

Winter với 115 đơn Qua số liệu trên có thể thấy nhu cầu của khách hàng tại các thời điểm trong năm là khác nhau

-Is expedited_ delivery: Có 251 đơn hàng không yêu cầu giao hàng nhanh (False) và 242 đơn hàng có yêu cầu giao hàng nhanh (True) Dù số đơn hàng không

có nhu cầu giao hàng nhanh cao hơn, tuy nhiên không có sự chênh lệch quá lớn so

với đơn hàng yêu câu giao hàng nhanh, cho thấy đáp ứng nhu cầu giao hàng nhanh của khách hàng là cần thiết

Trang 10

3.2 Ding dé thi dé thé hiện tương quan trong thống kê mô tả

3.2.1 Đồ thi Histogram

Sau khi thống kê các biến định lượng, ta tiến hành vẽ đồ Histogram nham tìm hiểu cách giá trị phân bố, kiểm tra phân phối chuân, xác định yếu tô ngoại lai dựa trên biến order total cần phân tích

Trang 11

Sau đó ta thực hiện lại việc vé biéu do Histogram sau khi xoá các phân tử

Hình 3.5 Đồ thi Histogram sau khi xoa cac phan tr ngoai lai

— Nhân xét: Phân bố không đối xứng, dữ liệu có vẻ bị lệch phải, các đơn hàng giá trị gần 30.000 và 35.000 có số lượng ít

Trang 12

3.2.2 Đồ thị phân tán

Ta tiên hành vẽ đồ thị phân tán đề kiêm tra môi liên hệ của các biên định

lượng với “order totaf”

Trang 13

"order total"

—> Nhận xét: Ta nhận thấy chi co biéu d6 order_price theo order_total c6 dạng tuyến tính, chứng tỏ giữa chúng có sự phụ thuộc hoặc tương quan nhất định

Điều này đồng nghĩa với việc các đơn hàng có giá trị lớn thường bao gồm các sản

pham dat tiền Từ đó, ta có thể mở rộng bằng các chiến lược Upsell hoặc Premium

Product dé khai thac tối đa giá trị đơn hàng

10

Trang 14

order total inter data

order total

11

Trang 15

—> Nhận xét: Ta có thể thấy, mùa thu (Autumn) là mùa có trung vị cao nhất, đồng nghĩa với việc đây là mùa đỉnh điểm mua sắm Ngược lại, mùa đông (Winter) lại có trung vị thấp nhất, đồng nghĩa với việc người tiêu dùng đang thắt chặt chỉ tiêu

- Vé dé thi Boxplot mô tả sự phụ thuộc của nearest_warehouses lên

order total:

12

Trang 16

- Vẽ đồ thị Boxplot mô tả sự phụ thuộc của ¡is expedited_ delivery lên order total:

13

Trang 17

—> Nhận xét: False cao hơn True, ta có thé hiểu các đơn hàng có gia tri cao

thường không cân giao hàng nhanh vì khách hàng chấp nhận đợi lâu hơn đê tiết

kiệm chỉ phí giao hàng Giao hàng nhanh thường pho biến cho các đơn hàng nhỏ

hoặc gấp, do khách hàng không muốn trả thêm phí giao hàng cho các đơn hàng lớn

Vì vậy, ta nên điều chỉnh chính sách phí giao hàng nhanh đề hấp dẫn hơn với các

đơn hàng có giá trị lớn

14

Trang 18

50

Hình 3.10 Đồ thị thể hiện tan suất đữ liệu trong bién “nearest_warehouse”

— Nhân xét: Đa số khách hàng mua từ cửa hàng Thompson

- _ Đếm tân suất dit ligu trong bién “is expedited delivery”

15

Trang 19

Hình 3.11 Đồ thi thé hiện tan suất đữ liệu trong biến “is expedited delivery”

— Nhận xét: Khách hàng mong muốn giao hàng nhanh và không muốn giao

hàng nhanh gần như bằng nhau

3.2.5 Đồ thị ma trận tương quan:

Vẽ đồ thị ma trận tương quan kiểm tra hiện tượng đa cộng tuyến gitra cac bién déc lap

Trang 20

Hình 3.12 Đồ thị ma trận tương quan kiểm tra hiện tượng đa cộng tuyến giữa các

biến độc lập

— Nhận xét: Ta thấy hệ số tương quan ứng với từng cặp biến độc lập đều gần bằng 0, cho thây các biến độc lập không có quan hệ tuyến tính, nên ta dự đoán không xảy ra hiện tượng đa cộng tuyến

4 Thông kề suy diễn

4.1 Mô hình hồi quy tuyến tính

Chia 2 phần dữ liệu tran data dùng đề phân tích hồi quy tuyến tính, test_data dùng để dự đoán giá trị:

17

Trang 21

Phương trình hồi quy tuyến tính đơn có dạng: y =Pạ+¡xị +;xX; + +e Cac bién x1, x2, x3, lan lượt là “nearest warehouse”, “order price”,

“delivery charges”, “coupon discount”, “season”,

“is expedited delivery”, “distance to nearest warehouse

Gia thuyết Hạ: Mô hình không có ý nghĩa trone thống kê Giả thuyết H,: Mô hình có ý nghĩa trong thống kê

Mức ý nghĩa = 5%

Thực hiện hàm hồi quy tuyến tính cho các biến “nearest warehouse’’,

“order price”, “delivery charges”, “coupon discount”, “season”,

“is expedited delivery”, “distance to nearest warehouse:

Call:

LmCformula = order_total ~ nearest_warehouse + order_price +

delivery_charges + coupon_discount + season + is_expedited_delivery + distance_to_nearest_warehouse, data = train_data)

Residual standard error: 1188 on 341 degrees of freedom

Ta nhận thay p-value cua cac bien “nearest warehouse”, “delivery_

18

Trang 22

charges”, seasonSpring”, “seasonWinter’”’, is expedited delivery”,“distance to_

nearest warehouse” lớn hơn mức ý nghĩa 5% Nên ta chưa bác bỏ được giả thuyết

Hị, dự đoán các biên này không ảnh hưởng đến “orđer /oza/”, ta thực hiện lại hàm hồi quy tuyên tính mà loại bỏ các biên trên

Estimate Std Error t value Pr@ltl)

Residual standard error: 1186 on 346 degrees of freedom

3 ức

Ta nhận thay p-value cua cac bien “seasonSpring”, “seasonSummer”’,

“seasonWWimer ” lớn hơn mức ý nghĩa 5% Nên ta cũng chưa thể bác bó giả thuyết

Hạ, ta tiếp tục loại bỏ biến “seasoz” và thực hiện hàm hồi quy tuyến tính:

19

Trang 23

Estimate Std Error t value Pr(>ltl)

CIntercept) 1.689e+03 1.509e+02 11.20 <2e-16 ***

Signif codes: 0 ‘***’ Q.Q01 ‘**’ 0.01 “*' 0.05 “.' 0.1 “ ° 1

Residual standard error: 1187 on 349 degrees of freedom

Ta nhan thay p-value cua cac bién “order _price” va “coupon discount” bé

hơn mức ý nghĩa 5% Nên ta cũng bác bỏ giả thuyết Hạ và chấp nhận giả thuyết HI

Hệ số xác định hiệu chỉnh (Adjusted R-squared): R* hiéu chinh = 0.9732

nghĩa là 97.32% sự bién thién trong “order total” duoc giai thich bởi các biến độc

lập, phần còn lại là do sai số hoặc những biên ta chưa đem vào trong mô hình

Mô hình hồi quy tuyến tính về sự ảnh hướng các nhan t6 lén “order_total”:

order,„„¡=8.867 x 10ˆ” xorđer „„„„+(— 1.333 x 10°) X COUPONGiscoune

Giả định mô hình hồi quy ta có :

- Tinh tuyén tính của Y và độc lập của X

- _ Sai số có phân phối chuẩn

- Phuong sai của sai số là hằng số

- Không có hiện tượng đa cộng tuyến

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

20

Trang 24

2770

=1 2770

15 |

10000 ©446:so

Fitted values Leverage

Hình 4.1 Đồ thị kiểm tra các giả định của mô hình thông qua phân tích thặng dư

—> Nhận xét:

Residuals vs Fitted: Duong màu đỏ chưa nằm ngang hoản toàn và có vài điểm lệch xa khỏi đường màu đó Nên tính tuyến tính của Y và tính độc lập X của có thé vi phạm

Q-Q Plot of Residuals: Ta thấy các phân tử nằm lệch ra khỏi đường thẳng nên sai số không có phân phối chuân

Scale-Location: Các sai số đường màu đỏ có xu hướng tăng nhẹ về phía cudi của trục, cho thấy sự tăng nhẹ của phương sai Điều này chỉ

Phân phối không hoàn toàn chuẩn và phương sai là ngẫu nhiên

Cân nhắc loại bỏ các điểm hoặc sử dụng phương pháp khác để giảm

thiểu ảnh hưởng của các điểm này

21

Ngày đăng: 19/12/2024, 15:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN