Kiểm định giả thuyết - 5.THÓNG KÊ SUY DIỄN- 123docz.net

5.THÓNG KÊ SUY DIỄN

5.1. Kiểm định giả thuyết

Như đã đề cập ở phần thống kê mô tả, dựa vào hình đáng của đồ thị phân phối xác suất các cột order_price (Hình 24), order total (Hình 25) và

distance_to_nearest_ warehouse (Hình 27). Đặc điểm chung của cả ba đồ thị này là chi có một đỉnh và có dạng hình dáng “quen thuộc” với những dạng phân phối mà nhóm biết đến như phân phối chuẩn. phân phối Student, phân phối Chi bình phương. Vì thế nên nhóm đặt ra các g1ả thuyết răng, liệu các đồ thị trên có thực sự tuân theo một đạng phân phối nào đó hay không. Để biết điều đó, nhóm sẽ sử dụng cách kiểm định dựa vào thông 86 Prone va dua ra két luận. Ở các kiêm định sau, nhóm sẽ chọn mức ý nghĩa là 0.05 để kiêm định. Cách làm này CÓ thê không hợp lý và kết luận đưa ra không có tính chuyên môn cao nhưng với kiến thức và tầm năng lực ở mức đại cương, thì nhóm vẫn quyết định thực hiện nó.

> print(shapiro. test(clean_data$order_total)) Shapiro-wilk normality test

data: clean_data$order_total

= 0.083978, p-value < 2.2e-16 Hình 29:

Kiểm định phân phối chuẩn cột order price

Dựa vào việc kiểm định shapiro.test cho cột order _price và nhận về kết quá (Hình 29).

Thông qua giá trị P„„„ rất nhỏ hơn so với mức ý nghĩa ta có thê kết luận rằng, cột dữ liệu này không tuân theo phân phối chuẩn. Vì order_price không tuân theo phân phối chuẩn, nên nhóm sẽ không kiểm định t.test hay chỉisq.test. Nhóm cũng đưa ra kết luận tương tự với cột order total và cột đistance to nearest warehouse vì giá trị P,„„„ rất nhỏ hơn so với 0.05 (Hình 30)

> print(shapiro. test(clean_data$order_price)) Shapiro-wilk normality test

data: clean_data$order_price

= 0.091544, p-value < 2.2e-16 Hình 30: Kiểm định phân phối chuẩn cột order to

3ó

> print(shapiro. test(clean_data$distance_to_nearest_warehouse) ) Shapiro-wilk normality test

data: clean_data$distance_to_nearest_warehouse

= 0.14342, p-value < 2.2e-16

Hinh 31: Kiém dinh phan phéi chuan cét distance to nearest warehouse

5.2. Hồi quy tuyến tính

Vì công thức tính tổng tiền order total thực tế phụ thuộc vào order price, delivery_charges va coupon_discount, voi delivery_charges va coupon_discount la các phan phụ nên nhóm sẽ vẽ hai đồ thị 3D mô tả order_total ~ order_price va delivery_charges (Hình 32) hay coupon_ discount (Hình 33).

XI - . 2 ⁄ oe

° er, e e $

8 4 2 e

3 s °° e

8 há ° 4 `

Ss ° @ ele ge

= e ` See ° °

& 8 ° ©Ẳ °

5 S ° Pr) ° °

oS *¢ oe + °e 5

3 8 ô *$ * - x

6 8 „° —* — = 30000 @

s 8 ws oe] z0 5

8 Ze eee * 20000 °

ơ * ° 15000

s © 10000

20 2 4 6 8

Delivery

Hinh 32: Biéu dién order total, order price va delivery charges

z7. >" * + ^

+ 2 & t

25k an ki 2 B

° Pt So we

+ on gS 2 “aS OM LS tat “ 4

8 aft wr = a

= Lines e *

. xi oo? a >

o~ Shứ xô ee x + v

\0k SG he “7

5 v v oe x

v0 * ot ° >

$ = < of `% 7

+ ° £ ° các

Hình 33: Biểu dién order total ~ order price va coupon discount

Nhận thấy có sự quan hệ tuyến tính giữa các biến với nhau đặc biệt là ở Hình 33 biêu diễn rõ ràng các đường thăng, nên nhóm sẽ đùm lệnh lm (linear model) đề kiểm tra mối quan hệ tuyến tính bằng thông kê rõ ràng chứ không dự đoán bằng mắt.

> modell <- Im(order_total ~ order_price + delivery_charges + coupon_discount, data = clean_data)

>_ summary(modeT1)

call:

Im(formula = order_total ~ order_price + delivery_charges + coupon_discount data = clean_data)

Residuals:

Min 1Q Median 39 Max

505.26 -255.06 -44.48 257.09 525.39 Coefficients :

Estimate Std. Error t value Pr(>|t|) (Tntercept) 584.916677 87.668845 6.672 6.76e-11 ***

order_price 0.995449 0.002417 411.854 <ô< 2e-16 ***

delivery_charges -0.222599 0.875661 -0.254 0.799 coupon_discount 2.113986 1.466994 1.441 0.150 Signif. codes: © ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 “.°? 0.1 “}1 Residual standard error: 283 on 496 degrees of freedom Multiple R-squared: 0.9971, Adjusted R-squared: 0.9971 F-statistic: 5.679e+04 on 3 and 496 DF, p-value: < 2.2¢e-16

Hình 34: Kết quả hỗi quy tuyến tính cho cột order total

Căn cứ vào kết quả từ phép hồi quy tuyến tính order total order price + delivery_charges + coupon_discount. Ta co thé đánh giá như sau, đối với biến order_ price, hệ số ước lượng là 0.995449 với độ tin cậy cao P„„ ~ 0 điều này cho biết rằng, có một mối quan hệ tuyến tính mạnh mẽ giữa order_price và order. total (Hinh 35), mỗi đơn vị của order_price tăng lên | thi order_total sé tăng 0.995449. Đôi với 38

bién delivery_charges, hé s6 uéc lượng là một số âm (-0.222599) với P„„„ = 0.799 tương đối cao. Điều này cho biết không có sự thay đối đáng kể của order total khi delivery_charges thay đôi, hay nói cách khác là không có mối quan hệ tuyến tính giữa order_total và delivery_charges. Đối với biến coupon_ discount, hệ số ước lượng là 2.113986 với độ tin cậy cao P„„„ = 0.150 cũng không bất mối quan hệ tuyên tinh nao giữa order_total va coupon_discount.

Mối quan hệ giữa order_total và order_price

order _total .

Order_price

Hình 35: Mối quan hệ giữa order total và order price

Tiếp theo, nhóm quan tâm đến vấn đề tiền vận chuyên có phụ thuộc tuyến tính vào tọa độ của khách hàng hay không, do đó nhóm sẽ thực hiện mô hình hồi quy delivery_charges

~ customer_lat + customer_long ket qua nhận được như sau (Hình 36). Dựa vào kết qua nhóm có thê nhận xét như sau, hệ số R2 = -0.002362 có nghĩa là mô hình chỉ giải thích được rất ít dữ biến đổi của biến phụ thuộc, giá trị P,„„„ = 0.6625 quá cao hơn mức ý nghĩa 0.05 đề bác bỏ giả thuyết không răng không có sự tác động của biến độc lập lên biến phục thuộc. Tổng quan thì kết quả này cho thấy rằng không có mối quan hệ tuyến tính mạnh mẽ giữa customer_ lat và customer_ long lên delivery_charges.

> model2 <- Im€delivery_charges ~ customer_lat + customer_long , data = clean_data)

> summary(model2) Call:

ImCformula = delivery_charges ~ customer_lat + customer_long, data = clean_data)

Residuals:

Min 10 Median 30 Max

-30.277 -10.664 -0.313 5.911 37.642

Coefficients:

Estimate Std. Error t value Pr(@I/tl)

CTntercept) -457.87524 4141.40180 -O.111 0.912

customer_lat 0. 04837 0.05388 0.898 0.370

customer_long 3.69917 28.567 32 0.129 0.897

Residual standard error: 14.5 on 497 degrees of freedom

Multiple R-squared: 0.001655, Adjusted R-squared: -0.002362

F-statistic: 0.412 on 2 and 497 DF, p-value: 0.6625

Hinh 36: Két qua m6 hinh delivery charges ~ customer lat + customer long

Tương tự như thế, nhóm sẽ kiêm tra mô hình với giả thuyết rằng khoảng cách đến kho sẽ phụ thuộc tuyên tính và toạ độ khách hàng .

Mô hình như sau distancce_to_neareast_warehuose ~customer_lat +

customer_long.Nhóm quan tâm dén hé s6 R’ = -0.003777 < 0.3 .Chimg té viéc gan nhu không có môi liên hệ tuyên tính giữa khoảng cách đên kho hàng với toạ độ của khách.

> model3 <- Im(clean_data$distance_to_nearest_warehouse ~ clean_data§customer_lat + clean_data§c ustomer_long)

> summary (model 3) call:

Im(formula = clean_data$distance_to_nearest_warehouse ~ clean_data$customer_lat + clean_data$customer_long)

Residuals:

Min 1Q Median 3Q Max -2.119 -1.464 -1.194 -0.796 92.751 Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Tntercept) 99.17448 2521.94791 0.039 0.969

clean_data$customer_lat -0.01140 0.03281 -0.347 0.728 clean data$customer long -0.67172 17.39635 -0.039 0.969 Residual standard error: 8.829 on 497 degrees of freedom Multiple R-squared: 0.0002462, Adjusted R-squared: -0.003777 F-statistic: 0.0612 on 2 and 497 DF, p-value: 0.9406

Hinh 37: Két qua m6 hinh distance to nearest warehouse~customer lat+customer long Nhóm tiếp tục đặt ra giải thuyết rằng tiền vận chuyên hang hoa sé phu thuéc tuyén tinh vào khoảng cách đến kho. Vì vậy nhóm sẽ thử nghiệm mô hình delivery_charges ~ distance_to_nearesí warehouse thu được kết quả ở Hình 38. Nhóm có nhận định như sau, hệ số R° vẫn rất thấp , nhỏ hơn 0.3 chứng tỏ việc mỗi quan hệ tuyến tính giữa hai biến này gần như không tôn tại.

> model4 <- |m(clean dataSdelivery charges ~ clean_dataSdistance to _nearest warehouse )

> summary(model4) Call:

ImCformula = clean_data$delivery_charges ~ clean_dataS$distance_to_nearest_warehouse) Residuals:

Min 1Q Median 3Q Max

-30.432 -10.707 -0.476 6.245 37.375 Coefficients:

Estimate Std. Error t value Pr(>|t!)

Cintercept) 76.84892 0.66736 115.153 <2e-16 ***ô

clean_data$distance_to_nearest_warehouse -0.08653 0.07354 -1.177 0.24 Signif. codes: 0 ‘***? Q.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 £7 1

Residual standard error: 14.48 on 498 degrees of freedom Multiple R-squared: 0.002772, Adjusted R-squared: 0.00077 F-statistic: 1.385 on 1 and 498 DF, p-value: 0.2399

Hinh 38: Két qua m6 hinh delivery charges ~ distance to nearest warehouse 5.3. Phan tích phương sai

Nhận thấy rằng biến coupon_ discount là đữ liệu số có thê là một biến liên tục trên thực tế, tuy nhiên trong dữ liệu mà nhóm nhận được, coupon_ discount chỉ có thê là một trong các giá trị sau: 5, 10, 15, 25. Vì vậy, để kiểm định xem có hay không đữ khác biệt đáng kế giữa các mốc giảm giá lên tiền hàng order _price nhóm sẽ chọn các phân tích phương sai ANOVA. Dùng lệnh có sẵn trong Rstudio nhóm nhận đc kết quả như Hình 39. Dựa vào kết quả có thê nhận định rằng giá trị P„„ = 1.484 là lớn hơn mức ý nghĩa 0.05 nói lên việc không có sự khác biệt đáng kế nào giữa các nhóm (các mốc giảm) đối với giá trị đơn hàng. Tổng Sum sq của coupon_ discount là 4.093e+07 trong khi tông Sum sq của Residual là 1.374e+10, cho thấy rằng phần lớn sự biến động của order_price không được giải thích bởi coupon_ discount.

> prTnt(CsummaryCanova1l))

Df Sum Sq Mean Sq F value Pr(>F)

coupon_discount 1 4.093e+07 40931583 1.484 0.224

Residuals 498 1.374e+10 27580981

Hình 39: Phan tich ANOVA coupon_ discount

Tiép theo nhom sé kiém dinh rang liệu có sự khác biệt dang kể nào về tiền thanh toán giữa các tháng trong năm hoặc các mùa trong năm hay không. Bằng cách phân tích ANOVA hai nhân tô. Kết quả nhận được ở Hình 40, dựa vào đó ta có thê kết luận rằng.

Với cột month có Pu, = = 0.887 lớn hơn mức ý nghĩa nên ta có thê kết luận rằng không có sự khác biệt đáng kẻ nào về tiền mua hàng trung bình giữa các tháng trong năm. Tương tự với cột season ta có P,„„„ = 0.425 cũng vượt mức ý nghĩa nên sẽ kết luận rằng, không có sự khác biệt về tiền mua hàng giữa các mùa.

> summary (anova2)

Df Sum Sq Mean Sq F value Pr(>F)

clean_data$season 3 7.723e+07 25742936 0.932 0.425

Residuals 496 1.370e+10 27619015

> summary (anova3)

Df Sum Sq Mean Sq F value Pr(>F)

month 11 1.610e+08 14632802 0.524 0.887

Residuals 488 1.362e+10 27900204

Hinh 40: Phan tich ANOVA cho month va season

Cột nearest_ warehouse cũng là một biến phân loại với ba kho là Nickolson, Thompson, Bakers. Nhóm cũng đặt giả thuyết rằng liệu có sự khác nhau về tiền mua hàng giữ các kho hay không. Như vậy nhóm vẫn dùng phương pháp ANOVA đề kiểm tra và thu được kết quả ở Hình 41. Dựa vào đó nhóm đưa ra nhận xét như sau, giá trị P„ = 0.733 cũng vượt quá mức ý nghĩa nên ta có thê kết luận không có sự khác biệt về tiền

> anova4 <-aov(order_price ~ nearest_warehouse, data=clean_data)

> summary (anova4)

Df Sum Sq Mean Sq F value Pr(>F) nearest_warehouse 2 1.724e+07 8620675 0.311 0.733

Residuals 497 1.376e+10 27684143

mua hàng trung bình giữa các kho với nhau.

Hình 41: Phân tích ANOVA cho nearest_warehouse