1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập lớn xác suất thống kê Đề tài Ứng dụng hồi quy tuyến tính bội Để xem xét các yếu tố Ảnh hưởng Đến giá vận chuyển

32 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Hồi Quy Tuyến Tính Bội Để Xem Xét Các Yếu Tố Ảnh Hưởng Đến Giá Vận Chuyển
Tác giả Kiều Lờ Trọng Tuyển, Đặng Hà Minh Tuấn, Lưu Trọng Nghĩa, Huỳnh Kiến Hào, Bựi Quang Vinh
Người hướng dẫn PGS.TS. Về Hoàng Hưng
Trường học Trường Đại Học Bách Khoa - ĐHQG - TPHCM
Chuyên ngành Xác Suất Thống Kê
Thể loại Bài Tập Lớn
Năm xuất bản 2023
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 32
Dung lượng 1,98 MB

Cấu trúc

  • I. TỔNG QUAN DỮ LIỆU (5)
    • 1.1 Mô tả dữ liệu (5)
    • 1.2 Mô tả biến (5)
  • II. CƠ SỞ LÝ THUYẾT (7)
    • 2.1 Đặt vấn đề (7)
    • 2.2 Những giả định của mô hình hồi quy tuyến tính (7)
      • 2.2.1 Mối quan hệ tuyến tính (7)
      • 2.2.2 Phần dư độc lập (7)
      • 2.2.3 Phương sai không đổi (7)
    • 2.3 Hồi quy tuyến tính đơn biến (7)
      • 2.3.1 Mô hình (7)
      • 2.3.2 Phương pháp bình phương tối thiểu (7)
    • 2.4 Hồi quy tuyến tính bội (9)
      • 2.4.1 Mô hình hồi quy tuyến tính bội (9)
      • 2.4.2 Mô hình hồi quy tuyến tính mẫu (9)
      • 2.4.3 Các giả thiết cơ bản (10)
      • 2.4.4 Ước lượng các tham số bằng OLS (10)
      • 2.4.5 Độ phù hợp của mô hình (11)
      • 2.4.6 Ước lượng khoảng tin cậy các hệ số hồi quy (13)
      • 2.4.7 Kiểm định các hệ số hổi quy (13)
      • 2.4.8 Kiểm định mức độ ý nghĩa chung của mô hình ( tiêu chuẩn kiểm định F ) (14)
      • 2.4.9 Dự báo cho mô hình hồi quy tuyến tính bội (15)
  • III. XỬ LÝ DỮ LIỆU (16)
    • 3.1 Làm sạch dữ liệu (16)
    • 3.2 Làm rõ dữ liệu (22)
      • 3.2.3 Biểu đồ dữ liệu (0)
      • 3.2.4 Hệ số tương quan giữa các biến (0)
    • 3.3 Xây dựng mô hình hồi quy tuyến tính (26)
  • IV. THẢO LUẬN VÀ MỞ RỘNG (31)
  • IV. NGUỒN DỮ LIỆU VÀ NGUỒN CODE (32)
  • VI. TÀI LIỆU THAM KHẢO (32)

Nội dung

Với những dữ kiện đề bài cho trước, nhóm 1 chúng em xin thực hiện đề tài Bài tập lớn môn Xác suất thống kê để trình bày cơ sở lý thuyết, cùng những phương pháp, phân tích số liệu thống k

TỔNG QUAN DỮ LIỆU

Mô tả dữ liệu

Tập dữ liệu này chứa thông tin về một cửa hàng điện tử trực tuyến Cửa hàng có ba kho để giao hàng cho khách hàng

 Tiêu đề: Bộ dữ liệu giao dịch bán lẻ của cửa hàng điện máy

 Nguồn dữ liệu: a) Tỏc giả: Shahrayar - Data Scientist at Truck it in ã Islamabad,

Islamabad Capital Territory, Pakistan b) Ngày: Tháng 11, 2022

Mô tả biến

BÁO CÁO XÁC SUẤT THỐNG KÊ 6

Biến Loại dữ liệu Đơn vị Mô Tả

1 Mã đơn đặt hàng Chuỗi kí tự ( Trống ) Một ID duy nhất cho mỗi đơn hàng

2 Mã khách hàng Chuỗi kí tự ( Trống ) Một ID duy nhất cho mỗi khách hàng

3 Ngày Chuỗi kí tự ( Trống ) Ngày đặt hàng, được đưa ra ở định dạng YYYY-MM-DD

4 Tên kho gần nhất Chuỗi kí tự ( Trống ) Một chuỗi biểu thị tên của kho gần nhất với khách hàng

5 Giỏ hàng Chuỗi kí tự ( Trống )

Danh sách các bộ đại diện cho các hạng mục trong đơn hàng bao gồm phần tử đầu tiên là mục được sắp xếp và phần tử thứ hai là số lượng đặt hàng cho mặt hàng đó.

Giá đặt hàng được biểu thị bằng USD, là mức giá của các mặt hàng trước khi áp dụng bất kỳ khoản giảm giá hay phí giao hàng nào.

7 Phí vận chuyển 𝑦 ∈ (0; +∞) USD Một số thể hiện phí giao hàng của đơn hàng

(customer_lat) 𝑧 ∈ (−90; 90) Độ Vĩ độ vị trí của khách hàng

(customer_long) 𝑡 ∈ (−180; 180) Độ Kinh độ vị trí của khách hàng

Một số nguyên biểu thị phần trăm giảm giá được áp dụng cho đơn giá

𝑥 USD Một số biểu thị tổng giá tiền đơn đặt hàng bằng USD, giảm giá và/hoặc phí giao hàng đã được áp dụng

12 Mùa Chuỗi kí tự ( Trống ) Một chuỗi biểu thị mùa mà đơn hàng được đặt

13 Giao hàng hỏa tốc t = TRUE - có t = FALSE - không ( Trống ) Một hàm nhị phân biểu thị liệu khách hàng có yêu cầu giao hàng nhanh hay không?

14 Khoảng cách tới kho hàng gần nhất 𝑟 ∈ (0; +∞) km Một số biểu thị khoảng cách vòng cung, tính bằng km, giữa khách hàng và kho hàng gần nhất với họ

15 Đánh giá mới nhất từ khách hàng

Một chuỗi đại diện cho đánh giá mới nhất của khách hàng về đơn hàng gần đây nhất của họ

16 Độ hài lòng khách hàng q = TRUE - có q = FALSE - không ( Trống )

Một hàm nhị phân biểu thị liệu khách hàng có hài lòng hay không? Hoặc gặp vấn đề với đơn hàng gần đây nhất của họ hay không?

BÁO CÁO XÁC SUẤT THỐNG KÊ 7

CƠ SỞ LÝ THUYẾT

Đặt vấn đề

Trong nhiều tình huống, việc xác định mối liên hệ giữa các biến ngẫu nhiên là cần thiết để hình dung mô hình tổng quát và dự đoán sự thay đổi của một biến dựa vào các biến đã biết Hồi quy tuyến tính là phương pháp thống kê hữu ích để mô hình hóa và dự báo mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập, sử dụng hàm tuyến tính bậc 1 Các tham số của mô hình được ước lượng từ dữ liệu thực tế Hồi quy tuyến tính có ứng dụng rộng rãi trong nhiều lĩnh vực như kinh tế lượng, nông nghiệp, y tế và nhiều lĩnh vực khác nhờ vào tính đơn giản và hiệu quả của nó.

Những giả định của mô hình hồi quy tuyến tính

2.2.1 Mối quan hệ tuyến tính:

Mối quan hệ tuyến tính giữa các biến độc lập và phụ thuộc là rất quan trọng Để kiểm tra mối quan hệ này, chúng ta có thể sử dụng biểu đồ phân tán để hiển thị các giá trị ngẫu nhiên của hai biến và xác định xem chúng có nằm trên một đường thẳng hay không.

Phần dư là sự khác biệt giữa giá trị thực tế và giá trị dự đoán Các phần dư từ những giá trị khác nhau không nên có mối liên hệ hay mô hình tương quan nào.

Phương sai không đổi giả định rằng phần dư có phương sai cố định hoặc độ lệch chuẩn so với trung bình cho mọi giá trị của biến độc lập Nếu giả định này không được thỏa mãn, kết quả phân tích có thể trở nên không chính xác.

Hồi quy tuyến tính đơn biến

Mô hình hồi quy tuyến tính đơn biến cho quần thể:

- 𝛼 : Hệ số chặn hay tung độ gốc của mô hình hồi quy (Intercept)

- 𝛽 : Hệ số góc hay độ dốc của biến độc lập x (slope / gradient)

- 𝑥 ∶ Hệ số độc lập (independent variable)

- 𝑌 : Hệ số phụ thuộc (dependent variable)

- 𝜀 : Sai số ngẫu nhiên (random error) phần dư = độ chệnh lệch giữa giá trị thực yi và giá trị dự báo Y = 𝛼 + 𝛽𝑥 + 𝜀

𝜀 tuân theo quy luật phân phối chuẩn, có giá trị trung bình là 0 và phương sai bất biến

2.3.2 Phương pháp bình phương tối thiểu:

Xét mô hình hồi quy đơn biến ước lượng với mẫu xác định:

𝑦̂ = 𝑎 + 𝑏𝑥 + 𝑒 Trong đó: a, b, e là các ước số của 𝛼, 𝛽, 𝜀

BÁO CÁO XÁC SUẤT THỐNG KÊ 8

Xác định a và b sao cho tổng bình phương phần dư là nhỏ nhất:

SSE (Sum Square Error) = (𝜀 1 ) 2 + (𝜀 2 ) 2 + (𝜀 3 ) 2 + ⋯ + (𝜀 𝑛 ) 2 = ∑(𝑦 𝑖 − 𝑦̂ 𝑖 ) 2 =>min Độ dốc b của phương trình hồi quy ước lượng:

∑(𝑥 𝑖 − 𝑥̅) 2 Tung độ gốc của phương trình hồi qui ước lượng:

- b : là độ dốc tiên lượng

- 𝑥 𝑖 : là biến độc lập với quan sát lần thứ i

- 𝑦 𝑖 : là biến phụ thuộc với quan sát lần thứ i

- 𝑥̅: là giá trị trung bình của biến độc lập

- 𝑦̅: là giá trị trung bình của biến phụ thuộc

2.3.3 Biểu diễn dữ liệu với Boxplot

Ta giả sử mẫu n số liệu có biến Y tuân theo phân phối chuẩn:𝑌~𝑁(0; 𝜎 2 )

Ta có thể biểu diễn một mẫu số liệu như sau:

Các thông số của Boxplot:

𝑄 2 : Điểm tứ phân vị thứ 2 với mức xác suất 50% (Median hay là trung vị), vị trị được xác định:

+Vị trí phân vị thứ 2=0,5(𝑛 + 1)

𝑄 1 : Điểm tứ phân vị thứ 1 với mức xác suất 25% , vị trí được xác định:

+Vị trí phân vị thứ 1=0,25(𝑛 + 1)

𝑄 3 : Điểm tứ phân vị thứ 3 với mức xác suất 75%., vị trí được xác định:

+Vị trí phân vị thứ 3=0,75(𝑛 + 1)

IQR: Khoảng tứ phân vị hay còn gọi là độ trãi giữa, được tính như sau:

Các điểm ngoại lai: nằm ngoài đồ thị Boxplot

BÁO CÁO XÁC SUẤT THỐNG KÊ 9

Hồi quy tuyến tính bội

2.4.1 Mô hình hồi quy tuyến tính bội:

Hồi quy tuyến tính bội là một phiên bản mở rộng của hồi quy tuyến tính đơn, cho phép dự đoán giá trị của một biến phản hồi dựa trên hai hoặc nhiều biến giải thích Biến phản hồi, hay còn gọi là biến phụ thuộc, là giá trị mà chúng ta muốn dự đoán, trong khi các biến giải thích, hay biến dự báo, là những yếu tố được sử dụng để thực hiện dự đoán này.

Với Y là biến phụ thuộc X 2 , X 3 , … , X k là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó

Suy ra: Tồn tại E(Y ∣ X 2 , X 3 , … , X k ) = giá trị xác định

Do vậy, F(X 2 , X 3 , … , X k ) = E(Y ∣ X 2 , X 3 , … , X k ) là hàm hồi quy tổng thể của Y theo

Với một cá thể i, tồn tại (X 2,i , X 3,i , … , X k,i , Y i )

Hồi quy tổng thể PRF:

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

- 𝛽 i : Hệ số hồi quy riêng

- 𝛽 1 :Hệ số tự do (hệ số chặn)

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X)

2.4.2 Mô hình hồi quy tuyến tính mẫu:

Do không có thông tin tổng thể, chúng ta không thể xác định chính xác giá trị trung bình của biến phụ thuộc Vì vậy, cần dựa vào dữ liệu mẫu để ước lượng Trong một mẫu với 𝑛 cá thể, gọi 𝑌ˆ = 𝐹ˆ(𝑋 2 , 𝑋 3 , … 𝑋 𝑘 ) là hồi quy mẫu Đối với một cá thể mẫu 𝑌 𝑖 ≠ 𝐹ˆ(𝑋 2,𝑖 , 𝑋 3,𝑖 , … 𝑋 𝑘,𝑖 ), phần dư được tính là 𝑢̂ − 𝑌 𝑙 𝑖 − 𝐹ˆ(𝑋 2 , 𝑋 3 , … 𝑋 𝑘 ); 𝑢̂ 𝑙 được gọi là phần dư SRF Hàm hồi quy mẫu tổng quát có thể được viết dưới dạng như sau:

Ký hiệu: 𝛽̂ 𝑘 là ước lượng của 𝛽 𝑘

Với một mẫu có n cá thể ta có thể được viết chi tiết dưới dạng hệ phương trình sau:

BÁO CÁO XÁC SUẤT THỐNG KÊ 10 Đặt Y (

⋅ β̂ n ) Khi đó hệ phương trình có thể viết dưới dạng phương trình ma trận

2.4.3 Các giả thiết cơ bản

Ta đưa ra các giả thiết cơ bản cho mô hình hồi quy nội bội như sau:

Ma trận ngẫu nhiên u có kỳ vọng bằng 0 , tức là:

Giả thiết 2: Phương sai 𝜎 2 không đổi, tức là:

𝐸(û i û j ) = 0 ⅈ ≠ 𝑗 E(û i û i ) = 𝜎 2 hoặc ta có thể viết dưới dạng: E(ûû T ) = 𝜎 2 I, với I là ma trận đơn vị cấp n

Giả thiết 3: Các 𝑢̂ 𝑖 có phân bố chuẩn N(0, 𝜎 2 )∀i = 1, n̅̅̅̅̅

Giả thiết 4: Các 𝑋 2 , 𝑋 3 , … , 𝑋 𝑘 không có quan hệ tuyến tính

2.4.4 Ước lượng các tham số bằng OLS

Với giả thiết trên, ta cần dựa vào dữ liệu (Y i , X 2i , X 3i , … , X ki ), (i = 1, n̅̅̅̅̅) quan sát được để tìm ước lượng véc tơ hệ số 𝛽 = (𝛽 1 , 𝛽 2 , … , 𝛽 k ) T của mô hình hồi quy bội

BÁO CÁO XÁC SUẤT THỐNG KÊ 11

Ký hiệu 𝛽ˆ = (𝛽ˆ 1 , 𝛽ˆ 2 , … , 𝛽ˆ k ) T là ước lượng của 𝛽, khi đó ta có phương trình hồi quy mẫu (SRF)

Chúng ta cần xác định các hệ số (𝛽ˆ 1 , 𝛽ˆ 2 , … , 𝛽ˆ k ) để tối thiểu hóa tổng các phần dư ∑ i=1 n uˆ i 2 Kết quả từ phương pháp giải tích chỉ ra rằng véc tơ ước lượng này thỏa mãn phương trình ma trận.

(𝑋 ′ 𝑋)𝛽ˆ = 𝑋 ′ 𝑌 trong đó 𝑋 ′ , 𝑌 ′ tương ứng là các ma trận chuyển vị của 𝑋 và 𝑌 Từ giả thiết 4 dẫn đến sự tồn tại ma trận nghịch đảo của X ′ X và do đó

Biểu thức này được gọi là phương trình cơ bản của phương pháp OLS

2.4.5 Độ phù hợp của mô hình: a) Ý nghĩa:

Trong thực tế, không thể giải thích toàn bộ các giá trị, do đó "các giá trị thực tế bằng tổng các giá trị mà mô hình hồi quy có thể giải thích và các giá trị mà mô hình chưa giải thích được" Để đánh giá độ phù hợp của mô hình một cách chính xác, cần thực hiện kiểm định giả thuyết.

Để so sánh trung bình của k tổng thể (với k=3), chúng ta sử dụng các mẫu ngẫu nhiên độc lập gồm n1, n2, n3, …, nk Giả định rằng các mẫu này được lấy từ các tổng thể khác nhau, chúng ta sẽ phân tích và so sánh các giá trị trung bình của chúng.

- Các tổng thể này có phân phối bình thường

- Các phương sai tổng thể bằng nhau

- Các quan sát được lấy mẫu là độc lập nhau b) Các thông số trong phân tích ANOVA:

SSE (Sum Square Error) = (𝜀 1 ) 2 + (𝜀 2 ) 2 + (𝜀 5 ) 2 + ⋯ + (𝜀 𝑘 ) 2 : Tổng bình phương của các sai số hay tổng các chênh lệch bình phương trong nội bộ một nhóm

SSR (Tổng bình phương sai số) được tính bằng cách tổng hợp bình phương sự chênh lệch giữa trung bình mẫu chung (𝑥̅) và trung bình mẫu của từng nhóm (𝑥̅𝑖), nhân với số lượng quan sát của từng nhóm (𝑛𝑖) SSR thể hiện mức độ biến thiên của yếu tố phụ thuộc do ảnh hưởng của yếu tố độc lập.

SST (Tổng bình phương tổng) được tính bằng cách tổng hợp bình phương sự chênh lệch giữa trung bình mẫu chung (𝑥̅) và từng giá trị quan sát (𝑥 𝑖𝑗) Nó phản ánh mức độ biến thiên của yếu tố phụ thuộc do ảnh hưởng từ tất cả các yếu tố độc lập.

BÁO CÁO XÁC SUẤT THỐNG KÊ 12

Ta có tổng chênh lệch bình phương toàn bộ bằng tổng cộng tổng bình phương các chênh lệch trong các nhóm và tổng các chênh lệch giữa các nhóm

MSE, hay phương sai trong nội bộ một nhóm, được tính bằng tổng các chênh lệch bình phương trong các nhóm (SSE) chia cho bậc tự do n – k, trong đó n là số quan sát và k là số nhóm MSE ước lượng phần biến thiên của yếu tố phụ thuộc mà không do yếu tố độc lập gây ra.

MSR (Mean Square for Regression) là phương sai giữa các nhóm, được tính bằng tổng các chênh lệch bình phương giữa các nhóm chia cho bậc tự do k – 1 MSR đóng vai trò quan trọng trong việc ước lượng phần biến thiên của yếu tố phụ thuộc do yếu tố độc lập gây ra.

𝑘 − 1 c) Hệ số xác định bội 𝑅 2 :

Hệ số xác định điều chỉnh 𝑅² là một chỉ số quan trọng trong mô hình hồi quy tuyến tính, cho thấy mức độ mà các biến độc lập có thể giải thích sự biến thiên của biến phụ thuộc.

𝑅 2 được xác định theo công thức:

𝑆𝑆𝑇 Hoặc có cách tính 𝑅 2 khác với 1 mẫu nhất định:

Hệ số xác định, hay trị thống kê "good of fit", là tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương Định nghĩa 𝑅² cho thấy 𝑅² đo tỷ lệ phần trăm của toàn bộ sai lệch Y so với giá trị trung bình được giải thích bởi mô hình Do đó, 𝑅² được sử dụng để đánh giá sự phù hợp của hàm hồi quy.

- 𝑅 2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc

- Nếu 𝑅 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y

- Nếu 𝑅 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y d) Hệ số điều xác định hiệu chỉnh 𝑅̅ 2 :

Một tính chất quan trọng của 𝑅 2 là nó sẽ tăng khi ta đưa thêm biến độc lập vào mô hình

SST không phụ thuộc vào số lượng biến giải thích trong mô hình, trong khi SSR lại giảm Vì vậy, khi tăng số biến độc lập trong mô hình, giá trị 𝑅² sẽ tăng lên.

Việc thêm biến số vào mô hình sẽ làm tăng giá trị 𝑅², bất kể biến số đó có thực sự giúp giải thích biến phụ thuộc hay không Điều này cho thấy rằng 𝑅² không phải là thước đo tối ưu để so sánh các mô hình có số lượng biến khác nhau.

Để khắc phục vấn đề thiếu sót trong thống kê, chúng ta cần xem xét khái niệm 𝑅 2 hiệu chỉnh, được ký hiệu là 𝑅̅ 2, và được xác định thông qua một công thức cụ thể.

∑ 𝑚 𝑖=1 𝑦 𝑖 2 ∕ (𝑛 − 1) Trong đó n là số quan sát, k-1 là sô biến độc lập trong mô hình

Dễ dàng thấy có mối quan hệ giữa 𝑅̅ 2 và 𝑅 2 , cụ thể là

Từ đó 𝑅̅ 2 có các tính chất sau:

- Khi số biến độc lậ k – 1 tăng lên thì 𝑅̅ 2 cũng tăng lên nhưng tăng chậm hơn so với 𝑅 2 ;

- 𝑅 2 ≥ 0, Nhưng 𝑅̅ 2 có thể âm Khi 𝑅̅ 2 nhận giá trị âm thì để cho tiện, thường thì ngươi ta gán cho nó giá trị bằng 0

2.4.6 Ước lượng khoảng tin cậy các hệ số hồi quy:

Trong mô hình hồi quy với mẫu n, véc tơ nhiễu ngẫu nhiên û tuân theo phân phối chuẩn N(0; 𝜎 2) Điều này dẫn đến véc tơ hệ số hồi quy 𝛽ˆ cũng có phân phối chuẩn N(𝛽, 𝜎 2 (X ′ X) −1) Các thành phần của véc tơ này, cụ thể là 𝛽ˆ i, sẽ có phân phối chuẩn N(𝛽; 𝜎 2) với i = 1, k̅̅̅̅̅.

𝜎 2 chưa biết và nó có ước lượng không chệch là:

Se (𝛽ˆ i ) đều có phân phối student với (n − k) bậc tự do Do vậy, với độ tin cậy 1 − 𝛼 ta có khoảng ước lượng cho 𝛽 i là:

2.4.7 Kiểm định các hệ số hổi quy:

Kiểm định giả thiết đối với 𝛽 𝑗

XỬ LÝ DỮ LIỆU

Làm sạch dữ liệu

- Gọi file vào R, xem tổng quan (aa là file missing, bb là file dirty)

BÁO CÁO XÁC SUẤT THỐNG KÊ 17

Hình 1: Liệt kê số lượng biến bị khuyết

Hình 2 Tổng số biến bị khuyết

- Liệt kê những dòng có dữ liệu bị mất

- Sửa dữ liệu cột date cho missing

BÁO CÁO XÁC SUẤT THỐNG KÊ 18

- Tính toán lại order_price và order_total

- Tính toán lại distance_to_nearest_warehouse

BÁO CÁO XÁC SUẤT THỐNG KÊ 19

- Điền 5 dữ liệu bị khuyết cho file missing và vẽ lại biểu đồ kiểm tra

- Nhận xét: Không còn dữ liệu nào khuyết

BÁO CÁO XÁC SUẤT THỐNG KÊ 20

- Nhận thấy rằng dữ liệu warehouse không được viết hoa đầy đủ  viết hoa lại hết

- Nhận xét: Các chữ viết sai được viết lại

- Nhận thấy rằng dữ liệu season không được viết hoa đầy đủ  viết hoa lại hết

- Nhận xét: Các chữ viết sai được viết lại

**Sửa season không khớp với thời gian được cho

BÁO CÁO XÁC SUẤT THỐNG KÊ 21

- Tính toán lại khoảng cách tới warehouse gần nhất

- Liệt kê những dữ liệu phải tính lại

- Sau khi sửa tất cả thông tin trên thì được bảng dữ liệu

- Xuất file đã được xử lý

BÁO CÁO XÁC SUẤT THỐNG KÊ 22

Sau khi xuất hai file và lọc ra khách hàng có mã giảm giá 25%, chúng tôi đã chọn lọc số liệu phù hợp từ cả hai file cho mô hình hồi quy Kết quả thu được là mẫu với kích thước n = 59 và bao gồm 7 biến.

Làm rõ dữ liệu

3.2.1 Biểu đồ dữ liệu Đầu tiên, chúng ta sẽ vẽ biểu đồ hộp (boxplot) cho các biến liên tục của chúng ta:

"order_total", "customer_long", "customer_lat", "order_price",

Chúng tôi sử dụng biểu đồ hộp để biểu diễn các biến liên tục như order_total, customer_long, customer_lat, order_price và distance_to_nearest_warehouse Biểu đồ hộp này giúp hiển thị giá trị trung bình, xác định phạm vi tứ phân vị (IQR), phát hiện độ nghiêng, xác định các giá trị ngoại lệ và so sánh phân phối.

BÁO CÁO XÁC SUẤT THỐNG KÊ 23

Hình 3: Boxplot tương quan giữa order_price và delivery_charges

Biểu đồ hộp chỉ ra rằng mức giá từ 10.000 đến 20.000 có nhiều điểm ngoại vi hơn Đồng thời, không có sự tương quan rõ ràng giữa phí giao hàng và giá đơn hàng.

Hình 4: Boxplot tương quan giữa order_total và delivery_charges

Nhận xét cho thấy rằng order_total và delivery_charges không có sự tương đồng giống như order_price Cả hai đều có khoảng giá trị Q1 và trung vị giống nhau, nhưng Q3, giá trị tối thiểu và tối đa của chúng lại có sự khác biệt nhỏ.

BÁO CÁO XÁC SUẤT THỐNG KÊ 24

Hình 5: Boxplot tương quan giữa customer_long và delivery_charges

Nhận xét: Không có sự tương quan giữa customer_long và delivery_charges

Hình 6: Boxplot tương quan giữa customer_lat và delivery_charges

Nhận xét: Không có sự tương quan giữa customer_lat và delivery_charges

BÁO CÁO XÁC SUẤT THỐNG KÊ 25

Hình 7: Boxplot tương quan giữa distance_to_nearest_warehouse và delivery_charges

Sự tương quan giữa khoảng cách đến kho gần nhất và chi phí giao hàng thể hiện rõ ràng Dữ liệu đầu vào cho mỗi đầu ra được phân phối ngẫu nhiên và có sự tương đồng đáng kể.

3.2.2 Hệ số tương quan giữa các biến Để xem mối quan hệ tuyến tính giữa mỗi biến, chúng ta sẽ vẽ biểu đồ hệ số tương quan của tất cả các biến bằng cách sử dụng hàm corrplot và hiển thị những hệ số này trên terminal

Hình 1: Biểu đồ thể hiện hệ số tương quan giữa các biến

BÁO CÁO XÁC SUẤT THỐNG KÊ 26

Hình 1: Hệ số tương quan

Xây dựng mô hình hồi quy tuyến tính

Xem xét mô hình với tất cả các biến độc lập trong bảng dữ liệu đã chọn lọc, ta sử dụng 3 dòng lệnh sau:

When developing a linear model to analyze delivery charges, it's important to exclude the variables coupon_discount and order_total, as the latter is already calculated based on delivery_charges The model is structured as follows: delivery_charges is predicted using order_price, distance to the nearest warehouse, customer latitude, and customer longitude, as shown in the formula: m

Ngày đăng: 09/12/2024, 09:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w