1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tập lớn xác suất thống kê

43 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài tập lớn Xác suất Thống kê: Phân tích hồi quy trên dữ liệu cửa hàng điện tử trực tuyến
Tác giả Nguyễn Duy Phúc, Trần Trung Hiếu, Trịnh Quốc Thành, Tăng Phú Thiên Thánh, Trần Đức Huy
Người hướng dẫn LÊ XUÂN ĐẠI
Trường học Trường Đại học Bách Khoa
Chuyên ngành Khoa Điện – Điện Tử
Thể loại Bài tập lớn
Định dạng
Số trang 43
Dung lượng 2,05 MB

Cấu trúc

  • CHƯƠNG 1: CƠ SỞ LÝ THUYẾT (6)
    • I. Phân tích hồi quy (6)
      • 1. Định nghĩa (6)
      • 2. Bản chất (6)
      • 3. Ý nghĩa hồi quy tuyến tính (0)
    • II. Mô hình hồi quy đa biến (7)
      • 2. Các giả thiết của mô hình hồi quy bội (8)
      • 3. Phương pháp ước lượng mô hình hồi quy bội- Phương pháp bình phương nhỏ nhất(OLS) (8)
      • 4. Đánh giá mức độ phù hợp của mô hình hồi quy bội (10)
    • III. Phương pháp kiểm định Shapiro-Wilk ................................................................................................... 11 IV. Phương phá kiểm định Breusch-Pagan ................................................................................................... 12 V. Tiêu chí thống kê AIC và BIC ................................................................................................... 12 CHƯƠNG 2: SỬ LÝ SỐ LIỆU (0)
    • I. Đọc dữ liệu (0)
    • II. Làm sạch dữ liệu (24)
  • CHƯƠNG 3: MÔ HÌNH HỒI QUY (29)
    • I. Mô hình ma trận hiệp phương sai (29)
    • III. Hồi quy đa thức (37)
  • TÀI LIỆU THAM KHẢO (42)

Nội dung

Định nghĩa: Phân tích hồi quy là một kỹ thuật thống kê toán học dùng để ước lượng và kiểm tra các mối quan hệ giữa các biến ngẫu nhiên, từ đó có thể đưa ra các dự đoán.. 1 Tỉ lệ ratio sc

CƠ SỞ LÝ THUYẾT

Phân tích hồi quy

1 Định nghĩa: Phân tích hồi quy là một kỹ thuật thống kê toán học dùng để ước lượng và kiểm tra các mối quan hệ giữa các biến ngẫu nhiên, từ đó có thể đưa ra các dự đoán Các mối quan hệ này được biểu diễn dưới dạng các hàm số hoặc phương trình

Mục tiêu là chọn hàm và các tham số sao cho sai số là nhỏ nhất có thể. Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số F(X1, , XS) của các biến ngẫu nhiên X1, , XS khác (control variables), hay còn gọi là biến tự do, trong khi Y được gọi là biến phụ thuộc, tức là khi ta có các giá trị của X1, , XS , thì ta muốn từ đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào một số tham số β = (β , , β ) nào đó Ta có thể viết Y như sau:1 S

Y = F(X , , X ) + 1 S ϵ trong đó là phần sai số (cũng là một biến ngẫu nhiên) Ta muốn chọn hàmϵ

F một cách thích hợp nhất có thể, và các tham số β, sao cho sai số là nhỏϵ nhất có thể. Đại lượng √𝔼(| |𝜖 2 được gọi là sai số chuẩn (standard error) của mô hình hồi quy Mô hình nào mà có sai số chuẩn càng thấp thì được coi là càng chính xác

2 Bản chất: a Biến phụ thuộc Y: Giả định là biến ngẫu nhiên, có thể được đo lường bằng một trong bốn thước đo:

1) Tỉ lệ (ratio scale): Một thang đo tỉ lệ có 3 tính chất: tỷ số giữa 2 biến, khoảng cách giữa 2 biến và xếp hạng các biến

2) Khoảng (interval scale): Thang đo khoảng không thõa mãn tính chất đầu tiên của thang đo tỉ lệ

3) Thứ bậc (ordinal scale) : Các biến chỉ thỏa mãn tính chất xếp hạng của thang đo tỷ lệ, chứ việc lập tỉ số hay khoảng cách giữa hai giá trị không có ý nghĩa

4) Danh nghĩa (nominal scale): Các nhóm thuộc nhóm này không thõa mãn bất kì tính chất nào của các biến theo thang đo tỉ lệ b Biến ngẫu nhiên X: Có thể được đo theo bất kỳ một trong bốn thang đo trên. c Sai số ngẫu nhiên: Đại diện cho tất cả các biến không được đưa vào mô hình vì các lý do như không có sẵn dữ liệu, lỗi đo lường. d Tham số hồi quy: Là những con số cố định và không ngẫu nhiên.

3 Ý nghĩa của hồi quy tuyến tính: Tuyến tính trong mô hình hồi quy tuyến tính nghĩa là tuyến tính ở các hệ số hồi quy, không phải tuyến tính ở các biến Y và X.

Dưới đây là một số ví dụ về hồi quy tuyến tính:

Dự đoán giá nhà: Trong ví dụ này, chúng ta sẽ thử nghiệm việc cài đặt mô hình hồi quy tuyến tính thông qua việc dự đoán giá nhà Chúng ta tạo tập hợp các cặp (diện tích nhà, giá nhà) từ dữ liệu đã biết, sau đó sử dụng mô hình để dự đoán giá của một căn nhà có diện tích cho trước.

Dự đoán cân nặng: Một ví dụ đơn giản khác của hồi quy là dự đoán cân nặng của một người khi biết chiều cao của người đó.

Dự đoán giá đất: Một ví dụ khác về mô hình hóa mối quan hệ giữa thời gian,giá và diện tích để dự đoán giá đất trong tương lai gần.

Mô hình hồi quy đa biến

Mô hình hồi quy bội là mô hình hồi quy trong đó biến phụ thuộc Y phụ thuộc vào (k – 1) biến độc lập X2, X3, …, Xk Mô hình này được biểu diễn dưới dạng một hàm hồi quy tổng thể và mô hình hồi quy tổng thể, trong đó có một phần sai số ngẫu nhiên. y=β0+β1x1+β2x2+ +βnxn+ϵ

Trong đó: y là biến phụ thuộc x1,x2, ,xn là biến độc lập β0,β1,β2, ,βn là các hệ số hồi quy, thể hiện mức độ ảnh hưởng của biến độc lập lên biến phụ thuộc là sai số ngẫu nhiên, thể hiện sự khác biệt giữa giá trị thực tế và giá trị dự ϵ đoán của biến phụ thuộc

Hệ số j > 0: khi đó mối quan hệ giữa Y và Xj là thuận chiều, nghĩa là khi Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng sẽ tăng (hoặc giảm).

Hệ số j < 0: khi đó mối quan hệ giữa Y và Xj là ngược chiều, nghĩa là khi

Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm (hoặc tăng).

Hệ số = 0: có thể cho rằng giữa Y và X không có tương quan vớij j nhau, cụ thể là Y có thể không phụ thuộc vào X hay là X không thựcj j sự ảnh hưởng tới Y.

2 Các giả thiết của mô hình hồi quy bội

Giả thiết thứ nhất: Ước lượng được thực hiện dựa trên một mẫu ngẫu nhiên.

Giả thiết thứ hai: Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X2i, X3i, …, Xki) là 0, tức là E(u | X2i, X3i, …, Xki) = 0.

Giả thiết thứ ba: Phương sai của sai số ngẫu nhiên tại các giá trị (X2i, X3i, …, Xki) đều bằng nhau Từ giả thiết thứ hai và ba, ta có thể kết luận rằng sai số ngẫu nhiên (u) tuân theo phân phối chuẩn.

Giả thiết thứ tư: Không có quan hệ cộng tuyến hoàn hảo giữa các biến độc lập Xj, tức là không tồn tại hằng số λ2, λ3, …, λk không đồng thời bằng 0 sao cho: λ2X2 + λ3X3 + … + λkXk = 0 Nếu giữa các biến Xj (j = 2, 3, …, k) có quan hệ cộng tuyến hoàn hảo thì sẽ có ít nhất một trong các biến này sẽ suy ra được từ các biến còn lại Do đó, giả thiết thứ tư được

3 Phương pháp ước lượng mô hình hồi quy bội- Phương pháp bình phương nhỏ nhất(OLS)

Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mô hình, vấn đề tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậy cho các hệ số j này Cũng như với mô hình hồi quy hai biến, ta sẽ sử dụng phương pháp bình phương nhỏ nhất (OLS) để ước lượng các hệ số trong mô hình hồi quy k biến.

Xét mô hình k biến: Y = + X + X + … + 1 2 2 3 3 kXk +

Giả sử có một mẫu quan sát với giá trị thực tế là (Y , X , …, X ) với (i= 1, 2, …, n).i 2i ki

Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số (j = 1, 2,j

…, k), ký hiệu là j (j = 1, 2, …, k) Từ các giá trị ước lượng này có thể viết thành hàm hồi quy mẫu như sau: j=1 +2X +3X +…+kX2 3 k

Tại mỗi quan sát i, hàm hồi quy mẫu được viết thành: i=1+2X +3X +…+kX2i 3i k

Tương tự như mô hình hồi quy hai biến, phương pháp OLS nhằm xác định các giá trị j (j = 1, 2, …, k) sao cho tổng bình phương các phần dư là bé nhất:

Khi đó, các giá trị = 1 + 2 + 3 +…+ k sẽ là nghiệm của hệ gồm k phương trình sau:

Dưới điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và giả thiết thứ 4 được thỏa mãn, hệ phương trình sẽ có nghiệm duy nhất Việc giải hệ phương trình có thể được thực hiện dễ dàng bằng các phần mềm thống kê nếu số biến không quá lớn.

9 Đối với mô hình hồi quy bội (hồi quy nhiều biến), việc giải hệ phương trình để tìm các ước lượng hệ số sẽ trở nên khó khăn hơn so với mô hình hồi quy 2 biến.

Do đó, ta sẽ cần sự giúp đỡ của các phần mềm thống kê.

Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy.

Khi các giả thiết từ 1 đến 4 thỏa mãn, các ước lượng thu được từ phương pháp OLS là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch Nói cách khác, nếu giả thiết từ 1 đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốt nhất trong lớp các ước lượng tuyến tính không chệch.

4 Đánh giá mức độ phù hợp của mô hình hồi quy bội Đánh giá mức độ phù hợp của mô hình hồi quy bội có thể được thực hiện thông qua một số tiêu chí sau:

R bình phương (R Square) và R bình phương hiệu chỉnh (Adjusted R Square): Đây là hai tiêu chí đo lường mức độ phù hợp của mô hình Nếu 1 mô hình có R2 hoặc R2 hiệu chỉnh cao hơn là mô hình tốt hơn Tuy nhiên, 1 tiêu chí này chỉ so sánh và đánh giá được các mô hình có: (1) biến phụ thuộc là giống nhau (2) có kích cỡ mẫu như nhau 1

Phần dư (Residuals) : Sử dụng giá trị phần dư là tiêu chí sử dụng phổ biến khi so sánh, đánh giá mô hình Các tiêu chí theo phần dư thường có RMSE 1 và MSE là hai tiêu chí sử dụng phổ biến hơn Một giá trị MSE (hoặc 1 RMSE) càng bé thì có nghĩa là những giá trị ước lượng của Y sẽ càng sát với giá trị thực và do đó, một mô hình có MSE (RMSE) bé hơn sẽ là một mô hình tốt hơn 1

Kiểm định F : Giá trị sig của kiểm định F được sử dụng để kiểm định độ phù hợp của mô hình hồi quy Nếu sig nhỏ hơn 0.05, ta kết luận mô hình hồi 2 quy tuyến tính bội phù hợp với tập dữ liệu và có thể sử dụng được 2 Các tiêu chuẩn thông tin AIC, SIC, và Cp của Mallow : Đây là nhóm tiêu chí thường được sử dụng để thay thế và hạn chế nhược điểm của R2 Với 1 các kí hiệu các bạn đã quen thuộc, tiêu chuẩn thông tin Akaike (AIC) được tình theo công thức Căn cứ vào tiêu chuẩn thông tin Akaike AIC, mô hình 1 có AIC thấp hơn sẽ được lựa chọn 1

Làm sạch dữ liệu

Cần sử dụng các thự viện: ggplot2, dplyr, plotly, cowplot, caret, vcd,

ResourceSelection, pROC, corrplot, keras, tensorflow, xgboost, class, Hmisc, stringr, png. Đọc file bằng read.xlsx.

-Ta có thể file còn nhiều chỗ thiếu và xuất hiện hiện tượng NA.

Checking missing value: sum(is.na(missing_data))

-Cụ thể: sum(is.na(missing_data)) apply(is.na(missing_data),2,sum)

-Ta có thể thấy các biến order_tolal, customer_long,…., mỗi biến có 10 NA

-Các biến is_happy_customer, season, nearest_warehouse là các biến kiểu chữ và chỉ chiếm 3% nên ta sẽ xoá chúng sau khi thay thế các giá trị NA vào cho các biến kiểu dữ liệu số.

-Đối với các biến kiểu dữ liệu số ta sẽ tìm giá trị trung vị của từng cột rồi thế vào các giá trị của NA:

# Thay thế NA bằng giá trị trung vị của cột median_value1 chấp nhận H1:

=>phần dư có phân phối không chuẩn

Biểu đồ xét về tính phương sai đồng nhất ( trung bình = nhau )

Nhìn vào thì ta thấy đường màu đỏ lệch lên dần => phương sai không đồng nhất Hoặc ta có thể dùng kiểm định

> bptest(linear1) studentized Breusch-Pagan test data: linear1

Trong trường hợp này, giá trị p rất nhỏ (nhỏ hơn mức ý nghĩa thông thường 0.05), cho thấy có bằng chứng đủ để bác bỏ giả thuyết nhất quán (H0) và chấpnhận H(1): phương sai không nhất quán

4) Độ ảnh hướng của các quan sát lên mô hình

Biểu diễn mức độ ảnh hưởng của quan sát lên mô hình Ta thấy có 1 vài điểm gần với đường biên cook’distance Song vẫn chưa có điểm nào vượt quá cook’s distance => không có quan sát nào quá ảnh hưởng đến mô hình => không cần loại bỏ khi

5) Không có đa cộng tuyến hoàn hảo

> car::vif(linear1) is_happy_customer nearest_warehouse

1.010326 1.007615 is_expedited_delivery distance_to_nearest_warehouse

Trong hồi quy tuyến tính, VIF ( variance Inflation Factor )được sử dụng để đánh giá mức độ tương quan giữa các biến độc lập trong mô hình Giá trị VIF càng cao, tức độ tương quan giữa biến đó với các biến khác càng lớn

VIF nhỏ hơn 5 thường đươc coi là chấp nhận được Và các biến trên chỉ ra rằng không có sự tương quan mạnh giữa các biến độc lập

Như vậy, với mô hình hồi quy này chỉ thỏa mãn 2/4 điều kiện Và độ chính xác cònthấp

3 Phân tích anova linear3 | t|)

Residual standard error: 9.038 on 433 degrees of freedom

F-statistic: 133.2 on 4 and 433 DF, p-value: < 2.2e-16

Sau khi đã loại bỏ các biến không có ý nghĩa thống kê, ta thấy rằng

Adjusted R-squared: 0.5476 tăng nhẹ so với mô hình trước Vậy ta càng có thể kết luận, các biến mà chúng ta bỏ không có ý nghĩa thống kê

Model 1: delivery_charges ~ is_happy_customer + nearest_warehouse + coupon_ discount + season + is_expedited_delivery + distance_to_nearest_warehouse + order_price

Model 2: delivery_charges ~ is_happy_customer + season + is_expedited_delivery + distance_to_nearest_warehouse

Res.Df RSS Df Sum of Sq F Pr(>F)

Ta thấy rằng P value > 0.05 => không nằm trong miền bác bỏ => không bác bỏ H0

=> chấp nhận H0 => chấp nhận mô hình đơn giản hơn là tốt hơn

4 test test_set pred_set rank

272 63.11 60.75217 10 Độ chính xác trung bình: 52.68 %

36 Đường màu đỏ là đường dự đoán, đường màu xanh là đường của dữ liệu đúng Ta thấy rằng sự biến động khác là lớn, độ chính xác không cao.

Vì vậy, nhóm em đã đưa ra thêm một phương pháp khác để dự đoán cho biến delivery_charges Đó là phương pháp hồi quy đa thức.

Hồi quy đa thức

1 Tổng kết hồi quy đa thức

Với outcome (giá trị trả về) là delivery_charges Ta sử dụng dòng lệnh cho code R như sau: poly1

Ngày đăng: 15/04/2024, 19:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w