1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng hồi quy tuyến tính bội Để xem xét các yếu tố ảnh hưởng Đến giá vận chuyển

32 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 4,44 MB

Nội dung

Hồi quy tuyến tính là một phương pháp thống kê đê mô hình hóa và dự báo mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập.. 2.2 Những giả định của mô hình hồi

Trang 1

DE TAI:

UNG DUNG HOI QUY TUYEN TINH BOI

DE XEM XET CAC YEU TO ANH HUONG

DEN GIA VAN CHUYEN

Trang 2

BANG PHAN CONG CONG VIỆC

_Họ Và Tên MSSV Công Việc Tỷ Lệ Hoàn Thành

1 Kiêu Lê Trọng Tuyên 2213835 Xử lý số liệu, code R 100%

2 Đặng Hà Minh Tuân 2213764 | Tông hợp file, chỉnh sửa bo 100%

3 Lưu Trọng Nghĩa 2212223 Xử lý số liệu, thông ké mau, 100%

thong ké tong the

thông ké tong the, code R

Trang 3

CV

Lời nói đầu

Thống kê là khoa học về cách thu thập, xử lý và phân tích dữ liệu về hiện tượng rồi đưa

ra kết luận có tính quy luật của hiện tượng đó Phân tích thông kê dựa trên cơ sở của lý thuyết xác suất và có quan hệ chặt chẽ với xác suất Nó không nghiên cứu từng cá thể riêng lẻ mà nghiên cứu một tập hợp cá thẻ - tính quy luật của toàn bộ tông thê Từ việc điều tra và phân tích mẫu đại diện, có thê tạm thời đưa ra kết luận về hiện tượng nghiên cứu nhưng với khả năng xảy ra sai làm đủ nhỏ để có thể chấp nhận được

Xác suất thống kê được sử dụng nhiều để giải quyết các bài toán trong khối ngành kỹ thuật nói chung và Điện — Điện tử nói riêng Với định hướng cải tiến chương trình và nội dung gan liền thực tiễn, Bài tập lớn môn Xác suất thông kê có vai trò ứng dụng các lý thuyết được học vào chuyên ngành mang tính thực tiễn, ứng dụng

Với những dữ kiện đề bài cho trước, nhóm l chúng em xin thực hiện đề tài Bài tập lớn môn Xác suất thông kê để trình bày cơ sở lý thuyết, cùng những phương pháp, phân tích số liệu thống kê nhằm mục đích có thê khai thác hiệu quả các thông tin, phục vụ công tác nghiên cứu về đề tài được giao

Nhóm I chúng em cũng xin gửi lời cảm ơn chân thành tới đoàn khoa Khoa Học Ứng Dụng đã tạo điều kiện để nhóm chúng em có thê tiếp cận nguồn đữ liệu này từ đó để phục vụ cho quá trình thực hiện bài tiểu luận ngày hôm nay

cœs£ìx»

ee

Trang 4

Trường Đại Học Bách khoa —- ĐHQG - TPHCM G9

2.3.1 I N0 —-:4 ,,,,), , ).).).).).)).)).))H)HậẬHẬH,),).) ,Ô)òÙ 7

2.4 Hi quy tuyến tính bộii: S22 v St v T232 HH 118111111111 1.1111 HH HH 1111111111111 HH grHrv 9 2.4.1 ION0U)8/18:1100010/100100157 1000077 .d ,., 9 2.4.2 MG hinh hoi quy tuyén 0g na 6 S6 (,H,D|ẰHẬH|H 9 2.4.3 CAC Gia thiét CO DAN ececcececccsscssssesssseseesessecscescsseseseesesseseseesessseessseeseseeesansusaesneasensaseneaeenenees 10 2.4.4 Ước lượng các tham số bằng OLS ¿52 5t t 232122111223 11E2111111121111 1111111 er re 10

2.4.6 Ước lượng khoảng tin cay CAC Ne S6 NOI QUY: .cec ce ccessescscesssesesescecsescecenssesescacereseseececeneass 13 2.4.7 Kid inh CAC 8 S6 NOE QUY: cece cecescecssesesescscssessseeecesescscarsssneasseseesesessecenesesesescaneasaeecececess 13 2.4.8 Kiểm định mức độ ý nghĩa chung của mô hình ( tiêu chuẩn kiểm định F ) 14 2.4.9 Dự báo cho mô hình hài quy tuyến tính bội: - S2 Scc2cS22t+xer se srrvrrererrrrrrrrree 15

IV NGUÒN DỮ LIỆU VÀ NGUÒN CODE Q0 Q n.HHnHHHHH HH1 2101111101 11.111 1x re 32

ee

Trang 6

Biến Loai dữ liêu Don vi Mô Tả

1, Mã đơn đặt hàng Chuỗi kí tự ( Trồng ) | Một ID duy nhất cho mỗi đơn hàng

2 _ Mã khách hàng Chuỗi kí tự ( Trồng ) | Một ID duy nhất cho mỗi khách hàng

Một danh sách các bộ đại diện cho

các hạng mục trong đơn hàng: phần

5 Giỏ hàng Chuỗi kí tự ( Trống ) | tử đầu tiên của bộ đữ liệu là mục

được sắp xếp và phân tử thứ hai là số

lượng đặt hàng cho mặt hàng đó

Một số biểu thị giá đặt hàng bằng

6 Gia dat hang x € \0;+00) USD | hàng trước khi có bất kỳ khoản giảm

giá và/hoặc phí giao hàng nào được

áp dụng

7 Phí vận chuyên ye \o ; +00) USD fon kang hiện phí giao hàng của

mm đội \-90;90) | Độ | Vĩđộvi trí của khách hàng

(customer_lat) ;

10.Mức mai khuyến m €N|0<m < 100 % 6 Một S neu yen peu thi phan tram gam giá được áp dụng cho

ơn giá

11, Đơn giá n€ À0;+ø)|n < usp | hàng bằng USD, giảm giá và/hoặc

* phí giao hàng đã được áp dụng

được đặt

tốc t —EALSE - không 2 ng có yêu cầu giao hàng ay

không?

14 Khoảng cách tới \ Một số biêu thị khoảng cách vòng kho hang gần r € \0; +00) km cung, tính bằng km, giữa khách hàng nhất và kho hàng gân nhất với họ

nhất từ khách Chuỗi kí tự ( Trống ) | nhất của khách hàng về

hàng đơn hàng gần đây nhất của họ

Một hàm nhị phân biểu thị liệu khách

16.D6 hải lòng | q= TRUE- có ( Trồng ) hàng có hài lòng hay không? Hoặc

BAO CAO XAC SUAT THONG KE

® fy

Trang 7

Trong thực tế ta đôi khi ta cần tìm mối liên hệ giữa hai hay nhiều biến ngẫu nhiên Khi

ta đã biết được mối liên hệ giữa những đại lượng đó ta có thé dé dang hình dung ra mô hình

tông quát hay giúp tiên đoán sự thay đôi của một đại lượng dựa vào môi quan hệ với những

đại lượng đã biết Hồi quy tuyến tính là một phương pháp thống kê đê mô hình hóa và dự

báo mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập Mô

hình hóa sử dụng hàm tuyến tính (bậc 1) Các tham số của mô hình (hay hàm số) được ước

lượng từ dữ liệu Hồi quy tuyến tính có nhiều ứng dụng trong kinh tế lượng, nông nghiệp,

y tế, và các lĩnh vực khác Nó cũng được sử dụng rộng rãi trong thực tế do tính chất đơn

giản hóa của hồi quy

2.2 Những giả định của mô hình hồi quy tuyến tính:

2.2.1 Mối quan hệ tuyến tính:

Méi quan hệ tuyến tính phải tồn tại giữa các biến độc lập và phụ thuộc Ta có thể tạo ra

biêu đồ phân tán có chứa các giá trị ngẫu nhiên của biến độc lập và phụ thuộc xem liệu

chúng có nằm trên đường thắng hay không

2.2.2 Phần dư độc lập:

Phần dư là độ chênh lệch giữa giá trị thực tế và giá trị tiên đoán Phần dư giữa những giá trị khác nhau không được có mô hình tương quan hay mối liên hệ nảo

2.2.3 Phương sai không đổi:

Phương sai không đổi giả định rằng phần dư có phương sai cố định hoặc độ lệch

chuân so với trung bình cho moi gia tri của biên độc lập Nêu khong, ket qua phan tich

- ø: Hệ số chặn hay tung độ gốc của mô hình hồi quy (Intercept)

- 8: Hệ số góc hay độ dốc của biến độc lập x (slope / gradient)

- x : Hệ số độc lap (independent variable)

- Y : Hệ số phụ thuộc (dependent variable)

- £: Sai số ngẫu nhiên (random error) phần dư = độ chệnh lệch giữa giá trị thực

vì và giả trị dự báo Y = ø + x+e

£ tuân theo quy luật phân phối chuẩn, có giá trị trung bình là 0 và phương sai bất biến

2.3.2 Phương pháp bình phương tối thiểu:

Xét mô hình hồi quy đơn biến ước lượng với mẫu xác định:

Trang 8

Xác định a và b sao cho a "he "nh a hy nho om }, s\ wh

SSE (Sum Square Error) En Yi — 9;/ “ =>min

Độ dốc b của phương trình hồi quy ah c lượn: mA I

-b; là độ dốc tiên lượng

-_ x¡: là bién độc lập với quan sát lần thứ ¡

-_ #: là giá trị trung bình của biến độc lập

- _ÿ: là giá trị trung bình của biến phụ thuộc

Ta giả sử mẫu n số liệu có biến Y tuan theo phan phéi chuan:Y~N \0;0

Ta có thể biểu diễn một mẫu số liệu như sau:

DB thi hộp(boxplot)

3415

Q3-1,519R Qi Qœ Q Q1131QR

Diém ngoai lai(outliers)

Mặt độ phản phối xác suất cia Y

Các thông số của Boxplot:

Q;: Điểm tứ phân vị thứ 2 với mức xác suất 50% (Median hay là trung vị), vị trị

được xác định: \ }

+Vi tri phan vi thir 2=0,5 \n + 1

Q¡: Điểm tứ phân vị thứ l yới mức Kác suất 25%, vị trí được xác định:

Trang 9

2.4 Hồi quy tuyến tính bội:

2.4.1 Mô hình hồi quy tuyến tính bội:

Hỏi quy tuyên tính bội là phần mờ rộng của hồi quy tuyến tính đơn Nó được sử dụng

khi chúng ta muốn dự đoán giá trị của một biến phản: hỏi dựa trên giá trị của hai hoặc nhiều

biến giải thích Biến chúng ta muốn dự đoán gọi là biến phản hồi (hoặc biến phụ thuộc) Các

biến mà chủng ta đang sử dụng đề dự đoán giá trị của biến phản hồi được gọi là các biến

giải thích (hoặc biến dự báo, biến phụ thuộc)

Với Y là biến phụ thuộc X;,Xs, , X„ là biến độc lập, Y là ngẫu nhiên và có một phân

phôi xác suật nào đó \

Y | Xp,

Do vay, Nik are sự | Xp, Xz, " là hàm hồi quy tổng thể của Y theo X2,Xg, 0) Xx

Với một cá the i, ton tại B Xap Xp Y

Mô hình hồi quy tuyến tính bội có ó dang tống quát như sau:

Y =fi + BoX2 + BaX3 ++ + BX +u

Như vậy, "Hỏi quy tuyến tính" là một phương pháp đề dự đoán gia trị biến phụ thuộc

(Y) dựa trên giá trị của biến độc lập (X)

2.4.2 Mô hình hồi quy tuyến tính mẫu:

Do không biết tổng thế, nên chúng ta không biết giá trị trung bình tống thê của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải nhân vào dữ liệu mầu đề uớc

thể mẫu Y, # Ê X¿i,Xa¡, Ấy¡ˆ sinh rất Y¡ — Ê \X;,X;, X„/ Tugọi là phần dư

SRE Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

9= By + Box2i + Baxsi + ỂhXụi

=> ¥, = By + Box2, + Bax3it uXk¡ +

Ký hiệu: Øy là ước lượng của y

Với một mẫu có n cá thê ta có thể được viết chỉ tiết dưới dạng hệ phương trình sau:

Trang 10

2.4.3 Các giả thiết cơ bản

Ta đưa ra các giả thiết cơ bản cho mô hình hôi quy nội bội như sau:

Giả thiết 3: Các ; có phân bố chuân xu» ơ?/Vi =7 n

Giả thiết 4: Các X;,X;, , X„ không có quan hệ tuyến tính

2.4.4 Ước lượng các tham số bang OLS

Trang 11

Ký hiệu 6 = m ve AJ là ước lượng của , khi đó ta có phương trình hoi quy mẫu (SRF)

Ta cần tìm các hệ số , Bo, 2) sao cho tổng các phần dư #,_ôZ đạt giá trị nhỏ nhất Kết quả của phương pháp giải tích cho thấy véc tơ ước lượng trên đây thỏa

mãn phương trình ma trận

\, X ) Ô=XY

trong đó X ,Y' tương ứng là các ma trận chuyên vị của X và Ÿ Từ giả thiết 4 dẫn đến

sự tổn tại ma trận nghịch đảo của XX va } đó

Ê= \XX/-1XY

Biêu thức này được gọi là phương trình cơ bản của phương phap OLS

2.4.5 Độ phù hợp của mô hình:

a) Ý nghĩa:

Trên thực tế ta không thê giải thích được toàn bộ các giá trị, vì vậy “các giá trị thực tế

băng các giả trị mà mô hình hôi quy có thê giải thích được cộng các giá trị mà mô hình

chưa giải thích được” Chúng ta cân đánh giá độ phù hợp của mô hình một cách chính xác

qua kiếm định giải thuyết

Giả sử chúng ta muốn so sánh trung bình của k tong thê (với trường hợp chúng ta sắp

phân tích k=3) dựa trên những mẫu ngẫu nhiên độc lập gồm n], n2, n3, ., nk quan sát từ

tông thê Với giả định:

- _ Các tông thê này có phân phối bình thường

- Cac phuong sai tông thê bằng nhau

b) Các thông số trong phân eee ) \ J \ J

SSE (Sum Square Error) = \#£¡⁄/ “+ \z£;/”+ \@;/ “+ -+ \zz/ ”: Tổng bình phương của các sai số hay tống các chênh lệch bình phương trong nội bộ một nhóm

SSR (Sum Square Rekesjn) được tính bằng cach lay tông bình phony chênh lệch

giữa trung bình mầu chung \#/ và trung bình mẫu từng nhóm củá k nhóm VX;với môi bình

phương được nhân thêm với số quan sát ứng với từng nhóm \n,/ SSR phan anh phan bién

thiên của yêu tô phụ thuộc do yêu tô độc lập

h

SSR = me - Js SST (Sum SquaneViotD được tính bằng cách lây tông lình phương sự chênh lệch giữa

trung bình mẫu chung \#/ với từng giá trị quan sát \%¡;⁄/ SST phản ảnh sự biến thiên của yếu tố phụ thuộc do ảnh hưởng của tất cả các yếu tổ độc lập

i SST =¥ hy - i?

it jel

Trang 12

Ta có tông chênh lệch bình phương toàn bộ bằng tông cộng tống bình phương các

chênh lệch trong các nhóm và tông các chênh lệch giữa các nhóm

SST = SSR+ SSE

MSE là phương sai trong nội bộ một nhóm Được tính bằng cách lay tong cac chénh

lệnh bình phương trong nội bộ các nhóm (SSE) chia cho bậc tự do tương ứng lan —k (n la

số quan sát, k là số nhóm) MSE ước lượng phân biến thiên của yếu tố phụ thuộc không do

yếu tố độc lập gây ra

SSE MSE = ——

¬ 7ì — k, ,

MSR là phương sai giữa các nhóm Được tính băng cách lầy tông các chênh lệch bình

phương giữa các nhóm chia cho bậc tự đo tương ứng là k — 1 MSR là ước lượng phần biến

thiên của yêu tô phụ thuộc do yêu tô độc lập gây ra

SSR MSR = —

c) Hệ số xác định bội R2:

Hệ số xác định điều chỉnh RỂ là một thước đo phù hợp của mô hình hồi quy tuyến

tính Nó phản ánh mức độ mà các biến độc lập trong mô hình giải thích được sự biến thiên

của biến phụ thuộc

Rˆ được xác định theo công thức:

Tỷ sô giữa tông biện thiên được giải thích bởi mô hình cho tong bình phương cân được

giải thích được gọi là hệ số xác định, hay là trị thong ké "good of fit" Từ định nghĩa R?

chúng ta thấy RẺ đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải

thích bằng mô hình Khi đó người ta sử dụng RẺ đề đo sự phù hợp của hàm hồi quy:

động của biến phụ thuộc

- _ Nếu R” = 1, nghĩa là đường hồi quy giải thích 100% thay đối của y

- _ Nếu RỶ = 0, nghĩa là mô hình không đưa ra thông tin nảo về sự thay đôi của biến phụ thuộc y

đ) Hệ số điều xác định hiệu chỉnh RẺ:

Một tính chất quan trọng của R” là nó sẽ tăng khi ta đưa thêm biến độc lập vào mô hình

Dé đàng thấy răng SST không phụ thuộc vào số biến giải thích trong mô hình nhưng SSR

lại giảm Do đó, nếu tăng số biến độc lập trong mô hình thì R“ cũng tăng

Như vậy, việc đưa thêm cho biến số bất kỳ vào mô hình sẽ lam tăng R“, không kế nó

có giúp giải thích thêm cho biến phụ thuộc hay không Điều cho thấy rằng R” chưa phải

thước đo tốt nhất khi muốn so sánh các mô hình với số biến khác nhau

Trang 13

Đề giải quyết vấn đề thiếu sót này, ta xem xét khái niệm R? hiệu chỉnh, ký hiệu là RZ

n—k

2

— ™

Ỳ —1 Trong đó n lả số quan sát, k-1 là sô biên độc lập trong mô hỉnh

Dé dang thay có mối quan hệ giữa Rˆ và R”, cụ ý là

- R? > 0, Nhung R? co thé 4m Khi R? nhan gid tri âm thi để cho tiện, thường thì

nguoi ta gan cho no gia tri bang 0

2.4.6 Ước lượng khoảng tin cậy các hệ số hồi quy:

No Sử rong mô hình hồi quy mẫu n, véc tơ nhiễu ngẫu nhiên ñ có Pk ea

Khi đó ta có véc tơ hệ số hồi quy B có phân phối eek pe ysl) các thành phần của véc tơ đó cũng có phân phối chuân , ~

ø” chưa biết và nó có ước lượng không chệch là:

ở? or ah — J

tin cậy 1 — ứ ta có khoảng ước lượng cho đi là:

/—se ales 8 <Ê,+ sean =k

2.4.7 Kiém dinh cac hé sé héi quy:

Kiểm định giả thiết đối với ổ;

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định

rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác

là hệ số hồi quy có ý nghĩa thống kê hay không Có thê đưa ra giả thiết nào đó đối với

Bj chang han Bb; = B * Nếu gia thiết nảy đúng thi:

Trang 14

Hai phía bi = Be Bi # Bi It] > fz/;;Tt —

Phía trái Øi 3 Bỉ Øi < Bỉ t <-t¿;m®—K

Ta có thê sử dụng giá trị P-value so sánh xác suất ý nghĩa p với mức ý nghĩa ø đã định

trước như sau:

e Đối với bài toán hai phía , nêu p < # thì bác bỏ giả thuyết Hạ, còn nếu p > ø thì chấp

nhận Hạ

e Đối với các bài toán phía phải và phía trai , néu p/2 < a thì bác bỏ giả thuyết Hạ,

con néu p/2 > ø thì chấp nhận Hạ

2.4.8 Kiểm định mức độ ý nghĩa chung của mô hình ( tiêu chuẩn kiểm định F )

Xét mô hình hồi quy bội mẫu n:

Ye = Bi + BoXy + B3Xg + +B Xe tt, i=in

Mô hình được gọi là không có hiệu lục giải thịch, hay nói cách khác không giải

thích được sự thay đôi của biên Y, nêu toàn bộ các hệ số hồi quy riêng đều băng 0

Vì vậy đề kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần kiêm định bài toán sau:

; Quan hệ giữa hệ số xác định R? và thống kê F được diễn giải như sau: Ta thay bài toán

kiếm định tương đương với bài toán kiêm định

Trang 15

2.4.9 Dự báo cho mô hình hồi quy tuyến tính bội:

Một trong những ứng dụng quan trọng của hồi quy là dự báo, bài toán đặt ra là đựa vào

mô hình hỗi quy hãy dự báo giá trị của Y khi biết giá trị của X 1a X* Xét mô hình hồi quy

Trang 16

^ order id customer id date nearest warehouse shopping_cart order_pric

4 ORD382112 ID0289597187 2019-03-06 Thompson [(pearTV, 1), ('Candie Inferno', 2)] =

2 ORD378488 IDI668523020 2019-05-05 Thompson [(Thunder line, 1), (Lucent 3305”, 2), (Alcon 10’, 1)]

3 ORD279446 ID0370751503 2019-03-24 Bakers [(Candle Inferno’, 2), (‘Universe Note’, 1)]

4 ©RD277196 10634774947 2019-01-12 Thompson [(pearTV, 1), (Thunder line’, 1), (Olivia x460°, 2)]

5 ORD116193 ID3313210924 2019-09-02 Nickoison [(pearTV, 2), (Universe Note’, 2), (Thunder line’, 1)]

6 ORD005004 ID0472236192 2019-05-07 Nickolson [(Thunder line’, 2), (Lucent 330S’, 2)]

7 ORD296379 ID0591306178 2019-01-19 Nickolson [(Thunder line’, 1), (pearTV,, 1)]

8 ORD447851 ID0591430562 2019-02-07 [(Alcon 10°, 2), ('Toshika 750, 2), (‘Universe Note’, 1), (Olivia

9 ORD078449 ID0030287324 2019-10-20 Nickolson [(Olivia x460,, 2), (iAssist Line’, 2)]

40 ORDO16258 10245537598 2019-05-27 Nickolson [(Universe Note’, 1), (Lucent 330S’, 1), (iAssist Line’, 1), (Str

13 ORD426442 ID3218227004 2019-11-10 Thompson [(Toshika 750, 1), (iAssist Line’, 1)]

# missing -

1ibrary("naniar”) # cho d& 1liéu missing

library("mice") # dién cac gia tri missing

gg_miss_var(aa) # vẽ biểu đề dữ liéu khuyét

sum(is.na(aa)) #dém sé d& 1liéu bi khuyét

Ngày đăng: 19/12/2024, 15:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN