Hồi quy tuyến tính là một phương pháp thống kê đê mô hình hóa và dự báo mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập.. 2.2 Những giả định của mô hình hồi
Trang 1DE TAI:
UNG DUNG HOI QUY TUYEN TINH BOI
DE XEM XET CAC YEU TO ANH HUONG
DEN GIA VAN CHUYEN
Trang 2
BANG PHAN CONG CONG VIỆC
_Họ Và Tên MSSV Công Việc Tỷ Lệ Hoàn Thành
1 Kiêu Lê Trọng Tuyên 2213835 Xử lý số liệu, code R 100%
2 Đặng Hà Minh Tuân 2213764 | Tông hợp file, chỉnh sửa bo 100%
3 Lưu Trọng Nghĩa 2212223 Xử lý số liệu, thông ké mau, 100%
thong ké tong the
thông ké tong the, code R
Trang 3”
CV
Lời nói đầu
Thống kê là khoa học về cách thu thập, xử lý và phân tích dữ liệu về hiện tượng rồi đưa
ra kết luận có tính quy luật của hiện tượng đó Phân tích thông kê dựa trên cơ sở của lý thuyết xác suất và có quan hệ chặt chẽ với xác suất Nó không nghiên cứu từng cá thể riêng lẻ mà nghiên cứu một tập hợp cá thẻ - tính quy luật của toàn bộ tông thê Từ việc điều tra và phân tích mẫu đại diện, có thê tạm thời đưa ra kết luận về hiện tượng nghiên cứu nhưng với khả năng xảy ra sai làm đủ nhỏ để có thể chấp nhận được
Xác suất thống kê được sử dụng nhiều để giải quyết các bài toán trong khối ngành kỹ thuật nói chung và Điện — Điện tử nói riêng Với định hướng cải tiến chương trình và nội dung gan liền thực tiễn, Bài tập lớn môn Xác suất thông kê có vai trò ứng dụng các lý thuyết được học vào chuyên ngành mang tính thực tiễn, ứng dụng
Với những dữ kiện đề bài cho trước, nhóm l chúng em xin thực hiện đề tài Bài tập lớn môn Xác suất thông kê để trình bày cơ sở lý thuyết, cùng những phương pháp, phân tích số liệu thống kê nhằm mục đích có thê khai thác hiệu quả các thông tin, phục vụ công tác nghiên cứu về đề tài được giao
Nhóm I chúng em cũng xin gửi lời cảm ơn chân thành tới đoàn khoa Khoa Học Ứng Dụng đã tạo điều kiện để nhóm chúng em có thê tiếp cận nguồn đữ liệu này từ đó để phục vụ cho quá trình thực hiện bài tiểu luận ngày hôm nay
cœs£ìx»
ee
Trang 4Trường Đại Học Bách khoa —- ĐHQG - TPHCM G9
2.3.1 I N0 —-:4 ,,,,), , ).).).).).)).)).))H)HậẬHẬH,),).) ,Ô)òÙ 7
2.4 Hi quy tuyến tính bộii: S22 v St v T232 HH 118111111111 1.1111 HH HH 1111111111111 HH grHrv 9 2.4.1 ION0U)8/18:1100010/100100157 1000077 .d ,., 9 2.4.2 MG hinh hoi quy tuyén 0g na 6 S6 (,H,D|ẰHẬH|H 9 2.4.3 CAC Gia thiét CO DAN ececcececccsscssssesssseseesessecscescsseseseesesseseseesessseessseeseseeesansusaesneasensaseneaeenenees 10 2.4.4 Ước lượng các tham số bằng OLS ¿52 5t t 232122111223 11E2111111121111 1111111 er re 10
2.4.6 Ước lượng khoảng tin cay CAC Ne S6 NOI QUY: .cec ce ccessescscesssesesescecsescecenssesescacereseseececeneass 13 2.4.7 Kid inh CAC 8 S6 NOE QUY: cece cecescecssesesescscssessseeecesescscarsssneasseseesesessecenesesesescaneasaeecececess 13 2.4.8 Kiểm định mức độ ý nghĩa chung của mô hình ( tiêu chuẩn kiểm định F ) 14 2.4.9 Dự báo cho mô hình hài quy tuyến tính bội: - S2 Scc2cS22t+xer se srrvrrererrrrrrrrree 15
IV NGUÒN DỮ LIỆU VÀ NGUÒN CODE Q0 Q n.HHnHHHHH HH1 2101111101 11.111 1x re 32
ee
Trang 6
Biến Loai dữ liêu Don vi Mô Tả
1, Mã đơn đặt hàng Chuỗi kí tự ( Trồng ) | Một ID duy nhất cho mỗi đơn hàng
2 _ Mã khách hàng Chuỗi kí tự ( Trồng ) | Một ID duy nhất cho mỗi khách hàng
Một danh sách các bộ đại diện cho
các hạng mục trong đơn hàng: phần
5 Giỏ hàng Chuỗi kí tự ( Trống ) | tử đầu tiên của bộ đữ liệu là mục
được sắp xếp và phân tử thứ hai là số
lượng đặt hàng cho mặt hàng đó
Một số biểu thị giá đặt hàng bằng
6 Gia dat hang x € \0;+00) USD | hàng trước khi có bất kỳ khoản giảm
giá và/hoặc phí giao hàng nào được
áp dụng
7 Phí vận chuyên ye \o ; +00) USD fon kang hiện phí giao hàng của
mm đội \-90;90) | Độ | Vĩđộvi trí của khách hàng
(customer_lat) ;
10.Mức mai khuyến m €N|0<m < 100 % 6 Một S neu yen peu thi phan tram gam giá được áp dụng cho
ơn giá
11, Đơn giá n€ À0;+ø)|n < usp | hàng bằng USD, giảm giá và/hoặc
* phí giao hàng đã được áp dụng
được đặt
tốc t —EALSE - không 2 ng có yêu cầu giao hàng ay
không?
14 Khoảng cách tới \ Một số biêu thị khoảng cách vòng kho hang gần r € \0; +00) km cung, tính bằng km, giữa khách hàng nhất và kho hàng gân nhất với họ
nhất từ khách Chuỗi kí tự ( Trống ) | nhất của khách hàng về
hàng đơn hàng gần đây nhất của họ
Một hàm nhị phân biểu thị liệu khách
16.D6 hải lòng | q= TRUE- có ( Trồng ) hàng có hài lòng hay không? Hoặc
BAO CAO XAC SUAT THONG KE
® fy
Trang 7
Trong thực tế ta đôi khi ta cần tìm mối liên hệ giữa hai hay nhiều biến ngẫu nhiên Khi
ta đã biết được mối liên hệ giữa những đại lượng đó ta có thé dé dang hình dung ra mô hình
tông quát hay giúp tiên đoán sự thay đôi của một đại lượng dựa vào môi quan hệ với những
đại lượng đã biết Hồi quy tuyến tính là một phương pháp thống kê đê mô hình hóa và dự
báo mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập Mô
hình hóa sử dụng hàm tuyến tính (bậc 1) Các tham số của mô hình (hay hàm số) được ước
lượng từ dữ liệu Hồi quy tuyến tính có nhiều ứng dụng trong kinh tế lượng, nông nghiệp,
y tế, và các lĩnh vực khác Nó cũng được sử dụng rộng rãi trong thực tế do tính chất đơn
giản hóa của hồi quy
2.2 Những giả định của mô hình hồi quy tuyến tính:
2.2.1 Mối quan hệ tuyến tính:
Méi quan hệ tuyến tính phải tồn tại giữa các biến độc lập và phụ thuộc Ta có thể tạo ra
biêu đồ phân tán có chứa các giá trị ngẫu nhiên của biến độc lập và phụ thuộc xem liệu
chúng có nằm trên đường thắng hay không
2.2.2 Phần dư độc lập:
Phần dư là độ chênh lệch giữa giá trị thực tế và giá trị tiên đoán Phần dư giữa những giá trị khác nhau không được có mô hình tương quan hay mối liên hệ nảo
2.2.3 Phương sai không đổi:
Phương sai không đổi giả định rằng phần dư có phương sai cố định hoặc độ lệch
chuân so với trung bình cho moi gia tri của biên độc lập Nêu khong, ket qua phan tich
- ø: Hệ số chặn hay tung độ gốc của mô hình hồi quy (Intercept)
- 8: Hệ số góc hay độ dốc của biến độc lập x (slope / gradient)
- x : Hệ số độc lap (independent variable)
- Y : Hệ số phụ thuộc (dependent variable)
- £: Sai số ngẫu nhiên (random error) phần dư = độ chệnh lệch giữa giá trị thực
vì và giả trị dự báo Y = ø + x+e
£ tuân theo quy luật phân phối chuẩn, có giá trị trung bình là 0 và phương sai bất biến
2.3.2 Phương pháp bình phương tối thiểu:
Xét mô hình hồi quy đơn biến ước lượng với mẫu xác định:
Trang 8Xác định a và b sao cho a "he "nh a hy nho om }, s\ wh
SSE (Sum Square Error) En Yi — 9;/ “ =>min
Độ dốc b của phương trình hồi quy ah c lượn: mA I
-b; là độ dốc tiên lượng
-_ x¡: là bién độc lập với quan sát lần thứ ¡
-_ #: là giá trị trung bình của biến độc lập
- _ÿ: là giá trị trung bình của biến phụ thuộc
Ta giả sử mẫu n số liệu có biến Y tuan theo phan phéi chuan:Y~N \0;0
Ta có thể biểu diễn một mẫu số liệu như sau:
DB thi hộp(boxplot)
3415
Q3-1,519R Qi Qœ Q Q1131QR
Diém ngoai lai(outliers)
Mặt độ phản phối xác suất cia Y
Các thông số của Boxplot:
Q;: Điểm tứ phân vị thứ 2 với mức xác suất 50% (Median hay là trung vị), vị trị
được xác định: \ }
+Vi tri phan vi thir 2=0,5 \n + 1
Q¡: Điểm tứ phân vị thứ l yới mức Kác suất 25%, vị trí được xác định:
Trang 9
2.4 Hồi quy tuyến tính bội:
2.4.1 Mô hình hồi quy tuyến tính bội:
Hỏi quy tuyên tính bội là phần mờ rộng của hồi quy tuyến tính đơn Nó được sử dụng
khi chúng ta muốn dự đoán giá trị của một biến phản: hỏi dựa trên giá trị của hai hoặc nhiều
biến giải thích Biến chúng ta muốn dự đoán gọi là biến phản hồi (hoặc biến phụ thuộc) Các
biến mà chủng ta đang sử dụng đề dự đoán giá trị của biến phản hồi được gọi là các biến
giải thích (hoặc biến dự báo, biến phụ thuộc)
Với Y là biến phụ thuộc X;,Xs, , X„ là biến độc lập, Y là ngẫu nhiên và có một phân
phôi xác suật nào đó \
Y | Xp,
Do vay, Nik are sự | Xp, Xz, " là hàm hồi quy tổng thể của Y theo X2,Xg, 0) Xx
Với một cá the i, ton tại B Xap Xp Y
Mô hình hồi quy tuyến tính bội có ó dang tống quát như sau:
Y =fi + BoX2 + BaX3 ++ + BX +u
Như vậy, "Hỏi quy tuyến tính" là một phương pháp đề dự đoán gia trị biến phụ thuộc
(Y) dựa trên giá trị của biến độc lập (X)
2.4.2 Mô hình hồi quy tuyến tính mẫu:
Do không biết tổng thế, nên chúng ta không biết giá trị trung bình tống thê của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải nhân vào dữ liệu mầu đề uớc
thể mẫu Y, # Ê X¿i,Xa¡, Ấy¡ˆ sinh rất Y¡ — Ê \X;,X;, X„/ Tugọi là phần dư
SRE Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
9= By + Box2i + Baxsi + ỂhXụi
=> ¥, = By + Box2, + Bax3it uXk¡ +
Ký hiệu: Øy là ước lượng của y
Với một mẫu có n cá thê ta có thể được viết chỉ tiết dưới dạng hệ phương trình sau:
Trang 10
2.4.3 Các giả thiết cơ bản
Ta đưa ra các giả thiết cơ bản cho mô hình hôi quy nội bội như sau:
Giả thiết 3: Các ; có phân bố chuân xu» ơ?/Vi =7 n
Giả thiết 4: Các X;,X;, , X„ không có quan hệ tuyến tính
2.4.4 Ước lượng các tham số bang OLS
Trang 11
Ký hiệu 6 = m ve AJ là ước lượng của , khi đó ta có phương trình hoi quy mẫu (SRF)
Ta cần tìm các hệ số , Bo, 2) sao cho tổng các phần dư #,_ôZ đạt giá trị nhỏ nhất Kết quả của phương pháp giải tích cho thấy véc tơ ước lượng trên đây thỏa
mãn phương trình ma trận
\, X ) Ô=XY
trong đó X ,Y' tương ứng là các ma trận chuyên vị của X và Ÿ Từ giả thiết 4 dẫn đến
sự tổn tại ma trận nghịch đảo của XX va } đó
Ê= \XX/-1XY
Biêu thức này được gọi là phương trình cơ bản của phương phap OLS
2.4.5 Độ phù hợp của mô hình:
a) Ý nghĩa:
Trên thực tế ta không thê giải thích được toàn bộ các giá trị, vì vậy “các giá trị thực tế
băng các giả trị mà mô hình hôi quy có thê giải thích được cộng các giá trị mà mô hình
chưa giải thích được” Chúng ta cân đánh giá độ phù hợp của mô hình một cách chính xác
qua kiếm định giải thuyết
Giả sử chúng ta muốn so sánh trung bình của k tong thê (với trường hợp chúng ta sắp
phân tích k=3) dựa trên những mẫu ngẫu nhiên độc lập gồm n], n2, n3, ., nk quan sát từ
tông thê Với giả định:
- _ Các tông thê này có phân phối bình thường
- Cac phuong sai tông thê bằng nhau
b) Các thông số trong phân eee ) \ J \ J
SSE (Sum Square Error) = \#£¡⁄/ “+ \z£;/”+ \@;/ “+ -+ \zz/ ”: Tổng bình phương của các sai số hay tống các chênh lệch bình phương trong nội bộ một nhóm
SSR (Sum Square Rekesjn) được tính bằng cach lay tông bình phony chênh lệch
giữa trung bình mầu chung \#/ và trung bình mẫu từng nhóm củá k nhóm VX;với môi bình
phương được nhân thêm với số quan sát ứng với từng nhóm \n,/ SSR phan anh phan bién
thiên của yêu tô phụ thuộc do yêu tô độc lập
h
SSR = me - Js SST (Sum SquaneViotD được tính bằng cách lây tông lình phương sự chênh lệch giữa
trung bình mẫu chung \#/ với từng giá trị quan sát \%¡;⁄/ SST phản ảnh sự biến thiên của yếu tố phụ thuộc do ảnh hưởng của tất cả các yếu tổ độc lập
i SST =¥ hy - i?
it jel
Trang 12
Ta có tông chênh lệch bình phương toàn bộ bằng tông cộng tống bình phương các
chênh lệch trong các nhóm và tông các chênh lệch giữa các nhóm
SST = SSR+ SSE
MSE là phương sai trong nội bộ một nhóm Được tính bằng cách lay tong cac chénh
lệnh bình phương trong nội bộ các nhóm (SSE) chia cho bậc tự do tương ứng lan —k (n la
số quan sát, k là số nhóm) MSE ước lượng phân biến thiên của yếu tố phụ thuộc không do
yếu tố độc lập gây ra
SSE MSE = ——
¬ 7ì — k, ,
MSR là phương sai giữa các nhóm Được tính băng cách lầy tông các chênh lệch bình
phương giữa các nhóm chia cho bậc tự đo tương ứng là k — 1 MSR là ước lượng phần biến
thiên của yêu tô phụ thuộc do yêu tô độc lập gây ra
SSR MSR = —
c) Hệ số xác định bội R2:
Hệ số xác định điều chỉnh RỂ là một thước đo phù hợp của mô hình hồi quy tuyến
tính Nó phản ánh mức độ mà các biến độc lập trong mô hình giải thích được sự biến thiên
của biến phụ thuộc
Rˆ được xác định theo công thức:
Tỷ sô giữa tông biện thiên được giải thích bởi mô hình cho tong bình phương cân được
giải thích được gọi là hệ số xác định, hay là trị thong ké "good of fit" Từ định nghĩa R?
chúng ta thấy RẺ đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải
thích bằng mô hình Khi đó người ta sử dụng RẺ đề đo sự phù hợp của hàm hồi quy:
động của biến phụ thuộc
- _ Nếu R” = 1, nghĩa là đường hồi quy giải thích 100% thay đối của y
- _ Nếu RỶ = 0, nghĩa là mô hình không đưa ra thông tin nảo về sự thay đôi của biến phụ thuộc y
đ) Hệ số điều xác định hiệu chỉnh RẺ:
Một tính chất quan trọng của R” là nó sẽ tăng khi ta đưa thêm biến độc lập vào mô hình
Dé đàng thấy răng SST không phụ thuộc vào số biến giải thích trong mô hình nhưng SSR
lại giảm Do đó, nếu tăng số biến độc lập trong mô hình thì R“ cũng tăng
Như vậy, việc đưa thêm cho biến số bất kỳ vào mô hình sẽ lam tăng R“, không kế nó
có giúp giải thích thêm cho biến phụ thuộc hay không Điều cho thấy rằng R” chưa phải
thước đo tốt nhất khi muốn so sánh các mô hình với số biến khác nhau
Trang 13
Đề giải quyết vấn đề thiếu sót này, ta xem xét khái niệm R? hiệu chỉnh, ký hiệu là RZ
n—k
2
— ™
Ỳ —1 Trong đó n lả số quan sát, k-1 là sô biên độc lập trong mô hỉnh
Dé dang thay có mối quan hệ giữa Rˆ và R”, cụ ý là
- R? > 0, Nhung R? co thé 4m Khi R? nhan gid tri âm thi để cho tiện, thường thì
nguoi ta gan cho no gia tri bang 0
2.4.6 Ước lượng khoảng tin cậy các hệ số hồi quy:
No Sử rong mô hình hồi quy mẫu n, véc tơ nhiễu ngẫu nhiên ñ có Pk ea
Khi đó ta có véc tơ hệ số hồi quy B có phân phối eek pe ysl) các thành phần của véc tơ đó cũng có phân phối chuân , ~
ø” chưa biết và nó có ước lượng không chệch là:
ở? or ah — J
tin cậy 1 — ứ ta có khoảng ước lượng cho đi là:
/—se ales 8 <Ê,+ sean =k
2.4.7 Kiém dinh cac hé sé héi quy:
Kiểm định giả thiết đối với ổ;
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định
rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác
là hệ số hồi quy có ý nghĩa thống kê hay không Có thê đưa ra giả thiết nào đó đối với
Bj chang han Bb; = B * Nếu gia thiết nảy đúng thi:
Trang 14
Hai phía bi = Be Bi # Bi It] > fz/;;Tt —
Phía trái Øi 3 Bỉ Øi < Bỉ t <-t¿;m®—K
Ta có thê sử dụng giá trị P-value so sánh xác suất ý nghĩa p với mức ý nghĩa ø đã định
trước như sau:
e Đối với bài toán hai phía , nêu p < # thì bác bỏ giả thuyết Hạ, còn nếu p > ø thì chấp
nhận Hạ
e Đối với các bài toán phía phải và phía trai , néu p/2 < a thì bác bỏ giả thuyết Hạ,
con néu p/2 > ø thì chấp nhận Hạ
2.4.8 Kiểm định mức độ ý nghĩa chung của mô hình ( tiêu chuẩn kiểm định F )
Xét mô hình hồi quy bội mẫu n:
Ye = Bi + BoXy + B3Xg + +B Xe tt, i=in
Mô hình được gọi là không có hiệu lục giải thịch, hay nói cách khác không giải
thích được sự thay đôi của biên Y, nêu toàn bộ các hệ số hồi quy riêng đều băng 0
Vì vậy đề kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần kiêm định bài toán sau:
; Quan hệ giữa hệ số xác định R? và thống kê F được diễn giải như sau: Ta thay bài toán
kiếm định tương đương với bài toán kiêm định
Trang 15
2.4.9 Dự báo cho mô hình hồi quy tuyến tính bội:
Một trong những ứng dụng quan trọng của hồi quy là dự báo, bài toán đặt ra là đựa vào
mô hình hỗi quy hãy dự báo giá trị của Y khi biết giá trị của X 1a X* Xét mô hình hồi quy
Trang 16^ order id customer id date nearest warehouse shopping_cart order_pric
4 ORD382112 ID0289597187 2019-03-06 Thompson [(pearTV, 1), ('Candie Inferno', 2)] =
2 ORD378488 IDI668523020 2019-05-05 Thompson [(Thunder line, 1), (Lucent 3305”, 2), (Alcon 10’, 1)]
3 ORD279446 ID0370751503 2019-03-24 Bakers [(Candle Inferno’, 2), (‘Universe Note’, 1)]
4 ©RD277196 10634774947 2019-01-12 Thompson [(pearTV, 1), (Thunder line’, 1), (Olivia x460°, 2)]
5 ORD116193 ID3313210924 2019-09-02 Nickoison [(pearTV, 2), (Universe Note’, 2), (Thunder line’, 1)]
6 ORD005004 ID0472236192 2019-05-07 Nickolson [(Thunder line’, 2), (Lucent 330S’, 2)]
7 ORD296379 ID0591306178 2019-01-19 Nickolson [(Thunder line’, 1), (pearTV,, 1)]
8 ORD447851 ID0591430562 2019-02-07 [(Alcon 10°, 2), ('Toshika 750, 2), (‘Universe Note’, 1), (Olivia
9 ORD078449 ID0030287324 2019-10-20 Nickolson [(Olivia x460,, 2), (iAssist Line’, 2)]
40 ORDO16258 10245537598 2019-05-27 Nickolson [(Universe Note’, 1), (Lucent 330S’, 1), (iAssist Line’, 1), (Str
13 ORD426442 ID3218227004 2019-11-10 Thompson [(Toshika 750, 1), (iAssist Line’, 1)]
# missing -
1ibrary("naniar”) # cho d& 1liéu missing
library("mice") # dién cac gia tri missing
gg_miss_var(aa) # vẽ biểu đề dữ liéu khuyét
sum(is.na(aa)) #dém sé d& 1liéu bi khuyét