Khái niệm cơ bản về hồi quy tuyến tính Hồi quy tuyến tính là một phương pháp thống kê được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc hay biên mục tiêu và một hoặc nhiều bi
Trang 1DAI HOC QUOC GIA THANH PHO HO CHI MINH
TRUONG DAI HOC BACH KHOA
KHOA DIEN — ĐIỆN TỬ
MON HOC XAC XUAT & THONG KE
Trang 26
2.4 Khoảng tin cậy và kiểm định các hệ số hồi quy a)
Trang 4Danh sach hinh vé
Hình 12: Dữ lệu của cột tổng tên sau khi được khắc
Hình 13: Dữ liệu của cột season đã được khắc phục c cò cà cà cóc nỉ
Trang 5Hinh 16: Phân phối tiền mua hàng sau kh đã khử
Hình 27:Phân phối xác suất khoảng cách đến kho gần nhất
Trang 6Hinh 31:Kiém dinh phan phối chuân cột
Trang 71 TONG QUAN DU LIEU
Bộ đữ liệu này chứa thông tin vé métj ctra hang dién tử trực tiếp Cửa hàng có 3 kho hàng
để giao hàng cho khách hàng
Dữ liệu gốc : https://www.kagele.com/datasets/muhammadshahrayar/transactional-retail- dataset-of-electronics-store?select=dirty_data.csv
cho méi don hang
cho mỗi khách hàng
don hang
dụng giảm giá hoặc phí giao hàng
Customer_lat Dinh luong Vi độ khách hàng
dụng chiết khấu và phí vận
chuyển
kho gan nhat
nhanh hay không
hàng này hay không Latest cœusfomer review Character Phản hôi từ khách hàng về đơn hàng hoặc trả nghiệm sản phâm
Trang 8
2 KIEN THUC NEN
2.1 Khái niệm cơ bản về hồi quy tuyến tính
Hồi quy tuyến tính là một phương pháp thống kê được sử dụng để phân tích mối quan
hệ giữa một biến phụ thuộc (hay biên mục tiêu) và một hoặc nhiều biến độc lập (hay biến
dự báo) Trong mô hình hồi quy tuyên tính, chúng ta giả định rằng môi quan hệ giữa các biến là tuyến tính, tức là biến phụ thuộc thay đổi một cách đồng đều khi biến độc lập thay
đối
Lý thuyết nếu ra giả thuyết
Thu thập số liệu
Thiết lập mô hình
Ước lượng các tham số, sự phù hợp của mô hình
2.2 Mô hình hồi quy tuyến tính bội
Một mô hình hồi quy bội đi có thê được biểu điễn bằng một phương trình toán học như
sau: Y = Bo + BIÃi + 2Ã › + - + PX, + € Trong đó:
« Y là biến phụ thuộc (hay biến mục tiêu)
+ Xị¡, X:, , X„là các biến độc lập
* Ôi, Bo, Bula các hệ số hồi quy, biểu thị độ ảnh hưởng của các biến độc
lập tương ứng lên các biến độc lập
« e là hệ số ngẫu nhiên, thường là các yếu tô không thê đo lường hoặc không
được tính toán trong mô hình
Mục tiêu của việc ước lượng mô hình là tìm ra các giá trị của các hệ số Bo, Bi, Ủ› Ổ»
sao cho mô hình tạo ra dự đoán gần nhất với giá trị thực tế của biến phụ thuộc Điều này
thường được thực hiện bằng cách sử dụng phương pháp tôi ưu hóa đề tôi thiểu hóa sai số giữa các giá trị dự đoán và giá trị thực tế trong tập đữ liệu huấn luyện
Trang 92.2.2 Các dạng mô hình hồi quy tuyến tính
A:Dạng quan sát của mô hình:
Trong đó: (;) =0, E(etlX›, x, Xxi) =0 Cov(&¡, &) = 0, Vi FJ
- Y là bién phụ thuộc
* Xi, X>, , X,la cac bién déc lập
* Yi, Yo, , Ye la quan sat thir i cla X1, Xo, , Xe
* 8i là hệ só chặn (hệ số tự do)
* Bo, Bs, , Bn la cac hé s6 hoi quy riêng hay còn gọi là hệ số của các biến
độc lập
+ ela sai số ngẫu nhiên có kì vọng 0 và phương sai ø? Mục tiêu: ước lượng những tham
sô Ôi, Øa, ,
* Y là n-vecfor quan sat
+ X lama tran cap n x p của các biến độc lập (p = k + 1)
* 8 là p vector các hệ số hồi quy
« e là n vector sai số ngẫu nhiên
2.3 Ước lượng mô hình tuyến tính hội
Ta dat: yi ky hiệu giá trị thực của biến y tại quan sát i
yi ky hiệu giá trị của hàm hồi quy mẫu
ei ký hiéu phan du yi - yi
Trang 10Với các giả thuyết, cần đựa vào đữ liệu (Y ¿¿ï, X¿¡, X:¡, , X„),(ï=T,n)¿ quan sát
để tìm được ước lượng vector hệ 36 B= (Bi Boss By) của mô hình quy bội
Ký hiệu ô=lÊ ñ Ê, |" là ước lượng của 8, khi đó ta có phương trình hồi quy
Trang 11SS, =Sy= >, |¥,-Yf
i=l
Tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được
từ hàm hồi quy mẫu và giá trị trung bình của chúng Đo độ chính xác của hàm hồi quy:
SST được chia làm hai phần: một phần do SSR và mét phan do SS;=SS p+ SS;
Hệ số xác định độ phù hợp cho mô hình hồi quy tuyến tính bội kí hiệu: R? được xác định bởi công thức
5p SS;
R=_— “=1-
S5 S5
Tính chất của hệ số xác định R? có tính chất sau 0<Rˆ<1
-NếuR”=1 khi đó hồi quy giải thích 100% sự thay đôi của Y bởi vì khi đó:
-Nếu R= 0 khi đó mô hình không giải thích được sự thay đôi của Y
-Nếu số biến độc lập càng tăng thì hệ số R” càng lớn, hay nói cách khác RŸ là một hàm tăng theo biến giải thích
Tính phù hợp của mô hình hội quy tăng lên khi có nhiều biến giải thích trong mô hình Tuy nhiên người ta luôn muốn dùng một số lượng biến giải thích vừa đủ sao cho vẫn có được mô hình phù hợp mà không quá tốn kém khi phải thu thập thông tin của nhiều biến
giải thích Hơn nữa nhiều khi đưa thêm một số biến độc lập vào mô hình thì tác động
riêng phần của các biến độc lập đó tới biến phụ thuộc that sự không có ý nghĩa thống kê.Cần có tiêu chuẩn đánh giá sự phù hợp của mô hình, trong đó có cân nhắc đến số lượng biến giải thích của mô hình Một trong số các tiêu chuân như vậy là hệ số xác định
hiệu chỉnh R“của RỶ trong công thức
Khi số biến độc lập k— 1 tăng lên thì R cũng tăng nhưng tăng chậm so với R°
R?>0 nhưng có thê âm Khi RỶ nhận giá trị âm thì để cho tiện đường người ta lại gản cho
nó giá trị bằng 0
2.4 Khoảng tin cậy và kiếm định các hệ số hồi quy
Trang 12Trong mô hình quy bội Ÿ,=,+;Ä„¡+ +,X„+£,Vi,i=1,2, ,n
Mô hình được gọi là không có hiệu lực giải thích, hay nói cách khác không giải thích
được sự thay đôi của biến Y, nếu toàn bộ các hệ số hồi quy riêng bằng không Vì vậy để kiêm định sức mạnh hay mức ý nghĩa của mô hình ta can kiêm định bải toán sau:
Hạ=B;=:;= —B,=0
H,=38,z0 Khi giả thuyết thống kê F có phân phối Fisher với k—1 và n—k bậc tự do Vậy với mức ý
nghĩa œ ta có quy tắc kiêm định:
2.4.1 Ước lượng khoảng cho hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ suy đoán về ổ¡ ổ; ổ„ mà còn phải kiêm tra bản chất sự phụ thuộc Do vậy, cần phải biết phân bố xác suất của ¡ ổ Ö„ Các phân bô này phụ thuộc vào phân bô của các €,
Với các giả thuyết OLS, ¡có phân phối N(0.,ø?) Các hệ số ước lượng tuân theo phân phối chuẩn:
B,N ip) Se (2;
Bi rịn_ g)
Se(B,)
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó: k là
số hệ số có trong phương trình hồi quy đa biến:
Trang 13Trong đó: fa là phân vị của phận phôi student với (n—k) bậc tự do tương ứng với mức
ý nghĩa 5
Khoảng tin cậy 1— ø của ổ, là:
2.4.2 Kiểm định giả thiết cho các hệ số hồi quy
Tiêu chuẩn kiểm định: t,=,— )
Dự báo mô hình hồi quy tuyến tính bội
Một trong những ứng dụng quan trọng của hồi quy là dự báo, bài toán đặt ra là dựa vào
mô hình hồi quy hãy dự báo giá trị của Y khi biết giá trị của X là X" Xét mô hình hồi quy:
Y= B, +B, X,+B3X3+ + B,X,=X' B
Với X=|X,+X,+ +X,| ; Ê=|Ê,+ô,+ +Ê, |"
Cho trước giá trỊ của các biến độc lập X“=(1,X;,X;, ,X¿) khi đó gia tri dự bảo của Y là
v'
2.5 Kiểm định đánh giá mức độ ý nghĩa chung của mô hình hồi quy
2.5.1 Khái quát về kiểm định WALD
Giả sử chúng ta có 2 mô hình dưới đây:
(U): Y =B: +B;X; +P;X; + ,X„+u
Trang 14Mô hình U được gọi là mô hình không giới hạn (Ủnrestrict), và mô hình R được gọi là
mô hình giới han (Restrict) Dé 1a do B3 va B4 buộc phải bằng 0 trong mô hình R Ta có
thê kiểm định giả thuyết liên kết B3 = B4 = 0 với giả thuyết đối là ít nhất một trong những
hệ số này không bằng 0 Kiểm định giả thuyết liên kết này được gọi là kiểm định Wald,
thủ tục như sau:
Đặt các mô hình giới hạn và không giới hạn là:
(U): Y=B, +B, X + +BmnXm + Baer Xmert + BX, tu
(R):Y =Br ;X;+ +„X„ +v
Giả thuyết:
© HO: Biwi = = , =0
e H1: “Không phải đồng thời các tham số bằng 0”
(U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết Do đó, mô
hình R có ít hơn (k — m) thông số so với U Câu hỏi chúng ta nêu ra là (k — m) biến bị loại
ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay không
Trị thống kê kiểm định đối với giả thiết này là:
Bác bỏ giả thuyết Ho khi : F¿ > F(ø, k— m, n— k) hoặc giá trị p-value của thống
kê F nhỏ hơn mức ý nghĩa cho trước
2.5.2 Kiểm định đánh giá ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không
có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thê
Trang 15nhu sau:
m Bước l: Giả thuyết “không” là Hạ: B: = B3 = = Bx = 0
Giả thuyết đối là Hi: “co ít nhất một trong những giá trị B khác không”
m Bước 2: Trước tiên hồi quy Y theo một số hạng không đôi và X›, Xa, ,
Xụ, sau đó tính tổng bình phương sai số RSSu, RSSạ Phân phối F là ty số của hai biến ngẫu nhiên phân phối khi bình phương độc lập Điều này cho
ta tri thong kê:
F.= TS—~ FÍx,K~1,n=K,
® Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k — 1) cho tử số và (n— k) cho mầu số, và với mức ý nghĩa œ cho trước
® Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa œ nêu Fc > F(a, k-1, n-k) Đối với phương pháp giá trị p, tính giá trị p = P>Fc|H0) và bác bỏ giả thuyết H0 nếu p < mức ý nghĩa ơ 2.6 Phân tích phương sai một yếu tố
Phân tích phương sai một yếu tổ (ANOVA) là một công cụ thống kê dùng để xác định liệu có sự khác biệt đáng kê giữa trung bình của ba hoặc nhiều nhóm độc lập hay không Phương pháp này so sánh phương sai giữa các nhóm với phương sai bên trong các nhóm, giúp ta đưa ra kết luận về sự đồng đều hoặc khác biệt giữa các trung bình
Vị dụ:
1 Ảnh hưởng của giáo viên đến kết quả học tập của sinh viên : Trong ví dụ nảy, phương pháp đánh giá của giáo viên (như kiểm tra, bài tập về nhà, tháo luận nhóm, v.v.) có thê được xem xét như là nhân tố độc lập, và kết quả học tập của sinh viên (điểm số) là nhân tô phụ thuộc
2 Ảnh hướng của phương pháp bán hàng và kinh nghiệm của nhân viên bán hàng đến doanh số: Trong ví dụ này, phương pháp bán hàng và kinh nghiệm là 2 nhân tô độc lập, nhân tổ phụ thuộc là doanh số bán ra
Trang 163 So sdnh nang suat cay trong: Cac nha néng co thé str dung ANOVA dé so sanh năng suất của các giống lủa khác nhau khi trồng trên cùng một loại dat va trong
cùng điều kiện khí hậu
Về cơ bản, ANOVA có thê được coi là một phần mở rộng của phép thử t, trong đó giá trị trung bình của các mẫu (độc lập với nhau) được lấy từ các quân thê được so sánh với nhau Sự thay đổi trong mẫu có thể đo tính ngẫu nhiên, nhưng sự thay đổi giữa các mẫu có thê do tính ngẫu nhiên và có thể có thêm các yêu tố bên ngoài tác động
Trang 17
e Nếu Họ đúng thì F= Ha có phân phối Fisher bac tự do k-1; n-k
e Mién B, : F> Fy nk:10
Trang 18
Nguôn sai sô Tổng bình phương [ Bậc tự do [ Bình phương trung binh | Gia tri thong kê
Sai so i - 3 _ SSE
(Within Group) hese n-k MSE = ¬
Ví dụ: Hàm lượng Alcaloid (mg) trong một loại dược liệu được thu hái từ 3 vùng khác
nhau được số liệu sau:
1 6,0 64 6,8 2v 6,5
Trang 19(117,4)?
=> F> Fyuy-nx-1-@ nén bac bd Ho chap nhận H;
Vậy hàm lượng Alcaloid có sai khác theo vùng
Phương pháp ANOVA có một số hạn chế nhất định:
« - Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên!,
« - Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn
« _ Phương sai của các nhóm so sánh phải đồng nhất
chăn là nhóm nào khác
«ồ = Trên thực tế khi sử dụng công cụ phan tich ANOVA lai rat phức tạp và cần trải
qua nhiều bước kiêm định chọn mẫu kỹ lưỡng
đánh giá ở độ khó cao, đòi hỏi người thực hiện cần có kiến thức chuyên môn rõ
ràng cùng kinh nghiệm phân tích đề cho ra được kết quả chính xác nhật
Thực tế ANOVA là một trường hợp đặc biệt của hồi quy tuyến tính
Hồi quy là kỹ thuật linh hoạt hơn và được sử dụng trong dự báo và dự đoán trong khi ANOVA được sử dụng để so sánh sự bình đăng của hai hoặc nhiều quan thé
3 TIEN XU LY SO LIEU
3.1 Doc dữ liệu
3.1.1 Nạp dữ liệu dirty_data vào Rstudio :
Đề nạp dữ liệu vào Rstudio ta cần dùng lệnh read.csv dùng đề đọc đữ liệu từ một tệp
CS V(ở đây là dirty_ data) và lưu nó đưới dạng một đôi tượng dữ liệu bảng (data frame) Thực hiện việc đưa dữ liệu dirty_ data vào Rstudio:
dirty_ data <- "C:/Users/Asus/Downloads/drty data (l).csv”
Trang 20dirty_data <- read.csv("C:/Users/Asus/Downloads/dirty_data (1).csv")
Kết quả ta sẽ có bảng dữ liệu dirty data trong Rstudio như Hình 1
Hình I:Nạp đữ liệu dirty_ data vào Rstudio
3.1.2 Kiểm tra dữ liệu
Dữ liệu liên quan đến việc buôn bán của một cửa hàng điện tử, nên việc đầu tiên nhóm thực hiện trên dữ liệu là kiêm tra dữ liệu tiên Thực tê cuộc sông, tiên thanh toán được
tính theo công thức:
(100— phiếu giảm giá)
+tiền vận chuyển
Tổng tiền tính được= tiền hàng x
Sai lệch về tổng tiền tính được theo công thức và tổng tiền trong đữ liệu được tính như
w towaio
File Edit Code View Plots Session Build Debug Profile Tools Help
© - Qqi@- ti Go to file/funcr: + Addins ~
@ ]xSTK.8* dirty data =f
Filter
* order_id customer_id date nearest_warehouse shopping_cart order_price delivery_charges €
1 ORD182494 1D6197211592 2019-05-22 Thompson [(Lucent 330S*, 1), (Thunder line’, 2), ('iStrearn', 2), 12200 79.89
2 ORD39551e 2019-12-25 Thompson {( Thunder line’, 1), (Universe Note, 2)] 9080 62.71
3 ORD494479 2019-03-02 Nickolson {Thunder line’, 1), (pearTv', 2)] 10670 65.87
4 ORDO19224 2019-01-12 Nickolson ['Universe Note", 1), (Alcon 10" 2), (Olivia x450", 1 5
5 ORD104032 ID6231505320 2019-11-28 Nickolson [Universe Note’, 1), (Olivia x450!, 1), ('iStream' 1) 5.54
6 ORD146760 IDO311654900 2019-03-16 Bakers ('Thunder line', 2), (tUniverse Note', 1)] 71.22
8 ORDO72312 IDO774517121 2013-05-23 Thompson [(Universe Note’, 1), (Thunder line’, 2), ('iStream', 1)] 7960 52.26
9 ORD377837 ID4769265355 2019-10-09 Bakers [Alcon 10°, 2) (‘Thunder line’, 1) ('Candle Infemo’ 25390 107.58
10 ORD462194 ID5301568579 2019-03-21 Thompson {(Universe Note, 1), (‘Lucent 330S', 1), ('Toshika 75 13320 62.26
12 ORD361636 IDO589500304 2019-12-05 Nickolson {(Lucent 330S", 1), (peartv, 2)] 13850 77.29
13 ORD124395 1D0702352304 2019-02-11 Thompson [lAlcon 10, 1) (Universe Note’ 1), (peartv’, 1) (i 19019 94.75
14 ORD255642 ID3085953531 2019-12-24 Nickolson [CiAssist Line', 2), (Alcon 10', 1), ('pearTV', 11] 19710 75.64
15 ORD496722 100589449820 2019-04-09 Nickolson [CpearTV', 2) (iStream’, 1) (Lucent 330S', 1) (Alc 31900 79.78 _
sau:
Sai lệch= | (Tổng tiền tính được) — (Tông tiền trong dữ liệu) |
Kết quả từ Rstudio cho thấy, giữa tổng tiền tính được và tổng tiền trong đữ liệu có sự sai
lệch rất nhiều, nhiều vị trí sai lệch giá trị rất lớn (Hình 2) Qua đó ta có thê thấy, bảng dữ
liệu không đáng tin cậy do có qua nhiều sai lệch Bên cạnh nhận thay sai lệch về tiền, dữ
liệu về mùa mua hàng được cung cấp cũng còn có những điều không nhất quán về ký tự,
19
Trang 21gay khó khăn cho thống kê (Hình 3) dù cùng là một mùa trong năm nhưng chữ cái đầu viết in hoa va in thường khác nhau dẫn đến thông kê lộn xôn, thiếu tông quát Bên cạnh
đó cột mùa mua hàng cũng có dữ liệu sai khi mùa mua hàng không nhất quán với thời gian mua, ví dụ đơn hàng mua vào tháng 3 nhưng mùa lại là mùa thu (autumn), mùa hè (summer), (Hình 4)
Với các sai lệch đã thay, nhóm đặt giải thuyết về sự sai lệch của cột nearest_warehouse
và cột distance Do vay, dua vao c6t customer_lat va customer_long nhom sé tinh lai khoang cach dén kho hang gan nhất, từ đó sửa lại dữ liệu ở cột nearest_warehouse dua vào công thức Haversine tính khoảng cách dựa trên tọa độ
> #kiém tra sai léch vé tién
> tong_tien = dirty_data$order_price * (100 - dirty_dataS$coupon_discount)/100 + dirty_data$delivery_charges
> sai_lech = abs(tong_tien - dirty_dataf$order_total)
> print(sai_lech)
1 0.00 le 0.00 0.00 0.00 0.00 0.00 0.00 3175.51 0.00 x
t19 0.00 9.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 2- [28 0.00 0.00 0.00 0.00 388795.44 0.00 0.00 0.00 0.00 Sai
Trang 22> table (dirty_data$season) #mùa mua hàng khác kiêu chữ nên xảy ra lôi lặp lại
autumn Autumn spring Spring summer Summer winter Winter
3 124 1 133 3 121 5 110
>
Hình 3: Lôi không đông nhât về kiêu chữ của cột season
[~« Frcsrest_warehouse * shopping cart order_price © delivery charges © customerjat * custemer_jong ° cowpon.dlscount ˆ order.totel ° Peason
Để có thê làm sạch bảng đữ liệu dirty data, nhóm sẽ dùng các lệch có sẵn trong Rstudio
đề biến đổi, tính toán lại các đữ liệu sai lệch (dirty_ data) và lưu vào một bảng dữ liệu
mới có tên là clean_data Đề cụ thê hóa ý tưởng xử lý số liệu sai lệch, nhóm dùng các lệnh trong thư viện dplyr, một thư viện cung cấp các hàm và chức năng đề thực hiện thao tác đễ dàng trên dữ liệu Thư viện dplyr dùng đề khắc phục các biến số liên quan đến tiền với đoạn code như hình 5
21