Mục lục3.1 Phân tích phương sai một yếu tố One-Way Analysis of Variance 9 4.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội 15 4.3 Phương pháp bình phương nhỏ nhất Ordinary Le
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT & THỐNG KÊ
Giảng viên hướng dẫn: ThS Nguyễn Thị Kiều Ân
Danh sách sinh viên thực hiện
Trang 2Mục lục
3.1 Phân tích phương sai một yếu tố (One-Way Analysis of Variance) 9
4.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội 15 4.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) 16
Trang 3I Tổng quan dữ liệu
Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk.Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều chỉnhtrong máy in 3D đến chất lượng in, độ chính xác và độ giãn của bản in
Bộ dữ liệu bao gồm 50 quan sát với 9 thông số cài đặt và 3 thông số đầu ra được đolường
Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/afumetto/3dprinter
Các biến chính trong bộ dữ liệu gồm:
layer_height (mm): Độ cao mỗi lớp in
infill_density (%): độ rỗng bên trong chi tiết
infill_pattern: Dạng lưới bên trong chi tiết
wall_thickness (mm): Bề dày tường
nozzle_temperature (ºC): Nhiệt độ của mũi in
tension strenght: Sức căng bề mặt
elongation: Độ giãn dài
Các biến liên tục: layer_height, nozzle_temperature, bed_temperature, print_speed,roughness, tension strenght, elongation
Các biến phân loại: infill_pattern và material
Trang 4II Kiến thức nền
1 Khoảng tin cậy
1.1 Ước lượng điểm
Là sử dụng một tham số thống kê từ mẫu đơn để ước lượng giá trị của tham số tương ứngtrong tổng thể Ví dụ, ta có thể sử dụng giá trị cụ thể của trung bình mẫu để ước lượngtrung bình tổng thể μ
Tuy nhiên, phương pháp này có nhược điểm khi kích thước mẫu quá lớn, dẫn đến ướclượng có thể có sai lệch đáng kể so với giá trị tham số cần ước lượng Hơn nữa, mặc dùmọi phương pháp ước lượng đều có thể mắc phải sai lầm, nhưng ước lượng điểm khôngcung cấp thông tin về khả năng mắc sai lầm của nó là bao nhiêu
1.2 Ước lượng khoảng
Đối với vấn đề ước lượng thông qua khoảng tin cậy, quy trình thực hiện như sau: Xácđịnh một khoảng ước lượng (G_1, G_2) cho tham số θ trong tổng thể sao cho xác suất tincậy (confidence) được xác định trước là γ, tức là P(G_1 < θ < G_2) = γ
Phương pháp ước lượng bằng khoảng tin cậy mang lại nhiều ưu điểm hơn so với phươngpháp ước lượng điểm, vì nó gia tăng độ chính xác của ước lượng và đồng thời đánh giáđược mức độ tin cậy của ước lượng đó
Khả năng mắc sai lầm của phương pháp được thể hiện qua giá trị α = 1 - γ Trong thống
kê, biểu diễn α thường được sử dụng để chỉ một giá trị xác suất nhỏ Do đó, ký hiệu 1 - αcũng được dùng để thể hiện độ tin cậy của khoảng ước lượng
Trang 5+ H0 : Tỉ lệ nảy mầm của 1 loại hạt giống là 70%
+ H0 : Thời gian công nhân hoàn thành 1 sản phẩm là BNN có pp chuẩn với kỳ vọng là 20phút và phương sai là 9 phút2
+ H0 : Mức độ yêu thích của khán giả với chương trình truyền hình “Tìm kiếm tài năng ”không phụ thuộc vào lứa tuổi
Giả thiết đối H1 (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H0 , H1 thể hiện
xu hướng cần kiểm định
Vì ta sẽ dựa vào thông tin thực nghiệm của mẫu để kết luận xem có thừa nhận các giảthiết nêu trên hay không nên công việc này gọi là kiểm định thống kê
Trang 6Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0 ), xây dựng trên mẫu ngẫunhiên W= ( X1 , X2 , , Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặt ra với thống kê G
là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định
Miền bác bỏ giả thiết RR ( Rejection region) là miền số thực thỏa P(GRR /H0 đúng) =
là một số khá bé, thường không quá 10% và được gọi là mức ý nghĩa của kiểm định
Một ký hiệu khác của miền bác bỏ được dùng trong bài: W
- Miền chấp nhận AR: phần bù của miền bác bỏ RR
+ Nếu gqs RR thì bác bỏ H0 , thừa nhận giả thiết H1
+ Nếu gqs RR : ta chưa đủ dữ liệu khẳng định H0 sai
Vì vậy ta chưa thể chứng minh được H1 đúng
2.2 Bài toán kiểm định tỷ lệ
Trang 72.3 Bài toán kiểm định trung bình
Trang 8Bài toán có thể mở rộng hơn với H0: µ1= µ2 + d0
Khi đó TCKĐ thay đổi tương ứng: Z qs=(X1− X2− d0) /√σ12
3.1 Phân tích phương sai một yếu tố (One-Way Analysis of Variance)
Trong mô hình phân tích phương sai 1 yếu tố, chúng ta kiểm định so sánh trung bình củabiến ngẫu nhiên X ở những tổng thể (còn gọi là nhóm) khác nhau dựa vào các mẫu quan
Trang 9sát lấy từ những tổng thể này Các tổng thể được phân biệt bởi các mức độ khác nhau củayếu tố đang xem xét.
a/ Giả thuyết của bài toán ANOVA một yếu tố (điều kiện bài toán hay là giả thuyết môhình)
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể dựa trên những mẫu ngẫunhiên độc lập gồm 𝑛1, 𝑛2, 𝑛3, , 𝑛𝑘 quan sát tà k tổng thể Cần ghi nhớ ba giả định sauđây về các nhóm tổng thế được tiến hành phân tích ANOVA
- Các tổng thể này có phân phối chuẩn N (µ; i2); i = 1; 2; …; k k là số tổng thể(thông thường k≥3)
- Các phương sai các tổng thể bằng nhau (1 = 2=… =k )
- Các mẫu quan sát (từ các tổng thể) được lấy độc lập
b/ Các bước thực hiện bài toán
Nếu trung bình của các tổng thể được ký hiệu là µ1 = µ2 = = µ𝑘 thì khi các giả địnhtrên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được đặt giảthuyết kiểm định như sau:
Giả thuyết không H0: µ1 = µ2=…= µk
Giả thiết đối H1: ∃ µ i ≠ µ j; với i≠ j hay tồn tại ít nhất một cặp trung bình tổng thể khácnhau
Tính các giá trị kiểm định thống kê:
Trang 10Trong đó trung bình mẫu ´x1,´x2,´x k ,được tính theo công thức:
Trang 11Tổng các độ lệch bình phương giữa các nhóm (SSB):
Tổng các độ lệch bình phương của toàn bộ tổng thể (SST):
Hay
Tính các phương sai (phương sai của nội bộ nhóm và phương sai giữa các nhóm):
Các phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự
do tương ứng
MSW: Là phương sai nội bộ nhóm (mẫu)
SSB: Là phương sai giữa các nhóm (mẫu)
Trang 12k: là số nhóm (mẫu)
N: là tổng số quan sát của các nhóm
Miền bác bỏ: RR = (fα (k-1; N-k); +∞)
Kiểm định giả thuyết:
Tính tiêu chuẩn kiểm định F (F thực nghiệm)
Nếu: Fqs ∈RR => Bác bỏ giả thuyết H0, chấp nhận H1 Nghĩa là các số trung bình của ktổng thể không bằng nhau
Fqs không thuộc RR => chưa bác bỏ được giả thuyết H0
Hệ số xác định: R 2
Hệ số xác định R2 của mô hình Phân tích phương sai được sử dụng để đo mức độ ảnhhưởng của yếu tố được xem xét trong mô hình đối với sự biến động của các giá trị củabiến ngẫu nhiên X quanh giá trị trung bình của nó
R2 càng lớn thì mô hình càng gọi là thích hợp
3.2 Phân tích sâu ANOVA một yếu tố
Mục đích của phân tích phương sai là kiểm định giả thuyết 𝐻0 rằng trung bình của tổngthể bằng nhau Sau khi phân tích và kết luận cho bài toán Anova, có hai trường hợp xảy
ra ra:
Trang 13+ Chưa bác bỏ được giả thiết H0, hay là chưa có bằng chứng về sự khác biệt của các trungbình
+ Bác bỏ H0, chấp nhận H1 => Trung bình của các nhóm không bằng nhau (hay là sựkhác biệt có ý nghĩa thống kê) Nói chung thì chúng ta không biết được sự khác biệt đó là
từ một hay từ những nhóm nào Do đó ta có thể muốn phân tích thêm: nhóm nào đó cótrung bình lớn hơn, bằng, hay nhỏ hơn so với những nhóm khác?
Có nhiều phương pháp đưa đến kết quả mong muốn Chúng ta còn gọi đó là các phươngpháp so sánh bội (Multiple comparison methods)
Cách 1: Dùng LSD test: Kiểm định so sánh lần lượt tất cả các cặp trung bình của 2 nhómkhác nhau (C k2 cặp); với các giả thuyết tương ứng:
Nếu khoảng tin cậy chứa số 0 thì ta không kết luận được có sự khác biệt giữa µi và µj
Trang 14Số khoảng tin cậy cần tìm: C2.
4 Hồi quy đa biến
Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụthuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với haihoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)
Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thunhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bìnhquân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinhnghiệm, độ tuổi,…
4.1 Giới thiệu mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β2X2 + β3X3 + … + βkXk + uTrong đó: Y: biến phụ thuộc
Xi: biến độc lập
β1: hệ số tự do (hệ số chặn)
βi: hệ số hồi quy riêng βi đo lường tác động riêng phần của biến Xi lên Y với điều kiệncác biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hìnhkhông đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫunhiên
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y)dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất củacác thông số của tổng thể β1 và βi là tuyến tính (bậc nhất) Nó có thể được sử dụng chocác trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gianngười dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đóv.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ướclượng các tham số của tổng thể: β1, β2,…, βk
4.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội
a Hàm hồi quy tổng thể (PRF – Population Regression Function)
Trang 15Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phânphối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy, F(X2,
X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk
Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)
b Hàm hồi quy mẫu (SRF – Sample Regression Function):
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụthuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.Trên một mẫu có n cá thể, gọi ^Y = F^(X2, X3,…, Xk) làhồi quy mẫu
Với một cá thể mẫu Yi ≠ F^(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F^ (X2, X3,…, Xk); ei gọi làphần dư SRF
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
^yi = ^β1 + ^β2x2,i + ^β3x3,i + … + ^βkxk,iPhần dư sinh ra: ei = yi – ŷi
Ký hiệu: ^βm là ước lượng của βm Chúng ta trông đợi^βm là ước lượng không chệch của βm,hơn nữa phải là một ước lượng hiệu quả
Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việctìm các tham số của F^ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ chotham số của F
4.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl FriedrichGauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do
đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độgốc và độ dốc sao cho phần dư là nhỏ
Trang 16a Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việcước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn 7 giảthiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượngtuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương pháp OLSđưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE)
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS làBLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS cóphương sai bé nhất Các giả thiết như sau:
1 Hàm hồi quy là tuyến tính theo các hệ số
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan
hệ dưới dạng:
y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + uhoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế
2 E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0
Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mangdấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên cóthể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trongtổng thể
3 Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:
Var(ui) = E(ui2) = σ2
.
4 ui phân phối chuẩn
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyếttrong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên khôngmấy quan trọng
5 Giữa các ui thì độc lập với nhau
4.3.1 Ước lượng
Trang 17Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i
ŷi ký hiệu giá trị của hàm hồi quy mẫu
Trang 18 Σ(yi – ӯ))2 : TSS – Total Sum of Squares
Σ(ŷi – ӯ))2 : ESS – Explained Sum of Squares
Σei2 : RSS – Residual Sum of Squares
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giátrị nhận được từ hàm hồi quy
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra
Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:
Trang 19 Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụthuộc y.
rong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến
x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2
R2 = ^β2Σ( yi- ´y )( x2i- ´x2)+ ^β 3 Σ( yi- ´y )( x3i- ´x3)
2
Σ( yi- ´y )2
4.5 Khoảng tin cậy và kiểm định các hệ số hồi quy
a Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2,…, βk mà còn phảikiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của β1, β2,…, βk.Các phân bố này phụ thuộc vào phân bố của các ui
Với các giả thiết OLS, ui có phân phối N (0, σ2) Các hệ số ước lượng tuân theo phân phốichuẩn:
^βj N(βj, Se(^βj))
^β j -β j
Se ( ^β j) ~T (n − k)
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số
hệ số có trong phương trình hồi quy đa biến:
Trang 20Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ
số hồi quy có ý nghĩa thống kê hay không
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj* Nếu giả thiết này đúng thì:
c Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩađược hiểu là tất cả các hệ số hồi quy riêng đều bằng 0
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể nhưsau:
Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0
Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, …, Xk, sau đótính tổng bình phương sai số RSSU, RSSR Phân phối F là tỷ số của hai biến ngẫu nhiênphân phối khi bình phương độc lập Điều này cho ta trị thống kê:
Fc = [RSS R − RSS U]/(k −m)
RSS U/(n −k ) ~ F(α, k – m, n – k)
Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này
sẽ là:
Trang 21III Tiền xử lý số liệu
- Đọc dữ liệu vào R và xem 6 dòng đầu tiên của dữ liệu:
- Tạo một tệp con bao gồm các biến chính cần phân tích:
Trang 22Kiểm tra dữ liệu khuyết trong tệp tin:
Nhận xét: Tệp tin không chứa dữ liệu khuyết
IV Thống kê mô tả
- Tạo function và lập bảng tính thống kê mô tả và độ lệch chuẩn cho các biến liên
tục
- Lập bảng phân phối tần số cho các biến phân loại: