Tóm tắt và đề bài Bài báo cáo sử dụng lý thuyết thống kê mẫu, kiểm định, hồi quy tuyến tính, phân tích phương sai Anova đề xây dựng mô hình hỏi quy tuyến tính cho 2 bài toán, phân tích t
Trang 1
DAI HOC QUOC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG
BAO CAO BAI TAP LON
MON XAC SUAT VA THONG KE
Trang 2MỤC LỤC
3.1 Phân tích dữ liệu cho hoạt động Ï: - SH HH 8
3.1.2 Xây dựng mô hình hài quy tuyến tính: -¿-¿+c+scScS2cxexsrrrrrererersee 16
3.1.4 So sánh trung bình mức tỏa nhiệt và thu nhiệt của các ngôi nhà: 25
3.1.1 Đọc, IAM Sach, IAM 16 it LGUr oo cccccccceccccceeesseeeeeeeeseceeeeesueeuueeaasuaasaeneeeess 26
4 Tài liệu tham khảo
Trang 31 Tóm tắt và đề bài
Bài báo cáo sử dụng lý thuyết thống kê mẫu, kiểm định, hồi quy tuyến tính, phân tích phương sai Anova đề xây dựng mô hình hỏi quy tuyến tính cho 2 bài toán, phân tích tác động của các biến ngẫu nhiên lên kết quả, kiểm tra các giả thiết của mô hình Lập trình R/R studio được ứng dụng cho việc tính toán, xây dựng mô hình
Dưới đây là đề bài của 2 hoạt động:
Y1: Mức độ thu nhiệt
Y2: Mức độ tỏa nhiệt
Các bước thực hiện
1 Đọc đữ liệu (Import data): heat_ data.csv
Trang 42 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyét)
3 Làm rõ dữ liệu: (Data visualization)
(a) Chuyên đôi biến (néu cân thiết)
(b) Thông kê mô tá: dùng thóng kê mẫu, đồ thị
4 Mô hình hỏi quy tuyến tính: sử dụng một mô hình hồi quy tuyến tính phù hợp để đánh giá các nhân tổ tác động đến mức độ thu nhiệt của các ngôi nhà
5 t test: Đề xuất một kiêm định phù hợp đề so sánh trung bình mức độ thu nhiệt và tỏa nhiệt của các ngôi nhà
Hoạt động 2:
Tập tin CGPP.csv chứa thông tin về 9568 mẫu dữ liệu thu thập từ nhà máy điện chu trình hỗn hợp trong hơn 6 năm (2006-2011), khi nhà máy điện được thiết lập để hoạt động với đầy tải Dữ liệu được dùng để đánh giá các nhân tố môi trường xung quanh anh hưởng đến sản lượng điện hằng giờ nhà máy điện sản xuất được Dữ liệu được lấy từ UCI
trong bộ dữ liệu:
AT: Nhiệt độ
AP: Áp suất xung quanh
RH: Độ âm tương đối
V: Dé thai chân không
PE: Sản lượng điện do nhà máy sản xuất
Các bước thực hiện
1 Đọc dữ liệu (Import data): CCPP.csv
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyét)
3 Làm rõ dữ liệu: (Data visualization)
Trang 5(a) Chuyên đôi biến (néu cân thiết)
(b) Thông kê mô tá: dùng thóng kê mẫu, đồ thị
4 Xây dựng mô hình hồi quy tuyên tính để đánh giá các nhân tô môi trường xung quanh ảnh hưởng đến sản lượng điện hằng giờ nhà máy điện sản xuất được
5 Thực hiện dự báo cho sản lượng điện do nhà máy sản xuất
kỳ thi Toán giải thích dựa trên thời gian ôn tập, và giới tính của sinh viên hay không Hài quy bội cũng cho phép chúng ta xác định sự phù hợp tông thẻ của mô hình và đóng góp tương đối của từng yếu tố dự báo vào tông phương sai được giải thích Ví dụ, chúng
ta có thẻ muón biết mức độ thay đổi trong kết quả kỳ thi cuối kì Toán giải thích có thê được giải thích bằng thời gian ôn tập và giới tính “nói chung”, nhưng cũng là “đóng góp tương đối” của mỗi biến độc lập trong việc giải phương sai
Giả thuyết vô hiệu
Khi có nhiều hơn một biến độc lập, mô hình phù hợp tổng thê được đánh giá bằng thống
ké F (F statistic)
Giá thuyết vô hiệu được thử nghiệm liên quan đến tất cả các tham só hỏi quy ngoại trừ điểm chặn Ví dụ, nếu có ba biến giải thích trong mô hình thì giả thuyết vô hiệu sẽ là: Ho:
Trang 6Bị = Ba = Ba = 0 Thống kê F được đánh giá là tỷ lệ giữa bình phương trung bình của mô hình so với bình phương trung bình của sai Số
Các giả thuyết
Khi phân tích dữ liệu bằng cách sử dụng hỏi quy tuyến tính, một phản của quy trình bao gồm việc kiêm tra đê đảm bảo rằng dữ liệu muốn phân tích thực sự có thê được phân tích bằng hài quy tuyến tính Tập đữ liệu cần “vượt qua” các giả định càn thiết cho hồi quy tuyên tính đê cung cáp kết quả hợp lệ
Việc đo lường biến phản hồi Y ít nhất phải liên tục về mặt lý thuyết (Ví dụ: có thê sử dụng điểm trên thang đánh giá; 0, 1, 2, 3 n) và trong hồi quy bội, một hoặc nhiều biến giải thích có thê là nhị phân (ví dụ: trong hỏi quy, chúng được gọi là biên giả - dummy variables, giới tính biến nhị phân có thẻ được mã hóa là 0 = nam, 1 = nữ) hoặc biến thứ
tự
Môi quan hệ giữa các biến phản hồi và giải thích phải gần đúng tuyến tính Xác minh bằng cách vẽ biểu đồ của biến phán hồi so với từng biến độc lập trong mẽ hình Mối tương quan mạnh mẽ được biêu thị bằng xu hướng đường thăng rõ ràng trong sự phân tán Của các điểm
* Sai số (error) trong mô hình hỏi quy, ê, nên có phân phối xác suất chuân Các phan dư (residuals) trong phân tích hỏi quy đại diện cho các ước lượng mẫu của các sai số Chúng phải có giá trị trung bình bằng 0 và phương sai không đôi (điều này được gọi là đồng nhất
— homoscedasticity) Lưu ý rằng cá biến phản hồi hoặc biến giải thích đều không bắt buộc phái có phân phối chuân, chính các phân dư phù hợp mới là chuẩn
- Xác minh giả định về tính chuẩn băng cách thực hiện vẽ biêu đồ xác suất chuẩn của các phan dư Phân phối của phần dư chỉ cung cấp dấu hiệu về sự phân bồ sai số cơ bản (underlying error distribution) trong dân số và có thê không đáng tin cậy với các cỡ mẫu nhỏ Cách diễn giải đồ thị xác suất chuân theo cách tương tự như đã mô tá trong bài
‘Kiém tra phan phôi chuân
Trang 7- Xác minh giá định về phương sai không đôi (hoặc xác minh sự đồng nhất) bằng cách vẽ biểu đồ phần dư so với các giá trị dự đoán Sự phân tán ngẫu nhiên của các điểm và giá trị trung bình bằng 0 chí ra phương sai không đôi và thỏa mãn giả định này Tức là các phương sai dọc theo đường phù hợp nhất vẫn tương tự khi bạn di chuyên dọc theo đường Một mô hình hình phếu cho biết phương sai không hằng só Những quan sát bên ngoài kì
dị có thẻ dễ dàng phát hiện ra trên biểu đồ này
- Không được có các điểm ngoại lệ đáng kê Giá trị ngoai lé la một diém dữ liệu quan sát
mà khiến giá trị biến phụ thuộc rất khác với giá trị được dự đoán bởi phương trình hồi quy
- Dữ liệu không được xuất hiện đa cộng tuyến (multicollinearity), xảy ra khi có hai hoặc nhiều biến độc lập có tương quan cao với nhau Điều này dẫn đến các vấn đề trong việc hiểu biến độc lập nào góp phan vào phương sai được giải thích trong biến phụ thuộc, cũng như các vấn đề kỹ thuật trong việc tính toán mô hình hỏi quy bội số
Tất cá các giá định đều quan trọng nhưng một số giả định còn hơn cả những giả định khác Kinh nghiệm cho phép nhà nghiên cứu đánh giá xem các giả định có thẻ được nới lỏng đến mức nào trước khi các suy luận bị vô hiệu — đây cũng là một nghệ thuật giống như một môn khoa học Ví dụ, việc thiếu tính chuân của các phần dư không phải là điều quan trọng, nhưng sai số chuân (standard errors) có thẻ bị thôi phông Tương tự, việc thiếu phương sai không đôi không có khả năng làm sai lệch nghiêm trọng các hệ số hài quy nhưng các giá tri p liên quan sẽ cần được diễn giải một cách thận trọng Vi phạm nghiêm trọng nhát là một sự ra đi đáng kẻ S0 với tuyên tính Trong tình huống này, việc chuyên đồi dữ liệu hoặc một phương pháp phân tích thay thế nên được xem xét
2.2 Phân tích phương sai
Mục tiêu của phân tich phuong sai (Analysis of Variance ANOVA) la so sanh trung bình của nhiều nhóm (tổng thê) dựa trên các trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thuyết để kết luận về sự bằng nhau của các trung bình tổng thê này Trong nghiên cứu, phân tích phương sai được dung như một công cụ dé
Trang 8xem xét ảnh hưởng của một yếu tô nguyên nhân (định tính) đến một yếu tô kết quả (định lượng)
Phân tích phương sai một yếu tổ (One-way ANOVA) là phân tích ảnh hưởng của một yếu
tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạng biến định lượng) đang nghiên cứu Ta di vào lý thuyết như sau:
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thê dựa trên những mẫu ngẫu nhiên độc lập gồm n¡, Ne, , Nk quan sat từ k tong thé nay Can ghi nhớ ba giả định sau đây về các nhóm tổng thê được tiền hành phân tích ANOVA:
- _ Các tổng thể này có phân phối bình thường:
- _ Các phương sai tông thê bằng nhau;
Nếu trung bình của các tổng thể được khí hiệu là tị, na, , mẹ thì khi các giá định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiêm định giả thuyết như sau:
Ho: tì = hạ — — Đk
Giả thuyết Ho cho rằng trung bình của k tông thê đầu bằng nhau (về mặt nghiên cứu liên
hệ thì giả thuyết này cho rằng yếu tổ nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu) Và giả thuyết đối là:
H:: Tôn tại ít nhất một cặp trung bình tổng thê khác nhau
Hai gia định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây, thấy ba tổng thê đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau Rõ ràng
là nếu bạn thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối của chúng như hình dưới thì bạn không cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ Ho hay 3 tông thê này có trị trung bình khác nhau.
Trang 9k, chọn bảng có mức ý nghĩa phù hợp.
Trang 103 Phân (ích dữ liệu cho 2 hoạt động
3.1 Phân tích d# liều cho ho động 1:
Hình 1 Kếi guả hiện 6 dòng đầu của dữ liệu
> app1y (is.na (heat_data) ,2,which) integer (0)
Hinh 2 Két qua tim các vị trí, số lượng đữ liệu trắng
e Tìm trung bình, trung v¿, đó lệch chuđn, min, max cza các biến trong máu
Trang 11Vẽ đồ thị histogram thẻ hiện phân phối cho biến Y1
labels=T, col="red")
Trang 12Vẽ đồ thị histogram thẻ hiện phân phối cho biến Y2
hist(heat_data$Y2, xlab="Y2", main="Bieu do histogram cua Y2", ylim=c(0,250), labels=T, col="red")
10
Trang 13Bieu do histogram cua Y2
Vẽ biểu đồ boxplot thê hiện phân phổi của biến Y1 theo từng phân loại của biến X1 boxplot(Y1~X1,data=heat_data,main="Box plot of Y1 for X1",col=c(2,3,4,5,6,7))
11
Trang 14Hình 6 Biéu 46 boxplot thể hiện phân phối œz¿a biến Y1 theo từng phân loại ca biến X1
Vẽ biểu đồ boxplot thê hiện phân phối của biến Y1 theo từng phân loại của biến X2 boxplot(Y1~X2,data=heat_data,main="Box plot of Y1 for X2",col=c(2,3,4,5,6))
Hình 7 Biểu đồ boxplot thể hiện phân phối c¿a biến Y1 theo từng phân loại c¿a biến X2
Vẽ biểu đồ boxplot thê hiện phân phối của biến Y1 theo từng phân loại của biến X3 boxplot(Y1~X3,data=heat_data,main="Box plot of Y1 for X3",col=c(2,3,4,5,6))
Trang 15Vẽ biểu đồ boxplot thê hiện phân phối của biến Y1 theo từng phân loại của biến X4 boxplot(Y1~X4,data=heat_data,main="Box plot of Y1 for X4",col=c(2,3,4,5,6))
Hình 9 Biểu đổ boxplot thể hiện phân phối c¿a biến Y1 theo từng phân loại c¿a biến X4
Vẽ biểu đồ boxplot thê hiện phân phối của biến Y1 theo từng phân loại của biến X5 boxplot(Y1~X5,data=heat_data,main="Box plot of Y1 for X5",col=c(2,3,4,5,6))
Trang 16°
Hinh 10 Biéw 46 boxplot thé hién phan phdi cva biến Y1 theo từng phân loại cza biến X5
Vẽ biểu đồ boxplot thê hiện phân phối của biến Y1 theo từng phân loại của biến X6 boxplot(Y 1~X6,data=heat_ data,main="Box plot of Y1 for X6",col=c(2,3,4,5,6))
Hình 11 Biá¿ đô boxplot thé hiện phân phái cZa biến Y1 theo từng phân loại c¿a biến X6
Vẽ biểu đồ boxplot thê hiện phân phối của biến Y1 theo từng phân loại của biến X7 boxplot(Y1~X7,data=heat_data,main="Box plot of Y1 for X7",col=c(2,3,4,5,6))
Trang 17
xT
Hinh 12 Biéu d6 boxplot thể hiện phân phối c¿a biến Y1 theo từng phân loại cua bién X7
Vẽ biểu đồ boxplot thê hiện phân phối của biến Y1 theo từng phân loại của biến X8 boxplot(Y 1~X8,data=heat_ data,main="Box plot of Y1 for X8",col=c(2,3,4,5,6))
Trang 183.1.2 Xây dựng mô hình hồi quy tuyến tính:
Ta xây dựng mô hình hôi quy tuyên tính đề đánh giá những các nhân tô tác động đên mức
độ thu nhiệt của các ngôi nhà
Mô hình hồi quy với với biến phụ thuộc là Y1 và giả sử các biến độc lập là: X1, X2, X3, X4, X5, X6, X7, X8
Mô hình được biêu diễn như sau:
Y1 =/Øo+ /i.X1 + Øđa.X2 + + /;.X/ + Øa.X8
Sử dụng lệnh Im() để xây dựng mô hình hỏi quy tuyến tính và summary() đề tính toán kết quả:
Input
fit = Im(data = heat_ data, Y1 ~ X1+X2+X3+X4+X5+X6+X7+X8)
summary(fit1)
Output
Trang 19lm(formula = Y1 ~ XI + X2 + X3 + X4 + X5 + X6 + X7 + X8, data = heat_data) Residuals:
-9.8965 -1.3196 -0.0252 1.3532 7.7052
Coefficients: (1 not defined because of singularities)
Estimate Std Error t value Pr(>|t])
Residual standard error: 2.934 on 760 degrees of freedom
Hình 14 Code R két quá xây dựng mô hình hổi quy tuyến tính fit1
Nhận xét: Từ kết quả phân tích trên, ta thu được các hệ số của mô hình:
Vì đối với biến X4 ta không tìm được hệ số hồi quy và giá trị của các thông số liên quan,
do đó ta có thể kết luận biến X4 là một biến phụ thuộc vào các biến còn lại (diện tích mái nhà có thẻ phụ thuộc vào diện tích bề mặt, ) Từ đó, ta có thê loại bỏ biến X4 ra khỏi mô hình hồi quy
Như vậy, phương trình đường thăng của mô hình hồi quy có thê được ước lượng như sau: Y1 = 84.014521 - 64,773991.X1 - 0,087290.X2 + 0,060813.X3 + 4,169939.X5
- 0,023328.X6 + 19,932680.X7 + 0,203772.X8
Đánh giá mức độ phù hợp của mô hình:
Trang 20o_ Đánh giá ý nghĩa toàn điện của mô hình sử dụng giả thuyết như sau:
Giá thuyết Ho: Bi = Bo = Bs = Bs = Bs = Br = Bs = 0
Giá thuyết H:: Có ít nhát một hệ số J¡ khác 0 (B¡ # 0)
Trước hết, ta có thẻ thấy rằng p-value tương ứng với thống kê F bé hơn 2.2e — l6, có ý nghĩa rất cao Điều này chỉ ra rằng, ít nhát một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biến mức độ thu nhiệt Y1
Giá thuyết Họ: Hệ số hồi quy không có ý nghĩa thống kê (f¡ = 0)
Đề xét từng biến độc lập, ta xét từng giá trị p-value tương ứng với từng biến đó Ta nhận
ra rằng, hệ số Js có giá trị nhỏ hơn mức ý nghĩa œ = 0,05 Từ đó, ta kết luận chấp nhận giá thuyết H0, bác bỏ giá thuyết Hị ở hệ số ae = 0 ứng với việc giá trị X6 không có ý nghĩa thống kê đối với mô hình hồi quy mà ta vừa xây dựng, do đó ta có thê loại bỏ biến X6 này ra khỏi mô hình Với các giá trị p-value ( Pr (>I t I) ) ứng với các hệ số thống kê còn lại của mô hình ta được giá trị p-value của các hệ số ứng với các biến hàu hết đều bé hơn mức ý nghĩa # = 0,05, suy ra bác bỏ giả thuyết Ho, chấp nhận giả thuyết H: Ta có thể nói các biến hàu hét các hệ số còn lại ngoài hệ số fs đều có ý nghĩa đối với mô hình ta xây dựng
Vì vậy, ta cần xây dựng lại mô hình hài quy tuyến tính với biến phụ thuộc là Y1, và các biến độc lập lúc này là: X1, X2, X3, X5, X7, X8
Sử dụng lệnh Im() để xây dựng mô hình hỏi quy tuyến tính và summary() đề tính toán kết quả:
Input
fit2 = Im(data = heat_ data, Y1 ~ X1+X2+X3+X5+X7+X8)