lựa chọn tập dữ liệu nha may dien csv tham khảo từ trang web uci gồm 5 biến và thực hiện theo các bước đọc, làm rõ dữ liệu, xây dựng mô hình tuyến tính và dự báo
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,7 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC BÁCH KHOA - - - oOo - - - BÁO CÁO BÀI T ẬP LỚN SỐ 2 MÔN HỌC XÁC SU Ấ T THỐNG KÊ HỌC K Ỳ 202 Giảng viên hướng dẫn: Nguyễn Kiều Dung Nhóm: 26 Danh sách thành viên: STT Họ tên Nguyễn Thế Bảo Hoàng Minh Nguyễn Hoàng Đặng Thị Xuân Diệp Nguyễn Nhật Nhật Hạ Nguyễn Lê Hảo Hảo Võ Nguyễn Khánh Linh Trần Thị Kiều Linh Nguyễn Thanh Thanh Thảo MSSV 1912682 1914165 1912851 1913274 1913271 1913969 1913965 1915187 Lớp/Tổ Khoa Ký tên tham dự L13B Cơ khí L13C Cơ khí L17A Cơ khí L17B Cơ khí L17B Cơ khí L17B Cơ khí L17B Cơ khí L17C Cơ khí T p H ồ Chí Minh, ngày tháng năm 2021 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC BÁCH KHOA - - - oOo - - - BÁO CÁO BÀI T ẬP LỚN SỐ 2 MÔN HỌC XÁC SU Ấ T THỐNG KÊ HỌC K Ỳ 202 Giảng viên hướng dẫn: Nguyễn Kiều Dung Nhóm: 26 Danh sách thành viên: STT Họ tên Nguyễn Thế Bảo MSSV 1912682 Nguyễn àng Minh Ho Đặng ThịHoàng Xuân Diệp Nguyễn Nhật Nhật Hạ Nguyễn Lê Hảo Hảo Võ Nguyễn Khánh Linh Trần Thị Kiều Linh Nguyễn Thanh Thanh Thảo 1914165 1912851 1913274 1913271 1913969 1913965 1915187 Lớp/Tổ Khoa Ký tên tham dự L13B Cơ khí L13C L17A L17B L17B L17B L17B L17C Cơ Cơ khí khí Cơ khí Cơ khí Cơ khí Cơ khí Cơ khí T p H ồ Chí Minh, ngày tháng năm 2021 i TÓM T ẮT Bài báo cáo t ập trung chủ yếu vào dữ liệu thu thập t ừ các trang web thông tin Kaggle, Uci trang thơng tin uy tín Mỹ, sau kiểm tra dữ liệu xây dựng mơ hình hồi quy tuyến tính biến quan tâm Về phần chung, nhóm lựa chọn t ập dữ liệu gia_nha.csv tham khảo t ừ trang web Kaggle quan tâm đến biến Thực theo bước: đọc, làm rõ liệu, xây dựng mơ hình tuyến tính dự báo. Về phần riêng, nhóm lựa chọn tập liệu nha_may_dien.c sv tham khảo từ trang web Uci gồm biến Và thực theo bước: đọc, làm rõ liệu, xây dựng mơ hình tuyến tính dự báo. Từ đó, nhận xét mối tương quan biến phụ thuộc biến bi ến độc lập. Bài báo cáo xây dựng dựa sở kiến thức chúng em tiếp thu t ừ các giảng mà Cô tận tâm truyền đạt Chúng em vận dụng phương pháp phân tích dữ liệu thống kê cho đề tài nghiên cứu Từ đó, phân tích dữ liệu thực t ế dựa nội dung học hoàn thành báo cáo trọn vẹn. Dựa kiến thức học tìm hiểu thêm, nhóm chúng em cố gắng để hoàn thành báo cáo tiến độ và t ốt Nhưng kiến thức có hạn nên cịn nhiều thiếu sót cách trình bày nộ i dung báo cáo cần truyền t ải Chúng em mong nhận sự thông cảm t ừ cô, mong góp ý để chúng em có thể rút kinh nghiệm cho thân ii MỤC LỤC PHẦN I: Cơ sở lý thuyết 1 PHẦN II: Bài t ập xử lý số liệu 12 PHẦ N CHUNG 12 1. Đọc dữ liệu (Import data): 12 2. Làm dữ liệu (Data cleaning): 13 Làm rõ dữ liệu 17 Xây dựng mơ hình h ồi quy tuyến tính (Fitting linear regression models): 17 Dự báo (Predictions) 26 37 PHẦN RIÊNG 1. Đọc dữ liệu (Import data): 38 2. Làm dữ liệu (Data cleaning): 39 Làm rõ dữ liệu 40 Xây dựng mơ hình h ồi quy tuyến tính (Fitting linear regression models) 44 Dự Báo (Predictions) 44 TÀI LIỆU THAM KHẢO A iii lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao PH ẦN I: Cơ sở lý thuyế t 1. Mơ hình hồi quy tuyế n tính biến phân tích tương quan: 1.1. Mơ hình hồi quy tuyến tính đơn: Phương trình hồi quy tuyến tính đơn biến t ổng thể: Trong đó: Xi và Yi là giá trị của biến độc lập biến phụ thuộc t ại cặp quan sát thứ i + + b0: hệ số tung độ gốc (hệ số chặn) b1: hệ số độ dốc (hệ số góc) ei: yếu t ố ngẫu nhiên (chênh lệch giá trị Yi thực t ế và giá trị E(Y|Xi) với E(Y|Xi) = b0 + b1Xi 1.1.1. Ý nghĩa hệ số h hồi quy: b1 là hệ s ố độ d ốc c đường h ồi quy t ổng thể, đo lường lượng thay đổi trung bình biến phụ thuộc Y, cho đơn vị thay đổi X b0 là hệ số tung độ gốc (hệ số chặn hệ số t ự do) cho biết giá trị trung bình Y X Phương trình hồi quy tuyến tính mẫu đực sử dụng để ước lượng mơ hình hồi quy t ổng thể E(Y|Xi) = b0 + b1Xi có cơng thức: Trong đó: ̂ + : giá trị ước lượng cho giá trị của biến Y ở quan sát thứ i ̂ Xi: giá trị của X ở quan sát thứ i Cơng thức tính giá trị của hệ số hồi quy mẫu: Hoặc ∑ ̅̅̅ ∑∑ ∑− −∑∑ ̅ ̅ lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 1.1.2. Đo lườ ng ng bi ế ế n thiên hệ số xác xác đị nh: nh: Để khảo sát khả năng sử dụng biến độc lập để dự đoán về biến phụ thuộc cần phải đo lường số sự biến thiên mơ hình Tổng biến thiên biến phụ thuộc (SST) tính cách lấy t ổng chênh lệch bình phương giá trị Yi xung quanh giá trị trung bình chúng Tổng biến thiên chia làm phần: biến thiên hồi quy (SSR) biến thiên phần dư (SSE). ̅ ̂ + SSR thể hiện sự khác biệt giá trị do đường hồi quy tính tốn và và ̂̅ SSE đại diện cho thành phần biến thiên Y mà khơng giải thích hồi quy, hình thành dựa chênh lệch Yj và + SST chênh lệch giá trị quan sát Yi và SSTSSR+SSE = ̅ SST SST ̂= ̅ SSR ̂ SSE = Tỉ lệ giữa SSR SST hệ số biến thiên (R2) dùng để đánh giá mơ hình hồi quy SSRSST 1.1.3. Sai số chu chuẩ n c ủa ước lượ ng: ng: Độ lệch chuẩn xung quanh đường hồi quy gọi sai số chuẩn hồi quy (kí hiệu sY/X) tính cách lấy t ổng chênh lệch bình phương chia cho bậc t ự do lấy bậc hai kết quả tìm ̂ ( ) ∕∕ 2 = Bình phương sY/X ta s2Y/X là ước lượng t ốt cho s2 căn cứ trên (n-2) bậc t ự do lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Chỉ số Y/X dùng để chỉ rõ s2Y/X là ước lượng cho phương sai Y có sự hồi quy Y theo X 1.1.4. Suy di ễ ễ n thố ng ng kê v ề hệ số độ d ố ố c Địng lí Gauss – Markov: Trong ước lượng tuyến tính khơng chệch cho hệ số h ồi quy t ổng thể, ước lượng tìm phương pháp bình phương bé có phương sai cực tiểu. Giả sử Y tuân theo phân phối chuẩn tham số b0 b1 tuân theo phân phối chuẩn: + Trung bình: E(b1) = b1 + Phương sai: ∑//−−̅ ± Khoảng tin cậy 100x(1-a)% cho hệ số độ dốc b1 có dạng (b1 t (n-2; (n-2; /2) х sb1) Kiểm định ý nghĩa hệ số độ dốc có thể tiến hành với giả thiết về giá trị của b1 (giả dụ H0: b1=b*) + Chuẩn hóa b1 theo cơng thức: Z = (b-b1)/sb1 ∗ + Do ta dùng ước lượ ng mẫu thay cho phương sai thực t ổng thể mà ta chưa biết nên b1 khơng có phân phối chuẩn mà sẽ có phân phối student với (n-2) bậc t ự do Trong đó: b1 là hệ số hồi quy mẫu b* là giá trị của hệ số hồi quy t ổng thể được giả định sb1 là ước lượng sai số chuẩn hệ số độ dốc + Tiến hành so sánh giá trị t với giá trị t tra bảng theo quy t ắc |t| < t (n-2; (n-2; /2) chưa thể bác bỏ giả thiết H0 + Với mơ hình hồi quy đơn biến việc kiểm định thông tin về hệ số độ dốc tiến hành với giả thiết b1=0 H0: b1=0 H1: b10 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 1.1.5. Phân tích phần dư: Kiểm định tính đắn c mơ hình hồi quy tuyến tính cách vẽ đồ thị mà phần dư đặt trục đứng biến độc lập X đặt ở trục ngang + Đồ thị ei theo X không thể hình dạng rõ ràng c chấm phân tán mơ hình đắn + Đồ thị ei theo X có dạng liên kết mơ hình khơng đắn Kiểm tra sự vi phạm giả định phương sai bằng: + Đồ thị phần dư theo biến độc lập Nếu khơng có sự khác biệt lớn sự biến thiên phần dư giá trị khác biến X mơ hình tuyến tính xây dựng không vi phạm giả định phương sai + Kiểm định Park Kiểm tra giả định phân phối chuẩn phần dư: có thể đánh giá cách phân tích phần dư Sử dụng đồ thị xác suất chuẩn (Normal probability plot) để xem phần dư có phân phối chuẩn hay xấp xỉ chuẩn hay khơng Kiểm định tính độc lập phần dư cách: + Vẽ đồ thị phần dư theo trật t ự của giá trị mà ta thu th ập theo thời gian + Kiểm định Durbin-Watson (không đáng tin cỡ mẫu t (n-2; (n-2; /2) thì bác bỏ giả thiết H0 ngược lại, là m ức ý nghĩa chọ n cho phép kiểm định Một số vấn đề đáng lưu ý về r: lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao + r = cho biết khơng có mối liên hệ tuyến tính biến chứ chưa có ý nghĩa biến khơng có mối liên hệ vì chúng có thể liên hệ phi tuyến hệ số tương quan tuyến tính chỉ nên sử dụng để biểu thị mức độ chặt chẽ của liên hệ tương quan tuyến tính + Cần phải cẩn thận xem xét đồng thời hệ số tương quan cả đồ thị phân tán X Y hệ số tương quan có thể có giá tr ị trong hình dạng mối liên hệ lại khác + Một lỗi thơng thường giải thích hệ số tương quan tuyến tính cứ cho có liên hệ tương quan có nghĩa lúc có mỗ i liên hệ nhân Kỹ thuật tương quan tuyến tính kỹ thuật đối xứng, mối liên hệ giữa X Y tương tự như liên hệ giữa Y X chứ nó liên hệ nhân quả thoe chiều kỹ thuật hồi quy + Hệ số tương quan tuyến tính khơng có đơn vị đo lường + Trong mơ hình hồi quy tuyến tính đơn biến hệ số xác định R2 thì sẽ được hệ số tương quan rXY: +√ √ √ ̂ + b1>0 b1|t|) tất biến < mức ý nghĩa 0,05 nên ta bác bỏ H0, chấp nhận H1 nên hệ số góc tương ứng với tất biến ( AT, V, AP, AP, RH) có ý nghĩa thống kê Dó D ó ta khơng loại bỏ biến khỏi mơ hình c) Xét mơ hình tuyến tính bao gồm biến PE biến phụ thuộc nhưng: + Mơ hình M1 chứa t ất cả các biến cịn lại biến độc lập + Mơ hình M2 loại bỏ biến V khỏi mơ hình M1 Hãy dùng lệnhh anova() để đề xuất mơ hình hồi quy hợp lý hơn Mơ hình hồi quy M2 bao gồm: Biến phụ thuộc : sản lượng điện ròng PE Biến dự báo (độc lập) : AT,AP,RH nhiệt độ môi trường, áp suất môi trường độ ẩm t ỉ đối môi trường Mô hình biểu diễn sau : + x AT + x AP + Ta ước lượng hệ số , ,… sử dụng lệnh lm() Input: M2 = lm(PE~AT+AP+RH, data = nha_may_dien) summary(M2) # Xây d ự ự ng ng mơ hình tuy ếế n tính bội theo mơ hình m2 # Thố ng ng kê k ế ế t quả tính tốn xây d ự ựng n g mơ hình m2 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 46 x RH lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Output: Từ kết quả phân tích, ta thu = -0.203832 = 490.323746 , = -2.377708 , = 0.025372, Như đường thẳng hồi quy ước lượng cho phương trình sau: PE = 490.323746 - 2.377708 x AT + 0.025372 x AP - 0.203832 x RH Hệ số hiệu chỉnh 0.921 nghĩa 92.1% sự biến thiên sản lượng điện rịng PE giải thích biến AT, AP, RH Input: anova(M1,M2) # Phân tích phương sai cho hai mơ hình tu y ế ế n tính M1 M2 Output: Ta đặt giả thiết: H0: Hai mơ hình hiệu quả như nhau H1: Hai mơ hình hiệu quả khác lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 47 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Nhận xét: Vì kết quả thu bảng Anova cho mơ hình M1 M2 Pr(>F) = 2,2.e-16 nhỏ 0.05 nên ta bác bỏ H0, chấp nhận H1 Điều chỉ mơ hình khác Do ta sẽ cân nhắc việc chọn mơ hình M1 hay mơ hình M2. Hệ số multiple (hệ số xác định) ở mơ hình M1 = 0.9287 > h ệ số muiltle R2 (hệ số xác định) ở mơ hình M2 = 0,921 Hơn nữ a, mơ hình M1 có nhi ều mơ hình M2 biến có ý nghĩa thống kê (V) nên chọn mơ hình M1 sẽ hợp lý mơ hình M2. d) Chọn mơ hình hợp lý từ câu (c) suy luận s ự tác động c biến lên sản lượng điện ròng theo thời gian: Nhận xét : D ựa kết quả trên, ta nhận thấy biến mơ hình M1 có giá trị Pr (> t) nhỏ (***), nghĩa khả năng bác bỏ H0 càng cao, t ức hệ số ứng với biến có ý nghĩa thống kê cao, nghĩa sự thay đổi biến có ảnh hưởng nhiều đến sự thay đổi sản lượng điện ròng Xét t ừng biến cụ thệ ta thấy hệ số hồi quy ứng với AT = - 1.977513 ứng với nhiệt độ tăng 1 ta có thể kì vọng s ản lượng điện rịng giảm 1.977513 đơn vị tính theo đơn vị sản lượng ròng ( giả sử các biến dự báo lại khơng đổi ) Tương tự ta có thể xét với biến lại ( V, AP , RH ) e) T ừ mơ hình hồi quy hợp lí t ừ câu (c) dùng lệnh plot để v ẽ đồ th ị bi ểu thị sai số hồi quy giá trị dự báo Nêu ý nghĩa nhận xét Input: plot (M1 , which=1) # V ẽ ẽ đồ th ị biể u th ị sai số h hồi quy (Residuals) giá tr ị d ự ự báo báo (Fitted values) lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 48 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Output: Nhận xét : Đồ thị trên vẽ các giá trị dự báo giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đồ thị gần đường thẳng n ằm ngang, t ức mối quan hệ gi ữa biến dự báo X biến ph ụ thu ộc Y xem tuyến tính, thoả mản giả định tuyến tính dữ liệu Ngoài giá trị thặng dư (sai số) phân tán tương đối xung quanh đườ ng thẳng y= (ngoài trừ một số giá trị là ngoại lai), chứng t ỏ phương sai sai số số *Các giả định c ần kiểm tra mơ hình hồi quy: Tính tuyến tính dữ liệu: mối quan hệ giữa biến dự báo X biến phụ thuộc Y giả sử là tuyến tính Sai số có phân phối chuẩn Phương sai sai số là số Các sai số độc lập với Ta thực vẽ thêm biểu đồ để kiểm tra giả định hồi quy này: Input: plot(M1,which=1) plot(M1,which=2) plot(M1,which=3) lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 49 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao plot(M1,which=5) Output: Đồ thị 1: Kiểm định mối quan hệ tuyến tính dữ liệu Nhận xét : Đồ thị 1 vẽ các giá trị dự báo giá tr ị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đồ thị gần đường thẳng nằm ngang, t ức mối quan hệ biến d ự báo X biến ph ụ thuộc Y xem tuyến tính, thoả mản giả định tuyến tính dữ liệu Ngồi giá trị thặng dư (sai số) phân tán tương đối xung quanh đườ ng thẳng y= (ngoài trừ một số giá trị là ngoại lai), chứng t ỏ phương sai sai số số Đồ thị 2: Đồ thị 2 kiểm tra giả định về phân phối chuẩn sai số Nếu điểm thặng dư nằm đường thẳng điều kiện về phân phối chuẩn thỏa mãn lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 50 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Nhận xét: Dựa vào đồ thị ta thấy , đa số giá trị thặng dư tập trung thành đường thẳng, ở khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng, nhiên không đáng kể Vậy ta xem giả định về phân phối chuẩn sai số vẫn đáp ứng Đồ th ị 3: 3: đồ thị 3 v ẽ căn bậc giá trị thặng dư chuẩn hóa giá trị dự báo, dùng để kiểm tra giả định phương sai sai số là số Nếu đường màu đỏ trên đồ thị là đường nằm ngang giá trị thặng dư phân tán xung quanh đường thẳng giả định thỏa mãn Nhận xét: Dựa đồ thị 3 ta thấy đường thẳng màu đỏ nằm ngang cong Tuy nhiên, đọ cong tương đối nhỏ và giá trị thặng dư phân tán xung quanh đường thẳng nên giả định phương sai số đã thỏa mãn 4: cho phép xác định ảnh hưởng cao, chúng di ện dữ Đồ th ị 4: liệu Những điểm có thể là outliers, điểm gây nhiễu, gây ảnh hưởng nhiều việc phân tích Nếu có số điểm vượt qua điểm màu đỏ nét đứt (Cook’s distance), nghĩa điểm có ảnh hưởng cao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 51 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Nhận xét: D ựa vào đồ thị 4 ta thấy quan trắc thứ 3384, 3118, 8363, có thể là điểm ảnh hưởng cao bộ dữ liệu, nhiên điểm chưa vượt qua đường Cook’s distance Do điểm chưa thực sự có ảnh hưởng cao, ta ko cần loại bỏ chúng phân tích Các giả định mơ hình hồi quy thỏa mãn Dự Báo (Predictions) a) Từ mô hình bạn chọn câu 4, dùng l ệnh predict () để d ự báo sản lượng điện ng ròng theo giờ ( (PE) – Net Net hourly electrical energy output: lượ ng x1: AT = mean (AT), V = mean (V), AP = mean (AP), RH = mean ( RH) x2: AT = max ( AT), V = max (AT), V = max (AT), V = max (AT) Input: X1 = data.frame(AT= mean(nha_may_dien $AT), V= mean(nha_may_dien $V), AP = mean(nha_may_dien $AP), RH = mean(nha_may_dien $RH)) # T ạo thuộc tính X1 predict_X1 = predict(m1, X1, interval = "confidence") predict_X1 # Dự báo báo sản lượng điện ròng t ại thuộc tính X1 Output: fit lwr upr 454.365 454.2737 454.4564 Input: X2 = data.frame(AT= max(nha_may_dien $AT), V= max(nha_may_dien $V), AP = max(nha_may_dien $AP), RH = max(nha_may_dien $RH)) # T ạo thuộc tính X2 predict_X2 = predict(m1, X2, interval = "confidence") predict_X2 # Dự báo báo sản lượng điện ròng t ại thuộc tính X2. lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Output: 52 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao fit lwr upr 410.4651 409.7346 411.1957 b) Hãy so sánh khoảng tin cậy giá tr ị d ự báo Input: pred = data.frame(rbind(predict data.frame(rbind(predict_X1,predict_X2 _X1,predict_X2)) #T ạo bảng thể hi hiện d ự ự báo báo sản lượng điện ròng ở 2 2 thuộc tính X1,X2 rownames(pred) = c("X1","X2") # Đổ i tên dòng thành X1, X2 pred$range =pred$upr - pred$lwr pred Output: fit lwr upr range X1 454.3650 454.27 454.2737 37 454.4564 0.18 0.1826951 26951 X2 410.4651 409.73 409.7346 46 411.1957 1.46 1.4610754 10754 Nhận xét: Vớ i khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá tr ị d ự báo X1 < X2 nên ta có th ể k ết luận vớ i tậ p d ữ liệu từ X1, ta có thể thu đượ c giá tr ị d ự báo báo xác xác so vớ i X2 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 53 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao TÀI LIỆU THAM KH ẢO [1] Nguyễn Kiều Dung, Bài giảng Xác suất Thống kê [2]Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân tích số liệu, 2019 [3]Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi, Giáo trình Xác suất Thống kê, 2018 [4] Introductory Statistics Statistics with R, J Jambers – D.Hand – W.Hardle [5] Applied Statistics with R, 2020 [6] Dữ liệu: https://archive.ics.uci.edu/ https://archi ve.ics.uci.edu/ml/datasets/Co ml/datasets/Combined+Cycle+Power+ mbined+Cycle+Power+Plant Plant https://www.kaggle.com/harlfo https://ww w.kaggle.com/harlfoxem/housesalesp xem/housesalesprediction rediction [7 [7]Sách ]Sách THỐNG KÊ ỨNG DỤNG, tác giả Hoàng Trọng Chu Nguyễn Mộng Ngọc [8] Phân tích số liệu t ạo biểu đồ bằng R – Nguyễn Văn Tuấn lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao A lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao