1. Trang chủ
  2. » Luận Văn - Báo Cáo

lựa chọn tập dữ liệu nha may dien csv tham khảo từ trang web uci gồm 5 biến và thực hiện theo các bước đọc, làm rõ dữ liệu, xây dựng mô hình tuyến tính và dự báo

59 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Lựa Chọn Tập Dữ Liệu Nha May Dien Csv Tham Khảo Từ Trang Web Uci Gồm 5 Biến Và Thực Hiện Theo Các Bước Đọc, Làm Rõ Dữ Liệu, Xây Dựng Mô Hình Tuyến Tính Và Dự Báo
Tác giả Nguyễn Thế Bảo, Hoàng Minh, Đặng Thị Xuân Diệp, Nguyễn Nhật Nhật Hạ, Nguyễn Lê Hảo Hảo Võ, Nguyễn Khánh Linh, Trần Thị Kiều Linh, Nguyễn Thanh Thanh Thảo
Người hướng dẫn Nguyễn Kiều Dung
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh - Đại Học Bách Khoa
Chuyên ngành Xác Suất Thống Kê
Thể loại Báo Cáo
Năm xuất bản 2021
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 59
Dung lượng 1,7 MB

Nội dung

  ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC BÁCH KHOA - - - oOo - - -  BÁO CÁO BÀI T ẬP LỚN SỐ 2 MÔN HỌC XÁC SU Ấ T THỐNG KÊ HỌC K Ỳ 202 Giảng viên hướng dẫn: Nguyễn Kiều Dung Nhóm: 26 Danh sách thành viên: STT Họ tên  Nguyễn Thế Bảo Hoàng Minh   Nguyễn Hoàng Đặng Thị Xuân Diệp   Nguyễn Nhật Nhật Hạ   Nguyễn Lê Hảo Hảo  Võ Nguyễn Khánh Linh  Trần Thị Kiều Linh   Nguyễn Thanh Thanh Thảo  MSSV 1912682 1914165 1912851 1913274 1913271 1913969 1913965 1915187 Lớp/Tổ  Khoa Ký tên tham dự  L13B Cơ khí   L13C Cơ khí  L17A Cơ khí  L17B Cơ khí  L17B Cơ khí  L17B Cơ khí  L17B Cơ khí  L17C Cơ khí  T  p H ồ Chí Minh, ngày tháng năm 2021   ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC BÁCH KHOA - - - oOo - - - BÁO CÁO BÀI T ẬP LỚN SỐ 2 MÔN HỌC XÁC SU Ấ T THỐNG KÊ HỌC K Ỳ 202 Giảng viên hướng dẫn: Nguyễn Kiều Dung Nhóm: 26 Danh sách thành viên: STT Họ tên  Nguyễn Thế Bảo MSSV 1912682    Nguyễn àng Minh Ho Đặng ThịHoàng Xuân Diệp   Nguyễn Nhật Nhật Hạ   Nguyễn Lê Hảo Hảo  Võ Nguyễn Khánh Linh  Trần Thị Kiều Linh   Nguyễn Thanh Thanh Thảo  1914165 1912851 1913274 1913271 1913969 1913965 1915187 Lớp/Tổ  Khoa Ký tên tham dự  L13B Cơ khí   L13C L17A L17B L17B L17B L17B L17C   Cơ Cơ khí khí  Cơ khí  Cơ khí  Cơ khí  Cơ khí  Cơ khí  T  p H ồ Chí Minh, ngày tháng năm 2021  i   TÓM T ẮT Bài báo cáo t ập trung chủ yếu vào dữ liệu thu thập t ừ các trang web thông tin Kaggle, Uci trang thơng tin uy tín Mỹ, sau kiểm tra dữ liệu xây dựng mơ hình hồi quy tuyến tính biến quan tâm Về  phần chung, nhóm lựa chọn t ập dữ  liệu gia_nha.csv tham khảo t ừ trang web Kaggle quan tâm đến biến Thực theo bước: đọc, làm rõ liệu, xây dựng mơ hình tuyến tính dự báo.  Về phần riêng, nhóm lựa chọn tập liệu nha_may_dien.c sv tham khảo từ trang web Uci gồm biến Và thực theo bước: đọc, làm rõ liệu, xây dựng mơ hình tuyến tính dự báo.  Từ đó, nhận xét mối tương quan biến phụ thuộc biến bi ến độc lập.  Bài báo cáo xây dựng dựa sở kiến thức chúng em tiếp thu t ừ các giảng mà Cô tận tâm truyền đạt Chúng em vận dụng phương pháp phân tích dữ liệu thống kê cho đề tài nghiên cứu Từ đó, phân tích dữ liệu thực t ế dựa nội dung học hoàn thành báo cáo trọn vẹn.  Dựa kiến thức học tìm hiểu thêm, nhóm chúng em cố   gắng để hoàn thành báo cáo tiến độ và t ốt Nhưng kiến thức có hạn nên cịn nhiều thiếu sót cách trình bày nộ i dung báo cáo cần truyền t ải Chúng em mong nhận sự thông cảm t ừ cô, mong góp ý để chúng em có thể rút kinh nghiệm cho thân ii   MỤC LỤC PHẦN I: Cơ sở lý thuyết  1  PHẦN II: Bài t ập xử lý số liệu   12  PHẦ N CHUNG 12   1.  Đọc dữ liệu (Import data): 12  2.  Làm dữ liệu (Data cleaning):  13  Làm rõ dữ liệu 17  Xây dựng mơ hình h ồi quy tuyến tính (Fitting linear regression models): 17  Dự báo (Predictions) 26  37  PHẦN RIÊNG 1.  Đọc dữ liệu (Import data): 38  2. Làm dữ liệu (Data cleaning): 39  Làm rõ dữ liệu 40  Xây dựng mơ hình h ồi quy tuyến tính (Fitting linear regression models) 44  Dự Báo (Predictions) 44  TÀI LIỆU THAM KHẢO A  iii lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   PH ẦN I: Cơ sở lý thuyế t 1.  Mơ hình hồi quy tuyế n tính biến phân tích tương quan: 1.1. Mơ hình hồi quy tuyến tính đơn:  Phương trình hồi quy tuyến tính đơn biến t ổng thể:       Trong đó:  Xi và Yi là giá trị của biến độc lập biến phụ thuộc t ại cặp quan sát thứ i    +    +  b0: hệ số tung độ gốc (hệ số chặn) b1: hệ số độ dốc (hệ số góc) ei: yếu t ố ngẫu nhiên (chênh lệch giá trị Yi thực t ế và giá trị E(Y|Xi) với E(Y|Xi) = b0 + b1Xi 1.1.1.  Ý nghĩa hệ số  h  hồi quy: b1 là hệ s ố  độ d ốc c đường h ồi quy t ổng thể, đo lường lượng thay đổi trung bình biến phụ thuộc Y, cho đơn vị thay đổi X b0 là hệ số tung độ gốc (hệ số chặn hệ số t ự do) cho biết giá trị trung bình Y X Phương trình hồi quy tuyến tính mẫu đực sử dụng để  ước lượng mơ hình hồi quy t ổng thể E(Y|Xi) = b0 + b1Xi có cơng thức: Trong đó:  ̂   +      : giá trị ước lượng cho giá trị của biến Y ở quan sát thứ i ̂ Xi: giá trị của X ở quan sát thứ i Cơng thức tính giá trị của hệ số hồi quy mẫu: Hoặc     ∑ ̅̅̅ ∑∑ ∑−   −∑∑  ̅   ̅      lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   1.1.2.  Đo lườ ng ng bi ế ế n   thiên hệ số  xác  xác đị nh: nh: Để khảo sát khả năng sử dụng biến độc lập để dự đoán về biến phụ thuộc cần phải đo lường số sự biến thiên mơ hình Tổng biến thiên biến phụ thuộc (SST) tính cách lấy t ổng chênh lệch bình phương giá trị Yi xung quanh giá trị trung bình chúng Tổng biến thiên chia làm phần: biến thiên hồi quy (SSR) biến thiên phần dư (SSE).  ̅ ̂ + SSR thể hiện sự khác biệt giá trị do đường hồi quy tính tốn  và  và ̂̅ SSE đại diện cho thành phần biến thiên Y mà khơng giải thích hồi quy, hình thành dựa chênh lệch Yj và + SST chênh lệch giá trị quan sát Yi và SSTSSR+SSE  = ̅ SST SST ̂=  ̅ SSR   ̂ SSE     =          Tỉ lệ giữa SSR SST hệ số biến thiên (R2) dùng để đánh giá mơ hình hồi quy     SSRSST 1.1.3.   Sai số  chu  chuẩ n c ủa ước lượ ng: ng: Độ lệch chuẩn xung quanh đường hồi quy gọi sai số chuẩn hồi quy (kí hiệu sY/X) tính cách lấy t ổng chênh lệch bình phương chia cho bậc t ự do lấy bậc hai kết quả tìm   ̂  (   )   ∕∕   2    =    Bình phương sY/X ta s2Y/X là ước lượng t ốt cho s2 căn cứ trên (n-2) bậc t ự do lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   Chỉ số Y/X dùng để chỉ rõ s2Y/X là ước lượng cho phương sai Y có sự hồi quy Y theo X 1.1.4.   Suy di ễ ễ n   thố ng ng kê v ề hệ số  độ d ố ố c  Địng lí Gauss –  Markov: Trong ước lượng tuyến tính khơng chệch cho hệ  số h ồi quy t ổng thể, ước lượng tìm phương pháp bình phương bé có phương sai cực tiểu.  Giả  sử Y tuân theo phân phối chuẩn tham số  b0  b1  tuân theo phân phối chuẩn:  + Trung bình: E(b1) = b1  + Phương sai:   ∑//−−̅   ± Khoảng tin cậy 100x(1-a)% cho hệ số độ dốc b1 có dạng (b1   t (n-2; (n-2; /2) х sb1) Kiểm định ý nghĩa hệ số độ dốc có thể tiến hành với giả thiết về giá trị của b1 (giả dụ H0: b1=b*) + Chuẩn hóa b1 theo cơng thức: Z = (b-b1)/sb1     ∗ + Do ta dùng ước lượ ng mẫu   thay cho phương sai thực t ổng thể mà ta chưa biết nên b1 khơng có phân phối chuẩn mà sẽ có phân phối student với (n-2) bậc t ự do Trong đó:   b1 là hệ số hồi quy mẫu b* là giá trị của hệ số hồi quy t ổng thể được giả định sb1 là ước lượng sai số chuẩn hệ số độ dốc + Tiến hành so sánh giá trị t với giá trị t tra bảng theo quy t ắc |t| < t (n-2; (n-2; /2) chưa thể bác bỏ giả thiết H0 + Với mơ hình hồi quy đơn biến việc kiểm định thông tin về hệ số độ dốc tiến hành với giả thiết b1=0 H0: b1=0 H1: b10 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   1.1.5.  Phân tích phần dư:  Kiểm định tính đắn c mơ hình hồi quy tuyến tính cách vẽ đồ thị  mà phần dư đặt trục đứng biến độc lập X đặt ở trục ngang + Đồ  thị  ei theo X không thể  hình dạng rõ ràng c chấm phân tán mơ hình đắn + Đồ thị ei theo X có dạng liên kết mơ hình khơng đắn Kiểm tra sự vi phạm giả định phương sai bằng: + Đồ thị phần dư theo biến độc lập Nếu khơng có sự khác biệt lớn sự  biến thiên phần dư giá trị khác biến X mơ hình tuyến tính xây dựng không vi phạm giả định phương sai + Kiểm định Park Kiểm tra giả  định phân phối chuẩn phần dư: có thể  đánh giá cách phân tích phần dư Sử dụng đồ thị xác suất chuẩn (Normal probability plot) để xem phần dư có phân phối chuẩn hay xấp xỉ chuẩn hay khơng Kiểm định tính độc lập phần dư cách: + Vẽ đồ thị phần dư theo trật t ự của giá trị mà ta thu th ập theo thời gian + Kiểm định Durbin-Watson (không đáng tin cỡ mẫu t (n-2; (n-2; /2) thì bác bỏ giả thiết H0  ngược lại,  là m ức ý nghĩa chọ n cho phép kiểm định Một số vấn đề đáng lưu ý về r: lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   + r = cho biết khơng có mối liên hệ tuyến tính biến chứ chưa có ý nghĩa biến khơng có mối liên hệ vì chúng có thể liên hệ phi tuyến hệ số tương quan tuyến tính chỉ nên sử dụng để biểu thị mức độ chặt chẽ của liên hệ tương quan tuyến tính + Cần phải cẩn thận xem xét đồng thời hệ số tương quan cả đồ thị phân tán X Y hệ số tương quan có thể có giá tr ị trong hình dạng mối liên hệ lại khác + Một lỗi thơng thường giải thích hệ  số  tương quan tuyến tính cứ cho có liên hệ  tương quan có nghĩa lúc có mỗ i liên hệ nhân Kỹ  thuật tương quan tuyến tính kỹ thuật đối xứng, mối liên hệ giữa X Y tương tự như liên hệ giữa Y X chứ nó liên hệ nhân quả thoe chiều kỹ thuật hồi quy + Hệ số tương quan tuyến tính khơng có đơn vị  đo lường + Trong mơ hình hồi quy tuyến tính đơn biến hệ số xác định R2 thì sẽ được hệ số tương quan rXY:  +√   √ √  ̂   +     b1>0   b1|t|) tất biến < mức ý nghĩa 0,05 nên ta bác bỏ H0, chấp nhận H1 nên hệ số góc tương ứng với tất biến ( AT, V, AP, AP, RH) có ý nghĩa thống kê Dó D ó ta khơng loại bỏ biến khỏi mơ hình c) Xét mơ hình tuyến tính bao gồm biến PE biến phụ thuộc nhưng:  + Mơ hình M1 chứa t ất cả các biến cịn lại biến độc lập + Mơ hình M2 loại bỏ biến V khỏi mơ hình M1 Hãy dùng lệnhh anova() để đề xuất mơ hình hồi quy hợp lý hơn  Mơ hình hồi quy M2 bao gồm: Biến phụ thuộc : sản lượng điện ròng PE Biến dự  báo (độc lập) : AT,AP,RH nhiệt độ  môi trường, áp suất môi trường độ ẩm t ỉ đối môi trường Mô hình biểu diễn sau :         +  x AT +   x AP +  Ta ước lượng hệ số   , ,… sử dụng lệnh lm()  Input:  M2 = lm(PE~AT+AP+RH, data = nha_may_dien) summary(M2) # Xây d ự  ự ng ng mơ hình tuy ếế  n tính bội theo mơ hình m2 # Thố ng ng kê k ế  ế t quả tính tốn xây d ự  ựng n   g mơ hình m2  lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 46  x RH lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   Output: Từ kết quả phân tích, ta thu  = -0.203832   = 490.323746 ,   = -2.377708 ,   = 0.025372, Như đường thẳng hồi quy ước lượng cho phương trình sau:   PE = 490.323746 - 2.377708 x AT + 0.025372 x AP - 0.203832 x RH Hệ số    hiệu chỉnh 0.921 nghĩa 92.1% sự biến thiên sản lượng điện rịng PE giải thích biến AT, AP, RH Input: anova(M1,M2) # Phân tích phương sai cho hai mơ hình tu y ế  ế n tính M1 M2 Output: Ta đặt giả thiết: H0: Hai mơ hình hiệu quả như nhau  H1: Hai mơ hình hiệu quả khác lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 47 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   Nhận xét: Vì kết quả thu bảng Anova cho mơ hình M1 M2 Pr(>F) = 2,2.e-16  nhỏ  0.05 nên ta bác bỏ  H0, chấp nhận H1 Điều chỉ  mơ hình khác Do ta sẽ cân nhắc việc chọn mơ hình M1 hay mơ hình M2.  Hệ số multiple   (hệ số xác định) ở mơ hình M1 = 0.9287 > h ệ số muiltle R2 (hệ số  xác định) ở mơ hình M2 = 0,921 Hơn nữ a, mơ hình M1 có nhi ều mơ hình M2 biến có ý nghĩa thống kê (V) nên chọn mơ hình M1 sẽ hợp lý mơ hình M2.  d) Chọn mơ hình hợp lý từ câu (c) suy luận s ự  tác động c biến lên sản lượng điện ròng theo thời gian: Nhận xét : D ựa kết quả trên, ta nhận thấy biến mơ hình M1 có giá trị Pr (> t) nhỏ (***), nghĩa khả năng bác bỏ H0 càng cao, t ức hệ số ứng với biến có ý nghĩa thống kê cao, nghĩa sự thay đổi biến có ảnh hưởng nhiều đến sự thay đổi sản lượng điện ròng Xét t ừng biến cụ thệ ta thấy hệ số hồi quy ứng với AT = - 1.977513 ứng với nhiệt độ  tăng 1 ta có thể kì vọng s ản lượng điện rịng giảm 1.977513 đơn vị tính theo đơn vị sản lượng ròng ( giả sử các biến dự báo lại khơng đổi ) Tương tự  ta có thể xét với biến lại ( V, AP , RH ) e) T ừ mơ hình hồi quy hợp lí t ừ câu (c) dùng lệnh plot để v ẽ  đồ th ị bi ểu thị sai số hồi quy giá trị dự báo Nêu ý nghĩa nhận xét Input:  plot (M1 , which=1) # V ẽ  ẽ đồ th ị biể u th ị sai số   h hồi quy (Residuals) giá tr  ị d ự  ự  báo báo (Fitted values) lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 48 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   Output: Nhận xét : Đồ  thị trên vẽ các giá trị  dự báo giá trị  thặng dư (sai số) tương ứng Dựa vào đồ  thị ta thấy, đường thẳng màu đồ   thị  gần đường thẳng n ằm ngang, t ức mối quan hệ gi ữa biến dự báo X biến ph ụ thu ộc Y xem tuyến tính, thoả mản giả định tuyến tính dữ liệu Ngoài giá trị  thặng dư (sai số) phân tán tương đối xung quanh đườ ng thẳng y= (ngoài trừ một số giá trị là ngoại lai), chứng t ỏ phương sai sai số  số *Các giả định c ần kiểm tra mơ hình hồi quy: Tính tuyến tính dữ liệu: mối quan hệ giữa biến dự báo X biến phụ thuộc Y giả sử là tuyến tính Sai số có phân phối chuẩn Phương sai sai số là số  Các sai số độc lập với Ta thực vẽ thêm biểu đồ để kiểm tra giả định hồi quy này: Input: plot(M1,which=1) plot(M1,which=2) plot(M1,which=3) lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 49 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   plot(M1,which=5) Output: Đồ thị 1: Kiểm định mối quan hệ tuyến tính dữ liệu Nhận xét : Đồ thị 1 vẽ các giá trị dự báo giá tr ị thặng dư (sai số) tương ứng Dựa vào đồ  thị ta thấy, đường thẳng màu đồ  thị  gần đường thẳng nằm ngang, t ức mối quan hệ  biến d ự báo X biến ph ụ  thuộc Y xem tuyến tính, thoả mản giả định tuyến tính dữ liệu Ngồi giá trị  thặng dư (sai số) phân tán tương đối xung quanh đườ ng thẳng y= (ngoài trừ một số giá trị là ngoại lai), chứng t ỏ phương sai sai số  số Đồ thị 2: Đồ thị 2 kiểm tra giả định về phân phối chuẩn sai số Nếu điểm thặng dư nằm đường thẳng điều kiện về phân phối chuẩn thỏa mãn lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 50 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   Nhận xét: Dựa vào đồ thị ta thấy , đa số giá trị thặng dư tập trung thành đường thẳng, ở khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng, nhiên không đáng kể Vậy ta xem giả định về phân phối chuẩn sai số vẫn đáp ứng Đồ th ị  3:  3: đồ thị 3 v ẽ căn bậc giá trị thặng dư chuẩn hóa giá trị dự báo, dùng để kiểm tra giả định phương sai sai số là số Nếu đường màu đỏ trên đồ thị là đường nằm ngang giá trị thặng dư phân tán xung quanh đường thẳng giả định thỏa mãn Nhận xét: Dựa đồ  thị 3 ta thấy đường thẳng màu đỏ  nằm ngang cong Tuy nhiên, đọ cong tương đối nhỏ và giá trị thặng dư phân tán xung quanh đường thẳng nên giả định phương sai số đã thỏa mãn  4:   cho phép xác định ảnh hưởng cao, chúng di ện dữ  Đồ th ị  4: liệu Những điểm có thể là outliers, điểm gây nhiễu, gây ảnh hưởng nhiều việc phân tích Nếu có số điểm vượt qua điểm màu đỏ nét đứt (Cook’s distance), nghĩa điểm có ảnh hưởng cao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 51 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   Nhận xét: D ựa vào đồ thị 4 ta thấy quan trắc thứ 3384, 3118, 8363, có thể là điểm ảnh hưởng cao bộ dữ liệu, nhiên điểm chưa vượt qua đường Cook’s distance Do điểm chưa thực sự có ảnh hưởng cao, ta ko cần loại bỏ chúng phân tích    Các giả định mơ hình hồi quy thỏa mãn Dự Báo (Predictions) a) Từ mô hình bạn chọn câu 4, dùng l ệnh predict () để d ự báo sản lượng điện ng ròng theo giờ  (  (PE) –  Net  Net hourly electrical energy output: lượ ng x1: AT = mean (AT), V = mean (V), AP = mean (AP), RH = mean ( RH) x2: AT = max ( AT), V = max (AT), V = max (AT), V = max (AT) Input:  X1 = data.frame(AT= mean(nha_may_dien $AT), V= mean(nha_may_dien $V), AP = mean(nha_may_dien $AP), RH = mean(nha_may_dien $RH))  # T ạo thuộc tính X1 predict_X1 = predict(m1, X1, interval = "confidence") predict_X1  # Dự  báo  báo sản lượng điện ròng t ại thuộc tính X1 Output: fit lwr upr 454.365 454.2737 454.4564  Input: X2 = data.frame(AT= max(nha_may_dien $AT), V= max(nha_may_dien $V), AP = max(nha_may_dien $AP), RH = max(nha_may_dien $RH))  # T ạo thuộc tính X2 predict_X2 = predict(m1, X2, interval = "confidence") predict_X2  # Dự  báo  báo sản lượng điện ròng t ại thuộc tính X2.  lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao Output:  52 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   fit lwr upr 410.4651 409.7346 411.1957   b) Hãy so sánh khoảng tin cậy giá tr ị d ự báo Input:  pred = data.frame(rbind(predict data.frame(rbind(predict_X1,predict_X2 _X1,predict_X2))  #T ạo bảng thể  hi  hiện d ự  ự báo   báo sản lượng điện ròng ở  2  2 thuộc tính X1,X2 rownames(pred) = c("X1","X2")  # Đổ i tên dòng thành X1, X2 pred$range =pred$upr - pred$lwr pred  Output:  fit lwr upr range X1 454.3650 454.27 454.2737 37 454.4564 0.18 0.1826951 26951 X2 410.4651 409.73 409.7346 46 411.1957 1.46 1.4610754 10754  Nhận xét: Vớ i khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá tr ị d ự báo X1 < X2 nên ta có th ể k ết luận vớ i tậ p d ữ liệu từ X1, ta có thể thu đượ c giá tr ị  d ự báo  báo xác xác so vớ i X2 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao 53 lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao   TÀI LIỆU THAM KH ẢO [1] Nguyễn Kiều Dung, Bài giảng Xác suất Thống kê [2]Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất –  Thống kê & Phân tích số liệu, 2019 [3]Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi, Giáo trình Xác suất Thống kê, 2018 [4] Introductory Statistics Statistics with R, J Jambers – D.Hand – W.Hardle [5] Applied Statistics with R, 2020 [6] Dữ liệu: https://archive.ics.uci.edu/ https://archi ve.ics.uci.edu/ml/datasets/Co ml/datasets/Combined+Cycle+Power+ mbined+Cycle+Power+Plant  Plant   https://www.kaggle.com/harlfo https://ww w.kaggle.com/harlfoxem/housesalesp xem/housesalesprediction rediction [7 [7]Sách ]Sách THỐNG KÊ ỨNG DỤNG, tác giả Hoàng Trọng Chu Nguyễn Mộng Ngọc [8] Phân tích số liệu t ạo biểu đồ bằng R – Nguyễn Văn Tuấn lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao A lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao lua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.baolua.chon.tap.du.lieu.nha.may.dien.csv.tham.khao.tu.trang.web.uci.gom.5.bien.va.thuc.hien.theo.cac.buoc.doc lam.ro.du.lieu xay.dung.mo.hinh.tuyen.tinh.va.du.bao

Ngày đăng: 24/12/2023, 11:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w