Bài tập lớn xác suất thống kê nhóm 17 chủ đề 05 tập tin heat data được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức độ thu nhiệt và toả nhiệt của các ngôi nhà
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
3,6 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA Bài tập lớn Xác suất - Thống kê Nhóm: 17 GVHD: SV thực hiện: Chủ đề: 05 Hoàng Văn Hà Lê Minh Châu 2010947 Nguyễn Trọng Tín 2012215 Huỳnh Nguyễn Xuân Phú 2014133 Phạm Lại Đức Lộc 2013695 Trần Đình Quang 2014252 Thành phố Hồ Chí Minh, tháng 5/2022 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Mục lục Member list & Workload Yêu cầu liệu cho tập lớn 2.1 Hoạt động 2.1.1 Các biến liệu: 2.1.2 Các bước thực 2.2 Hoạt động 3 3 Cơ sở lí thuyết 3.1 Hồi quy tuyến tính bội 3.1.1 Mơ hình hồi quy bội 3.1.2 Phương trình hồi quy bội mẫu 3.1.3 Khoảng tin cậy hệ số hồi quy 3.1.4 Kiểm định tham số hồi quy tổng thể 3.1.5 Phân tích phương sai hồi quy 3.2 Giới thiệu thống kê mô tả 4 4 5 Sử dụng R giải toán 4.1 Hoạt động 4.1.1 Nhập liệu từ file heat_data.csv 4.1.2 Làm liệu 4.1.3 Làm rõ liệu 4.1.3.a Một số thông số liệu 4.1.4 Biểu đồ trực quan 4.1.5 Xây dựng mơ hình hồi quy tuyến tính 4.1.5.a Ước lượng mơ hình 4.1.5.b Kiểm định lựa chọn mơ hình 4.1.5.c Dự báo cho mơ hình 4.1.5.d Xuất kết phép hồi quy 4.1.6 T.test 4.2 Hoạt động 4.2.1 Giới thiệu 4.2.2 Làm rõ liệu 4.2.2.a Đọc liệu 4.2.2.b Thống kê mô tả 4.2.3 Mơ hình hồi quy tuyến tính 4.2.3.a Ước lượng mơ hình 4.2.3.b Kiểm định mơ hình đồ thị phần dư 4.2.3.c Kết luận mơ hình hồi quy tuyến tính 4.2.3.d Một mơ hình đề xuất khác 7 9 10 14 14 15 16 17 17 18 18 19 19 20 24 24 26 27 28 Tổng kết Bài tập lớn môn Xác suất Thống Kê MT2013 29 Trang 1/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Member list & Workload STT BẢNG ĐÁNH GIÁ CƠNG VIỆC Họ Tên MSSV Cơng việc Đánh giá Nguyễn Trọng Tín (nhóm trưởng) 2012215 100% Lê Minh Châu 2010947 Phạm Lại Đức Lộc Huỳnh Nguyễn Xuân Phú 2013695 Trần Đình Quang 2014252 Hoạt động 2: Giới thiệu, Đọc liệu, Thống kê mô tả, Một mơ hình đề xuất khác, chßnh sửa hoàn thiện Cơ sở lý thuyết, Hoạt động 1: Nhập liệu, Làm làm rõ liệu, Biểu đồ trực quan, Xây dựng mơ hình hồi quy tuyến tính Hoạt động 1: Tồn T-test Hoạt động 2: Xây dựng mơ hình hồi quy tuyến tính Hoạt động 2: Xây dựng mơ hình hồi quy tuyến tính Bài tập lớn môn Xác suất Thống Kê MT2013 2014133 100% 100% 100% 100% Trang 2/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Yêu cầu liệu cho tập lớn 2.1 Hoạt động Tập tin heat_data thu thập với mục tiêu đánh giá nhân tố ảnh hưởng đến mức độ thu nhiệt toả nhiệt nhà 2.1.1 Các biến liệu: • X1 - Độ nhỏ gọn • X2 - Diện tích bề mặt • X3 - Diện tích tường • X4 - Khu vực mái nhà • X5 - Chiều cao tổng thể • X6 - Định hướng • X7 - Khu vực dán kính • X8 - Phân bố khu vực dán kính • y1 - Mức độ thu nhiệt • y2 - Mức độ toả nhiệt 2.1.2 Các bước thực Đọc liệu (Import data): heat_data.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị Mơ hình hồi quy tuyến tính : Sử dụng mơ hình hổi quy tuyến tính phù hợp để đánh giá nhân tố tác động đến mức độ thu nhiệt nhà t.test: Đề xuất kiểm định phù hợp để so sánh trung bình mức thu nhiệt toả nhiệt nhà Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 3/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh 2.2 Hoạt động Sinh viên tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án, chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) Cơ sở lí thuyết 3.1 3.1.1 Hồi quy tuyến tính bội Mơ hình hồi quy bội Giả sử Y phụ thuộc vào k biến độc lập X1 Xk Mơ hình hồi quy tuyến tính bội có dạng: Y = α + β1 X1 + β2 X2 + + β3 X3 + U Trong đó: α điểm cắt đường thẳng hồi quy trục Y βi gọi hệ số hồi quy riêng, thể mức độ biến thiên Y Xi thay đổi đơn vị biến cịn lại khơng đổi U : sai số phép hồi quy, tương tự với hồi quy đơn giản 3.1.2 Phương trình hồi quy bội mẫu Gọi hệ số a, b1 , bk ước lượng cho α, β1 , βk xác định phương pháp bình phương cực tiểu: n → (yi − a − b1 x1i − − bk xki )2 − f= i=1 Từ điều kiện ta có hệ: δf δf δf = 0, =0 = 0, δb1 δbk δa Giải hệ phương trình thu a, b1, bk Phương trình y = a + b1 x1 + + bk + xk gọi phương trình hồi quy bội mẫu Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 4/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Ngồi ra, tìm nghiệm (a, bi , bk ) phương pháp ma trận, nhiên phương pháp thủ công phức tạp Tuy nhiên, với phát triển khoa học đại, ta có nhiều cơng cụ để phát triển mơ hình dựa liệu có Tuy vậy, phải đảm bảo giả thiết sau: • U có phân phối chuẩn N (0, σ2 ) • Các biến Xi độc lập với 3.1.3 Khoảng tin cậy hệ số hồi quy Mơ hình hồi quy tuyến tính bội có dạng: Y = α + β1 X1 + β2 X2 + + βk Xk + U Tương tự hồi quy đơn giản, ước lượng khoảng hệ số sau: Ước lượng khoảng αi với độ tin cậy (1 - α) = 100% là: − tα/2 (n − k − 1)Sa < αi < + tα/2 (n − k − 1)Sa Ước lượng khoảng βi với độ tin cậy (1 - α) = 100% là: bi − tα/2 (n − k − 1)Sbi < βi < bi + tα/2 (n − k − 1)Sbi 3.1.4 Kiểm định tham số hồi quy tổng thể Ta làm tương tự kiểm định hồi quy đơn giản, trường hợp βi = Xi Y khơng có mối quan hệ nào, trường hợp αi > 0(βi < 0) Xi Y có quan hệ thuận (nghịch) Đây phương pháp xây dựng mô hình hồi quy, gọi phương pháp loại biến dần Chúng ta loại biến dựa vào giá trị p kiểm định lớn trước 3.1.5 Phân tích phương sai hồi quy Hệ số xác định Tương tự hồi quy đơn giản, ta có: • Hệ số xác định R2 = SSE SSR =1− SST SST Nhưng đây, hệ số R2 nói lên tính chặt chẽ biển phụ thuộc Y biến độc lập Xi , tức thể phân trăm biến thiên Y giải thích biến thiên tất biến Xi Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 5/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Đối với người nghiên cứu họ mong muốn hệ số R2 lớn tốt Tuy nhiên, R2 hàm không giảm theo số lượng biên đưa vào Điều dẫn đến vấn đề đưa vào mơ hình cảng nhiều biến hệ số R2 lớn Để khắc phục nhược điểm này, người ta đưa hệ số xác định điều chßnh đánh giá mức độ phụ thuộc Y vào biển X xỏc hn ã H s ó iu chònh R = 3.2 SSR n−k−1 SST n−1 = − (1 − R2 ) n−1 n−1−k Giới thiệu thống kê mô tả Thống kê mô tả sử dụng để mơ tả đặc tính liệu thu thập từ nghiên cứu thực nghiệm qua cách thức khác Nó giúp hiểu tính chất liệu cụ thể cách đưa tóm tắt ngắn mẫu thông số liệu Loại thống kê mô tả phổ biến thông số xu hướng tập trung gồm: giá trị trung bình, trung vị, độ lệch chuẩn, Trong đề tài này, ta làm việc với số khái niệm: • Giá trị trung bình (mean) Là đại lượng thường sử dụng để đo giá trị trung tâm liệu Được tính cách cộng tất số liệu tập liệu sau chia cho số lượng liệu tập Giá trị trung bình tính theo cơng thức: x= n xi n i=1 Trong đó: x giá trị trung bình mẫu xi phần tử thứ i mẫu n số lượng phần tử mẫu • Trung vị mẫu (median) Là số tách nửa lớn nửa bé mẫu, quần thể, hay phân bố xác suất Nó giá trị phân bố, mà số số nằm hay số Điều có nghĩa 1/2 quần thể có giá trị nhỏ hay số trung vị, nửa quần thể có giá trị lớn số trung vị Để tìm số trung vị danh sách hữu hạn số, ta xếp tăng dần tất quan sát, lấy giá trị nằm danh sách Nếu số quan sát số chẵn, người ta thường lấy trung bình hai giá trị nằm Cách xác định trung vị mẫu: i= Bài tập lớn môn Xác suất Thống Kê MT2013 n+1 Trang 6/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh - i chắn: median = Xi - i lẻ: median = X[i] +X[i]+1 với [i] phần nguyên i • Cực đại mẫu (max), cực tiểu mẫu (min): giá trị lớn nhỏ danh sách • Độ lệch chuẩn (Standard deviation) Là đại lượng thống kê mô tả dùng để đo mức độ phân tán tập liệu lập thành bảng tần số Độ lệch chuẩn mẫu tính theo cơng thức: n i=1 (Xi − X) S= n−1 Trong đó: S độ lệch chuẩn Xi phần tử thứ i mẫu X trung bình (mean) mẫu n số phần tử mẫu Sử dụng R giải toán Tiếp theo, ta sử dụng phần mềm R để tính tốn số liệu hoạt động 4.1 4.1.1 Hoạt động Nhập liệu từ file heat_data.csv Trình tự thực hiện: • Gọi thư viện cần thiết • Dùng lệnh read.csv R import file heat_data.csv Hình 1: Import data từ heat_data.csv Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 7/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Sau import liệu vào chương trình, ta kiểm tra lệnh view(heat_data) Hình 2: heat_data sau import Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 8/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh 4.1.2 Làm liệu Dữ liệu sau nhập vào có khả bị lỗi gây ảnh hưởng tới kết tốn Vì vậy, ta cần phải làm liệu đầu vào Để kiểm tra xem có liệu bị khuyết, ta sử dụng hàm colSums() hàm is.na() Hình 3: Kiểm tra liệu khiếm khuyết Nhận xét: tất cột kiểm tra lệnh is.na() khơng có liệu khuyết heat_data 4.1.3 4.1.3.a Làm rõ liệu Một số thông số liệu Ở phần này, ta thực khảo sát liệu thông qua giá trị trung bình, trung vị, phương sai, độ lệch chuẩn, giá trị thấp cao liệu Để kiểm tra tồn liệu đó, ta thực sau Hình 4: Các trị số mức độ tỏa nhiệt nhà Bảng thống kê giá trị khảo sát Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 9/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Đồ thị sau vẽ sau: Hình 16: Đồ thị phần dư mơ tả mơ hình ước lượng Đồ thị thứ (Residuals vs Fitted) cho thấy giả thiết tính tuyến tính liệu bị vi phạm Tuy nhiên giả thiết trung bình phần dư coi thỏa mãn Đồ thị Normal Q-Q cho thấy giả thiết phần dư có phân phối chuẩn thỏa mãn Đồ thị (Scale - Location) cho ta thấy giả thiết tính đồng phương sai thỏa mãn Đồ thị thứ tư chß có quan trắc thứ 16 28 điểm có ảnh hưởng cao liệu 4.1.5.c Dự báo cho mơ hình Tiếp theo ta thực số dự báo giá trị trung bình mơ hình Bài tập lớn mơn Xác suất Thống Kê MT2013 Trang 16/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Hình 17: Dự báo giá trị trung bình 4.1.5.d Xuất kết phép hồi quy Từ số liệu trên, ta xuất kết hệ số hồi quy tuyến tính cho mức độ thu nhiệt sau: Y = 83.9318 − 64.7734X1 − 0.0873X2 + 0.0608X3 + 4.17X5 + 19.9327X7 + 0.2038X8 4.1.6 T.test Nhóm tác giả đề xuất kiểm định giả thuyết - trường hợp mẫu độc lập (independent t - test) để so sánh trung bình mức thu nhiệt tỏa nhiệt ngơi nhà Mặc dù, theo Hình 7, đồ thị phân phối mức thu nhiệt tỏa nhiệt không tuân theo phân phối chuẩn Tuy nhiên, với cỡ mẫu lớn (hơn 800 mẫu) nên ta xem mức trung bình tiến tới phân phối chuẩn khơng ảnh hưởng đến kiểm định • Giả thuyết H0: Trung bình mức thu nhiệt tỏa nhiệt ngơi nhà • Đối thuyết H1: Trung bình mức thu nhiệt khác trung bình mức tỏa nhiệt Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 17/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Thực kiểm định: Nhận xét: Từ kết phân tích, ta thu được: - p-value = 5.592e-06 (bé nhiều so mức ý nghĩa a = 0.05) nên ta bác bỏ giả thuyết H0, chấp nhận H1 4.2 4.2.1 Hoạt động Giới thiệu Nhóm đề xuất chủ đề dựa chuyên ngành học liên quan đến máy tính phân tích liệu Hiệu suất CPU Đánh giá hiệu suất dựa việc phân loại thiết bị tác động thuộc tính khác ảnh hưởng đến hiệu suất CPU Bộ liệu thu thập Phillip Ein-Dor and Jacob Feldmesser tài trợ David W Aha năm 1987 Giải thích biến liên quan đế liệu: V1 Vendor name: bao gồm 30 tên hãng sản xuất thiết bị khác (adviser, amdahl,apollo, basf, bti, burroughs, c.r.d, cambex, cdc, dec, dg, formation, four-phase, gould, honeywell, hp, ibm, ipl, magnuson, microdata, nas, ncr, nixdorf, perkin-elmer, prime, siemens, sperry, sratus, wang) V2 Model Name: Gồm nhiều ký tự biểu diễn model khác V3 MYCT: Chu kỳ biểu diễn nanoseconds (integer) V4 MMIN: Bộ nhớ tổi thiểu kilobytes (integer) V5 MMAX: Bộ nhớ tối đa kilobytes (integer) V6 CACH: Bộ nhớ cache kilobytes (integer) V7 CHMIN: Các kênh tối thiểu (integer) V8 CHMAX: Các kênh tối đa (integer) V9 PRP: Hiệu suất tương đối công bố (integer) V10 ERP: Hiệu suất tương đối ước tính từ báo gốc (integer) Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 18/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh 4.2.2 4.2.2.a Làm rõ liệu Đọc liệu Dữ liệu lấy từ file machine_data.data Các bước thực sau đây: • Khai báo thư viện cần thiết bao gồm (dplyr, ggplot2, car ) • Đọc liệu từ file data hàm read_table(), liệu phân cách dấu "," • Kiểm tra làm liệu hàm colsums() is.na() Tuy nhiên, liệu hồn tồn khơng có giá trị NaN hay NA (hình 20) #1 / Libr ar y decl ara ti on library ( dp ly r ) library ( ggplot2 ) library ( car ) #2 / I mpo rt Dat a ma ch ine _ da ta = read t ab le ( " m achi ne data " , sep = " , " ) 10 #3 / Da ta cl ea ni ng col Sums ( is na ( ma chin e _ data ) ) Hình 18: Code nhập liệu từ machine_data.data Hình 19: Hình ảnh liệu thu thập Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 19/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Hình 20: Data hồn tồn sạch, khơng có giá trị NA 4.2.2.b Thống kê mơ tả Ở ta chß dùng liệu từ tham số từ đến 10 để thống kê mô tả liệu định lượng ## Th ong ke mo ta Mean = apply ( m achi ne _ data [3:10] , , mean ) Med ian = apply ( m achi ne _ data [3:10] , , median ) Var = ap ply ( m ac hin e _ da ta [3:10] , , var ) Sd = ap ply ( m ac hin e _ da ta [3:10] , , sd ) Min = ap ply ( m ac hin e _ da ta [3:10] , , ) Max = ap ply ( m ac hin e _ da ta [3:10] , , max ) summary ta ble = data fra me ( Mean , Median , Var , Sd , Min , Max ) Hình 21: Code tạo bảng thống kê thông số định lượng Kết bảng thống kê sau: Hình 22: Bảng thống kê thông số Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 20/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Sau ta phân loại hiệu suất CPU dựa nhà sãn xuất nhằm mục đích xác định xem nhà sản xuất đạt yêu cầu, bật đơn vị lại ## P n lo theo ve ndor nam es Ven dor = unique ( ma chin e _ data $ V1 ) 10 11 MaxPerformance = c () MinPerformance = c () for (x in Ven r ){ s = subset ( mac hine _ data , V1 == x ) MaxPerformance = append ( MaxPerformance , max ( s $ V10 ) ) MinPerformance = append ( MinPerformance , ( s $ V10 ) ) } 12 13 Pe rfo rman ce ta ble = data fram e ( Vend or , M ax Per for ma nce , M in Per for ma nce ) Hình 23: Code phân loại hiệu suất theo nhà sản xuất Hình 24: Bảng thống kê nhà sản xuất theo thứ tự hiệu suất CPU Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 21/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Tuy nhiên để dễ quan sát hiệu suất phân bố theo nhà sản xuất khác nhau, ta biểu diễn dạng đồ thị sau: ggp lo t ( mach ine _ data , aes (x = V1 , y = V 10 ) ) + geom _ po in t ( color = " d arkg reen " , si ze = , al pha = 1) + labs ( titl e = " Cl ass if ic ati on of ve ndo rs ba sed on es ti ma te d rel ativ e CPU pe rf orma nce " , x = " Ven dor " , y = " Pe rf orma nce " )+ the me ( axis text x = e le men t _text ( an gl e = 90) ) Hình 25: Code biểu diễn đồ thị hiệu suất theo nhà sản xuất Hình 26: Đồ thị biểu diễn hiệu suất theo nhà sản xuất Như ta thấy đồ thị trên, Amdahl có CPU hiệu doanh nghiệp khác, biết tập đoàn Amdahl điều hành Gene Amdahl - người kỹ sư quan trọng IBM tác giả Amdahl’s Law tiếng thời Ngồi có nhà sản xuất Sperry hay Nas sản xuất CPU hiệu suất tốt Nhưng nhìn chung hiệu suất CPU tập trung nhiều khoảng từ 0-100 Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 22/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh Sau ta khảo sát tương quan yếu tố linh kiện phần cứng ảnh hưởng đến hiệu suất CPU sc att erp lot Mat rix ( m achi ne _ data [3:10]) Hình 27: Code ma trận đồ thị Scatter thơng số Hình 28: Ma trận đồ thị Scatter thông số Ta nhận xét rằng, đồ thị histogram thông số linh kiện phần cứng toàn lệch phải Đa số giá trị nằm bên trái, có vài điểm ngoại lai phía bên phải Đối với đồ thị có chứa V3 (chu kỳ hoạt động) đa số đồ thị dạng Reverse J shaped, có dạng phân phối mũ Đặc biệt, chu kỳ hoạt động nhỏ hiệu suất lớn Đối với thơng số khác nhớ tối đa, tối thiểu, nhớ cache, kênh luồng tối thiểu, tối đa nhìn chung tß lệ thuận với hiệu suất, nghĩa thơng số linh kiện tăng hiệu suất tăng Bài tập lớn môn Xác suất Thống Kê MT2013 Trang 23/30 Trường Đại học Bách Khoa Tp.Hồ Chí Minh 4.2.3 4.2.3.a Mơ hình hồi quy tuyến tính Ước lượng mơ hình Đầu tiên ta ước lượng mơ hình để xem liệu hiệu suất CPU giải thích biến mod el ma chin e _ data