Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.
BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 LỜI CÁM ƠN Trong suốt q trình học tập hồn thành báo cáo, nhóm chúng em nhận nhiều giúp đỡ từ nhiều phía thầy cơ, bạn bè, đặc biệt tận tình bảo từ cô Nguyễn Kiều Dung - giảng viên trực tiếp hướng dẫn giảng dạy môn Xác Suất Thống Kê Nhờ có bảo giúp đỡ từ mà nhóm em hồn thành tập tiến độ giải vấn đề đặt Mặc dù cịn nhiều thiếu sót q trình hoàn thiện báo cáo này, chúng em tin phần rút học quý giá nhờ vào tâm huyết thầy, điều giúp chúng em có thêm niềm đam mê hứng thú với môn học, làm tiền đề để chúng em học tập tốt tương lai Nhóm em xin gửi đến thầy lời cảm ơn chân thành sâu sắc đồng hành chúng em suốt học kỳ 221 Chúc có thật nhiều niềm vui sức khỏe để chúng em bước tiếp chặng đường nuôi dưỡng hệ mai sau ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 MỤC LỤC I CƠ SỞ LÝ THUYẾT 1.1 Một số nguyên tắc chung kiểm định thống kê 1.2 Hồi quy tuyến tính đa biến (Hồi quy tuyến tính bội): II HOẠT ĐỘNG 2.1 Đề 2.2 Thực hành R 2.1.1 Đọc liệu (Import Data): gia_nha.csv 2.2.2 Làm liệu (Data cleaning) _ 2.2.3 Làm rõ liệu (data visualization) 11 2.2.4 Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King 19 2.2.5 Thực dự báo cho giá nhà quận King _ 26 III HOẠT ĐỘNG _ 28 3.1 ĐỀ BÀI 28 3.2 THỰC HÀNH R 29 3.2.1 Đọc liệu (Import Data): ENB2012_data.xlxs _ 29 3.2.2 Làm liệu (Data Cleaning) 29 3.2.3 Làm rõ liệu (Data Visualization) _ 30 3.2.4 Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến mức độ tỏa nhiệt nhà 43 3.2.5 Thực dự báo mức độ thu nhiệt nhà 51 IV TÀI LIỆU THAM KHẢO _ 53 ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 I CƠ SỞ LÝ THUYẾT Giả thuyết thống kê (Statistical Hypothesi.9s) giả sử hay phát biểu đúng, sai liên quan đến tham số hay nhiều tập hợp Mỗi tính sai viết dạng giả thuyết, thường ký hiệu 𝐻0, gọi không thuyết (null hypothesis), giả thuyết đối ngược lại nó, thường ký hiệu 𝐻1 𝐻𝑎𝑙𝑡, gọi đối thuyết (alternative hypothesis) 1.1 Một số nguyên tắc chung kiểm định thống kê Quy trình kiểm định giả thuyết thống kê trình chuẩn mực để đưa định bác bỏ giả thuyết hay không, dựa liệu mẫu Quá trình gọi kiểm định giả thuyết (hypothesis testing), bao gồm bước: • Đặt giả thuyết Công việc bước đâu giả thuyết không, đâu giả thuyết nghịch Các giả thuyết đặt theo cách loại trừ lẫn Đó là, phải sai • Xây dựng kế hoạch phân tích Kế hoạch phân tích mơ tả cách sử dụng liệu mẫu để đánh giá giả thuyết không Đánh giá thường tập trung xung quanh thống kê mẫu đơn (single test statistic) • Phân tích liệu mẫu Tìm giá trị thống kê mẫu (trung bình, tỉ lệ, t-statistic, z-score…) mơ tả kế hoạch phân tích • Đọc hiểu kết Áp dụng quy tắc định mơ tả kế hoạch phân tích Nếu kết thu không khớp với giả thuyết khơng bác bỏ giả thuyết • Tương tự ước lượng, việc kiểm định giả thuyết thống kê không cho kết “chính xác 100%”, mà cho kết với độ tin cậy định đó, xảy sai lầm Các sai lầm phân làm hai loại: Sai lầm loại 1: phủ nhận giả thuyết 𝐻0, chấp nhận đối thuyết 𝐻1, 𝐻0 ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 Sai lầm loại 2: giữ giả thuyết 𝐻0, không chấp nhận đối thuyết 𝐻1, 𝐻1 • Cả hai sai lầm gây hậu khơng tốt Tùy trường hợp mà đánh giá xem sai lầm loại dẫn đến hậu nghiêm trọng hơn, cần tránh • Để đưa đinh bác bỏ giả thuyết không, nhà thống kê cần dựa vào quy tắc định Những quy tắc liệt kê kế hoạch phân Theo thông lệ, nhà thống kê mô tả quy tắc định theo cách tham chiếu tới giá trị P-value tham chiếu tới vùng chấp nhận (region of acceptance) P-value Sức mạnh chứng việc hỗ trợ giả thuyết không đo P-value Giả sử thống kê kiểm định S P-value xác suất việc quan sát thống kê kiểm định as extreme as A, giả sử, giả thuyết null Nếu giá trị P-value nhỏ mức ý nghĩa, bác bỏ giả thuyết không Vùng chấp nhận (region of acceptance) Vùng chấp nhận dãy giá trị Nếu thống kê mẫu nằm khu vực chấp nhận, giả thuyết không không bị bác bỏ Vùng chấp nhận xác định cốt để xác suất mắc lỗi loại tương đương với mức ý nghĩa Tập giá trị nằm khu vực chấp nhận gọi khu vực bác bỏ Nếu thống kê mẫu nằm khu vực bác bỏ, giả thuyết không bị bác bỏ Trong trường hợp này, nói rằng, giả thuyết bị bác bỏ mức ý nghĩa α 1.2 Hồi quy tuyến tính đa biến (Hồi quy tuyến tính bội): Hồi quy tuyến tính đa biến mơ hình hồi quy tuyến tính sử dụng nhiều biến giải thích để dự đốn giá trị biến phụ thuộc • Phương trình hồi quy tổng thể với k biến độc lập có dạng: 𝑌𝑖 = 𝛽0+ 𝛽1X1 + 𝛽2X2 + 𝛽3X3 + + ε ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 Trong đó: 𝛽0: hệ số tung độ góc 𝛽1: hệ số độ dốc Y theo biến X1 giữ biến khác không đổi 𝛽2: hệ số độ dốc Y theo biến X2 giữ biến khác không đổi ε: thành phần ngẫu nhiên (yếu tố nhiễu) • Tính tốn hệ số xác định bội 𝑅 : có nhiều biến độc lập mơ hình đa bội 𝑅 sử dụng để xác định biến thiên biến phụ thuộc để giải thích mối quan hệ biến phụ thuộc biến độc lập mơ hình 𝑅2 = 𝑆𝑆𝑅 𝑆𝑆𝑇 Trong đó: SST: total sum of square (Tổng biến thiên biến phụ thuộc) SSR: sum of square due to the regression model (biến thiên hồi quy) SSE: sum of square due to error (biến thiên phần dư) Cơng thức tính: 𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸 = ∑𝑖=1 𝑛 (Yi − Y̅)2 𝑛 𝑆𝑆𝑅 = ∑(Ŷi − Y̅)2 𝑖=1 𝑛 𝑆𝑆𝐸 = ∑(Yi − Ŷ)2 𝑖=1 • Hệ số xác định hiệu chỉnh R2 adj: Ý nghĩa R2 adj giống R2 phản ánh mức độ phù hợp mơ hình R2 adj tính từ R2 thường sử dụng giá trị phản ánh sát mức độ phù hợp mơ hình hồi quy tuyến tính đa ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHĨM 13 biến R2 adj khơng thiết tăng lên đưa thêm biến độc lập vào mơ hình • Sai số chuẩn (SE) thuật ngữ thống kê đo lường độ xác mà phân phối mẫu đại diện cho tổng thể cách sử dụng độ lệch chuẩn Trong thống kê, giá trị trung bình mẫu khác với giá trị trung bình thực tế tổng thể, chênh lệch gọi sai số chuẩn giá trị trung bình Cơng thức tính: 𝑆𝑦 = √ 𝑆𝑆𝐸 𝑥 𝑛−2 • Đánh giá ý nghĩa tồn diện mơ hình: việc ước lượng mơ hình hồi quy tuyến tính đa biến xây dựng dựa mẫu lấy từ tổng thể, cần kiểm định ý nghĩa thống kê mơ hình cách thực đặt giả thuyết: H0: biến độc lập đưa vào khơng giải thích chút biến thiên biến phụ thuộc, tức 𝛽1= 𝛽2 = H1: có hệ số 𝛽𝑖 khác • Đại lượng thống kê F sử dụng để kiểm định giả thuyết ý nghĩa tồn diện mơ hình hồi quy hay giá trị p-value phần mềm thống kê đưa đánh giá cho biến độc lập mơ hình với độ tin cậy chọn trước Cơng thức tính: 𝑆𝑆𝑅 𝐹 = 𝑘 𝑆𝑆𝐸 𝑛−𝑘−1 • Dựa vào hệ số hồi quy, đưa diễn giải ảnh hưởng biến độc lập đến biến phụ thuộc (hệ số hồi quy riêng phần) • Kiểm tra phù hợp mơ hình hồi quy tuyến tính việc phân tích phần dư ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 II HOẠT ĐỘNG 2.1 Đề Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chất lượng ngơi nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến liệu: • price: Giá nhà bán • floors: Số tầng ngơi nhà phân loại từ 1-3.5 • condition: Điều kiện kiến trúc nhà từ − 5, 1: tệ 5: tốt • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4 • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà • sqft_basement: Diện tích tầng hầm Các bước thực hiện: Đọc liệu (Import data): Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) a Chuyển đổi biến (nếu cần thiết) b Thống kê mô tả: dùng thống kê mẫu dùng đồ thị Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King Thực dự báo cho giá nhà quận King 2.2 Thực hành R 2.1.1 Đọc liệu (Import Data): gia_nha.csv • Sử dụng lệnh ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13 𝑑𝑎𝑡𝑎 < −𝑟𝑒𝑎𝑑 𝑐𝑠𝑣(“𝐶:/𝑈𝑠𝑒𝑟𝑠/𝑃𝐶/𝐷𝑜𝑤𝑛𝑙𝑜𝑎𝑑𝑠/𝑔𝑖𝑎_𝑛ℎ𝑎 𝑐𝑠𝑣”, ℎ𝑒𝑎𝑑𝑒𝑟 = 𝑇𝑅𝑈𝐸) • Sau đọc xong, liệu lưu vào biến kiểu data frame tên data, ta xem qua biến cách click đúp vào tên biến góc phải hình Lúc hình hiển thị đây: 2.2.2 Làm liệu (Data cleaning) • Tạo liệu bao gồm biến mà ta quan tâm, lưu với tên new_DF • Sử dụng lệnh: 𝑛𝑒𝑤_𝐷𝐹 < −𝑑𝑎𝑡𝑎[, 𝑐(“𝑝𝑟𝑖𝑐𝑒”, “𝑓𝑙𝑜𝑜𝑟𝑠”, “𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛”, “𝑣𝑖𝑒𝑤”, “𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒”, “𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔”, “𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡”)] ➢ Kết quả: tạo liệu bao gồm biến chính: ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHĨM 13 • Kiểm tra liệu new_DF 𝑎𝑝𝑝𝑙𝑦(𝑖𝑠 𝑛𝑎(𝑛𝑒𝑤_𝐷𝐹),2, 𝑠𝑢𝑚) # 𝑡𝑖𝑚 𝑠𝑜 𝑔𝑖𝑎 𝑡𝑟𝑖 𝑘ℎ𝑢𝑦𝑒𝑡 𝑡ℎ𝑖𝑒𝑢 ➢ Kết quả: • Ta thấy có 20 quan sát chứa dữa liệu khuyết thiếu (NA) tổng số 21613 quan sát Vì số quan sát chứa số giá trị khuyết thiếu nhỏ so với tổng số quan sát (0.076%) nên ta chọn phương án loại bỏ quan sát chứa giá trị khuyết thiếu • Ta dùng lệnh sau để loại bỏ quan sát chứa giá trị NA: 𝑛𝑒𝑤_𝐷𝐹 < −𝑛𝑎 𝑜𝑚𝑖𝑡(𝑛𝑒𝑤_𝐷𝐹) ➢ Kết quả: new_DF từ có 21613 quan sát giảm xuống cịn 21593 quan sát, 20 quan sát giảm 20 quan sát chứa giá trị NA bị loại bỏ, ngồi ta dùng lệnh 𝑎𝑝𝑝𝑙𝑦() để kiểm tra lại giá trị NA khơng • Trước: ĐẠI HỌC BÁCH KHOA – ĐHQG TPHCM 10