Báo Cáo Bài Tập Lớn Xác Suất Thống Kê Xử Lý Số Liệu Gồm Tính Toán Các Giá Trị Thống Kê Mô Tả Giá Nhà Bánrathị Trường Phân Tích Dữ Liệu Phân Tích Mẫu Dữ Liệu Wine Quality.docx

38 6 0
Báo Cáo Bài Tập Lớn Xác Suất Thống Kê  Xử Lý Số Liệu Gồm Tính Toán Các Giá Trị Thống Kê Mô Tả Giá Nhà Bánrathị Trường Phân Tích Dữ Liệu Phân Tích Mẫu Dữ Liệu Wine Quality.docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH BỘ MÔN TOÁN ỨNG DỤNG KHOA KỸ THUẬT HÓA HỌC oOo BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI 1 GVHD NGUYỄN KIỀU DUNG THỰC HIỆN NHÓM HH07 SINH VIÊN THỰC HI[.]

TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH BỘ MƠN TỐN ỨNG DỤNG KHOA KỸ THUẬT HĨA HỌC ………………….oOo……………… BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI GVHD: NGUYỄN KIỀU DUNG THỰC HIỆN: NHÓM HH07 SINH VIÊN THỰC HIỆN 1) Lê Trình Khánh Vân- 2010777- Khoa KTHH- L19 2) Nguyễn Khánh Hà- 2011131- Khoa KTHH- L19 3) Trần Ngọc Hồng Anh- 2010130- Khoa KTHH- L07 4) Nguyễn Tấn Tâm Thy- 2010683- Khoa KTHH- L10 5) Nguyễn Tuấn Hưng- 2013394- Khoa KTHH- L12 TP HỒ CHÍ MINH, NĂM 2021 MỤC LỤC TĨM TẮT LỜI CẢM ƠN ĐỀ BÀI CHƯƠNG 1: CƠ SỞ LÝ THUYẾT I Phân tích hồi quy: Định nghĩa: .8 Bản chất: Ý nghĩa hồi quy tuyến tính: .9 II Mơ hình hồi quy bội: CHƯƠNG 2: XỬ LÝ SỐ LIỆU 14 Đọc liệu (Import Data): 14 Làm liệu (Data cleaning) 14 Làm rõ liệu (Data Visualization) .16 a Chuyển đổi biến: .16 b Thống kê mô tả .18 Xây dựng mơ hình hồi quy tuyến tính 23 Thực dự báo cho giá nhà quận King .27 CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU 29 Mô tả liệu 29 Phân tích liệu 29 2.1 Đọc liệu 29 2.2 Chọn biến 30 2.3 Làm liệu 30 2.4 Làm rõ liệu .31 2.5 Xây dựng mơ hình hồi quy tuyến tính 34 2.6 Dự đoán 37 TÀI LIỆU THAM KHẢO 38 TÓM TẮT Ở hoạt động 1, báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính bội vào việc phân tích mẫu liệu tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Từ kết thu rút nhận xét tác động thuộc tính thay đổi giá bán thị trường Để thu kết phân tích, nhóm sử dụng hàm ngôn ngữ lập trình R vận dụng linh hoạt giải nhiệm vụ cụ thể đặt Kết trình bày dạng bảng số liệu tính tốn đồ thị cung cấp nhìn trực quan khảo sát nhằm so sánh, đối chiếu ảnh hưởng điều kiện ngơi nhà (số tầng, diện tích nhà, khuôn viên, phong cảnh xung quanh, ) lên giá nhà bán thị trường Trong báo cáo này, trước hết nhóm nêu sở lý thuyết tính tốn giá trị thống kê mơ tả để có nhìn sơ lược, sau áp dụng phương pháp phân tích hồi quy tuyến tính bội Ở hoạt đơng 2, báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính vào việc phân tích, làm rõ liệu mơ hình liệu yếu tố ảnh hưởng chất lượng rượu vang đỏ Cụ thể, báo cáo gồm có: Phần 1: Cơ sở lý thuyết Phần 2: Xử lý số liệu gồm: Tính tốn giá trị thống kê mô tả giá nhà bán thị trường Phần 3: Phân tích liệu: Phân tích mẫu liệu Wine quality LỜI CẢM ƠN Xác suất thống kê mơn học đại cương có tầm quan trọng sinh viên nói chung sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng Do đó, việc dành cho môn học khối lượng thời gian định thực hành điều tất yếu để giúp sinh viên có sở vững kiến thức kỹ cần thiết cho môn học chuyên ngành công việc sau Sự phát triển đời tốn tin nói chung phần mềm R Studio, ngơn ngữ R nói riêng hỗ trợ nhiều trình học tập nghiên cứu môn Xác suất thống kê Việc phân tích xử lý số liệu rút ngắn có hiệu cao Vì mà việc tìm hiểu R Studio ngơn ngữ R việc thực hành môn học Xác suất thống kê quan trọng có tính cấp thiết Ở tập lớn này, nhóm thực nội dung: Ứng dụng hồi quy tuyến tính bội để xử lý phân tích liệu Trong suốt trình thực tập, nhóm nhận nhiều quan tâm, ủng hộ giúp đỡ tận tình thầy bạn bè Ngồi ra, nhóm xin gửi lời tri ân chân thành đến cô Nguyễn Kiều Dung – giảng viên giảng dạy môn Xác suất thống kê nhóm người hướng dẫn cho đề tài Nhờ hết lịng bảo mà nhóm hoàn thành tập tiến độ giải tốt vướng mắc gặp phải Sự hướng dẫn cô kim nam cho hành động nhóm phát huy tối đa mối quan hệ hỗ trợ trị mơi trường giáo dục Lời cuối, xin lần gửi lời biết ơn sâu sắc đến cá nhân, thầy dành thời gian dẫn cho nhóm Đây niềm tin, động lực to lớn để nhóm hồn thành đề tài ĐỀ BÀI Hoạt động 1: Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu cịn bao gồm thuộc tính mô tả chất lượng nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến liệu: • price: Giá nhà bán • floors: Số tầng nhà phân loại từ 1-3.5 • condition: Điều kiện kiến trúc nhà từ − 5, 1: tệ 5: tốt • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4 • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà • sqft_basement: Diện tích tầng hầm Các bước thực hiện: Đọc liệu (Import data): GN.csv (Đổi tên tập tin gia_nha thành GN) Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King Thực dự báo cho giá nhà quận King Hoạt động 2: • Sinh viên tự tìm liệu thuộc chun ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án, chuyên ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" • Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) CHƯƠNG 1: CƠ SỞ LÝ THUYẾT I Phân tích hồi quy: Định nghĩa: Hồi qui (regression) phương pháp thống kê toán học để ước lượng kiểm định quan hệ biến ngẫu nhiên, từ đưa dự báo Các quan hệ viết dạng hàm số hay phương trình Ý tưởng chung sau: giả sử ta có biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dạng hàm số F(X1 , , XS ) biến ngẫu nhiên X1 , , XS khác (control variables), hay gọi biến tự do, Y gọi biến phụ thuộc, tức ta có giá trị X1 , , XS , ta muốn từ ước lượng giá trị Y Hàm số F phụ thuộc vào số tham số β = (β1 , , βS ) Ta viết Y sau: Y = F(X1 , , XS ) + ϵ ϵ phần sai số (cũng biến ngẫu nhiên).Ta muốn chọn hàm F cách thích hợp có thể, tham số β, cho sai số ϵ nhỏ Đại lượng ꢀ(|ꢁ|2 gọi sai số chuẩn (standard error) mơ hình hồi qui Mơ hình mà có sai số chuẩn thấp coi xác Bản chất: * Bản chất biến phụ thuộc Y Y nói chung giả định biến ngẫu nhiên, đo lường bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc, thang đo danh nghĩa Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có tính chất: (1) tỷ số hai biến, (2) khoảng cách hai biến, (3) xếp hạng biến Với thang đo tỷ lệ, ví dụ Y có hai giá trị, ꢂ ꢂ tỷ số ꢂ 1/ ꢂ khoảng cách ( ꢂ - ꢂ 1) đại lượng có ý nghĩa; so sánh xếp thứ tự Thang đo khoảng (interval scale): Thang đo khoảng khơng thỏa mãn tính chất biến có thang đo tỷ lệ Thang đo thứ bậc (ordinal scale): Các biến thỏa mãn tính chất xếp hạng thang đo tỷ lệ, việc lập tỷ số hay tính khoảng cách hai giá trị khơng có ý nghĩa Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm khơng thỏa mãn tính chất biến theo thang đo tỷ lệ (như giới tính, tơn giáo, ) * Bản chất biễn ngẫu nhiên X Các biến ngẫu nhiên đo theo bốn thang đo vừa nêu trên, nhiều ứng dụng thực tế biến giải thích đo theo thang đo tỷ số thang đo khoảng * Bản chất sai số ngẫu nhiên (nhiễu) ꢁ Sai số ngẫu nhiên đại diện cho tất biến khơng đưa vào mơ hình lý khơng có sẵn liệu, lỗi đo lường liệu Và cho dù nguồn tạo nhiễu ꢁ nữa, người ta giả định ảnh hưởng trung bình sai số ngẫu nhiên lên Y không đáng kể Ta giả định hạng nhiễu có phân phối chuẩn với trung bình ~N(0; ꢃ2 phương sai không đổi ꢃ2 : ꢁ ) * Bản chất tham số hồi quy ꢄꢅ Tham số hồi quy (tổng thể), βS , số cố định (fixed numbers) không ngẫu nhiên (not random), khơng thể biết giá trị thực Bs Ý nghĩa hồi quy tuyến tính: Thuật ngữ tuyến tính (linear) mơ hình hồi quy tuyến tính nghĩa tuyến tính hệ số hồi quy (linearity in the regression coefficients), βS , tuyến tính biến Y X II Mơ hình hồi quy bội: Định nghĩa: Mơ hình hồi quy bội mơ hình hồi quy đó: biến phụ thuộc Y phụ thuộc vào (k – 1) biến độc lập X2 ,X3 , Xkk có dạng sau: Hàm hồi quy tổng thể: E(Y| X2 ,X3 , Xk ) = 1 + 2 X2 + 3 X3 + … + k X Mơ hình hồi quy tổng thể: Y = 1 + 2 X2 + 3 X3 + … + k Xk + ꢁ k Trong đó:  ꢁ sai số ngẫu nhiên  1 hệ số tự (hệ số chặn), giá trị trung bình Y Xj =0   j hệ số hồi quy riêng (hay hệ số góc), thể ảnh hưởng riêng biến độc lập Xj lên trung bình Y biến khác giữ không đổi Cụ thể, Xj tăng giảm đơn vị, điều kiện biến độc lập khác khơng đổi, Y trung bình thay đổi j đơn vị Có thể nhận thấy ba khả xảy hệ số góc: Hệ số  > 0: mối quan hệ Y X thuận chiều,  j nghĩa Xj tăng (hoặc giảm) điều kiện biến độc j lập khác khơng đổi Y tăng (hoặc giảm) Hệ số  j < 0: mối quan hệ Y Xj ngược chiều,  nghĩa Xj tăng (hoặc giảm) điều kiện biến độc lập khác không đổi Y giảm (hoặc tăng) Hệ số  j = 0: cho Y Xj khơng có tương quan  với nhau, cụ thể Y khơng phụ thuộc vào Xj Xj không thực ảnh hưởng tới Y Dựa vào kết ước lượng với mẫu cụ thể, ta đánh giá mối quan hệ biến phụ thuộc biến độc lập mơ hình cách tương đối Dù mơ hình có nhiều biến độc lập tồn yếu tố tác động đến biến phụ thuộc không đưa vào mô hình nhiều lý (khơng có số liệu khơng muốn đưa vào) Do mơ hình tồn sai số ngẫu nhiên ꢁ đại diện cho yếu tố khác biến Xj (j = 2,3, ,k) có tác động đến Y khơng đưa vào mơ biến số Các giả thiết mơ hình hồi quy bội Giả thiết 1: Việc ước lượng dựa sở mẫu ngẫu nhiên Giả thiết 2: Kỳ vọng sai số ngẫu nhiên giá trị (X2i ,X3i ,, Xki ) 0: E(ꢁ| X 2i,X 3i,…, X ki) = Giả thiết 3: Phương sai sai số ngẫu nhiên giá trị (X2i ,X3i ,…, Xki )  Từ giả thiết ta nói sai số ngẫu nhiên (u) tuân theo phân phối chuẩn Giả thiết 4: Giữa biến độc lập Xj khơng có quan hệ cộng tuyến hồn hảo, nghĩa không tồn số λ2 , λ3,, λk không đồng thời cho: λ2X2 + λ3X3 +… + λkXk =  Có thể nhận thấy biến Xj(j = 2,3, ,k) có quan hệ cộng tuyến hồn hảo có biến suy từ biến cịn lại Do đó, giả thiết đưa để loại trừ tình Phương pháp ước lượng mơ hình hồi quy bội – Phương pháp bình phương nhỏ (OLS) Sau xây dựng tìm hiểu ý nghĩa hệ số hồi quy mơ hình, vấn đề ta quan tâm để có ước lượng đáng tin cậy cho hệ số j Cũng với mơ hình hồi quy hai biến, ta sử dụng phương 10 ... thể, báo cáo gồm có: Phần 1: Cơ sở lý thuyết Phần 2: Xử lý số liệu gồm: Tính tốn giá trị thống kê mơ tả giá nhà bán thị trường Phần 3: Phân tích liệu: Phân tích mẫu liệu Wine quality LỜI CẢM ƠN Xác. .. điều kiện nhà (số tầng, diện tích ngơi nhà, khn viên, phong cảnh xung quanh, ) lên giá nhà bán thị trường Trong báo cáo này, trước hết nhóm nêu sở lý thuyết tính tốn giá trị thống kê mơ tả để có... hồi quy tuyến tính 23 Thực dự báo cho giá nhà quận King .27 CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU 29 Mô tả liệu 29 Phân tích liệu 29 2.1 Đọc liệu

Ngày đăng: 20/02/2023, 21:09

Tài liệu cùng người dùng

Tài liệu liên quan