(Tiểu luận) báo cáo bài tập lớn xác suất thống kê xử lý số liệu gồm tính toán các giá trị thống kê mô tả giá nhà bánrathị trường phân tích dữ liệu phân tích mẫu dữ liệu wine quality
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
3,49 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH BỘ MƠN TỐN ỨNG DỤNG KHOA KỸ THUẬT HĨA HỌC ………………….oOo……………… BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI GVHD: NGUYỄN KIỀU DUNG THỰC HIỆN: NHÓM HH07 SINH VIÊN THỰC HIỆN 1) Lê Trình Khánh Vân- 2010777- Khoa KTHH- L19 2) Nguyễn Khánh Hà- 2011131- Khoa KTHH- L19 3) Trần Ngọc Hồng Anh- 2010130- Khoa KTHH- L07 4) Nguyễn Tấn Tâm Thy- 2010683- Khoa KTHH- L10 5) Nguyễn Tuấn Hưng- 2013394- Khoa KTHH- L12 TP HỒ CHÍ MINH, NĂM 2021 c MỤC LỤC TĨM TẮT LỜI CẢM ƠN ĐỀ BÀI CHƯƠNG 1: CƠ SỞ LÝ THUYẾT I Phân tích hồi quy: Định nghĩa: Bản chất: Ý nghĩa hồi quy tuyến tính: .9 II Mơ hình hồi quy bội: CHƯƠNG 2: XỬ LÝ SỐ LIỆU 14 Đọc liệu (Import Data): 14 Làm liệu (Data cleaning) 14 Làm rõ liệu (Data Visualization) .16 a Chuyển đổi biến: .16 b Thống kê mô tả .18 Xây dựng mơ hình hồi quy tuyến tính 23 Thực dự báo cho giá nhà quận King .27 CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU 29 Mô tả liệu 29 Phân tích liệu 29 2.1 Đọc liệu 29 c 2.2 Chọn biến 30 2.3 Làm liệu 30 2.4 Làm rõ liệu 31 2.5 Xây dựng mô hình hồi quy tuyến tính 34 2.6 Dự đoán 37 TÀI LIỆU THAM KHẢO 38 c TÓM TẮT Ở hoạt động 1, báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính bội vào việc phân tích mẫu liệu tập tin "gia_nha.csv" chứa thơng tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Từ kết thu rút nhận xét tác động thuộc tính thay đổi giá bán thị trường Để thu kết phân tích, nhóm sử dụng hàm ngơn ngữ lập trình R vận dụng linh hoạt giải nhiệm vụ cụ thể đặt Kết trình bày dạng bảng số liệu tính tốn đồ thị cung cấp nhìn trực quan khảo sát nhằm so sánh, đối chiếu ảnh hưởng điều kiện ngơi nhà (số tầng, diện tích ngơi nhà, khuôn viên, phong cảnh xung quanh, ) lên giá nhà bán thị trường Trong báo cáo này, trước hết nhóm nêu sở lý thuyết tính tốn giá trị thống kê mơ tả để có nhìn sơ lược, sau áp dụng phương pháp phân tích hồi quy tuyến tính bội Ở hoạt đơng 2, báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính vào việc phân tích, làm rõ liệu mơ hình liệu yếu tố ảnh hưởng chất lượng rượu vang đỏ Cụ thể, báo cáo gồm có: Phần 1: Cơ sở lý thuyết Phần 2: Xử lý số liệu gồm: Tính tốn giá trị thống kê mô tả giá nhà bán thị trường Phần 3: Phân tích liệu: Phân tích mẫu liệu Wine quality c LỜI CẢM ƠN Xác suất thống kê mơn học đại cương có tầm quan trọng sinh viên nói chung sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng Do đó, việc dành cho môn học khối lượng thời gian định thực hành điều tất yếu để giúp sinh viên có sở vững kiến thức kỹ cần thiết cho môn học chuyên ngành công việc sau Sự phát triển đời tốn tin nói chung phần mềm R Studio, ngơn ngữ R nói riêng hỗ trợ nhiều trình học tập nghiên cứu môn Xác suất thống kê Việc phân tích xử lý số liệu rút ngắn có hiệu cao Vì mà việc tìm hiểu R Studio ngơn ngữ R việc thực hành môn học Xác suất thống kê quan trọng có tính cấp thiết Ở tập lớn này, nhóm thực nội dung: Ứng dụng hồi quy tuyến tính bội để xử lý phân tích liệu Trong suốt q trình thực tập, nhóm nhận nhiều quan tâm, ủng hộ giúp đỡ tận tình thầy bạn bè Ngồi ra, nhóm xin gửi lời tri ân chân thành đến cô Nguyễn Kiều Dung – giảng viên giảng dạy môn Xác suất thống kê nhóm người hướng dẫn cho đề tài Nhờ hết lịng bảo mà nhóm hồn thành tập tiến độ giải tốt vướng mắc gặp phải Sự hướng dẫn cô kim nam cho hành động nhóm phát huy tối đa mối quan hệ hỗ trợ trị mơi trường giáo dục Lời cuối, xin lần gửi lời biết ơn sâu sắc đến cá nhân, thầy cô dành thời gian dẫn cho nhóm Đây niềm tin, động lực to lớn để nhóm hồn thành đề tài c ĐỀ BÀI Hoạt động 1: Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu cịn bao gồm thuộc tính mô tả chất lượng nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến liệu: • price: Giá nhà bán • floors: Số tầng nhà phân loại từ 1-3.5 • condition: Điều kiện kiến trúc nhà từ − 5, 1: tệ 5: tốt • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4 • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà • sqft_basement: Diện tích tầng hầm Các bước thực hiện: Đọc liệu (Import data): GN.csv (Đổi tên tập tin gia_nha thành GN) Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King Thực dự báo cho giá nhà quận King Hoạt động 2: • Sinh viên tự tìm liệu thuộc chun ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án, chuyên ngành Ngồi sinh viên tự tìm kiếm c liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" • Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) c CHƯƠNG 1: CƠ SỞ LÝ THUYẾT I Phân tích hồi quy: Định nghĩa: Hồi qui (regression) phương pháp thống kê toán học để ước lượng kiểm định quan hệ biến ngẫu nhiên, từ đưa dự báo Các quan hệ viết dạng hàm số hay phương trình Ý tưởng chung sau: giả sử ta có biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dạng hàm số F(X1 , , XS ) biến ngẫu nhiên X1 , , XS khác (control variables), hay gọi biến tự do, Y gọi biến phụ thuộc, tức ta có giá trị X1 , , XS , ta muốn từ ước lượng giá trị Y Hàm số F phụ thuộc vào số tham số β = (β1 , , βS ) Ta viết Y sau: Y = F(X1 , , XS ) + ϵ ϵ phần sai số (cũng biến ngẫu nhiên).Ta muốn chọn hàm F cách thích hợp có thể, tham số β, cho sai số ϵ nhỏ Đại lượng �(|�|2 gọi sai số chuẩn (standard error) mơ hình hồi qui Mơ hình mà có sai số chuẩn thấp coi xác Bản chất: * Bản chất biến phụ thuộc Y Y nói chung giả định biến ngẫu nhiên, đo lường bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc, thang đo danh nghĩa Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có tính chất: (1) tỷ số hai biến, (2) khoảng cách hai biến, (3) xếp hạng biến Với thang đo tỷ lệ, ví dụ Y có hai giá trị, �1 �2 tỷ số �1 /�2 khoảng cách (�2 - �1 ) đại lượng có ý nghĩa; so sánh xếp thứ tự Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chất biến có thang đo tỷ lệ Thang đo thứ bậc (ordinal scale): Các biến thỏa mãn tính chất xếp hạng thang đo tỷ lệ, việc lập tỷ số hay tính khoảng cách hai giá trị khơng có ý nghĩa Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm khơng thỏa mãn tính chất biến theo thang đo tỷ lệ (như giới tính, tôn giáo, ) c * Bản chất biễn ngẫu nhiên X Các biến ngẫu nhiên đo theo bốn thang đo vừa nêu trên, nhiều ứng dụng thực tế biến giải thích đo theo thang đo tỷ số thang đo khoảng * Bản chất sai số ngẫu nhiên (nhiễu) � Sai số ngẫu nhiên đại diện cho tất biến không đưa vào mơ hình lý khơng có sẵn liệu, lỗi đo lường liệu Và cho dù nguồn tạo nhiễu � nữa, người ta giả định ảnh hưởng trung bình sai số ngẫu nhiên lên Y khơng đáng kể Ta giả định hạng nhiễu có phân phối chuẩn với trung bình phương sai không đổi �2 : �~N(0; �2 ) * Bản chất tham số hồi quy �� Tham số hồi quy (tổng thể), βS , số cố định (fixed numbers) không ngẫu nhiên (not random), khơng thể biết giá trị thực Bs Ý nghĩa hồi quy tuyến tính: Thuật ngữ tuyến tính (linear) mơ hình hồi quy tuyến tính nghĩa tuyến tính hệ số hồi quy (linearity in the regression coefficients), βS , khơng phải tuyến tính biến Y X II Mơ hình hồi quy bội: Định nghĩa: Mơ hình hồi quy bội mơ hình hồi quy đó: biến phụ thuộc Y phụ thuộc vào (k – 1) biến độc lập X2,X3, Xkk có dạng sau: Hàm hồi quy tổng thể: E(Y| X2,X3, Xk) = 1 + 2 X2 + 3 X3 + … + kXk Mơ hình hồi quy tổng thể: Y = 1 + 2 X2 + 3 X3 + … + kXk + � Trong đó: � sai số ngẫu nhiên 1 hệ số tự (hệ số chặn), giá trị trung bình Y Xj=0 j hệ số hồi quy riêng (hay hệ số góc), thể ảnh hưởng riêng biến độc lập Xj lên trung bình Y biến khác giữ không đổi Cụ thể, Xj tăng giảm đơn vị, điều kiện biến độc lập khác khơng đổi, Y trung bình thay đổi j đơn vị Có thể nhận thấy ba khả xảy hệ số góc: c Hệ số j > 0: mối quan hệ Y Xj thuận chiều, nghĩa Xj tăng (hoặc giảm) điều kiện biến độc lập khác khơng đổi Y tăng (hoặc giảm) Hệ số j < 0: mối quan hệ Y Xj ngược chiều, nghĩa Xj tăng (hoặc giảm) điều kiện biến độc lập khác khơng đổi Y giảm (hoặc tăng) Hệ số j = 0: cho Y Xj khơng có tương quan với nhau, cụ thể Y không phụ thuộc vào Xj Xj không thực ảnh hưởng tới Y Dựa vào kết ước lượng với mẫu cụ thể, ta đánh giá mối quan hệ biến phụ thuộc biến độc lập mơ hình cách tương đối Dù mơ hình có nhiều biến độc lập tồn yếu tố tác động đến biến phụ thuộc khơng đưa vào mơ hình nhiều lý (khơng có số liệu khơng muốn đưa vào) Do mơ hình tồn sai số ngẫu nhiên � đại diện cho yếu tố khác ngồi biến Xj (j = 2,3, ,k) có tác động đến Y khơng đưa vào mơ biến số Các giả thiết mô hình hồi quy bội Giả thiết 1: Việc ước lượng dựa sở mẫu ngẫu nhiên Giả thiết 2: Kỳ vọng sai số ngẫu nhiên giá trị (X2i,X3i,, Xki) 0: E(�| X2i,X3i,…, Xki) = Giả thiết 3: Phương sai sai số ngẫu nhiên giá trị (X2i,X3i,…, Xki) Từ giả thiết ta nói sai số ngẫu nhiên (u) tuân theo phân phối chuẩn Giả thiết 4: Giữa biến độc lập Xj khơng có quan hệ cộng tuyến hồn hảo, nghĩa không tồn số λ2, λ3,, λk không đồng thời cho: λ2X2 + λ3X3 +… + λkXk = Có thể nhận thấy biến Xj(j = 2,3, ,k) có quan hệ cộng tuyến hồn hảo có biến suy từ biến cịn lại Do đó, giả thiết đưa để loại trừ tình Phương pháp ước lượng mơ hình hồi quy bội – Phương pháp bình phương nhỏ (OLS) Sau xây dựng tìm hiểu ý nghĩa hệ số hồi quy mơ hình, vấn đề ta quan tâm để có ước lượng đáng tin cậy cho hệ số j Cũng với mơ hình hồi quy hai biến, ta sử dụng phương 10 c Sử dụng lệnh sau: DT1 = lm (price ~ as.factor(floors) + as.factor(condition) + as.factor(view) + sqft_above + sqft_living + sqft_basement, data=newDT ) summary(DT1) Với giả thiết mức ý nghĩa 5% đặt giả thiết H0: hệ số hồi quy ứng với biến khơng có ý nghĩa thống kê H1: hệ số hồi quy ứng với biến có ý nghĩa thống kê Để nhận xét, quan sát cột Pr ( > | t | ) 24 c Quan sát cột Pr: ứng với biến floors2, condition2, condition3 có giá trị Pr lớn mức ý nghĩa 5% Nên biến này, ta chấp nhận giả thiết H0 Do hệ số ứng với biến khơng có ý nghĩa thống kê => loại bỏ khỏi mơ hình Các biến cịn lại có Pr nhỏ mức ý nghĩa nên ta bác bỏ H0, chấp nhận H1 tức hệ số hồi quy ứng với biến có ý nghĩa thống kê Do đó, khơng thể loại biến khỏi mơ hình Đặc biệt, biến có giá trị Pr < 2e-16 = 10-16 nhỏ so với mức ý nghĩa 5% Do đó, biến có ảnh hưởng lớn đến biến phụ thuộc – biến price Chúng ta xét hai mơ hình hồi quy tuyến tính DT1 DT2 sau Biến phụ thuộc: price Đối với biến độc lập: Mơ hình DT1: chứa tất biến cịn lại biến độc lập Mơ hình DT2: loại bỏ biến condition từ mơ hình DT1 DT1 = lm (price ~ as.factor(floors) + as.factor(condition) + as.factor(view) + sqft_above + sqft_living + sqft_basement, data=newDT ) DT2 = lm (price ~ as.factor(floors) + as.factor(view) + sqft_above + sqft_living + sqft_basement, data=newDT ) Sau đó, ta dùng lệnh anova để so sánh rút mơ hình thích hợp anova(DT1, DT2) Đặt giả thiết H0: Hai mơ hình hiệu H1: Hai mơ hình hiệu khác 25 c Vì giá trị Pr(> F) F) ±0.2 ) với biến phụ thuộc quality với hệ số tương quan là: -0.39; 0.23; 0.25; 0.48 Vậy, ta chọn volatile.acidity, citric acid, sulphates alcohol làm biến 2.3 Làm liệu - Lập liệu tên newDT bao gồm biến : 30 c Kết quả: Kiểm tra liệu khuyết: Khơng có liệu khuyết 2.4 Làm rõ liệu 2.4.1 Thống kê mơ tả: Tính giá trị thống kê biến liên tục: mean (trung bình), median (trung vị), sd (độ lệch chuẩn), (giá trị nhỏ nhất), max (giá trị lớn nhất): Kết quả: 31 c Vẽ đồ thị phân phối biến quality: Kết quả: - Dùng lệnh pairs() cho biến volatile.acidity, citric acid, sulphates alcohol 32 c Kết quả: 33 c 2.5 Xây dựng mơ hình hồi quy tuyến tính - Biến phụ thuộc: quality - Biến độc lập (biến dự báo): volatile.acidity, citric acid, sulphates, alcohol + Xây dựng mơ hình DT1: Sử dụng lệnh: Kết quả: + Xây dựng mơ hình DT2 (loại biến citric.acid), dùng Anova chọn mơ hình hợp lý - Xây dựng mơ hình DT2, sử dụng lệnh: Kết quả: 34 c Nhận xét: + Với mức ý nghĩa 5% đặt giả thiết H0 mơ hình hiệu H1 mơ hình hiệu khác Để nhận xét, quan sát cột Pr ( > | t | ) Giá trị Pr = 0.4461 > 0.05 (lớn mức ý nghĩa 5%) Chấp nhận giả thiết H0 bác bỏ giả thiết H1 mơ hình DT1 DT2 có hiệu tương đương nhận DT2 làm mô hình DT2 có biến - Vẽ đồ thị hàm plot (đồ thị biểu thị sai số hồi quy giá trị dự báo) mơ hình DT2: - Sử dụng câu lệnh: Kết quả: 35 c Ý nghĩa: - Fitted values giá trị dự báo chất lượng (quality) dựa theo biến độc lập lại - Residuals sai số hồi quy, sai lệch giá trị thực tế với giá trị dự báo Nhận xét: 6.5 - Khoảng giá trị biến chất lượng tập trung khoảng từ đến - Trong khoảng giá trị chất lượng xung quanh đường hồi quy tuyến tính, giá trị residuals tương đối thấp - Từ đồ thị ta thấy đường hồi quy tuyến tính xấp xỉ đường thẳng y=0 Có thể nói sai số tương đối thấp nên kết luận xác.Cho thấy mơ hình DT2 ổn định 36 c 2.6 Dự đoán Điểm bé không đạt chất lượng Điểm lớn đạt chất lượng Kết quả: Thu bảng thống kê loại rượu sau: - Tiến hành dự đoán tỉ lệ loại rượu: Kết quả: Dữ liệu tỉ lệ dự đoán tỉ lệ mẫu sau: - Ta nhận thấy, giá trị dự báo tỉ lệ đạt chất lượng giảm cịn tỉ lệ khơng đạt chất lượng tăng Nhưng nhìn chung, mức đạt chất lượng chiếm tỉ lệ cao 37 c TÀI LIỆU THAM KHẢO [1] George C.Runner.Hoboken, Douglas C.Montgomery, Applied Statistic and Probability for Engineers, NJ: Wiley, 2007 [2] Peter Dalgaard, Introductory Statistic with R, Springer 2008 [3] F Almeida, P Cortez, A Cerdeira, T Matos and J Reis Modeling wine preferences by data mining from physicochemical properties In Decision Support Systems, Elsevier, 47(4):547-553, 2009 [4] Nguyễn Tiến Dũng, Đỗ Đức Thái, Nhập môn đại Xác suất & Thống kê, 2015 [5] Nguyễn Văn Tuấn, Xử lí số liệu biểu đồ R [6] Gujarati, Econometrics by example, 2011 38 c ... đỏ Cụ thể, báo cáo gồm có: Phần 1: Cơ sở lý thuyết Phần 2: Xử lý số liệu gồm: Tính tốn giá trị thống kê mô tả giá nhà bán thị trường Phần 3: Phân tích liệu: Phân tích mẫu liệu Wine quality c LỜI... điều kiện nhà (số tầng, diện tích ngơi nhà, khn viên, phong cảnh xung quanh, ) lên giá nhà bán thị trường Trong báo cáo này, trước hết nhóm nêu sở lý thuyết tính tốn giá trị thống kê mơ tả để có... hồi quy tuyến tính 23 Thực dự báo cho giá nhà quận King .27 CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU 29 Mô tả liệu 29 Phân tích liệu 29 2.1 Đọc liệu