1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613

24 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 3,28 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT XÂY DỰNG BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211 NHÓM: XD19 - ĐỀ TÀI: 01 GIẢNG VIÊN HƯỚNG DẪN: DANH SÁCH NHÓM: STT Họ tên Trần Quang Vinh Nguyễn Tấn Nghi Nguyễn Dương Khang Ngô Thị Thuỳ Dung Huỳnh Quốc Vinh MSSV 2015077 2013860 2013430 1912865 2015057 ThS NGUYỄN KIỀU DUNG Lớp/Tổ L03/C L04/B L07/B L10/A L14/C Ngành học Kỹ thuật Xây Dựng Kỹ thuật Xây Dựng Kỹ thuật Xây Dựng Kỹ thuật Xây Dựng Kỹ thuật Xây Dựng Tp Hồ Chí Minh, Tháng 01/11/2021 Kí tên BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 PHÂN CƠNG LÀM VIỆC STT Họ tên Trần Quang Vinh Nguyễn Tấn Nghi Nguyễn Dương Khang Ngô Thị Thuỳ Dung Huỳnh Quốc Vinh Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Nội dung Nhiệm vụ Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Mục lục HOẠT ĐỘNG 1: 1.1 Đề 1.2 Cơ sở lý thuyết 1.3 Thực 1.3.1 Đọc liệu (Import data) 1.3.2 Làm liệu (Data cleaning) 1.3.3 Làm rõ liệu: (Data visualization) 1.3.4 Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King 1.3.5 Thực dự báo cho giá nhà quận King 16 20 Hoạt động 2.1 Đề 22 22 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 6 7 Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Danh sách bảng Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 20 code R kết đọc liệu xem dòng liệu code R kết tạo liệu bao gồm biến code R kết kiểm tra liệu khuyết new_DF code R thay giá trị trung bình quan sát cịn lại biến price vị trí chứa liệu khuyết code R kết kiểm tra lại liệu khuyết hay không code R kết chuyển đổi biến sang dạng log(x+1) code R kết tính biến price, sqft_above, sqft_living, sqft_basement code R kết tính biến price, sqft_above, sqft_living, sqft_basement chuyển sang dạng log(x+1) code R kết vẽ biểu đồ histogram thể phân phối biến price code R kết vẽ biểu đồ histogram thể phân phối biến log(price+1) code R kết vẽ biểu đồ boxplot thể phân phối biến price theo phân loại biến floors code R kết vẽ biểu đồ boxplot thể phân phối biến log(price+1) theo phân loại biến floors code R kết vẽ biểu đồ boxplot thể phân phối biến price theo phân loại biến floors code R kết vẽ biểu đồ boxplot thể phân phối biến log(price+1) theo phân loại biến condition code R kết vẽ biểu đồ boxplot thể phân phối biến price theo phân loại biến view code R kết vẽ biểu đồ boxplot thể phân phối biến log(price+1) theo phân loại biến view code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_above trước sau chuyển sang dạng log(x+1) code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_living trước sau chuyển sang dạng log(x+1) code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_basement trước sau chuyển sang dạng log(x+1) code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_1 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 7 8 9 10 10 11 11 12 12 13 13 14 14 15 16 17 Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 21 22 Nhóm XD19 code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình code R kết thực dự báo cho giá nhà Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 18 21 Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 ĐỀ TÀI 01 1.1 HOẠT ĐỘNG 1: Đề Tập tin "house_price.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chất lượng ngơi nhà Dữ liệu gốc cung cấp tại: Các biến liệu: • price: Giá nhà bán • floors: Số tầng nhà phân loại từ - 3.5 • condition: Điều kiện kiến trúc nhà từ - 5, 1: tệ 5: tốt • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: - • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà • sqft_basement: Diện tích tầng hầm Các bước thực hiện: Đọc liệu (Import data): "house_price.csv" Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King Thực dự báo cho giá nhà quận King 1.2 Cơ sở lý thuyết Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 1.3 1.3.1 Nhóm XD19 Thực Đọc liệu (Import data) Đọc liệu "house_price.csv" Hình 1: code R kết đọc liệu xem dòng liệu 1.3.2 Làm liệu (Data cleaning) Tạo liệu bao gồm biến mà ta quan tâm, lưu với tên new_DF Hình 2: code R kết tạo liệu bao gồm biến Kiểm tra liệu khuyết new_DF Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 3: code R kết kiểm tra liệu khuyết new_DF Nhận xét: Dựa vào kết thu kiểm tra liệu khuyết new_DF, ta nhận thấy có 20 liệu khuyết biến price Vậy nên ta cần xử lý liệu khuyết Phương pháp xử lí đề xuất thay giá trị trung bình quan sát cịn lại biến price vị trí chứa liệu khuyết Hình 4: code R thay giá trị trung bình quan sát cịn lại biến price vị trí chứa liệu khuyết Kiểm tra lại xem liệu khuyết hay khơng Hình 5: code R kết kiểm tra lại liệu khuyết hay không Nhận xét: Ta nhận thấy sau xử lý, không liệu khuyết Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 1.3.3 Nhóm XD19 Làm rõ liệu: (Data visualization) Tạo data tên new_DF2 (gồm biến new_DF làm liệu) chuyển đổi biến price, sqft_above, sqft_living, sqft_basement thành log(price+1), log(sqft_above+1), log(sqft_living+1) log(sqft_basement+1) Hình 6: code R kết chuyển đổi biến sang dạng log(x+1) Giải thích lý chuyển sang dạng log(x+1): + Cải thiện phù hợp mơ hình: giả định ta xây dựng mơ hình hồi quy sai số hồi quy (phần dư) phải có phân phối chuẩn, trường hợp sai số hồi quy (phần dư) khơng có phân phối chuẩn việc lấy log của biến giúp thay đổi tỉ lệ làm cho biến có phân phối chuẩn Ngồi ra, trường hợp phần dư (phương sai thay đổi) biến độc lập gây ra, ta chuyển đổi biến sang dạng log + Diễn giải: lý giúp ta diễn giải mối quan hệ biến thuận tiện Nếu ta lấy log biến phụ thuộc Y biến độc lập X, hệ số hồi quy β hệ số co giãn diễn giải sau: X tăng 1% dẫn đến tăng việc ta kỳ vọng Y tăng lên β% (về mặt trung bình Y), + Ước lượng mơ hình phi tuyến: việc lấy log cho phép ta ước lượng mơ hình hồi quy tuyến tính + Ngồi ra, việc chuyển sang dạng log(x+1) thay log(x) biến sqft_basement có nhiều giá trị = (do số ngơi nhà khơng có tầng hầm) Nếu chuyển sang dạng log nhận giá trị infty Do ta chuyển biến sang log(x+1) thay log(x) Tính giá trị thống kê mơ tả (trung bình, độ lệch chuẩn, min, max, trung vị) cho biến price, sqft_above, sqft_living, sqft_basement Xuất kết dạng bảng Hình 7: code R kết tính biến price, sqft_above, sqft_living, sqft_basement Tính giá trị thống kê mơ tả (trung bình, độ lệch chuẩn, min, max, trung vị) cho biến price, sqft_above, sqft_living, sqft_basement chuyển sang dạng log(x+1) Xuất kết dạng bảng Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 8: code R kết tính biến price, sqft_above, sqft_living, sqft_basement chuyển sang dạng log(x+1) Vẽ biểu đồ histogram thể phân phối biến price trước sau chuyển sang dạng log(x+1) Hình 9: code R kết vẽ biểu đồ histogram thể phân phối biến price Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 10 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 10: code R kết vẽ biểu đồ histogram thể phân phối biến log(price+1) Nhận xét: Dựa biểu đồ histogram biến price, ta nhận thấy phân phối biến price có xu hướng lệch phải, cho thấy phần lớn ngơi nhà có giá tiền gần nhau, có số ngơi nhà có giá trị cao Trong với biểu đồ biến log(price + 1) có hình dạng phân phối chuẩn Vẽ biểu đồ boxplot thể phân phối biến price log(price+1) theo phân loại biến floors Hình 11: code R kết vẽ biểu đồ boxplot thể phân phối biến price theo phân loại biến floors Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 11 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 12: code R kết vẽ biểu đồ boxplot thể phân phối biến log(price+1) theo phân loại biến floors Vẽ biểu đồ boxplot thể phân phối biến price log(price+1) theo phân loại biến condition Hình 13: code R kết vẽ biểu đồ boxplot thể phân phối biến price theo phân loại biến floors Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 12 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 14: code R kết vẽ biểu đồ boxplot thể phân phối biến log(price+1) theo phân loại biến condition Vẽ biểu đồ boxplot thể phân phối biến price log(price+1) theo phân loại biến view Hình 15: code R kết vẽ biểu đồ boxplot thể phân phối biến price theo phân loại biến view Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 13 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 16: code R kết vẽ biểu đồ boxplot thể phân phối biến log(price+1) theo phân loại biến view Vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_above trước sau chuyển sang dạng log(x+1) Hình 17: code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_above trước sau chuyển sang dạng log(x+1) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 14 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Nhận xét: Dựa đồ thị phân tán price sqft_above, ta chưa nhận thấy thấy rõ mối quan hệ tuyến tính biến Tuy nhiên với đồ thị phân tán log(price + 1) log(sqft_above + 1) ta nhận thấy rõ mối quan hệ tuyến tính biến (cụ thể quan hệ đồng biến) Vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_living trước sau chuyển sang dạng log(x+1) Hình 18: code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_living trước sau chuyển sang dạng log(x+1) Nhận xét: Dựa đồ thị phân tán price sqft_living, ta chưa nhận thấy thấy rõ mối quan hệ tuyến tính biến Tuy nhiên với đồ thị phân tán log(price + 1) log(sqft_living + 1) ta nhận thấy rõ mối quan hệ tuyến tính biến (cụ thể quan hệ đồng biến) Vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_basement trước sau chuyển sang dạng log(x+1) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 15 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 19: code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_basement trước sau chuyển sang dạng log(x+1) Nhận xét: Dựa đồ thị phân tán price sqft_basement, ta chưa nhận thấy thấy rõ mối quan hệ tuyến tính biến Tuy nhiên với đồ thị phân tán log(price + 1) log(sqft_basement + 1) ta nhận thấy rõ mối quan hệ tuyến tính biến (cụ thể quan hệ đồng biến) Tóm lại, dựa đồ thị trên, ta nhận thấy việc chuyển đổi biến sang dạng log(x+1) hiệu việc phân tích mối quan hệ tuyến tính biến độc lập với biến phụ thuộc (giá nhà) Câu hỏi đặt lúc mối quan hệ biến với giá nhà ngẫu nhiên hay thực có mối quan hệ tuyến tính biến với giá nhà Mơ hình hồi quy tuyến tính giúp ta kiểm tra điều thông qua khoảng tin cậy phép kiểm định Hơn nữa, cịn cho phép ta ước lượng giá trị biến phụ thuộc (giá nhà) theo biến độc lập (số tầng, điều kiện nhà, diện tích nhà, ) 1.3.4 Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King Chúng ta muốn tìm hiểu có nhân tố tác động đến giá nhà quận King Xét mơ hình hồi quy tuyến tính bao gồm: Biến phụ thuộc: price Biến độc lập: floors, condition, view, sqft_above, sqft_living, sqft_basement (lưu ý biến price, sqft_above, sqft_living, sqft_basement chuyển sang dạng log(x+1)) Mơ hình biểu diễn sau: log(price + 1) = β0 + β1 × f loors + β2 × condition + β3 × view + β4 × log(sqf t_above + 1) + β5 × log(sqf t_living + 1) + β6 × log(sqf t_basement + 1) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 16 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Ta thực ước lượng hệ số βi , i = 0, , dựa tệp tin new_DF2: Hình 20: code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_1 Nhận xét: Từ kết phân tích, ta thu được: β0 = 7.168351; β1 = 0.102574; β2 = 0.075131; β3 = 0.125203 β4 = 0.544601; β5 = 0.172785; β6 = 0.042919 Như vậy, đường thẳng hồi quy ước lượng cho phương trình sau: log(price + 1) = 7.168351 + 0.102574 × f loors + 0.075131 × condition + 0.125203 × view + 0.544601 × log(sqf t_above + 1) + 0.172785 × log(sqf t_living + 1) + 0.042919 × log(sqf t_basement + 1) Kiểm định hệ số hồi quy: Giả thuyết H0 : Hệ số hồi quy khơng có ý nghĩa thống kê (βi = 0) Giả thuyết H1 : Hệ số hồi quy có ý nghĩa thống kê (βi = 0) + P r(> |t|) hệ số ứng với biến bé mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0 Do hệ số ứng với biến có ý nghĩa với mơ hình hồi quy ta xây dựng Phân tích tác động nhân tố lên giá nhà: Như mơ hình hồi quy tuyến tính ảnh hưởng nhân tố lên giá nhà cho bởi: log(price + 1) = 7.168351 + 0.102574 × f loors + 0.075131 × condition + 0.125203 × view + 0.544601 × log(sqf t_above + 1) + 0.172785 × log(sqf t_living + 1) + 0.042919 × log(sqf t_basement + 1) hay ta suy ra: price = e7.168351 × e0.102574×f loors × e0.075131×condition × e0.125203×view × (sqf t_above + 1)0.544601 × (sqf t_living + 1)0.172785 × (sqf t_basement + 1)0.042919 − Trước hết, ta thấy p − value tương ứng với thống kê F bé 2.2e − 16, có ý nghĩa cao Điều rằng, biến dự báo mơ hình có ý nghĩa giải thích cao đến giá nhà Để xét ảnh hưởng cụ thể biến độc lập, ta xét trọng số (hệ số βi ) p − value tương ứng Ta thấy p − value tương ứng với biến bé 2e − 16 (ngoài trừ biến sqft_living có p − value = 3.37e − 09), điều nói lên ảnh hưởng biến có ý nghĩa cao lên giá nhà price Mặt khác, hệ số hồi quy βi biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc price tăng đơn vị biến dự báo, giả sử biến dự báo khác Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 17 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 khơng đổi Cụ thể, β1 = 0.102574 số tầng ngơi nhà bán tăng tầng ta kỳ vọng log(price + 1) tăng lên 0.102574 mặt đơn vị log(price + 1) hay price + tăng lên e(0.102574) − = 10.8% so price + ban đầu (giả sử biến dự báo khác không đổi) Với β2 = 0.075131 điều kiện ngơi nhà tăng thêm 1, ta kỳ vọng log(price + 1) tăng lên 0.075131 mặt đơn vị log(price + 1) hay price + tăng lên e(0.075131) − = 7.8% so price + ban đầu (giả sử biến dự báo khác không đổi) Hoặc với β4 = 0.544601 diện tích ngơi nhà cộng (sqft_above + 1) tăng lên 1%, price + tăng lên 1(0.544601) − = 0.5% so price + ban đầu (giả sử biến dự báo khác không đổi) Hệ số R2 hiệu chỉnh 0.5134 nghĩa 0.5134% biến thiên giá nhà đến giải thích biến biến độc lập Kiểm tra giả định mơ hình Nhắc lại giả định mơ hình hồi quy: Yi = β0 + β1 X1 + βi Xi + i , i = 1, n + Tính tuyến tính liệu: mối quan hệ biến dự báo X biến phụ thuộc Y giả sử tuyến tính + Sai số có phân phối chuẩn + Phương sai sai số số: i ∼ N (0, σ ) + Các sai số , , n độc lập với Ta thực phân tích thặng dư để kiểm tra giả định mơ hình: Hình 21: code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 18 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Nhóm XD19 Trang 19 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Đồ thị thứ (Residuals vs Fitted) vẽ giá trị dự báo với giá trị thặng dư (sai số) tương ứng, dùng để kiểm tra tính tuyến tính liệu (giả định 1) tính đồng phương sai sai số (giả định 3) Nếu giả định tính tuyến tính liệu KHƠNG thỏa, ta quan sát thấy điểm thặng dư (residuals) đồ thị phân bố theo hình mẫu (pattern) đặc trưng (ví dụ parabol) Nếu đường màu đỏ đồ thị phân tán đường thẳng nằm ngang mà khơng phải đường cong, giả định tính tuyến tính liệu thỏa mãn Để kiểm tra giả định thứ (phương sai đồng nhất) điểm thặng dự phải phân tán xung quanh đường thẳng y = Đồ thị thứ (Normal Q-Q) cho phép kiểm tra giả định phân phối chuẩn sai số Nếu điểm thặng dư nằm đường thẳng điều kiện phân phối chuẩn thỏa Đồ thị thứ (Scale - Location) vẽ bậc hai giá trị thặng dư chuẩn hóa với giá trị dự báo, dùng để kiểm tra giả định thứ (phương sai sai số số) Nếu đường màu đỏ đồ thị đường thẳng nằm ngang điểm thặng dư phân tán xung quanh đường thẳng giả định thứ thỏa Nếu đường màu đỏ có độ dốc (hoặc cong) điểm thặng dư phân tán khơng xung quanh đường thẳng này, giả định thứ bị vi phạm Đồ thị thứ (Residuals vs Leverage) cho phép xác định điểm có ảnh hưởng cao (influential observations), chúng có diện liệu Những điểm có ảnh hưởng cao điểm outliers, điểm gây nhiều ảnh hưởng phân tích liệu Nếu ta quan sát thấy đường thẳng màu đỏ đứt nét (Cook’s distance), có số điểm vượt qua đường thẳng khoảng cách này, nghĩa điểm điểm có ảnh hưởng cao Nếu ta quan sát thấy đường thẳng khoảng cách Cook góc đồ thị khơng có điểm vượt qua nó, nghĩa khơng có điểm thực có ảnh hưởng cao Nhận xét: + Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn thỏa mãn + Đồ thị thứ (Residuals vs Fitted) cho thấy giả định tính tuyến tính liệu chưa thực thoả mãn + Đồ thị thứ thứ (Scale - Location) cho ta thấy giả định tính đồng phương sai tương đối thoả mãn + Đồ thị thứ có quan trắc thứ 18877, 3915 13529 điểm có ảnh hưởng cao liệu 1.3.5 Thực dự báo cho giá nhà quận King Dựa mơ hình hồi quy ta xây dựng, dự báo giá ngơi nhà có: + tầng + Điều kiện kiến trúc nhà: + Đánh giá quang cảnh nhà: + Diện tích ngơi nhà: 2170 m2 + Diện tích khn viên nhà 2570 m2 + Diện tích tầng hầm 400 m2 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 20 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 22: code R kết thực dự báo cho giá nhà Nhận xét: Dựa vào kết dự báo, ta nhận được: + Giá nhà dự báo trung bình 658028.3 + Khoảng tin cậy so với giá trị dự báo (648685.9; 667505.3) Ta nhận thấy giá nhà quan sát thuộc tính (538000) khơng thuộc khoảng tin cậy vừa tìm được, chứng tỏ mơ hình hồi quy ta xây dựng chưa thực tốt Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 21 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2.1 Nhóm XD19 Hoạt động Đề Sinh viên tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án, chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 22 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 TÀI LIỆU THAM KHẢO Hoàng Văn Hà, Bài giảng Xác suất Thống Kê Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 23 ... Th.S NGUYỄN KIỀU DUNG 6 7 Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Danh sách bảng Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Danh sách hình... HOẠT ĐỘNG 1: Đề Tập tin "house_ price. csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu bao gồm... DUNG Trang 20 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD19 Hình 22: code R kết thực dự báo cho giá nhà Nhận xét: Dựa vào kết dự báo, ta nhận được: + Giá nhà dự báo trung bình 658028.3 + Khoảng tin cậy

Ngày đăng: 29/11/2022, 00:17

HÌNH ẢNH LIÊN QUAN

Hình 1: cod eR và kết quả khi đọc dữ liệu và xem 6 dòng đầu tiên của dữ liệu - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 1 cod eR và kết quả khi đọc dữ liệu và xem 6 dòng đầu tiên của dữ liệu (Trang 8)
Hình 3: cod eR và kết quả khi kiểm tra dữ liệu khuyết trong new_DF - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 3 cod eR và kết quả khi kiểm tra dữ liệu khuyết trong new_DF (Trang 9)
+ Cải thiện sự phù hợp của mô hình: giả định khi ta xây dựng mơ hình hồi quy thì các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi quy (phần dư) không có phân phối chuẩn thì việc lấy log của của một biến giúp thay đổi - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
i thiện sự phù hợp của mô hình: giả định khi ta xây dựng mơ hình hồi quy thì các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi quy (phần dư) không có phân phối chuẩn thì việc lấy log của của một biến giúp thay đổi (Trang 10)
Hình 6: cod eR và kết quả khi chuyển đổi các biến sang dạng log(x+1) - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 6 cod eR và kết quả khi chuyển đổi các biến sang dạng log(x+1) (Trang 10)
Hình 9: cod eR và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến price - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 9 cod eR và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến price (Trang 11)
Hình 8: cod eR và kết quả khi tính các biến price, sqft_above, sqft_living, sqft_basement đã chuyển sang dạnglog(x+1) - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 8 cod eR và kết quả khi tính các biến price, sqft_above, sqft_living, sqft_basement đã chuyển sang dạnglog(x+1) (Trang 11)
Hình 11: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price theo từng phân loại của biếnfloors - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 11 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price theo từng phân loại của biếnfloors (Trang 12)
Hình 10: cod eR và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến log(price+1) - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 10 cod eR và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến log(price+1) (Trang 12)
Hình 13: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price theo từng phân loại của biếnfloors - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 13 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price theo từng phân loại của biếnfloors (Trang 13)
Hình 12: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến log(price+1) theo từng phân loại của biếnfloors - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 12 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến log(price+1) theo từng phân loại của biếnfloors (Trang 13)
Hình 15: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price theo từng phân loại của biếnview - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 15 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price theo từng phân loại của biếnview (Trang 14)
Hình 14: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến log(price+1) theo từng phân loại của biếncondition - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 14 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến log(price+1) theo từng phân loại của biếncondition (Trang 14)
Hình 16: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến log(price+1) theo từng phân loại của biếnview - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 16 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến log(price+1) theo từng phân loại của biếnview (Trang 15)
Hình 17: cod eR và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_above trước và sau khi chuyển sang dạng vàlog(x+1) - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 17 cod eR và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_above trước và sau khi chuyển sang dạng vàlog(x+1) (Trang 15)
Hình 18: cod eR và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_living trước và sau khi chuyển sang dạng vàlog(x+1) - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 18 cod eR và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_living trước và sau khi chuyển sang dạng vàlog(x+1) (Trang 16)
Hình 19: cod eR và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_basement trước và sau khi chuyển sang dạng vàlog(x+1) - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 19 cod eR và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_basement trước và sau khi chuyển sang dạng vàlog(x+1) (Trang 17)
Hình 20: cod eR và kết quả khi xây dựng mơ hình hồi quy tuyến tính lm_model_1 - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 20 cod eR và kết quả khi xây dựng mơ hình hồi quy tuyến tính lm_model_1 (Trang 18)
Kiểm tra các giả định của mơ hình - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
i ểm tra các giả định của mơ hình (Trang 19)
Hình 22: cod eR và kết quả khi thực hiện dự báo cho giá nhà - BÁO cáo bài tập lớn môn học xác SUẤT THỐNG kê tập tin house price csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
Hình 22 cod eR và kết quả khi thực hiện dự báo cho giá nhà (Trang 22)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w