5.3 Phát biểu những kĩ năng học được thông qua việc làm dự án...11TOPIC: Predict Housing PricesPhần 1: Introduction1.1 Giới thiệu về dân số quan tâm populationDân số quan tâm là các căn
Trang 1Subject: Applied Statistics For Business (MAS202)
GROUP ASSIGNMENT
Giảng viên : TS Nguyễn Việt Anh
Thành viên : Nguyễn Diệp Hoài
Đinh THị Hải Anh
Đỗ Đức Vĩnh
Trang 2MỤC LỤC
Phần 1: Introduction 3
1.1 Giới thiệu về dân số quan tâm (population) 3
1.2 Giới thiệu về những tham số quan tâm (parameter) 3
1.3 Giới thiệu cụ thể các bài toán, nêu lý do quan tâm đến bài toán 3
1.4 Tóm tắt kết quả 3
Phần 2: Thu thập dữ liệu mẫu 3
2.1 Nêu cách lấy dữ liệu, trích dẫn nguồn dữ liệu 3
2.2 Giải thích tại sao dữ liệu này là hợp lý cho bài toán 4
2.3 Đính kèm link file Excel chứa dữ liệu (và tính toán) 4
Phần 3: Mô tả dữ liệu mẫu 4
3.1 Tính các thống kê quan trọng: trung bình, độ lệch chuẩn, Q1, Q2, Q3 4
3.2 Vẽ các biểu đồ thích hợp để tổng kết dữ liệu mẫu: biểu đồ cột, biểu đồ hộp,… 4
Phần 4: Tính toán và kết luận 6
Bài toán 1: Tìm khoảng tin cậy 6
a) Xây dựng khoảng tin cậy 95% cho giá nhà trung bình tại King Country, Hoa Kỳ 6
b) Xây dựng khoảng tin cậy 95% cho diện tích nhà trung bình tại King Country, Hoa Kỳ 6
Bài toán 2: Kiểm định giả thuyết 7
a) Với mức ý nghĩa 5%, có bằng chứng nào cho thấy có sự khác biệt về giá nhà của căn nhà có 2 phòng ngủ và căn nhà có 3 phòng ngủ không? 7
b) Với mức ý nghĩa 5%, có bằng chứng nào cho thấy có sự khác biệt về diện tích của căn nhà có 2 phòng ngủ và căn nhà có 3 phòng ngủ không? 8
Bài toán 3: Hồi quy tuyến tính 8
a) Xác định hai biến X và Y 9
b) Xây dựng biểu đồ phân tán 9
c) Hệ số tương quan mẫu 9
d) Phương trình hồi quy tuyến tính 10
e) Kiểm tra độ dốc trong hồi quy 10
Phần 5: Lời kết 10
5.1 Tổng kết kết quả 10
5.2 Phát biểu lại ý nghĩa của dự án 10
Trang 35.3 Phát biểu những kĩ năng học được thông qua việc làm dự án 11
TOPIC: Predict Housing Prices
Phần 1: Introduction
1.1 Giới thiệu về dân số quan tâm (population)
Dân số quan tâm là các căn nhà tại King Country, Hoa Kỳ
1.2 Giới thiệu về những tham số quan tâm (parameter)
Giá nhà_Đô la
Diện tích_Square Feet
1.3 Giới thiệu cụ thể các bài toán, nêu lý do quan tâm đến bài toán
Ước lượng Giá nhà và Diện tích trung bình của nhà ở tại King Country, Hoa Kỳ
Kiểm định xem có sự khác biệt về Giá nhà và Diện tích của nhà có 2 phòng ngủ
và nhà có 3 phòng ngủ không
Tìm mối liên hệ giữa Giá nhà và Diện tích nhà
1.4 Tóm tắt kết quả.
Sử dụng “Khoảng tin cậy” để ước lượng Giá nhà và Diện tích trung bình của nhà
ở tại King Country, Hoa Kỳ
Sử dụng “Kiểm tra giả thuyết” để kiểm định sự khác biệt về Giá nhà và Diện tích của nhà có 2 phòng ngủ và nhà có 3 phòng ngủ
Sử dụng “Phương trình hồi quy tuyến tính” để tìm ra mỗi liên hệ giữa Giá nhà và Diện tích Trả lời cho câu hỏi:“ Có phảinhà có diện tích càng lớn thì giá bán càng cao hay không?”
Phần 2: Thu thập dữ liệu mẫu
2.1 Nêu cách lấy dữ liệu, trích dẫn nguồn dữ liệu
Sử dụng hàm INDEX trong Excel lấy ngẫu nhiên 400 căn nhà trong tổng số nhà của King Country, Hoa Kỳ
Trang 4Nguồn dữ liệu: Predict Housing Prices - Simple Linear Regression | Kaggle
Tác giả: MAYANK SRIVASTAVA
Cập nhật vào tháng 03/2017
2.2 Giải thích tại sao dữ liệu này là hợp lý cho bài toán
Diện tích là một trong những yếu tố quan trọng ảnh hưởng đến giá nhà cùng với các yếu
tố khác như vị trí, tiện ích xung quanh, chất lượng xây dựng, trạng thái thị trường bất động sản, và các yếu tố kinh tế, chính trị, xã hội Hiểu được mối quan hệ này có thể giúp nhà đầu tư, các chủ sở hữu bất động sản, các nhà phát triển bất động sản và người mua bán nhà định giá chính xác hơn, tăng tính khả thi và hiệu quả của các quyết định liên quan đến bất động sản
2.3 Đính kèm link file Excel chứa dữ liệu (và tính toán)
Phần 3: Mô tả dữ liệu mẫu
3.1 Tính các thống kê quan trọng: trung bình, độ lệch chuẩn, Q1, Q2, Q3
Công thức:
Trung bình : = =
Phương sai mẫu:
Độ lệch chuẩn mẫu: S =
Q1 =
Q2 =
Q3 =
Giá nhà (Đô la) Diện tích(square feet)
Mean ( X ) 519954.1275 2078.035
Trang 5Standard Error 18058.4461 43.86916392
t(α/2, df) 1.965927296 1.965927296
3.2 Vẽ các biểu đồ thích hợp để tổng kết dữ liệu m : biểu đồ cột, biểu đồ hộp,… ẫu
Giá nhà
Biểu đồ cho thấy giá nhà của dân số tập trung nhiều nhất trong khoảng từ 153,000 đến 323,000 Đô la Và tập trung ít nhất trong khoảng từ 2,703,000 đến 2,873,000
Đô la
Diện tích
Trang 6Biểu đồ cho thấy diện tích của dân số tập trung nhiều nhất trong khoảng từ 1400 đến 1820 Sqft Và ít tập trung ít nhất trong khoảng từ 5180 đến 5600 Sqft
Phần 4: Tính toán và kết luận
Bài toán 1: Tìm khoảng tin cậy
a) Xây dựng khoảng tin cậy 95% cho giá nhà trung bình tại King Country, Hoa Kỳ.
Dữ liệu mẫu là giá nhà của 400 căn nhà ngẫu nhiên trong tổng số căn nhà tại King Country, Hoa Kỳ
= 519954.1275; s = 361168.9219; n = 400; df = n-1 = 400-1= 399
1- α = 0.95 => α = 0.05 => = 0.025 => = = 1.9659
Vì σ không biết, nên chúng tôi sử dụng s (độ lệch chuẩn mẫu)
Vì mẫu lớn (n = 400 > 30) Phân phối lấy mẫu của giá trị trung bình là phân phối chuẩn
Sử dụng Phân phối Student’s t
Ước tính khoảng tin cậy:
= 519954.1275 1.9659
= 519954.1275 35501.099
484453.0285 555455.2265
Kết luận: Với độ tin cậy 95%, chúng tôi tin rằng giá nhà trung bình tại King Country, Hoa Kỳ
nằm trong khoảng từ 484453.0285 đến 555455.2265 Đô la
Trang 7b) Xây dựng khoảng tin cậy 95% cho diện tích nhà trung bình tại King Country, Hoa Kỳ.
Dữ liệu mẫu là giá nhà của 400 căn nhà ngẫu nhiên trong tổng số căn nhà tại King Country, Hoa Kỳ
= 2078.035; s = 877.3833; n = 400; df = n-1 = 400-1= 399
1- α = 0.95 => α = 0.05 => = 0.025 => = = 1.9659
Vì σ không biết, nên chúng tôi sử dụng s (độ lệch chuẩn mẫu)
Vì mẫu lớn (n = 400 > 30) Phân phối lấy mẫu của giá trị trung bình là phân phối chuẩn
Sử dụng Phân phối Student’s t
Ước tính khoảng tin cậy:
= 2078.035 1.9659
= 2078.035 86.2424
1991.7926 2164.2774
Kết luận: Với độ tin cậy 95%, chúng tôi tin rằng diện tích nhà trung bình của tại King Country,
Hoa Kỳ nằm trong khoảng từ 1991.7926 đến 2164.2774 Sqft
Bài toán 2: Kiểm định giả thuyết
Đặt: : =
=
a) Với mức ý nghĩa 5%, có bằng chứng nào cho thấy có sự khác biệt về giá nhà của căn nhà có 2 phòng ngủ và căn nhà có 3 phòng ngủ không?
: - = 0
: - ≠ 0 (Kiểm định hai bên)
Cỡ mẫu = = 200 Mức ý nghĩa là 0,05 ( = 0,05), df = + – 2 = 398
Vì và chưa biết, giả sử bằng nhau Sử dụng để ước lượng chưa biết σ Sử dụng Pooled-Variance t test.
Pooled variance là:
==
= 68592946268.631
T statistic là:
Trang 8= = = -2.45
Critical Value = = = = 1.9659
Ta có: < - ➪ Bác bỏ H0
Kết luận: Với mức ý nghĩa 5%, có đủ bằng chứng cho thấy có sự khác biệt về giá nhà của căn
nhà có 2 phòng ngủ và căn nhà có 3 phòng ngủ
b) Với mức ý nghĩa 5%, có bằng chứng nào cho thấy có sự khác biệt về diện tích của căn nhà có
2 phòng ngủ và căn nhà có 3 phòng ngủ không?
: - = 0
: - ≠ 0 (Kiểm định hai bên)
Cỡ mẫu = = 200 Mức ý nghĩa là 0,05 ( = 0,05), df = + – 2 = 398
Vì và chưa biết, giả sử bằng nhau Sử dụng để ước lượng chưa biết σ Sử dụng Pooled-Variance t test.
Pooled variance là:
==
= 346646.101
T statistic là:
= = = -9.848
Critical Value = = = = 1.9659
Ta có: < - ➪ Bác bỏ H0
Kết luận: Với mức ý nghĩa 5%, có đủ bằng chứng cho thấy có sự khác biệt về diện tích của căn
nhà có 2 phòng ngủ và căn nhà có 3 phòng ngủ
Bài toán 3: Hồi quy tuyến tính
TA CÓ:
= 5.17725E+11
= 207981651
Trang 9= 831214
= 1.60188E+14
= 2034442550
SSXY=- = 5.17725E+11- = 85531424894
SSX= - = 2034442550 - = 307150765.5
= = = 519954.1275
= = =
= = = 278.467
= - = 519954.1275- 278.467 = -58710.5365
a) Xác định hai biến X và Y
Biến độc lập (X) = Square feet
Biến phụ thuộc (Y) = giá nhà tính bằng đô la
b) Xây dựng biểu đồ phân tán
c) Hệ số tương quan mẫu
R Square = 45.76%
Trang 10Hồi quy có mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc 45.76% sự thay đổi của giá nhà được giải thích là do sự thay đổi của đơn vị Square Feet
d) Phương trình hồi quy tuyến tính
Dựa trên dữ liệu từ Excel, chúng ta có phương trình hồi quy là:
= + = -58710.5365 + 278.467X
Ở đây, b1 = 278.467 cho chúng ta biết rằng giá trị trung bình của một ngôi nhà tăng trung bình
$278.467 khi diện tích tăng thêm một Square foot
e) Kiểm tra độ dốc trong hồi quy
Có mối quan hệ tuyến tính giữa X và Y không?
H0: β1 = 0 (không có mối quan hệ tuyến tính)
H1: β1 ≠ 0 (tồn tại mối quan hệ tuyến tính)
p-value = 7.878E-55< 0,05 (mức ý nghĩa) → Bác bỏ giả thuyết H0
Kết luận: Có đầy đủ bằng chứng cho thấy diện tích ảnh hưởng đến giá nhà Nhà có diện tích
càng lớn thì giá càng cao
Phần 5: Lời kết
5.1 Tổng kết kết quả
- Giá nhà trung bình tại King Country, Hoa Kỳ nằm trong khoảng từ 484453.0285 đến 555455.2265 Đô la
- Diện tích nhà trung bình của tại King Country, Hoa Kỳ nằm trong khoảng từ 1991.7926 đến 2164.2774 Sqft
- Có sự khác biệt về giá nhà và diện tích giữa căn nhà có 2 phòng ngủ và căn nhà có 3 phòng ngủ
- Diện tích có ảnh hưởng đến giá nhà Nhà có diện tích càng lớn thì giá càng cao
5.2 Phát biểu lại ý nghĩa của dự án
Nghiên cứu mối quan hệ giữa giá nhà và diện tích giúp cho người mua, người bán và nhà đầu tư trong lĩnh vực bất động sản hiểu rõ hơn về tình hình thị trường bất động sản, từ đó đưa ra quyết định mua bán hoặc đầu tư thông minh hơn Đối với người mua, nghiên cứu này giúp họ đánh giá được giá trị thực của căn nhà mình đang quan tâm Đối với người bán, nghiên cứu giúp họ đưa ra quyết định về giá cả và cách thức tiếp cận thị trường bất động sản Đối với nhà đầu tư, nghiên cứu giúp họ hiểu rõ hơn về tình hình thị trường, đưa ra quyết định về đầu tư bất động sản theo hướng đúng và có lợi
Trang 115.3 Phát biểu những kĩ năng học được thông qua việc làm dự án.
- Kỹ năng đặt vấn đề
- Kỹ năng tìm kiếm, thu thập dữ liệu hợp lý cho bài toán và xử lý các dữ liệu bị lỗi
- Kỹ năng mô tả dữ liệu:
+ Tính các thống kê quan trọng: trung bình, độ lệch chuẩn, Q1, Q2, Q3… + Sử dụng biểu đồ trực quan để mô tả dữ liệu
- Kỹ năng sử dụng Excel để mô tả dữ liệu
- Kỹ năng làm việc nhóm