.ƒ _ Dùng lệnh pairs vẽ các phân phối của biến price lần lượt theo các bién sqft above, sqft basement va sqft living.... Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều n
Trang 1DAI HOC QUOC GIA THANH PHO HO CHI MINH TRUONG DAI HOC BACH KHOA KHOA KHOA HOC & KY THUAT MAY TINH
GVHD:
SV thuc hién: Nguyễn Kiều Dung Hà Phan Thiên Phú 2011826 L0
Trần Hà luấn Kiệt 201149 LO Nguyễn Huy Hoàng 201 20 L07
Lê Quốc Trạng 2014812 LO Đặng Đức Danh 201017 L0
Tp Hồ Chí Minh, Tháng 11/2021
Trang 2Mục lục
1.1 Khai niém 0 nh 6 eSRERA II a ai aaaA sa a
2.2 a Chuyển déi bién bién price, sqft above, sqft_ living, sqft basement lan lugt thanh log(price), log(sqft above), log(sqft _basement), log(sqft_ baserment) Từ đây mọi sự tính toán với các biến trên được hiểu là đã qua đổi biến dạng log
2.2 b_ Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới dạng bằng 5 2.2 c Đối với các biến phân loại, lập một bảng thống kê số lượng cho
2.2 .d Ding ham hist() để vẽ đồ thị phân phối của biến price 6 2.2 .e_ Dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floor, view và biến condition 7 2.2 .ƒ _ Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các bién sqft above, sqft basement va sqft living 1 2.2.4 Xây dựng mô hinh héi quy tuyén tinh (Fitting linear regression models) 15
2.2.4.a Xay dựng mô hình 1 ( dùng lệnh Im() để thực thi mô hình) 15 2.2.4b_ Xây dụng mô hinh 2 Q2 16 2.2.4c Suy luận sự tác động của các biến lên giá nhà 17 2.2.4d Vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo 17 2.2.4e Dự báo (PredicliOns) cu vao 18
lo Ditléu cu cv nà vn v v lv g vi lv v v k kg va xa ia 19 2_ Các bước thực hiện cu nà cv và lv v vi v v và va va 20
2.1 Đọc dữ liệu (Import dat) ee 20 32.2_ Làm sạch dữ liệu (Data cleaning) 2 20
2 Lam rõ dit liéu (Data visualization) ee 22
2 .a _ Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới dạng bằng 22 2 b_ Đối với các biến phân loại, lập một bảng thống kê số lượng cho
.2 c Dùng hàm hist() để vẽ đồ thị phân phối của biến Price Of_ Unit 2 2 d_ Dùng hàm boxplot() vẽ phân phối của biến Price Of_ Unit cho từng nhóm phân loại của bién Num_of_conv 24 2 e Dùng lệnh pairs() vẽ các phân phối của biến Price Of Unit lần
lượt theo các biến House_ Age, Distance_ Station, Latitude, Lon-
gitude 2 Q Q Q Q Q Q Q ng ng k k k k v k va 28 2.4 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models) 0
.2.4.a _ Xây dựng mô hình 1 ( dùng lệnh Im() để thực thi mô hình) 0 2.4b_ Xây dụng mô hỉnh 2 Q2 1 2.4.c _ Suy luận sự tác động của các biến lên giá bất động sẵn .2.4.d _ Vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 1/35
Trang 3> Khoa Khoa Học & Kỹ Thuật May Tính
Trang 41 Giới thiệu đề tài
1.1 Khái niệm cơ bản
Hồi quy tuyến tính chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến) Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý, Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục, Lương của một người phụ thuộc
vào chức vụ, kinh nghiệm, độ tuổi,
Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên các giá trị trung bình của các mẫn quan sát từ các nhóm này, và thông qua kiểm định giả thiết để kết luận về sự bằng nhan của các trung bình tổng thể này Phép phân tích phương sai được dùng trong các trắc nghiệm để
so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số Đây có thể được xem nhĩ phần mở rộng các trắc nghiệm + hay z (so sánh hai giá trị trung bình)
Các biến chính trong bộ dữ liệu
e price: Giá nhà được bán ra
floor: Số tầng của ngôi nhà được phân loại từ 1- 5
condition: Điều kiện kiến trúc của ngôi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt
view: Đánh giá cảnh quan xung quanh ngôi nhà theo mức độ từ thấp đến cao: 0 - 4
sgft_ above: Diện tích ngôi nhà
sgft_ living: Diện tích khuôn viên nhà
sqft_ basement: Diện tích tầng ham
Trang 5> Khoa Khoa Học & Kỹ Thuật May Tính OUTPUT
2.2.2 Lam sach dit liéu (Data cleaning)
Trich ra mot dit liéu con dat tén la new_ DF chi bao gồm các biến chính mà ta quan tâm như đã
trình bày trong phần giới thiệu dữ liệu Từ câu hỏi này về sau, mọi yêu cần xử lý đều dựa trên tập dữ
liệu con new_ DE này
INPUT
new_ DE <- gia nha|,c(6, 11, 14,1 , 16, 9, 17))) |
Gidi thich: Lay dit liéu 6 cac cét thit 6, 11, 14,1 , 16, 9, 17 trong dit liéu gia_ nha tương ứng với các
biến trên yêu cầu đề bài và đặt tên new_ DE
OUTPUT
© ` assignmentr new_DF gia_nha
Filter price floors condition view sqft_above sqft_living sqft_basement
Trang 6Giải thích: Kiểm tra và xuất ra giá trị khuyết của các biến trong đữ liệu new_ DF
- Các giá trị NA xuất hiện ngẫu nhiên, không theo một trật tự hay một logic nào cho trước
- Chỉ có 20 dòng bị khuyết, rất nhỗ so với cỡ mẫn (hơn 20.000 giá trị)
Do đó ta sẽ xóa các biến bị khuyết trong tập dữ liệu
INPUT
new DF <- na.omit(new_DF))
Giải thích: Xóa bỏ các hàng có gid tri NA
2.2.3 Làm rõ dữ liệu (Data visualization)
2.2.3.a Chuyển đổi biến biến price, sqft above, sqft living, sqft basement lần lượt thành log(price), log(sqft above), log(sqft basement), log(sqft_ basement) Từ đây mọi sự tính toán với các biến trên được hiểu là đã qua đổi biến dạng log INPUT
new_ DF, c(1, 5, 6)] <- log(new_ DFT, c(1, 5, 6)])
new DF$sqft_basement[which(new_DF$sqft basement != 0)| <-
log(new_ DF $sqft_basement[which(new_ DF $sqft_ basement != 0)])
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 5/35
Trang 7> Khoa Khoa Học & Kỹ Thuật May Tính
lién tuc (price, sqft above, sqft living,sqft basement) va liu vao datal
Đổi tên các hàng 6 datal thanh MEAN, MEDIAN, SD, MIN, MAX
price sqft_above sqft_living sqft_basement MEAN 13.047841 7.3948826 7.3303286 2.528378 MEDIAN 13.017003 7.3524411 7.5548585 0.000000
SD 0.526574 0.4276433 0.4247722 3.169678 MIN 1.225243 5.6698809 5 6698809 0.000000 MAX 15.856731 9.1495282 9.3134033 8.480529
data2 <- apply(new_ DF|[,c("floors
data2 condition", "view")|, 2, table)
ylab = "NUMBER OF HOUSES",
main = "DISTRIBUTION OF PRICE",
Trang 8- Tên trục hoành: PRICE
- Tén truc tung: NUMBER OF HOUSES
- Tén biéu dé: DISTRIBUTION OF PRICE
- Thêm số vào phía trên mỗi cột của biểu đồ
- Dựa trên đồ thị, ta thấy giá tiền của mỗi căn nhà (tính theo log) tập trung phần lớn trong khoảng 12_ 14 và giảm dần về hai phía
- Cao nhất ở125 1 và thấp nhất ở 15.5 16 va 11 - 12
* Qua đó ta thấy rằng, các nhà đầu tư chủ yếu tập trung vào phân khúc nhà ở trung bình vừa để phù hợp với nhu cầu của mọi người thay vì đầu tư những căn nhà giá quá cao hay quá thấp 2.2.3.e Dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floor, view và biến condition
price_by_ floors <- boxplot{ new_DF$price ~ new_DF$floors, ylab = "PRICE", xlab = "FLOORS", main = "DISTRIBUTION OF PRICE BY FLOORS", col=rgb(2 8/255,66/255,102/255))
data_price_by_ floors <- price_by_ floors$stats
colnames(data_ price _by_ floors) <- c("1", "1.5", "2", "2.5", " ") " 5")
rownames(data_price_by_ floors) <- c{"extreme of the lower whisker", "first quartile", "median", "third quartile", "extreme of the upper whisker")
data_price_by_ floors
Giai thich: Vé biéu dé Boxplot của biến price cho từng nhóm phân loại của biến floor với các tùy
chọn:
- Tên trục hoành: PLOORS
- Tên trục tung: PRICE
- Tén biéu dé: DISTRIBUTION OF PRICE BY FLOORS
OUTPUT
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 7/35
Trang 9> Khoa Khoa Học & Kỹ Thuật May Tính
NHAN XET
GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 1:
Median = 12.87, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.87
Bach phân vị Q1 = 12.5, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.5 Bách phân vị Q_ = 1 18, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 18
Độ trải giữa IQR)=Q_ QI= 0.6
Hinges trên = Q_ + 1.5*IQR = 1 18 + 1.5*0.65 = 14.155, có nghĩa là giá nhà cao nhất khoảng 14.155
Hinges dưới = Q1 - 1.5*IQR = 12.5 - 1.5*0.65 = 11.555, có nghĩa là giá nhà thấp nhất khoảng 11.555
Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 155:
- Median = 1 17, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bing 1 17
- Bách phân vị Q1 = 12.78, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.78
- Bách phân vị Q_ = 1 44, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 44
- Độ trải giữa IQR) =Q QI=0.66
- Hinges trén = Q + 1.5*IQR = 1 44 + 1.5*0.66 = 14.4, có nghĩa là giá nhà cao nhất khoảng 14.4
- Hinges dưới = QI - 1.5*IQR = 12.78 - 1.5*0.66 = 11.79, có nghĩa là giá nhà thấp nhất khoảng 11.79
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
Trang 10Bach phân vị Q1 = 12.85, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.85 Bách phân vị Q_ = 1 ð56, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 56
- Độ trải giữa IQR) =Q_ QI=0.71
- Hinges trén = Q + 1.5*IQR = 1 56 + 1.5*0.71 = 14.625, có nghĩa là giá nhà cao nhất khoảng 14.625
- Hinges dưới = QI - 1.5*IQR = 12.85 - 1.5*0.71 = 11.785, có nghĩa là giá nhà thấp nhất khoảng 11.785
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 3.5:
Median = 1 59, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1 59
Bach phân vị Q1 = 12.22, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.22 Bách phân vị Q_ = 14.08, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.08
Độ trải giữa IQR) =Q_ QI= 1.86
- Hinges trên =Q_ + 1.5*IQR = 14.08 + 1.5*1.86 = 16.87, có nghĩa là giá nhà cao nhất khoảng 16.87
- Hinges dưới = Q1 - 1.5*IQR = 12.22 - 1.5*1.86 = 9.4, có nghĩa là giá nhà thấp nhất khoảng 9.4
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 3:
Median = 1 102, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.102
Bach phân vị Q1 = 12.86, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.86 Bách phân vị Q =1 6, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 6
Độ trải giữa IQR)=Q_ QI=05
Hinges trên =Q_ + 1.5*IQR =1 6 + 1.5*0.5 = 14.11, có nghĩa là giá nhà cao nhất khoảng 14.11
- Hinges dudi = Q1 - 1.5*IQR = 12.86 - 1.5*0.5 = 12.11, có nghĩa là giá nhà thấp nhất khoảng 12.11
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 3.5:
- Median = 1 189, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1 189
- Bách phân vị Q1 = 1 125, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 125
- Bách phân vị Q_ = 1 574, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 574
- Độ trải giữa IQR) =Q_ QI =0.449
Hinges trên =Q_ + 1.5*IQR = 1 574 + 1.5*0.449 = 14.2475, có nghĩa là giá nhà cao nhất khoảng 14.2475
Hinges dudi = Q1 - 1.5*IQR = 1 125 - 1.5*0.449 = 12.5765, có nghĩa là giá nhà thấp nhất khoảng 12.5765
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
Tương tự giá nhà ứng với biến floor, ta có giá nhà ứng với các biến view và condition như sau
INPUT
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 9/35
Trang 11> Khoa Khoa Học & Kỹ Thuật May Tính
price by condition <- boxplot(new_ DF$price ~ new_ DF§condition, ylab = "PRICE", xlab = "CON- DITION", main = "DISTRIBUTION OP PRICE BY CONDITION", col=rgb(2 8/255,66/255,102/255)) data_price_by_ condition <- price_by_ condition$stats
colnames({data_ price by condition) <- c("1", "2", " ", "4", "5")
rownames(data_price_by_ condition) <- ¢{"extreme of the lower whisker", "first
quartile", "median", "third quartile", "extreme of the upper whisker")
data price by _ condition
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 1:
Median = 12.477, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.477
Bach phân vị Q1 = 11.918, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 11.918 Bách phân vị Q_ = 12.977, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 12.977
Độ trải giữa IQR)=Q_ QI= 1.059
Hinges trén = Q +4 1.5*IQR = 12.977+ 1.5*1.059 = 14.5655, có nghĩa là giá nhà cao nhất khoảng 14.5655
Hinges dưới = QI - 1.5*IQR, = 11.918 - 1.5*1.059 = 10 295, có nghĩa là giá nhà thấp nhất khoảng
10 295
Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 2:
Median = 12.5 9, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.5 9
- Bách phân vị Q1 = 12.152, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.152
- Bách phân vị Q_ = 12.895, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 12.895
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 10/35
Trang 12- Độ trải giữa IQR) =Q_ QI=0.74
Hinges trén = Q +4 1.5*IQR = 12.8954 1.5*0.74 = 14.0095, có nghĩa là giá nhà cao nhất khoảng 14.0095
Hinges dudi = Q1 - 1.5*IQR = 12.152 - 1.5*0.74 = 11.0 75, có nghĩa là giá nhà thấp nhất khoảng 10.0 75
Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 3:
Median = 1 017, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.017
Bach phân vị Q1 = 12.706, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.706
- Bách phân vị Q =1 69, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng I 69
- Độ trải giữa IQR) =Q Q1=0.66
- Hinges trên =Q + 1L5*IQR=1 69+ 1.5*0.66 = 14 6 5, có nghĩa là giá nhà cao nhất khoảng
14 6 5
- Hinges dudi = Q1 - 1.5*IQR = 12.706 - 1.5*0.66 = 11.7115, có nghĩa là giá nhà thấp nhất khoảng 11.7115
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 4:
- Median = 12.994, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.994
- Bách phân vị Q1 = 12.628, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.628 Bách phân vị Q =1 45, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 45
Độ trải giữa IQR)=Q_ QI=0717
Hinges trén = Q 4 1.5*IQR=1 455+ 1.5*0.717 = 14.421, có nghĩa là giá nhà cao nhất khoảng 14.421
- Hinges dưới = Q1 - 1.5*IQR = 12.628 - 1.5*0.717 = 11.5525, có nghĩa là giá nhà thấp nhất khoảng 11.5525
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 5:
Median = 1 174, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.174
Bach phân vị Q1 = 12.765, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.765 Bách phân vịQ_ =1 49., có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 49
Độ trải giữa IQR)=Q_ QI=0.728
Hinges trên =Q_ + 1.5*IQR = 1 49 + 1.550.728 = 14.585, có nghĩa là giá nhà cao nhất khoảng 14.585
Hinges dưới = QI - 1.5*IQR, = 12.765 - 1.5*0.728 = 11.67, có nghĩa là giá nhà thấp nhất khoảng 11.67
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
INPUT
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 11/35
Trang 13> Khoa Khoa Học & Kỹ Thuật May Tính
price by view <- boxplot(new_ DF§price ~ new DE§view, ylab = "PRICE", xlab = "VIEW", main
= "DISTRIBUTION OF PRICE BY VIEW", col=rgb(2 8/255,66/255,102/255))
data price by view <- price by view$stats
colnames(data price by view) <- c("0", "1", "2", " ", "4")
rownames(data_price_by_ view) <- c{"extreme of the lower whisker", "first
quartile", "median", "third quartile", "extreme of the upper whisker")
extreme of the upper whisker 14 28551 14.62644 14.73180 14.97901 15 49261
`
NHAN XET
GIA NHA UNG VGI DIEU CANH QUAN XUNG QUANH NHA BANG 0:
- Median = 12.977, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.9777
Bach phân vị Q1 = 12.647, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.647
- Bách phân vị Q =1 04, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 04
- Độ trải giữa IQR) =Q QI=0.657
- Hinges trên = Q + 1.5*IQR =1 04+ 1.5*0.657 = 14.2895, có nghĩa là giá nhà cao nhất khoảng 14.2895
- Hinges dưới = QI - 1.5*IQR = 12.647 - 1.5*0.657 = 11.665, có nghĩa là giá nhà thấp nhất khoảng 11.6615
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 1:
- Median = 1 442, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.442
- Bách phân vị Q1 = 1 119, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 119
- Bách phân vị Q_ = 1 725, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 725
- Dé trai gita (IQR) = Q = QI = 0.606
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 12/35
Trang 14Hinges trén = Q + 1.5*IQR = 1 725-+- 1.5*0.606 = 14.6 4, có nghĩa là giá nhà cao nhất khoảng 14.6 4
- Hinges dưới = Q1 - 1.5*IQR = I 119 - 1.5*0.606 = 12.21, có nghĩa là giá nhà thấp nhất khoảng 12.21
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 2:
- Median = 1 422, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.442
- Bách phân vị Q1 = 1 092, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 092
- Bách phân vị Q =1 75., có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 75
- Độ trải giữa (IQR) =Q_ QI= 0.661
- Hinges trên = Q + 1.5*IQR,= I 75 + 1.5*0.661 = 14.7445, có nghĩa là giá nhà cao nhất khoảng 14.7445
- Hinges dưới = Q1 - 1.5*IQR = 1.092 - 1.5*0.661 = 12.1005, có nghĩa là giá nhà thấp nhất khoảng 12.1005
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 3:
- Median = 1 598, c6 nghia là có 50% căn có giá nhà thấp hơn hoặc bằng 1 598
- Bách phân vị Q1 = 1 2 5, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 2 5
- Bách phân vị Q_ =14.045, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.045
- Độ trải giữa TQR) =Q QI=0.SI1
- Hinges trén = Q + 1.5*IQR = 14.0454 1.5*0.81 = 15.26, có nghĩa là giá nhà cao nhất khoảng 15.26
Hinges dưới = Q1 - 1.5*IQR = 1 2 5 - 1.5*0.81 = 12.02, c6 nghia 1A gid nha thấp nhất khoảng 12.02
Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 4:
Median = 1 985, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.985
Bach phân vị Q1 = 1 614, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 614 Bách phân vị Q_ =14.4 0, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.4 0
Độ trải giữa IQR)=Q_ Q1=0.816
Hinges trén = Q + 1.5*IQR = 14.4 0+ 1.5*0.816 = 15.654, có nghĩa là giá nhà cao nhất khoảng 15.654
Hinges dưới = Q1 - 1.5*IQR = 1 614 - 1.5*0.816 = 12 9, có nghĩa là giá nhà thấp nhất khoảng
12 9
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
2.2.3.7 Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến sgft_ above, sqft basement va sqft_living
INPUT
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 13/35
Trang 15
> Khoa Khoa Học & Kỹ Thuật May Tính
pairs(new_ DF $price ~ new_DF$sqft_ above, labels = c{"price", "sqft above"), col= "#2d 166", main
= "DISTRIBUTION OF PRICE BY SQFT_ ABOVE")
pairs(new_ DF $price ~ new_DF$sqft_ living, labels = c({"price", "sqft_ living"), col= "#2d 166", main
= "DISTRIBUTION OF PRICE BY SQFT_ LIVING")
pairs(new_DF$price ~ new DF$sqft basement, labels = c("price", "sqft basement"), col=
"49d 166", main = "DISTRIBUTION OF PRICE BY SQFT BASEMENT")
Trang 16&
- Ty cdc dé thi phan tan cia bién price theo sqft basement, sqft above va sqft living Ta nhan thy cdc bién sqft_ basement, sqft_ above, sqft_ living cd quan hé tuyén tinh vdi price vi cdc diém trong đồ thị tập trung xung quanh đường chéo của đồ thị hay cồn gọi là đường hồi quy
- Qua đó ta có thể kết luận được diện tích nhà có ảnh hưởng đáng kể đến giá trị của ngôi nhà, diện tích nhà càng lớn thì giá trị của căn nhà càng cao Tuy nhiên vẫn có một số trường hợp đặc biệt
dù diện tích nhỏ nhưng giá trị vẫn cao, vì vậy ngoài phụ thuộc vào diện tích, giá nhà còn có thể
phụ thuộc vào các giá trị ngoại lai khác
2.2.4 Xây dựng mô hình hồi quy tuyến tinh (Fitting linear regression models)
2.2.4.a Xây dựng mô hình 1 ( dùng lệnh Im() để thực thi mô hình)
MÔ HÌNH 1
® price : biến phụ thuộc
e floors : biến phân loại
e condition : biến phân loại
e view: biến phân loại
Estimate Std ror t value Prc=}|tl|)
Signif codes: @ *w “” Ø_OOI1 “**” O_ O1 “**" O.ØO5S “.'" O.1 £ 2
Residual standard error: 0.3644 on 21576 degrees of freedom
Multiple squared: O.5216, Adjusted R-squared: 0.5212
F-statistic: 1470 on 16 and 21576 OF, p-value: 2.2e-16
Xét mức ý nghĩa 5%
GIA THIET
ệ số hồi quy có ý nghĩa thống kê
số hồi quy không có ý nghĩa thống kê
Đề bài tập lốn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 15/35
Trang 17
Khoa Khoa Học & Kỹ Thuật May Tính
KIEM DaNH TRa SỐ P
Phương pháp kiểm dinh bing p - value (Pr(>|t|))
- Pr(>|t]) > mức ý nghĩa a > chap nhận giả thiết H0, tức hệ số hồi quy ứng với biến phụ thuộc không có ý nghĩa thống kê, ta sẽ loại biến phụ thuộc đó ra khéi mô hình
- Pr(>|t]) < mức ý nghĩa œ -› chấp nhận giả thiết HI, tức hệ số hồi quy ứng với biến phụ thuộc có
ý nghĩa thống kê, ta sẽ nhận kết quả biến phụ thuộc
NHẬN XÉT: Dựa vào kết quả, xét mức ý nghĩa 5%, ta sẽ loại bỏ biến condition2, condition 2.2.4.b Xây dụng mô hỉnh 2
Xét 2 mô hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:
- Mô hình modell chứa tất cả các biến
- Mô hình model2 không chứa biến condition
MÔ HÌNH 2
® price : biến phụ thuộc
sqft_ basement : biến phụ thuộc
floors : biến phân loại
view: biến phân loại
as.factor Cview)4 0.613655 0.021011 29.206 2e-1G #**%
sqft_basement 0.039792 0.001983 20.062 < 2Be-16 vyryrsr Signif codes: O “***” O.OOL “**” O.O1 *” O.OS “ 7” O.1 “ ' 1 Residual standard error: 0.3669 on 21580 degrees of freedom
Multiple R-squared: 0.5148, Adjusted R-squared: 0.5145
F-statistic: 1908 on 12 and 21580 OF, p-value: =< 2.2e-16
Dùng lệnhh anova() dé dé xuất mô hình hồi quy hợp lý hơn
INPUT
Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 16/35
Trang 18
- Hai mô hình modell và model2 giỗng nhau
- Hai mô hình model1 và model2 khác nhau
OUTPUT
Analysis of variance Table Model 1: price ~ as factor ( (condition) + as.factor(floors) + as.factor(view) + sqft_above + sqft_livi g + soft basement
Model 2: price ~ as.factor(floors) + as.factor(view) + sqft_above + sqft_living + sqft_basement
- Theo kiém dinh p value, dựa vào output, với mức ý nghĩa œ — 0,05, ta sẽ loại bỏ giả thiết H0,
tức 2 mô hình modell va model2 khac nhau
- Quay lại mô hình model2, ta thấy rằng mô hình đã loại bỏ biến condition so với mô hình modell,
ở mô hình modell ta chỉ loại bỏ biến condition2, condition trong số 5 biến phân loại condition,
vì vậy mô hình modell có nhiều hơn biến có ý nghĩa thống kê so với mô hình model2
- Qua đó, để có kết quả chính xác nhất, ta sẽ chọn mô hình model1 để tiếp tục phân tích cho các câu tiếp theo
2.2.4.c Suy luận sự tác động của các biến lên giá nhà
GIẢI THÍCH
- Để đánh giá sự tác động của các biến lên giá nhà, ta quan tâm các hệ số hồi quy p - value tương
ứng Với các biến floorsl.5, floors2, floors2.5, floors , sdft basement, sqft_ above, sgft_ living, p-
value < 2*10-16, rất có ý nghĩa rất lớn lên biến giá nhà price Ngoài ra còn có sự ảnh hưởng của, các biến khác như condition , condition4, condition5, floors 5 lên giá nhà nhưng lại ít ảnh hương hơn các biến đề cập trên biến condition2 với p value = 0.484647, không có ý nghĩa với mô hình hồi quy nên không có ảnh hưởng nhiều đến giá nhà
- Hệ số hồi quy của 1 biến dự báo (hệ số Ø, xem ở cột Estimate) cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là giá nhà khi tăng 1 đơn vị của biến dự báo đó (giả sử khi các biến
dự báo khác không đổi) Ví dụ, hệ số hồi quy ứng với sqft above = = 0.5609 2 khi sqft_ above tăng 1m2 thì ta có thể kỳ vọng giá nhà có thể tăng 0.5609 2 (giả sử rằng các biến dự báo còn lại không đổi) Tương tự cũng như hệ số hồi quy ứng với condition4 = 0.146 04 thì ứng với condition4 ting 1 thi ta có thể kỳ vọng giá nhà tăng 0.146 04 (giả sử rằng các biến dự báo còn lại không đổi),
tương tự cho các biến còn lại
2.2.4.d Vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo