6 2.2.3.e Dùng hàm boxplotQ vẽ phân phối của biến price cho từng nhóm phân loại của biến floor, view và biến condiion.. 22 Đối với các biến phân loại, lập một bảng thống kê số lượng ch
Trang 1TRUONG DAI HOC BACH KHOA KHOA KHOA HOC & KY THUAT MAY TINH
Tra Ha Tuấn Kiệt 3 2011493 3 L03
Nguyễn Huy Hoàng 3 2013230 3 L0Ơ7
Lê Quốc Trạng 3 2014812 3 L03 Đặng Đức Danh 3 2010173 3 L03
Tp HồChí Minh, Tháng 11/2021
Trang 22.2 Cdc buoéc thuc hién 2 Q Q Q Q Q Q Q Q Q H ng ng 2v 2 v2 v3 v2 3
22.1 Đọc dữ liệu (Import data) Q Q Q Q Q Q Q Q Q Q và 3 2.2.2 Làm sạch dữ liệu (Data cleaning)
2.2.3 Lam r6 di liéu (Data visualization) 2 2 2 2 5
2.2.3.a Chuyển đổi biến biến price, sqft_above, sqft_living, sgf_basement lầ› lượt thành log(price), log(sqft_above), log(sqft_basement), log(sqft_basement) Tw day moi sự tính
toán với các biến trên được biểu là đã qua đổi biến dạng log
2.2.3.6 D6i voi cdc biến liên tục, hãy tính các giá trị thống kê mô tả bao gầm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị
nhỏ nhất Xuất kết quả dưới dạng bảng 5
2.23.c Đối với các biến phân loại, lập một bảng thống kê số lượng cho
2.23.d Dùng hàm hist(Q để vẽ đồ thị phân phối của biến prce 6
2.2.3.e Dùng hàm boxplotQ vẽ phân phối của biến price cho từng nhóm phân loại của biến floor, view và biến condiion H 2.23f Dùng lệnh pairsQ) vẽ các phân phối của biến price lần lượt theo các biến sdft above, sqft basement và sqft living 13
224 Xây dựng mô hình hồ quy tuyén tinh (Fitting linear regression models) 15
2.2.4.a Xay dung m6 hinh 1 ( dụng lệnh ImQ để thực thí mô hình) 15 2.2.4.6 Xây dụng mô hinh 2 ko 224244232 + 1 2.2.4c Suy luận sự tác động của các biến lên giá nhà ¬—— 17 2.24d Vẽ đồ thị biểu thị sai số hồ quy và giá trị dự báo 17 2.24e Dự báo (Predictions) Q2 2243x322 T8
3.2.1 Doc dữ liệu (Import đata) Ặ ee 20
3.2.3 Làm rõ dữ liệu (Data visualization) sẻ + + 22
3.2.3.a
3.2.3.b
3.2.3.c 3.2.3.d
Đối với các biến liên tục, hãy tính ¿ các giá trị ‘thong “kê mô tả bao gầm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị
nhỏ nhất Xuất kết quả dưới dạng bảng 22
Đối với các biến phân loại, lập một bảng thống kê số lượng cho
Dùng hàm histQ để vẽ đồ thị phân phối của biến Price Of Unit 23
Dùng hàm boxplotQ vẽ phân phối của biến Price Of Unit cho từng nhóm phân loại của biến Num_ of con 24 3.2.3.e Dùng lệnh pairsQ vẽ các phân phối của biến Price Of Unit Lần lượt theo các biến House_Age, Distance_Staton, Latitude, Lon-
3.24 Xây dựng mô hình hồ quy tuyến tính (Fitting linear regression models) 30
3.24a Xây dựng mô hình l ( dụng lệnh ImQ để thực thí mô hình) 30
3.2.4c Suy luận sự tác động của các biến lên giá bất động sản 33 3.24d Vẽ đồ thị biểu thị sai số hồ quy và giá trị dự báo 33
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 1/35
Trang 3> Khoa Khoa Hoc & Ky Thuật Máy Tính
Trang 41 Giới thiệu đề tài
11 Khái niệm cơ bản
Hồ quy tuyến tính chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ
thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhii biến độc lập được gọi là hồ quy bội (hay còn gọi là h quy đa biến) Ví dụ: Chi tiêu của hộ gia đình về thực
phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý, Tỳ lệ tử vong trẻ em của một quốc
gia phụ thuộc vào thu nhập bình quân đầi người, trình độ giáo dục Lương của một người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,
Phép phân tích phương sai là so sánh trung bình của 2 hay nhi@ nhóm dựa trên các giá trị trung
bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thiết để kết luận về sự bằng nhau của các trung bình tổng thể này Phép phân tích phương sai được dùng trong các trắc nghiệm để
so sánh các giá trị trung bình của hai hay nhiêi mẫu được lấy từ các phân số Đây có thể được xem như
phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình)
bao gần các thuộc tính mô tả chất lượng ngôi nhà
Các biến chính trong bộ dữ liệu
* price: Gid nha được bán ra
« ñoor: Số tầng của ngôi nhà được phân loại tr 1 - 3.5
condition: Di kiện kiến trúc của ngôi nhà từ l - 5, 1: rất tệ và 5: rất tốt
view: Đánh giá cảnh quan xung quanh ngôi nhà theo mức độ từ thấp đến cao: 0 - 4
sgf( above: Diện tích ngôi nhà
sdft living: Diện tích khuôn viên nhà
Trang 5Khoa Khoa Học & Kỹ Thuật Máy Tính
2.2.2 Làm sạch dữ liệu (Data cleaning)
Trích ra một dữ liệu con đặt tên là new_DE chỗ bao gầm các biến chính mà ta quan tâm như đã
trình bày trong phần giới thiệu dữ liệu Từ câu hỏi này về sau, mọi yêu cầi xử lý đồi dựa trên tập dữ
liệu con new_DE này
INPUT
new_DF <- gia_nha[,c(6, 11, 14, 13, 16, 9, 17]
Giải thích: Lấy dữ liệu ở các cột thứ 6, 11, 14, 13, 16, 9, 17 trong dữ liệu gia nha tương ứng với các
biến trên yêu cầi đề bài và đặt tên new_ DE
OUTPUT
® ` assignmentr new_DF gia_nha
Filter price floors condition view sqft_above sqft_living sqft_basement
Trang 6- Các giá trị NA xuất hiện ngẫu nhiên, không theo một trật tự hay một logic nào cho trước
- Chỗ có 20 dòng bị khuyết, rất nhỏ so với cỡ mẫu (hơn 20.000 giá trị)
Do đó ta sẽ xóa các biến bị khuyết trong tập dw liệu
INPƯT
new_DF <- na.omit(new_DF))
Giải thích: Xóa bỏ các hàng có giá trị NA
2.2.3 Làm rõ dữ liệu (Data visualization)
2243.a Chuyển đổi biến biến price, sqft_above, sqft_living, sqft_basement | lượt
thành log(price), log(sgft above), log(sqft_basement), log(sqft_basement) Tw
đây mọi sự tính toán với các biến trên được hiểu là đã qua đổi biến dạng log
INPƯT
new_DF[, c(1, 5, 6)] <- log(new_DF[, c(1, 5, 6)])
new_DF$sqft_basement[which(new_DF$sqft_basement != 0)] <-
log(new_DF$sqft_basement[which(new_DF$sqft_basement != 0)])
Giải thích: Tính log các giá trị cột 1, 5, 6 (tức các biến đề bài yêu cần) của dữ liệu new_DE và gán đè ngược lại vào lại chính dữ liệu new_DE Riêng biến sqft basement thì ta chỗ log các giá trị khác 0
223.b Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gần: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới
dạng bảng
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 5/35
Trang 7Đổi tên các hàng ở datal thanh MEAN, MEDIAN, SD, MIN, MAX
price sqft_above sqft_living sqft_basement MEAN 13.047841 7.3948826 7.3303286 2.528378
ylab = "NUMBER OF HOUSES",
main = "DISTRIBUTION OF PRICE",
ylim = c(0,8000),
labels = TRUE,
Giải thích:
Vẽ biểu đồ historgram cho biến price với các tùy chọn:
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 6/35
Trang 8- Tên trục hoành: PRICE
- Tén truc tung: NUMBER OF HOUSES
- Tén biédu dG DISTRIBUTION OF PRICE
- Thêm số vào phía trên mỗi cột của biểu đồ
- Dựa trên đồ thị, ta thấy giá tiêu của mỗi căn nhà (tính theo log) tập trung phần lớn trong khoảng
12 3 14 và giảm dần về hai phía
- Cao nhất ở 12.5 3 13 và thấp nhất ở 15.5 3 16 và II - 12
* Qua đó ta thấy rằng, các nhà đầi tư chủ yếu tập trung vào phân khúc nhà ở trung bình 3 vừa để
phù hợp với nhu cầi của mọi người thay vì đầi tư những căn nhà giá quá cao hay quá thấp
2.2.3.e Dùng hàm boxplot) vẽ phân phối của biến price cho từng nhóm phân loại của
biến foor, view và biến condition
- Tên trục hoành: FLOORS
- Tên trục tung: PRICE
- Tên biểu đồ DISTRIBUTION OE PRICE BY ELOORS
OUTPUT
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 7/35
Trang 9
lộ Khoa Khoa Học & Kỹ Thuật Máy Tính
DISTRIBUTION OF PRICE BY FLOORS
GIA NHA UNG VOI NHOM SO TANG BANG 1:
- Median = 12.87, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.87
- Bách phân vị QI = 12.53, có nghĩa là có 25% căn có giá nhà thấp hơn
- Bách phân vị Q3 = 13.18, có nghĩa là có 75% căn có giá nhà thấp hơn
- D6 trai gitta (IQR) = Q3 3 Ql = 0.65
- Hinges trên = Q3 + 1.5*IQR = 13.18 + 1.5*0.65 = 14.155, có nghĩa là
Bách phân vị QI = 12.78, có nghĩa là có 25% căn có giá nhà thấp hơn
Bách phân vị Q3 = 13.44, có nghĩa là có 75% căn có giá nhà thấp hơn
Độ trải giữa (IQR) = Q3 3 Q1 = 066
Hinges trên = Q3 + 1.5*IQR = 13.44 + 1.5*0.66 = 14.43, có nghĩa là
giá nhà cao nhất khoảng giá nhà thấp nhất khoảng
Median = 13.17, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.17
Trang 10- Bách phân vị QI = 12.85, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.85
- Bách phân vị Q3 = 13.56, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.56
- D6 trai gitta (IQR) = Q3 3 Ql = 0/71
- Hinges trén = Q3 + 1.5*IQR = 13.56 + 1.5*0./71 = 14.625, có nghĩa là giá nhà cao nhất khoảng
- Median = 13.59, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.59
- Bách phân vị QI = 12.22, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.22
- Bách phân vị Q3 = 14.08, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.08
- Độ trải giữa (IQR) = Q3 3 Ql = 1.86
- Hinges trên = Q3 + 1.5*IQR = 14.08 + 1.5*1.86 = 16.87, có nghĩa là gi
16.87
By nhà cao nhất khoảng
- Hinges dưới = QI - 1.5*IQR = 12.22 - 1.5*1.86 = 9.43, có nghĩa là giá nhà thấp nhất khoảng 9.43
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 3:
- Median = 13.102, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.102
- Bách phân vị QI = 12.86, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.86
- Bách phân vị Q3 = 13.36, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.36
- Độ trải giữa (IQR) = Q3 3 QI = 0.5
- Hinges trên = Q3 + 1.5*IQR = 13.36 + 1.5*0.5 = 14.11, có nghĩa là giá nhà cao nhất khoảng 14.11
- Hinges duéi = Q1 - 1.5*IQR = 12.86 - 1.5*0.5 = 12.11, có nghĩa là giá nhà thấp nhất khoảng 12.11
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 35:
- Median = 13.189, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.189
- Bách phân vị Q1 = 13.125, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 13.125
- Bách phân vị Q3 = 13.574, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.574
- Độ trải giữa (IQR) = Q3 3 Ql = 0449
- Hinges trén = Q3 + 1.5*IQR = 13.574 + 1.5*0.449 = 14.2475, có nghĩa là giá nhà cao nhất khoảng
14.2475
- Hinges dưới = QI - 1.5*IQR = 13.125 - 1.5*0.449 = 12.5765, có nghĩa là giá nhà thấp nhất khoảng
12.5765
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
s Tương tự giá nhà ứng với biến foor, ta có giá nhà ứng với các biến view va condition
Trang 11
>< Khoa Khoa Học & Kỹ Thuật Máy Tính
ptice_by_condition <- boxplot(new_DF$price ~ new_DF$condition, ylab = "PRICE", xlab = "CON- DITION", main = "DISTRIBUTION OF PRICE BY CONDITION", col=rgb(238/255 ,66/255,102/255)) data_price_by_condition <- price_by_condition$stats
colnames(data_price_by_condition) <- c("1", "2", "3", "4", "5")
rownames(data_price_by_condition) <- c("extreme of the lower whisker", "first
quartile’, "median", "third quartile", "extreme of the upper whisker")
NHẬN XÉT
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIẾN TRÚC NHÀ BẰNG I:
- Median = 12.477, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.477
- Bách phân vị QI = 11.918, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 11.918
- Bách phân vị Q3 = 12.977, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 12.977
Độ trải giữa (IQR) = Q3 3 Q1 = 1059
Hinges trên = Q3 + 1.5*IQR = 12.977+ 1.5*1059 = 14.5655, có nghĩa là giá nhà cao nhất khoảng
14.5655
- Hinges dưới = QI - 1.5*IQR = 11.918 - 1.5*1.059 = 10.3295, có nghĩa là giá nhà thấp nhất khoảng
10.3295
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIẾN TRÚC NHÀ BẰNG 2:
Median = 12.539, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.539
Bách phân vị QI = 12.152, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.152 Bách phân vị Q3 = 12.895, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 12.895
`ê bài tấp lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 10/35
Trang 12- Độ trải giữa (IQR) = Q3 3 Q1 = 0.743
- Hinges trén = Q3 + 1.5*IQR = 12.895+ 1.5*0.743 = 14.0095, có nghĩa là giá nhà cao nhất khoảng
14.0095
- Hinges duoi = QI - 1.5*IQR = 12.152 - 1.5*0.743 = 11.0375, có nghĩa là giá nhà thấp nhất khoảng
10.0375
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIẾN TRÚC NHÀ BẰNG 3:
- Median = 13.017, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.017
- Bách phân vị QI = 12.706, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.706
- Bách phân vị Q3 = 13.369, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.369
- Độ trải giữa (IQR) = Q3 3 QI = 0.663
- Hinges trên = Q3 + 1.5*IQR = 13.369+ 1.5*0663 = 14.3635, có nghĩa là giá nhà cao nhất khoảng
14.3635
- Hinges duéi = QI - 1.5*IQR = 12.706 - 1.5*0.663 = 11.7115, có nghĩa là giá nhà thấp nhất khoảng
11.7115
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIẾN TRÚC NHÀ BẰNG 4
- Median = 12.994, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.994
- Bách phân vị QI = 12.628, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.628
- Bách phân vị Q3 = 13.345, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.345
- Độ trải giữa (IQR) = Q3 3 QI = 0/717
- Hinges trên = Q3 + 1.5*IQR = 13.3455+ 1.5*0./717 = 14.421, có nghĩa là giá nhà cao nhất khoảng
14.421
- Hinges dưới = QI - 1.5*#IQR = 12.4628 - 1.5*0./717 = 11.5525, có nghĩa là giá nhà thấp nhất khoảng
11.5525
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIẾN TRÚC NHÀ BẰNG 5:
- Median = 13.174, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.174
- Bách phân vị QI = 12.765, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.765
- Bách phân vị Q3 = 13.493, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.493
- Độ trải giữa (IQR) = Q3 3 QI = 0/728
- Hinges trên = Q3 + 1.5*IQR = 13.493+ 1.5*0.728 = 14.585, có nghĩa là giá nhà cao nhất khoảng
Trang 13rownames(data_price_by_view) <- c("extreme of the lower whisker", "first
quartile’, "median", "third quartile", "extreme of the upper whisker")
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 0:
- Median = 12.977, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.9777
- Bách phân vị QI = 12.647, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.647
- Bách phân vị Q3 = 13.304, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.304
- Độ trải giữa (IQR) = Q3 3 Ql = 0.657
- Hinges trén = Q3 + 1.5*IQR = 13.304+ 1.5*0.657 = 14.2895, có nghĩa là giá nhà cao nhất khoảng
14.2895
- Hinges duwoi = QI - 1.5*IQR = 12.647 - 1.5*0.657 = 11.665, có nghĩa là giá nhà thấp nhất khoảng
11.6615
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 1:
- Median = 13.442, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.442
- Bách phân vị Q1 = 13.119, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 13.119
- Bách phân vị Q3 = 13.725, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.725
- Độ trải giữa (IQR) = Q3 3 QI = 0.606
`ê bài tấp lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 12/35
Trang 14- Hinges trên = Q3 + 1.5*IQR = 13.725+ 1.5*0.606 = 14.634, có nghĩa là giá nhà cao nhất khoảng
14.634
- Hinges dưới = QI - 1.5*lQR = 13.119 - 1.5*0.606 = 12.21, có nghĩa là giá nhà thấp nhất khoảng
12.21
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 2:
- Median = 13.422, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.442
- Bách phân vị QI = 13.092, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 13.092
- Bách phân vị Q3 = 13.753, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 13.753
Độ trải giữa (IQR) = Q3 3 Ql = 0.661
Hinges trên = Q3 + 1.5*IQR = 13.753+ 1.5*0.661 = 14.7445, cé nghia la gid nha cao nhat khoang
14.7445
Hinges dưới = Q1 - 1.5*IlQR = 13.092 - 1.5*0.661 = 12.1005, có nghĩa là giá nhà thấp nhất khoảng
12.1005
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 3:
- Median = 13.598, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.598
- Bách phân vị QI = 13.235, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 13.235
- Bách phân vị Q3 =14.045, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.045
- Độ trải giữa (IQR) = Q3 3 Ql = 081
- Hinges trên = Q3 + 1.5*IQR = 14.045+ 1.5*0.81 = 15.26, có nghĩa là giá nhà cao nhất khoảng
15.26
- Hinges dưới = Q1 - 1.5*IQR = 13.235 - 1.5*0.81 = 12.02, có nghĩa là giá nhà thấp nhất khoảng
12.02
Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 4:
Median = 13.985, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 13.985
Bách phân vị QI = 13.614, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 13.614 Bách phân vị Q3 =14.430, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.430
Độ trải giữa (IQR) = Q3 3 Q1 = 0816
Hinges trên = Q3 + 1.5*IQR = 14.430+ 1.5*0.816 = 15.654, có nghĩa là giá nhà cao nhất khoảng
15.654
- Hinges dưới = QI - 1.5*lQR = 13.614 - 1.5*0.816 = 12439, có nghĩa là giá nhà thấp nhất khoảng
12.39
- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges
2.2.3 Dùng lệnh pairsQ vẽ các phân phối của biến price lần lượt theo các biến sqft above,
sqft_basement va sqft_living INPUT
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 13/35
Trang 15> Khoa Khoa Hoc & Ky Thuật Máy Tính
= "DISTRIBUTION OF PRICE BY SQFT_ABOVE")
= "DISTRIBUTION OF PRICE BY SQFT_LIVING")
pairs(new_DF$price ~ new_DF$sqft_above, labels = c("price", "sqft_above"), col= "#2d3166", main
pairs(new_DF$price ~ new_DF$sqft_living, labels = c("price”, "sqft_living"), col= "#2d3166", main
pairs(new_DF$price ~ new_DF$sqft_basement, labels = c(price°, "sqft_basement"), col=
"#2d3166", main = "DISTRIBUTION OF PRICE BY SQFT_BASEMENT")
Giai thich: Vé phan phdi cia biéh price theo cdc biéh sqft_basement, sqft_above va sqft_living
Trang 16- Từ các đồ thị phân tán cia biéh price theo sqft_basement, sqft_above va sqft_living Ta nhận thấy các bién sqft_basement, sqft_above, sqft_living cé quan hé tuyén tinh với price vì các điểm trong đồ thị tập trung xung quanh đường chéo của đồ thị hay còn gọi là đường hồ quy
- Qua đó ta có thể kết luận được diện tích nhà có ảnh hưởng đáng kể đến giá trị của ngôi nhà, diện tích nhà càng lớn thì giá trị của căn nhà càng cao Tuy nhiên vẫn có một số trưởng hợp đặc biệt
dù diện tích nhỏ nhưng giá trị vẫn cao, vì vậy ngoài phụ thuộc vào diện tích, giá nhà còn có thể
phụ thuộc vào các giá trị ngoại lai khác
2.24 Xây dựng mô hình hồ quy tuyến tính (Fiting linear regression models)
224a Xây dựng mô hình 1 ( dùng lệnh lmQ để thực thí mô hình)
MÔ HÌNH I
* price : biến phụ thuộc
¢ floors : bién phân loại
* conditon : biến phân loại
s view: biến phân loại
thành biến nhân tố (condition, foors,view)
Residuals:
Min 1Q Median 3Q Max
1.19883 -0.27150 0.01417 0.24575 1.41854 coefficients:
Factor Cfloors)2 0.053860 0 0c
-factorCfloors)2-.5 0.259126 °-
as.factorcCfloors)3 0.276378 0.0
as factor Cfloors)3.5 0.378914 o.4 0.003308
as.factorCview)1 0.261560 oO = 2e-16
as.factorCview)2 0.210280 o.¢ 2e-16
Signif codes: QO ‘www? ØO OOI1 *~r? O.-OL *""* O-.05 “.” O.1 * 7 1
Residual standard error: 0.3644 on 21576 degrees of Freedom
Multiple R-squared: GO.5216, Adjusted R-squared: 0.5212
F-statistic: 1470 on 16 and 21576 OF, p- ue: =< 2.2e-16
Xét mức ý nghĩa 5%
GIẢ THIẾT
- Hệ số hồ quy không có ý nghĩa thống kê
- Hệ số h quy có ý nghĩa thống kê
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 15/35
Trang 17> Khoa Khoa Hoc & Ky Thuật Máy Tính
KIỂM ĐàNH TRà SỐ P
Phương pháp kiểm định bằng p - value (Pr(lt))
- Pr&ll) > mức ý nghĩa œ — chấp nhận giả thiết HO, tức hệ số hồ quy ứng với biến phụ thuộc
không có ý nghĩa thống kê, ta sẽ loại biến phụ thuộc đó ra khỏi mô hình
- Pr@&ll) < mức ý nghĩa œ — chấp nhận giả thiết HI, tức hệ số hồ quy ứng với biến phụ thuộc có
ý nghĩa thống kê, ta sẽ nhận kết quả biến phụ thuộc
NHẬN XÉT: Dựa vào kết quả, xét mức ý nghĩa 5%, ta sẽ loại bỏ biến conditon2, condidon3
2.2.4.6 Xay dung m6 hinh 2
Xét 2 mô hình tuyến tính cùng bao gần biến price là biến phụ thuộc nhưng:
- Mô hình modell chứa tất cả các biến
- Mô hình model2 không chứa biến condition
MÔ HÌNH 2
* price : biến phụ thuộc
* sqf( basement : biến phụ thuộc
¢ floors : bién phân loại
¢ view: bién phan loai
thành biến nhân tố (foors,view)
as factor Cview)3 o.296120 0.016751 17.678
as factor cCview)4 0.613655 0.021011 29.206
Signif codes: O ****" O.001 ***" O.01 *** 0.05 '“.” O.1 “ 7 2
Residual standard error: 0.3669 on 21580 degrees of freedom
Multiple R-squared: 0.5148, Adjusted R-squared: 0.5145
F-statistic: 1908 om 12 and 21580 OF, p-value: < 2.2e-16
Dùng lệnhh anovaQ để đề xuất mô hình h quy hợp lý hơn
INPƯT
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 16/35
Trang 18
anova(model I ,model2)
GIA THIET
- Hai m6 hinh modell va model2 giống nhau
- Hai mô hinh modell va model2 khác nhau
OUTPUT
Analysis of Variance Table Model 1: price ~ as.factor(condition) + as.factor(floors) + as.factor(view) + sqft_above + sqft_living + sqft_basement
Model 2: price ~ as.factor(floors) + as.factor(view) + sqft_above + sqft_living + sqft_basement
Res.Df RSS Df Sum of Sq Fo Pr(>F)
1 21576 2864.3
2 21580 2905.1 -4 -40.846 76.921 < 2.2e-16 ***
Signif codes: 0 ‘*#*? 0.001 ‘#*? 0.01 0.05 6.7 01671 NHÂN XÉT:
- Theo kiểm định p 3 value, dựa vào output, với mức ý nghĩa œ = 0/05, ta sẽ loại bỏ giả thiết HO, tức 2 mô hình modell và model2 khác nhau
- Quay lại mô hình model2, ta thấy rằng mô hình đã loại bỏ biến condition so với mô hình modell,
ở mô hình modell ta ch loại bỏ biến condition2, condition3 trong số 5 biến phân loại condition,
vì vậy mô hình modell có nhi hơn 3 biến có ý nghĩa thống kê so với mô hình model2
- Qua đó, để có kết quả chính xác nhất, ta sẽ chọn mô hình modell để tiếp tục phân tích cho các
câu tiếp theo
2.2.4.c Suy ludn su tac động của các biến lên giá nhà
GIẢI THÍCH
- Để đánh giá sự tác động của các biến lên giá nhà, ta quan tâm các hệ số hồ quy p - value tương
tng Voi cdc bién floorsl.5, floors2, floors2.5, floors3, sqft_basement, sqft_above, sqft_living, p - value < 2*10-16 , rat cé6 ý nghĩa rất lớn lên biến giá nhà price Ngoài ra còn có sự ảnh hưởng của các biến khác như condition3, condition4, condition5, floors3.5 lên giá nhà nhưng lại ít ảnh hương hơn các biến đề cập trên biến condiion2 với p 3 value = 0.484647, không có ý nghĩa với mô hình
hồ quy nên không có ảnh hưởng nhiềi đến giá nhà
- Hệ số hồ quy của l biến dự báo (hệ số ÿ xem ở cột Estimate) cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là giá nhà khi tăng l đơn vị của biến dự báo đó (giả sử khi các biến
dự báo khác không đổi) Ví dụ, hệ số hì quy ứng với sgft above = 0.560932 khi sgft above tăng
1m thì ta có thể kỳ vọng giá nhà có thể tăng 0.560932 (giả sử rằng các biến dự báo còn lại không đổi Tương tự cũng như hệ số hỗ quy ứng với condidon4 = 0.146304 thì ứng với condition4 tăng 1 thì ta có thể kỳ vọng giá nhà tăng 0.146304 (giả sử rằng các biến dự báo còn lại không đổi),
tương tự cho các biến còn lại
22.4.d Vẽ đồ thị biểu thị sai số hồ quy và giá trị dự báo
INPUT
plot(modell, which = 1)
Giải thích: Vẽ đồ thi sai s@ h@ quy va sai sO dw bao cho mé hinh modell OUTPUT
Đề bài tập lớn môn Xác suất thống kê (MI2013) - Niên khóa 2020-2021 Trang 17⁄35