1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xác suất và thống kê (mt2013) Ứng dụng r hồi quy tuyến tính

36 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng hồi quy tuyến tính
Tác giả Trần Hà Luân Kiệt, Nguyễn Huy Hoàng, Lê Quốc Trạng, Đặng Đức Danh
Người hướng dẫn Nguyễn Kiều Dung
Trường học Trường Đại học Bách Khoa, Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học & Kỹ thuật máy tính
Thể loại Bài tập lớn
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 36
Dung lượng 4,69 MB

Nội dung

.ƒ _ Dùng lệnh pairs vẽ các phân phối của biến price lần lượt theo các bién sqft above, sqft basement va sqft living.... Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều n

Trang 1

DAI HOC QUOC GIA THANH PHO HO CHI MINH TRUONG DAI HOC BACH KHOA KHOA KHOA HOC & KY THUAT MAY TINH

GVHD:

SV thuc hién: Nguyễn Kiều Dung Hà Phan Thiên Phú 2011826 L0

Trần Hà luấn Kiệt 201149 LO Nguyễn Huy Hoàng 201 20 L07

Lê Quốc Trạng 2014812 LO Đặng Đức Danh 201017 L0

Tp Hồ Chí Minh, Tháng 11/2021

Trang 2

Mục lục

1.1 Khai niém 0 nh 6 eSRERA II a ai aaaA sa a

2.2 a Chuyển déi bién bién price, sqft above, sqft_ living, sqft basement lan lugt thanh log(price), log(sqft above), log(sqft _basement), log(sqft_ baserment) Từ đây mọi sự tính toán với các biến trên được hiểu là đã qua đổi biến dạng log

2.2 b_ Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới dạng bằng 5 2.2 c Đối với các biến phân loại, lập một bảng thống kê số lượng cho

2.2 .d Ding ham hist() để vẽ đồ thị phân phối của biến price 6 2.2 .e_ Dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floor, view và biến condition 7 2.2 .ƒ _ Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các bién sqft above, sqft basement va sqft living 1 2.2.4 Xây dựng mô hinh héi quy tuyén tinh (Fitting linear regression models) 15

2.2.4.a Xay dựng mô hình 1 ( dùng lệnh Im() để thực thi mô hình) 15 2.2.4b_ Xây dụng mô hinh 2 Q2 16 2.2.4c Suy luận sự tác động của các biến lên giá nhà 17 2.2.4d Vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo 17 2.2.4e Dự báo (PredicliOns) cu vao 18

lo Ditléu cu cv nà vn v v lv g vi lv v v k kg va xa ia 19 2_ Các bước thực hiện cu nà cv và lv v vi v v và va va 20

2.1 Đọc dữ liệu (Import dat) ee 20 32.2_ Làm sạch dữ liệu (Data cleaning) 2 20

2 Lam rõ dit liéu (Data visualization) ee 22

2 .a _ Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới dạng bằng 22 2 b_ Đối với các biến phân loại, lập một bảng thống kê số lượng cho

.2 c Dùng hàm hist() để vẽ đồ thị phân phối của biến Price Of_ Unit 2 2 d_ Dùng hàm boxplot() vẽ phân phối của biến Price Of_ Unit cho từng nhóm phân loại của bién Num_of_conv 24 2 e Dùng lệnh pairs() vẽ các phân phối của biến Price Of Unit lần

lượt theo các biến House_ Age, Distance_ Station, Latitude, Lon-

gitude 2 Q Q Q Q Q Q Q ng ng k k k k v k va 28 2.4 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models) 0

.2.4.a _ Xây dựng mô hình 1 ( dùng lệnh Im() để thực thi mô hình) 0 2.4b_ Xây dụng mô hỉnh 2 Q2 1 2.4.c _ Suy luận sự tác động của các biến lên giá bất động sẵn .2.4.d _ Vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 1/35

Trang 3

> Khoa Khoa Học & Kỹ Thuật May Tính

Trang 4

1 Giới thiệu đề tài

1.1 Khái niệm cơ bản

Hồi quy tuyến tính chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến) Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý, Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục, Lương của một người phụ thuộc

vào chức vụ, kinh nghiệm, độ tuổi,

Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên các giá trị trung bình của các mẫn quan sát từ các nhóm này, và thông qua kiểm định giả thiết để kết luận về sự bằng nhan của các trung bình tổng thể này Phép phân tích phương sai được dùng trong các trắc nghiệm để

so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số Đây có thể được xem nhĩ phần mở rộng các trắc nghiệm + hay z (so sánh hai giá trị trung bình)

Các biến chính trong bộ dữ liệu

e price: Giá nhà được bán ra

floor: Số tầng của ngôi nhà được phân loại từ 1- 5

condition: Điều kiện kiến trúc của ngôi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt

view: Đánh giá cảnh quan xung quanh ngôi nhà theo mức độ từ thấp đến cao: 0 - 4

sgft_ above: Diện tích ngôi nhà

sgft_ living: Diện tích khuôn viên nhà

sqft_ basement: Diện tích tầng ham

Trang 5

> Khoa Khoa Học & Kỹ Thuật May Tính OUTPUT

2.2.2 Lam sach dit liéu (Data cleaning)

Trich ra mot dit liéu con dat tén la new_ DF chi bao gồm các biến chính mà ta quan tâm như đã

trình bày trong phần giới thiệu dữ liệu Từ câu hỏi này về sau, mọi yêu cần xử lý đều dựa trên tập dữ

liệu con new_ DE này

INPUT

new_ DE <- gia nha|,c(6, 11, 14,1 , 16, 9, 17))) |

Gidi thich: Lay dit liéu 6 cac cét thit 6, 11, 14,1 , 16, 9, 17 trong dit liéu gia_ nha tương ứng với các

biến trên yêu cầu đề bài và đặt tên new_ DE

OUTPUT

© ` assignmentr new_DF gia_nha

Filter price floors condition view sqft_above sqft_living sqft_basement

Trang 6

Giải thích: Kiểm tra và xuất ra giá trị khuyết của các biến trong đữ liệu new_ DF

- Các giá trị NA xuất hiện ngẫu nhiên, không theo một trật tự hay một logic nào cho trước

- Chỉ có 20 dòng bị khuyết, rất nhỗ so với cỡ mẫn (hơn 20.000 giá trị)

Do đó ta sẽ xóa các biến bị khuyết trong tập dữ liệu

INPUT

new DF <- na.omit(new_DF))

Giải thích: Xóa bỏ các hàng có gid tri NA

2.2.3 Làm rõ dữ liệu (Data visualization)

2.2.3.a Chuyển đổi biến biến price, sqft above, sqft living, sqft basement lần lượt thành log(price), log(sqft above), log(sqft basement), log(sqft_ basement) Từ đây mọi sự tính toán với các biến trên được hiểu là đã qua đổi biến dạng log INPUT

new_ DF, c(1, 5, 6)] <- log(new_ DFT, c(1, 5, 6)])

new DF$sqft_basement[which(new_DF$sqft basement != 0)| <-

log(new_ DF $sqft_basement[which(new_ DF $sqft_ basement != 0)])

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 5/35

Trang 7

> Khoa Khoa Học & Kỹ Thuật May Tính

lién tuc (price, sqft above, sqft living,sqft basement) va liu vao datal

Đổi tên các hàng 6 datal thanh MEAN, MEDIAN, SD, MIN, MAX

price sqft_above sqft_living sqft_basement MEAN 13.047841 7.3948826 7.3303286 2.528378 MEDIAN 13.017003 7.3524411 7.5548585 0.000000

SD 0.526574 0.4276433 0.4247722 3.169678 MIN 1.225243 5.6698809 5 6698809 0.000000 MAX 15.856731 9.1495282 9.3134033 8.480529

data2 <- apply(new_ DF|[,c("floors

data2 condition", "view")|, 2, table)

ylab = "NUMBER OF HOUSES",

main = "DISTRIBUTION OF PRICE",

Trang 8

- Tên trục hoành: PRICE

- Tén truc tung: NUMBER OF HOUSES

- Tén biéu dé: DISTRIBUTION OF PRICE

- Thêm số vào phía trên mỗi cột của biểu đồ

- Dựa trên đồ thị, ta thấy giá tiền của mỗi căn nhà (tính theo log) tập trung phần lớn trong khoảng 12_ 14 và giảm dần về hai phía

- Cao nhất ở125 1 và thấp nhất ở 15.5 16 va 11 - 12

* Qua đó ta thấy rằng, các nhà đầu tư chủ yếu tập trung vào phân khúc nhà ở trung bình vừa để phù hợp với nhu cầu của mọi người thay vì đầu tư những căn nhà giá quá cao hay quá thấp 2.2.3.e Dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floor, view và biến condition

price_by_ floors <- boxplot{ new_DF$price ~ new_DF$floors, ylab = "PRICE", xlab = "FLOORS", main = "DISTRIBUTION OF PRICE BY FLOORS", col=rgb(2 8/255,66/255,102/255))

data_price_by_ floors <- price_by_ floors$stats

colnames(data_ price _by_ floors) <- c("1", "1.5", "2", "2.5", " ") " 5")

rownames(data_price_by_ floors) <- c{"extreme of the lower whisker", "first quartile", "median", "third quartile", "extreme of the upper whisker")

data_price_by_ floors

Giai thich: Vé biéu dé Boxplot của biến price cho từng nhóm phân loại của biến floor với các tùy

chọn:

- Tên trục hoành: PLOORS

- Tên trục tung: PRICE

- Tén biéu dé: DISTRIBUTION OF PRICE BY FLOORS

OUTPUT

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 7/35

Trang 9

> Khoa Khoa Học & Kỹ Thuật May Tính

NHAN XET

GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 1:

Median = 12.87, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.87

Bach phân vị Q1 = 12.5, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.5 Bách phân vị Q_ = 1 18, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 18

Độ trải giữa IQR)=Q_ QI= 0.6

Hinges trên = Q_ + 1.5*IQR = 1 18 + 1.5*0.65 = 14.155, có nghĩa là giá nhà cao nhất khoảng 14.155

Hinges dưới = Q1 - 1.5*IQR = 12.5 - 1.5*0.65 = 11.555, có nghĩa là giá nhà thấp nhất khoảng 11.555

Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 155:

- Median = 1 17, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bing 1 17

- Bách phân vị Q1 = 12.78, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.78

- Bách phân vị Q_ = 1 44, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 44

- Độ trải giữa IQR) =Q QI=0.66

- Hinges trén = Q + 1.5*IQR = 1 44 + 1.5*0.66 = 14.4, có nghĩa là giá nhà cao nhất khoảng 14.4

- Hinges dưới = QI - 1.5*IQR = 12.78 - 1.5*0.66 = 11.79, có nghĩa là giá nhà thấp nhất khoảng 11.79

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

Trang 10

Bach phân vị Q1 = 12.85, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.85 Bách phân vị Q_ = 1 ð56, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 56

- Độ trải giữa IQR) =Q_ QI=0.71

- Hinges trén = Q + 1.5*IQR = 1 56 + 1.5*0.71 = 14.625, có nghĩa là giá nhà cao nhất khoảng 14.625

- Hinges dưới = QI - 1.5*IQR = 12.85 - 1.5*0.71 = 11.785, có nghĩa là giá nhà thấp nhất khoảng 11.785

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 3.5:

Median = 1 59, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1 59

Bach phân vị Q1 = 12.22, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.22 Bách phân vị Q_ = 14.08, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.08

Độ trải giữa IQR) =Q_ QI= 1.86

- Hinges trên =Q_ + 1.5*IQR = 14.08 + 1.5*1.86 = 16.87, có nghĩa là giá nhà cao nhất khoảng 16.87

- Hinges dưới = Q1 - 1.5*IQR = 12.22 - 1.5*1.86 = 9.4, có nghĩa là giá nhà thấp nhất khoảng 9.4

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 3:

Median = 1 102, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.102

Bach phân vị Q1 = 12.86, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.86 Bách phân vị Q =1 6, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 6

Độ trải giữa IQR)=Q_ QI=05

Hinges trên =Q_ + 1.5*IQR =1 6 + 1.5*0.5 = 14.11, có nghĩa là giá nhà cao nhất khoảng 14.11

- Hinges dudi = Q1 - 1.5*IQR = 12.86 - 1.5*0.5 = 12.11, có nghĩa là giá nhà thấp nhất khoảng 12.11

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI NHÓM SỐ TẦNG BẰNG 3.5:

- Median = 1 189, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1 189

- Bách phân vị Q1 = 1 125, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 125

- Bách phân vị Q_ = 1 574, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 574

- Độ trải giữa IQR) =Q_ QI =0.449

Hinges trên =Q_ + 1.5*IQR = 1 574 + 1.5*0.449 = 14.2475, có nghĩa là giá nhà cao nhất khoảng 14.2475

Hinges dudi = Q1 - 1.5*IQR = 1 125 - 1.5*0.449 = 12.5765, có nghĩa là giá nhà thấp nhất khoảng 12.5765

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

Tương tự giá nhà ứng với biến floor, ta có giá nhà ứng với các biến view và condition như sau

INPUT

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 9/35

Trang 11

> Khoa Khoa Học & Kỹ Thuật May Tính

price by condition <- boxplot(new_ DF$price ~ new_ DF§condition, ylab = "PRICE", xlab = "CON- DITION", main = "DISTRIBUTION OP PRICE BY CONDITION", col=rgb(2 8/255,66/255,102/255)) data_price_by_ condition <- price_by_ condition$stats

colnames({data_ price by condition) <- c("1", "2", " ", "4", "5")

rownames(data_price_by_ condition) <- ¢{"extreme of the lower whisker", "first

quartile", "median", "third quartile", "extreme of the upper whisker")

data price by _ condition

GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 1:

Median = 12.477, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.477

Bach phân vị Q1 = 11.918, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 11.918 Bách phân vị Q_ = 12.977, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 12.977

Độ trải giữa IQR)=Q_ QI= 1.059

Hinges trén = Q +4 1.5*IQR = 12.977+ 1.5*1.059 = 14.5655, có nghĩa là giá nhà cao nhất khoảng 14.5655

Hinges dưới = QI - 1.5*IQR, = 11.918 - 1.5*1.059 = 10 295, có nghĩa là giá nhà thấp nhất khoảng

10 295

Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 2:

Median = 12.5 9, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.5 9

- Bách phân vị Q1 = 12.152, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.152

- Bách phân vị Q_ = 12.895, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 12.895

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 10/35

Trang 12

- Độ trải giữa IQR) =Q_ QI=0.74

Hinges trén = Q +4 1.5*IQR = 12.8954 1.5*0.74 = 14.0095, có nghĩa là giá nhà cao nhất khoảng 14.0095

Hinges dudi = Q1 - 1.5*IQR = 12.152 - 1.5*0.74 = 11.0 75, có nghĩa là giá nhà thấp nhất khoảng 10.0 75

Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 3:

Median = 1 017, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.017

Bach phân vị Q1 = 12.706, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.706

- Bách phân vị Q =1 69, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng I 69

- Độ trải giữa IQR) =Q Q1=0.66

- Hinges trên =Q + 1L5*IQR=1 69+ 1.5*0.66 = 14 6 5, có nghĩa là giá nhà cao nhất khoảng

14 6 5

- Hinges dudi = Q1 - 1.5*IQR = 12.706 - 1.5*0.66 = 11.7115, có nghĩa là giá nhà thấp nhất khoảng 11.7115

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 4:

- Median = 12.994, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.994

- Bách phân vị Q1 = 12.628, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.628 Bách phân vị Q =1 45, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 45

Độ trải giữa IQR)=Q_ QI=0717

Hinges trén = Q 4 1.5*IQR=1 455+ 1.5*0.717 = 14.421, có nghĩa là giá nhà cao nhất khoảng 14.421

- Hinges dưới = Q1 - 1.5*IQR = 12.628 - 1.5*0.717 = 11.5525, có nghĩa là giá nhà thấp nhất khoảng 11.5525

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU KIỆN KIÊN TRÚC NHÀ BẰNG 5:

Median = 1 174, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.174

Bach phân vị Q1 = 12.765, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.765 Bách phân vịQ_ =1 49., có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 49

Độ trải giữa IQR)=Q_ QI=0.728

Hinges trên =Q_ + 1.5*IQR = 1 49 + 1.550.728 = 14.585, có nghĩa là giá nhà cao nhất khoảng 14.585

Hinges dưới = QI - 1.5*IQR, = 12.765 - 1.5*0.728 = 11.67, có nghĩa là giá nhà thấp nhất khoảng 11.67

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

INPUT

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 11/35

Trang 13

> Khoa Khoa Học & Kỹ Thuật May Tính

price by view <- boxplot(new_ DF§price ~ new DE§view, ylab = "PRICE", xlab = "VIEW", main

= "DISTRIBUTION OF PRICE BY VIEW", col=rgb(2 8/255,66/255,102/255))

data price by view <- price by view$stats

colnames(data price by view) <- c("0", "1", "2", " ", "4")

rownames(data_price_by_ view) <- c{"extreme of the lower whisker", "first

quartile", "median", "third quartile", "extreme of the upper whisker")

extreme of the upper whisker 14 28551 14.62644 14.73180 14.97901 15 49261

`

NHAN XET

GIA NHA UNG VGI DIEU CANH QUAN XUNG QUANH NHA BANG 0:

- Median = 12.977, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 12.9777

Bach phân vị Q1 = 12.647, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 12.647

- Bách phân vị Q =1 04, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 04

- Độ trải giữa IQR) =Q QI=0.657

- Hinges trên = Q + 1.5*IQR =1 04+ 1.5*0.657 = 14.2895, có nghĩa là giá nhà cao nhất khoảng 14.2895

- Hinges dưới = QI - 1.5*IQR = 12.647 - 1.5*0.657 = 11.665, có nghĩa là giá nhà thấp nhất khoảng 11.6615

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 1:

- Median = 1 442, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.442

- Bách phân vị Q1 = 1 119, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 119

- Bách phân vị Q_ = 1 725, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 725

- Dé trai gita (IQR) = Q = QI = 0.606

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 12/35

Trang 14

Hinges trén = Q + 1.5*IQR = 1 725-+- 1.5*0.606 = 14.6 4, có nghĩa là giá nhà cao nhất khoảng 14.6 4

- Hinges dưới = Q1 - 1.5*IQR = I 119 - 1.5*0.606 = 12.21, có nghĩa là giá nhà thấp nhất khoảng 12.21

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 2:

- Median = 1 422, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.442

- Bách phân vị Q1 = 1 092, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 092

- Bách phân vị Q =1 75., có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 1 75

- Độ trải giữa (IQR) =Q_ QI= 0.661

- Hinges trên = Q + 1.5*IQR,= I 75 + 1.5*0.661 = 14.7445, có nghĩa là giá nhà cao nhất khoảng 14.7445

- Hinges dưới = Q1 - 1.5*IQR = 1.092 - 1.5*0.661 = 12.1005, có nghĩa là giá nhà thấp nhất khoảng 12.1005

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 3:

- Median = 1 598, c6 nghia là có 50% căn có giá nhà thấp hơn hoặc bằng 1 598

- Bách phân vị Q1 = 1 2 5, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 2 5

- Bách phân vị Q_ =14.045, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.045

- Độ trải giữa TQR) =Q QI=0.SI1

- Hinges trén = Q + 1.5*IQR = 14.0454 1.5*0.81 = 15.26, có nghĩa là giá nhà cao nhất khoảng 15.26

Hinges dưới = Q1 - 1.5*IQR = 1 2 5 - 1.5*0.81 = 12.02, c6 nghia 1A gid nha thấp nhất khoảng 12.02

Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

GIÁ NHÀ ỨNG VỚI ĐIỀU CẢNH QUAN XUNG QUANH NHÀ BẰNG 4:

Median = 1 985, có nghĩa là có 50% căn có giá nhà thấp hơn hoặc bằng 1.985

Bach phân vị Q1 = 1 614, có nghĩa là có 25% căn có giá nhà thấp hơn hoặc bằng 1 614 Bách phân vị Q_ =14.4 0, có nghĩa là có 75% căn có giá nhà thấp hơn hoặc bằng 14.4 0

Độ trải giữa IQR)=Q_ Q1=0.816

Hinges trén = Q + 1.5*IQR = 14.4 0+ 1.5*0.816 = 15.654, có nghĩa là giá nhà cao nhất khoảng 15.654

Hinges dưới = Q1 - 1.5*IQR = 1 614 - 1.5*0.816 = 12 9, có nghĩa là giá nhà thấp nhất khoảng

12 9

- Có thể có các giá trị ngoại vi trên hoặc dưới các hinges

2.2.3.7 Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến sgft_ above, sqft basement va sqft_living

INPUT

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 13/35

Trang 15

> Khoa Khoa Học & Kỹ Thuật May Tính

pairs(new_ DF $price ~ new_DF$sqft_ above, labels = c{"price", "sqft above"), col= "#2d 166", main

= "DISTRIBUTION OF PRICE BY SQFT_ ABOVE")

pairs(new_ DF $price ~ new_DF$sqft_ living, labels = c({"price", "sqft_ living"), col= "#2d 166", main

= "DISTRIBUTION OF PRICE BY SQFT_ LIVING")

pairs(new_DF$price ~ new DF$sqft basement, labels = c("price", "sqft basement"), col=

"49d 166", main = "DISTRIBUTION OF PRICE BY SQFT BASEMENT")

Trang 16

&

- Ty cdc dé thi phan tan cia bién price theo sqft basement, sqft above va sqft living Ta nhan thy cdc bién sqft_ basement, sqft_ above, sqft_ living cd quan hé tuyén tinh vdi price vi cdc diém trong đồ thị tập trung xung quanh đường chéo của đồ thị hay cồn gọi là đường hồi quy

- Qua đó ta có thể kết luận được diện tích nhà có ảnh hưởng đáng kể đến giá trị của ngôi nhà, diện tích nhà càng lớn thì giá trị của căn nhà càng cao Tuy nhiên vẫn có một số trường hợp đặc biệt

dù diện tích nhỏ nhưng giá trị vẫn cao, vì vậy ngoài phụ thuộc vào diện tích, giá nhà còn có thể

phụ thuộc vào các giá trị ngoại lai khác

2.2.4 Xây dựng mô hình hồi quy tuyến tinh (Fitting linear regression models)

2.2.4.a Xây dựng mô hình 1 ( dùng lệnh Im() để thực thi mô hình)

MÔ HÌNH 1

® price : biến phụ thuộc

e floors : biến phân loại

e condition : biến phân loại

e view: biến phân loại

Estimate Std ror t value Prc=}|tl|)

Signif codes: @ *w “” Ø_OOI1 “**” O_ O1 “**" O.ØO5S “.'" O.1 £ 2

Residual standard error: 0.3644 on 21576 degrees of freedom

Multiple squared: O.5216, Adjusted R-squared: 0.5212

F-statistic: 1470 on 16 and 21576 OF, p-value: 2.2e-16

Xét mức ý nghĩa 5%

GIA THIET

ệ số hồi quy có ý nghĩa thống kê

số hồi quy không có ý nghĩa thống kê

Đề bài tập lốn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 15/35

Trang 17

Khoa Khoa Học & Kỹ Thuật May Tính

KIEM DaNH TRa SỐ P

Phương pháp kiểm dinh bing p - value (Pr(>|t|))

- Pr(>|t]) > mức ý nghĩa a > chap nhận giả thiết H0, tức hệ số hồi quy ứng với biến phụ thuộc không có ý nghĩa thống kê, ta sẽ loại biến phụ thuộc đó ra khéi mô hình

- Pr(>|t]) < mức ý nghĩa œ -› chấp nhận giả thiết HI, tức hệ số hồi quy ứng với biến phụ thuộc có

ý nghĩa thống kê, ta sẽ nhận kết quả biến phụ thuộc

NHẬN XÉT: Dựa vào kết quả, xét mức ý nghĩa 5%, ta sẽ loại bỏ biến condition2, condition 2.2.4.b Xây dụng mô hỉnh 2

Xét 2 mô hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:

- Mô hình modell chứa tất cả các biến

- Mô hình model2 không chứa biến condition

MÔ HÌNH 2

® price : biến phụ thuộc

sqft_ basement : biến phụ thuộc

floors : biến phân loại

view: biến phân loại

as.factor Cview)4 0.613655 0.021011 29.206 2e-1G #**%

sqft_basement 0.039792 0.001983 20.062 < 2Be-16 vyryrsr Signif codes: O “***” O.OOL “**” O.O1 *” O.OS “ 7” O.1 “ ' 1 Residual standard error: 0.3669 on 21580 degrees of freedom

Multiple R-squared: 0.5148, Adjusted R-squared: 0.5145

F-statistic: 1908 on 12 and 21580 OF, p-value: =< 2.2e-16

Dùng lệnhh anova() dé dé xuất mô hình hồi quy hợp lý hơn

INPUT

Đề bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2020-2021 Trang 16/35

Trang 18

- Hai mô hình modell và model2 giỗng nhau

- Hai mô hình model1 và model2 khác nhau

OUTPUT

Analysis of variance Table Model 1: price ~ as factor ( (condition) + as.factor(floors) + as.factor(view) + sqft_above + sqft_livi g + soft basement

Model 2: price ~ as.factor(floors) + as.factor(view) + sqft_above + sqft_living + sqft_basement

- Theo kiém dinh p value, dựa vào output, với mức ý nghĩa œ — 0,05, ta sẽ loại bỏ giả thiết H0,

tức 2 mô hình modell va model2 khac nhau

- Quay lại mô hình model2, ta thấy rằng mô hình đã loại bỏ biến condition so với mô hình modell,

ở mô hình modell ta chỉ loại bỏ biến condition2, condition trong số 5 biến phân loại condition,

vì vậy mô hình modell có nhiều hơn biến có ý nghĩa thống kê so với mô hình model2

- Qua đó, để có kết quả chính xác nhất, ta sẽ chọn mô hình model1 để tiếp tục phân tích cho các câu tiếp theo

2.2.4.c Suy luận sự tác động của các biến lên giá nhà

GIẢI THÍCH

- Để đánh giá sự tác động của các biến lên giá nhà, ta quan tâm các hệ số hồi quy p - value tương

ứng Với các biến floorsl.5, floors2, floors2.5, floors , sdft basement, sqft_ above, sgft_ living, p-

value < 2*10-16, rất có ý nghĩa rất lớn lên biến giá nhà price Ngoài ra còn có sự ảnh hưởng của, các biến khác như condition , condition4, condition5, floors 5 lên giá nhà nhưng lại ít ảnh hương hơn các biến đề cập trên biến condition2 với p value = 0.484647, không có ý nghĩa với mô hình hồi quy nên không có ảnh hưởng nhiều đến giá nhà

- Hệ số hồi quy của 1 biến dự báo (hệ số Ø, xem ở cột Estimate) cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là giá nhà khi tăng 1 đơn vị của biến dự báo đó (giả sử khi các biến

dự báo khác không đổi) Ví dụ, hệ số hồi quy ứng với sqft above = = 0.5609 2 khi sqft_ above tăng 1m2 thì ta có thể kỳ vọng giá nhà có thể tăng 0.5609 2 (giả sử rằng các biến dự báo còn lại không đổi) Tương tự cũng như hệ số hồi quy ứng với condition4 = 0.146 04 thì ứng với condition4 ting 1 thi ta có thể kỳ vọng giá nhà tăng 0.146 04 (giả sử rằng các biến dự báo còn lại không đổi),

tương tự cho các biến còn lại

2.2.4.d Vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo

Ngày đăng: 31/10/2024, 21:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w