1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

48 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn Môn Xác Xuất Thống Kê
Tác giả Vũ Mai Hoài Nam, Nguyễn Thái Uyên Vy, Trần Nguyễn Diễm Thi, Nguyễn Ngọc Hải Hà, Phạm Thanh Thảo Nguyên
Người hướng dẫn PTS. Nguyễn Đình Huy
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Xác suất Thống kê
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 48
Dung lượng 3,93 MB

Cấu trúc

  • 1. Đọc dữ liệu (Import data) (3)
  • 2. Làm sạch dữ liệu (Data cleaning) (3)
  • 3. Làm rõ dữ liệu (7)
  • 4. Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models) (19)
  • 5. Dự báo (Predictions) (26)
  • B. PHẦN RIÊNG LÝ DO CHỌN ĐỀ TÀI (0)
    • 1. Đọc dữ liệu (29)
    • 3. Làm rõ dữ liệu (Data visualization) (0)
    • 6. Kết luận (0)

Nội dung

Đọc dữ liệu (Import data)

Dùng lệnh read.csv() để đọc tệp tin

Input: house_price = read.csv("C:/Users/Asus/Desktop/XSTK-211/gia_nha.csv")

# Đọc tệp tin và lưu dữ liệu với tên là house_price Output

Làm sạch dữ liệu (Data cleaning)

a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã trình bày trong phần giới thiệu dữ liệu Từ câu hỏi này về sau, mọi yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này

# Liệt kê tất cả các biến có trong house_price

[16] "sqft_above" "sqft_basement" "yr_built"

[22] "long" "sqft_living15" "sqft_lot15"

Input: new_DF = data.frame(house_price[,c(6,23,11,14,16,9,17)])

# Trích ra dữ liệu con đặt tên là new_DF bao gồm các biến chính

Output: price sqft_living15 floors condition sqft_above sqft_living sqft_living sqft_basement

6 1225000 4760 1 3 3890 5420 5420 1530 b) Kiểm tra các dữ liệu bị khuyết trong tập tin (Các câu lênh tham khảo: is.na(), which(), apply()) Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuyết này

Input: apply(is.na(new_DF), 2, which)

# Kiểm tra và xuất ra vị trí dòng chứa giá trị khuyết của các biến trong new_DF

Input: colSums(is.na(new_DF))

# Thống kê số lượng giá trị khuyết trong new_DF

Output: price spft_living15 floors condition sqft_above sqft_living sqft_basement

Input: colMeans(is.na(new_DF))

# Tính tỉ lệ giá trị khuyết trong dữ liệu

Dựa trên kết quả thu được, ta nhận thấy có các giá trị khuyết tại biến price Vậy nên ta cần xử lý các giá trị khuyết đó Phương pháp xử lí được đề xuất là thay thế giá trị trung bình vào các quan sát của biến price tại vị trí chứa giá trị khuyết

Input: new_DF$price[is.na(new_DF$price)]=mean(new_DF$price,na.rm=T)

# Thay thế các quan sát chứa giá trị khuyết tại biến price bằng giá trị trung bình

Làm rõ dữ liệu

a) Chuyển đổi các biến price, sqft_living15, sqft_above, sqft_living lần lượt thành log(price), log(sqft_living15), log(sqft_above), và log(sqft_living) Từ đây mọi sự tính toán với các biến trên được hiểu là đã qua đổi biến dạng log

Input: new_DF[,c(1,2,5,6)]=log(new_DF[,c(1,2,5,6)])

#Chuyển đối biến price thành log(price), sqft_living15 thành log(sqft_living15), sqft_above thành log(sqft_above), sqft_living thành log(sqft_living)

8 b) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames())

Input: mean=apply(new_DF[,c(1,2,5,6)],2,mean)

# Tính trung bình của các biến liên tục (price, sqft_living15, sqft_above, sqft_living) và lưu vào biến có tên là mean median=apply(new_DF[,c(1,2,5,6)],2,median)

# Tính trung vị của các biến liên tục (price, sqft_living15, sqft_above, sqft_living) và lưu vào biến có tên là median sd=apply(new_DF[,c(1,2,5,6)],2,sd)

# Tính độ lệch chuẩn của các biến liên tục (price, sqft_living15, sqft_above, sqft_living) và lưu vào biến có tên là sd max=apply(new_DF[,c(1,2,5,6)],2,max)

# Tính giá trị lớn nhất của các biến liên tục (price, sqft_living15, sqft_above, sqft_living) và lưu vào biến có tên là max min=apply(new_DF[,c(1,2,5,6)],2,min)

# Tính giá trị nhỏ nhất của các biến liên tục (price, sqft_living15, sqft_above, sqft_living) và lưu vào biến có tên là min descriptivea.frame(mean,median,sd,max,min) descriptive

# Tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu vào biến descriptive

Output: c) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table())

# Tạo bảng thống kê số lượng cho biến floors table(new_DF$condition)

# Tạo bảng thống kê số lượng cho biến conditon

Output: d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến price

Input: hist(new_DF$price,xlab="price",main="Histogram of price",labels=T)

# Vẽ biểu đồ historgram cho biến price

Nhận xét: Đồ thị phân phối của biến price có hình dạng phân phối chuẩn Ngoài ra, ta có thể thấy giá nhà tập trung phần lớn ở mức giá từ 12.5$ - 13.5$, phân bố tần số cao nhất ở mức giá 12.5$-13$, phân bố tần số thấp nhất ở mức giá 15.5$ -16$ e) Hãy dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floors và biến condition

Input: boxplot(price~floors,main="Boxplot of price for each category of floor",new_DF)

# Vẽ biểu đồ Boxplot của biến price cho từng nhóm phân loại của biến floors

• Với nhóm nhà có 1 tầng:

Giá nhà bán ra thị trường cao nhất khoảng 15.5$

Giá nhà bán ra thị trường thấp nhất 11.2$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.5$

Có khoảng 50% nhà bán ra thị trường với giá dưới 12.9$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.25$

Phạm vi liên phần tử (IQR) khoảng 0.75$

• Với nhóm nhà có 1.5 tầng:

Giá nhà bán ra thị trường cao nhất khoảng 15.25$

Giá nhà bán ra thị trường thấp nhất khoảng 11.5$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.85$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13.25$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.4$

Phạm vi liên phần tử (IQR) khoảng 0.55$

• Với nhóm nhà có 2 tầng:

Giá nhà bán ra thị trường cao nhất khoảng 15.75$

Giá nhà bán ra thị trường thấp nhất khoảng 11.5$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.9$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13.3$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.5$

Phạm vi liên phần tử (IQR) khoảng 0.6$

• Với nhóm nhà có 2.5 tầng:

Giá nhà bán ra thị trường cao nhất khoảng 15.85$

Giá nhà bán ra thị trường thấp nhất khoảng 12.5$

Có khoảng 25% nhà bán ra thị trường với giá dưới 13.25$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13.5$

Có khoảng 75% nhà bán ra thị trường với giá dưới 14.15$

Phạm vi liên phần tử (IQR) khoảng 0.9

• Với nhóm nhà có 3 tầng:

Giá nhà bán ra thị trường cao nhất khoảng 14.8$

Giá nhà bán ra thị trường thấp nhất khoảng 12.4$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.9$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13.1$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.3$

Phạm vi liên phần tử (IQR) khoảng 0.4$

• Với nhóm nhà có 3.5 tầng:

Giá nhà bán ra thị trường cao nhất khoảng 14.85$

Giá nhà bán ra thị trường thấp nhất khoảng 12.9$

Có khoảng 25% nhà bán ra thị trường với giá dưới 13.1$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13.2$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.5$

Phạm vi liên phần tử (IQR) khoảng 0.4$

Nhìn chung, nhóm nhà có số tầng từ 2 đến 2.5 có giá nhà bán ra cao nhất Điều này cho thấy nhóm nhà này được ưa chuộng nhất và phù hợp nhất với người dân quận King nước

Mỹ Giá bán ra cao nhất thuộc nhóm nhà có 2.5 tầng, thấp nhất ở nhóm nhà có 1 tầng Cũng có thể đánh giá được giá bán ra của nhóm nhà 3.5 tầng khá đồng đều so với những nhóm khác

Input: boxplot(price~condition,main="Boxplot of price for each category of condition",new_DF)

# Vẽ biểu đồ Boxplot cho biến price cho từng nhóm phân loại của biến condition

• Với nhóm nhà có điều kiện kiến trúc rất tệ(1):

Giá nhà bán ra thị trường cao nhất khoảng 14.25$

Giá nhà bán ra thị trường thấp nhất khoảng 11.25$

Có khoảng 25% nhà bán ra thị trường với giá dưới 11.9$

Có khoảng 50% nhà bán ra thị trường với giá dưới 12.5$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13$

Phạm vi liên phần tử (IQR) khoảng 1.1$

• Với nhóm nhà có điều kiện kiến trúc tệ(2):

Giá nhà bán ra thị trường cao nhất khoảng 14.8$

Giá nhà bán ra thị trường thấp nhất khoảng 11.25$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.25$

Có khoảng 50% nhà bán ra thị trường với giá dưới 12.6$

Có khoảng 75% nhà bán ra thị trường với giá dưới 12.9$

Phạm vi liên phần tử (IQR) khoảng 0.65$

• Với nhóm nhà có điều kiện kiến trúc trung bình(3):

Giá nhà bán ra thị trường cao nhất khoảng 15.8$

Giá nhà bán ra thị trường thấp nhất khoảng 11.15$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.7$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.3$

Phạm vi liên phần tử (IQR) khoảng 0.6$

• Với nhóm nhà có điều kiện kiến trúc tốt(4):

Giá nhà bán ra thị trường cao nhất khoảng 15.9$

Giá nhà bán ra thị trường thấp nhất khoảng 11.4$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.6$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.25$

Phạm vi liên phần tử (IQR) khoảng 0.65$

• Với nhóm nhà có điều kiện kiến trúc rất tốt(5):

Giá nhà bán ra thị trường cao nhất khoảng 15.2$

Giá nhà bán ra thị trường thấp nhất khoảng 11.6$

Có khoảng 25% nhà bán ra thị trường với giá dưới 12.8$

Có khoảng 50% nhà bán ra thị trường với giá dưới 13.1$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13.4$

Phạm vi liên phần tử (IQR) khoảng 0.6$

Với điều kiện kiến trúc ngôi nhà từ mức trung bình trở lên, ta thấy giá cả nhà bán ra cao hơn so với điều kiện kiến trúc ngôi nhà tệ hoặc rất tệ Từ đó điều kiện kiến trúc ngôi nhà càng tốt thì giá càng cao tỷ lệ thuận với nhu cầu nhà ở của người dân

Nhận xét chung: Dựa vào các biểu đồ Boxplot ta nhận thấy có nhiều ngoại lai của biến price theo biến floors và condition Nguyên nhân có nhiều biến ngoại lai rất có thể là do lỗi phát sinh trong quá trình nhập và chỉnh sửa dữ liệu hoặc người ta cố tình tạo ra giá trị ảo để test thị trường hoặc làm mồi nhử, hoặc thâm chí là trong một vài ngày, giá nhà cao hơn một cách đột biến so với các ngày còn lại do gần đó có một sự kiện cộng đồng… f) Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến sqft_living15, sqft_above, và sqft_living

Input: pairs(price~sqft_living15,main="Pairs of price for each category of sqft_living15" , new_DF)

# Vẽ phân phối của biến price theo biến sqft_living15 pairs(price~sqft_above,main="Pairs of price for each category of sqft_above", new_DF)

# Vẽ phân phối của biến price theo biến sqft_above pairs(price~sqft_living,main = "Pairs of price for each category of sqft_living" ,new_DF)

# Vẽ phân phối của biến price theo biến sqft_living

Nhận xét: Từ các đồ thị phân tán của biến price theo sqft_living15, sqft_above, sqft_living, ta nhận thấy các biến sqft_living15, sqft_above, sqft_living có quan hệ tuyến tính với price, nói rõ hơn là quan hệ đồng biến Có thể nhận thấy khi các biến sqft_living15, sqft_above, sqft_living tăng lên thì biến price có xu hướng tăng theo.

Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models)

a) Xét mô hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc, và tất cả các biến còn lại đều là biến độc lập Hãy dùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội

Input: m1 = lm(price ~ sqft_living15 + floors + condition + sqft_above + sqft_living, data

# Xây dựng mô hình tuyến tính bội theo mô hình m1

# Thống kê kết quả tính toán khi xây dựng mô hình m1

Từ kết quả phân tích, ta thu được: 𝛽0 =5.451345, 𝛽1=0.429764, 𝛽2 =0.13687,

Như vậy đường thẳng hồi quy ước lượng cho bởi phương trình sau:

Price = 5.451345 + 0.429764 x sqft_living15 + 0.13687 x floors + 0.085407 x condition – 0.178314 x sqft_above + 0.685977 x sqft_living

Hệ số R 2 hiệu chỉnh bằng 0.4983 nghĩa là 49.83 % sự biến thiên trong biến Price được giải thích bởi các biến sqft_living15, floors, condition, sqft_above, sqft_living b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô hình tương ứng với mức ý nghĩa 5%?

H0: Các hệ số hồi quy không có ý nghĩa thống kê

H1: Các hệ số hồi quy có ý nghĩa thống kê

Nhận xét: Dựa vào kết quả của mô hình hồi quy, ta nhận thấy Pr(>|t|) của tất cả các hệ số tương ứng các biến đều bằng 2𝑒 −16 , bé hơn nhiều so với mức ý nghĩa 5%, nên ta sẽ bác bỏ giả thiết H0, chấp nhận giả thiết H1, có nghĩa là tất cả các hệ số ứng với các biến đều có ý nghĩa thống kê Vậy ta sẽ không loại bỏ biến nào ra khỏi mô hình c) Xét 2 mô hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:

+ Mô hình M1 chứa tất cả các biến còn lại là biến độc lập

+ Mô hình M2 là loại bỏ biến condition từ mô hình M1

Hãy dùng lệnhh anova() để đề xuất mô hình hồi quy hợp lý hơn

Input: m2 = lm(price ~ sqft_living15 + floors + sqft_above + sqft_living,data = new_DF)

# Xây dựng mô hình tuyến tính bội theo mô hình m2

# Thống kê kết quả tính toán khi xây dựng mô hình m2

Từ kết quả phân tích, ta thu được:𝛽0 = 5.81042, 1 = 0.414445, 𝛽2 = 0.112811, 𝛽3 = – 0.203136, 𝛽4 = 0.721355

Như vậy đường thẳng hồi quy ước lượng cho bởi phương trình sau:

Price = 5.81042 + 0.414445.sqft_living15 + 0.112811.floors – 0.203136.sqft_above + 0.721355.sqft_living

Hệ số R 2 hiệu chỉnh bằng 0.4881 nghĩa là 48,81 % sự biến thiên trong biến Price được giải thích bởi các biến sqft_living15, floors, sqft_above, sqft_living

# Phân tích phương sai cho hai mô hình tuyến tính m1 và m2

H0: Hai mô hình hiệu quả như nhau

H1: Hai mô hình hiệu quả khác nhau

Nhận xét: Vì kết quả thu được trong bảng Anova cho 2 mô hình M1 và M2 là Pr(>F)

= 2,2.𝑒 −16 Nhỏ hơn 0.05 nên ta bác bỏ H0, chấp nhận H1 Điều đó chỉ ra rằng 2 mô hình là khác nhau Do đó ta sẽ cân nhắc việc chọn mô hình M1 hay mô hình M2 Đối với mô hình M2, biến loại bỏ đi từ mô hình M1 là condition, mà biến condition ta không loại bỏ khỏi mô hình (đã xét ở câu b) do đó ta sẽ có chọn mô hình M1 sẽ hợp lý hơn

Mặt khác, ta có thể xét hệ số muiltle R2 (hệ số xác định) ở mô hình M1 = 0,4984 > hệ số multiple R2 (hệ số xác định) ở mô hình M2 = 0,4882 Tức có nghĩa là mô hình M1 cho ta biết sự thay đổi của biến price được giải thích bởi các biến độc lập tốt hơn so với mô hình M2 d) Chọn mô hình hợp lý hơn từ câu (c) hãy suy luận sự tác động của các biến lên giá nhà

Nhận xét: Dựa kết quả việc lựa chọn mô hình ở câu (c), ta nhận thấy mô hình 1 là hợp lý nhất, tức biến price có liên quan tuyến tính đến tất cả các biến độc lập còn lại Ngoài ra, dựa trên kết quả tóm tắt trên mô hình 1, ta nhận thấy các biến độc lập đều có Pr(>t) rất bé (***), tức khả năng bác bỏ H0 càng cao, tức các hệ số ứng với các biến trên có ý nghĩa thống kê cao, có nghĩa là những thay đổi của các biến này có ảnh hưởng nhiều đến sự thay đổi của giá nhà Ngoài ra, ta có thể đánh giá sự tác động của các hệ số ứng với từng biến độc lập

Ví dụ như : hệ số hồi quy ứng với sqft_living15 = 0.430556 thì ứng với sqft_living15 tăng 1 đơn vị thì ta có thể kỳ vọng giá nhà có thể tăng 0,4305 đơn vị (giả sử rằng các biến dự báo còn lại không đổi) Tương tự cũng như hệ số hồi quy ứng với floors = 0.137069 thì ứng với floors tăng 1 đơn vị thì ta có thể kỳ vọng giá nhà tăng 0.137069 (giả sử rằng các biến dự báo còn lại không đổi) e) Từ mô hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values) Nêu ý nghĩa và nhận xét đồ thị

# Vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values)

Nhận xét: Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đỏ trên đồ thị là đường hơi cong (lõm ở giữa), tức là mối quan hệ giữa các biến dự báo X và biến phụ thuộc Y được xem như là tuyến tính, thoả mản giả định tuyến tính của dữ liệu Ngoài ra các giá trị thặng dư (sai số) phân tán tương đối đều xung quanh đường thẳng y = 0, chứng tỏ phương sai của các sai số là hằng số

• Các giả định trong mô hình hồi quy tuyến tính:

Y và X có mối quan hệ tuyến tính

Sai số hồi quy tuân theo phân phối chuẩn

Các sai số phải độc lập với nhau

Phương sai các sai số phải là hằng số

• Vẽ thêm các biểu đồ để kiểm tra các giả định của mô hình hồi quy

Input: plot(m1,which = 1) plot(m1,which = 2) plot(m1,which = 3) plot(m1,which = 5)

Nhận xét: Dựa vào đồ thị ta thấy, đường thẳng màu đỏ trên đồ thị là đường thẳng hơi cong nằm ngang, nhưng mức độ cong khá nhỏ còn chấp nhận được, tức là mối quan hệ giữa các biến dự báo X và biến phụ thuộc Y được xem như là tuyến tính, thoả mãn giả định tuyến tính của dữ liệu Ngoài ra các giá trị thặng dư (sai số) phân tán tương đối đều xung quanh đường thẳng y = 0 (ngoài trừ một số giá trị là ngoại lai), chứng tỏ phương sai của các sai số là hằng số Đồ thị 2: Đồ thị kiểm tra giả định về phân phối chuẩn của các sai số.Nếu các điểm thặng dư nằm trên cùng 1 đường thẳng thì điều kiện về phân phối chuẩn được thỏa mãn

Nhận xét: Nhìn vào từng đồ thị, ta nhận thấy các biến tập trung đa số xung quanh đường thẳng 45 𝑜 , ở khoảng đầu và cuối có vài giá trị lệch khỏi đường thẳng nhưng không đáng kể, nên giả định về các sai số tuân theo phân phối chuẩn được thỏa mãn Đồ thị 3: Đồ thị vẽ căn bậc hai của giá trị thặng dư được chuẩn hóa bởi các giá trị dự báo, được dùng để kiểm tra giả định phương sai của các sai số là hằng số

Nhận xét: Nhìn vào từng đồ thị, ta nhận thấy đường thẳng màu đỏ nằm ngang và các giá trị phân phối tương đối đều xung quang đường thẳng y=0 nên giả định phương sai các sai số là hằng số đã thỏa mãn Đồ thị 4: Đồ thị cho phép xác định những ảnh hưởng cao, nếu chúng hiện diện trong dữ liệu Những điểm này có thể là outliers,là những điểm gây nhiễu làm ảnh hưởng đến việc phân tích Nếu có một số điểm vượt qua khoảng đường màu đỏ đứt nét (Cook’s distance), nghĩa là những điểm này có ảnh hưởng cao

Nhận xét: Dựa vào đồ thị ta thấy các quan sát thứ 3915,9255,7253 có thể là các điểm ảnh hưởng cao trong bộ dữ liệu, tuy nhiên các điểm này chưa vượt qua đường khoảng cách Cook’s distance Vì thế các điểm này chưa thực sự ảnh hưởng cao, nên ta không cần loại bỏ chúng khi phân tích.

Dự báo (Predictions)

(a) Từ mô hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại

X1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living mean(sqft_living), floor = 2, condition = 3

X2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living max(sqft_living), floor = 2, condition = 3

Tạo biến x chứa 2 vector thuộc tính X1 và X2

Dự báo và đưa ra khoảng tin cậy

So sánh khoảng tin cậy của hai giá trị dự báo

Nhận xét: với khoảng tin cậy 95% ta thấy được độ dài khoảng tin cậy giá trị dự báo của X1 nhỏ hơn X2, ta có thể kết luận dùng tập dữ liệu thuộc tính X1 để dự báo giá nhà sẽ chính xác hơn so với dung X2 x|t|) của các hệ số ứng với các biến đều nhỏ hơn mức ý nghĩa 5% nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1 Do đó các hệ số ứng với các biến đều có ý nghĩa thống kê Vì vậy, ta không cần loại bỏ biến nào ra khỏi mô hình c) Từ mô hình hồi quy tuyến tính trên ta có kết luận gì về sự tác động của các yếu tố tính chất vật lý đến kích thước của phần cặn? Để đánh giá sự tác động của các biến lên kích thước của phần cặn, ta quan tâm các hệ số hồi quy P-value tương ứng Ta thấy rằng P-value tương ứng với F1, F2, F3, F4, F5, F6, F7, F8, F9 < 2.10 -6 , điều này nói lên rằng ảnh hưởng của các biến này có ý nghĩa rất lớn lên biến kích thước phần cặn RMSD Biến F5 cũng có ảnh hưởng lớn đến biến RMSD nhưng ít hơn so với các biến còn lại

Mặt khác, các hệ số hồi quy của một biến dự báo cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là kích thước phần cặn khi tăng thêm 1 đơn vị của biến dự báo đó, giả sử khi các biến dự báo khác không đổi

Cụ thể hơn, hệ số hồi quy tương ứng với F1 = 1,572.10 -3 thì tương ứng với F1 tăng 1 đơn vị A o thì ta có thể kỳ vọng kích thước phần cặn có thể tăng 1,572.10 -3 A o (giả sử rằng các biến dự báo còn lại không đổi) Tương tự với các biến còn lại d) Từ mô hình hồi quy trên hãy vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét

Giải thích: Vẽ đồ thị sai số hồi quy và sai số dự báo

Nhận xét: Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường màu đỏ trên đồ thị là đường cong, tức là mối quan hệ giữa các biến dự báo X và biến phụ thuộc Y được xem như chưa tuyến tính, chưa thỏa mãn giả định tuyến tính của dữ liệu

Ngoài ra các giá trị thặng dư (sai số) phân tán không đều xung quang đường thẳng y=0 (ngoại trừ một số điểm ngoại lai), chứng tỏ phương sai của các sai số không là hằng số, vi phạm giả định trong mô hình hồi quy

- Các giả định trong mô hình hồi quy tuyến tính

+ Tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y phải được giả định là tuyến tính

+ Sai số phải có phân phối chuẩn

+ Phương sai các sai số là hằng số

+ Các sai số phải độc lập với nhau

Ta có thể vẽ thêm các biểu đồ để kiểm tra các giả định của mô hình hồi quy:

Giải thích: vẽ các đồ thị để kiểm tra giả định của mô hình hồi quy

Nhận xét: nhận xét như hình 1, mối quan hệ của x và y chưa được xem là tuyến tính

45 Đồ thị 2: đồ thị kiểm tra giá trị về phân phối chuẩn của các sai số Nếu các điểm thặng dư nằm trên cùng một đường thẳng thì điều kiện về phân phối chuẩn được thỏa mãn

Ta nhận thấy các giá trị thặng dư tập trung theo những đường thẳng, ở khoảng đầu và cuối có vài giá trị lệch ra khỏi đường thẳng Tuy nhiên, không đáng kể, ta xem như giả định phân phối chuẩn của các sai số vẫn đáp ứng Đồ thị 3: vẽ căn bậc 2 của các giá trị thặng dư được chuẩn hóa bởi các giá trị dự báo, được

Ngày đăng: 07/12/2022, 04:02

HÌNH ẢNH LIÊN QUAN

# Tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu vào biến - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
o bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu vào biến (Trang 9)
# Tạo bảng thống kê số lượng cho biến floors. - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
o bảng thống kê số lượng cho biến floors (Trang 10)
Nhận xét: Đồ thị phân phối của biến price có hình dạng phân phối ch̉n. Ngồi ra, ta có - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
h ận xét: Đồ thị phân phối của biến price có hình dạng phân phối ch̉n. Ngồi ra, ta có (Trang 11)
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models): - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models): (Trang 19)
b) Dựa vào kết quả của mơ hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mơ hình tương ứng với mức ý nghĩa 5%?  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
b Dựa vào kết quả của mơ hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mơ hình tương ứng với mức ý nghĩa 5%? (Trang 20)
# Xây dựng mơ hình tuyến tính bội theo mơ hình m2 # Thống kê kết quả tính tốn khi xây dựng mơ hình m2  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
y dựng mơ hình tuyến tính bội theo mơ hình m2 # Thống kê kết quả tính tốn khi xây dựng mơ hình m2 (Trang 21)
• Các giả định trong mơ hình hồi quy tuyến tính: Y và X có mối quan hệ tuyến tính  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
c giả định trong mơ hình hồi quy tuyến tính: Y và X có mối quan hệ tuyến tính (Trang 23)
(a) Từ mơ hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau:   - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
a Từ mơ hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau: (Trang 26)
Giải thích: tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu lại với - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
i ải thích: tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu lại với (Trang 31)
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) (Trang 41)
- Các giả định trong mơ hình hồi quy tuyến tính - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
c giả định trong mơ hình hồi quy tuyến tính (Trang 43)
Ta có thể vẽ thêm các biểu đồ để kiểm tra các giả định của mơ hình hồi quy: - Input:  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ
a có thể vẽ thêm các biểu đồ để kiểm tra các giả định của mơ hình hồi quy: - Input: (Trang 44)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w