BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

48 17 0
BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA  BÁO CÁO BÀI TẬP LỚN MƠN XÁC XUẤT THỐNG KÊ HỌC KÌ 211 GVHD: Nguyễn Đình Huy Nhóm: L13 Nhóm sinh viên thực hiện: STT HỌ VÀ TÊN MSSV LỚP Vũ Mai Hoài Nam 1914260 L13 Nguyễn Thái Uyên Vy 1912478 L13 Trần Nguyễn Diễm Thi 1915266 L13 Nguyễn Ngọc Hải Hà 1913211 L13 Phạm Thanh Thảo Nguyên 1914396 L13 NGÀNH KÝ TÊN Thành phố Hồ Chí Minh – 2021 MỤC LỤC A PHẦN CHUNG BÀI TẬP SỐ Đọc liệu (Import data): Làm liệu (Data cleaning): 3 Làm rõ liệu Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): .19 Dự báo (Predictions) .26 B PHẦN RIÊNG LÝ DO CHỌN ĐỀ TÀI 28 ĐỀ BÀI 28 XỬ LÝ SỐ LIỆU 29 Đọc liệu 29 Làm liệu (Data cleaning) 30 Làm rõ liệu (Data visualization): 30 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 41 Dự báo (Predictions) 46 Kết luận: 48 A PHẦN CHUNG Đề 1: Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quân King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu cịn bao gồm thuộc tính mơ tả chất lượng nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến liệu:  price: Giá nhà bán  floors: Số tầng nhà phân loại từ 1-3.5  condition: Điều kiện kiến trúc nhà từ − 5, 1: tệ 5: tốt  view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4  sqft_above: Diện tích ngơi nhà  sqft_living: Diện tích khn viên nhà  sqft_basement: Diện tích tầng hầm Đọc liệu (Import data): Dùng lệnh read.csv() để đọc tệp tin Input: house_price = read.csv("C:/Users/Asus/Desktop/XSTK-211/gia_nha.csv") # Đọc tệp tin lưu liệu với tên house_price Output Làm liệu (Data cleaning): a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF Input: names(house_price) # Liệt kê tất biến có house_price Output: [1] "X.2" "X.1" "X" [4] "id" "date" "price" [7] "bedrooms" "bathrooms" "sqft_living" [10] "sqft_lot" "floors" "waterfront" [13] "view" "condition" "grade" [16] "sqft_above" "sqft_basement" "yr_built" [19] "yr_renovated" "zipcode" "lat" [22] "long" "sqft_living15" "sqft_lot15" Input: new_DF = data.frame(house_price[,c(6,23,11,14,16,9,17)]) # Trích liệu đặt tên new_DF bao gồm biến Output: Input: head(new_DF) Output: price sqft_living15 floors condition sqft_above sqft_living sqft_living sqft_basement 221900 1340 1180 1180 1180 538000 1690 2170 2570 2570 400 180000 2720 770 770 770 604000 1360 1050 1960 1960 910 510000 1800 1680 1680 1680 1225000 4760 3890 5420 5420 1530 b) Kiểm tra liệu bị khuyết tập tin (Các câu lênh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Input: apply(is.na(new_DF), 2, which) # Kiểm tra xuất vị trí dịng chứa giá trị khuyết biến new_DF Output: Input: colSums(is.na(new_DF)) # Thống kê số lượng giá trị khuyết new_DF Output: price spft_living15 floors condition sqft_above sqft_living sqft_basement 20 0 0 0 Input: colMeans(is.na(new_DF)) # Tính tỉ lệ giá trị khuyết liệu Output: Dựa kết thu được, ta nhận thấy có giá trị khuyết biến price Vậy nên ta cần xử lý giá trị khuyết Phương pháp xử lí đề xuất thay giá trị trung bình vào quan sát biến price vị trí chứa giá trị khuyết Input: new_DF$price[is.na(new_DF$price)]=mean(new_DF$price,na.rm=T) # Thay quan sát chứa giá trị khuyết biến price giá trị trung bình Output Làm rõ liệu a) Chuyển đổi biến price, sqft_living15, sqft_above, sqft_living thành log(price), log(sqft_living15), log(sqft_above), log(sqft_living) Từ tính tốn với biến trên hiểu qua đổi biến dạng log Input: new_DF[,c(1,2,5,6)]=log(new_DF[,c(1,2,5,6)]) #Chuyển đối biến price thành log(price), sqft_living15 thành log(sqft_living15), sqft_above thành log(sqft_above), sqft_living thành log(sqft_living) Output: b) Đối với biến liên tục, tính giá trị thống kê mơ tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) Input: mean=apply(new_DF[,c(1,2,5,6)],2,mean) # Tính trung bình biến liên tục (price, sqft_living15, sqft_above, sqft_living) lưu vào biến có tên mean median=apply(new_DF[,c(1,2,5,6)],2,median) # Tính trung vị biến liên tục (price, sqft_living15, sqft_above, sqft_living) lưu vào biến có tên median sd=apply(new_DF[,c(1,2,5,6)],2,sd) # Tính độ lệch chuẩn biến liên tục (price, sqft_living15, sqft_above, sqft_living) lưu vào biến có tên sd max=apply(new_DF[,c(1,2,5,6)],2,max) # Tính giá trị lớn biến liên tục (price, sqft_living15, sqft_above, sqft_living) lưu vào biến có tên max min=apply(new_DF[,c(1,2,5,6)],2,min) # Tính giá trị nhỏ biến liên tục (price, sqft_living15, sqft_above, sqft_living) lưu vào biến có tên descriptive=data.frame(mean,median,sd,max,min) descriptive # Tạo bảng thể giá trị thống kê mô tả cho biến liên tục, lưu vào biến descriptive Output: c) Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) Input table(new_DF$floors) # Tạo bảng thống kê số lượng cho biến floors table(new_DF$condition) # Tạo bảng thống kê số lượng cho biến conditon Output: d) Hãy dùng hàm hist() để vẽ đồ thị phân phối biến price Input: hist(new_DF$price,xlab="price",main="Histogram of price",labels=T) # Vẽ biểu đồ historgram cho biến price Output: 10 34 35 36 37 38 39 40 Nhận xét: Dựa trên đồ thị phân tán, ta nhận thấy RMSD khơng có mối quan hệ tuyến tính với biến F1, F2, F3, F4, F5, F6, F7, F8, F9 Để xác định ta xây dựng mơ hình hồi quy tuyến tính Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) Chúng ta muốn biết có yếu tố tác động đến kích thước phần cặn a) Xét mô hình hồi quy tuyến tính bao gồm biến RSMD là một biến phụ thuộc và tất cả các biến lại là biến độc lập Hãy dùng lệnh lm( ) để thực thi mô hình hồi quy tuyến tính bội - Input: protein |t|)): Pr(>|t|) > mức ý nghĩa  => Chưa bác bỏ giả thiết H0, tức hệ số hồi quy tương ứng với biến khơng có ý nghĩa thống kê, ta sẽ loại biến khỏi mơ hình Dựa vào kết quả, ta có: Pr(>|t|) hệ số ứng với biến nhỏ mức ý nghĩa 5% nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1 Do hệ số ứng với biến có ý nghĩa thống kê Vì vậy, ta không cần loại bỏ biến khỏi mơ hình c) Từ mô hình hời quy tún tính trên ta có kết luận gì tác động các yếu tố tính chất vật lý đến kích thước phần cặn? Để đánh giá tác động biến lên kích thước phần cặn, ta quan tâm hệ số hồi quy P-value tương ứng Ta thấy P-value tương ứng với F1, F2, F3, F4, F5, F6, F7, F8, F9 < 2.10-6, điều nói lên ảnh hưởng biến có ý nghĩa lớn lên biến kích thước phần cặn RMSD Biến F5 có ảnh hưởng lớn đến biến RMSD so với biến cịn lại 42 Mặt khác, hệ số hồi quy biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc kích thước phần cặn tăng thêm đơn vị biến dự báo đó, giả sử biến dự báo khác khơng đổi Cụ thể hơn, hệ số hồi quy tương ứng với F1 = 1,572.10-3 tương ứng với F1 tăng đơn vị Ao ta kỳ vọng kích thước phần cặn tăng 1,572.10-3 Ao (giả sử biến dự báo cịn lại khơng đởi) Tương tự với biến lại d) Từ mô hình hồi quy trên hãy vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét - Input: plot (protein, which = 1) Giải thích: Vẽ đồ thị sai số hồi quy sai số dự báo - Output: Nhận xét: Đồ thị vẽ giá trị dự báo giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường màu đỏ trên đồ thị đường cong, tức mối quan hệ biến dự báo X biến phụ thuộc Y xem chưa tuyến tính, chưa thỏa mãn giả định tuyến tính liệu Ngồi giá trị thặng dư (sai số) phân tán không xung quang đường thẳng y=0 (ngoại trừ số điểm ngoại lai), chứng tỏ phương sai sai số không số, vi phạm giả định mơ hình hồi quy - Các giả định mơ hình hồi quy tuyến tính + Tuyến tính liệu: mối quan hệ biến dự báo X biến phụ thuộc Y phải giả định tuyến tính 43 + Sai số phải có phân phối chuẩn + Phương sai sai số số + Các sai số phải độc lập với Ta vẽ thêm biểu đồ để kiểm tra giả định mơ hình hồi quy: - Input: plot(protein) Giải thích: vẽ đồ thị để kiểm tra giả định mơ hình hồi quy - Output: Nhận xét: nhận xét hình 1, mối quan hệ x y chưa xem tuyến tính 44 Đồ thị 2: đồ thị kiểm tra giá trị phân phối chuẩn sai số Nếu điểm thặng dư nằm đường thẳng điều kiện phân phối chuẩn thỏa mãn Ta nhận thấy giá trị thặng dư tập trung theo đường thẳng, khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng Tuy nhiên, không đáng kể, ta xem giả định phân phối chuẩn sai số đáp ứng Đồ thị 3: vẽ bậc giá trị thặng dư chuẩn hóa giá trị dự báo, 45 dùng để kiểm tra giả định thứ (phương sai sai số số- tương tự đò thị 1) Nếu đường màu đỏ trên đồ thị đường thẳng nằm ngang giá trị thặng dư phân tán quanh đường thẳng giả định thỏa mãn Nếu đường màu đỏ có độ dốc (hoặc cong) điểm thặng dư phân tán không xung quanh đường thẳng giả định thứ bị vi phạm Dựa vào đồ thị ta thấy đường màu đỏ trên đồ thị đường cong giá trị thặng dư không phân tán Đồ thị cho ta thấy giả định tính đồng phương sai bị vi phạm Đồ thị 4: cho phép xác định ảnh hưởng cao, chúng có diện liệu Những điểm ảnh hưởng cao điểm outlines, điểm gây nhiễu gây ảnh hưởng nhiều việc phân tích Nếu ta thấy đường màu đỏ đứt nét (Cook’s distance) có số điểm vượt qua đường khoảng cách này, nghĩa điểm có ảnh hưởng cao Nếu khơng có điểm vượt qua nó, nghĩa khơng có điểm thực có ảnh hưởng cao Dựa vào đồ thị, ta thấy quan trắc thứ 36240, 23637, 41818 điểm có ảnh hưởng cao liệu Tuy nhiên điểm chưa vượt qua đường khoảng cách Cook Do điểm chưa thật ảnh hưởng cao, ta khơng cần loại bỏ chúng phân tích Dự báo (Predictions) 46 a) Từ mơ hình dùng lệnh predict( ) để dự báo kích thước phần cặn tại thuộc tính sau: X1: F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9) X2: F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9) - Input: X1 = data.frame(F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9)) Giải thích: tạo thuộc tính X1 - Input: predict_X1 = predict(protein, X1, interval = "confidence") predict_X1 Giải thích: dự báo kích thước phần cặn thuộc tính X1 - Output: - Input: X2 = data.frame(F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9)) Giải thích: tạo thuộc tính X2 predict_X2 = predict(protein, X2, interval = "confidence") predict_X2 Giải thích: dự báo kích thước phần cặn thuộc tính X2 - Output: 47 b) So sánh khoảng tin cậy cho giá trị dự báo - Input: pred = data.frame(rbind(predict_X1,predict_X2)) Giải thích: Tạo bảng thể dự báo giá nhà thuộc tính X1,X2 - Input: rownames(pred) = c("X1","X2") Giải thích: đởi tên dịng thành X1, X2 - Input: pred$range=pred$upr-pred$lwr pred - Output: Nhận xét: với khoảng tin cậy 95% ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết luận với tập liệu X1, ta thu giá trị dự báo xác so với X2 Kết luận: Từ mục (4) ta thấy mơ hình ta xây dựng chưa thực phù hợp việc vi phạm nhiều giả định hồi quy, hệ số R-Squared = 0,2823 bé nên thay đởi biến RMSD giải thích biến độc lập q Do mơ hình ta xây dựng chưa thực phù hợp để dự đoán cho RMSD Có thể phân tích tốn ta nhận thấy biến F1, F2, F3, F4, F5, F6, F7, F8, F9 ảnh hưởng lớn đến biến RMSD, dù xây dựng mơ hình hồi quy chưa thật tốt dẫn đến kết dự báo sẽ không xác 48

Ngày đăng: 07/12/2022, 04:02

Hình ảnh liên quan

# Tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu vào biến - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

o.

bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu vào biến Xem tại trang 9 của tài liệu.
# Tạo bảng thống kê số lượng cho biến floors. - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

o.

bảng thống kê số lượng cho biến floors Xem tại trang 10 của tài liệu.
Nhận xét: Đồ thị phân phối của biến price có hình dạng phân phối ch̉n. Ngồi ra, ta có - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

h.

ận xét: Đồ thị phân phối của biến price có hình dạng phân phối ch̉n. Ngồi ra, ta có Xem tại trang 11 của tài liệu.
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models): - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

4..

Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models): Xem tại trang 19 của tài liệu.
b) Dựa vào kết quả của mơ hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mơ hình tương ứng với mức ý nghĩa 5%?  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

b.

Dựa vào kết quả của mơ hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mơ hình tương ứng với mức ý nghĩa 5%? Xem tại trang 20 của tài liệu.
# Xây dựng mơ hình tuyến tính bội theo mơ hình m2 # Thống kê kết quả tính tốn khi xây dựng mơ hình m2  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

y.

dựng mơ hình tuyến tính bội theo mơ hình m2 # Thống kê kết quả tính tốn khi xây dựng mơ hình m2 Xem tại trang 21 của tài liệu.
• Các giả định trong mơ hình hồi quy tuyến tính: Y và X có mối quan hệ tuyến tính  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

c.

giả định trong mơ hình hồi quy tuyến tính: Y và X có mối quan hệ tuyến tính Xem tại trang 23 của tài liệu.
(a) Từ mơ hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau:   - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

a.

Từ mơ hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau: Xem tại trang 26 của tài liệu.
Giải thích: tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu lại với - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

i.

ải thích: tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu lại với Xem tại trang 31 của tài liệu.
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

4..

Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) Xem tại trang 41 của tài liệu.
- Các giả định trong mơ hình hồi quy tuyến tính - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

c.

giả định trong mơ hình hồi quy tuyến tính Xem tại trang 43 của tài liệu.
Ta có thể vẽ thêm các biểu đồ để kiểm tra các giả định của mơ hình hồi quy: - Input:  - BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

a.

có thể vẽ thêm các biểu đồ để kiểm tra các giả định của mơ hình hồi quy: - Input: Xem tại trang 44 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan