1. Trang chủ
  2. » Thể loại khác

2012752 nguyen thanh cong

76 35 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 2,5 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC KỸ THUẬT MÁY TÍNH BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn Nguyễn Bá Thi Lớp L02,nhóm 16, HK 212 Sinh viên thực hiện Nguyễn Thành Công 2012752 Ngày 16 tháng 4 năm 2022 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học và kỹ thuật máy tính Contents A PHẦN CHUNG 3 I Hồi quy tuyến tính 3 1 Đề bài 3 2 Câu hỏi 3 2 1 Đọc dữ liệu (Import data) 3 2 2 Làm sạch dữ liệu (Data cleaning) 3 2 3 Làm rõ dữ liệu (Data vis.

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC - KỸ THUẬT MÁY TÍNH BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn: Nguyễn Bá Thi Lớp: L02,nhóm 16, HK 212 Sinh viên thực hiện: Nguyễn Thành Công - 2012752 Ngày 16 tháng năm 2022 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính Contents A PHẦN CHUNG I Hồi quy tuyến tính Đề Câu hỏi 2.1 Đọc liệu (Import data): 2.2 Làm liệu (Data cleaning): 2.3 Làm rõ liệu (Data visualization): 2.4 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): 2.5 Dự báo (Predictions): Xử lý số liệu 3.1 Đọc liệu (Import data): 3.2 Làm liệu (Data cleaning): 3.3 Làm rõ liệu (Data visualization): 3.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 13 3.5 Dự báo (Predictions): 18 II ANOVA Đề Câu hỏi 2.1 Nhập làm 2.2 Phân tích phương Xử lý số liệu 3.1 Nhập làm 3.2 Phân tích phương liệu, thực thống kê mô tả sai nhân tố (one way ANOVA) liệu, thực thống kê mô tả sai nhân tố (one way ANOVA) 20 20 20 20 21 21 21 31 B PHẦN RIÊNG 46 III Hồi quy tuyến tính Đề Câu hỏi 2.1 Đọc liệu (Import data) 2.2 Làm liệu (Data cleaning) 2.3 Làm rõ liệu (Data visualization) 2.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 2.5 Dự báo (Predictions): Xử lý số liệu 3.1 Đọc liệu (Import data): 3.2 Làm liệu (Data cleaning): 3.3 Làm rõ liệu (Data visualization): 3.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 3.5 Dự báo (Predictions): 46 46 46 46 46 47 47 47 48 48 48 49 55 61 IV ANOVA Đề Câu hỏi 2.1 Nhập làm 2.2 Phân tích phương 62 62 62 62 63 liệu, thực thống kê mô tả sai nhân tố (one way ANOVA) Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 1/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính Xử lý số liệu 63 3.1 Nhập làm liệu, thực thống kê mô tả 63 3.2 Phân tích phương sai nhân tố (one way ANOVA) 70 Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 2/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính A PHẦN CHUNG I Hồi quy tuyến tính Đề Tập tin "gia_nha.csv"chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến tháng 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chất lượng ngơi nhà Dữ liệu gốc cung cấp (https://www.kaggle.com/harlfoxem/housesalesprediction) Các biến liệu: ❼ price: Giá nhà bán ❼ sqft_living15: Diện tích trung bình 15 ngơi nhà gần khu dân cư ❼ floors: Số tầng nhà phân loại từ 1-3.5 ❼ condiiton: Điều kiện kiến trúc nhà từ – 5, 1: tệ 5: tốt ❼ sqft_above: Diện tích ngơi nhà ❼ sqft_living: Diện tích khn viên nhà Câu hỏi 2.1 Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin 2.2 Làm liệu (Data cleaning): (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF (b) Kiểm tra liệu bị khuyết tập tin ( Các câu lệnh tham khảo: is.na(), which(), apply() ) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết 2.3 Làm rõ liệu (Data visualization): (a) Chuyển đổi biến price, sqft_living15, sqft_above, sqft_living thành log(price), log(sqft_living15), log(sqft_above), log(sqft_living) Từ tính tốn với biến hiểu qua đổi biến dạng log (b) Đối với biến liên tục, tính giá trị thống kê mơ tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá tị nhỏ Xuất kết dạng bảng (Hàm gợi ý: mean() , median() , sd() , min() , max() , apply() , as.data.frame() , rownames() ) (c) Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table() ) Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 3/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính (d) Hãy dùng hàm hist() để vẽ đồ thị phân phối biến price (e) Hãy dùng hàm boxplot() vẽ phân phối biến price cho nhóm phân loại biến floors biến condition (f) Dùng lệnh pairs() vẽ phân phối biến price theo biến sqft_living15, sqft_above sqft_living 2.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá có nhân tố tác động đến giá nhà quận King (a) Xét mơ hình hồi quy tuyến tính bao gồm biến price biến phụ thuộc, tất biến lại biến độc lập Hãy dùng lệnh lm() để thực thi mơ hình hồi quy tuyến tính bội (b) Dựa vào kết mơ hình hồi quy tuyến tính trên, biến bạn loại khỏi mơ hình tương ứng với mức tin cậy 5% ? (c) Xét mơ hình tuyến tính bao gồm biến price biến phụ thuộc nhưng: • Mơ hình M1 chứa tất biến cịn lại biến độc lập • Mơ hình M2 loại bỏ biến condition từ mơ hình M1 Hãy dùng lệnh anova() để đề xuất mơ hình hồi quy hợp lý (d) Chọn mơ hình hợp lý từ câu (c) suy luận tác động biến lên giá nhà (e) Từ mơ hình hồi quy mà bạn chọn câu (c) dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) Nêu ý nghĩa nhận xét đồ thị 2.5 Dự báo (Predictions): (a) Từ mơ hình bạn chọn câu (c), dùng lệnh predict() để dự báo giá nhà thuộc tính sau: x1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqtf_living = mean(sqtf_living), floor = 2, condition = x2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqtf_living = max(sqtf_living), floor = 2, condition = So sánh khoảng tin cậy cho giá trị dự báo 3.1 Xử lý số liệu Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 4/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính gia_nha = read.csv("D:/gia_nha.csv") Giải thích: dùng lệnh read.csv() để đọc liệu gia_nha.csv, sau lưu vào gia_nha 3.2 Làm liệu (Data cleaning): (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF new_DF

Ngày đăng: 27/04/2022, 01:28

HÌNH ẢNH LIÊN QUAN

Dựa vào kết quả thu được ở bảng thống kê giá trị khuyết đối với từng biến, ta nhận thấy có các giá trị khuyết tại biếnprice - 2012752 nguyen thanh cong
a vào kết quả thu được ở bảng thống kê giá trị khuyết đối với từng biến, ta nhận thấy có các giá trị khuyết tại biếnprice (Trang 7)
(c) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table() ). - 2012752 nguyen thanh cong
c Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table() ) (Trang 9)
3.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà ở quận King. - 2012752 nguyen thanh cong
3.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà ở quận King (Trang 14)
Cách đánh giá mô hình: Những dấu (*) cho ta biết ý nghĩa thống kê (mức ý nghĩa), ứng với (***) thì mức ý nghĩa là 0, (**) thì mức ý nghĩa là 0,01, (*) thì mức ý nghĩa là 0,01,.. - 2012752 nguyen thanh cong
ch đánh giá mô hình: Những dấu (*) cho ta biết ý nghĩa thống kê (mức ý nghĩa), ứng với (***) thì mức ý nghĩa là 0, (**) thì mức ý nghĩa là 0,01, (*) thì mức ý nghĩa là 0,01, (Trang 15)
Theo kết quả mô hình hồi quy tuyến tín hở câu (a), ta thấy biến as.factor(condition)2 có mức tin cậy lớn hơn 5% - 2012752 nguyen thanh cong
heo kết quả mô hình hồi quy tuyến tín hở câu (a), ta thấy biến as.factor(condition)2 có mức tin cậy lớn hơn 5% (Trang 16)
H: Hai mô hình M1,M2 hiệu quả giống nhau. H: Hai mô hình M1, M2 có hiệu quả khác nhau. - 2012752 nguyen thanh cong
ai mô hình M1,M2 hiệu quả giống nhau. H: Hai mô hình M1, M2 có hiệu quả khác nhau (Trang 17)
• Hệ số R2 và hệ số R2 hiệu chỉnh của mô hình M1 lớn hơn mô hình M2 ⇒ Sự thay đổi giá nhà được giải thích nhiều hơn bởi các biến độc lập. - 2012752 nguyen thanh cong
s ố R2 và hệ số R2 hiệu chỉnh của mô hình M1 lớn hơn mô hình M2 ⇒ Sự thay đổi giá nhà được giải thích nhiều hơn bởi các biến độc lập (Trang 17)
(e) Từ mô hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values) - 2012752 nguyen thanh cong
e Từ mô hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values) (Trang 18)
(a) Từ mô hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau: - 2012752 nguyen thanh cong
a Từ mô hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau: (Trang 19)
(c) Thực hiện kiểm tra các giả định của mô hình (giả định về phân phối chuẩn, tính đồng nhất của các phương sai) - 2012752 nguyen thanh cong
c Thực hiện kiểm tra các giả định của mô hình (giả định về phân phối chuẩn, tính đồng nhất của các phương sai) (Trang 22)
Bảng thống kê tỷ lệ giá trị khuyết đối với từng biến: install.packages("naniar") - 2012752 nguyen thanh cong
Bảng th ống kê tỷ lệ giá trị khuyết đối với từng biến: install.packages("naniar") (Trang 23)
• Phương pháp 3: Prediction Model (Mô hình dự đoán): chúng ta tạo một mô hình dự đoán để ước tính các giá trị sẽ thay thế các giá trị khuyết - 2012752 nguyen thanh cong
h ương pháp 3: Prediction Model (Mô hình dự đoán): chúng ta tạo một mô hình dự đoán để ước tính các giá trị sẽ thay thế các giá trị khuyết (Trang 24)
• Kết quả dạng bảng: - 2012752 nguyen thanh cong
t quả dạng bảng: (Trang 26)
Mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau: - 2012752 nguyen thanh cong
h ình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau: (Trang 33)
F > F(k−1,n−k);α là giá trị trị giới hạn tra từ bảng số với bậc tự do k-1 tra theo hàng đầu tiên và n-k tra theo cột đầu tiên, nhớ chọn bảng với mức ý nghĩa phù hợp. - 2012752 nguyen thanh cong
gt ; F(k−1,n−k);α là giá trị trị giới hạn tra từ bảng số với bậc tự do k-1 tra theo hàng đầu tiên và n-k tra theo cột đầu tiên, nhớ chọn bảng với mức ý nghĩa phù hợp (Trang 35)
(d) Thực hiện phân tích ANOVA một nhân tố. Trình bày bảng phân tích phương sai trong báo cáo - 2012752 nguyen thanh cong
d Thực hiện phân tích ANOVA một nhân tố. Trình bày bảng phân tích phương sai trong báo cáo (Trang 45)
3.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến chỉ số quốc gia toàn quốc IStanbul(ISE.1). - 2012752 nguyen thanh cong
3.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến chỉ số quốc gia toàn quốc IStanbul(ISE.1) (Trang 56)
• Mô hình M2 là loại bỏ biến DAX từ mô hình M1. - 2012752 nguyen thanh cong
h ình M2 là loại bỏ biến DAX từ mô hình M1 (Trang 58)
Thực hiện so sánh mô hình M1 và M2 anova(M1,M2) - 2012752 nguyen thanh cong
h ực hiện so sánh mô hình M1 và M2 anova(M1,M2) (Trang 59)
H0 : Hai mô hình M1,M2 hiệu quả giống nhau. H 1: Hai mô hình M1, M2 hiệu quả khác nhau. - 2012752 nguyen thanh cong
Hai mô hình M1,M2 hiệu quả giống nhau. H 1: Hai mô hình M1, M2 hiệu quả khác nhau (Trang 59)
H0 : Hai mô hình M2,M3 hiệu quả giống nhau. H 1: Hai mô hình M2, M3 hiệu quả khác nhau. - 2012752 nguyen thanh cong
Hai mô hình M2,M3 hiệu quả giống nhau. H 1: Hai mô hình M2, M3 hiệu quả khác nhau (Trang 60)
Kết luận: Vậy ta chọn mô hình M1. - 2012752 nguyen thanh cong
t luận: Vậy ta chọn mô hình M1 (Trang 60)
(e) Từ mô hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values) - 2012752 nguyen thanh cong
e Từ mô hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values) (Trang 61)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN