Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
790,92 KB
Nội dung
Trường Đại học Bách Khoa HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP.HCM ————o0o———— Bài tập lớn môn học Xác suất thống kê GVHD: Nguyễn Bá Thi SVTH: Lâm Thành Dương - 1912980 - L15 - Nhóm Mơn học Xác suất thống kê - Học kỳ 201 năm học 2020/2021 Trang Trường Đại học Bách Khoa HCM Mục lục Cơ sở lý thuyết 1.1 Thống kê mô tả 1.2 Các lệnh dùng Rstudio 3 Nội dung báo cáo 2.1 Phần chung 2.1.1 Đọc liệu 2.1.2 Làm liệu 2.1.3 Làm rõ liệu 2.1.4 Xây dựng mơ hình hồi quy tuyến tính: muốn khám phá có tác động đến giá nhà quận King 2.1.5 Dự báo 2.2 Phần riêng 2.2.1 Giới thiệu 2.2.2 Xử lí số liệu 4 nhân tố 10 13 14 14 14 Kết luận 22 Tài liệu tham khảo 23 Môn học Xác suất thống kê - Học kỳ 201 năm học 2020/2021 Trang Trường Đại học Bách Khoa HCM 1.1 Cơ sở lý thuyết Thống kê mơ tả Nói đến thống kê mơ tả nói đến việc mơ tả liệu phép tính số thống kê số trung bình (mean), số trung vị (median), số lớn (max), số nhỏ (min), phương sai (variance), độ lệch chuẩn (standard deviation) Trong ta làm quen định nghĩa: Trung bình cộng: trung bình cộng thống kê đại lượng mơ ta thống kê, tính cách lấy tổng giá trị toàn quan sát tập chia cho tổng số lượng quan sát tập Trung vị: số tách nửa lớn nửa bé mẫu, quần thể, hay phân bố xác suất Nó giá trị phân bố, mà số số nằm hay số Độ lệch chuẩn: đại lượng thống kê mô tả dùng để đo mức độ phân tán tập liệu lập thành bảng tần số Có thể tính độ lệch chuẩn cách lấy bậc hai phương sai Giá trị nhỏ nhất: giá trị nhỏ toàn giá trị tập mẫu Giá trị lớn nhất: giá trị lớn toàn giá trị tập mẫu Biểu đồ hist: biểu đồ tần số dùng cho biến định lượng liên tục nhằm biểu diễn phân phối tập liệu Biểu đồ boxplot: biểu đồ diễn tả vị trí phân bổ liệu, giá trị nhỏ nhất, tứ phân vị thứ nhất, trung vị, tứ phân vị thứ ba, giá trị lớn Biểu đồ pairs: biểu đồ thể mối liên hệ biến Hồi quy tuyến tính: Khái niệm: Đường hồi quy tuyến tính mẫu Y theo X đường thẳng có phương trình: y = A + Bx Ý nghĩa: Nếu X Y có tương quan xấp xỉ tuyến tính đường hồi quy cho ta khả dự báo cách đơn giản: X = x0 => Y ≈ y0 = A + Bx0 1.2 Các lệnh dùng Rstudio read_csv(): đọc file csv vào R-studio which(): tìm kiếm thơng số thỏa mãn ràng buộc từ liệu cho trước is.na(): kiểm tra liệu có thơng số mang giá trị NA hay khơng median(): tính trung vị mẫu mean(): tính trung bình mẫu max(): tính giá trị lớn mẫu min(): tính giá trị nhỏ mẫu sd(): tính độ lệch chuẩn mẫu table(): tạo bảng thông kê biến phân loại 10 hist(): vẽ biểu đổ tần số biến 11 boxplot(): vẽ biểu đồ hộp 12 pairs(): vẽ biểu đồ liên hệ biến 13 view(): hiển thị giá trị biến 14 lm(): tính tốn giá trị hệ số hồi quy 15 summary(): liệt kê giá trị tính tốn mơ hình 16 anova(): ước tính xem biến phụ thuộc định lượng thay đổi theo mức nhiều biến độc lập phân loại 17 predict(): sử dụng mơ hình phù hợp để dự báo giá trị phản hồi cho tập liệu Môn học Xác suất thống kê - Học kỳ 201 năm học 2020/2021 Trang Trường Đại học Bách Khoa HCM Nội dung báo cáo 2.1 Phần chung Đề bài: Phân tích giá bán thị trường nhà quân King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015.Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chất lượng ngơi nhà Các biến liệu: • price: giá nhà bán • sqft_living15: diện tích trung bình 15 ngồi nhà gần khu dân cư • floors: số tầng nhà phân loại từ 1-3.5 • condition: điều kiện kiến trúc ngơi nhà từ 1-5, 1: tệ 5: tốt • sqft_above: diện tích ngơi nhà • sqft_living: diện tích khn viên nhà Câu hỏi: 2.1.1 Đọc liệu Hãy dùng lệnh read.csv() để đọc tệp tin Input: df = read.csv("gia_nha.csv") View(df) Output: Môn học Xác suất thống kê - Học kỳ 201 năm học 2020/2021 Trang Trường Đại học Bách Khoa HCM 2.1.2 Làm liệu • (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF Input: newDF