1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ

38 45 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Tập Lớn Môn Học Xác Suất Thống Kê
Tác giả Nguyễn Minh Thiện
Người hướng dẫn PGS.TS. Nguyễn Đình Huy
Trường học Đại Học Quốc Gia TP. HCM Trường Đại Học Bách Khoa
Chuyên ngành Xác Suất Thống Kê
Thể loại bài tập lớn
Năm xuất bản 2021
Thành phố TP. HỒ CHÍ MINH
Định dạng
Số trang 38
Dung lượng 1,5 MB

Cấu trúc

  • I. Hoạt động 1 (3)
    • 1. Giới thiệu dữ liệu (3)
    • 2. Câu hỏi (3)
  • II. Hoạt động 2 (23)
    • 3. Tổng kết (37)
  • III. TÀI LIỆU THAM KHẢO (38)

Nội dung

Hoạt động 1

Giới thiệu dữ liệu

Tập tin “gia_nha.csv” cung cấp thông tin về giá bán của 21,613 ngôi nhà tại quận King, Mỹ, trong khoảng thời gian từ tháng 5/2014 đến 5/2015 Dữ liệu không chỉ bao gồm giá nhà mà còn có các thuộc tính mô tả đặc điểm của từng ngôi nhà Để tìm hiểu thêm, bạn có thể truy cập tại [Kaggle](https://www.kaggle.com/harlfoxem/housesalesprediction).

Chi tiết về bộ dữ liệu như sau:

- Các biến chính trong bộ dữ liệu:

 price: Giá nhà được bán ra

 floors: Số tầng cảu ngôi nhà được phân loại từ 1 - 3.5

 condition: Điều kiện kiến trúc của ngôi nhà từ 1 - 5, 1: rất tệ, 5: rất tốt

 view: Đánh giá cảnh quan xung quanh nhà từ thấp đến cao: 0 - 4

 sqft_above: Diện tích ngôi nhà

 sqft_living: Diện tích khuôn viên nhà

 sqft_basement: Diện tích tầng hầm.

Câu hỏi

2.1 Đọc dữ liệu (Import data)

Hình 1 Code và đính kèm chú thích của Import data

Hình 2 File data được tạo sau khi chạy code

2.2 Làm sạch dữ liệu (Data cleaning)

[a] Tạo một dữ liệu con đặt tên “new_DF”, chỉ bao gồm các biến cần quan tâm là: price, floors, condition, view, sqft_above, sqft_living, sqft_basement

Hình 3 Code tạo dữ liệu con từ dữ liệu gốc

Hình 4 Enviroment sau khi chạy code

Hình 5 Dữ liệu con new_DF

[b] Kiểm tra các dữ liệu bị khuyết trong tập tin

Hình 6 Code kiểm tra dữ liệu khuyết theo dòng

Hình 7 Console kết quả kiểm tra dữ liệu khuyết theo dòng

Hình 8 Code thống kê số lượng giá trị khuyết theo biến

Hình 9 Console số lượng giá trị khuyết theo biến

Dựa trên kết quả phân tích, dữ liệu bị khuyết chủ yếu nằm ở biến giá (price), với tổng số 20 giá trị khuyết trong 21,613 quan sát Do đó, chúng tôi quyết định loại bỏ các quan sát có giá trị khuyết ở biến price.

Hình 10 Code xoá các quan sát của biến bị thiếu

2.3 Làm rõ dữ liệu (Data visualization):

Transform the variables price, sqft_above, sqft_living, and sqft_basement into their square roots: sqrt(price), sqrt(sqft_above), sqrt(sqft_living), and sqrt(sqft_basement) From this point forward, all calculations involving these variables should be interpreted in their square root form.

Hình 11 Code chuyển giá trị số sang sqrt

Hình 12 new_DF sau khi chuyển đổi các giá trị dạng số sang sqrt

To analyze continuous variables such as price, sqft_above, sqft_living, and sqft_basement, calculate the mean, median, standard deviation, maximum, and minimum values Store these results in variables named mean, median, sd, max, and min for further reference.

Hình 13 Code tạo vector mới từ trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất, giá trị nhỏ nhất của sqrt new_DF

Các vector mới được tạo ra từ các phép toán như trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất của biến sqrt new_DF.

[c] Tạo bảng thể hiện các giá trị thống kê mô tả cho các sqrt của biến liên tục, lưu vào biến banggiatri

Hình 15 Code tạo bảng giá trị từ các giá trị thống kê

Hình 16 Bảng giá trị được tạo từ code

Đối với các biến phân loại, cần lập bảng thống kê số lượng cho từng chủng loại Hãy tạo bảng thống kê cho các biến như floors, condition và view để dễ dàng phân tích dữ liệu.

Hình 17 Code tạo bảng thống kê

Hình 18 Console tạo bảng thống kê

[e] Dùng hàm hist() để vẽ đồ thị phân phối của biến price

Hình 19 Code đồ thị phân bố của biến price

Hình 20 Đồ thị phân bố của biến price

[f] Dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floors, condition và biến view

Hình 21 Code vẽ biểu đồ price theo floors, condition và view

Hình 22 Biểu đồ price theo floors

Hình 23 Biểu đồ price theo condition

Hình 24 Biểu đồ price theo view

Dựa vào các biểu đồ Boxplot, chúng ta có thể nhận thấy rằng sự chênh lệch giữa giá trị tối đa và tối thiểu không lớn, tuy nhiên có nhiều điểm ngoại lai trong biến giá cả liên quan đến số tầng, tình trạng và tầm nhìn.

[g] Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến, sqft_above, sqft_living, sqft_basement

Hình 25 Code phân phối của biến price lần lượt theo các biến, sqft_above, sqft_living, sqft_basement

Hình 26 Phân phối của biến price lần lượt theo sqft_above, sqft_living, sqft_basemen

2.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models):

Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà ở quận King

Mô hình hồi quy tuyến tính được xây dựng với biến giá (price) là biến phụ thuộc, trong khi tất cả các biến khác đều là biến độc lập Để thực hiện mô hình hồi quy tuyến tính bội, sử dụng lệnh lm() Lưu ý rằng biến điều kiện (condition) và số tầng (floors) cần được xem xét dưới dạng factor.

 sqft_above: biến liên tục;

 sqft_living: biến liên tục;

 sqft_basement: biến liên tục;

Hình 27 Code mô hình hồi quy tuyến tính bội và thống kê kết quả

Hình 28 Console mô hình hồi quy tuyến tính bội

Dựa vào kết quả của mô hình hồi quy tuyến tính, cần xác định những biến nào sẽ bị loại khỏi mô hình với mức tin cậy 5% Việc này yêu cầu phân tích các giá trị p của từng biến để đảm bảo rằng chỉ những biến có ý nghĩa thống kê cao mới được giữ lại, nhằm tối ưu hóa độ chính xác của mô hình.

H: Các hệ số hồi quy không có ý nghĩa thống kê ̅: Các hệ số hồi quy có ý nghĩa thống kê

Dựa vào kết quả mô hình hồi quy, Pr(>|t|) của tất cả các hệ số liên quan đến biến liên tục đều nhỏ hơn 2,2.e-16, thấp hơn mức tin cậy 5%, do đó chúng ta bác bỏ giả thiết H và chấp nhận giả thiết ̅, cho thấy tất cả các hệ số của biến liên tục đều có ý nghĩa thống kê Do đó, không cần loại bỏ biến liên tục nào khỏi mô hình Tuy nhiên, giá trị của biến rời rạc "condition" có độ tin cậy không cao, nên chúng ta sẽ kiểm tra trường hợp loại bỏ biến này.

[c] Xét 2 mô hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:

 Mô hình M1 chứa tất cả các biến còn lại là biến độc lập

 Mô hình M2 là loại bỏ biến condition từ mô hình M1

Dùng lệnhh anova() để đề xuất mô hình hồi quy hợp lý hơn

Hình 29 Code xây dụng và thống kê mô hình M2

Hình 30 Console Mô hình hồi quy tuyến tính bội M2

Hình 31 Code phân tích phương sai cho 2 mô hình M1 và M2

Hình 32 Console phân tích phương sai cho 2 mô hình M1 và M2 Đặt giả thiết:

H: M2 không hợp lý hơn M1 ̅: M2 hợp lý hơn M1

Nhận xét: Vì kết quả thu được trong bảng Anova cho 2 mô hình M1 và M2 là

Pr(>F)

Ngày đăng: 14/03/2022, 05:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3]. Phân tích số liệu và biểu đồ bằng, Truy cập từ: https://cran.r- project.org/doc/contrib/Intro_to_R_Vietnamese.pdf Link
[4]. Giới thiệu phân tích phương sai (ANOVA), Truy cập từ https://www.youtube.com/watch?v=I19vEdaM1eY&list=LL&index=6&t=2s Link
[5]. Giáo trình xác suất thống kê – Nguyễn Đình Huy [6]. Multiple regression, Truy cập từ: https://rstudio-pubs-static.s3.amazonaws.com/233905_8c9601100a364df0a9972f955ab1dc14.html Link
[7]. Hồi quy tuyến tính, Truy cập từ: https://www.youtube.com/watch?v=L15RellDWvk&t=6s Link
[1]. Douglas C. Montgomery, George C. Runger. Hoboken. Applied Statistics and Probability for Engineers. NJ: Wiley, (2007) Khác
[2]. Peter Dalgaard Introductory Statistics with R. Springer, (2008) Khác

HÌNH ẢNH LIÊN QUAN

Hình 3.  Code tạo dữ liệu con từ dữ liệu gốc - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 3. Code tạo dữ liệu con từ dữ liệu gốc (Trang 4)
Hình 4. Enviroment sau khi chạy code - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 4. Enviroment sau khi chạy code (Trang 4)
Hình 5. Dữ liệu con new_DF - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 5. Dữ liệu con new_DF (Trang 5)
Hình 11. Code chuyển giá trị số sang sqrt - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 11. Code chuyển giá trị số sang sqrt (Trang 7)
Hình 12. new_DF sau khi chuyển đổi các giá trị dạng số sang sqrt - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 12. new_DF sau khi chuyển đổi các giá trị dạng số sang sqrt (Trang 7)
Hình 13. Code tạo vector mới từ trung bình, trung vị, độ lệch chuẩn, giá trị lớn - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 13. Code tạo vector mới từ trung bình, trung vị, độ lệch chuẩn, giá trị lớn (Trang 8)
Hình 16. Bảng giá trị được tạo từ code - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 16. Bảng giá trị được tạo từ code (Trang 9)
Hình 17. Code tạo bảng  thống kê - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 17. Code tạo bảng thống kê (Trang 9)
Hình 20. Đồ thị phân bố của biến price - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 20. Đồ thị phân bố của biến price (Trang 10)
Hình 22. Biểu đồ price theo floors - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 22. Biểu đồ price theo floors (Trang 11)
Hình 23. Biểu đồ price theo condition - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 23. Biểu đồ price theo condition (Trang 11)
Hình 24. . Biểu đồ price theo view - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 24. Biểu đồ price theo view (Trang 12)
Hình 26. Phân phối của biến price lần lượt theo  sqft_above, sqft_living, - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 26. Phân phối của biến price lần lượt theo sqft_above, sqft_living, (Trang 13)
Hình 27. Code mô hình hồi quy tuyến tính bội và thống kê kết quả - BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ
Hình 27. Code mô hình hồi quy tuyến tính bội và thống kê kết quả (Trang 14)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w