BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ

PHẦN CHUNG

Hồi quy tuyến tính bội

Câu 1: Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của

Từ tháng 5/2014 đến tháng 5/2015, quận King, Mỹ ghi nhận 21,613 ngôi nhà được bán Dữ liệu không chỉ phản ánh giá nhà mà còn cung cấp thông tin về các thuộc tính mô tả chất lượng của từng ngôi nhà.

Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến chính trong bộ dữ liệu:

• price: Giá nhà được bán ra.

• sqft_living15: Diện tích trung bình của 15 ngôi nhà gần nhất trong khu dân cư

• floors: Số tầng của ngôi nhà được phân loại từ 1 - 3.5

• condition: Điều kiện kiến trúc của ngôi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt

• sqft_above: Diện tích ngôi nhà

• sqft_living: Diện tích khuôn viên nhà

1 Đọc dữ liệu (Import data): Hãy dùng lênh read.csv() để đọc tệp tin

2 Làm sạch dữ liệu (Data cleaning):

Để bắt đầu, hãy tạo một tập dữ liệu con có tên là new_DF, chỉ bao gồm các biến chính mà chúng ta quan tâm, như đã nêu trong phần giới thiệu dữ liệu Tất cả các yêu cầu xử lý từ câu hỏi này trở đi sẽ dựa trên tập dữ liệu con new_DF này.

Để kiểm tra các dữ liệu bị khuyết trong tập tin, bạn có thể sử dụng các hàm như is.na(), which() và apply() Nếu phát hiện có dữ liệu bị khuyết, hãy đề xuất các phương pháp thay thế phù hợp để xử lý những giá trị này, nhằm đảm bảo tính toàn vẹn của dữ liệu.

3 Làm rõ dữ liệu (Data visualization):

Chuyển đổi các biến giá cả và diện tích sống thành dạng logarithmic là bước quan trọng trong phân tích dữ liệu Cụ thể, biến price được chuyển thành log(price), sqft_living15 thành log(sqft_living15), sqft_above thành log(sqft_above), và sqft_living thành log(sqft_living) Tất cả các phép tính liên quan đến các biến này sẽ được hiểu là đã áp dụng biến đổi logarithm.

Đối với các biến liên tục, cần tính toán các giá trị thống kê mô tả như trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Kết quả nên được xuất ra dưới dạng bảng Các hàm gợi ý bao gồm mean(), median(), sd(), min(), max(), apply(), as.data.frame() và rownames().

(c) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table())

(d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến price

(e) Hãy dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floors và biến condition

(f) Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến sqft_living15, sqft_above, và sqft_living.

4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models):

Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà ở quận King

Mô hình hồi quy tuyến tính được xây dựng với biến giá (price) là biến phụ thuộc, trong khi tất cả các biến khác đóng vai trò là biến độc lập Để thực hiện mô hình hồi quy tuyến tính bội, hãy sử dụng lệnh lm().

(b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô hình tương ứng với mức tin cậy 5%?

Trong nghiên cứu này, chúng tôi xem xét hai mô hình hồi quy tuyến tính với biến phụ thuộc là giá (price) Mô hình đầu tiên (M1) bao gồm tất cả các biến độc lập, trong khi mô hình thứ hai (M2) loại bỏ biến điều kiện (condition) từ M1 Để xác định mô hình hồi quy nào hợp lý hơn, chúng tôi sử dụng lệnh anova() để so sánh hiệu suất của hai mô hình này.

(d) Chọn mô hình hợp lý hơn từ câu (c) hãy suy luận sự tác động của các biến lên giá nhà.

Sử dụng mô hình hồi quy đã chọn, hãy áp dụng lệnh plot() để tạo đồ thị thể hiện sai số hồi quy và giá trị dự báo Đồ thị này giúp bạn đánh giá độ chính xác của mô hình, nhận diện các xu hướng và kiểm tra các giả định của hồi quy Việc phân tích đồ thị sẽ cung cấp thông tin quan trọng về sự phân tán của sai số và mối quan hệ giữa các biến trong mô hình.

(a) Từ mô hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau:

X1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living mean(sqft_living), floor = 2, condition = 3

X2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living max(sqft_living), floor = 2, condition = 3

(b) So sánh khoảng tin cậy cho 2 giá trị dự báo này.

1 Đọc dữ liệu (Import data) Đọc dữ liệu “gia_nha.csv”.

2 Làm sạch dữ liệu (Data cleaning)

(a)Tạo một dữ liệu con new_DF chỉ bao gồm các biến chính mà ta quan tâm.

(b)Kiểm tra các dữ liệu bị khuyết trong new_DF

Khi kiểm tra dữ liệu bị khuyết trong new_DF, chúng ta phát hiện có 20 giá trị thiếu tại biến price, chiếm dưới 10% tổng số dữ liệu Do đó, việc xử lý các dữ liệu khuyết này là cần thiết.

Phương pháp thay thế cho các dữ liệu bị khuyết: xoá các quan sát chứa dữ liệu bị khuyết.

Sau khi thực hiện phương pháp, nhận thấy không còn dữ liệu bị khuyết.

3 Làm rõ dữ liệu (Data visualization)

Chuyển đổi các biến giá cả và diện tích sống thành dạng log là bước quan trọng trong phân tích dữ liệu Cụ thể, biến price được chuyển thành log(price), sqft_living15 thành log(sqft_living15), sqft_above thành log(sqft_above), và sqft_living thành log(sqft_living) Từ đây, mọi phép tính liên quan đến các biến này sẽ được thực hiện trên các giá trị đã được chuyển đổi sang dạng log.

Giải thích lý do chuyển sang dạng log(x):

Để cải thiện sự phù hợp của mô hình hồi quy, cần đảm bảo rằng các sai số hồi quy (phần dư) có phân phối chuẩn Khi phần dư không đạt yêu cầu này, việc sử dụng log của một biến có thể giúp thay đổi tỉ lệ và đưa biến đó về phân phối chuẩn Bên cạnh đó, nếu phần dư xuất phát từ phương sai thay đổi do các biến độc lập, chúng ta cũng có thể chuyển đổi các biến đó sang dạng log để cải thiện tính chính xác của mô hình.

Việc lấy log của biến phụ thuộc Y và biến độc lập X giúp chúng ta dễ dàng diễn giải mối quan hệ giữa hai biến Khi đó, hệ số hồi quy β sẽ biểu thị độ co giãn, cho thấy rằng nếu X tăng 1%, chúng ta kỳ vọng Y sẽ tăng lên β% về mặt trung bình.

+ Ước lượng mô hình phi tuyến: việc lấy log cho phép ta ước lượng các mô hình này bằng hồi quy tuyến tính.

Để tính toán các giá trị thống kê mô tả cho các biến log.price, log.sqft_above, log.sqft_living và log.sqft_living15, chúng ta sẽ xác định các chỉ số như trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Kết quả sẽ được trình bày dưới dạng bảng để dễ dàng so sánh và phân tích.

(c) Lập một bảng thống kê số lượng cho từng chủng loại của biến floors và condition.

(d) Vẽ biểu đồ histogram thể hiện phân phối của log.price.

Dựa trên biểu đồ histogram của biến log.price, ta nhận thấy đồ thị có hình dạng phân phối chuẩn

(e) Vẽ biểu đồ boxplot thể hiện phân phối của biến log.price cho từng nhóm phân loại của biến floors và biến condition.

- Vẽ biểu đồ boxplot thể hiện phân phối của biến log.price cho từng nhóm phân loại của biến floors.

- Vẽ biểu đồ boxplot thể hiện phân phối của biến log.price cho từng nhóm phân loại của biến condition.

(f) Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price theo biến log.sqft_living15, log.sqft_above, log.sqft_living.

- Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price theo biến log.sqft_living15

- Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price theo biến log.sqft_above.

- Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price theo biến log.sqft_living.

Dựa trên các đồ thị phân tán, log.price cho thấy mối quan hệ tuyến tính đồng biến với các biến log.sqft_living15, log.sqft_above và log.sqft_living Việc chuyển đổi các biến sang dạng log(x) sẽ mang lại hiệu quả cao hơn trong phân tích mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc, cụ thể là giá nhà.

Mối quan hệ giữa các biến và giá nhà có thể được xác định thông qua mô hình hồi quy tuyến tính, giúp kiểm tra tính ngẫu nhiên hay mối quan hệ tuyến tính giữa chúng Mô hình này cho phép chúng ta ước lượng giá trị của biến phụ thuộc (giá nhà) dựa trên các biến độc lập như số tầng, điều kiện ngôi nhà và diện tích Các khoảng tin cậy và phép kiểm định sẽ hỗ trợ trong việc phân tích mối quan hệ này.

4 Xây dựng mô hình hồi quy tuyến tính

Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà ở quận King.

ANOVA

Tập tin flights.rda chứa thông tin về 162049 chuyến bay khởi hành từ hai sân bay lớn SEA ở Seattle và PDX ở Portland trong năm 2014 Dữ liệu được cung cấp bởi Văn phòng Thống kê Vận tải Mỹ (https://www.transtats.bts.gov/) và được sử dụng để phân tích nguyên nhân gây ra sự khởi hành trễ hoặc hoãn chuyến bay.

 Tổng chuyến bay được thống kê: 162049.

 Mô tả các biến chính:

1 year, month, day: ngày khởi hành của mỗi chuyến bay

2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA

= United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v.

3 origin và dest: tên sân bay đi và đến Đối với sân bay đi, ta chỉ có hai giá trị SEA

4 dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)

5 dep_delay và arr_time: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé

6 distance: khoảng cách giữa hai sân bay (dặm)

1 Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả

(a) Trong R hãy nhập tập dữ liệu flights.rda

Create a new data frame named newFlights that includes only the essential variables: carrier, origin, dep_time, arr_time, dep_delay, and arr_delay From this point forward, all processing requests will be conducted on the newFlights data frame.

Trong quá trình phân tích dữ liệu, một số biến có chứa nhiều giá trị khuyết (NA - Not Available) Để đánh giá mức độ ảnh hưởng của các giá trị khuyết này, cần in bảng thống kê tỷ lệ giá trị khuyết cho từng biến Đề xuất một phương pháp hiệu quả để xử lý các giá trị khuyết này là sử dụng kỹ thuật imputation, trong đó có thể thay thế giá trị khuyết bằng giá trị trung bình, trung vị hoặc sử dụng các mô hình dự đoán để ước lượng giá trị thiếu.

Để tính toán các giá trị thống kê mô tả cho thời gian khởi hành trễ (biến dep_delay) của từng hãng hàng không (carrier), cần xác định các thông số như cỡ mẫu, trung bình, độ lệch chuẩn, giá trị tối thiểu (min), giá trị tối đa (max) và các điểm tứ phân vị Kết quả sẽ được trình bày dưới dạng bảng để dễ dàng so sánh và phân tích.

(e) Vẽ đồ thị boxplot cho thời gian khởi hành trễ dep_ delay tương ứng với từng hãng hàng không carrier.

Trong quá trình phân tích dữ liệu về thời gian khởi hành trễ của các hãng hàng không, chúng ta nhận thấy nhiều điểm outliers trên đồ thị boxplot của biến dep_delay Để cải thiện độ chính xác của phân tích, cần sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ các điểm outlier này Sau khi loại bỏ, hãy vẽ lại đồ thị boxplot cho biến dep_delay và đưa ra nhận xét về thời gian khởi hành trễ của từng hãng hàng không dựa trên kết quả mới.

2 Phân tích phương sai một nhân tố (one way ANOVA)

Nghiên cứu này tập trung vào việc kiểm định sự khác biệt về thời gian khởi hành trễ trung bình giữa các hãng hàng không cho các chuyến bay khởi hành từ Portland trong suốt năm.

Phân tích phương sai là công cụ quan trọng giúp xác định mối quan hệ giữa biến phụ thuộc và các biến độc lập, từ đó trả lời các câu hỏi nghiên cứu một cách chính xác Trong nghiên cứu này, biến phụ thuộc cần được xác định rõ ràng để đo lường sự ảnh hưởng của các nhân tố khác nhau Các biến độc lập, hay còn gọi là các nhân tố, sẽ được phân tích để hiểu rõ hơn về vai trò và tác động của chúng đối với biến phụ thuộc Việc sử dụng phân tích phương sai không chỉ giúp tăng cường độ tin cậy của kết quả mà còn hỗ trợ tối ưu hóa quá trình ra quyết định dựa trên dữ liệu thu thập được.

(b) Phát biểu các giả thuyết và đối thuyết bằng lời và công thức toán Nêu các giả định cần kiểm tra của mô hình.

Để kiểm tra các giả định của mô hình, bao gồm giả định về phân phối chuẩn và tính đồng nhất của các phương sai, chúng ta có thể áp dụng phân tích thăng dư kết hợp với đồ thị QQ-plot Ngoài ra, việc sử dụng kiểm định Shapiro-Wilk sẽ giúp xác định tính chuẩn của phân phối, trong khi kiểm định Levene hoặc Bartlett có thể được sử dụng để kiểm tra tính đồng nhất của các phương sai.

(d) Thực hiện phân tích ANOVA một nhân tố Trình bày bảng phân tích phương sai trong báo cáo Cho kết luận.

(a) Dùng lệnh load để đọc tệp tin flights.rda vào R:

(b) Tạo data.frame mới bao gồm các biến chính: carrier, origin, dep_time, arr_time, dep_delay và arr_delay, đặt tên là newFlights:

(c) Trong các biến đang xét, có một số biến chứa nhiều giá trị khuyết (NA – Not Available)

Dùng lệnh apply để kiểm tra tổng và tỷ lệ giá trị khuyết đối với từng biến.

Dựa vào bảng thống kê, chúng ta thấy rằng biến arr_delay, arr_time, dep_time và dep_delay có nhiều giá trị khuyết Tuy nhiên, lượng giá trị khuyết này chỉ chiếm tối đa 4% tổng số quan sát, cho thấy dữ liệu vẫn đủ đáng tin cậy để phân tích.

10%) Do đó ta lựa chọn phương pháp xoá các quan sát của biến nào có giá trị khuyết trong tệp tin newFlight.

Ta sử dụng lệnh na.omit để xoá các quan sát của biến nào có giá trị khuyết trong newFlight:

Ta thực hiện kiểm tra lại lượng quan sát đã xoá:

Sau khi xóa, số lượng quan sát còn lại là 1301, chiếm 0,8% so với tổng dữ liệu ban đầu Điều này cho thấy việc loại bỏ các quan sát có giá trị khuyết trong tệp tin newFlight không ảnh hưởng đáng kể đến kết quả của dữ liệu.

Sử dụng các hàm length, mean, sd, min, max, quantile kết hợp với tapply để tính toán các giá trị thống kê mô tả cho thời gian khởi hành trễ (biến dep_delay) của từng hãng hàng không (carrier), bao gồm cỡ mẫu, trung bình, độ lệch chuẩn, giá trị tối thiểu, tối đa và các điểm tứ phân vị.

Dùng hàm data.frame để xuất Kết quả dưới dạng bảng thống kê:

(e)Dùng hàm boxplot để vẽ biểu đồ của biến dep_delay theo từng hãng hàng không:

Biểu đồ cho thấy sự hiện diện của nhiều điểm ngoại lai (outliers) trong biến dep_delay, điều này có thể tác động đến kết quả phân tích trong các bước tiếp theo.

Chúng tôi áp dụng khoảng tứ phân vị (interquartile range) để loại bỏ các điểm outlier Cụ thể, chúng tôi sẽ chuyển đổi các outliers của biến dep_delay ở từng hãng hàng không thành giá trị NA.

Từ đó đề xuất phương pháp xử lý các NA đó.

Trước tiên, ta tạo function xác định outliers, chuyển các outliers thành dạng NA Việc tạo function mới sẽ giúp ta tối ưu code hơn:

Ta hiện hiện lọc các outliers tương ứng với từng hãng và chuyển thành NA Thưc hiện như sau:

Ghép các dữ liệu lại với nhau và lưu lại vào newFlights3:

Kiểm tra tổng NA và tỷ lệ NA trong data newFlights3 (sau khi chuyển outliers thành NA):

Nhận xét: Số lượng NA = 18732 và chiếm tỉ lệ 11,65% lượng quan sát của dữ liệu.

Trong trường hợp này, chúng ta không loại bỏ các giá trị NA do số lượng NA chiếm hơn 10% dữ liệu Thay vào đó, phương pháp xử lý được áp dụng là thay thế các giá trị NA bằng giá trị trung bình tương ứng của từng hãng hàng không.

Ghép các dữ liệu lại với nhau và lưu lại vào newFlights3:

Kiểm tra lại NA trong data newFlights3 sau khi xử lý:

Nhận xét: Sau khi thay thế các NA bằng các giá trị trung bình, dữ liệu đã không còn NA.

Tính lại các đặc trưng mẫu của biến dep_delay theo từng hãng hàng không:

Dùng hàm boxplot để vẽ lại biểu đồ của biến dep_delay theo từng hãng hàng không:

Nhận xét: Đối với hãng hàng không AA:

 Min = -18: Thời gian khởi hành sớm nhất: 18 phút.

 Max = 26: Thời gian khởi hành trễ nhất: 26 phút.

 Q1 = -6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.

 Q3 = 0: 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay. Đối với hãng hàng không AS:

 Q2 = -2,5563: 50% chuyến bay có thời gian khởi hành sớm hơn 2,5563 phút.

 Q3 = -1: 75% chuyến bay có thời gian khởi hành sớm 1 phút. Đối với hãng hàng không B6:

 Q3 = 1: 75% chuyến bay có thời gian khởi hành sớm 1 phút. Đối với hãng hàng không DL:

 Q3 = 0: 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay. Đối với hãng hàng không F9:

 Q3 = 4: 75% chuyến bay có thời gian khởi hành trễ từ 4 phút trở xuống. Đối với hãng hàng không HA:

 Q3 = -2: 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút. Đối với hãng hàng không OO:

 Q3 = -2: 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút. Đối với hãng hàng không UA:

 Q3 = 2: 75% chuyến bay có thời gian khởi hành trễ từ 2 phút trở xuống. Đối với hãng hàng không US:

 Q3 = -1: 75% chuyến bay có thời gian khởi hành sớm 1 phút. Đối với hãng hàng không VX:

 Q3 = -1: 75% chuyến bay có thời gian khởi hành sớm hơn 1 phút. Đối với hãng hàng không WN:

 Q2 = 3: 50% chuyến bay có thời gian khởi hành trễ từ 3 phút trở xuống.

 Q3 = 11: 75% chuyến bay có thời gian khởi hành trễ từ 11 phút trở xuống.

2 Phân tích phương sai một nhân tố

Nghiên cứu này nhằm xác định sự khác biệt về thời gian khởi hành trễ trung bình giữa các hãng hàng không cho các chuyến bay xuất phát từ Portland trong suốt năm.

(a) Giải thích lý do sử dụng phân tích phương sai:

PHẦN RIÊNG

Đọc dữ liệu

Đọc dữ liệu “gia_nha.csv”.

Làm sạch dữ liệu

(a)Tạo một dữ liệu con new_DF chỉ bao gồm các biến chính mà ta quan tâm.

(b)Kiểm tra các dữ liệu bị khuyết trong new_DF

Khi kiểm tra dữ liệu trong new_DF, chúng ta phát hiện có 20 giá trị bị khuyết ở biến price, chiếm dưới 10% tổng số dữ liệu Do đó, việc xử lý các dữ liệu khuyết này là cần thiết.

Phương pháp thay thế cho các dữ liệu bị khuyết: xoá các quan sát chứa dữ liệu bị khuyết.

Sau khi thực hiện phương pháp, nhận thấy không còn dữ liệu bị khuyết.

Làm rõ dữ liệu

Chuyển đổi các biến giá cả (price), diện tích sống 15 (sqft_living15), diện tích trên mặt đất (sqft_above) và diện tích sống (sqft_living) thành dạng log, cụ thể là log(price), log(sqft_living15), log(sqft_above) và log(sqft_living) Tất cả các phép tính liên quan đến các biến này sẽ được hiểu là đã được chuyển đổi sang dạng log.

Giải thích lý do chuyển sang dạng log(x):

Để cải thiện sự phù hợp của mô hình hồi quy, cần đảm bảo rằng các sai số hồi quy (phần dư) có phân phối chuẩn Khi phần dư không tuân theo phân phối chuẩn, việc áp dụng log cho một biến có thể giúp điều chỉnh tỉ lệ và đưa biến đó về phân phối chuẩn Hơn nữa, trong trường hợp phần dư bị ảnh hưởng bởi phương sai thay đổi do các biến độc lập, việc chuyển đổi các biến này sang dạng log cũng là một giải pháp hiệu quả.

Việc lấy log của biến phụ thuộc Y và biến độc lập X giúp chúng ta dễ dàng diễn giải mối quan hệ giữa hai biến Cụ thể, hệ số hồi quy β sẽ được hiểu là hệ số co giãn, cho biết rằng khi X tăng 1%, chúng ta kỳ vọng Y sẽ tăng lên β% về mặt trung bình.