1. Trang chủ
  2. » Khoa Học Tự Nhiên

Bài tập trong RStudio

21 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xử Lý Và Xử Lý Số Liệu
Trường học Khoa Học Môi Trường
Thể loại bài tập
Năm xuất bản 2023-2024
Thành phố Boston
Định dạng
Số trang 21
Dung lượng 65,67 KB
File đính kèm Phân tích, xử lý số liệu ngành Khoa học môi trường.rar (62 KB)

Nội dung

Một trong những lý thuyết giải thích giá nhà cho rằng sự khác nhau về mức độ ô nhiễm xung quanh khu vực mà ngôi nhà được mua có thể tác động lên giá nhà trung bình của khu vực đó. Một cuộc điều tra ở 400 khu dân cư ở Boston được sử dụng để thiết lập môi tương quan giữa giá nhà trong khu vực với các yếu tố khác nhau bao gồm mức độ ô nhiễm. Dữ liệu Boston chứa những điều tra của 400 khu dân cưu ở Boston gồm các biến:. MED.VALUE (price): giá nhà, đo bằng US nox: mức độ ô nhiễm, đo bằng lượng nitrous oxide trong không khí, đơn vị parts per million; dis: khoảng cách từ khu dân cư đến 5 trung tâm mua sắm, dịch vụ, làm việc, đơn vị in miles; rooms: số lượng phòng trong nhà và PUPIL.TEACHER (stratio): tỷ lệ sinh viêngiáo viên vd: trung bình số sinh viên trên một giáo viên install.packages(MASS) library (MASS) data(Boston)

Trang 1

CHƯƠNG TRÌNH KHOA HỌC MÔI TRƯƠNG

Xử lý và xử lý số liệu 2023-2024 Kiểm tra kết thúc học phần Hướng dẫn:

Những câu trả lời của bạn phải được gắn với kết quả chạy R Bài làm không có kết quả R sẽkhông được chấm điếm Kết quả điểm sẽ bị trừ 50% nếu nộp trễ

Giả thích:

Một trong những lý thuyết giải thích giá nhà cho rằng sự khác nhau về mức độ ô nhiễm xung quanh khu vực mà ngôi nhà được mua có thể tác động lên giá nhà trung bình của khu vực đó Một cuộc điều tra ở 400 khu dân cư ở Boston được sử dụng để thiết lập môi tương quan giữa giá nhà trong khu vực với các yếu tố khác nhau bao gồm mức độ ô nhiễm

Dữ liệu Boston chứa những điều tra của 400 khu dân cưu ở Boston gồm các biến:

- MED.VALUE (price): giá nhà, đo bằng US$

- nox: mức độ ô nhiễm, đo bằng lượng nitrous oxide trong không khí, đơn vị parts

- PUPIL.TEACHER (stratio): tỷ lệ sinh viên-giáo viên vd: trung bình số sinh viên

trên một giáo viên

install.packages(MASS)

library (MASS)

data(Boston)

Câu hỏi phần 1: Mô tả thống kê

1 Mô tả thống kê các biến gồm: trung bình, phương sai, độ lệch chuẩn, mode,

median, biên độ (range), sô lớn nhất, số nhỏ nhất của biến price, nox, và dis

Trang 2

 Giá nhà (price - MED.VALUE):

Trung bình (mean): Có thể tính bằng mean(Boston$medv)

Phương sai (variance): Có thể tính bằng var(Boston$medv)

Độ lệch chuẩn (standard deviation): Có thể tính bằng sd(Boston$medv)

Mode: R không có hàm tính trực tiếp mode Bạn có thể tìm hiểu thêm về cách tính mode trong R hoặc bỏ qua nếu không cần

Trung bình (mean): Có thể tính bằng mean(Boston$nox)

Phương sai (variance): Có thể tính bằng var(Boston$nox)

Độ lệch chuẩn (standard deviation): Có thể tính bằng sd(Boston$nox)

Mode: R không có hàm tính trực tiếp mode Bạn có thể tìm hiểu thêm về cách tính mode trong R hoặc bỏ qua nếu không cần

 Khoảng cách đến trung tâm (dis):

Trung bình (mean): Có thể tính bằng mean(Boston$dis)

Phương sai (variance): Có thể tính bằng var(Boston$dis)

Độ lệch chuẩn (standard deviation): Có thể tính bằng sd(Boston$dis)

Trang 3

Mode: R không có hàm tính trực tiếp mode Bạn có thể tìm hiểu thêm về cách tính mode trong R hoặc bỏ qua nếu không cần.

Câu hỏi phần 2: Kiểm định

2 Người ta nói giá nhà ở Boston là $25,000/căn Hỏi phát biểu trên có đúng không?

# Calculate the p-value

p.value <- t.test(Boston$medv, mu = 25000)$p.value

Trang 4

Null hypothesis (H0): Giá nhà trung bình ở Boston là $25,000/căn (medv = 25000).

Alternative hypothesis (H1): Giá nhà trung bình ở Boston không phải là

$25,000/căn (medv ≠ 25000)

Significance Level (alpha): 0.05 (5%)

T-statistic (t1): tính được giá trị t-statistic là t1

P-value: tính được giá trị p-value là p.value

# Calculate the p-value

p.value <- t.test(Boston$medv, mu = 25000)$p.value

Trang 5

Dưới đây là phân tích kết quả

Significance Level (alpha): 0.05 (5%)

T-statistic (t2):tính được giá trị t-statistic là t2

P-value: tính được giá trị p-value là p.value

t_test_result <- t.test(N1, mu = N2, alternative = "two.sided") #

Sử dụng "two.sided" cho kiểm định hai phía

Trang 6

cat("Không đủ bằng chứng để từ chối giả thuyết không (Nồng

độ ô nhiễm không khác biệt giữa Boston và San Francisco).\n")}

Dựa trên giá trị p-value = 0.003109431 và mức ý nghĩa (alpha)

đã đặt là 0.05 (5%), ta có thể kết luận như sau:

Câu hỏi phần 3: Phân tích đa bi n bi ến bi ến

Trong phần 1 của bài kiểm tra chúng ta sẽ xem xét môi tương quan đơn: mối tương quan giữa sự khác nhau giữa mức độ ô nhiễm và giá nhà Mối tương quan được phân tích dựa trên 2 mô hình hồi quy:

level-level specification: Mô hình 1 (M1): price = δ1 + δ2 nox + ν , or

log-log specification: Mô hình 2 (M2) ln(price) = γ1 + γ2 ln(nox)+ υ

5 Thông qua những mô hình này, bạn mong chờ gì về tác động của ô nhiễm lên giá

nhà Bạn nghĩ gì tín hiệu của hệ số δ 2 và γ2 sẽ như thế nào?

Trong Mô hình 1 (level-level specification): price = δ1 + δ2 nox + ν, bạn mong đợi rằng tác động của mức độ ô nhiễm (nox) lên giá nhà (price) là tuyến tính và được biểu thị bằng hệ số δ2 Nếu δ2 dương, có thể nghĩa là khi mức độ ô nhiễm tăng lên, giá nhà cũng tăng lên, và ngược lại

Trong Mô hình 2 (log-log specification): ln(price) = γ1 + γ2

ln(nox) + υ, bạn mong đợi rằng tác động của log(mức độ ô

nhiễm) lên log(giá nhà) là tuyến tính và được biểu thị bằng hệ sốγ2 Nếu γ2 dương, có thể nghĩa là khi mức độ ô nhiễm tăng lên, giá nhà cũng tăng lên theo tỉ lệ thay đổi (elasticity), và ngược lại

Trang 7

Tóm lại, trong cả hai mô hình, dự đoán là mức độ ô nhiễm sẽ có tác động lên giánhà, và hướng của tác động này (dương hoặc âm) sẽ phụ thuộc vào dấu của hệ

số (δ2 hoặc γ2)

6 Chuyển dữ liệu từ excel sang R Chạy dữ liệu trong R

Sử dụng gói readxl (đọc từ Excel)

Cài đặt và nạp gói readxl:

install.packages("readxl")

library(readxl)

Đọc dữ liệu từ Excel:

# Đọc một sheet từ file Excel

data <- read_excel("path/to/your/excel/file.xlsx", sheet = "Sheet1")

# Đọc toàn bộ file Excel nếu có nhiều sheet

Sử dụng gói openxlsx (đọc từ Excel)

Cài đặt và nạp gói openxlsx:

install.packages("openxlsx")

library(openxlsx)

Đọc dữ liệu từ Excel:

# Đọc một sheet từ file Excel

data <- read.xlsx("path/to/your/excel/file.xlsx", sheet = "Sheet1")

# Đọc toàn bộ file Excel nếu có nhiều sheet

Trang 8

# read.xlsx function sẽ đọc toàn bộ file mặc định

data <- read.xlsx("path/to/your/excel/file.xlsx")

7 Vẽ đồ thị tần suất của price and nox

# Vẽ histogram cho biến "price"

hist(Boston$medv, main = "Tần suất của Giá Nhà (Price)", xlab =

"Giá Nhà", ylab = "Tần suất", col = "blue")

# Vẽ histogram cho biến "nox"

hist(Boston$nox, main = "Tần suất của Mức Độ Ô Nhiễm (NOx)", xlab = "Mức Độ Ô Nhiễm", ylab = "Tần suất", col = "green")

Các đồ thị histogram sẽ hiển thị tần suất của biến "price" và "nox" trong tập dữ liệu Boston Màu sắc của đồ thị được thiết lập bằng tham số col Đồ thị

histogram cho "price" có màu xanh lam, và đồ thị histogram cho "nox" có màu xanh lá cây

8 Tính lprice =ln(price) and lnox = ln(nox)

# Tính log của giá nhà Boston

$lprice <- log(Boston$medv) Boston$lprice

# Tính log của mức độ ô nhiễm

Boston$lnox <- log(Boston$nox) Boston$lnox

Kết quả của tính toán này sẽ tạo ra hai biến mới: "lprice" và "lnox", chứa giá trị logarit tự nhiên tương ứng của "price" và "nox"

9 Vẽ đồ thị tương quan giữa price và nox and lprice và lnox Dựa trên đồ thị thảo

luận có hay không môi tương quan giữa giá nhà và mức độ ô ( trong cả hai trường hợp level-level or log-log) Đo lường mối tương quan này? Nó có giống những gì bạn mong đợi trong câu hỏi 1

# Vẽ đồ thị tương quan giữa giá nhà và mức độ ô nhiễm level) plot(Boston$nox, Boston$medv, main = "Tương quan giữa Price và NOx (Level-Level)", xlab = "NOx", ylab = "Price", col =

(level-"blue")

Trang 9

# Vẽ đồ thị tương quan giữa ln(giá nhà) và ln(mức độ ô nhiễm) (log-log) plot(Boston$lnox, Boston$lprice, main = "Tương quan giữa ln(Price) và ln(NOx) (Log-Log)", xlab = "ln(NOx)", ylab =

"ln(Price)", col = "green")

Trong đồ thị "level-level" (giá nhà và mức độ ô nhiễm ban đầu), bạn có thể thấy mối tương quan không rõ ràng và phân bố của các điểm khá phân tán Mối tương quan này có thể được đo lường bằng hệ số tương quan Pearson hoặc Spearman Nếu hệ số tương quan gần 0, nghĩa là không có mối tương quan tuyến tính mạnh giữa giá nhà và mức độ ô nhiễm trong dạng "level-level" Điều này có thể không như bạn mong đợi trong câu hỏi 1, khi bạn kỳ vọng mối tươngquan tuyến tính

Trong đồ thị "log-log" (ln(giá nhà) và ln(mức độ ô nhiễm)), bạn cũng có thể thấy mối tương quan không rõ ràng và phân bố phân tán Tương tự, bạn có thể

đo lường mối tương quan bằng hệ số tương quan Pearson hoặc Spearman Nếu

hệ số tương quan gần 0, nghĩa là không có mối tương quan tuyến tính mạnh giữaln(giá nhà) và ln(mức độ ô nhiễm) trong dạng "log-log" Điều này cũng không như bạn mong đợi trong câu hỏi 1, khi bạn kỳ vọng mối tương quan tuyến tính.Kết luận là từ đồ thị, không có mối tương quan tuyến tính mạnh giữa giá nhà và mức độ ô nhiễm trong cả hai trường hợp "level-level" và "log-log"

10 Hệ số tương quan giữa giá nhà và mức độ ô nhiễm? giữa lnprice và lnox? Các

biến này có thực sự tương quan hay không?

# Tính hệ số tương quan giữa giá nhà và mức độ ô nhiễm level) cor(Boston$medv, Boston$nox)

# Tính hệ số tương quan giữa ln(giá nhà) và ln(mức độ ô nhiễm) (log-log) cor(Boston$lprice, Boston$lnox)

Kết quả hệ số tương quan:

Trong trường hợp "level-level" (giá nhà và mức độ ô nhiễm ban đầu), bạn đã tính hệ số tương quan là kết quả, ví dụ, cor(Boston$medv, Boston$nox), và kết quả là một giá trị Nếu giá trị này gần 0, nghĩa là không có tương quan tuyến tính mạnh giữa giá nhà và mức độ ô nhiễm

Trang 10

Trong trường hợp "log-log" (ln(giá nhà) và ln(mức độ ô nhiễm)), bạn đã tính hệ

số tương quan là kết quả, ví dụ, cor(Boston$lprice, Boston$lnox), và kết quả là một giá trị Nếu giá trị này gần 0, nghĩa là không có tương quan tuyến tính mạnhgiữa ln(giá nhà) và ln(mức độ ô nhiễm)

Kết quả này đều cho thấy rằng không có mối tương quan tuyến tính mạnh giữa các biến trong cả hai trường hợp Mối tương quan gần 0 ngụ ý rằng không có sự biến đổi tuyến tính lớn giữa các biến, và điều này không như mong đợi từ câu hỏi 1

11 Chạy mô hình hồi quy cho 2 mô mình level-level and log-log specification Xác

định những hệ số trong M1 và M2?

# Mô hình 1 (level-level specification)

model1 <- lm(medv ~ nox, data = Boston)

Residual standard error: 7.221 on 504 degrees of freedom

F-statistic: 127.9 on 1 and 504 DF, p-value: < 2.2e-16

# Mô hình 2 (log-log specification)

Trang 11

model2 <- lm(lprice ~ lnox, data = Boston)

Residual standard error: 0.3332 on 504 degrees of freedom

Multiple R-squared: 0.675, Adjusted R-squared: 0.6743

F-statistic: 1079 on 1 and 504 DF, p-value: < 2.2e-16

Kết quả cho Mô hình 1 (level-level specification) và Mô hình 2 (log-log

specification) đều cho thấy các hệ số ước tính của mô hình:

Trong Mô hình 1, hệ số của "nox" là -33.9161 và hệ số của "Intercept" là

Trang 12

đơn vị Ví dụ, trong Mô hình 1, bạn có thể nói rằng khi mức độ ô nhiễm tăng lênmột đơn vị, giá nhà giảm đi khoảng 33.92 đơn vị (đơn vị là ppm).

Mô hình 2 là mô hình log-log, nên bạn có thể tạo ra một giả thuyết rằng khi ln(mức độ ô nhiễm) tăng lên một đơn vị, ln(giá nhà) giảm đi khoảng 0.98996 đơn vị

Câu hỏi phần 4: Phân tích đa biến

Để giải thích chính xác hơn về mức độ ô nhiễm, mô hình hồi quy bây giờ được mở rộng

thêm các biến giải thích:: dist ; rooms; and stratio Mo hình hồi quy:

ln(price) = β1 + β2ln(nox) + β3ln(dist) + β4rooms + β5stratio+ ε, (M3)

12 Trước khi chạy R, nêu dự đoán của bạn về tác động của các biến – distance,

rooms and stratio – lên giá nhà Bạn nghĩ gì về tín hiệu của các hệ số β3, β4 và β5?

Trước khi chạy mô hình, bạn có thể dự đoán tác động dự kiến của các biến như sau:

β3 (ln(dist)): Khoảng cách từ khu dân cư đến trung tâm mua sắm, dịch vụ, làm việc (dist) có thể ảnh hưởng đến giá nhà Dự đoán là nếu β3 dương, thì khi khoảng cách tăng (tức là xa hơn trung tâm), giá nhà có thể tăng, vì người mua cóthể trả giá cao hơn để tiện di chuyển đến các dịch vụ và trung tâm Tuy nhiên, cũng có thể có sự tác động ngược lại nếu β3 âm, tức là khi khoảng cách tăng, giánhà giảm vì sự không thuận tiện của việc di chuyển xa

β4 (rooms): Số lượng phòng trong nhà (rooms) có thể ảnh hưởng đến giá nhà

Dự đoán là nếu β4 dương, khi số lượng phòng tăng, giá nhà cũng có thể tăng Lý

do là các ngôi nhà lớn hơn với nhiều phòng thường có giá cao hơn, do đó, có sự tương quan dương giữa số lượng phòng và giá nhà

β5 (stratio): Tỷ lệ sinh viên trên một giáo viên (stratio) cũng có thể ảnh hưởng đến giá nhà Dự đoán là nếu β5 dương, tỷ lệ này có thể tạo ra sự tác động tích cực lên giá nhà, bởi vì các khu vực với tỷ lệ sinh viên thấp hơn có thể được coi

Trang 13

là có chất lượng giáo dục tốt hơn và thu hút các gia đình có trẻ em, điều này có thể làm tăng cầu đối với các ngôi nhà trong khu vực đó.

13 Mô tả thống kê biến rooms Vẽ biểu đồ tần suất (histogram) của biến này? Có

bằng chứng nào chứng tỏ biến này nên dược chuyển sang dạng ln(rooms)?

# Mô tả thống kê biến rooms

summary(Boston$rm)

# Vẽ histogram của biến rooms

hist(Boston$rm, main = "Tần suất của Số Lượng Phòng (Rooms)", xlab = "Số Lượng Phòng", ylab = "Tần suất", col = "blue")

Kết quả mô tả thống kê cho biến "rooms" sẽ hiển thị thông tin như trung bình, phương sai, độ lệch chuẩn, giá trị tối thiểu, giá trị tối đa và các phân vị

Việc vẽ biểu đồ histogram cho biến "rooms" sẽ giúp bạn thấy rõ phân phối của biến này

Một số dấu hiệu cho thấy có lý do để chuyển biến "rooms" sang dạng ln(rooms) bao gồm:

Phân phối không chuẩn: Nếu biểu đồ histogram của "rooms" cho thấy phân phốikhông chuẩn (ví dụ: lệch phải hoặc lệch trái), việc chuyển đổi logarit tự nhiên (ln) có thể làm cho phân phối gần hơn với phân phối chuẩn và giúp cải thiện tính chất của mô hình hồi quy

Tính chất tuyến tính: Trong mô hình hồi quy, giả định về tính tuyến tính thường được đưa ra Khi chuyển biến "rooms" thành ln(rooms), nó có thể làm cho mối quan hệ với biến phụ thuộc trở nên tuyến tính hơn, điều này có thể làm cho mô hình hồi quy hiệu quả hơn

Giảm biến độ lớn: Đôi khi, biến "rooms" có giá trị biến độ lớn, và việc chuyển đổi logarit có thể giúp làm giảm biến độ lớn của các giá trị và tránh hiện tượng quá khớp (overfitting) trong mô hình

Trang 14

Tuy nhiên, quyết định cuối cùng về việc chuyển biến "rooms" sang dạng

ln(rooms) hoặc không phụ thuộc vào phân tích cụ thể của bạn và mục tiêu của

mô hình

14 Mô tả thống kê biến stratio Vẽ biểu đồ tần suất (histogram) của biến này?

# Mô tả thống kê biến stratio

summary(Boston$ptratio)

# Vẽ histogram của biến stratio

hist(Boston$ptratio, main = "Tần suất của Tỷ Lệ Sinh Viên/Giáo Viên

(Stratio)", xlab = "Tỷ Lệ Sinh Viên/Giáo Viên", ylab = "Tần suất", col =

"green")

Kết quả mô tả thống kê cho biến "stratio" sẽ hiển thị thông tin như trung bình, phương sai, độ lệch chuẩn, giá trị tối thiểu, giá trị tối đa và các phân vị

15 Xác định hệ số tương quan của lprice và các biến rooms, ln(dist) and stratio? Các

hệ số tương quan này có giống như dư đoán của bạn không? (câu 13) Xác định

mối tương quan giữa hai biến lnox and lndist Phát biểu ý kiến về tín hiệu của hệ

số này và độ lớn của nó

#Lệnh tính tương quan giữa biến lprice với các biến ln(dis), rooms, stratio:

#tạo cột price, lndis, stratio cho dữ liệu

Trang 15

# Trích xuất hệ số tương quan của lprice và các biến khác

cat("Tương quan giữa lprice và rooms:", cor_lprice_rooms, "\n")

cat("Tương quan giữa lprice và ln(dis):", cor_lprice_ln_dis, "\n")

cat("Tương quan giữa lprice và stratio:", cor_lprice_stratio, "\n")

Tương quan giữa lprice và stratio: Kết quả cho thấy hệ số tương quan cũng gần bằng 0 Điều này ngụ ý rằng không có tương quan mạnh mẽ giữa ln(price) và tỷ

lệ sinh viên trên một giáo viên (stratio)

Các kết quả tương quan không phù hợp với dự đoán ban đầu về tín hiệu của các

hệ số Trong các trường hợp này, không có tương quan mạnh mẽ giữa biến

"lprice" và các biến "rooms," "ln(dist)," và "stratio."

#Xác định mối tương quan giữa hai biến lnox và lndis:

# Tính hệ số tương quan giữa lnox và lndis cor_lnox_lndis <- cor(log(Boston$nox), log(Boston$dis))

cor_lnox_lndis

Ngày đăng: 03/03/2024, 15:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w