Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
2,46 MB
Nội dung
Mục lục I HOẠT ĐỘNG 1.1 Đề 1.2 Cơ sở lí thuyết 1.3 Thực 1.3.1 Đọc liệu (Import data): 10 1.3.2 Làm liệu (Data cleaning) 10 1.3.3 Làm rõ liệu 12 II HOẠT ĐỘNG 2: 31 2.1 Đề 31 2.1.1 Giới thiệu: 31 2.1.2 Mục tiêu đề tài: 31 2.1.3 Ý nghĩa thực tiễn: 31 2.1.4 Các biến liệu: 31 2.2 Cơ sở lí thuyết: 31 2.2 Thực hiện: 36 2.2.1 Đọc liệu: 36 2.2.2 Làm liệu: 37 2.2.3 Làm rõ liệu: 37 2.2.4 Kiểm định T-test 42 2.2.5 ANOVA nhân tố: 43 III Tài liệu tham khảo Error! Bookmark not defined 0 Danh sách hình vẽ hoạt động 1 Hình 1: Code R kết đọc liệu xem dòng liệu 10 Hình : Code R kết tạo liệu bao gồm biến 10 Hình 3: Code R kết kiểm tra liệu khuyết new_DF 11 Hình 4: Code R thay giá trị trung bình quan sát cịn lại biến price vị trí chứa liệu khuyết 12 Hình 5: Code R kết 12 Hình 6: Code R chuyển đổi biến sang dạng log(x+1) 12 Hình 7: Code R kết tính biến price, sqft_above, sqft_living, sqft_basement 13 Hình 8:Code R kết tính biến price, sqft_above, sqft_living, sqft_basement chuyển đổi biến sang dạng log(x) 14 Hình 9: Code R kết vẽ biểu đồ histogram thể phân phối biến price 14 10 Hình 10: Code R vẽ biểu đồ histogram thể phân phối biến log(price) 15 11 Hình 11: Code R kết vẽ biểu đồ botplot thể phân phối biến price theo phân loại biến floors 16 12 Hình 12: Code R kết vẽ biểu đồ boxplot thể phân phối biến log(price) theo phân loại biến floors 17 13 Hình 13: Code R kết vẽ biểu đồ boxplot thể phân phối biến condition theo phân loại biến floors 18 14 Hình 14: Code R kết vẽ biểu đồ boxplot thể phân phối biến log(price) theo phân loại biến condition 19 15 Hình 15: Code R kết vẽ biểu đồ boxplot thể phân phối biến price theo phân loại biến view 20 16 Hình 16: Code R kết vẽ biểu đồ boxplot thể phân phối biến log(price) theo phân loại biến view 21 17 Hình 17 Code R kết vẽ biểu đồ vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_above trước sau chuyển sang dạng log(x) 22 18 Hình 18: Code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_living trước sau chuyển sang dạng log(x) 23 19 Hình 19: Code R kết vẽ biểu đồ phân tán thể phân phối biến price theo biến sqft_ basement trước sau chuyển sang dạng log(x) 23 20 Hình 20: Code R kết xây dựng mơ hình hồi quy tuyến tính 25 21 Hình 21: Code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình 27 0 0 Danh sách hình vẽ hoạt động Tạo biến pref_COD1, perf_COD2 thể hiệu suất xử lý COD mơ hình SBR truyền thống mơ hình SB – SBR 37 Thực tính giá trị thống kê mô tả thể hiệu suất xử lý COD mơ hình SBR truyền thống mơ hình SB – SBR 38 Thực tính giá trị thống kê mô tả thể hiệu suất xử lý COD theo tải trọng thể tích hữu 39 Vẽ biểu đồ histogram thể phân phối pref_COD1 40 Vẽ biểu đồ histogram thể phân phối pref_COD2 41 Vẽ biểu đồ boxplot thể phân phối pref_COD2 tải trọng OBL 42 Kiểm định xem có khác biệt hiệu xử lý COD hai mơ hình, từ đưa đánh giá hiệu việc xử lý COD mơ hình SB - SBR 42 Tải trọng OBL = 0.64 Dùng hàm shapiro.test để kiểm tra 44 10 Tải trọng OBL = 0.96 45 11 Dùng hàm shapiro.test để kiểm tra 45 12 Tải trọng OBL = 1.28 45 13 Dùng hàm shapiro.test để kiểm tra 46 14 Kiểm tra giả định tính đồng phương sai 46 15 Kiểm định ANOVA 47 16 So sánh bội sau ANOVA 48 0 I HOẠT ĐỘNG 1.1 Đề Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chất lượng ngơi nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến liệu: • price: Giá nhà bán • floors: Số tầng ngơi nhà phân loại từ 1-3.5 • condition: Điều kiện kiến trúc nhà từ − 5, 1: tệ 5: tốt • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4 • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà • sqft_basement: Diện tích tầng hầm Các bước thực hiện: Đọc liệu (Import data): gia_nha.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King Thực dự báo cho giá nhà quận King 1.2 Cơ sở lí thuyết Hồi quy phương pháp thống kê để thiết lập mối quan hệ biến phụ thuộc nhóm tập hợp biến độc lập Mơ hình với biến phụ thuộc với hai nhiều biến độc lập gọi hồi quy bội (hay gọi hồi quy đa biến) 0 Ví dụ: Chi tiêu hộ gia đình thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục,…; Lương người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,… RX Giới thiệu mơ hình hồi quy tuyến tính bội Mơ hình hồi quy tuyến tính bội có dạng tổng qt sau: Y = β1 + β2 X2 + β3X + … + βk Xk + u Trong đó: Y: biến phụ thuộc Xi : biến độc lập β1 : hệ số tự (hệ số chặn) βi: hệ số hồi quy riêng β i đo lường tác động riêng phần biến Xi lên Y với điều kiện biến số khác mơ hình khơng đổi Cụ thể hơn, biến khác mơ hình khơng đổi, giá trị kỳ vọng Y tăng β i đơn vị Xi tăng đơn vị u: sai số ngẫu nhiên Như vậy, "Hồi quy tuyến tính" phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa giá trị biến độc lập (X) Thuật ngữ tuyến tính dùng để chất thông số tổng thể β1 β i tuyến tính (bậc nhất) Nó sử dụng cho trường hợp muốn dự đốn số lượng liên tục Ví dụ: dự đoán thời gian người dùng dừng lại trang số người truy cập vào website v.v Bằng liệu thu thập được, ta ước lượng hàm hồi quy tổng thể, ước lượng tham số tổng thể: β 1, β2 ,…, β k kX Ước lượng tham số mơ hình hồi quy tuyến tính bội 2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) Với Y biến phụ thuộc, X2 , X3 ,…, Xk biến độc lập, Y ngẫu nhiên có phân phối xác suất Suy ra: Tồn E(Y|X 2, X3,…, Xk ) = giá trị xác định Do vậy, F(X 2, X3 ,…, Xk) = E(Y|X2, X3 ,…, Xk ) hàm hồi quy tổng thể Y theo X 2, X3,…, Xk Với cá thể i, tồn (X 2,i, X3,i, …, Xk,i, Yi) Ta có: Y i ≠ F(X2 , X3,…, X k) ⇒ u i = Yi – F Do vậy: Yi = E(Y|X2, X3,…, X k) + ui Hồi quy tổng thể PRF: Y = E(Y|X) + U E(Y|X) = F(X) 2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function): Do tổng thể, nên khơng biết giá trị trung bình tổng thể biến phụ thuộc mức độ Do phải dựa vào liệu mẫu để ước lượng = F(X2 , X3 ,…, Xk) hồi quy mẫu Trên mẫu có n cá thể, gọi Y Với cá thể mẫu Yi ≠ F (X2,i, X3,i,…, X k,i) sinh ei = Y i – F (X 2, X3 ,…, Xk ); ei gọi phần dư SRF Ta có hàm hồi quy mẫu tổng quát viết dạng sau: y i = β + β2 x2,i + β 3x 3,i + … + β kxk,i Phần dư sinh ra: e i = yi – ŷ i 0 Ký hiệu: βm ước lượng β m Chúng ta trông đợi β m ước lượng không chệch βm, phải ước lượng hiệu Ước lượng SRF: chọn phương pháp để ước lượng tham số F qua việc tìm tham số F lấy giá trị quan sát tham số làm giá trị xấp xỉ cho tham số F 2.3 Phương pháp bình phương nhỏ (Ordinary Least Squares) Phương pháp bình phương nhỏ đưa nhà Toán học Đức Carl Friedrich Gauss Tư tưởng phương pháp cực tiểu tổng bình phương phần dư Do nói để có hồi quy thích hợp nhất, chọn ước lượng có tung độ gốc độ dốc cho phần dư nhỏ 2.3.1 Các giả thiết phương pháp bình phương nhỏ cho mơ hình hồi quy tuyến tính bội Phương pháp bình phương nhỏ (OLS) phương pháp đáng tin cậy việc ước lượng tham số mơ hình, nhiên mơ hình ước lượng phải thỏa mãn giả thiết Khi thỏa mãn giả thiết, ước lượng bình phương nhỏ (OLS) ước lượng tuyến tính khơng chệch có hiệu ước lượng Vì phương pháp OLS đưa ước lượng khơng chệch tuyến tính tốt (BLUE) Kết gọi Định lý Gauss – Markov, theo lý thuyết ước lượng OLS BLUE, nghĩa tất tổ hợp tuyến tính khơng chệch Y, ước lượng OLS có phương sai bé Các giả thiết sau: 1/ Hàm hồi quy tuyến tính theo hệ số Điều có nghĩa q trình thực hành hồi quy thực tế miêu tả mối quan hệ dạng: y = β1 + β2 x2 + β 3x3 + β 4x + … + βk xk + u mối quan hệ thực tế viết lại ví dụ dạng lấy loga hai vế 2/ E(u i) = : Kỳ vọng yếu tố ngẫu nhiên ui Trung bình tổng thể sai số Điều có nghĩa có số giá trị sai số mang dấu dương số sai số mang dấu âm Do hàm xem đường trung bình nên giả định sai số ngẫu nhiên bị loại trừ nhau, mức trung bình, tổng thể 3/Var(ui ) = σ2 : Phương sai với ui Tất giá trị u phân phối giống với phương sai σ2, cho: Var(ui ) = E(ui2) = σ 4/ u i phân phối chuẩn Điều quan trọng phát sinh khoảng tin cậy thực kiểm định giả thuyết phạm vi mẫu nhỏ Nhưng phạm vi mẫu lớn hơn, điều trở nên không quan trọng 5/ Giữa ui độc lập với 2.3.2 Ước lượng 0 Ta đặt: yi ký hiệu giá trị thực biến y quan sát i ŷi ký hiệu giá trị hàm hồi quy mẫu ei ký hiệu phần dư yi – ŷi Do cực tiểu hóa Σ(yi – ŷi) tương đương với cực tiểu Σei2 từ tìm β 0, β 1,…, β k Ta có: + β2 x2,i + β3 x 3,i + β x4,i + … + βkx k,i)) Σei2 = Σ(y i – (β Chúng ta có thiết lập điều kiện bậc cho phép tính tối thiểu sau: ∂Σe2i = -2Σ y -β + β x 2i+ β x 3i+…+β x ki xi = ∂β ∂Σe2i ∂β ∂Σe2i ∂β k i k + β x 2i+ β x 3i+…+β xki x 2i= = -2Σ y i -β k … = -2Σ yi -β1 + β2 x2i+ β 3x 3i+…+β k x ki x ki = Hệ phương trình mà có gọi hệ phương trình chuẩn hồi quy mẫu Chúng ta giải k phương trình chuẩn để tìm k hệ số β chưa biết β 1, β2 ,…, βk gọi ước lượng bình phương nhỏ 2.4 Độ phù hợp mơ hình Để biết mơ hình giải thích hay % biến động biến phụ thuộc, người ta sử dụng R Ta có: Σ(yi – ӯ)2 = Σ[(yi – ŷ i) + (ŷi – ӯ)]2 = Σ[ei + (ŷi – ӯ)] = Σei2 + 2Σei (ŷi – ӯ) + Σ(ŷ i – ӯ)2 Đặt: Σ(yi – ӯ)2 : TSS – Total Sum of Squares Σ(ŷi – ӯ)2 : ESS – Explained Sum of Squares Σei2 : RSS – Residual Sum of Squares Do Σei(ŷ i – ӯ) = ⇐ (Σeiŷ i = 0; Σeiӯ = 0) Ta viết: TSS = ESS + RSS Ý nghĩa thành phần: TSS tổng bình phương tất sai lệch giá trị quan sát Y i giá trị trung bình ESS tổng bình phương tất sai lệch giá trị biến phụ thuộc Y nhận từ hàm hồi quy mẫu giá trị trung bình chúng Phần đo độ xác hàm hồi quy 0 RSS tổng bình phương tất sai lệch giá trị quan sát Y giá trị nhận từ hàm hồi quy TSS chia thành phần: phần ESS phần RSS gây Từ TTS = ESS + RSS, ta chia hai vế cho TSS, ta có: 1= R2 = ESS TSS ESS TSS + RSS TSS =1 - = RSS TSS Σ(ŷi – ӯ) Σ(yi- y) = + Σe2i Σ(yi- y) 2 Σy i- yy i- y 2 Σyi -y Σyi - y Tỷ số tổng biến thiên giải thích mơ hình cho tổng bình phương cần giải thích gọi hệ số xác định, trị thống kê “good of fit” Từ định nghĩa R thấy R2 đo tỷ lệ hay số % toàn sai lệch Y với giá trị trung bình giải thích mơ hình Khi người ta sử dụng R để đo phù hợp hàm hồi quy: ≤ R2 ≤ R cao nghĩa mơ hình ước lượng giải thích mức độ cao biến động biến phụ thuộc Nếu R2 = 1, nghĩa đường hồi quy giải thích 100% thay đổi y Nếu R2 = 0, nghĩa mơ hình khơng đưa thơng tin thay đổi biến phụ thuộc y rong mơ hình hồi quy đa biến tỷ lệ tồn khác biệt biến y tất biến x x3 gây gọi hệ số xác định bội, ký hiệu R R2 = 3Σ(y - y)(x3i - x3 ) β 2Σ(yi- y)(x2i- x 2)+β i Σ(yi - y) = 1- Σe 2i Σ(yi- y) 2.5 Khoảng tin cậy kiểm định hệ số hồi quy 2.5.1 Ước lượng khoảng tin cậy hệ số hồi quy Mục đích phân tích hồi quy khơng phải suy đoán β 1, β2 ,…, βk mà phải kiểm tra chất phụ thuộc Do cần phải biết phân bố xác suất β1 , β2,…, β k Các phân bố phụ thuộc vào phân bố ui Với giả thiết OLS, u i có phân phối N (0, σ ) Các hệ số ước lượng tuân theo phân phối chuẩn: β j ~ N(βj, Se(β j)) βj -β j ~ T(n − k) j) Se(β Ước lượng phương sai sai số dựa vào phần dư bình phương tối thiểu Trong k số hệ số có phương trình hồi quy đa biến: Σe2i σ = n-k Ước lượng phía, ta tìm t α(n-3)=1- α thỏa mãn: P(− tα (n-3)) ≤ Khoảng tin cậy - α βj là: βj -β j Se(β j) ≤P( t α (n-3)) j ) ; β j + tα(n-3)Se(β j) βj − t α(n-3)Se(β 2 2.5.2 Kiểm định giả thiết β j Kiểm định ý nghĩa thống kê hệ số hồi quy có ý nghĩa hay khơng: kiểm định biến giải thích có thực ảnh hưởng đến biến phụ thuộc hay khơng Nói cách khác hệ số hồi quy có ý nghĩa thống kê hay khơng Có thể đưa giả thiết βj , chẳng hạn β j = βj * Nếu giả thiết thì: T= Ta có bảng sau: β j -βj Se(βj ) ~ T(n − k) Kiểm định β j: H 0: βj = ⇔ xj không tác động H 1: βj ≠ ⇔ xj có tác động βj < ⇔ xj có tác động ngược βj > ⇔ xj có tác động thuận 2.6 Kiểm định ý nghĩa mơ hình Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho mơ hình khơng có ý nghĩa hiểu tất hệ số hồi quy riêng Ứng dụng kiểm định Wald (thường gọi kiểm định F) tiến hành cụ thể sau: Bước 1: Giả thuyết “không” H0: β2 = β3 = … = βk = Giả thuyết đối H 1: “có giá trị β khác không” Bước 2: Trước tiên hồi quy Y theo số hạng không đổi X2, X3 , …, Xk , sau tính tổng bình phương sai số RSSU , RSSR Phân phối F tỷ số hai biến ngẫu nhiên phân phối bình phương độc lập Điều cho ta trị thống kê: [ ]/() ~ F(α, k – m, n – k) Fc = /() Vì H0: β2 = β = … = β k = 0, nhận thấy trị thống kê kiểm định giả thuyết là: /() Fc = /() ~ F(α, k – 1, n – k) Bước 3: Tra số liệu bảng F tương ứng với bậc tự (k – 1) cho tử số (n – k) cho mẫu số, với mức ý nghĩa α cho trước Bước 4: Bác bỏ giả thuyết H mức ý nghĩa α Fc > F(α, k-1, n-k) Đối với phương pháp giá trị p, tính giá trị p = P(F>Fc|H0) bác bỏ giả thuyết H p < α 1.3 Thực 0 (MSW), TI số gọi tỷ số F tuần theo qui luật Fisher– Snedecor với bậc tự k - tử số n - k mẫu số MSG F= MSW Ta bác bỏ giả thuyết H0 cho trị trung bình k tổng thể khi: F > F(;); F(;); giá trị giới hạn tra từ bảng tra số với bậc tự tra theo cột số k-1 hàng n-k, nhớ chọn bảng có mức ý nghĩa phù hợp Sau dạng bảng kết tổng quát ANOVA phân tích chương trình Excel hay SPSS Bảng gốc tiếng Anh: Source of Sum of Degree of Mean Squares F ratio Variation squares (SS) Freedom (df) (MS) MSG SSG Between – SSG k-1 F = MSG = groups k−1 MSW SSW Within – MS = SSW n- k n− k groups Total SST Tạm dịch sang tiếng Việt: n-1 Nguồn biến thiên Tổng chênh lệch bình phương (SS) Bậc tự (df) Phương sai (MS) Giữa nhóm SSG k-1 MSG = Trong nội nhóm SSW n-k MSW = SSG k−1 SSW k−1 Tỉ số F F= MSG MSW Toàn SST n-1 Ý nghĩa cơng thức logic tính tốn bảng cần hiểu rõ để vận dụng giải thích kết phân tích cách súc tích 1.2 Kiểm tra giả định phân tích phương sai Chúng ta kiểm tra nhanh giả định đồ thị Histogram phương pháp tốt để kiểm tra giả định phân phối bình thường liệu địi hỏi số lượng quan sát lớn Biểu đồ thân hay biểu đồ hộp râu thay tốt tình số quan sát Nếu cơng cụ đồ thị cho thấy tập liệu mẫu phù hợp với phân phối bình thường thỏa mãn Hình mơ tả biểu đồ hộp râu cho tập liệu mẫu ba nhóm sinh viên tập liệu Đồ thị cho thấy ngoại trừ nhóm có thời gian tự học TB có hình dáng phân phối liệu lệch sang trái, cịn hai nhóm cịn lại có phân phối cân đối Với số quan sát khơng nhiều biểu liệu khả quan chấp nhận 0 Để khảo sát giả định phương sai, biểu đồ hộp râu cho cảm nhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán liệu trong tập liệu mẫu không khác biệt nhiều Một phương pháp kiểm định tham số chắn cho giả định phương sai kiểm định Levene phương sai tổng thể Kiểm định xuất phát từ giả thuyết sau H 0: σ = σ =…= σ H 1: Không phải tất phương sai Để định chấp nhận hay bác bỏ H0 ta tính tốn giá trị kiểm định F theo công thức Fmax = Trong s phương sai lớn nhóm nghiên cứu s phương sai nhỏ nhóm nghiên cứu Giá trị F tính được đem so sánh với giá trị F (;); tra từ bảng phân phối Hartley Fmax (là bảng số phần phụ lục) Trong k số nhóm so sánh, bậc tự df tính ∑ theo cơng thức df = (n − 1) Trong tình nhóm ni khác n = (chú ý kết tính n số thập phân ta lấy phần nguyên) Quy tắc định: Fmax > F (;); ta bác bỏ H0 cho phương sai ngược lại Nếu không chắn giả định kết kiểm định cho thấy giả định kết kiểm định cho thấy giả định không thỏa mãn phương pháp kiểm định thay cho ANOVA phương pháp kiểm định phi tham số Krusksl-Wallis áp dụng Tuy nhiên ví dụ đây, ta xem giả định để tiến hành phân tích phương sai thỏa mãn 2.2 Thực hiện: 2.2 2.2.1 Đọ Đọcc liệ liệu: u: Đọc xem dòng đầu liệu : 0 2.2 2.2.2 Là Làm m sạ ch liệu liệu:: Trích tệp con, đặt tên new_DF bao gồm biến Kiểm tra liệu khuyết tệp tin Nhận xét: Ta nhận thấy tệp tin không chứa liệu khuyết 2.2 2.2.3 Là Làm m rõ liliệu: ệu: Tạo biến pref_COD1, perf_COD2 thể hiệu suất xử lý COD mơ hình SBR truyền thống mơ hình SB – SBR 22 0 Thực tính giá trị thống kê mô tả thể hiệu suất xử lý COD mơ hình SBR truyền thống mơ hình SB – SBR 23 Thực tính giá trị thống kê mô tả thể hiệu suất xử lý COD theo tải trọng thể tích hữu 0 24 Vẽ biểu đồ histogram thể phân phối pref_COD1 0 19 0 Nhận xét: Dựa đồ thị phân tán price sqft_basement, ta chưa nhận thấy thấy rõ mối quan hệ tuyến tính biến Nhưng với đồ thị phân tán ta nhận thấy rõ mối quan hệ tuyến tính biến log(price) log(sqft_ basement) (cụ thể quan hệ đồng biến) Kết quả, dựa đồ thị ta nhận thấy việc phân tích mối quan hệ tuyến tính biến độc lập với biến phụ thuộc (giá nhà) hiệu việc chuyển đổi biến sang dạng log (x) Liệu mối quan hệ biến với giá nhà ngẫu nhiên hay có mối quan hệ tuyến tính biến với giá nhà Mơ hình hồi quy tuyến tính giúp ta kiểm tra điều thông qua khoảng tin cậy phép kiểm định cịn cho phép ta ước lượng giá trị biến phụ thuộc (giá nhà) theo biến độc lập (số tầng, điều kiện ngơi nhà, diện tích nhà, ) Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến giá nhà Xét mơ hình hồi quy tuyến tính bao gồm: Biến phụ thuộc: log (price) Biến độc lập: floors, condition, view, log (sqft_above), log (sqft_living), log(sqft_basement) Mơ sau: log () = + × + × + × + × log (_) + × log (_) + × log(_) Hình 20: Code R kết xây dựng mơ hình hồi quy tuyến tính 0 0 20 Nhận xét: Từ kết phân tích, ta thu được: = 0.1268487; = 0.4588390; = 0.1009697; = 0.0756394; =7.2648540; = 0.2686774; = 0.0106088 Như vậy, đường thẳng hồi quy ước lượng cho phương trình sau: log( ) = 7.2648540 + 0.1009697 × + 0.0756394 × + 0.1268487 × + 0.4588390 × log(_) + 0.2686774 × log(_ ) + 0.0106088 × log(_) Kiểm định hệ số hồi quy: Giả thuyết : Hệ số hồi quy khơng có ý nghĩa thống kê (β = 0) Giả thuyết : Hệ số hồi quy có ý nghĩa thống kê (β ≠ 0) Pr (> |t|) hệ số ứng với biến bé mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết Do hệ số ứng với biến có ý nghĩa với mơ hình hồi quy ta xây dựng 0 Phân tích tác động biến: Trước hết, ta thấy − tương ứng với thống kê bé 2.2 − 16, có ý nghĩa cao Điều rằng, biến dự báo mơ hình có ý nghĩa giải thích cao đến log (price) Để xét ảnh hưởng cụ thể biến độc lập, ta xét trọng số (hệ số β ) − tương ứng Ta thấy − tương ứng với biến bé 2.2 − 16, điều nói lên ảnh hưởng biến có ý nghĩa cao lên log (price) Điều cho thấy hệ số hồi quy β biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc log (price) tăng đơn vị biến dự báo, giả sử biến dự báo khác không đổi Cụ thể, = 0.1009697 số tầng ngơi nhà bán tăng tầng ta kỳ vọng giá nhà tăng 0.1009697.100% = 10.09% so với giá nhà ban đầu (giả sử biến dự báo khác không đổi) Với = 0.0756394 điều kiện ngơi nhà tăng thêm 1, ta kỳ vọng giá nhà tăng 0.0756394.100% = 7.56 % so với giá nhà ban đầu (giả sử biến dự báo khác khơng đổi) Hoặc với = 0.4588390 diện tích ngơi nhà tăng lên 1%, ta kì vọng giá nhà tăng lên 45.88 % so với giá nhà ban đầu (giả sử biến dự báo khác khơng đổi) Tương tự biến cịn lại Hệ số hiệu chỉnh 0.5132 nghĩa 0.5132 % biến thiên log (price) giải thích biến biến độc lập Kiểm tra giả định mơ hình Nhắc lại giả định mơ hình hồi quy: Yi = β + β + β + , = 1, … 0 + Tính tuyến tính liệu: mối quan hệ biến dự báo X biến phụ thuộc Y giả sử tuyến tính + Sai số có phân phối chuẩn + Phương sai sai số số + Các sai số có kỳ vọng + Các sai số , , độc lập với Hình 21: Code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình 0 21 0 0 Đồ thị thứ (Residuals vs Fitted) vẽ giá trị thặng dư (sai số) tương ứng Dùng để kiểm tra tính tuyến tính liệu (giả định 1) giả định sai số có kỳ vọng =0 (giả định 4) Nếu đường màu đỏ đồ thị phân tán đường thẳng nằm ngang mà khơng phải đường cong, giả định tính tuyến tính liệu thỏa mãn Để kiểm tra giả định thứ (các sai số có kỳ vọng = 0) điểm thặng dự phải phân tán xung quanh đường thẳng y = 0 Đồ thị thứ (Normal Q-Q) cho phép kiểm tra giả định phân phối chuẩn sai số Nếu điểm thặng dư nằm đường thẳng điều kiện phân phối chuẩn thỏa Đồ thị thứ (Scale - Location) vẽ bậc hai giá trị thặng dư chuẩn hóa với giá trị dự báo, dùng để kiểm tra giả định thứ (phương sai sai số số) Nếu đường màu đỏ đồ thị đường thẳng nằm ngang điểm thặng dư phân tán xung quanh đường thẳng giả định thứ thỏa Nếu đường màu đỏ có độ dốc (hoặc cong) điểm thặng dư phân tán không xung quanh đường thẳng này, giả định thứ bị vi phạm Đồ thị thứ (Residuals vs Leverage) cho phép xác định điểm có ảnh hưởng cao (influential observations), chúng có diện liệu Những điểm có ảnh hưởng cao điểm outliers, điểm gây nhiều ảnh hưởng phân tích liệu Nếu ta quan sát thấy đường thẳng màu đỏ đứt nét (Cook’s distance), có số điểm vượt qua đường thẳng khoảng cách này, nghĩa điểm điểm có ảnh hưởng cao Nếu ta quan sát thấy đường thẳng khoảng cách Cook góc đồ thị khơng có điểm vượt qua nó, nghĩa khơng có điểm thực có ảnh hưởng cao Kết nhận xét: 0 ... HOẠT ĐỘNG 1.1 Đề Tập tin "gia_ nha. csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu bao gồm... tính để đánh giá nhân tố ảnh hưởng đến giá nhà quận King Thực dự báo cho giá nhà quận King 1.2 Cơ sở lí thuyết Hồi quy phương pháp thống kê để thiết lập mối quan hệ biến phụ thuộc nhóm tập hợp biến... tuyến tính biến với giá nhà Mơ hình hồi quy tuyến tính giúp ta kiểm tra điều thông qua khoảng tin cậy phép kiểm định cịn cho phép ta ước lượng giá trị biến phụ thuộc (giá nhà) theo biến độc lập