BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ

Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.

Trang 1

BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13

Trang 2

mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai

Nhóm em xin gửi đến thầy lời cảm ơn chân thành và sâu sắc nhất vì đã đồng hành cùng chúng em trong suốt học kỳ 221 này Chúc cô có thật nhiều niềm vui và sức khỏe để cùng chúng em bước tiếp trên những chặng đường tiếp theo và nuôi dưỡng các thế hệ mai sau nữa

Cemcons.vn

Trang 3

2.1.1 Đọc dữ liệu (Import Data): gia_nha.csv 8 2.2.2 Làm sạch dữ liệu (Data cleaning) _ 9 2.2.3 Làm rõ dữ liệu (data visualization) 11 2.2.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King 19 2.2.5 Thực hiện dự báo cho giá nhà quận King _ 26

III HOẠT ĐỘNG 2 _ 28

3.1 ĐỀ BÀI 28 3.2 THỰC HÀNH R 29

3.2.1 Đọc dữ liệu (Import Data): ENB2012_data.xlxs _ 29 3.2.2 Làm sạch dữ liệu (Data Cleaning) 29 3.2.3 Làm rõ dữ liệu (Data Visualization) _ 30 3.2.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến mức độ tỏa nhiệt của ngôi nhà 43 3.2.5 Thực hiện dự báo mức độ thu nhiệt của ngôi nhà 51

IV TÀI LIỆU THAM KHẢO _ 53

Cemcons.vn

Trang 4

I CƠ SỞ LÝ THUYẾT

Giả thuyết thống kê (Statistical Hypothesi.9s) là một giả sử hay một phát biểu có thể đúng, có thể sai liên quan đến tham số của một hay nhiều tập hợp chính Mỗi tính đúng sai như vậy có thể viết dưới dạng một giả thuyết, thường ký hiệu là 𝐻0, gọi là không thuyết (null hypothesis), và một giả thuyết đối ngược lại nó, thường ký hiệu

là 𝐻1 hoặc 𝐻𝑎𝑙𝑡, gọi là đối thuyết (alternative hypothesis)

1.1 Một số nguyên tắc chung của kiểm định thống kê

Quy trình kiểm định một giả thuyết thống kê là một quá trình chuẩn mực để đưa ra

quyết định bác bỏ một giả thuyết hay không, dựa trên một dữ liệu mẫu Quá trình này

được gọi là kiểm định giả thuyết (hypothesis testing), bao gồm 4 bước:

• Đặt ra các giả thuyết Công việc của bước này là chỉ ra đâu là giả thuyết không, đâu

là giả thuyết nghịch Các giả thuyết được đặt ra theo cách loại trừ lẫn nhau Đó là, nếu cái này đúng thì cái kia phải sai

• Xây dựng một kế hoạch phân tích Kế hoạch phân tích mô tả cách sử dụng dữ liệu mẫu ra sao để đánh giá giả thuyết không Đánh giá thường tập trung xung quanh một thống kê mẫu đơn (single test statistic)

• Phân tích dữ liệu mẫu Tìm các giá trị của thống kê mẫu (trung bình, tỉ lệ, t-statistic, z-score…) được mô tả trong kế hoạch phân tích

• Đọc hiểu kết quả Áp dụng các quy tắc quyết định được mô tả trong kế hoạch phân tích Nếu kết quả thu được không khớp với giả thuyết không thì bác bỏ giả thuyết này

• Tương tự như ước lượng, việc kiểm định giả thuyết bằng thống kê không cho kết quả “chính xác 100%”, mà chỉ cho kết quả với một độ tin cậy nhất định nào đó, và

có thể xảy ra sai lầm Các sai lầm có thể phân làm hai loại:

 Sai lầm loại 1: phủ nhận giả thuyết 𝐻0, chấp nhận đối thuyết 𝐻1, trong khi 𝐻0 đúng

Cemcons.vn

Trang 5

 P-value Sức mạnh của bằng chứng trong việc hỗ trợ một giả thuyết không được đo bằng P-value Giả sử thống kê kiểm định bằng S P-value là xác suất của việc quan sát một thống kê kiểm định as extreme as A, giả sử, giả thuyết null là đúng Nếu giá trị P-value nhỏ hơn mức ý nghĩa, chúng ta bác bỏ giả thuyết không

 Vùng chấp nhận (region of acceptance) Vùng chấp nhận là một dãy giá trị Nếu bài thống kê mẫu nằm trong khu vực chấp nhận, giả thuyết không không

bị bác bỏ Vùng chấp nhận được xác định cốt để xác suất mắc lỗi loại 1 tương đương với mức ý nghĩa

 Tập giá trị nằm ngoài khu vực chấp nhận được gọi là khu vực bác bỏ Nếu thống kê mẫu nằm trong khu vực bác bỏ, giả thuyết không bị bác bỏ Trong những trường hợp này, chúng ta nói rằng, giả thuyết đã bị bác bỏ ở mức ý nghĩa α.

1.2 Hồi quy tuyến tính đa biến (Hồi quy tuyến tính bội):

Hồi quy tuyến tính đa biến là mô hình hồi quy tuyến tính sử dụng nhiều biến giải thích

để dự đoán giá trị của biến phụ thuộc

• Phương trình hồi quy tổng thể với k biến độc lập có dạng:

𝑌𝑖 = 𝛽0+ 𝛽1X1 + 𝛽2X2 + 𝛽3X3 + + ε

Cemcons.vn

Trang 6

Trong đó:

𝛽0: hệ số tung độ góc

𝛽1: hệ số độ dốc Y theo biến X1 khi giữ các biến khác không đổi

𝛽2: hệ số độ dốc Y theo biến X2 khi giữ các biến khác không đổi

ε: thành phần ngẫu nhiên (yếu tố nhiễu)

• Tính toán hệ số xác định bội 𝑅 : khi có nhiều biến độc lập trong mô hình đa bội thì

𝑅 2 vẫn được sử dụng để xác định biến thiên của biến phụ thuộc để giải thích mối quan hệ của biến phụ thuộc và các biến độc lập trong mô hình

𝑅2 =𝑆𝑆𝑅𝑆𝑆𝑇Trong đó:

SST: total sum of square (Tổng biến thiên của biến phụ thuộc)

SSR: sum of square due to the regression model (biến thiên của hồi quy)

SSE: sum of square due to error (biến thiên của phần dư)

Trang 7

Công thức tính:

𝑆𝑦

𝑥 = √ 𝑆𝑆𝐸

𝑛 − 2

• Đánh giá ý nghĩa toàn diện của mô hình: việc ước lượng mô hình hồi quy tuyến tính

đa biến được xây dựng dựa trên mẫu được lấy từ tổng thể, do vậy cần kiểm định ý nghĩa thống kê của mô hình bằng cách thực hiện đặt các giả thuyết:

H0: các biến độc lập được đưa vào không giải thích được chút nào biến thiên của biến phụ thuộc, tức 𝛽1= 𝛽2 = 0

H1: có ít nhất một hệ số 𝛽𝑖 khác 0

• Đại lượng thống kê F được sử dụng để kiểm định giả thuyết ý nghĩa toàn diện của

mô hình hồi quy hay giá trị p-value trong các phần mềm thống kê đưa ra các đánh giá cho từng biến độc lập cũng như cả mô hình với độ tin cậy chọn trước

Công thức tính:

𝐹 =

𝑆𝑆𝑅𝑘𝑆𝑆𝐸

Trang 8

Các biến chính trong bộ dữ liệu:

• price: Giá nhà được bán ra

• floors: Số tầng của ngôi nhà được phân loại từ 1-3.5

• condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt

• view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4

• sqft_above: Diện tích ngôi nhà

• sqft_living: Diện tích khuôn viên nhà

• sqft_basement: Diện tích tầng hầm.

Các bước thực hiện:

1 Đọc dữ liệu (Import data):

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data visualization)

a Chuyển đổi biến (nếu cần thiết)

b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng

đến giá nhà ở quận King

5 Thực hiện dự báo cho giá nhà quận King

2.2 Thực hành R

2.1.1 Đọc dữ liệu (Import Data): gia_nha.csv

• Sử dụng lệnh

Cemcons.vn

Trang 9

𝑑𝑎𝑡𝑎 < −𝑟𝑒𝑎𝑑 𝑐𝑠𝑣(“𝐶:/𝑈𝑠𝑒𝑟𝑠/𝑃𝐶/𝐷𝑜𝑤𝑛𝑙𝑜𝑎𝑑𝑠/𝑔𝑖𝑎_𝑛ℎ𝑎 𝑐𝑠𝑣”, ℎ𝑒𝑎𝑑𝑒𝑟 = 𝑇𝑅𝑈𝐸)

• Sau khi đọc xong, dữ liệu của chúng ta sẽ được lưu vào 1 biến kiểu data frame tên data, ta có thể xem qua biến này bằng cách click đúp vào tên biến ở góc phải màn hình Lúc này màn hình sẽ hiển thị như dưới đây:

2.2.2 Làm sạch dữ liệu (Data cleaning)

• Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu với tên mới là new_DF

• Sử dụng lệnh:

𝑛𝑒𝑤_𝐷𝐹 < −𝑑𝑎𝑡𝑎[, 𝑐(“𝑝𝑟𝑖𝑐𝑒”, “𝑓𝑙𝑜𝑜𝑟𝑠”, “𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛”, “𝑣𝑖𝑒𝑤”, “𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒”, “𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔”, “𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡”)]

➢ Kết quả: tạo ra dữ liệu mới chỉ bao gồm các biến chính:

Cemcons.vn

Trang 10

• Kiểm tra dữ liệu trong new_DF

𝑎𝑝𝑝𝑙𝑦(𝑖𝑠 𝑛𝑎(𝑛𝑒𝑤_𝐷𝐹),2, 𝑠𝑢𝑚) # 𝑡𝑖𝑚 𝑠𝑜 𝑔𝑖𝑎 𝑡𝑟𝑖 𝑘ℎ𝑢𝑦𝑒𝑡 𝑡ℎ𝑖𝑒𝑢

➢ Kết quả:

• Ta thấy rằng có 20 quan sát chứa dữa liệu khuyết thiếu (NA) trên tổng số

21613 quan sát Vì số quan sát chứa số giá trị khuyết thiếu rất nhỏ khi so với tổng số quan sát (0.076%) nên ta chọn phương án loại bỏ các quan sát chứa

giá trị khuyết thiếu

• Ta dùng lệnh sau để loại bỏ các quan sát chứa giá trị NA:

𝑛𝑒𝑤_𝐷𝐹 < −𝑛𝑎 𝑜𝑚𝑖𝑡(𝑛𝑒𝑤_𝐷𝐹)

➢ Kết quả: new_DF từ có 21613 quan sát giảm xuống còn 21593 quan sát, 20 quan sát

giảm đi chính là 20 quan sát chứa giá trị NA bị loại bỏ, ngoài ra ta có thể dùng lệnh 𝑎𝑝𝑝𝑙𝑦() như ở trên để kiểm tra lại còn giá trị NA nào không

• Trước:

Cemcons.vn

Trang 11

• Sau

2.2.3 Làm rõ dữ liệu (data visualization)

a Chuyển đổi biến (nếu cần thiết)

• Tạo một data mới tên là new_DF2 (gồm các biến như new_DF đã làm sạch dữ liệu)

và chuyển đổi các biến price, sqft_above, sqft_living, sqft_basement lần lượt thành log(price+1), log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1)

• Từ giờ ta chỉ làm việc với log(price+1), log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1) thay cho biến price, sqft_above, sqft_living, sqft_basement

• Giải thích lý do chuyển sang dạng log(x+1): Cải thiện sự phù hợp của mô hình: giả định khi ta xây dựng mô hình hồi quy thì các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi quy (phần dư) không có phân phối chuẩn thì việc lấy log của của một biến giúp thay đổi tỉ lệ và làm cho biến đó có phân phối chuẩn Ngoài ra, trong trường hợp phần dư (phương sai thay đổi) do các biến độc lập gây ra, ta cũng có thể chuyển đổi các biến đó sang dạng log

• Ngoài ra, việc chuyển sang dạng log(x+1) thay vì log(x) bởi do trong biến sqft_basement có nhiều giá trị = 0 (do một số ngôi nhà không có tầng hầm) Nếu chuyển sang dạng log thì sẽ nhận được các giá trị infty Do đó ta sẽ chuyển các biến sang log(x+1) thay vì log(x)

• Ta dùng lệnh:

𝑛𝑒𝑤_𝐷𝐹2 < −𝑛𝑒𝑤_𝐷𝐹 𝑛𝑒𝑤_𝐷𝐹2[, 𝑐("𝑝𝑟𝑖𝑐𝑒", "𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒", "𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔", "𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡")] < −

𝑙𝑜𝑔(𝑛𝑒𝑤_𝐷𝐹2[, 𝑐("𝑝𝑟𝑖𝑐𝑒", "𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒", "𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔", "𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡")] + 1)

 Với lệnh 𝑙𝑜𝑔(𝑥) thì sẽ trả về giá trị ln(x) trong toán học

 Lệnh trên chỉ thay đổi giả trị các biến price, sqft_above, sqft_living, sqft_basement, thành dạng 𝑙𝑛(𝑥 + 1) còn các biến floors, condition, view thì không đổi

Cemcons.vn

Trang 12

• Ta có được data frame new_DF2 mới như sau:

b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

• Xác định biến liên tục và biến phân loại:

 Biến liên tục: price, sqft_above, sqft_living, sqft_basement

 Biến phân loại: floors, condition, view

• Tính các giá trị thống kê mô tả (trung bình, độ lệch chuẩn, min, max, trung vị, Q1,

Q3) cho các biến liên tục đã chuyển sang dạng log(x+1)

Trang 13

• Vẽ biểu đồ Histogram thể hiện phân phối cho các biến phụ thuộc: trong file dữ liệu gia_nha.csv có một biến phụ thuộc là price Để vẽ biểu đồ Histogram trong R, sử dụng hàm ℎ𝑖𝑠𝑡()

• Ta dùng lệnh sau:

ℎ𝑖𝑠𝑡(𝑛𝑒𝑤_𝐷𝐹2$𝑝𝑟𝑖𝑐𝑒, 𝑚𝑎𝑖𝑛 = "ℎ𝑖𝑠𝑡𝑜𝑔𝑟𝑎𝑚 𝑜𝑓 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1)", 𝑦𝑙𝑎𝑏 = "𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦", 𝑥𝑙𝑎𝑏 = "𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) ",

𝑐𝑜𝑙 = "𝑟𝑒𝑑", 𝑓𝑟𝑒𝑞 = 𝑇𝑅𝑈𝐸)

➢ Kết quả:

Cemcons.vn

Trang 14

• Nhận xét: Qua biểu đồ histogram của log(𝑝𝑟𝑖𝑐𝑒 + 1), ta thấy có dạng phân phối

chuẩn Số lượng nhà nhiều nhất có 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) từ 12-14

• Vẽ biểu đồ Boxplot thể hiện phân phối của biến phụ thuộc cho từng biến phân loại: trong file dữ liệu có một biến phụ thuộc là price và ba biến phân loại floors, condition, view Để vẽ biểu đồ Boxplot trong R, sử dụng hàm 𝑏𝑜𝑥𝑝𝑙𝑜𝑡()

• Trong biểu đồ Boxplot ta có thể quan sát được các kết quả sau:

 Hai gạch ngang ngắn nằm hai phía ở ngoài cùng của đồ thị lần lượt là giá trị nhỏ nhất và giá trị lớn nhất của tập dữ liệu

 Hình chữ nhật có hai cạnh song song với trục hoành từ dưới lên lần lượt là Q1, Q3 trong tứ phân vị của tập dữ liệu, gạch đen đậm ở giữa hình chữ nhật là Q2

 Các hình tròn nằm ngoài hai vạch giới hạn min, max là các outlier của tập dữ liệu

• Trước tiên ta thực hiện với biến floors, ta dùng lệnh sau:

𝑏𝑜𝑥𝑝𝑙𝑜𝑡(𝑛𝑒𝑤_𝐷𝐹2$𝑝𝑟𝑖𝑐𝑒 ~ 𝑛𝑒𝑤_𝐷𝐹$𝑓𝑙𝑜𝑜𝑟𝑠, 𝑥𝑙𝑎𝑏 = "𝑓𝑙𝑜𝑜𝑟𝑠", 𝑦𝑙𝑎𝑏 = "𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) ", 𝑚𝑎𝑖𝑛 = "𝑏𝑜𝑥𝑝𝑙𝑜𝑡 𝑜𝑓 𝑝𝑟𝑖𝑐𝑒 𝑎𝑛𝑑 𝑓𝑙𝑜𝑜𝑟𝑠 ", 𝑐𝑜𝑙 = 𝑐("𝑟𝑒𝑑", "𝑝𝑖𝑛𝑘", "𝑏𝑙𝑢𝑒", "𝑔𝑟𝑒𝑒𝑛"))

➢ Kết quả

Cemcons.vn

Trang 15

• Nhận xét: biến phân loại floors có sáu giá trị là 1, 1.5, 2, 2.5, 3, 3.5 nên biểu đồ có

sáu hình tương ứng Quan sát ta thấy sáu hình có sự khác biệt tương đối nên có thể kết luận các giá trị min, max, Q1, Q2, Q3, outlier của giá nhà với từng số tầng 1, 1.5,

2, 2.5, 3, 3.5 là khác nhau Kết luận, số tầng ảnh hưởng khá nhiều đến giá nhà

• Tương tự cho biến condition ta thu được kết quả sau:

Cemcons.vn

Trang 16

• Nhận xét: biến phân loại condition có năm giá trị là 1, 2, 3, 4, 5 nên biểu đồ có

năm hình tương ứng Quan sát ta thấy năm hình có sự khác biệt tương đối nên có thể kết luận các giá trị min, max, Q1, Q2, Q3, outlier của giá nhà với từng điều kiện kiến trúc 1, 2, 3, 4, 5 là khác nhau Kết luận, điều kiện kiến trúc của ngôi nhà ảnh hưởng khá nhiều đến giá nhà

• Tương tự cho biến view ta thu được kết quả sau:

• Nhận xét: biến phân loại view có bốn giá trị là 0, 1, 2, 3, 4 nên biểu đồ có bốn hình

tương ứng Quan sát ta thấy năm hình có sự khác biệt tương đối nên có thể kết luận các giá trị min, max, Q1, Q2, Q3, outlier của giá nhà với từng đánh giá cảnh quan 1,

2, 3, 4 là khác nhau Kết luận, đánh giá cảnh quan xung quanh của ngôi nhà ảnh hưởng khá nhiều đến giá nhà

• Vẽ biểu đồ Pairs thể hiện phân phối của các biến phụ thuộc đối với các biến liên tục: trong file dữ liệu, ta có một biến phụ thuộc là price và các biến liên tục sqft_above, sqft_living, sqft_basement Để vẽ biểu đồ phân phối trong R, sử dụng hàm 𝑝𝑎𝑖𝑟𝑠()

• Trước tiên ta thực hiện với biến sqft_above, ta dùng lệnh sau:

Cemcons.vn

Trang 17

𝑝𝑎𝑖𝑟𝑠(𝑝𝑟𝑖𝑐𝑒~𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒, 𝑑𝑎𝑡𝑎 = 𝑛𝑒𝑤_𝐷𝐹2, 𝑚𝑎𝑖𝑛

= "𝑝ℎ𝑎𝑛 𝑝ℎ𝑜𝑖 𝑔𝑖𝑢𝑎 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) 𝑣𝑎 𝑙𝑜𝑔(𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒 + 1)")

➢ Kết quả

• Nhận xét: giá nhà và diện tích của ngôi nhà có tương quan mạnh khi hai biến có xu

hướng tỉ lệ thuận với nhau tức giá nhà cao khi diện tích nhà lớn và ngược lại

• Tương tự cho biến sqft_living ta thu được kết quả sau:

Cemcons.vn

Trang 18

• Nhận xét: giá nhà và diện tích khuôn viên của ngôi nhà có tương quan mạnh khi hai

biến có xu hướng tỉ lệ thuận với nhau tức giá nhà cao khi diện tích khuôn viên nhà lớn và ngược lại

• Tương tự cho biến sqft_basement ta thu được kết quả sau:

Cemcons.vn

Trang 19

• Nhận xét: giá nhà và diện tích tầng hầm của ngôi nhà có tương quan yếu, gần như

diện tích tầng hầm không ảnh hưởng gì đến giá nhà

➢ Kết quả, dựa trên các đồ thị trên ta nhận thấy việc phân tích mối quan hệ tuyến tính

giữa các biến độc lập với biến phụ thuộc là giá nhà (price) sẽ hiệu quả hơn trong việc chuyển đổi sang dạng log (𝑥 + 1) Liệu mối quan hệ giữa các biến với giá nhà

là ngẫu nhiên hay có mối quan hệ tuyến tính giữa các biến với giá nhà Mô hình hồi quy tuyến tính sẽ giúp ta kiểm tra điều này thông qua khoảng tin cậy và các phép kiểm định và nó còn cho phép ta ước lượng giá trị của biến phụ thuộc là giá nhà (price) theo các biên độc lập (số tầng, điều kiện ngôi nhà, diện tích nhà, …)

2.2.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh

hưởng đến giá nhà ở quận King

• Ta xây dựng hình hồi quy bội (gọi là mô hình 1) bao gồm:

 Biến phụ thuộc: price

 Biến dự báo (biến độc lập): floors, condition, view, sqft_above, sqft_living, sqft_basement

• Mô hình được biểu diễn như sau:

ln(𝑝𝑟𝑖𝑐𝑒 + 1) = 𝛽0 + 𝛽1 × 𝑓𝑙𝑜𝑜𝑟𝑠 + 𝛽2 × 𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛 + 𝛽3 × 𝑣𝑖𝑒𝑤

+ 𝛽4 × ln(𝑠𝑞𝑓𝑡𝑎𝑏𝑜𝑣𝑒+ 1) + 𝛽5 × ln(𝑠𝑞𝑓𝑡𝑙𝑖𝑣𝑖𝑛𝑔+ 1) + 𝛽6 × ln(𝑠𝑞𝑓𝑡𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡+ 1)

𝑡𝑎 𝑡ℎự𝑐 ℎ𝑖ệ𝑛 ướ𝑐 𝑙ượ𝑛𝑔 𝑐á𝑐 ℎệ 𝑠ố 𝛽𝑖, 𝑖 = 0, , 6

• Ta sử dụng lệnh sau:

𝑚ℎ1 < −𝑙𝑚(𝑝𝑟𝑖𝑐𝑒~𝑓𝑙𝑜𝑜𝑟𝑠 + 𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛 + 𝑣𝑖𝑒𝑤 + 𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒 + 𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔 + 𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡, 𝑑𝑎𝑡𝑎 = 𝑛𝑒𝑤_𝐷𝐹2)

𝑠𝑢𝑚𝑚𝑎𝑟𝑦(𝑚ℎ1)

➢ Kết quả:

Cemcons.vn

Trang 20

• Trong đó:

 Estimate cho ta biết được hệ số hồi quy của từng biến độc lập

 Std.Error là sai số chuẩn của từng biến

 t value là giá trị t sử dụng trong t-test Dùng trong kiểm định về giả thuyết:

▪ H0: Biến độc lập xi không có ảnh hưởng lớn tới biến phụ thuộc

▪ H1: Biến độc lập xi có ảnh hưởng lớn tới biến phụ thuộc

 Pr(>|t|) là giá trị P-value của kiểm định trên

• Nhận xét: từ kết quả phân tích ta thu được:

𝛽0 = 7.161974 ; 𝛽1 = 0.102710; 𝛽2 = 0.075297; 𝛽3 = 0.125290

𝛽4 = 0.545019; 𝛽5 = 0.173082; 𝛽6 = 0.042974

• Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:

ln(price+1) = 7.161974 + 0.102710×floors + 0.075297×condition + 0.125290×view + 0.545019 ×ln(sqft_above+1) + 0.173082 ×ln(sqft_living +1)+0.042974×ln(sqft_basement+1)

• Kiểm định các hệ số hồi quy:

Cemcons.vn

Trang 21

 Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê (βi = 0)

 Giả thuyết H1: Hệ số hồi quy có ý nghĩa thống kê (βi ≠ 0)

• 𝑃𝑟(> |𝑡|) của các hệ số ứng với tất các biến phụ thuộc trong bài toán trên đều bé hơn mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Do

đó hệ số ứng với các biến này có ý nghĩa với mô hình hồi quy ta xây dựng

• Vì tất cả các hệ số của các biến đều có ý nghĩa với mô hình hồi quy ta xây dựng nên

ta không thể loại bỏ biến nào ra khỏi mô hình Vậy mô hình đã xây dựng ở trên là

vì các biến phụ thuộc có giá trị nằm ngoài giá trị 0

 𝑝 − 𝑣𝑎𝑙𝑢𝑒 tương ứng với thống kê F be hơn 2.2𝑒 − 16, có ý nghĩa rất cao Qua

đó, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao đến log (𝑝𝑟𝑖𝑐𝑒 + 1) Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số 𝐵𝑖) và 𝑝 − 𝑣𝑎𝑙𝑢𝑒 tương ứng Ta thấy rằng 𝑝 − 𝑣𝑎𝑙𝑢𝑒 tương ứng với các biến đều bé hơn 2.2𝑒 − 16, điều này nói lên rằng ảnh hưởng của các biến này có

ý nghĩa rất cao lên log (𝑝𝑟𝑖𝑐𝑒 + 1)

 Điều đó, cho thấy hệ số hồi quy 𝐵𝑖 của một biến dự báo cũng có thể được xem như ảnh hưởng trung bình lên biến phụ thuộc log (𝑝𝑟𝑖𝑐𝑒 + 1) khi tăng một đơn

vị của biến dự báo bất kỳ và giữ nguyên các biến dự báo còn lại không đổi Bên cạnh đó, các hệ số còn lại đều dương thể hiện các nhân tố đó càng lớn thì giá nhà càng cao, ví dụ sqft_living (diện tích nhà) càng lớn thì giá nhà càng cao, điều này

là phù hợp với thực tế, tuy nhiên mức độ ảnh hưởng đến giá nhà của các nhân tố trên còn phụ thuộc vào độ lớn của các hệ số, hệ số của một nhân tố càng lớn thì

nó càng ảnh hưởng lớn đến giá nhà Cụ thể, 𝐵̂ = 0.102710 thì khi số tầng của 1

Cemcons.vn

Trang 22

dự báo còn lại không đổi) Tương tự các biến còn lại

 Hệ số 𝑅2 hiệu chỉnh bằng 0.5141 nghĩa là 0.5141% sự biến thiên trong log(𝑝𝑟𝑖𝑐𝑒 + 1) được giải thích bởi các biến còn lại

• Sai số hồi quy:

Các phân tích đều dựa trên một số giả định quan trọng sau:

 Ɛi phân phối theo luật phân phối chuẩn

 Ɛi có giá trị trung bình là 0

 Ɛi có phương sai 𝜎2 cố định cho tất cả xi

• Dùng lệnh sau:

plot(mh1)

• Sau khi thực thi lệnh trên lần đầu ta được kết quả:

 Fitted values: giá trị dự báo của giá thành ngôi nhà (price) phụ thuộc vào các biến còn lại

 Residuals là sai số hồi quy, tức là chênh lệch giữa giá trị thực tế so với giá trị dự báo

Cemcons.vn

Trang 23

• Nhận xét: biểu đồ này vẽ phần dư 𝛆i và giá trị dự đoán mức tác động của các biến

của ngôi nhà Ta thấy các giá trị phần dư tập trung quanh đường y = 0 nên giả định

𝛆i có mean bằng 0 là chấp nhận được, khẳng định thêm về tính đúng đắn của mô hình Trong khi đó giá trị dự đoán của mô hình tập trung trong khoảng 12 đến 14.5, Tuy nhiên giả định về tính tuyến tính của dữ liệu chưa thực sự thỏa mãn vì các điểm residual tạo nên đường màu đỏ có dạng giống parabol chứ không phải đường nằm ngang

• Tiếp tục thực hiện lệnh trên ta thu được kết quả:

Cemcons.vn

Trang 24

• Nhận xét: Biểu đồ này vẽ giá trị phần dư và kì vọng dựa vào phân phối chuẩn Ta

thấy các số phần dư tập trung khá gần các giá trị trên đường chuẩn nên ta có thể nói giả định 𝛆i tuân theo phân phối chuẩn có thể chấp nhận được

• Tiếp tục thực hiện lệnh trên lần thứ 3 ta thu được kết quả:

Cemcons.vn

Trang 25

• Nhận xét: Biểu đồ này vẽ căn số phần dư chuẩn (standardized residuals) và giá trị

của ŷi Ta thấy không có sự khác biệt lắm giữa giá trị phần dư chuẩn cho các giá trị của price tuy nhiên đường màu đỏ lại hơi cong chứ không phải đường nằm ngang nên giả định 𝛆i có phương sai cố định cho tất cả nhân tố chưa thực sự thỏa mãn nhưng vẫn có thể chấp nhận được

• Thực hiện lệnh trên lần cuối ta thu được kết quả:

• Nhận xét: Biểu đồ này cho ta biết những trường hợp có ảnh hưởng lớn đến mô hình

hồi quy Những điểm nằm trọn vẹn trong giới hạn của đường Cook’s distance có số lượng lớn nhưng chúng không thật sự ảnh hưởng quá nhiều lên mô hình nếu ta thêm hay bỏ bớt những điểm đó Ngược lại những điểm nằm ngoài vùng giới hạn của đường Cook’s distance khi bị bỏ bớt sẽ gây ra sự thay đổi lớn với mô hình hồi quy tuyến tính

• Ta thấy trong biểu đồ này không xuất hiện trường hợp nào nằm ngoài vùng giới hạn của đường Cook’s distance, thuộc dạng thông thường

• Vùng phổ biến của giá thành ngôi nhà (price) từ hơn 12 đến cận 14

• Trong vùng này các giá thành ngôi nhà (price) nằm xung quanh đường hồi quy tuyến tính, giá trị residuals tương đối thấp

Cemcons.vn

Trang 26

Qua những phân tích trên ta có thể thấy được mô hình hồi quy tuyến tính đã được xây dựng

để mô tả mối tương quan giữa các yếu tố và giá của ngôi nhà tuy vẫn còn vài điểm thiếu xót nhưng nhìn chung khá ổn

2.2.5 Thực hiện dự báo cho giá nhà quận King

• Từ tập dữ liệu ta chọn ngôi nhà thứ 4 có:

 1 tầng

 Điều kiện kiến trúc ngôi nhà: 5

 Đánh giá quang cảnh ngôi nhà: 0

 Lệnh predict để đưa ra dự báo cho ln(price+1)

 Lệnh 𝑒𝑥𝑝() sẽ chuyển từ ln(price+1) về price + 1

𝑔𝑖𝑎𝑛ℎ𝑎 < −𝑑𝑎𝑡𝑎 𝑓𝑟𝑎𝑚𝑒("𝑓𝑙𝑜𝑜𝑟𝑠" = 1, "𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛" = 5, "𝑣𝑖𝑒𝑤" = 0, "𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒"

= 𝑙𝑜𝑔(1050 + 1), "𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔" = 𝑙𝑜𝑔(1960 + 1), "𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡"

= 𝑙𝑜𝑔(910 + 1)) 𝑃𝑟𝑒_𝑔𝑖𝑎𝑛ℎ𝑎 < −𝑝𝑟𝑒𝑑𝑖𝑐𝑡(𝑚ℎ1, 𝑔𝑖𝑎𝑛ℎ𝑎, 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 = "𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒")#𝑡ℎ𝑢𝑐 ℎ𝑖𝑒𝑛 𝑑𝑢 𝑏𝑎𝑜

𝑒𝑥𝑝(𝑃𝑟𝑒_𝑔𝑖𝑎𝑛ℎ𝑎) − 1#𝑐ℎ𝑢𝑦𝑒𝑛 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) 𝑣𝑒 𝑝𝑟𝑖𝑐𝑒

➢ Kết quả:

• Nhận xét: Dựa vào kết quả dự báo, ta nhận được:

 Giá nhà dự báo trung bình là 459617.9

Cemcons.vn

Tiêu đề	Bài Tập Lớn Xác Suất Và Thống Kê
Tác giả	Nhóm 13
Người hướng dẫn	Cô Nguyễn Kiều Dung - Giảng Viên
Trường học	Đại Học Bách Khoa - ĐHQG TPHCM
Chuyên ngành	Xác Suất và Thống Kê
Thể loại	bài tập lớn
Năm xuất bản	221
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	53
Dung lượng	1,16 MB