Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.Trong suốt quá trình học tập và hoàn thành bài báo cáo, nhóm chúng em đã nhận được rất nhiều sự giúp đỡ từ nhiều phía thầy cô, bạn bè, đặc biệt là sự tận tình chỉ bảo từ cô Nguyễn Kiều Dung giảng viên trực tiếp hướng dẫn và giảng dạy bộ môn Xác Suất Thống Kê. Nhờ có sự chỉ bảo và giúp đỡ từ cô mà nhóm em đã hoàn thành bài tập đúng tiến độ và giải quyết các vấn đề được đặt ra. Mặc dù vẫn còn nhiều thiếu sót trong quá trình hoàn thiện bài báo cáo này, nhưng chúng em tin rằng sẽ phần nào rút được những bài học quý giá nhờ vào tâm huyết của thầy, hơn nữa điều đó đã giúp chúng em có thêm niềm đam mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai.
Trang 1BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
Trang 2BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
mê và hứng thú với môn học, làm tiền đề để chúng em học tập tốt hơn trong tương lai
Nhóm em xin gửi đến thầy lời cảm ơn chân thành và sâu sắc nhất vì đã đồng hành cùng chúng em trong suốt học kỳ 221 này Chúc cô có thật nhiều niềm vui và sức khỏe để cùng chúng em bước tiếp trên những chặng đường tiếp theo và nuôi dưỡng các thế hệ mai sau nữa
Cemcons.vn
Trang 3BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
2.1.1 Đọc dữ liệu (Import Data): gia_nha.csv 8 2.2.2 Làm sạch dữ liệu (Data cleaning) _ 9 2.2.3 Làm rõ dữ liệu (data visualization) 11 2.2.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King 19 2.2.5 Thực hiện dự báo cho giá nhà quận King _ 26
III HOẠT ĐỘNG 2 _ 28
3.1 ĐỀ BÀI 28 3.2 THỰC HÀNH R 29
3.2.1 Đọc dữ liệu (Import Data): ENB2012_data.xlxs _ 29 3.2.2 Làm sạch dữ liệu (Data Cleaning) 29 3.2.3 Làm rõ dữ liệu (Data Visualization) _ 30 3.2.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến mức độ tỏa nhiệt của ngôi nhà 43 3.2.5 Thực hiện dự báo mức độ thu nhiệt của ngôi nhà 51
IV TÀI LIỆU THAM KHẢO _ 53
Cemcons.vn
Trang 4BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
I CƠ SỞ LÝ THUYẾT
Giả thuyết thống kê (Statistical Hypothesi.9s) là một giả sử hay một phát biểu có thể đúng, có thể sai liên quan đến tham số của một hay nhiều tập hợp chính Mỗi tính đúng sai như vậy có thể viết dưới dạng một giả thuyết, thường ký hiệu là 𝐻0, gọi là không thuyết (null hypothesis), và một giả thuyết đối ngược lại nó, thường ký hiệu
là 𝐻1 hoặc 𝐻𝑎𝑙𝑡, gọi là đối thuyết (alternative hypothesis)
1.1 Một số nguyên tắc chung của kiểm định thống kê
Quy trình kiểm định một giả thuyết thống kê là một quá trình chuẩn mực để đưa ra
quyết định bác bỏ một giả thuyết hay không, dựa trên một dữ liệu mẫu Quá trình này
được gọi là kiểm định giả thuyết (hypothesis testing), bao gồm 4 bước:
• Đặt ra các giả thuyết Công việc của bước này là chỉ ra đâu là giả thuyết không, đâu
là giả thuyết nghịch Các giả thuyết được đặt ra theo cách loại trừ lẫn nhau Đó là, nếu cái này đúng thì cái kia phải sai
• Xây dựng một kế hoạch phân tích Kế hoạch phân tích mô tả cách sử dụng dữ liệu mẫu ra sao để đánh giá giả thuyết không Đánh giá thường tập trung xung quanh một thống kê mẫu đơn (single test statistic)
• Phân tích dữ liệu mẫu Tìm các giá trị của thống kê mẫu (trung bình, tỉ lệ, t-statistic, z-score…) được mô tả trong kế hoạch phân tích
• Đọc hiểu kết quả Áp dụng các quy tắc quyết định được mô tả trong kế hoạch phân tích Nếu kết quả thu được không khớp với giả thuyết không thì bác bỏ giả thuyết này
• Tương tự như ước lượng, việc kiểm định giả thuyết bằng thống kê không cho kết quả “chính xác 100%”, mà chỉ cho kết quả với một độ tin cậy nhất định nào đó, và
có thể xảy ra sai lầm Các sai lầm có thể phân làm hai loại:
Sai lầm loại 1: phủ nhận giả thuyết 𝐻0, chấp nhận đối thuyết 𝐻1, trong khi 𝐻0 đúng
Cemcons.vn
Trang 5BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
P-value Sức mạnh của bằng chứng trong việc hỗ trợ một giả thuyết không được đo bằng P-value Giả sử thống kê kiểm định bằng S P-value là xác suất của việc quan sát một thống kê kiểm định as extreme as A, giả sử, giả thuyết null là đúng Nếu giá trị P-value nhỏ hơn mức ý nghĩa, chúng ta bác bỏ giả thuyết không
Vùng chấp nhận (region of acceptance) Vùng chấp nhận là một dãy giá trị Nếu bài thống kê mẫu nằm trong khu vực chấp nhận, giả thuyết không không
bị bác bỏ Vùng chấp nhận được xác định cốt để xác suất mắc lỗi loại 1 tương đương với mức ý nghĩa
Tập giá trị nằm ngoài khu vực chấp nhận được gọi là khu vực bác bỏ Nếu thống kê mẫu nằm trong khu vực bác bỏ, giả thuyết không bị bác bỏ Trong những trường hợp này, chúng ta nói rằng, giả thuyết đã bị bác bỏ ở mức ý nghĩa α.
1.2 Hồi quy tuyến tính đa biến (Hồi quy tuyến tính bội):
Hồi quy tuyến tính đa biến là mô hình hồi quy tuyến tính sử dụng nhiều biến giải thích
để dự đoán giá trị của biến phụ thuộc
• Phương trình hồi quy tổng thể với k biến độc lập có dạng:
𝑌𝑖 = 𝛽0+ 𝛽1X1 + 𝛽2X2 + 𝛽3X3 + + ε
Cemcons.vn
Trang 6BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
Trong đó:
𝛽0: hệ số tung độ góc
𝛽1: hệ số độ dốc Y theo biến X1 khi giữ các biến khác không đổi
𝛽2: hệ số độ dốc Y theo biến X2 khi giữ các biến khác không đổi
ε: thành phần ngẫu nhiên (yếu tố nhiễu)
• Tính toán hệ số xác định bội 𝑅 : khi có nhiều biến độc lập trong mô hình đa bội thì
𝑅 2 vẫn được sử dụng để xác định biến thiên của biến phụ thuộc để giải thích mối quan hệ của biến phụ thuộc và các biến độc lập trong mô hình
𝑅2 =𝑆𝑆𝑅𝑆𝑆𝑇Trong đó:
SST: total sum of square (Tổng biến thiên của biến phụ thuộc)
SSR: sum of square due to the regression model (biến thiên của hồi quy)
SSE: sum of square due to error (biến thiên của phần dư)
Trang 7BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
Công thức tính:
𝑆𝑦
𝑥 = √ 𝑆𝑆𝐸
𝑛 − 2
• Đánh giá ý nghĩa toàn diện của mô hình: việc ước lượng mô hình hồi quy tuyến tính
đa biến được xây dựng dựa trên mẫu được lấy từ tổng thể, do vậy cần kiểm định ý nghĩa thống kê của mô hình bằng cách thực hiện đặt các giả thuyết:
H0: các biến độc lập được đưa vào không giải thích được chút nào biến thiên của biến phụ thuộc, tức 𝛽1= 𝛽2 = 0
H1: có ít nhất một hệ số 𝛽𝑖 khác 0
• Đại lượng thống kê F được sử dụng để kiểm định giả thuyết ý nghĩa toàn diện của
mô hình hồi quy hay giá trị p-value trong các phần mềm thống kê đưa ra các đánh giá cho từng biến độc lập cũng như cả mô hình với độ tin cậy chọn trước
Công thức tính:
𝐹 =
𝑆𝑆𝑅𝑘𝑆𝑆𝐸
Trang 8BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
Các biến chính trong bộ dữ liệu:
• price: Giá nhà được bán ra
• floors: Số tầng của ngôi nhà được phân loại từ 1-3.5
• condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt
• view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4
• sqft_above: Diện tích ngôi nhà
• sqft_living: Diện tích khuôn viên nhà
• sqft_basement: Diện tích tầng hầm.
Các bước thực hiện:
1 Đọc dữ liệu (Import data):
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3 Làm rõ dữ liệu: (Data visualization)
a Chuyển đổi biến (nếu cần thiết)
b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng
đến giá nhà ở quận King
5 Thực hiện dự báo cho giá nhà quận King
2.2 Thực hành R
2.1.1 Đọc dữ liệu (Import Data): gia_nha.csv
• Sử dụng lệnh
Cemcons.vn
Trang 9BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
𝑑𝑎𝑡𝑎 < −𝑟𝑒𝑎𝑑 𝑐𝑠𝑣(“𝐶:/𝑈𝑠𝑒𝑟𝑠/𝑃𝐶/𝐷𝑜𝑤𝑛𝑙𝑜𝑎𝑑𝑠/𝑔𝑖𝑎_𝑛ℎ𝑎 𝑐𝑠𝑣”, ℎ𝑒𝑎𝑑𝑒𝑟 = 𝑇𝑅𝑈𝐸)
• Sau khi đọc xong, dữ liệu của chúng ta sẽ được lưu vào 1 biến kiểu data frame tên data, ta có thể xem qua biến này bằng cách click đúp vào tên biến ở góc phải màn hình Lúc này màn hình sẽ hiển thị như dưới đây:
2.2.2 Làm sạch dữ liệu (Data cleaning)
• Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu với tên mới là new_DF
• Sử dụng lệnh:
𝑛𝑒𝑤_𝐷𝐹 < −𝑑𝑎𝑡𝑎[, 𝑐(“𝑝𝑟𝑖𝑐𝑒”, “𝑓𝑙𝑜𝑜𝑟𝑠”, “𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛”, “𝑣𝑖𝑒𝑤”, “𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒”, “𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔”, “𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡”)]
➢ Kết quả: tạo ra dữ liệu mới chỉ bao gồm các biến chính:
Cemcons.vn
Trang 10BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Kiểm tra dữ liệu trong new_DF
𝑎𝑝𝑝𝑙𝑦(𝑖𝑠 𝑛𝑎(𝑛𝑒𝑤_𝐷𝐹),2, 𝑠𝑢𝑚) # 𝑡𝑖𝑚 𝑠𝑜 𝑔𝑖𝑎 𝑡𝑟𝑖 𝑘ℎ𝑢𝑦𝑒𝑡 𝑡ℎ𝑖𝑒𝑢
➢ Kết quả:
• Ta thấy rằng có 20 quan sát chứa dữa liệu khuyết thiếu (NA) trên tổng số
21613 quan sát Vì số quan sát chứa số giá trị khuyết thiếu rất nhỏ khi so với tổng số quan sát (0.076%) nên ta chọn phương án loại bỏ các quan sát chứa
giá trị khuyết thiếu
• Ta dùng lệnh sau để loại bỏ các quan sát chứa giá trị NA:
𝑛𝑒𝑤_𝐷𝐹 < −𝑛𝑎 𝑜𝑚𝑖𝑡(𝑛𝑒𝑤_𝐷𝐹)
➢ Kết quả: new_DF từ có 21613 quan sát giảm xuống còn 21593 quan sát, 20 quan sát
giảm đi chính là 20 quan sát chứa giá trị NA bị loại bỏ, ngoài ra ta có thể dùng lệnh 𝑎𝑝𝑝𝑙𝑦() như ở trên để kiểm tra lại còn giá trị NA nào không
• Trước:
Cemcons.vn
Trang 11BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Sau
2.2.3 Làm rõ dữ liệu (data visualization)
a Chuyển đổi biến (nếu cần thiết)
• Tạo một data mới tên là new_DF2 (gồm các biến như new_DF đã làm sạch dữ liệu)
và chuyển đổi các biến price, sqft_above, sqft_living, sqft_basement lần lượt thành log(price+1), log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1)
• Từ giờ ta chỉ làm việc với log(price+1), log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1) thay cho biến price, sqft_above, sqft_living, sqft_basement
• Giải thích lý do chuyển sang dạng log(x+1): Cải thiện sự phù hợp của mô hình: giả định khi ta xây dựng mô hình hồi quy thì các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi quy (phần dư) không có phân phối chuẩn thì việc lấy log của của một biến giúp thay đổi tỉ lệ và làm cho biến đó có phân phối chuẩn Ngoài ra, trong trường hợp phần dư (phương sai thay đổi) do các biến độc lập gây ra, ta cũng có thể chuyển đổi các biến đó sang dạng log
• Ngoài ra, việc chuyển sang dạng log(x+1) thay vì log(x) bởi do trong biến sqft_basement có nhiều giá trị = 0 (do một số ngôi nhà không có tầng hầm) Nếu chuyển sang dạng log thì sẽ nhận được các giá trị infty Do đó ta sẽ chuyển các biến sang log(x+1) thay vì log(x)
• Ta dùng lệnh:
𝑛𝑒𝑤_𝐷𝐹2 < −𝑛𝑒𝑤_𝐷𝐹 𝑛𝑒𝑤_𝐷𝐹2[, 𝑐("𝑝𝑟𝑖𝑐𝑒", "𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒", "𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔", "𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡")] < −
𝑙𝑜𝑔(𝑛𝑒𝑤_𝐷𝐹2[, 𝑐("𝑝𝑟𝑖𝑐𝑒", "𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒", "𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔", "𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡")] + 1)
Với lệnh 𝑙𝑜𝑔(𝑥) thì sẽ trả về giá trị ln(x) trong toán học
Lệnh trên chỉ thay đổi giả trị các biến price, sqft_above, sqft_living, sqft_basement, thành dạng 𝑙𝑛(𝑥 + 1) còn các biến floors, condition, view thì không đổi
Cemcons.vn
Trang 12BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Ta có được data frame new_DF2 mới như sau:
b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
• Xác định biến liên tục và biến phân loại:
Biến liên tục: price, sqft_above, sqft_living, sqft_basement
Biến phân loại: floors, condition, view
• Tính các giá trị thống kê mô tả (trung bình, độ lệch chuẩn, min, max, trung vị, Q1,
Q3) cho các biến liên tục đã chuyển sang dạng log(x+1)
Trang 13BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Vẽ biểu đồ Histogram thể hiện phân phối cho các biến phụ thuộc: trong file dữ liệu gia_nha.csv có một biến phụ thuộc là price Để vẽ biểu đồ Histogram trong R, sử dụng hàm ℎ𝑖𝑠𝑡()
• Ta dùng lệnh sau:
ℎ𝑖𝑠𝑡(𝑛𝑒𝑤_𝐷𝐹2$𝑝𝑟𝑖𝑐𝑒, 𝑚𝑎𝑖𝑛 = "ℎ𝑖𝑠𝑡𝑜𝑔𝑟𝑎𝑚 𝑜𝑓 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1)", 𝑦𝑙𝑎𝑏 = "𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦", 𝑥𝑙𝑎𝑏 = "𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) ",
𝑐𝑜𝑙 = "𝑟𝑒𝑑", 𝑓𝑟𝑒𝑞 = 𝑇𝑅𝑈𝐸)
➢ Kết quả:
Cemcons.vn
Trang 14BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: Qua biểu đồ histogram của log(𝑝𝑟𝑖𝑐𝑒 + 1), ta thấy có dạng phân phối
chuẩn Số lượng nhà nhiều nhất có 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) từ 12-14
• Vẽ biểu đồ Boxplot thể hiện phân phối của biến phụ thuộc cho từng biến phân loại: trong file dữ liệu có một biến phụ thuộc là price và ba biến phân loại floors, condition, view Để vẽ biểu đồ Boxplot trong R, sử dụng hàm 𝑏𝑜𝑥𝑝𝑙𝑜𝑡()
• Trong biểu đồ Boxplot ta có thể quan sát được các kết quả sau:
Hai gạch ngang ngắn nằm hai phía ở ngoài cùng của đồ thị lần lượt là giá trị nhỏ nhất và giá trị lớn nhất của tập dữ liệu
Hình chữ nhật có hai cạnh song song với trục hoành từ dưới lên lần lượt là Q1, Q3 trong tứ phân vị của tập dữ liệu, gạch đen đậm ở giữa hình chữ nhật là Q2
Các hình tròn nằm ngoài hai vạch giới hạn min, max là các outlier của tập dữ liệu
• Trước tiên ta thực hiện với biến floors, ta dùng lệnh sau:
𝑏𝑜𝑥𝑝𝑙𝑜𝑡(𝑛𝑒𝑤_𝐷𝐹2$𝑝𝑟𝑖𝑐𝑒 ~ 𝑛𝑒𝑤_𝐷𝐹$𝑓𝑙𝑜𝑜𝑟𝑠, 𝑥𝑙𝑎𝑏 = "𝑓𝑙𝑜𝑜𝑟𝑠", 𝑦𝑙𝑎𝑏 = "𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) ", 𝑚𝑎𝑖𝑛 = "𝑏𝑜𝑥𝑝𝑙𝑜𝑡 𝑜𝑓 𝑝𝑟𝑖𝑐𝑒 𝑎𝑛𝑑 𝑓𝑙𝑜𝑜𝑟𝑠 ", 𝑐𝑜𝑙 = 𝑐("𝑟𝑒𝑑", "𝑝𝑖𝑛𝑘", "𝑏𝑙𝑢𝑒", "𝑔𝑟𝑒𝑒𝑛"))
➢ Kết quả
Cemcons.vn
Trang 15BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: biến phân loại floors có sáu giá trị là 1, 1.5, 2, 2.5, 3, 3.5 nên biểu đồ có
sáu hình tương ứng Quan sát ta thấy sáu hình có sự khác biệt tương đối nên có thể kết luận các giá trị min, max, Q1, Q2, Q3, outlier của giá nhà với từng số tầng 1, 1.5,
2, 2.5, 3, 3.5 là khác nhau Kết luận, số tầng ảnh hưởng khá nhiều đến giá nhà
• Tương tự cho biến condition ta thu được kết quả sau:
Cemcons.vn
Trang 16BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: biến phân loại condition có năm giá trị là 1, 2, 3, 4, 5 nên biểu đồ có
năm hình tương ứng Quan sát ta thấy năm hình có sự khác biệt tương đối nên có thể kết luận các giá trị min, max, Q1, Q2, Q3, outlier của giá nhà với từng điều kiện kiến trúc 1, 2, 3, 4, 5 là khác nhau Kết luận, điều kiện kiến trúc của ngôi nhà ảnh hưởng khá nhiều đến giá nhà
• Tương tự cho biến view ta thu được kết quả sau:
• Nhận xét: biến phân loại view có bốn giá trị là 0, 1, 2, 3, 4 nên biểu đồ có bốn hình
tương ứng Quan sát ta thấy năm hình có sự khác biệt tương đối nên có thể kết luận các giá trị min, max, Q1, Q2, Q3, outlier của giá nhà với từng đánh giá cảnh quan 1,
2, 3, 4 là khác nhau Kết luận, đánh giá cảnh quan xung quanh của ngôi nhà ảnh hưởng khá nhiều đến giá nhà
• Vẽ biểu đồ Pairs thể hiện phân phối của các biến phụ thuộc đối với các biến liên tục: trong file dữ liệu, ta có một biến phụ thuộc là price và các biến liên tục sqft_above, sqft_living, sqft_basement Để vẽ biểu đồ phân phối trong R, sử dụng hàm 𝑝𝑎𝑖𝑟𝑠()
• Trước tiên ta thực hiện với biến sqft_above, ta dùng lệnh sau:
Cemcons.vn
Trang 17BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
𝑝𝑎𝑖𝑟𝑠(𝑝𝑟𝑖𝑐𝑒~𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒, 𝑑𝑎𝑡𝑎 = 𝑛𝑒𝑤_𝐷𝐹2, 𝑚𝑎𝑖𝑛
= "𝑝ℎ𝑎𝑛 𝑝ℎ𝑜𝑖 𝑔𝑖𝑢𝑎 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) 𝑣𝑎 𝑙𝑜𝑔(𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒 + 1)")
➢ Kết quả
• Nhận xét: giá nhà và diện tích của ngôi nhà có tương quan mạnh khi hai biến có xu
hướng tỉ lệ thuận với nhau tức giá nhà cao khi diện tích nhà lớn và ngược lại
• Tương tự cho biến sqft_living ta thu được kết quả sau:
Cemcons.vn
Trang 18BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: giá nhà và diện tích khuôn viên của ngôi nhà có tương quan mạnh khi hai
biến có xu hướng tỉ lệ thuận với nhau tức giá nhà cao khi diện tích khuôn viên nhà lớn và ngược lại
• Tương tự cho biến sqft_basement ta thu được kết quả sau:
Cemcons.vn
Trang 19BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: giá nhà và diện tích tầng hầm của ngôi nhà có tương quan yếu, gần như
diện tích tầng hầm không ảnh hưởng gì đến giá nhà
➢ Kết quả, dựa trên các đồ thị trên ta nhận thấy việc phân tích mối quan hệ tuyến tính
giữa các biến độc lập với biến phụ thuộc là giá nhà (price) sẽ hiệu quả hơn trong việc chuyển đổi sang dạng log (𝑥 + 1) Liệu mối quan hệ giữa các biến với giá nhà
là ngẫu nhiên hay có mối quan hệ tuyến tính giữa các biến với giá nhà Mô hình hồi quy tuyến tính sẽ giúp ta kiểm tra điều này thông qua khoảng tin cậy và các phép kiểm định và nó còn cho phép ta ước lượng giá trị của biến phụ thuộc là giá nhà (price) theo các biên độc lập (số tầng, điều kiện ngôi nhà, diện tích nhà, …)
2.2.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh
hưởng đến giá nhà ở quận King
• Ta xây dựng hình hồi quy bội (gọi là mô hình 1) bao gồm:
Biến phụ thuộc: price
Biến dự báo (biến độc lập): floors, condition, view, sqft_above, sqft_living, sqft_basement
• Mô hình được biểu diễn như sau:
ln(𝑝𝑟𝑖𝑐𝑒 + 1) = 𝛽0 + 𝛽1 × 𝑓𝑙𝑜𝑜𝑟𝑠 + 𝛽2 × 𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛 + 𝛽3 × 𝑣𝑖𝑒𝑤
+ 𝛽4 × ln(𝑠𝑞𝑓𝑡𝑎𝑏𝑜𝑣𝑒+ 1) + 𝛽5 × ln(𝑠𝑞𝑓𝑡𝑙𝑖𝑣𝑖𝑛𝑔+ 1) + 𝛽6 × ln(𝑠𝑞𝑓𝑡𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡+ 1)
𝑡𝑎 𝑡ℎự𝑐 ℎ𝑖ệ𝑛 ướ𝑐 𝑙ượ𝑛𝑔 𝑐á𝑐 ℎệ 𝑠ố 𝛽𝑖, 𝑖 = 0, , 6
• Ta sử dụng lệnh sau:
𝑚ℎ1 < −𝑙𝑚(𝑝𝑟𝑖𝑐𝑒~𝑓𝑙𝑜𝑜𝑟𝑠 + 𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛 + 𝑣𝑖𝑒𝑤 + 𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒 + 𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔 + 𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡, 𝑑𝑎𝑡𝑎 = 𝑛𝑒𝑤_𝐷𝐹2)
𝑠𝑢𝑚𝑚𝑎𝑟𝑦(𝑚ℎ1)
➢ Kết quả:
Cemcons.vn
Trang 20BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Trong đó:
Estimate cho ta biết được hệ số hồi quy của từng biến độc lập
Std.Error là sai số chuẩn của từng biến
t value là giá trị t sử dụng trong t-test Dùng trong kiểm định về giả thuyết:
▪ H0: Biến độc lập xi không có ảnh hưởng lớn tới biến phụ thuộc
▪ H1: Biến độc lập xi có ảnh hưởng lớn tới biến phụ thuộc
Pr(>|t|) là giá trị P-value của kiểm định trên
• Nhận xét: từ kết quả phân tích ta thu được:
𝛽0 = 7.161974 ; 𝛽1 = 0.102710; 𝛽2 = 0.075297; 𝛽3 = 0.125290
𝛽4 = 0.545019; 𝛽5 = 0.173082; 𝛽6 = 0.042974
• Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
ln(price+1) = 7.161974 + 0.102710×floors + 0.075297×condition + 0.125290×view + 0.545019 ×ln(sqft_above+1) + 0.173082 ×ln(sqft_living +1)+0.042974×ln(sqft_basement+1)
• Kiểm định các hệ số hồi quy:
Cemcons.vn
Trang 21BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê (βi = 0)
Giả thuyết H1: Hệ số hồi quy có ý nghĩa thống kê (βi ≠ 0)
• 𝑃𝑟(> |𝑡|) của các hệ số ứng với tất các biến phụ thuộc trong bài toán trên đều bé hơn mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Do
đó hệ số ứng với các biến này có ý nghĩa với mô hình hồi quy ta xây dựng
• Vì tất cả các hệ số của các biến đều có ý nghĩa với mô hình hồi quy ta xây dựng nên
ta không thể loại bỏ biến nào ra khỏi mô hình Vậy mô hình đã xây dựng ở trên là
vì các biến phụ thuộc có giá trị nằm ngoài giá trị 0
𝑝 − 𝑣𝑎𝑙𝑢𝑒 tương ứng với thống kê F be hơn 2.2𝑒 − 16, có ý nghĩa rất cao Qua
đó, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao đến log (𝑝𝑟𝑖𝑐𝑒 + 1) Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số 𝐵𝑖) và 𝑝 − 𝑣𝑎𝑙𝑢𝑒 tương ứng Ta thấy rằng 𝑝 − 𝑣𝑎𝑙𝑢𝑒 tương ứng với các biến đều bé hơn 2.2𝑒 − 16, điều này nói lên rằng ảnh hưởng của các biến này có
ý nghĩa rất cao lên log (𝑝𝑟𝑖𝑐𝑒 + 1)
Điều đó, cho thấy hệ số hồi quy 𝐵𝑖 của một biến dự báo cũng có thể được xem như ảnh hưởng trung bình lên biến phụ thuộc log (𝑝𝑟𝑖𝑐𝑒 + 1) khi tăng một đơn
vị của biến dự báo bất kỳ và giữ nguyên các biến dự báo còn lại không đổi Bên cạnh đó, các hệ số còn lại đều dương thể hiện các nhân tố đó càng lớn thì giá nhà càng cao, ví dụ sqft_living (diện tích nhà) càng lớn thì giá nhà càng cao, điều này
là phù hợp với thực tế, tuy nhiên mức độ ảnh hưởng đến giá nhà của các nhân tố trên còn phụ thuộc vào độ lớn của các hệ số, hệ số của một nhân tố càng lớn thì
nó càng ảnh hưởng lớn đến giá nhà Cụ thể, 𝐵̂ = 0.102710 thì khi số tầng của 1
Cemcons.vn
Trang 22BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
dự báo còn lại không đổi) Tương tự các biến còn lại
Hệ số 𝑅2 hiệu chỉnh bằng 0.5141 nghĩa là 0.5141% sự biến thiên trong log(𝑝𝑟𝑖𝑐𝑒 + 1) được giải thích bởi các biến còn lại
• Sai số hồi quy:
Các phân tích đều dựa trên một số giả định quan trọng sau:
Ɛi phân phối theo luật phân phối chuẩn
Ɛi có giá trị trung bình là 0
Ɛi có phương sai 𝜎2 cố định cho tất cả xi
• Dùng lệnh sau:
plot(mh1)
• Sau khi thực thi lệnh trên lần đầu ta được kết quả:
Fitted values: giá trị dự báo của giá thành ngôi nhà (price) phụ thuộc vào các biến còn lại
Residuals là sai số hồi quy, tức là chênh lệch giữa giá trị thực tế so với giá trị dự báo
Cemcons.vn
Trang 23BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: biểu đồ này vẽ phần dư 𝛆i và giá trị dự đoán mức tác động của các biến
của ngôi nhà Ta thấy các giá trị phần dư tập trung quanh đường y = 0 nên giả định
𝛆i có mean bằng 0 là chấp nhận được, khẳng định thêm về tính đúng đắn của mô hình Trong khi đó giá trị dự đoán của mô hình tập trung trong khoảng 12 đến 14.5, Tuy nhiên giả định về tính tuyến tính của dữ liệu chưa thực sự thỏa mãn vì các điểm residual tạo nên đường màu đỏ có dạng giống parabol chứ không phải đường nằm ngang
• Tiếp tục thực hiện lệnh trên ta thu được kết quả:
Cemcons.vn
Trang 24BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: Biểu đồ này vẽ giá trị phần dư và kì vọng dựa vào phân phối chuẩn Ta
thấy các số phần dư tập trung khá gần các giá trị trên đường chuẩn nên ta có thể nói giả định 𝛆i tuân theo phân phối chuẩn có thể chấp nhận được
• Tiếp tục thực hiện lệnh trên lần thứ 3 ta thu được kết quả:
Cemcons.vn
Trang 25BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
• Nhận xét: Biểu đồ này vẽ căn số phần dư chuẩn (standardized residuals) và giá trị
của ŷi Ta thấy không có sự khác biệt lắm giữa giá trị phần dư chuẩn cho các giá trị của price tuy nhiên đường màu đỏ lại hơi cong chứ không phải đường nằm ngang nên giả định 𝛆i có phương sai cố định cho tất cả nhân tố chưa thực sự thỏa mãn nhưng vẫn có thể chấp nhận được
• Thực hiện lệnh trên lần cuối ta thu được kết quả:
• Nhận xét: Biểu đồ này cho ta biết những trường hợp có ảnh hưởng lớn đến mô hình
hồi quy Những điểm nằm trọn vẹn trong giới hạn của đường Cook’s distance có số lượng lớn nhưng chúng không thật sự ảnh hưởng quá nhiều lên mô hình nếu ta thêm hay bỏ bớt những điểm đó Ngược lại những điểm nằm ngoài vùng giới hạn của đường Cook’s distance khi bị bỏ bớt sẽ gây ra sự thay đổi lớn với mô hình hồi quy tuyến tính
• Ta thấy trong biểu đồ này không xuất hiện trường hợp nào nằm ngoài vùng giới hạn của đường Cook’s distance, thuộc dạng thông thường
• Vùng phổ biến của giá thành ngôi nhà (price) từ hơn 12 đến cận 14
• Trong vùng này các giá thành ngôi nhà (price) nằm xung quanh đường hồi quy tuyến tính, giá trị residuals tương đối thấp
Cemcons.vn
Trang 26BÀI TẬP LỚN XÁC SUẤT VÀ THỐNG KÊ NHÓM 13
Qua những phân tích trên ta có thể thấy được mô hình hồi quy tuyến tính đã được xây dựng
để mô tả mối tương quan giữa các yếu tố và giá của ngôi nhà tuy vẫn còn vài điểm thiếu xót nhưng nhìn chung khá ổn
2.2.5 Thực hiện dự báo cho giá nhà quận King
• Từ tập dữ liệu ta chọn ngôi nhà thứ 4 có:
1 tầng
Điều kiện kiến trúc ngôi nhà: 5
Đánh giá quang cảnh ngôi nhà: 0
Lệnh predict để đưa ra dự báo cho ln(price+1)
Lệnh 𝑒𝑥𝑝() sẽ chuyển từ ln(price+1) về price + 1
𝑔𝑖𝑎𝑛ℎ𝑎 < −𝑑𝑎𝑡𝑎 𝑓𝑟𝑎𝑚𝑒("𝑓𝑙𝑜𝑜𝑟𝑠" = 1, "𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛" = 5, "𝑣𝑖𝑒𝑤" = 0, "𝑠𝑞𝑓𝑡_𝑎𝑏𝑜𝑣𝑒"
= 𝑙𝑜𝑔(1050 + 1), "𝑠𝑞𝑓𝑡_𝑙𝑖𝑣𝑖𝑛𝑔" = 𝑙𝑜𝑔(1960 + 1), "𝑠𝑞𝑓𝑡_𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡"
= 𝑙𝑜𝑔(910 + 1)) 𝑃𝑟𝑒_𝑔𝑖𝑎𝑛ℎ𝑎 < −𝑝𝑟𝑒𝑑𝑖𝑐𝑡(𝑚ℎ1, 𝑔𝑖𝑎𝑛ℎ𝑎, 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 = "𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒")#𝑡ℎ𝑢𝑐 ℎ𝑖𝑒𝑛 𝑑𝑢 𝑏𝑎𝑜
𝑒𝑥𝑝(𝑃𝑟𝑒_𝑔𝑖𝑎𝑛ℎ𝑎) − 1#𝑐ℎ𝑢𝑦𝑒𝑛 𝑙𝑜𝑔(𝑝𝑟𝑖𝑐𝑒 + 1) 𝑣𝑒 𝑝𝑟𝑖𝑐𝑒
➢ Kết quả:
• Nhận xét: Dựa vào kết quả dự báo, ta nhận được:
Giá nhà dự báo trung bình là 459617.9
Cemcons.vn