Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y, mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số của các biến ngẫu nhiên khác control variables, hay còn gọi là biến tự do, tr
Trang 1Sinh viên thực hiện:
Võ Mạnh Quy â - 2014318 — Khoa Máy tính Nguyễn Kim Quynh — 2014334 — Khoa May tinh Thạch Ngô Sáng — 2014356 — Khoa Cơ Khí Trịnh Việt Hoàng — 1752216 — Khoa Máy tính
Tr Duc Sué — 2104389 — Khoa Cơ Khí Pham Trong Tai — 2014418 — Khoa Co Khi Chau Phan Thu Thao — 2014516 — Khoa Héa Chat
Trang 2TP HỒ CHÍ MINH - NĂM 2022
Trang 3MUC LUC
09 0v 342“zøEgHĂHĂHĂH ))HÂH ,Ỏ 3
Đ ÊBÀI Làn HH nà Hà Hưng Hà gàng ri hiệu 5
CHƯƠNG I: CƠ SỞ LÝ THUYẾTT 2+2+++tEEEEEkkrrrrttttrrrirrrrrrrrrrie 7
2 Các giả thiết của mô hình h 'ổ quy bỘii - - 6 655525 1E 9x xe 9
3 Phương pháp ước lượng mô hình hổ quy bội — Phương pháp bình phương nhỏ
š 1009) 00777 9
4 Đánh giá mức độ phù hợp của mô hình h`ổ quy bội s-«+<<«2 11
9009)Ic2940006.900)2000758 13
1 Đọc dữ liệu (Import Data): house€_ DFIC€.CSV Son nh 13
3 Làm rõ dữ liệu (Data VisualiZafiOf)) - Ăn 1n ng ng ng vớ 15
4 Xây dựng mô hình h quy tuyến tính - cm 24
5 Thực hiện dự báo cho giá nhà quận K1ng 5 «s3 sex se es 30
HOẠT ĐỘNG 2: 55-2222 22s HH Hư 31
900200079084 48
Trang 4TÓM TẮT
Ở hoạt động 1, bản báo cáo trình bày việc áp dụng phương pháp phân tích h'ã quy tuyến tính bội vào việc phân tích mẫu dữ liệu là tập tin "gia_nha.csv" chứa thông tin v`giá bán ra thị trưởng (đơn vị đô la) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015 Tử kết quả thu được rút ra những nhận xét v`êtác động của các thuộc tính đó đối với sự thay đổi v`giá bán ra của thị trưởng
Để thu được kết quả phân tích, nhóm đã sử dụng các hàm cơ bản của ngôn ngữ lập trình R và vận dụng linh hoạt giải quyết từng nhiệm vụ cụ thể đặt ra Kết quả được trình bày dưới dạng bảng số liệu tính toán hoặc đ ôthị cung cấp một cái nhìn trực quan v`ềkhảo sát nhằm so sánh, đối chiếu giữa ảnh hưởng của các đi âi kiện của ngôi nhà (số tầng, diện tích ngôi nhà, khuôn viên, phong cảnh xung quanh ) lên giá nhà bán ra thị trưởng Trong bài báo cáo này, trước hết nhóm sẽ nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược, sau đó áp dụng các phương pháp phân tích h`õ quy tuyến tính bội
Ở hoạt đông 2, bản báo cáo trình bày việc áp dụng phương pháp phân tích h'ã quy tuyến tính vào việc phân tích, làm rõ dữ liệu và mô hình dữ liệu v` các yếu tố ảnh hưởng chất lượng rượu vang đỏ
Cụ thể, bài báo cáo ø ôm có:
Trang 5LỜI CẢM ƠN
Xác suất thống kê là một môn học đại cương có tân quan trọng đối với sinh viên nói chung và sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng Do đó, việc dành cho môn học này một khối lượng thời gian nhất định và thực hành là đi 'âi tất yếu để giúp sinh viên có cơ sở vững chấc v`ề kiến thức và kỹ năng c3n thiết cho các môn học chuyên ngành cũng như công việc sau này Sự phát triển và ra đời của toán tin nói chung và phần m`ần R Studio, ngôn ngữ R nói riêng đã hỗ trợ rất nhi ồi trong quá trình học tập và nghiên cứu bộ môn Xác suất thống kê Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn Vì vậy mà việc tìm hiểu R Studio và ngôn ngữ
R trong việc thực hành môn học Xác suất thống kê rất quan trọng và có tính cấp thiết
Ở bài tập lớn này, nhóm thực hiện nội dung: Ưng dụng hổ quy tuyến tính bội để xử lý
và phân tích dữ liệu Trong suốt quá trình thực hiện bài tập, nhóm đã nhận được rất nhi âI sự quan tâm, ủng hộ và giúp đỡ tận tình của thầy cô và bạn bè
Ngoài ra, nhóm cũng xin gửi lời tri ân chân thành nhất đến cô Nguyễn Đình Huy — giảng viên giảng dạy bộ môn Xác suất thống kê của nhóm và là người hướng dẫn cho
đề tài này Nhờ sự hết lòng chỉ bảo mà nhóm đã hoàn thành bài tập đúng tiến độ và giải quyết tốt những vướng mắc gặp phải Sự hướng dẫn của cô đã là kim chỉ nam cho mọi hành động của nhóm và phát huy được tối đa mối quan hệ hỗ trợ giữa cô và trò trong môi trưởng giáo dục Lởi cuối, xin một lần nữa gửi lời biết ơn sâu sắc đến các cá nhân, các th cô đã dành thời gian chỉ dẫn cho nhóm Đây chính là ni ần tin, là động lực to lớn để nhóm có thể hoàn thành đ ềtài này
Trang 6Hoạt động 1:
Tập tin "gia_nha.csv" chứa thông tin v`ềgiá bán ra thị trưởng (đơn vị đô la) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian tử tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, dữ liệu còn bao g Gm các thuộc tính mô ta chất lượng ngôi nhà Dữ
Các biến chính trong bộ dữ liệu:
* price: Gia nhà được bán ra
» oors: Số tầng của ngôi nhà được phân loại tử I-3.5
s condition: Đi`ầi kiện kiến trúc của ngôi nhà từ l — 5, 1: rất tệ và 5: rất tốt
* view: Danh giá cảnh quan xung quanh nhà theo mức độ tử thấp đến cao: 0-4
* sgft_above: Diện tích ngôi nhà
s sgft_living: Diện tích khuôn viên nhà
* sgft_basemenr: Diện tích t3ng hân
Các bước thực hiện:
1 Đọc dữ liệu (Import data):
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3 Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu c3 thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đ ồthị
4 Xây dựng mô hình h'ö quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King
5 Thực hiện dự báo cho giá nhà quận King
Hoạt động 2:
s Sinh viên tự tìm một bộ dữ liệu thuộc v`êchuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những ngu khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin
Trang 7* Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 ph%n: Lam r6 dt liéu (data visualization) va m6 hình dữ liệu (model fitting).
Trang 8CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
L Phân tích hố quy:
1 Định nghĩa:
H8 qui (regression) là phương pháp thống kê toán học để ước lượng và kiểm định các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dự báo Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình
Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y, mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số ) của các biến ngẫu nhiên khác (control variables), hay còn gọi là biến tự do, trong khi Y được gọi là biến phụ thuộc, tức là khi ta có các giá trị của _, thì ta muốn tử đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào một số tham số nào đó Ta có thể viết Y như sau:
trong đó là phần sai số (cũng là một biến ngẫu nhiên) Ta muốn chọn hàm F một cách thích hợp nhất có thể, và các tham số, sao cho sai số là nhỏ nhất có thể
Đại lượng được gọi là sai số chuẩn (standard error) của mô hình hổ qui Mô hình nào
mà có sai số chuẩn càng thấp thì được coi là càng chính xác
2 Bản chất:
* Bản chất của biến phụ thuộc Y
Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đo lưởng bằng một trong bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc, và thang đo danh nghĩa
Thang do tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số của hai biến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến Với thang đo tỷ lệ, ví dụ Y có hai giá trị, và thì tỳ số / và khoảng cách ( - ) là các đại lượng có ý nghĩa; và có thể so sánh hoặc xếp thứ tự
Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chất đẦầi tiên của các biến có thang đo tỷ lệ
Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạng của thang
đo tỷ lệ, chứ việc lập tỷ số hay tính khoảng cách giữa hai giá trị không có ý nghĩa Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này không thỏa mãn bất
kỳ tính chất nào của các biến theo thang đo tỷ lệ (như giới tính, tôn giáo, )
* Bản chất của biễn ngẫu nhiên X
Các biến ngẫu nhiên có thể được đo theo bất kỳ một trong bốn thang đo vừa nêu trên, mặc dù trong nhi `âi ứng dụng thực tế thì các biến giải thích được đo theo thang đo tỷ
số và thang đo khoảng
Trang 9* Bản chất của sai số ngẫu nhiên (nhiễu)
Sai số ngẫu nhiên đại diện cho tất cả các biến không được đưa vào mô hình vì những
lý do như không có sẵn dữ liệu, các lỗi đo lưởng trong dữ liệu Và cho dù ngu ồn tạo nhiễu là gì đi nữa, thì người ta giả định rằng ảnh hưởng trung bình của sai số ngẫu nhiên lên Y là không đáng kể
Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0 và phương sai không đổi là : )
* Bản chất của tham số h`ổ quy
ne ne
Tham số h8 quy (tổng thể), , là những con số cố định (fñxed numbers) và không ngẫu nhiên (not random), mặc dù mình không thể biết giá trị thực của các Bs là bao nhiêu
3 Ý nghĩa của hồ quy tuyến tính:
Thuật ngữ tuyến tính (linear) trong mô hình h`õ quy tuyến tính nghĩa là tuyến tính ở các hệ số hổ quy (linearity in the regression coefficients), , và không phải tuyến tính ở các biến Y và X
II Mô hình hố quy bội:
1 Định nghĩa:
Mô hình h ổ quy bội là mô hình hỗ quy trong đó: biến phụ thuộc Y phụ thuộc vào (k
— 1) biến độc lập X:,X:T]1, Xe có dạng như sau:
Trong đó:
[_ là sai số ngẫu nhiên
HH là hệ số tự do (hệ số chăn), bằng giá trị trung bình của Y khi X;=0
O Ola hé số hổ quy riêng (hay hệ số góc), thể hiện ảnh hưởng của riêng từng biến độc lập X; lên trung bình của Y khi các biến khác được giữ không đổi
Cụ thể, khi X; tăng hoặc giảm I don vi, trong dia kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thay đổi L1, đơn vị Có thể nhận thấy ba khả năng có thể xảy ra đối với các hệ số góc:
Oo Hé s& Oj; > 0: khi đó mối quan hệ giữa Y và X; là thuận chi lô, nghĩa là khi X; tăng (hoặc giảm) trong đi `âi kiện các biến độc lập khác không đổi thì Y cũng sẽ tăng (hoặc giảm)
Oo Hé s& Oj < 0: khi d6 mdi quan hệ giữa Y và X; là ngược chi âi, nghĩa là khi X; tăng (hoặc giảm) trong đi lâi kiện các biến độc lập khác không đổi thì Y sẽ giảm (hoặc tăng)
oO Hé s& Oj = 0: c6 thé cho rang giita Y vA X; khéng có tương quan với nhau, cụ thể là Y có thể không phụ thuộc vào X; hay là X; không thực sự ảnh hưởng tới Y.
Trang 10Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối
Dù mô hình có nhi âi biến độc lập nhưng vẫn tần tại những yêu tố tác động đến biến phụ thuộc nhưng không đưa vào mô hình vì nhi'âi lý do (không có số liệu hoặc không muốn đưa vào) Do đó trong mô hình vẫn tần tại sai số ngẫu nhiên đại diện cho các yếu tố khác ngoài các biến X; (J = 2,3, L1,k) có tác động đến Y nhưng không đưa vào
mồ hình như là biến số
2 Các giả thiết của mô hình h'õ quy bội
Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên
Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (Xz¡,Xa¡., Xu) bằng 0:
đó, giả thiết 4 được đưa ra để loại trừ tình huống này
3 Phương pháp ước lượng mô hình hỗ quy bội — Phương pháp bình phương nhỏ nhất (OLS)
Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số h`ổ quy trong mô hình, vấn đ tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậy cho các hệ số L], này Cũng như với mô hình hồ quy hai biến, ta sẽ sử dụng phương pháp bình phương nhỏ nhất (OLS) để ước lượng các hệ số trong mô hình h`ổ quy k biến
Giả sử có một mẫu quan sát với giá trị thre té1a (Yi, Xo, ., Xu) VOi (i = 1,2, ., n)
Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số L],(J = 1, 2, „ K), ký hiệu là ¡ (j = 1,2, , k) Từ các giá trị ước lượng này có thể viết thành hàm h'ö quy mẫu như sau:
= 1+ 2X4 3X3t + Xx
Tại mỗi quan sát ¡, hàm h ` quy mẫu được viết thành:
¡i=I1†¿zÄÃ2¿i D‡Äzi + TU kẤu
Trang 11Trong đó ; là giá trị ước lượng cho và sai lệch giữa hai giá trị này được gọi là phần dư với cách tính:
Tương tự như mô hình h` quy hai biến, phương pháp OLS nhằm xác định các giá tri
;G=1,2, ,k) sao cho tổng bình phương các phần dư là bé nhất:
ye =>, -¥y - Sứ, -—-ô,X;, - — 8,X„)? = ƒ(Ô ô,› Ô,) —> Min
Khi đó, các giá trị = ¡ + › + s+ + „ sẽ là nghiệm của hệ ø ân k phương trình sau:
FB» Ba 5-9 Be) aS: (Y,- 8, - 8, X= -. B,X,,) =0
Với mô hình h'ổ quy bội (h'ổ quy k biến với k > 2), việc giải hệ phương trình để tìm các ước lượng hệ số ; (j = 1, 2, 3 k) sẽ trở nên khó khăn hơn so với mô hình h` quy 2 biến do đó ta sẽ có được các kết quả này với sự giúp của các phần m`ần thống kê
Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số h ỗ quy
Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phương pháp OLS
là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch Hay nói một cách khác, nếu giả thiết từ l đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốt nhất trong lớp các ước lượng tuyến tính không chệch
4 Đánh giá mức độ phù hợp của mô hình hổ quy bội
Khi đánh giá một mô hình dựa trên số liệu mẫu, nếu chỉ quan tâm đến các ước lượng
hệ số và độ lệch chuẩn của nó thì chưa đầ đủ Có một con số cũng góp ph3n không nhỏ khi đánh giá chất lượng mô hình đó là hệ số xác định
Trang 12Sau khi ước lượng được mô hình h'õ quy trong một khoảng tin cậy, ta muốn biết hàm h'ổ quy mẫu phù hợp với số liệu mẫu đến mức nào Có thể đánh giá đi `âi đó qua hệ số xác định bội Ký hiệu
Cách xác định hệ số xác định bội:
TSS =3 y¿ =Ê Œ,=Ÿ)”
i=] i=l ESS = >) 9; = > (¥,-Y)’
RSS => e? => (¥,-Y¥,)
TSS (total sum of square): T6ng bình phương độ lệch toàn ph %n
ESS (Explained sum of square): Tổng bình phương độ lệch ph hổ quy
RSS (Residual sum of square): Tổng bình phương ph dư
TSS = ESS + RSS Khi đó hệ số xác định bội của mô hình được xác định bởi công thức sau:
Ý nghĩa của hệ số xác định bội
Với mô hình h ` quy k biến, R” có ý nghĩa như sau:
RỶ là tỳ lệ (hay tỷ lệ ph3n trăm) sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình
Với đi `âi kiện 0 < R” < 1, ta có hai trường hợp đặc biệt đó là:
OR’ = 1 nghĩa là 100% sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình
H R” =0 nghĩa là các biến độc lập không giải thích được một chút nào đối với sự thay đổi của biến phụ thuộc
Rõ ràng, trong thực tế, khi xem xét các mối quan hệ giữa các biến thông qua các mô hình h quy thì R? thưởng nằm trong khoảng (0,1) nhi âi hơn
Trang 13Một tính chất quan trọng của RŸ là nó sẽ tăng khi ta đưa thêm biến độc lập vào mô hình Dễ dàng thấy rằng TSS không phụ thuộc vào số biến giải thích trong mô hình nhưng RSS lại giảm Do đó, nếu tăng số biến biến độc lập trong mô hình thì R? cũng tăng Như vậy, việc đưa thêm một biến số bất kỳ vào mô hình nói chung sẽ làm gia tăng R”, không kể nó có giúp giải thích thêm cho biến phụ thuộc hay không Đi ôi này ngụ ý rằng R? chưa phải là thước đo tốt khi muốn so sánh các mô hình với số biến khác nhau
Để giải quyết vấn đ thiếu sót này, ta xem xét khái niệm R” hiệu chỉnh, ký hiệu là ? và được định nghĩa như sau:
Trang 14CHƯƠNG 2: XỬ LÝ SỐ LIỆU
1 Đọc dữ liệu (Import Data): house_price.csv
- Doc dt liéu "house_price.csv"
Hình 1: code R và kết quả khi đọc dữ liệu và xem 6 dòng đi tiên của dữ liệu
house price <- read.csv( "~/Desktop/BTL HK211/Data/house price.csv")
## X.2 X.1K id date price bedrooms bathrooms sqft_living
Hình 2: code R và kết quả khi tạo một dữ liệu mới chỉ bao ø `ăm các biến chính
new DF <- house price[,c(”price”,"£loors”, "condition",*“view", "sgft above”,"sqgft living”,"sqft basement" ) J
Trang 15- _ Kiểm tra dữ liệu khuyết trong new_DF
Hình 3: code R và kết quả khi kiểm tra dữ liệu khuyết trong new_ DF
living sqft_basement
sqft_above 0.000000000
Hình 4: code R khi thay thế giá trị trung bình ở các quan sát còn lại của biến price tại
vị trí chứa dữ liệu khuyết
Trang 16- _ Kiểm tra lại xem còn dữ liệu khuyết hay không
Hình 5: code R và kết quả khi kiểm tra lại dữ liệu khuyết hay không
apply(is.na(new_DF),2,which)
Nhận xét: Ta nhận thấy sau khi xử lý, không còn dữ liệu khuyết
3 Làm rõ dữ liệu (Data Visualization)
- Tao médt data moi tén la new_DF2 (g ôn các biến như new_ DF đã làm sạch dữ liệu) và chuyển đổi các biến price, sqft_above, sqft_living, sqft_basement | % luot thành log(price+ 1), log(sqft_above+ 1), log(sqft_living+1) va log(sqft_basement+ 1) Hình 6: code R và kết quả khi chuyển đổi các biến sang dạng log(x+1)
- Giai thich ly do chuyén sang dang log(x+1):
Cải thiện sự phù hợp của mô hình: giả định khi ta xây dựng mô hình hổ quy thì các sai số h`õ quy (ph ầì dư) phải có phân phối chuẩn, do đó trong trưởng hợp sai số
hö quy (phần dư) không có phân phối chuẩn thì việc lấy log của của một biến giúp thay đổi tỉ lệ và làm cho biến đó có phân phối chuẩn Ngoài ra, trong trường hợp phẦn
dư (phương sai thay đổi) do các biến độc lập gây ra, ta cũng có thể chuyển đổi các biến đó sang dạng log
Diễn giải: đây là lý do giúp ta có thể diễn giải mối quan hệ giữa 2 biến thuận tiện hơn Nếu ta lấy log của biến phụ thuộc Y và biến độc lập X, khi đó hệ số h'ö quy § sẽ
là hệ số co giãn và diễn giải sẽ như sau: X tăng 1% sẽ dẫn đến tăng việc ta sẽ kỳ vọng
Y tăng lên j4 (v`êmặt trung bình của Y),
Ước lượng mô hình phi tuyến: việc lấy log cho phép ta ước lượng các mô hình này bằng hổ quy tuyến tính
Trang 17Ngoài ra, việc chuyển sang dạng log(x+1) thay vì log(x) bởi do trong biến sqft_basement có nhi ôi giá trị = 0 (do một số ngôi nhà không có t ng hân) Nếu chuyển sang dang log thì sẽ nhận được các giá trị infty Do đó ta sẽ chuyển các biến sang log(x+1) thay vi log(x)
- Tính các giá trị thống kê mô tả (trung bình, độ lệch chuẩn, min, max, trung vị)
cho cac biéh price, sqft_above, sqft_living, sqft_basement Xuất kết quả dưới dạng
- Tính các giá trị thống kê mô tả (trung bình, độ lệch chuẩn, min, max, trung vị)
cho các biến price, sqft_above, sqft_living, sqft_basement d4 chuyén sang dang
log(x+1) Xuất kết quả dưới dạng bảng
Hình 8: code R và két qua khi tinh cac bién price, sqft_above, sqft_living,
sdft_basement đã chuyển sang dang log(x+1)
Trang 18Hình 9: code R và kết quả khi vẽ biểu đ ôhistogram thể hiện phân phối của biến price
có hình dạng phân phối chuẩn
- _ Vẽ biểu đ `ôboxplot thể hiện phân phối của biến price và log(price+ l) theo từng phân loại của biến ñoors.
Trang 19Hình 11: code R và kết quả khi vẽ biểu đ`ôboxplot thể hiện phân phối của biến price theo từng phân loại của biến floors
Boxplot of price for floors
Trang 20Hình 12: code R và kết quả khi vẽ biểu đ 'ôboxplot thể hiện phân phối của biến log(price+ 1) theo từng phân loại của biến floors
Trang 21Hình 14: code R và kết quả khi vẽ biểu đ 'ôboxplot thể hiện phân phối của biến log(price+ 1) theo từng phân loại của biến condition
Boxplot of log(price+1) for condition
Boxplot of price for view
Trang 22Hình 16: code R và kết quả khi vẽ biểu đ 'ôboxplot thể hiện phân phối của biến log(price+ 1) theo từng phân loại của biến view
boxplot (price-view,new_DF2,main="Boxplot of log(pricetl) for view",col=c(2,3,4,5,6)) #
Boxplot of log(price+1) for view
plot (new _DF2[,"sqft_ebove"],new DP2{, "price" ],xlab="log(sqft_abovetl)",ylab="log(pricetl)",main="log(pricetl) and
log(sqft_above+1)",cex.main=0.8,col=4) t8 thi phan té hé bi sha y(pri I 2 11 ft a
price and sqft_above log(priee+1) and Iog(sqft_above+1)
Trang 23Nhận xét: Dựa trên đ ôthị phân tán của price và sqft_above, ta chưa nhận thấy thấy rõ mối quan hệ tuyến tính giữa 2 biến Tuy nhiên với đ ồthị phân tán của log(price + 1)
và log(sqft_above + 1) ta nhận thấy rõ hơn v`êmối quan hệ tuyến tính giữa 2 biến này (cụ thể là quan hệ đ ng biến)
- _ Vẽ biểu đ `ôphân tán thể hiện phân phối của biến price theo bién sqft_living trước và sau khi chuyển sang dang và log(x+1)
Hình 18: code R và kết quả khi vẽ biểu đ 'ôphân tán thể hiện phân phối của biến price theo biến sqft_living trước và sau khi chuyển sang dang và log(x+1)
- _ Vẽ biểu đ `ôphân tán thể hiện phân phối của biến price theo biến
sdft_basement trước và sau khi chuyển sang log(x+1)
Trang 24Hình 19: code R va kết quả khi vẽ biểu đ 'ôphân tán thể hiện phân phối của biến price theo biến sqft_basement trước và sau khi chuyển sang dạng va log(x+1)
Tóm lại, dựa trên các đ `ôthi trên, ta nhận thấy việc chuyển đổi các biến sang dạng log(x+ 1) sẽ hiệu quả hơn trong việc phân tích mối quan hệ tuyến tính giữa các biến độc lập với biến phụ thuộc (giá nhà)
Câu hỏi đặt ra lúc này là mối quan hệ giữa các biến với giá nhà là ngẫu nhiên hay thực
sự có mối quan hệ tuyến tính giữa các biến với giá nhà Mô hình hổ quy tuyến tính sẽ giúp ta kiểm tra đi ôi này thông qua các khoảng tin cậy và các phép kiểm định Hơn nữa, nó còn cho phép ta ước lượng giá trị của biến phụ thuộc (giá nhà) theo các biến độc lập (số tầng, đi âi kiện ngôi nhà, diện tích nhà, )
4 Xây dựng mô hình hố quy tuyến tính
24