TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP ĐỊNH GIÁ BẤT ĐỘNG SẢN
Khái quát về thị trường bất động sản
1.1.1 Khái niệm bất động sản
Theo Điều 107 Bộ luật Dân sự Việt Nam năm 2015: [2]
Bất động sản bao gồm các thành phần chính như đất đai, nhà và công trình xây dựng gắn liền với đất, cùng với các tài sản khác liên quan đến đất đai và công trình Ngoài ra, còn có những tài sản khác được quy định theo pháp luật.
1.1.2 Định nghĩa thị trường bất động sản
Thị trường là không gian nơi hàng hóa được trao đổi và lưu thông, đồng thời thể hiện mối quan hệ kinh tế giữa các cá nhân tham gia, kết nối với nhau thông qua hoạt động mua bán hàng hóa.
Thị trường bất động sản là không gian giao dịch giữa người mua và người bán, nơi họ có thể thực hiện các giao dịch mua bán tại cùng một địa điểm, qua các kênh liên lạc khác nhau hoặc thông qua bên trung gian Qua đó, giá cả bất động sản được hình thành.
1.1.3 Lịch sử các giai đoạn phát triển của thị trường bất động sản
Thị trường bất động sản Việt Nam hình thành từ năm 1993 sau khi Quốc hội thông qua Luật Đất đai và Pháp lệnh Nhà ở, tạo ra khung pháp lý cho quyền sử dụng đất và sở hữu nhà Cơn sốt đầu tiên diễn ra ngay sau đó, khi Luật Đất đai cho phép chuyển nhượng quyền sử dụng đất dễ dàng, thúc đẩy tăng trưởng kinh tế và làm tăng giá nhà đất Giai đoạn 2001-2003 chứng kiến cơn sốt đất lần thứ hai, tập trung vào nhà mặt tiền và đất dự án, với sự gia tăng đầu cơ mạnh mẽ Tuy nhiên, mặc dù giao dịch mua bán sôi động, không có công trình hay nhà ở nào được xây dựng, cho thấy đây là cơn sốt từ nhu cầu ảo Từ cuối 2003, thị trường bất động sản trở nên trầm lắng, năm sau lạnh hơn năm trước, nhưng giá không giảm mạnh do nguồn vốn chủ yếu từ tiền nhàn rỗi của tư nhân.
Bảng giá đất năm 2005 được điều chỉnh gần sát với giá thực tế, dẫn đến chi phí đền bù giải tỏa tăng cao, gây khó khăn cho các dự án bất động sản (BĐS) Sau khi Việt Nam gia nhập WTO năm 2007, thị trường BĐS bùng nổ, đặc biệt ở phân khúc căn hộ cao cấp và biệt thự, nhưng giai đoạn 2009-2013 chứng kiến sự suy thoái do khủng hoảng kinh tế toàn cầu, làm giá nhà đất giảm mạnh Năm 2014, sự ra đời của Luật kinh doanh BĐS và Luật Nhà ở đã giúp nền kinh tế ổn định trở lại, với GDP tăng và lạm phát được kiểm soát Đến năm 2018, thị trường BĐS ghi nhận đợt sốt đất tại nhiều khu vực, nhưng đầu năm 2019, cơn sốt nhanh chóng lắng xuống, dẫn đến sự sụt giảm về nguồn cung và giao dịch Năm 2020, đại dịch Covid-19 tác động mạnh mẽ đến nền kinh tế và thị trường BĐS, khiến nguồn cung khan hiếm và giao dịch giảm sút, tuy nhiên xu hướng tăng trưởng của thị trường BĐS vẫn song hành với sự phát triển của nền kinh tế, chịu ảnh hưởng từ các chính sách, pháp luật và phát triển hạ tầng.
Các yếu tố ảnh hưởng đến giá bất động sản
Giá trị bất động sản nhà ở và bất động sản nói chung chủ yếu phụ thuộc vào mối quan hệ cung cầu trên thị trường Khi cầu vượt quá cung, giá trị bất động sản sẽ tăng lên và ngược lại Ngoài tỷ lệ cung cầu, giá trị bất động sản còn bị ảnh hưởng bởi nhiều yếu tố khác như tình hình kinh tế vĩ mô, các yếu tố thị trường và các yếu tố bên ngoài khác.
Xét về nhân tố ảnh hưởng đến giá bất động sản, thường chia thành 3 nhóm như sau:
Các yếu tố ảnh hưởng trực tiếp
Vị trí là yếu tố quan trọng nhất ảnh hưởng đến giá trị bất động sản, được đánh giá qua hai khía cạnh: vị trí tương đối và vị trí tuyệt đối Vị trí tương đối xem xét sự gần gũi với trung tâm thành phố, cơ sở y tế, địa điểm giải trí và khu mua sắm, trong khi vị trí tuyệt đối đánh giá sự tiếp cận với các trục đường giao thông lớn hoặc các điểm ngã 3, ngã 4 Những bất động sản nằm ở khu vực trung tâm hoặc tại các ngã 3, ngã 4 sẽ có giá trị cao hơn so với những bất động sản ở vị trí khác.
Khi ước tính giá trị thị trường của bất động sản (BĐS), kích thước và không gian sống là những yếu tố quan trọng cần xem xét Kích thước lớn hơn thường dẫn đến định giá cao hơn, trong khi không gian sống, đặc biệt là số lượng phòng ngủ và phòng tắm, cũng ảnh hưởng đáng kể đến giá trị của ngôi nhà Ngoài ra, địa hình cũng đóng vai trò quan trọng; BĐS nằm trên địa hình cao ráo thường có giá trị hơn so với những khu vực thấp hoặc trũng, nơi dễ bị ngập úng trong những ngày mưa.
Môi trường xung quanh: không khí xung quanh trong lành hay ô nhiễm, yên tĩnh hay ồn ào cũng là yếu tố ảnh hưởng đến giá BĐS
Các vùng có nguy cơ cao về thiên tai như bão, lũ, hạn hán và động đất thường có giá bất động sản thấp hơn so với những khu vực an toàn hơn.
Yếu tố kinh tế đóng vai trò quan trọng trong việc quyết định giá trị bất động sản, khi khả năng thu lợi trong tương lai ảnh hưởng trực tiếp đến giao dịch hiện tại Giá trị lợi nhuận càng cao thì giá bất động sản cũng tăng tương ứng, và ngược lại Hơn nữa, sự gia tăng nguồn đầu tư vào thị trường bất động sản sẽ dẫn đến sự tăng giá của các tài sản này.
Yếu tố thị trường đóng vai trò quan trọng trong việc xác định giá trị bất động sản (BĐS), bao gồm tính hữu dụng và nhu cầu của thị trường Dù BĐS có vị trí đắc địa, tiện ích ổn định và địa hình thuận lợi, nhưng số lượng BĐS được rao bán và số lượng người mua trong khu vực vẫn có thể ảnh hưởng đến giá trị của nó Khi có nhiều người mua cạnh tranh trong một thị trường khan hiếm BĐS, giá trị sẽ tăng cao, ngược lại, nếu thị trường dư thừa BĐS, giá trị sẽ giảm.
Các yếu tố pháp lý
Tình trạng pháp lý của bất động sản (BĐS) bao gồm các giấy tờ và thủ tục liên quan đến quyền sở hữu, như giấy chứng nhận quyền sử dụng đất, giấy phép kinh doanh và giấy phép xây dựng Việc thiếu giấy tờ pháp lý rõ ràng sẽ gây khó khăn trong việc giao dịch BĐS trên thị trường.
Các quy định về xây dựng: một số hạn chế liên quan đến quyền sở hữu làm cho việc mua bán trở nên khó khăn hơn
Các yếu tố bên ngoài
Chính trị pháp lý đang trải qua sự đổi mới với các quy định và chính sách của Nhà nước, điều này ảnh hưởng trực tiếp đến thị trường bất động sản Cụ thể, các hoạt động khuyến khích đầu tư nước ngoài đã làm gia tăng nhu cầu, từ đó dẫn đến sự tăng giá trên thị trường.
Kinh tế vĩ mô ảnh hưởng lớn đến giá trị bất động sản, bao gồm các yếu tố như điều kiện thị trường BĐS, mức tăng trưởng thu nhập bình quân đầu người hàng năm và tỷ lệ thuế suất Các khu vực được định hướng hoặc thúc đẩy đầu tư phát triển thường có giá trị BĐS cao hơn Khi mức thu nhập bình quân của người dân trong khu vực tăng, dòng tiền đầu tư vào BĐS cũng sẽ gia tăng Hơn nữa, tỷ lệ thuế suất ưu đãi có thể thu hút nhiều nguồn đầu tư, góp phần thúc đẩy sự phát triển của thị trường bất động sản.
Yếu tố xã hội đóng vai trò quan trọng trong thị trường bất động sản, bao gồm mật độ dân cư, giáo dục, an ninh và chất lượng y tế Khu vực có mật độ dân số cao thường dẫn đến nhu cầu bất động sản tăng cao Đặc biệt, người mua bất động sản nhà ở và chung cư rất quan tâm đến hệ thống giáo dục, y tế và an ninh trong khu vực.
Thẩm định giá bất động sản
Theo Luật Giá năm 2013, thẩm định giá là quá trình xác định giá trị tiền tệ của tài sản bởi cơ quan, tổ chức có chức năng thẩm định, phù hợp với giá thị trường tại một thời điểm và địa điểm cụ thể, nhằm phục vụ cho các mục đích nhất định theo tiêu chuẩn thẩm định giá.
Thẩm định giá bất động sản là quá trình ước tính giá trị quyền sở hữu bất động sản đang được giao dịch trên thị trường tại thời điểm thẩm định Giá trị này được xác định dựa trên các phương pháp quy định trong tiêu chuẩn thẩm định giá Việt Nam hoặc theo thông lệ quốc tế, trong bối cảnh của một thị trường cụ thể.
Nhiệm vụ của thẩm định bất động sản là cung cấp ước tính giá trị thị trường chính xác cho bất động sản Độ chính xác của định giá được đánh giá qua việc so sánh ước tính với giá thực tế khi bất động sản được giao dịch trên thị trường Hoạt động thẩm định giá BĐS rất cần thiết cho sự vận hành của thị trường, đóng vai trò quan trọng đối với nhà nước, tổ chức và cá nhân trong các giao dịch mua bán, đầu tư, sở hữu, chuyển đổi, cho thuê, cầm cố, bảo hiểm và kinh doanh tài sản.
Việc đánh giá chính xác bất động sản là rất quan trọng trong nền kinh tế, ảnh hưởng đến tất cả các bên liên quan trong thị trường bất động sản.
Thẩm định viên là những chuyên gia được cấp chứng chỉ hành nghề trong lĩnh vực thẩm định giá, cung cấp dịch vụ tư vấn định giá bất động sản cho khách hàng có nhu cầu.
Các công ty thẩm định bất động sản, những người yêu cầu, tiêu chuẩn hóa và xác minh công việc của các thẩm định viên;
Các tổ chức tài chính cần thực hiện định giá bất động sản một cách hợp lý trước khi cấp tín dụng thế chấp hoặc định giá tài sản trong danh mục đầu tư, đặc biệt trong bối cảnh quản lý nợ xấu.
Công chứng viên và luật sư cần xác minh giá trị bất động sản trước khi đảm bảo tính hợp lệ của các giao dịch công khai, chẳng hạn như chứng từ thu mua hoặc xử lý các vấn đề thừa kế.
Chủ nhà và người mua, các đại lý bất động sản, muốn đánh giá giá trị thị trường hợp lý của một bất động sản
Tùy thuộc vào nhu cầu và mục đích định giá bất động sản, cách tiếp cận thông tin và quy trình thẩm định giá sẽ khác nhau Đối với người mua và người bán, việc xác định giá cần dựa trên các yếu tố như vị trí, tình trạng tài sản và xu hướng thị trường để đưa ra quyết định chính xác.
Thông tin trên thị trường bất động sản hiện nay dường như phong phú nhưng thường chứa nhiều dữ liệu nhiễu và thiếu sót Việc thiếu dữ liệu ở các khu vực không phổ biến cùng với sự đa dạng về loại hình bất động sản gây khó khăn cho cả người mua và người bán trong việc tìm kiếm lựa chọn phù hợp, kéo dài thời gian giao dịch, đặc biệt là với những người lần đầu tham gia Hiện nay, nhiều người tìm đến các chuyên gia bất động sản, nhà môi giới, hoặc tìm kiếm thông tin trên internet, nhưng các phương pháp này đòi hỏi nhiều thời gian, kỹ năng và khó khăn trong việc thẩm định độ tin cậy của thông tin.
Bất động sản là tài sản có giá trị lớn, thường được sử dụng làm tài sản thế chấp cho các khoản vay Ngân hàng yêu cầu thẩm định và chứng nhận tài sản trước khi cấp vay, nhằm giảm nguy cơ mất tiền Họ không cho vay quá tỷ lệ an toàn, tránh trường hợp người vay mất khả năng thanh toán Nếu tài sản bị tịch thu, ngân hàng sẽ bán để thu hồi vốn, nhưng nếu giá trị tài sản thấp hơn số tiền cho vay, họ sẽ chịu thiệt hại Các công ty thẩm định giá cung cấp dịch vụ thẩm định cho bất động sản, yêu cầu người thẩm định phải có kiến thức chuyên môn và tuân thủ quy định của nhà nước.
Để thực hiện thẩm định giá bất động sản (BĐS), cả người mua và người bán đều cần có kiến thức chuyên môn và thời gian nghiên cứu thị trường Hiện nay, tại Việt Nam, thẩm định giá BĐS chủ yếu áp dụng các phương pháp truyền thống theo tiêu chuẩn thẩm định Trong khi đó, nhiều quốc gia khác đã ứng dụng phương pháp học máy trong thẩm định giá BĐS, với nhiều nghiên cứu đáng chú ý về lĩnh vực này.
1.3.1 Phương pháp thẩm định bất động sản truyền thống
Có nhiều phương pháp thẩm định bất động sản, nhưng quy trình định giá thường dựa vào một số phương pháp phổ biến.
1.3.1.1 Phương pháp so sánh trực tiếp
Phương pháp định giá bất động sản dựa trên so sánh giá của các giao dịch đã thực hiện, cho phép xác định giá trị của bất động sản tương ứng với giá đã trả cho bất động sản tương tự trước đó Thẩm định viên cần thực hiện các điều chỉnh cần thiết do sự khác biệt giữa các bất động sản, như số lượng phòng, số tầng và vị trí, vì hiếm khi có hai bất động sản giống hệt nhau Ngoài ra, giá trị bất động sản cũng thay đổi theo thời gian Phương pháp này đặc biệt hiệu quả trong việc định giá đất trống, bất động sản để ở hoặc các loại hình bất động sản đồng nhất như chung cư, căn hộ và mặt bằng cho thuê.
Phương pháp này rất đơn giản và dễ áp dụng, không cần công thức phức tạp, mà chủ yếu dựa vào việc so sánh với các giao dịch đã diễn ra trên thị trường.
Phương pháp so sánh gặp thách thức lớn do sự phụ thuộc vào dữ liệu sẵn có Khi dữ liệu về giao dịch mua bán bất động sản bị hạn chế hoặc không có, độ chính xác của phương pháp này sẽ bị ảnh hưởng nghiêm trọng.
Phạm vi và phương pháp nghiên cứu
Trong nghiên cứu này, khóa luận sẽ tập trung vào việc dự đoán giá bất động sản nhà ở tại thành phố Hà Nội, nhằm cung cấp cái nhìn sâu sắc về thị trường bất động sản trong khu vực này.
Trong nghiên cứu này, chúng tôi áp dụng phương pháp nghiên cứu lý thuyết với một số mô hình thống kê, bao gồm hồi quy tuyến tính bội, hồi quy Ridge và hồi quy vector hỗ trợ Đồng thời, chúng tôi cũng thực hiện các thí nghiệm mô hình trên nền tảng Google Colab để đánh giá hiệu quả của các phương pháp này.
CƠ SỞ LÝ THUYẾT CỦA MỘT SỐ PHƯƠNG PHÁP HỌC MÁY DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN
Sơ lược về mô hình hồi quy
Phân tích hồi quy là một phương pháp học máy cho phép dự đoán một biến kết quả liên tục (y) dựa trên giá trị của nhiều biến dự báo (x) Hồi quy giúp điều tra mối quan hệ giữa các biến độc lập và một biến phụ thuộc, và được sử dụng để mô hình hóa dự đoán trong học máy thông qua các thuật toán nhằm dự đoán kết quả liên tục.
2.1.2 Ứng dụng của mô hình hồi quy
Các mô hình hồi quy trong học máy chủ yếu được áp dụng để phân tích dự đoán, giúp dự báo xu hướng và kết quả Chúng được đào tạo để nắm bắt mối quan hệ giữa các biến độc lập và kết quả cuối cùng.
Một số ứng dụng phổ biến cho các mô hình hồi quy bao gồm:
Dự báo kết quả liên tục như giá nhà, giá cổ phiếu hoặc doanh số
Dự đoán sự thành công của các chiến dịch tiếp thị hoặc bán lẻ trong tương lai để đảm bảo tài nguyên được sử dụng hiệu quả
Dự đoán xu hướng khách hàng hoặc người dùng, chẳng hạn như trên các dịch vụ phát trực tuyến hoặc trang web thương mại điện tử
Phân tích các bộ dữ liệu để thiết lập mối quan hệ giữa các biến và đầu ra
Dự đoán lãi suất hoặc giá cổ phiếu từ nhiều yếu tố khác nhau
2.2 Tổng quan về thuật toán hồi quy tuyến tính đơn giản
Hồi quy tuyến tính đơn giản là một phương pháp thống kê sử dụng một biến độc lập duy nhất để dự đoán biến phụ thuộc Phương pháp này cho phép chúng ta hiểu mối quan hệ giữa biến giải thích và biến kết quả, từ đó đưa ra những dự báo chính xác hơn.
Phương trình hồi quy tuyến tính đơn giản
Phương trình hồi quy tuyến tính đơn giản sử dụng hai biến liên tục: biến độc lập trên trục hoành x và biến phụ thuộc trên trục tung y Từ đó, ta có một phương trình đường thẳng đi qua các điểm trên mặt phẳng tọa độ, cho phép tính giá trị của y tương ứng với mỗi giá trị của x theo công thức tổng quát.
α là chặn, điểm cắt trên trụng tung khi hệ số x=0
2.2.2 Mô hình hồi quy tuyến tính đơn giản
Khi so sánh giá trị thực tế và giá trị dự báo, sẽ xuất hiện sự chênh lệch do sai số, và mô hình hồi quy tuyến tính giúp chúng ta nhận diện sai số này Mô hình hồi quy tuyến tính đơn giản được biểu diễn bằng công thức: y = β + βx + ε.
yi: biến phụ thuộc (biến kết quả)
xi: biến độc lập (biến giải thích)
Ԑi: phần dư là phần chênh lệch giữa giá trị thực tế yi và giá trị dự báo 𝑦
β0: hệ số chặn của mô hình hồi quy
β1: hệ số góc của biến xi
Trong thống kê, phần dư (residual hoặc errors) là sự chênh lệch giữa giá trị dự báo và giá trị thực tế Cụ thể, nếu yi là trị số thực tế và y’i là trị số dự đoán, thì phần dư được tính bằng cách lấy giá trị thực tế trừ đi giá trị dự đoán.
Lúc này ta có: Ԑi = yi - y ’ i
Mục tiêu của bài toán là xác định mô hình hồi quy tổng thể dưới dạng y = β1 + β2x + Ԑ, trong đó cần tìm hai tham số β1 và β2 Do thường thiếu thông tin về tổng thể, chúng ta sẽ thực hiện bước trung gian bằng cách lấy mẫu và áp dụng phương pháp bình phương tối thiểu để xác định hai hệ số 𝛽 và 𝛽.
Phương pháp bình phương tối thiểu (OLS)
Phương pháp OLS (Ordinary Least Squares) là kỹ thuật phổ biến nhất để ước lượng các tham số trong mô hình hồi quy Phương pháp này nhằm tối thiểu hóa tổng bình phương của các khoảng cách thẳng đứng giữa dữ liệu thực tế và đường hồi quy Cụ thể, OLS được thực hiện dựa trên tiêu chí rằng tổng bình phương của các phần dư phải đạt giá trị nhỏ nhất.
Ta có tổng bình phương phần dư: ∑ 𝑒 → 𝑀𝑖𝑛
Hiện tại, ∑ 𝑒 là một hàm phụ thuộc vào hai biến 𝛽 và 𝛽 Phương trình (1) chuyển thành bài toán tối ưu hóa cho hàm hai biến, với mục tiêu là xác định giá trị của 𝛽 và 𝛽 sao cho thỏa mãn điều kiện trong (1).
Khi thực hiện đạo hàm của 𝛽 , 𝛽 ta sẽ tính được giá trị của 𝛽 , 𝛽 như sau:
Tổng quan về thuật toán hồi quy tuyến tính bội
Hồi quy tuyến tính bội là phương pháp dùng để phân tích mối quan hệ giữa nhiều biến độc lập và một biến phụ thuộc Trong mô hình này, biến phụ thuộc được xác định như một hàm của các biến độc lập với các hệ số tương ứng Để áp dụng phương pháp này, cần có ít nhất hai biến dự đoán, chính vì vậy nó được gọi là hồi quy tuyến tính bội.
Phương pháp hồi quy tuyến tính bội mở rộng từ hồi quy tuyến tính đơn giản, cho phép phân tích mối quan hệ giữa một biến phụ thuộc và nhiều biến độc lập.
Mô hình hồi quy bội với biến kết quả Y và k biến độc lập X được viết dưới dạng như sau:
𝑌 = 𝛽 + 𝛽 𝑋 + 𝛽 𝑋 + 𝛽 𝑋 + ⋯ + 𝛽 𝑋 + 𝑒, i=1, ,n (1) Giải thích các tham số mô hình:
Hệ số βj (j=2,3,4,…,k) thể hiện sự thay đổi của biến Y khi một đơn vị trong biến độc lập Xj thay đổi, trong khi các biến độc lập khác được giữ cố định Cụ thể, β2 cho thấy sự biến đổi của Y khi X2 tăng, trong khi các biến X3, X4, , Xk không thay đổi.
- Hệ số chặn β1 đại điện cho trung bình Y khi tất cả các biến độc lập X2 , X3 , ,
Xk đều bằng 0, hệ số này sẽ cho thấy được mức độ ảnh hưởng của yếu tố khác đến chỉ tiêu phân tích
- ei là sai số ngẫu nhiên thể hiện sự sai lệch giữa giá trị thực tế Yi với giá trị ước lượng được 𝑌
Mô hình hồi quy dưới dạng ma trận:
Hàm hồi quy tổng thể với n quan sát (Xi, Xi2, Xi3, …, Xik) biểu diễn dưới dạng ma trận như sau:
1 𝑋 … 𝑋 Khi đó hàm hồi quy tổng thể có thể được viết gọn lại là:
Giống như trong mô hình hồi quy tuyến tính đơn giản, phương pháp OLS cũng được sử dụng để ước lượng các tham số trong mô hình hồi quy tuyến tính bội.
Hàm hồi quy mẫu của hồi quy tuyến tính bội được thể hiện qua phương trình dưới đây:
𝑌 = 𝛽 + 𝛽 𝑋 + ⋯ + 𝛽 𝑋 + 𝑒 Trong đó 𝛽 , 𝑖 = (1,2,3, … , 𝑛) là ước lượng của β Áp dụng phương pháp OLS ta cần phải tìm 𝛽 (𝑗 = 1,2,3, … ) sao cho tổng các sai lệch ∑ 𝑒 đạt giá trị nhỏ nhất
Kết quả của phương pháp giải tích cho thấy ước lượng hệ số β thoả mãn phương trình ma trận sau:
X’ và Y’ là ma trận chuyển vị của X và Y, trong đó hàng và cột được thay thế cho nhau Bằng cách chuyển vế phương trình ma trận, ta có thể tính toán hệ số β một cách chính xác.
Đa cộng tuyến trong mô hình hồi quy tuyến tính bội xảy ra khi có mối quan hệ tuyến tính giữa các biến độc lập Phương pháp OLS yêu cầu rằng các biến độc lập không có hiện tượng đa cộng tuyến Do đó, khi áp dụng hồi quy tuyến tính bội, cần kiểm tra xem giả định này có được thỏa mãn hay không.
Xét mô hình hồi quy tuyến tính đa bội (1) , nếu tồn tại các tham số λ2, λ3, …, λk không đồng thời bằng 0 sao cho:
→ Lúc này ta nói mô hình có đa cộng tuyến hoàn hảo
Nếu tồn tại các tham số λ2, λ3, …, λk không đồng thời bằng 0 sao cho:
𝜆 𝑋 + 𝜆 𝑋 + ⋯ + 𝜆 𝑋 + 𝑉 = 0, Vi là nhiễu ngẫu nhiên
→ Mô hình có xảy ra đa cộng tuyến
Hình 1 minh họa sự khác biệt giữa mô hình hồi quy không có và có đa cộng tuyến Ở bên trái, mô hình hồi quy không gặp phải vấn đề đa cộng tuyến, trong khi bên phải cho thấy sự tồn tại của đa cộng tuyến giữa hai biến độc lập X1 và X2.
Nguyên nhân của đa cộng tuyến:
Mẫu không có tính đại diện cao cho tổng thể do chỉ thu thập một bộ phận tập trung
Các biến giải thích cùng xu thế biến động: dữ liệu thời gian, khi các biến giải thích có cùng xu thế tăng hoặc giảm
Cách phát hiện đa cộng tuyến:
Bằng cách sử dụng hệ số phóng đại phương sai (VIF) ta có thể phát hiện ra đa cộng tuyến trong mô hình hồi quy tuyến tính
Công thức tính VIF như sau:
Trong đó, Rj 2 là hệ số xác định của mô hình hồi quy phụ Xj theo các biến độc lập khác
→ Nếu VIF lớn thì có đa cộng tuyến trong mô hình
→ Thông thường nếu VIF > 10 thì Xj có đa cộng tuyến cao với các biến độc lập khác trong mô hình
Để khắc phục vấn đề đa cộng tuyến, bạn có thể loại bỏ các biến độc lập gây ra hiện tượng này khỏi mô hình nếu chúng không có mối quan hệ với biến phụ thuộc Ngoài ra, việc sử dụng các mô hình học máy khác cũng là một giải pháp thay thế hiệu quả.
Tổng quan về thuật toán hồi quy Ridge
Hồi quy Ridge (RR) là phương pháp ước lượng hệ số trong các mô hình hồi quy bội khi các biến độc lập có mối tương quan cao, dẫn đến hiện tượng đa cộng tuyến Phương pháp này cũng giúp giải quyết vấn đề quá khớp, khi mô hình hoạt động tốt trên dữ liệu đào tạo nhưng không phù hợp với dữ liệu kiểm thử Bằng cách thêm một hệ số đại diện cho mức độ sai lệch, hồi quy Ridge giúp giảm thiểu các lỗi dự đoán trong mô hình.
Mô hình hồi quy Ridge cũng tương tự như bất kì mô hình hồi quy khác, có dạng tổng quát là:
Trong mô hình hồi quy tuyến tính, công thức 𝑌 = 𝑋𝐵 + 𝑒 được sử dụng để diễn tả mối quan hệ giữa biến phụ thuộc Y và các biến độc lập X Trong đó, B là các hệ số hồi quy được ước tính, và e là phần dư, đại diện cho các lỗi trong mô hình.
Để thực hiện hồi quy bằng phương pháp bình phương tối thiểu (OLS), yêu cầu cơ bản là nghịch đảo ma trận X’X Tuy nhiên, trong một số tình huống nhất định, (X’X) -1 có thể không tính được nếu ma trận X’X có thứ hạng không đủ, dẫn đến X’X = 0 Hồi quy Ridge giải quyết vấn đề này bằng cách điều chỉnh X’X để đảm bảo thứ hạng không bằng 0, từ đó đảm bảo rằng (X’X) -1 có thể được tính Trong hồi quy Ridge, tham số λ được thêm vào mô hình, đây là ý tưởng cốt lõi trong ước tính của Ridge, xuất phát từ việc tối ưu hoá bình phương nhỏ nhất Tham số λ được tích hợp trong phương trình hồi quy.
𝛽 = (𝑋 𝑋 + 𝜆𝐼) 𝑋′𝑌 , I là ma trận đơn vị
Phương trình này tương tự như công thức OLS để ước tính tham số hồi quy, nhưng có thêm tham số phạt λ vào ma trận X’X Tham số λ kiểm soát độ lớn của các hệ số hồi quy, giúp điều chỉnh sự co lại của các ước lượng Biểu thức ước lượng Ridge có thể được điều chỉnh để thể hiện mối quan hệ với công cụ ước tính OLS.
𝛽 = 𝑊 𝛽 Với 𝑊 = [𝐼 + 𝜆(𝑋 𝑋) ] , Ip là ma trận đơn vị thứ p
Khi sử dụng các giá trị tham số điều chỉnh λ, ước lượng β có xu hướng co rút về 0 Nếu λ bằng 0, không có sự co rút nào, và ước lượng trở về dạng OLS Ước lượng OLS là không chệch, tức là giá trị ước lượng của 𝛽 bằng với hệ số β Tuy nhiên, trong ước lượng Ridge, giá trị mong đợi của ước lượng β sẽ khác.
Trong bài viết này, chúng ta tìm hiểu về ước lượng E 𝛽 = E[𝑊 𝛽], trong đó E đại diện cho ước lượng Hoerl và Kennard đã chỉ ra rằng công cụ ước lượng Ridge tạo ra độ chênh lệch giữa giá trị dự đoán và giá trị thực tế khi λ > 0 Khi λ tăng, độ sai lệch (bias) của các ước lượng cũng gia tăng, nhưng đồng thời, giá trị λ cũng giúp giảm phương sai Tham số λ, được gọi là tham số điều chỉnh, cần được tối ưu hóa để đạt được sai số bình phương trung bình thấp nhất cho từng tình huống Phương pháp xác định siêu tham số được trình bày trong chương 3 có thể được sử dụng để tìm ra giá trị tối ưu cho λ.
Tổng quan về thuật toán hồi quy vectơ hỗ trợ
Học máy vectơ hỗ trợ (SVM) là một công cụ phổ biến trong phân loại và hồi quy, được phát triển bởi Vladimir Vapnik và các đồng nghiệp vào năm 1992 Hồi quy vectơ hỗ trợ (SVR) là một thuật toán thuộc SVM, được áp dụng để phân tích hồi quy SVM giải quyết các vấn đề phân loại nhị phân thông qua việc tối ưu hóa lồi, nhằm tìm ra biên độ tối đa giữa các siêu phẳng và phân loại chính xác nhiều điểm dữ liệu Với giải pháp thưa thớt và khả năng tổng quát tốt, SVM thích ứng linh hoạt với các vấn đề hồi quy Sự chuyển đổi từ SVM sang SVR được thực hiện thông qua việc bổ sung hàm mất mát Ԑ-insensitive, gọi là Ԑ-tube.
SVR được thiết kế như một bài toán tối ưu hóa nhằm xác định hàm mất mát Ԑ-insensitive với giá trị cực tiểu, đồng thời tìm kiếm ống phẳng nhất chứa hầu hết các điểm dữ liệu.
Cho tập dữ liệu đào tạo là {(𝑥 , 𝑦 )} , trong đó xi € R d là dữ liệu đầu vào, yi €
R là giá trị đầu ra của điểm dữ liệu thứ I trong tập dữ liệu, d đại diện cho số chiều của dữ liệu, và n là số lượng mẫu Phương trình hồi quy của SVR được diễn tả như sau:
Trong bài viết này, chúng ta xem xét hàm ánh xạ phi tuyến tính 𝜙(𝑥) từ không gian đặc trưng nhiều chiều, với w € R d và b là hằng số thiên vị Mục tiêu của Support Vector Regression (SVR) là xác định hai tham số w và b, được ước tính thông qua việc tối ưu hóa một hàm cụ thể.
Các biến bù ξ và ξ * được trích xuất từ hàm mất mát Ԑ-insensitive, được tích hợp vào phương trình số (2) nhằm xác định hệ số w và b thông qua việc tối thiểu hóa lỗi hồi quy Kết quả là chúng ta cần tối ưu hóa phương trình sau: [14]
Hằng số C > 0 đóng vai trò quan trọng trong việc xác định sự cân bằng giữa lề và lỗi trong các mô hình học máy Hình ảnh minh họa cho thấy siêu phẳng màu xanh trong không gian nhiều chiều, với khoảng cách từ siêu phẳng đến đường biên được gọi là lề Những điểm dữ liệu gần đường biên được xem là các vectơ hỗ trợ, góp phần quan trọng trong việc tối ưu hóa mô hình.
Hình 2: Tổn thất lề thiết đặt cho SVR
Sử dụng hàm Lagrange, phương trình hàm hồi quy của SVR được viết lại là:
Trong bài viết này, α1 và α1* đại diện cho các số nhân Lagrange khác 0, trong khi K(xi, x) là hàm kernel, được xác định là tích vô hướng của hai vector đặc trưng 𝜙(𝑥) Để đảm bảo tính chính xác, mỗi hàm kernel đối xứng cần tuân thủ định lý Mercer, điều này có nghĩa là tích của 𝜙(𝑥) phải nằm trong không gian đặc trưng tương ứng Một trong những hàm kernel phổ biến nhất được sử dụng hiện nay là hàm Gaussian.
𝐾 𝑥 , 𝑥 = exp (−𝛾 𝑥 − 𝑥 ) với γ là tham số độ rộng của hàm
Việc sử dụng hàm Ԑ-insensitive và hàm Gaussian yêu cầu xác định các tham số quan trọng như hằng số C, tham số γ của hàm Gaussian và độ rộng của ống Ԑ Lựa chọn các tham số này là rất quan trọng vì chúng ảnh hưởng trực tiếp đến độ chính xác của mô hình dự đoán Do đó, quá trình lựa chọn tham số cần phải được thực hiện một cách cẩn thận Bước tối ưu hóa tham số sẽ được thực hiện thông qua việc điều chỉnh siêu tham số sử dụng thư viện scikit-learn.
THỰC NGHIỆM VÀ ĐÁNH GIÁ MÔ HÌNH HỌC MÁY DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN NHÀ Ở TẠI HÀ NỘI
Môi trường và công cụ tiến hành
Ngôn ngữ lập trình: Python
Công cụ: Octoparse để thu thập dữ liệu từ trang web.
Xây dựng mô hình dự đoán giá bất động sản nhà ở
Việc triển khai mô hình học máy vào quy trình dự đoán giá bất động sản nhà ở bao gồm các bước sau:
Thu thập dữ liệu: dữ liệu BĐS nhà ở Hà Nội được thu thập trên trang web đăng tin rao bán bất động sản
Tiền xử lý dữ liệu là bước quan trọng trong việc làm sạch dữ liệu thô từ trang đăng tin Quá trình này bao gồm việc xử lý các giá trị khuyết thiếu và loại bỏ giá trị ngoại lai, nhằm giảm thiểu sai số cho mô hình.
Kiểm tra tính đa cộng tuyến giữa các biến độc lập là một bước quan trọng trong phân tích dữ liệu Khi xảy ra đa cộng tuyến, khoá luận sẽ thực hiện việc huấn luyện mô hình trong cả hai trường hợp: trước và sau khi loại bỏ biến đa cộng tuyến Qua đó, chúng ta có thể nhận thấy sự khác biệt rõ rệt về kết quả.
Huấn luyện mô hình bao gồm việc chia bộ dữ liệu thành hai phần: bộ dữ liệu đào tạo và bộ dữ liệu thử nghiệm Đối với những mô hình cần lựa chọn tham số đầu vào, trước khi tiến hành huấn luyện, cần xác định tham số tối ưu Sau đó, mô hình sẽ được chạy với bộ dữ liệu và tham số đầu vào đã được chọn lựa phù hợp.
Cuối cùng, chúng tôi sẽ so sánh và đánh giá các chỉ số cùng thời gian thực thi của từng mô hình, nhằm xác định mô hình nào hoạt động hiệu quả nhất trên bộ dữ liệu đã sử dụng.
Hình 3: Quy trình xây dựng mô hình dự đoán giá BĐS nhà ở 3.2.1 Thu thập dữ liệu từ trang web đăng tin bất động sản
Có nhiều phương pháp thu thập dữ liệu từ các trang web bất động sản, bao gồm việc sử dụng API (Giao diện lập trình ứng dụng), phát triển công cụ thu thập thông tin riêng hoặc tận dụng các công cụ có sẵn API giúp các phần mềm giao tiếp hiệu quả thông qua các định nghĩa và giao thức đã được thiết lập.
Việc thu thập thông tin từ trang web trở nên dễ dàng hơn khi các trang cung cấp API cho người dùng, tuy nhiên không phải trang nào cũng có Các ngôn ngữ lập trình phổ biến như Python và PHP có thể được sử dụng, nhưng việc xây dựng giải pháp từ đầu có thể gây khó khăn cho những người không có kiến thức lập trình Do nhu cầu về dữ liệu tăng cao trong những năm qua, nhiều công cụ thu thập thông tin từ web đã phát triển và trở nên phổ biến, như Octoparse, Mozenda, ScrapeBox, và Google Web Scraper Plugin Những công cụ này thân thiện với người dùng không biết lập trình, có thể áp dụng cho nhiều loại trang web khác nhau, hiệu quả về chi phí với nhiều phiên bản miễn phí và không yêu cầu phí trả trước lớn.
Octoparse là một công cụ thu thập dữ liệu mạnh mẽ trên nền tảng máy khách, hỗ trợ cả Windows và MacOS, với giao diện đơn giản và thân thiện Người dùng có thể dễ dàng tương tác với các yếu tố trên trang web và thiết kế quy trình thu thập dữ liệu riêng Octoparse cung cấp phiên bản miễn phí cho phép thu thập dữ liệu cơ bản, đồng thời cũng có dịch vụ đám mây giúp tăng tốc độ và quy mô thu thập dữ liệu Nhờ vào tính năng dễ sử dụng, Octoparse đã được lựa chọn để thu thập dữ liệu từ các trang web đăng tin bất động sản, cung cấp bộ dữ liệu cần thiết cho nghiên cứu Tuy nhiên, khi thu thập dữ liệu từ những trang có thông tin không đồng nhất, người dùng có thể gặp khó khăn trong việc trích xuất chính xác các trường dữ liệu do sự không cố định của thông tin.
Hình 4: Ví dụ về hai bài đăng tin hiển thị các trường thông tin không giống nhau
Để thu thập dữ liệu chính xác từ một trang web, cần chọn trang có tất cả các trường thông tin hiển thị trên bài đăng là cố định, bao gồm cả những trường không có giá trị Việc này giúp Octoparse thu thập dữ liệu đúng với thông tin hiển thị Sau khi nghiên cứu một số trang đăng tin bất động sản, khoá luận đã xác định trang phù hợp với tiêu chí này là AloNhaDat, có địa chỉ tại https://alonhadat.com.vn/.
Khoá luận đã thu thập thông tin về bất động sản nhà ở tại Hà Nội trong tháng 4/2022 từ trang web rao bán bất động sản Dữ liệu bao gồm giá bán, diện tích, địa chỉ, loại bất động sản, chiều ngang, chiều dài, đường trước nhà, pháp lý, số tầng, số phòng ngủ, phòng ăn, nhà bếp, sân thượng và chỗ để xe hơi.
Để thu thập thông tin chi tiết từ các bài đăng rao bán bất động sản nhà ở tại Hà Nội, trước tiên, chúng ta cần xác định trang web và các trường thông tin cần thiết Sau đó, chúng ta sẽ xây dựng một quy trình thu thập thông tin tự động để trích xuất dữ liệu từ từng tin đăng Địa chỉ website được sử dụng là: https://alonhadat.com.vn/can-ban-nha-ha-noi-t1.htm.
Để bắt đầu, nhập địa chỉ website vào Octoparse Tiếp theo, tạo vòng lặp phân trang và vòng lặp để chọn từng đối tượng (item) nhằm trích xuất thông tin của từng ngôi nhà Trên trang thông tin chi tiết, nhấn vào vùng dữ liệu cần lấy và chọn ‘extract the text of the element’ để thu thập thông tin.
Hình 8 minh họa luồng thu thập dữ liệu bất động sản nhà ở, trong đó thông tin về ngôi nhà được thu thập từ các tin đăng bán bất động sản và được lưu trữ trong các trường thông tin cụ thể.
STT Thuộc tính Giải thích
1 GiaBan Giá rao bán của căn nhà
2 DienTich Tổng diện tích của cả căn nhà
3 DiaChi Vị trí của căn nhà
Loại bất động sản nhà ở Có hai loại:
4 ChieuNgang Chiều ngang của căn nhà
5 ChieuDai Chiều dài của căn nhà
6 DuongTruocNha Độ rộng của khoảng đường trước nhà
7 PhapLy Giấy tờ pháp lý của căn nhà nếu có
8 SoTang Tổng số tầng có trong căn nhà
9 SoPhongNgu Tổng số phòng ngủ có trong căn nhà
10 PhongAn Căn nhà có phòng ăn không
11 NhaBep Căn nhà có phòng bếp không
12 SanThuong Căn nhà có sân thượng không
13 ChoDeXe Căn nhà có chỗ để xe hơi không
Bảng 1: Các trường thông tin thu thập được từ website đăng tin BĐS
Trong quá trình thực hiện khoá luận, chúng tôi đã thu thập dữ liệu từ 31,747 tin đăng rao bán bất động sản nhà ở tại thành phố Hà Nội trên trang web alonhadat Dữ liệu này được minh hoạ rõ ràng qua bảng dưới đây.
Hình 9: Minh hoạ dữ liệu BĐS nhà ở thu thập được từ website đăng tin
Các yếu tố ảnh hưởng đến giá BĐS nhà ở chủ yếu là các yếu tố nội tại và pháp lý Trong khi đó, các yếu tố như chính trị, xã hội và kinh tế vĩ mô chưa được xem xét trong mô hình do thiếu thông tin trong các bài đăng tin bất động sản.
3.2.2 Tiền xử lý dữ liệu
3.2.2.1 Xử lý dữ liệu thô Để đánh giá được ảnh hưởng của địa chỉ tới giá nhà ta cần mã hoá được địa chỉ cụ thể sang kinh độ và vĩ độ và những bản ghi nào không có kinh độ và vĩ độ sẽ bị loại bỏ trước khi huấn luyện mô hình Trong python, ta có thể sử dụng thư viện Geopy để mã hoá địa chỉ và trả về tọa độ của nó dưới dạng latitude (vĩ độ), longitude (kinh độ)
Hình 10: Đổi địa chỉ thành long và lat
Kết quả và đánh giá các mô hình hồi quy dự đoán giá bất động sản nhà ở
Sau khi hoàn thành quá trình huấn luyện mô hình, chúng tôi đã thu thập được các chỉ số đánh giá và thời gian thực thi cho các mô hình áp dụng trên ba bộ dữ liệu, được trình bày trong bảng dưới đây.
Mô hình MAE MSE RMSE R2(%)
MTL (không bỏ biến đa cộng tuyến) 3.0004 19.0124 4.3603 79.26
MTL (loại bỏ biến đa cộng tuyến) 3.1561 21.4602 4.6325 76.59
MTL (không loại bỏ biến đa cộng tuyến) 4.5956 36.0104 6.0009 60.91
MTL (loại bỏ biến đa cộng tuyến) 5.0467 42.4068 6.5121 53.97
Nhà trong hẻm MTL (không loại bỏ biến đa cộng tuyến) 2.1209 11.9617 3.4586 58.55
MTL (loại bỏ biến đa cộng tuyến) 2.2197 13.1081 3.6205 54.58
Bảng 7: Chỉ số đánh giá các mô hình trên 3 tập dữ liệu
Mô hình Nhà ở Mặt tiền Trong Hẻm
MTL (không bỏ biến đa cộng tuyến) 0.006s 0.003s 0.004s MTL (loại bỏ biến đa cộng tuyến) 0.005s 0.001s 0.003s
Mô hình hồi quy vector hỗ trợ đạt được chỉ số sai số thấp nhất (MAE, MSE, RMSE) và có độ phù hợp cao nhất trên cả 3 bộ dữ liệu được đánh giá.
Mô hình hồi quy tuyến tính bội trên bộ dữ liệu không loại bỏ biến đa cộng tuyến cho thấy chỉ số MAE, MSE và RMSE thấp hơn, cùng với hệ số R2 cao hơn so với mô hình loại bỏ biến đa cộng tuyến Việc loại bỏ quá nhiều biến cùng lúc có thể dẫn đến thiếu thông tin đầu vào, từ đó gia tăng sai số và giảm độ phù hợp của mô hình.
Tập dữ liệu nhà ở cho thấy các mô hình có hiệu suất tốt hơn so với hai bộ dữ liệu nhà mặt tiền và nhà trong hẻm, với chỉ số MAE, MSE và RMSE thấp hơn cùng độ phù hợp mô hình cao hơn Nguyên nhân là do tập dữ liệu gốc đã bị loại bỏ nhiều dữ liệu do thiếu thông tin về kinh độ và vĩ độ, dẫn đến việc phân bổ dữ liệu không đều khi chia nhỏ để đào tạo mô hình, từ đó làm gia tăng sự chênh lệch giữa giá trị dự đoán và giá trị thực tế Việc đánh giá các chỉ số trên bộ dữ liệu nhà ở là cần thiết để hiểu rõ hơn về hiệu suất của mô hình.
Chỉ số MAE cho thấy mô hình SVR đạt giá trị nhỏ nhất là 2.5138, cho thấy sai số trung bình giữa giá trị dự đoán và giá trị thực tế là thấp nhất Tuy nhiên, chỉ số này không phản ánh mức độ sai số ở từng giá trị dự đoán cụ thể.
Chỉ số MSE cho thấy mô hình SVR có giá trị nhỏ nhất, chứng tỏ đây là mô hình có đường hồi quy phù hợp nhất với bộ dữ liệu Ngược lại, hồi quy tuyến tính bội với biến đa cộng tuyến bị loại bỏ lại có MSE lớn nhất, cho thấy giá trị dự đoán của mô hình này lệch nhiều so với giá trị thực tế, với một số dự đoán sai lệch đáng kể, dẫn đến sai số bình phương cao hơn các mô hình khác.
Chỉ số RMSE: SVR có chỉ số RMSE nhỏ nhất trong 3 mô hình thể hiện dữ liệu tập trung trong mô hình này là tốt nhất
Hệ số xác định R2 của SVR đạt 81.79%, cho thấy 81.79% dữ liệu được mô hình giải thích, cao hơn so với hồi quy tuyến tính bội (79.26%) và hồi quy Ridge (79.26%), cũng như hồi quy tuyến tính bội sau khi loại bỏ biến đa cộng tuyến (76.59%) Thời gian huấn luyện mô hình cũng cần được đánh giá.
Thời gian huấn luyện mô hình được đo dựa trên thời gian thực thi đoạn mã huấn luyện mô hình của từng thuật toán trên mỗi bộ dữ liệu
Kết quả huấn luyện mô hình cho thấy thời gian huấn luyện của mô hình hồi quy vectơ hỗ trợ (SVR) lâu hơn đáng kể so với hai mô hình hồi quy tuyến tính bội (MTL) và hồi quy Ridge (RR) Cụ thể, thời gian thực thi của MTL và RR trên cả ba tập dữ liệu đều dưới 0.01 giây, trong khi thời gian tối thiểu của SVR là 10.692 giây với bộ dữ liệu nhà mặt tiền Ngoài ra, do bộ dữ liệu nhà ở có số lượng bản ghi lớn hơn, thời gian huấn luyện của nó cũng cao hơn so với hai bộ dữ liệu nhà mặt tiền và nhà trong hẻm.