Trong bài toán dự đoán này, nhiều nhà nghiên cứu đã chỉ ra rằng có nhiều thuộc tính của tập dữ liệu ảnh hưởng lên thuộc tính mục tiêu, và trọng số của mỗi thuộc tính là khác nhau.. Gần
GIỚI THIỆU ĐỀ TÀI
Giới thiệu chung
Bất động sản nói chung và ngôi nhà nói riêng là một trong những tài sản quý giá của con người trong cuộc sống hiện nay Từ xa xưa ông bà chúng ta đã dùng câu nói
“an cư, lạc nghiệp” như một quan điểm sống để chỉ dạy con cháu Dưới góc nhìn nhà đất thì an cư cũng có thể hiểu là hoạt động mua nhà hoặc mua đất xây nhà, xác định chỗ sinh sống Tuy nhiên, khi tìm được một ngôi nhà phù hợp để mua thì chúng ta có thể băn khoăn về giá của ngôi nhà so với giá thị trường? Thông thường người mua cần phải tốn thời gian để quan sát, tìm hiểu và tìm kiếm các mối quan hệ để tự giải đáp các thắc mắc của mình Giả sử có một công cụ nào đó có thể cung cấp giá dự đoán của căn nhà dựa vào vị trí, diện tích, số lầu,… thì sẽ giúp ích rất nhiều Vì vậy, việc dự đoán giá nhà là một khía cạnh quan trọng trong lĩnh vực bất động sản, nó liên quan tới việc ước tính giá trị của ngôi nhà, và là một trong những mối quan tâm của người mua nhà, người bán nhà, các tổ chức tài chính ngân hàng để thẩm định bất động sản (bđs) và các nhà đầu tư
Sự phát triển của thị trường bất động sản cũng có thể ảnh hưởng tới hoạt động kinh tế của một quốc giá hoặc thậm chí là cả thế giới Ví dụ, cuộc khủng hoảng tín dụng vay mua nhà ở Mỹ vào năm 2007 đã gây ra một cuộc khủng hoảng tài chính toàn cầu nghiêm trọng, làm mất mát tài sản lớn cho các thị trường và tổ chức tài chính Cuộc khủng hoảng này gây ra sự thu hẹp trong việc tín dụng của ngân hàng và sự suy giảm của thị trường bất động sản, dẫn đến sự chậm trễ trong phát triển kinh tế toàn cầu (Hodson & Quaglia, 2009) Gần đây nhất là việc công ty bất động sản lớn nhất Trung Quốc – Evergrande tuyên bố vỡ nợ, theo các chuyên gia phân tích, việc này gây ra rủi ro cho hệ thống tài chính, dẫn tới sự suy yếu chính sách tài khoá quốc gia mà lãnh đạo Trung Quốc đã mất công sức xây dựng và thực hiện, từ đó có thể làm suy yếu nền kinh tế của quốc gia này Vì vậy, thị trường bất động sản không chỉ quan trọng đối với cá nhân, doanh nghiệp mà còn ảnh hưởng tới sự ổn định của kinh tế xã hội, sự phát triển lành mạnh của thị trường bất động sản là một trong những yếu tố quan trọng liên quan tới sự phát triển bền vững của nền kinh tế Do đó việc dự đoán giá nhà đã thu hút nhiều sự chú ý đáng kể từ nhiều lĩnh vực khác nhau, bao gồm cả kinh tế, chính trị, khoa học máy tính,… (Iacoviello and Minetti, 2008, Park and Bae, 2015, Selim, 2009, Tsai, 2013)
Gần đây, với sự phát triển nhanh của trí tuệ nhân tạo (Artificial Intelligence), việc dự đoán giá bđs thay vì dựa vào các mô hình thống kê trong quá khứ thì các nhà nghiên cứu đã sử dụng các thuật toán học máy (Machine Learning) Kết quả thu được chứng minh các giải thuật học máy dự đoán giá có độ chính xác cao hơn và nhiều hứa hẹn cải tiến hơn nữa trong tương lai.
Mô tả bài toán dự đoán
Các thuật toán của học máy có thể được chia thành hai dạng cơ bản là bài toán học có giám sát (Supervised Learning) và bài toán học không giám sát (Unsupervised
Learning) Học có giám sát là lớp bài toán được xây dựng dựa trên dữ liệu có nhãn nhằm tìm ra mối quan hệ giữa biến đầu vào với biến đầu ra Trong khi đó bài toán học không giám sát sẽ tự động phân cụm dữ liệu dựa trên đặc trưng tiềm ẩn của dữ liệu đầu vào mà không yêu cầu phải có nhãn cho từng quan sát Vì cần phải gán nhãn cho dữ liệu nên chi phí chuẩn bị dữ liệu cho bài toán học có giám sát tốn kém hơn nhiều so với bài toán học không giám sát
Trong bài toán học có giám sát chúng ta lại chia thành 2 bài toán phân loại (classification) và dự đoán (prediction), tuỳ thuộc vào biến đầu ra là rời rạc hay liên tục Những mô hình phân loại được áp dụng trên biến đầu ra rời rạc giúp trả lời cho câu hỏi quan sát này có nhãn là gì? Trong khi mô hình dự báo được áp dụng trên biến đầu ra liên tục sẽ trả lời cho câu hỏi giá trị của một quan sát được dự báo có độ lớn bằng bao nhiêu?
Những lớp mô hình trong học máy phức tạp thường có độ chuẩn xác cao nhưng chúng lại có mức độ tường minh thấp Điều đó được thể hiện qua việc chúng ta không dễ dàng giải thích được tác động giữa biến đầu vào lên biến mục tiêu Trái lại mô hình hồi quy (regression) trong bài toán dự báo lại là lớp mô hình có phương trình biểu diễn cụ thể, đơn giản nên giúp diễn giải và đánh giá tác động dễ dàng Chính vì thế hồi quy khá được ưa chuộng, được sử dụng trong rất nhiều lĩnh vực và thường là mô hình đầu tiên được sử dụng trong bài toán dự đoán trong học máy.
Mục tiêu và nhiệm vụ của luận văn
Mục tiêu của luận văn hướng tới việc dự đoán giá nhà trên tập dữ liệu thực tế và cố gắng đề xuất các phương pháp để cải thiện độ chính xác Cụ thể:
- Dự đoán giá nhà trên tập dữ liệu thực tế
- Đề xuất có phương pháp có thể giúp tăng độ chính xác của mô hình
- Thực nghiệm, thảo luận kết quả đạt được
Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình hoàn thiện luận văn:
- Tìm hiểu bài toán dự đoán giá nhà bằng phương pháp học máy, các công trình nghiên cứu liên quan, phương pháp giải quyết bài toán, ưu và nhược điểm của từng phương pháp
- Áp dụng kiến thức tìm hiểu được vào tập dữ liệu đang xem xét, nhận xét kết quả đạt được
- Đề xuất các phương pháp giúp cải thiện độ chính xác của mô hình
- Thực nghiệm, đánh giá kết quả của các đề xuất trên tập dữ liệu
- Chỉ ra những hạn chế và vấn đề còn tồn đọng, đề xuất các giải pháp cải tiến và mở rộng bài toán trong tương lai.
Giới hạn đề tài
Bài toán dự đoán giá nhà là một bài toán thực tế và có nhiều yếu tố ảnh hưởng tới giá trị một căn nhà, nhìn chung các yếu tố này được chia thành hai nhóm chính: nhóm yếu tố nội tại (vị trí, diện tích, số lầu, …) và nhóm yếu tố bên ngoài (thị trường cung-cầu, lãi suất, chính sách pháp luật về đất đai, …) Bên cạnh đó, có nhiều thuật toán được sử dụng trong bài toán dự đoán, thường được chia thành các thuật toán thuộc nhóm học máy truyền thống và các thuật toán thuộc nhóm mạng nơ-ron nhân tạo (Neural Network) Dựa vào đặc điểm tập dữ liệu thực tế được doanh nghiệp cung cấp cho học viên, học viên xin giới hạn luận văn như sau:
- Thực hiện dự đoán trên loại hình bất động sản bán liên quan tới nhà ở như nhà phố, nhà phố liền kề và biệt thự
- Chỉ xem xét các yếu tố nội tại khi thực hiện dự đoán
- Chỉ xem xét các thuật toán thuộc nhóm học máy truyền thống vì số lượng mẫu của tập dữ liệu khá nhỏ
- Độ đo chính được sử dụng là chỉ số RMSE (Root Mean Square Error).
Đóng góp của luận văn
- Phân tích tổng quan về sự phân bố dữ liệu nhà ở tại thành phố Hồ Chí Minh và tỉnh Đồng Nai Thực nghiệm và kết luận được nhóm thuật toán liên quan tới hồi quy tuyến tính cho kết quả tốt trên tập dữ liệu ở thành phố Hồ Chí M- inh Trong khi các thuật toán thuộc họ cây và sử dụng kỹ thuật tăng cường như Catboost Regressor, GradientBoosting Regressor, Random Forest Re- gressor,… cho kết quả tốt hơn trên tập dữ liệu ở tỉnh Đồng Nai
- Đề xuất 2 giải pháp để cải thiện độ chính xác của mô hình, trong đó có đề xuất gom cụm tập dữ liệu dựa vào các đặc điểm chính của căn nhà như diện tích sàn, số lầu, số phòng ngủ, số phòng tắm,… cho kết quả khá tốt.
Tóm tắt nội dung
Luận văn “Dự đoán giá bất động sản dựa vào các phương pháp học máy” gồm sáu chương với các nội dung chính như sau:
- Chương 1 – GIỚI THIỆU ĐỀ TÀI: trình bày tổng quan về đề tài, giới thiệu bài toán dự đoán, cũng như mục tiêu, nhiệm vụ, giới hạn và phạm vi của đề tài Cuối cùng là đóng góp của luận văn và cấu trúc phần trình bày báo cáo của luận văn
- Chương 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: trình bày một cách tổng quát về những nghiên cứu liên quan đã và đang được thực hiện bài toán dự đoán
- Chương 3 – CƠ SỞ LÝ THUYẾT: học viên phân tích các yếu tố ảnh hưởng tới giá nhà, sau đó trình bày các lý thuyết liên quan để giải bài toán học máy gồm các bước chung giải quyết bài toán dự đoán và tổng quan các thuật toán được sử dụng
- Chương 4 – PHÂN TÍCH VÀ DỰ ĐOÁN GIÁ: phần này học viên giới thiệu về tập dữ liệu, trình bày phương pháp xử lý tập dữ liệu, pipeline dự đoán giá và đánh giá kết quả đạt được dựa vào chỉ số RMSE
- Chương 5 – ĐỀ XUẤT CẢI THIỆN MÔ HÌNH: học viên trình bày hai đề xuất để cải thiện chỉ số RMSE, thực nghiệm giải phải đề xuất và đánh giá kết quả đạt được
- Chương 6 – KẾT LUẬN: tổng hợp các kết quả đạt được trong quá trình thực hiện luận văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khai thực nghiệm Phần này cũng trình bày những hạn chế và vấn đề tồn đọng, cuối cùng đề xuất các giải pháp cải tiến trong tương lai
Mục lục, Danh sách hình vẽ, Danh sách bảng được cung cấp ở đầu luận văn Tài liệu tham khảo và phần Phụ lục được trình bày ở cuối luận văn.
CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Phương pháp hồi quy tuyến tính
Phương pháp hồi quy tuyến tính (Linear Regression – LR) là phương pháp sớm nhất được sử dụng để dự đoán giá nhà Phương pháp này dựa vào giả sử rằng các đặc điểm của ngôi nhà như diện tích, số lầu, số phòng ngủ, số phòng tắm,… có mối quan hệ tuyến tính với giá của ngôi nhà Ưu điểm của mô hình này là đơn giản, dễ dàng giải thích được mức độ ảnh hưởng của các thuộc tính độc lập lên thuộc tính phụ thuộc, và thường được sử dụng như một mô hình nền để so sánh với các mô hình phức tạp hơn Tuy nhiên, do giả sử mối quan hệ tuyến tính nên mô hình này sẽ không hoạt động tốt trên các tập dữ liệu có mối quan hệ phức tạp Satish [1] sử dụng một vài thuật toán như
LR, hồi quy LASSO, Gradient Boosting Algorithm (GBA) để dự đoán giá nhà trên tập
89412 giao dịch mua bán nhà ở Los Angeles California và kết luận rằng hồi quy
LASSO đưa ra kết quả dự đoán tốt nhất.
Phương pháp tổng hợp và tăng cường
Để tiếp tục cải thiện độ chính xác trong việc dự đoán giá nhà, các nhà nghiên cứu sử dụng các thuật toán tổng hợp như RandomForest (RF) và các thuật toán tăng cường như Gradient Boosting Machine (GBM)
RF là thuật toán kết hợp nhiều cây quyết định để thực hiện dự đoán Không giống như các mô hình hồi quy, cây quyết định không phụ thuộc vào giả sử quan hệ tuyến tính giữa thuộc tính độc lập và phụ thuộc Tuy nhiên hạn chế của cây quyết định đó là quá khớp RF sẽ giảm hạn chế trên bằng cách kết hợp nhiều cây quyết định với nhau giúp tổng quát hoá mô hình hơn Mỗi cây quyết định được huấn luyện trên các tập con và đặc điểm ngẫu nhiên của tập dữ liệu Giá trị dự đoán là giá trị trung bình trên các nhánh cây Wang and Wu [2] sử dụng tập dữ liệu gồm 27649 mẫu từ Airling- ton Virginia USA năm 2015 và kết luận rằng RF cho kết quả tốt hơn LR Mohd [3], dựa vào một vài thông số kỹ thuật của căn nhà như số phòng ngủ, số tầng, tuổi của ngôi nhà, diện tích các tầng để dự đoán giá căn nhà Họ sử dụng các thuật toán RF, cây quyết định, hồi quy Ridge, LN, hồi quy LASSO kết hợp với độ đo RMSE, họ kết luận
RF là thuật toán thích hợp nhất cho tập dữ liệu của họ Rico-Juan và De La Paz (2021) [4] cũng đã kết luận rằng RF cho ra kết quả tốt hơn khi so sánh với AdaBoost, Cat- Boost, cây quyết định, hồi quy LASSO, hồi quy Ridge và XGBRegressor
Kỹ thuật tăng cường cũng thực hiện kết hợp nhiều cây để cải thiện độ chính xác của mô hình, tuy nhiên các cây được kết hợp theo thứ tự, và cây sau sửa lỗi sai của cây trước nó Do phải huấn luyện lần lượt các mô hình con nên hạn chế lớn nhất của kỹ thuật này là tốn thời gian Có nhiều thuật toán sử dụng kỹ thuật tăng cường như
AdaBoost, XGBoost (eXtreme Gradient Boosting), LightGBM và CatBoost Các thuật toán này cho kết quả khá tốt trong việc dự đoán giá nhà so với các phương pháp trước đó Yan và Zong (2020) [5] kết luận trong bài nghiên cứu của họ rằng XGBoost cho ra kết quả tốt hơn LN, RF, hồi quy Ridge, hồi quy LASSO Nhóm tác giả [6] sử dụng các thuật toán Naive Bayesian, AdaBoost để dự đoán giá nhà Kết luận họ đưa ra khẳng định rằng AdaBoost cho kết quả tốt hơn thuật toán còn lại áp dụng trên tập dữ liệu họ đang làm thí nghiệm townhouse
Bên cạnh đó, Support Vector Machine (SVM) cũng được sử dụng cho bài toán dự đoán nhà Mô hình này hoạt động tốt trên các tập dữ liệu có sự phân tách rõ ràng giữa các mẫu và có thể xử lý dữ liệu nhiều chiều Tuy nhiên, mô hình đòi hỏi tinh chỉnh cẩn thận siêu tham số và là một black-box Li [7] đã sử dụng Support Vector
Regression (SVR) để dự đoán giá nhà, dữ liệu được thu thập từ 1998 tới 2008 Dựa trên các chỉ số đánh giá như MAE, MAPE và RMSE, Li kết luận rằng SVR là một thuật toán tốt để dự đoán giá nhà Huang [8] so sánh giữa các thuật toán LN, cây quyết định, Boosting, RF, SVM và kết luận rằng SVM đưa ra kết quả dự đoán chính xác hơn
Ho (2021)[9] thì kết luận RF và Gradient Boosting Machine đánh bại thuật toán SVM Các tác giả [10] sử dụng RF, XGBoost, LightGBM, Hybrid Regression Model, Stack Generalization Regression để dự đoán giá nhà trên tập dữ liệu ‘Housing Price in Bei- jing’ Họ kết luận rằng Stacked Generalization Regression và Hybrid Regression đưa ra kết quả tốt hơn các thuật toán còn lại Nhóm tác giả [11] đã sử dụng 3 thuật toán gồm SVM, RF và GBM để dự đoán giá nhà ở Hồng Kông Tập dữ liệu gồm 40000 giao dịch nhà đất từ 2002-2020 Các chỉ số được dùng để đánh giá độ hiệu quả của thuật toán gồm có MSE, RMSE và MAPE Họ kết luận rằng thuật toán RF và GBM cho kết quả tốt hơn so với SVM, nhưng SVM là một thuật toán cho kết quả chấp nhận được với ràng buộc thời gian ngắn.
Phương pháp dùng mạng nơ-ron nhân tạo
Các mô hình nơ-ron nhân tạo gồm nhiều lớp nơ-ron nên có thể bắt (capture) được những mối quan hệ không tuyến tính trong tập dữ liệu Có nhiều nhà nghiên cứu thực nghiệm chứng tỏ được sử cải thiện độ chính xác lớn khi dùng mô hình này Tuy nhiên, những mô hình này đòi hỏi tập dữ liệu có kích thước lớn và tài nguyên tính toán Nghiep and AI [12] dự đoán giá nhà bằng cách sử dụng phân tích hồi quy đa biến (multiple regression analysis) và mạng nơ-ron nhân tạo (Artificial Neural Network) Kết quả cho thấy rằng ANN cho kết quả tốt hơn MRA khi kích thước tập dữ liệu lớn Rotimi [13] thực hiện so sánh giữa Hedonic Pricing Model (HPM) và ANN trong việc dự đoán bất động sản Nhóm tác giả kết luận rằng ANN dự đoán kết quả tốt hơn HPM Chỉ số MAPE của ANN là 15.94 % so với 38.23% của HPM.
CƠ SỞ LÝ THUYẾT
Tổng quan quá trình giải bài toán học máy
Để giải bài toán học máy thường sẽ phải đi qua một vài bước chính, từ xác định bài toán, thu thập dữ liệu, xử lý dữ liệu, phân tích xử liệu, lựa chọn đặc trưng, chọn lựa mô hình, huấn luyện mô hình, đánh giá mô hình và tinh chỉnh mô hình Hình 3.1 thể hiện các bước đã trình bày ở trên Nhìn chung có thể phân thành 5 giai đoạn chính, cụ thể:
Giai đoạn 1 - Giai đoạn tiền xử lý tập dữ liệu: Giai đoạn này gồm 3 giai đoạn nhỏ, đó là giai đoạn 1.1- thu thập dữ liệu, giai đoạn 1.2 – khám phá dữ liệu và giai đoạn 1.3 – chuẩn bị dữ liệu Ở cuối giai đoạn này dữ liệu đã được xử lý, sạch và sẵn sàng để đi tới giai đoạn tiếp theo
Hình 3.1: Các giai đoạn chung để xây dựng mô hình dự đoán
Giai đoạn 2 - Giai đoạn phân tách dữ liệu: Trong giai đoạn này, tập dữ liệu được chia thành tập huấn luyện (training set) và tập kiểm tra (test set) Tập huấn luyện sẽ được dùng để huấn luyện cho mô hình, còn tập kiểm tra sẽ được dùng để kiểm tra độ chính xác của mô hình, từ đó có những điều chỉnh phù hợp để cải thiện mô hình
Giai đoạn 3 - Giai đoạn xây dựng và huấn luyện mô hình: Ở giai đoạn này mô hình được xây dựng và được huấn luyện sử dụng tập huấn luyện ở trên Cụ thể các mô hình nhỏ có thể được sử dụng để thử nghiệm trong giai đoạn này như bên dưới:
- Mô hình hồi quy tuyến tính: hồi quy Ridge, hồi quy Lasso, hồi quy Elastic Net
- Mô hình cây quyết định, mô hình tổng hợp như RF, AdaBoost, Gradient
Giai đoạn 4 - Giai đoạn đánh giá mô hình: Sử dụng tập kiểm tra để đánh giá các mô hình được xây dựng ở giai đoạn trước, có thể sử dụng các chỉ số như bên dưới:
- Sử dụng sai số trung bình tuyệt đối (MAE)
- Sai số bình phương trung bình (MSE)
- Hệ số xác định (R-squared)
Giai đoạn 5 - Giai đoạn cải thiện, tinh chỉnh mô hình: Sau khi đánh giá các mô hình, chúng ta sẽ mong muốn cải thiện độ chính xác của nó, việc này có thể được thực hiện thông qua 2 quá trình:
- Thay đổi cách tiền xử lý dữ liệu
- Tinh chỉnh các siêu tham số của mô hình cho kết quả tốt nhất.
Giới thiệu các thuật toán trong bài toán dự đoán
3.2.1 Nhóm mô hình hồi quy tuyến tính
Hồi quy là một phân tích thống kê để xác định xem các biến độc lập quy định các biến phụ thuộc như thế nào 1 , tức là hiểu được sự thay đổi của biến độc lập ảnh hưởng thế nào tới biến phụ thuộc Do đó, phương pháp thường được dùng để dự báo hoặc dự đoán giá trị của biến phụ thuộc dựa trên giá trị của một hoặc nhiều biến độc lập Dựa vào các tiêu chuẩn khác nhau mà có thể phân hồi quy thành các kiểu hồi quy khác nhau Tuy nhiên, trong bài toán thực tế, thường sẽ dùng có mô hình hồi quy
1 https://www.wiki.com/ tuyến tính đa biến – tức có nhiều biến độc lập có quan hệ tuyến tính với biến phụ thuộc, các mô hình hồi quy chuẩn hoá (regularization) gồm có hồi quy Ridge, hồi quy
Lasso và hồi quy Elastic Net, và mô hình hồi quy Bayesian Ridge
Tuyến tính có thể hiểu đơn giản là thẳng, phẳng Ví dụ trong không gian 2 chiều, hàm số được gọi là tuyến tính nếu đồ thị của hàm số có dạng là một đường thẳng Tương tự, trong không gian 3 chiều là một mặt phẳng, và trong không gian lớn hơn 3 chiều thì đồ thị là một siêu mặt phẳng (hyperplane) Giải bài toán hồi quy tuyến tính là đi tìm phương trình toán học biểu diễn các đồ thị ở trên và phương pháp hay được sử dụng đó là phương pháp bình phương tối thiểu Kết quả tốt nhất sẽ là đồ thị với giá trị sai số residuals (hay còn gọi là lỗi, tức là giá trị khác biệt giữa giá trị quan sát và giá trị dự đoán của dữ liệu) là nhỏ nhất Trong thực thế mọi người hay dùng Mean Squared Error (MSE)
Trong đó N là tổng số mẫu đang quan sát 𝑦 𝑖 là giá trị đang quan sát và 𝑦̂ là giá trị dự đoán
Hình 3.2: Các giá trị lỗi–giá trị khác biệt giữa giá trị quan sát và giá trị dự đoán
Tổng quan, hồi quy tuyến tính sẽ tính giá trị dự đoán bằng cách tính tổng của trọng số của mỗi đặc trưng với đặc trưng đó, cộng với một hằng số được gọi là bias term
• 𝑦̂ là giá trị được dự đoán
• 𝑛 là tổng số đặc trưng
• 𝑥 𝑖 là giá trị của đặc trưng thứ 𝑖
• 𝜃 𝑗 là tham số thứ j của mô hình, bao gồm bias term 𝜃 0 và các trọng số 𝜃 1 , 𝜃 2 , … , 𝜃 𝑛 của các đặc trưng
Cơ bản phương trình trên là tích vô hướng của 𝜃 và 𝑥 nên chúng ta có thể viết gọn lại như bên dưới
• ℎ(𝜃) là một hàm giả thuyết
• 𝜃 Τ là các tham số của mô hình biểu diễn dưới dạng vector
• 𝑥 là được gọi là vector đặc trưng, gồm các giá trị 𝑥 0 tới 𝑥 𝑛 với 𝑥 0 = 1
𝜃 Τ 𝑥 là tích vô hướng của vector 𝜃 và 𝑥, bằng 𝜃 0 𝑥 0 + 𝜃 1 𝑥 1 + ⋯ + 𝜃 𝑛 𝑥 𝑛 Để kiểm tra nếu mô hình đã hoạt động tốt như thế nào trên tập dữ liệu, chúng ta thường tính toán hàm mất mát Mục tiêu trong bài toán hồi quy tuyến tính là cực tiểu hoá hàm mất mát Phương trình tính MSE cũng là hàm mất mát có thể được biểu diễn như bên dưới
𝑛 ∑ 𝑛 𝑖=1 (𝜃 𝑇 𝑥(𝑖) − 𝑦(𝑖)) 2 (3.4) Để tìm các giá trị θ, chúng ta có thể dùng công thức Normal Equation hoặc dùng thuật toán suy giảm độ dốc (Gradient Descent) Công thức Normal Equation được sử dụng trong trường hợp số lượng đặc trưng ít, hoặc hàm mất mát đơn giản và có đạo hàm liên tục Trong thực tế, thuật toán suy giảm độ dốc được sử dụng nhiều hơn và để khắc phục 2 điểm yếu trên khi dùng công thức Normal Equation
Một trong những vấn đề thường gặp của bài toán học máy đó là quá khớp
(overfitting) Là một hiện tượng mà mô hình làm việc tốt trên tập huấn luyện nhưng không dự báo tốt trên tập dữ liệu kiểm tra Có nhiều nguyên nhân dẫn tới hiện tượng quá khớp, một trong những nguyên nhân chính là do tập huấn luyện và tập kiểm tra có phân phối khác nhau Hoặc cũng có thể mô hình có quá nhiều tham số nên khả năng biểu diễn dữ liệu của nó không mang tính đại diện Để giải quyết vấn đề này trong hồi quy tuyến tính, kỹ thuật regularization được sử dụng bằng cách cộng thêm thành phần hiệu chuẩn vào hàm mất mát Thông thường thành phần hiệu chỉnh này ở dạng norm chuẩn bậc 1 hoặc bậc 2 của các hệ số Trong trường hợp bậc 2 thì được gọi là hồi quy Ridge, còn bậc 1 thì được gọi là hồi quy Lasso Hồi quy Elastic Net cho phép chúng ta kết hợp đồng thời cả 2 thành phần điều chuẩn norm bậc 1 và norm bậc 2
Hàm mất mát của hồi quy Ridge:
Hàm mất mát của hồi quy Lasso:
Hàm mất mát của hồi quy Elastic Net:
Hệ số α có tác dụng điều chỉnh điều chỉnh độ lớn của thành phần điều chuẩn tác động lên hàm mất mát, 𝑤 là các trọng số tương ứng
• Trường hợp α = 0, thành phần điều chuẩn bị tiêu giảm và chúng ta quay trở về bài toán hồi quy tuyến tính
• Trường hợp α nhỏ thì vai trò của thành phần điều chuẩn trở nên ít quan trọng Mức độ kiểm soát quá khớp của mô hình sẽ trở nên kém hơn
• Trường hợp α lớn chúng ta muốn gia tăng mức độ kiểm soát lên độ lớn của các hệ số ước lượng và qua đó giảm bớt hiện tượng quá khớp
Chúng ta cần phải tinh chỉnh (tunning) hệ số α để tìm ra giá trị phù hợp với mô hình
Hồi quy Bayesian Ridge là một phương pháp hồi quy mở rộng của hồi quy Ridge, được định nghĩa dưới góc độ xác suất, với việc sử dụng các tiền kiến thức rõ ràng về các tham số Hồi quy này kiểm soát quá khớp bằng cách thêm các tiền kiến thức vào mô hình Trong hồi quy Ridge, chúng ta sử dụng kỹ thuật chuẩn hoá L2 để giảm thiểu hiện tượng quá khớp, thì trong hồi quy Bayesian Ridge, chúng ta sử dụng kết hợp nó với các tiền kiến thức trực tiếp lên các tham số
3.2.2 Nhóm các mô hình tree-based
Cây quyết định là một cấu trúc giống cây, bao gồm nút gốc, các nút giữa và nút lá Các nút giữa biểu diễn sự so sánh trên một thuộc tính, mỗi nhánh sẽ đại diện cho một kết quả của sự so sánh ở trên Nút lá (hay nút ở tầng cuối cùng) chứa một nhãn của dữ liệu và nút ở tầng trên cùng là nút gốc
Hình 3.3: Cây quyết định để kiểm tra xem một người có khả năng mua máy tính hay không?
Cây quyết định được sử dụng trong cả trong bài toán phân loại và bài toán dự đoán Việc phân loại nhãn trên cây quyết định rất đơn giản một khi cây quyết định được xây dựng trước đó Giả sử một mẫu mới chưa biết nhãn, các đặc trưng của mẫu sẽ được kiểm tra tại các nút của cây quyết định, và đi theo các nhánh thích hợp sau khi kiểm tra cho tới nút lá Tại nút lá, chúng ta sẽ biết được nhãn của mẫu cần kiểm tra Khi xây dựng cây quyết định, một mẫu dữ liệu sẽ có rất nhiều đặc trưng, việc chọn đặc trưng nào để so sánh tại các nút giữa cây quyết định sẽ ảnh hưởng rất nhiều tới kết quả phân loại sau này Có 3 phương pháp phổ biến hay được dùng để chọn đặc trưng, đó là information gain, gain ratio và Gini index
Rừng ngẫu nhiên là một kỹ thuật tập hợp (ensemble) nhiều cây quyết định, và thường sử dụng phương pháp bagging (cho phép lấy mẫu bị trùng lặp) để lấy mẫu huấn luyện Cụ thể, kỹ thuật này sẽ xây dựng nhiều cây quyết định mà mỗi cây được huấn luyện dựa trên nhiều mẫu con khác nhau, và kết quả dự báo được tổng hợp sử dụng phương pháp biểu quyết (voting) kết quả từ tất cả các cây quyết định
Hình 3.4: Mô hình rừng ngẫu nhiên
Boosting (hypothesis boosting) – tăng cường là một kỹ thuật kết hợp nhiều phương pháp để tạo ra một kết quả chính xác hơn Nhưng thay vì các phương pháp này độc lập với nhau như trình bày ở phần trước, thì kỹ thuật boosting sẽ huấn luyện các phương pháp tuần tự và phụ thuộc nhau, phương pháp sau sẽ cố gắng hiệu chỉnh, sửa chữa từ phương pháp trước nó để đưa ra kết quả chuẩn xác hơn Có nhiều kỹ thuật tăng cường hiện nay nhưng phổ biến hơn cả là Adaboost (Adaptive Boosting) và Gradient
Một cách đơn giản để phương pháp sau có thể sửa chữa lỗi của phương pháp trước đó là nó sẽ tập trung vào những những trường hợp mà phương pháp trước dự đoán không chính xác Điều này đồng nghĩa với các phương pháp càng về sau sẽ càng tập trung vào những trường hợp khó Đây là kỹ thuật mà AdaBoost sử dụng Ví dụ, khi huấn luyện một bộ phân loại AdaBoost, thuật toán đầu tiên sẽ huấn luyện một phân loại classifier nền (ví dụ như cây quyết định) và sử dụng phân loại này để huấn luyện trên tập huấn luyện Thuật toán sau đó sẽ tăng trọng số của các trường hợp phân loại sai Sau đó ở bộ phân loại thứ 2, sẽ sử dụng trọng số được cập nhập ở bộ phân loại thứ 1 và tiếp tục huấn luyện trên tập huấn luyện, và lại cập nhập lại trọng số để cho bộ phân loại thứ 3 sử dụng Có thể thấy, kỹ thuật huấn luyện tuần tự mà Adaboost sử dụng có điểm tương đồng với giải thuật suy giảm độ dốc, nhưng thay vì điều chỉnh các tham số để cực tiểu hoá hàm chi phí thì AdaBoost lần lượt thêm các bộ dự đoán vào mô hình và từ từ làm cho thuật toán đưa ra kết quả tốt hơn Thuật toán AdaBoost sẽ dừng khi số lượng bộ dự đoán đạt tới mong muốn hoặc một bộ dự đoán đưa ra kết quả tốt nhất được tìm thấy
Các chỉ số đánh giá mô hình trong bài toán dự đoán
Đối với bài toán dự đoán, để đánh giá hiệu suất của mô hình, chúng ta thường dùng các chỉ số MAE (Mean Absolute Error), MSE (Mean Squared Error), RMSE (Root Mean Squared Error) và R 2 (R-squared) Giả sử tập dữ liệu có n mẫu, 𝑦 𝑖 là giá trị quan sát của mẫu thứ 𝑖, và 𝑦̂ 𝑖 là giá trị mà mô hình dự đoán được tại mẫu thứ 𝑖 𝑦̅ là giá trị trung bình của giá trị 𝑦 𝑖 Các chỉ số trên được tính như bên dưới:
MAE tính toán trung bình giá trị tuyệt đối của sai số Ưu điểm của MAE là đơn vị tính của nó tương tự với đơn vị tính của biến phụ thuộc nên giúp dễ dàng so sánh giữa mô hình và giữa các biến phụ thuộc khác nhau Hạn chế của MAE là không đánh giá được độ lớn của các sai số MSE tính toán giá trị trung bình của bình phương sai số Nó khắc phục hạn chế của MAE là có thể đánh giá được độ lớn của sai số, bên cạnh đó MSE cũng có thể dùng làm một hàm mất mát Hạn chế của MSE đó là bị ảnh hưởng nhiều bởi ngoại lại khi so sánh với MAE và đơn vị không cùng với biến phụ thuộc RMSE là khắc phục hạn chế của MSE đó là đơn vị của nó cùng với đơn vị của biến phụ thuộc Các chỉ số MAE, MSE và RMSE càng nhỏ thì độ chính xác của mô hình càng cao Chỉ số R 2 được dùng để giải thích các biến độc lập trong mô hình đối với biến phụ thuộc Tuy nhiên R 2 không biết gì về độ lỗi của mô hình Hơn nữa, R 2 có xu hướng càng lớn khi càng thêm các biến độc lập mới vào mô hình, dẫn tới khả năng R 2 cao nhưng mô hình vẫn có độ lỗi lớn Để giải quyết hạn chế này, có một mở rộng của R 2 đó là R 2 điều chỉnh (Adjusted R-squared) Để đánh giá so sánh giữa các mô hình dự đoán, chúng ta có thể kết hợp các chỉ số ở trên để kết luận.
Phân tích các yếu tố ảnh hưởng giá nhà
Có nhiều yếu tố ảnh hưởng tới giá cả của một căn nhà, nhìn chung các yếu tố này có thể được chia thành 2 nhóm chính, nhóm các yếu tố liên quan tới nội tại căn nhà như vị trí, diện tích, số tầng,… và nhóm các yếu tố bên ngoài như thị trường cung - cầu, kinh tế vĩ mô, lãi suất cho vay, chính sách pháp luật về đất đai,…
Hình 3.5: Các yếu tố ảnh hưởng lên giá bất động sản
Trong phạm vi bài luận văn này, học viên chỉ xem xét các yếu tố bên trong ảnh hưởng tới giá bất động sản Các yếu tố bên ngoài có thể được xem xét để cải tiến và mở rộng hệ thống sau này Bên dưới là một vài yếu tố nội tại có thể ảnh hưởng lên giá của một BĐS
Vị trí là một trong những yếu tố ảnh hưởng mạnh mẽ tới giá bất động sản
Những BĐS ở khu vực trung tâm, khu vực đông dân cư hoặc cụm công nghiệp, thương mại dịch vụ, đầy đủ tiện ích cho cuộc sống (quận 1, quận 3, quận 10, … HCM) thì giá sẽ cao hơn so với vùng ven (huyện Củ Chi, Cần Giờ, …) Những BĐS nằm tại các ngã
4 hay ngã 3 đường giao thông trên các trục giao thông lớn sẽ có giá trị cao hơn Bên cạnh đó, những BĐS ở những khu vực trũng hoặc thấp hơn mặt đường thì giá sẽ thấp hơn bởi chịu sự ảnh hưởng của triều cường và ngập nước khi trời mưa Độ rộng hẻm: những BĐS có hẻm nhỏ ảnh hưởng tới việc di chuyển ra vào nhà, cũng như các khó khăn khi vận chuyển vật liệu để sửa chữa, thi công Bên cạnh đó, khi xảy ra hoả hoạn, hẻm nhỏ sẽ gây nhiều khó khăn trong việc chữa cháy và cứu nạn Vì vậy, những BĐS nằm trong những hẻm nhỏ sẽ có giá trị thấp hơn những hẻm lớn
Khoảng cách tới mặt tiền đường: những BĐS gần mặt tiền đường, có thể dễ dàng di chuyển hoặc ít lần phải rẽ đường đi sẽ có giá cao hơn so với những BĐS nằm xa trục đường chính, hoặc phải đi qua nhiều ngã rẽ Tuy nhiên, yếu tố này cần phải xem xét chung với độ rộng của hẻm Ví dụ, khoảng cách 200-300m đi bằng xe ô tô sẽ dễ dàng di chuyển hơn là khoảng cách 50m mà chỉ có thể di chuyển bằng xe máy, hoặc xe đạp
Số mặt tiếp giáp: những BĐS có nhiều mặt tiếp giáp với hẻm hoặc đường sẽ có lợi thế hơn những BĐS chỉ có 1 mặt tiếp giáp Yếu tố này cũng nên kết hợp với độ rộng của hẻm sẽ ảnh hưởng đến giá trị của BĐS
Chiều rộng mặt tiền: chiều rộng mặt tiền cũng là một yếu tố ảnh hưởng tới giá của BĐS Chiều rộng lớn sẽ ảnh hưởng tích cực tới không gian sống, cũng như khả năng kinh doanh của chủ sở hữu, từ đó cũng sẽ tác động tới giá trị của căn nhà Tuy nhiên, cũng cần phải cân đối giữa chiều rộng và chiều dài Một BĐS có chiều rộng lớn nhưng chiều dài ngắn thì cũng ảnh hưởng tới không gian sống
Diện tích khuôn viên: Có thể nói, diện tích là một yếu tố ảnh hưởng mạnh mẽ lên giá trị của BĐS Diện tích lớn thì giá trị sẽ cao, tuy nhiên giá trị trên một m 2 đất thì lại thấp hơn những BĐS có diện tích nhỏ
Hình dạng thửa đất: đây là yếu tố chính ảnh hưởng tới kiến trúc và không gian sống Những BĐS có hình dạng cân đối/vuông vức sẽ nhiều kiến trúc, kết cấu xây dựng để lựa chọn hơn, từ đó giá trị sẽ cao hơn những BĐS có hình dáng xấu, hình dáng thắt cổ chai,…
Hướng nhà: những BĐS hướng Đông, hướng Nam hoặc hướng Đông Nam sẽ đón nắng mai, hạn chế nắng gay gắt vào buổi chiều, thường sẽ có giá trị hơn Đặc biệt là ở những tỉnh thành/khu vực có thời tiết nắng nóng quanh năm như HCM, Đồng Nai,…
Pháp lý: pháp lý cũng là một trong những yếu tố ảnh hưởng tới giá trị căn nhà, một căn nhà có sổ đỏ/hồng riêng sẽ có giá trị hơn căn nhà có sổ đỏ/hồng chung, và có giá trị hơn căn nhà chưa có sổ.
PHÂN TÍCH VÀ DỰ ĐOÁN GIÁ
Giới thiệu tập dữ liệu
4.1.1 Tổng quan toàn bộ tập dữ liệu
Tập dữ liệu học viên nhận được là một tệp CSV, bao gồm các thông tin liên quan tới BĐS được đăng bán hoặc cho thuê trên trang web của công ty
Tập dữ liệu gồm có 1441 mẫu, mỗi mẫu gồm có 25 trường thể hiện cho đặc điểm của một BĐS Các trường như mô tả bđs, giá bán, kinh độ, vĩ độ, pháp lý, diện tích sàn, chiều dài, chiều ngang, hình dạng đất, khổ mặt đường, số lầu, số phòng ngủ, số phòng tắm,… Thông tin cụ thể của các trường được trình bày ở phần phụ lục - I
Hình 4.1 Sự phân bố loại hình bđs trong toàn bộ tập dữ liệu Tập dữ liệu gồm nhiều loại hình bđs, tuy nhiên sự phân bố số lượng mẫu bđs trên mỗi loại hình không đồng đều, nhiều nhất là loại hình nhà phố, đất thổ cư – đất dân, đất trồng cây lâu năm (cln/chn), tiếp theo tới biệt thự, đất thổ cư – đất nền Cụ thể loại hình bđs và số lượng mẫu được trình bày trong phần phụ lục - II
Bên cạnh đó, các mẫu trong tệp dữ liệu được chia thành 2 loại hình kinh doanh, đó là bán và cho thuê Sự phân bố số lượng mẫu như hình 4.2
Hình 4.2: Sự phân bố giữa số mẫu bán và mẫu cho thuê Như đã trình bày trong phần giới hạn đề tài ở chương 1, luận văn này học viên chỉ tập trung vào loại hình kinh doanh bán và loại hình bđs liên quan tới nhà ở, bao gồm 3 loại hình: nhà phố, biệt thự và nhà phố liền kề
4.1.2 Đặc điểm của tập dữ liệu xem xét
Dựa trên phạm vi đã xác định, sau cùng, học viên có một tập dữ liệu gồm tổng cộng
591 mẫu, bao gồm 322 mẫu ở Đồng Nai và 269 mẫu ở thành phố Hồ Chí Minh
Hình 4.3: Sự phân bố mẫu bán giữa thành phố HCM và tỉnh Đồng Nai
Trong tập dữ liệu sẽ xem xét này, có 2 đặc điểm có thể dễ dàng nhận thấy, đó là:
- Thông tin bị thiếu khá nhiều, phần trăm các trường bị thiếu thông tin được tổng hợp như hình bên dưới
Bảng 4.1: Thông tin dữ liệu bị thiếu ở các trường
Trường Phần trăm dữ liệu bị thiếu (%)
Chất lượng còn lại của căn nhà 81
- Các giá trị thông tin giữa các trường không đồng bộ, cụ thể thông tin ở trường mô tả bđs và các trường khác như diện tích, số tầng, số phòng tắm, số phòng ngủ,… không giống nhau Ví dụ: thông tin trong trường ‘mô tả bđs’ là diện tích 50 m 2 , có 2 tầng, 2 phòng ngủ, 2 nhà tắm,… tuy nhiên giá trị cụ thể trong trường ‘diện tích’ lại là 60m 2 , trường ‘số tầng’ là 3, trường ‘số phòng ngủ’ là 3, trường ‘số phòng tắm’ là 3.
Thu thập / trích xuất dữ liệu
Như đã trình bày ở phần trên, giá trị thông tin giữa trường ‘mô tả bđs’ và các trường khác như ‘số phòng ngủ’, ‘chiều ngang’, ‘số lầu’,… không đồng bộ với nhau Xét về nguồn gốc của một mẫu thông tin căn nhà, là một thông tin được môi giới hoặc chủ nhà đăng lên trang web để chào bán Thông thường thì cả người bán lẫn người mua sẽ tập trung nhiều vào phần mô tả bđs để tìm hiểu thông tin về ngôi nhà Mặc dù được yêu cầu phải điền cụ thể các trường khác, nhưng vì một lý do nào đó mà người bán điền thông tin không chính xác mà chỉ điền giá trị ngẫu nhiên Việc này dẫn tới các thông tin cụ thể trong các trường cụ thể không chính xác bằng thông tin từ trường ‘mô tả bđs’ Vì vậy, học viên sẽ ưu tiên trích xuất thông tin từ trường ‘mô tả bđs’, nếu thông tin các trường không tồn tài trong trường ‘mô tả bđs’, lúc đó học viên mới lấy giá trị cụ thể được cung cấp trong các trường
Ngoài ra, từ trường ‘mô tả bđs’, học viên có trích xuất thêm được một vài thuộc tính khác của ngôi nhà mà học viên nghĩ nó có thể sẽ ảnh hưởng tới giá cả của ngôi nhà đó, các thuộc tính được trích xuất thêm:
- Hầm nhà: Căn nhà có hầm hay không? Nếu có thì giá trị bằng 1, ngược lại là 0
Nếu không tìm thấy thông tin, thì mặc định là không có
- Gác lửng: Căn nhà có gác lửng hay không? Nếu có thì giá trị bằng 1, ngược lại là 0 Tương tự hầm nhà, nếu không tìm thấy thông tin thì mặc định là không có
- Phòng trọ cho thuê: Căn nhà có bao nhiêu phòng trọ đang cho thuê
- Có nhiều hơn 3 tiện ích: Giá trị bằng 1 nếu trong vòng bán kính 500m, căn nhà có đầy đủ các tiện ích như chợ, bệnh viện, trường học, trung tâm thương mại,…
- Có thể kinh doanh: Căn nhà có thể sân, hoặc cổng, hoặc khoảng trống để cho thuê hoặc kinh doanh không?
- Cách trục đường chính: Vị trí hiện tại của căn nhà cách trục đường chính bao nhiêu mét
- Hướng nhà: Căn nhà hiện tại được xây theo hướng nào? Thuộc tính này sau này sẽ được chia thành nhóm ‘huong_nha_group’, nếu căn nhà có hướng nam, hoặc đông nam thì giá trị này bằng 1, ngược lại không tìm thấy thông tin, hoặc hướng khác thì giá trị này bằng 0.
Khám phá dữ liệu
Theo quan sát của học viên thì những căn nhà càng ở gần trung tâm thành phố
Hồ Chí Minh thì sẽ có giá lớn hơn các căn ngoại ô Vì vậy, học viên tạo một thuộc tính mới khoảng cách tới trung tâm thành phố (distance_to_center), khoảng cách này được tính dựa vào 2 thuộc tính ‘kinh độ’ và ‘vĩ độ’ của căn nhà và ‘kinh độ’ và ‘vĩ độ’ của một vị trí đại diện cho trung tâm thành phố - học viên đang chọn chợ Bến Thành Khoảng cách giữa 2 vị trí được tính dựa vào công thức Harversine 2
Mỗi căn nhà đã có số lượng phòng ngủ và số lượng phòng tắm, học viên tạo một thuộc tính mới tổng số phòng bằng tổng của 2 thuộc tính trên
Bên cạnh đó, học viên cũng tạo một thuộc tính ‘nhóm_khoảng_cách_tới_- trung_tâm’, thuộc tính này được chia theo từng từng đoạn, những mẫu càng gần trung tâm thì thuộc nhóm cao hơn Thuộc tính này tỷ lệ nghịch với thuộc tính ‘khoảng_cách-
Khổ mặt đường: Là một thuộc tính thể hiện độ rộng của mặt đường trước căn nhà Giá trị ví dụ như 3m và Tổng hợp từ 3 chỉ số trên, học viên chọn K-Means để phân cụm trên tập dữ liệu này
Hình 5.2: Biểu diễn hệ số Silhouette trên các cụm (bên trái) và sự phân bố của các mẫu trên các cụm trên 2D bằng thuật toán K-Means (HCM) Dựa vào hình 5.2, các hệ số Silhouette của các cụm đều lớn hơn giá trị trung bình nên có thể kết luận các cụm đã được tối ưu Tuy nhiên, số lượng giữa các mẫu trong các cụm không cân bằng Có thể thấy đa số các mẫu sẽ tập trung ở cụm 1
Học viên thực hiện kiểm tra trên 2 tập dữ liệu riêng lẻ tại HCM và ĐN, đánh giá mô hình trên tập kiểm tra, mô hình được sử dụng là các mô hình cho kết quả tốt nhất ở phần benchmark trước Bên cạnh đó, học viên dùng các chỉ số MAE, MSE, RMSE và
R 2 để đánh giá các mô hình Kết quả đánh giá được so sánh với các chỉ số của việc không gom cụm và được trình bày ở bảng 5.5 (HCM) và bảng 5.6 (ĐN)
Bảng 5.5: Kết quả so sánh các chỉ số giữa gom cụm dựa vào các thuộc tính chính với không gom cụm tại HCM
Bảng 5.6: Kết quả so sánh các chỉ số giữa gom cụm dựa vào các thuộc tính chính với không gom cụm tại ĐN
Nhận xét: Có thể thấy, việc phân cụm dựa vào các thuộc tính chính của tập dữ liệu góp phần cải thiện đáng kể độ chính xác của mô hình, các chỉ số MAE, MSE và RMSE giảm, đồng thời chỉ số R 2 tăng lên Đặc biệt ở tập dữ liệu HCM, sự cải thiện rất đáng kể khi giảm được chỉ số RMSE tử 2.56 xuống 1.87, đồng thời các thuộc tính mới (từ việc gom cụm) gia tăng việc giải thích giá nhà từ 59% lên tới 72%.
Tổng kết so sánh các cải tiến
Bảng 5.7: So sánh các chỉ số khi thực hiện các phương pháp gom cụm tại HCM Chỉ số
Không gom cụm 1.8965 6.6000 2.5690 0.5962 Gom cụm sử dụng vị trí 1.8964 6.5995 2.5689 0.5963
Gom cụm sử dụng thuộc tính 1.3263 3.5140 1.8746 0.7276
Nhận xét: Đối với tập dữ liệu tại HCM, có thể thấy việc gom cụm giúp cải thiện độ chính xác trên mô hình, đặc biệt là gom cụm sử dụng các thuộc tính chính của căn nhà Dựa vào bảng 5.7 cũng có thể thấy, việc kết hợp giữa 2 gom cụm không giúp cải thiện độ chính xác hơn khi so sánh với gom cụm thuộc tính
Bảng 5.8: So sánh các chỉ số khi thực hiện các phương pháp gom cụm tại ĐN Chỉ số
Gom cụm sử dụng vị trí 1.1837 3.0983 1.7602 0.7104 Gom cụm sử dụng thuộc tính 1.0052 2.1714 1.4736 0.8114 Kết hợp 2 gom cụm 0.8894 1.7093 1.3074 0.8515
Nhận xét: Đối với tập dữ liệu ĐN, việc gom cụm sử dụng vị trí làm giảm độ chính xác của mô hình, tuy nhiên, việc gom cụm dựa vào các thuộc tính gia tăng độ chính xác, đặc biệt là khi kết hợp 2 gom cụm lại với nhau, kết quả đạt được khá ấn tượng Các thuộc tính mới (từ việc gom cụm ) làm tăng khả năng giải thích các thuộc tính lên giá.