báo cáo môn chuyên đề cntt dự đoán giá chung cư bằng mô hình hồi quy

Đối với nhà phát triển và nhà đầu tư, dự đoán giá chung cư có thể giúp họ đưa ra quyết định chiến lược về ệc xây dựng, mua bán và cho thuê bất động sảvi n.Mục tiêu chính của báo cáo này

Trang 1

BỘ NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN PHÂN HIỆU TRƯỜ NG Đ ẠI HỌC THỦY LỢI

BỘ MÔN CÔNG NGHỆ THÔNG TIN -

BÁO CÁO MÔN CHUYÊN ĐỀ CNTT

Tên đề tài:

DỰ ĐOÁN GIÁ CHUNG CƯ BẰNG MÔ HÌNH HỒI QUY

TPHCM, ngày 14 tháng 9 năm 2023

Giảng viên hướng dẫn: ThS VŨ THỊ HẠNH

Sinh viên thực hiện: Tăng Vương Thiên Phúc

Trịnh Duy Khánh Phan Trọng Đức

2051067184 2051067153

Trang 2

MỤC LỤC

Trang 3

3. Công nghệ thông tin trong mô hình hồi quy:

7

1.2 Các phương pháp về tiền x lý d liệu: ử ữ Error! Bookmark not defined 1.3 Các k ỹ thuật tiền xử lý d liệu: ữ Error! Bookmark not defined.

Trang 4

LỜI CẢM ƠN

Qua bài tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa công nghệ thông tin, đặc biệt là cô Vũ Thị Hạnh đã cho chúng em có cơ hội được tìm hiểu một góc kiến thức mới, hay và bổ ích cùng với đó là sự tận tâm dạy dỗ chúng em, giúp chúng em có thể hoàn thiện đề tài này Trong quá trình tìm hiểu và hoàn thiện, đề tài

sẽ khôngthểtránh khỏi những saisót, khuyếtđiểm.Vìvậy, nhómthực hiện chúng

em hy vọng nhận được sự đánh giá và đóng góp nhiệt tình từ phía thầy và các bạn

để bài của nhóm chúng em được hoàn thiện hơn

Qua bài tập lớn này, chúng em xin cảm ơn các bạn lớp S23-62TH đã giúp đỡ chúng em trong quá trình học tập và làm bài tập lớn, đã chia sẻ kinh nghiệm kiến thức của các bạn đã tạo nên nền tảng kiến thức cho chúng em

Chúngemxin chânthành cảm ơn!

Trang 5

MỞ ĐẦU

Mở đầu báo cáo chuyên ngành Công nghệ thông tin về dự đoán giá chung cư bằng mô hình hồi quy là một phần quan trọng trong việc hiểu rõ và dự đoán các yếu tố ảnh hưởng đến giá bất động sản Trong báo cáo này, chúng ta sẽ trình bày quá trình nghiên cứu và phát triển

mô hình hồi quy dự đoán giá chung cư, với sự sử dụng của công nghệ thông tin để cải thiện độ chính xác và t c đố ộ của dự đoán

Trong một thời đại mà thị trường bất động sản đang phát triển mạnh mẽ, việc dự đoán giá chung cư trở nên quan trọng hơn bao giờ hết Đối với người mua, bấ ộng sản là một đầt đ u

tư lớn, và có khả năng dự đoán giá là một yếu tố quyết định trong quá trình quyết định mua hoặc không mua một căn hộ Đối với nhà phát triển và nhà đầu tư, dự đoán giá chung cư có thể giúp họ đưa ra quyết định chiến lược về ệc xây dựng, mua bán và cho thuê bất động sảvi n.Mục tiêu chính của báo cáo này là tạo ra một mô hình dự đoán giá chung cư dựa trên

dữ ệu lịch sử và các yếu tố ảnh hưởng Chúng tôi sẽ sử dụng kỹ thuật hồi quy, một phương lipháp thống kê mạnh mẽ, để thực hiện dự đoán này Cụ ể, chúng tôi sẽ:th

Thu thập và tiền xử lý dữ ệu liên quan đến giá chung cư, diện tích, vị li trí, tiện ích,

và các yếu tố khác có thể ảnh hưởng đến giá

Xây dựng một mô hình hồi quy dự đoán giá chung cư, sử dụng các công nghệ thông tin và công cụ phân tích dữ liệu hiện đại

Đánh giá hiệu suất của mô hình và đề xuất cải tiến nếu cần

Mô hình hồi quy là một phương pháp thống kê phổ biến và hiệu quả trong việc dự đoán các giá trị số Chúng ta sử dụng hồi quy vì nó cho phép chúng tôi phân tích sự tương quan giữa giá chung cư và các biến độ ập, như diện tích, vị c l trí, tiện ích, và nhiều yếu tố khác Sự kế ợp giữa công nghệ thông tin và hồi quy sẽ giúp cải thiện tính chính xác và tốt h c

độ của dự đoán

Trang 6

trọng để hỗ ợ quyế ịnh mua bán, đầu tư, hay cho thuê bấ ộng sản Chính vì vậy, tr t đ t đchúng ta quyết định nghiên cứu về việc dự đoán giá chung cư bằng mô hình hồi quy, với sự áp dụng của công nghệ thông tin để làm cho quá trình này trở nên hiệu quả hơn

và chính xác hơn

2 Tầm quan trọng của vấn đề

Đối với người dân: Giá chung cư ảnh hưởng đến quyế ịnh mua bất động sản và t đtài chính cá nhân của mọi ngư i ờ Hiểu rõ giá chung cư giúp họ đưa ra quyế ịnh t đthông minh về việc mua nhà để ở, đầu tư, hoặc cho thuê

Đối với nhà phát triển và nhà đầu tư: Dự đoán giá chung cư giúp họ ản lý dự qu án xây dựng, dự án đầu tư, và lập kế ạch kinh doanh Nắho m b t đưắ ợc sự biến động của

th trưị ờng giúp họ tối ưu hóa lợi nhuận và giảm rủi ro

3 Mục tiêu nghiên cứu:

Mục tiêu chính của nghiên cứu này là phát triển một mô hình dự đoán giá chung

cư dựa trên d liữ ệu lịch sử và các yếu tố ảnh hưởng Cụ ể, chúng ta đặth t ra các mục tiêu sau:

Xây dựng một mô hình hồi quy đa biến dự đoán giá chung cư dựa trên các biến độc lập như diện tích, vị trí, tiện ích, số ợng phòng, và các yếu tố khác.lư

Sử dụng công nghệ thông tin và các công cụ phân tích dữ ệu để tối ưu hóa quá litrình x lý dử ữ liệu, lựa chọn biến quan trọng, và đánh giá mô hình

Đánh giá hiệu suất của mô hình bằng các chỉ số ống kê và đồ ị, để xác định th thmức độ chính xác của dự đoán

Nếu cần, đề xuất các cải tiến và ứng dụng thực tế của mô hình dự đoán giá chung

cư trong lĩnh vực bấ ộng sản.t đ

Trang 7

Bằng cách đạt được những mục tiêu này, chúng ta hy vọng rằng nghiên cứu này

sẽ đóng góp vào việc nâng cao hiệu quả và chính xác trong việc dự đoán giá chung cư, giúp cả người dân và các nhà đầu tư trong lĩnh vực bất động sản đưa

ra các quyết định thông minh và đúng đắn

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ MÔ HÌNH HỒI QUY VÀ

CÔNG NGHỆ THÔNG TIN

1 Mô hình hồi quy:

Mô hình hồi quy là một phương pháp thống kê đượ ử dụng để dự đoán giá trị củc s a một biến phụ thuộc (dependent variable) dựa trên một hoặc nhiều biến độc lập (independent variables) Trong trường hợp của chúng ta, biến phụ thuộc là giá chung

cư, trong khi các biến độc lập có thể bao gồm diện tích, vị trí, tiện ích, số ợng phòng, lư

và nhiều yếu tố khác Mô hình hồi quy giúp chúng ta hiểu mối quan hệ giữa các biến này và dự đoán giá chung cư dựa trên d liữ ệu lịch sử

2 Loại mô hình hồi quy:

Hồi quy tuyến tính đơn biến: Trong trường hợp này, chỉ có một biến độc lập ảnh

hưởng đến biến phụ thuộc Ví dụ, dự đoán giá chung cư dựa trên diện tích

Hồi quy tuyến tính đa biến: Khi có nhiều biến độc lập ảnh hưởng đến biến phụ thuộc

Mô hình này phù hợp để dự đoán giá chung cư, vì nó cho phép chúng ta xem xét tất

cả các yếu tố ảnh hưởng cùng một lúc

Hồi quy Logistic: Loại hồi quy này thường được sử dụng khi biến phụ thuộc là một biến nhị phân, chẳng hạn như dự đoán xem một căn hộ sẽ được bán hay không

Hồi quy Ridge và Lasso: Đây là các biến thể của hồi quy tuyến tính đa biến với mục

tiêu kiểm soát overfitting và cải thiện tính ổn định của mô hình

3 Công nghệ thông tin trong mô hình hồi quy:

Thu thập và xử lý dữ liệu: Công nghệ thông tin giúp thu thập dữ liệu từ nhiều nguồn

khác nhau và tự động hóa quá trình xử lý dữ ệu Các công cụ và ngôn ngữ lập trình linhư Python R, , và SQL thường được sử dụng để làm việc với d liệu.ữ

Mô hình hóa dữ liệu: Công nghệ thông tin cho phép xây dựng mô hình hồi quy dựa

trên dữ ệu thu thập Thư viện và li framework như scikit-learn TensorFlow, , và PyTorch giúp chúng ta triển khai mô hình một cách hiệu quả

Đánh giá và cải tiến mô hình: Công nghệ thông tin cung cấp các công cụ để đánh giá

hiệu suấ ủa mô hình, như t c cross-validation mean squared error MSE r-square, ( ),

Trang 8

Nó cũng hỗ ợ tối ưu hóa mô hình thông qua việc điều chỉnh siêu tham số tr

(hyperparameters) và sử dụng các kỹ thuật như feature selection

Trực quan hóa kết quả: Công ngh thông tin cho phép tệ ạo đồ ị và biểu đồ để hiển ththị kết quả của mô hình hồi quy, giúp người dùng hiểu rõ hơn về mối quan hệ giữa các biến và dự đoán

4 Công cụ

Nhóm em sử dụng Colaboratory ( Google Colab ) để viết code.

Google Colab là một sản phẩm từ Google Research, nó cho phép chạy các

dòng code Python thông qua trình duyệt, đặc biệt phù hợp với Data analysis, machine learning và giáo dục

Google Colab được Google phát hành đến với công chúng nhằm để cải thiện

chất lượng giáo dục Và bên cạnh đó là việc nghiên cứu Machine Learning.

5.1 Khái niệm tiền xử lý dữ liệu:

Tiền xử lý dữ ệu (li data preprocessing) là quá trình chuẩ bị và làm sạch n

dữ liệu trước khi nó được sử dụng cho các nhiệm vụ phân tích dữ ệu hoặc huấli n luyện mô hình máy học Quá trình này rất quan trọng trong quá trình khai phá

dữ ệu (li data mining) và phân tích dữ ệu (li data analysis), bởi vì dữ ệu thô lithường không đủ hoàn hảo để ợc sử dụng trực tiếp Mục tiêu chính của tiềđư n

xử lý dữ ệu là làm cho dữ ệu trở nên dễ dàng để làm việc và phân tích, cảli li i thiện chất lượng dữ ệu, và giảm tiề ẩn cho sự sai lệch và nhiễu trong dữ li m liệu

Trang 9

5.2 Các bước tiền xử lý dữ ệu thường bao gồ li m:

Thu thập dữ liệu: Đây là bước đầu tiên trong quá trình tiền xử lý dữ ệu, linơi bạn thu thập dữ ệu từ các nguồn khác nhau, chẳng hạn như cơ sở dữ liliệu, tệp văn bản, cảm biến, hoặc trực tuyến

Làm sạch dữ ệu (Data Cleaning li ): Loại bỏ c giá trị bị thiếu (cá missing values), giá trị ngoại lệ ( outliers), hoặc dữ ệu không hợp lệ Điều này bao ligồm việc điền giá trị thiếu, loại bỏ giá trị ngoại lệ, và sửa lỗi trong dữ liệu

Tiêu chuẩn hóa dữ liệu Data Standardization ( ): Chuyển đổi dữ liệu thành định dạng tiêu chuẩn để đảm bảo tính nhất quán và dễ dàng so sánh Ví dụ,

có thể chuyển đổi đơn vị đo lường hoặc tỷ lệ các biến sao cho chúng có cùng phạm vi hoặc định dạng

Biến đổi dữ ệu (Data Transformation): li Áp dụng các biến đổi dữ ệu để litạo ra các tính năng mới hoặc biến đổi hiện có Ví dụ ạn có thể tạo tổng , bcủa một số ến, thực hiện chuyển đổbi i logarit, hoặc chuẩn hóa phân phối của

bi n.ế

Tạo tập dữ ệu (Data Sampling): li Nếu dữ ệu quá lớn, bạn có thể lấy mẫli u một phần nhỏ để tăng hiệu suất xử lý hoặc xây dựng mô hình

Chọn tính năng (Feature Selection): Xác định các tính năng quan trọng

cho mô hình hoặc phân tích và loại bỏ các tính năng không cần thiết

Xử lý dữ ệu dạng văn bản hoặc hình ảnh (Text or Image Data li Processing): Nếu bạn làm việc với dữ ệu văn bản hoặc hình ảnh, bạn cầli n thực hiện các bước đặc biệt cho loại dữ ệu này, chẳng hạn như rút trích đặli c trưng (feature extraction) cho dữ ệu văn bản hoặc tiền xử lý hình ảnh li

(image preprocessing).

Xử lý lặp lại (Handling Redundancy): ại bỏ dữ ệu trùng lặp nếu có.Lo li

Trang 10

Quá trình tiền xử lý dữ liệu là một phần quan trọng trong chuỗi công việc khi làm việc với dữ ệu, và nó ảnh hưởng đáng kể đến kết quả ối cùng của các li cuphân tích và mô hình hóa dữ liệu.

6 Ứng dụng của khai phá dữ liệu

Ứng dụng của khai phá dữ ệu rất đa dạng và được sử dụng rộng rãi trong nhiều lilĩnh vực khác nhau Dưới đây là một số ví dụ về cách khai phá dữ ệu có thể được áp lidụng:

Bất động sản: Khai phá dữ ệu có thể được sử dụng để phân tích giá cả, dự đoán li

th trưị ờng bất động sản, và tìm ra các yếu tố ảnh hưởng đến giá nhà Điều này giúp người mua và nhà đầu tư hiểu rõ hơn về ị trường và đưa ra quyết định dựa trên ththông tin cụ thể

Kinh doanh và tiếp thị: Các doanh nghiệp sử dụng khai phá dữ liệu để hiểu hơn về

hành vi của khách hàng, dự đoán xu hướng tiêu dùng, và tối ưu hóa chiến dịch tiếp thị Điều này giúp họ tạo ra chiến lược kinh doanh hiệu quả hơn

Y tế: Khai phá dữ ệu y tế có thể giúp trong việc phát hiện bệnh tật sớm, dự đoán lidịch bệnh, và nghiên cứu về hiệu quả của các phương pháp điều trị

Tài chính: Ngành tài chính sử dụng khai phá dữ ệu để dự đoán biến động thị litrường tài chính, xác định rủ ro tín dụng, và tối ưu hóa quản lý danh mụi c đầu tư

Giáo dục: Trong giáo dục, khai phá dữ liệu có thể được sử dụng để theo dõi tiến bộ

học tập của học sinh, cá nhân hóa phương pháp dạy học, và cải thiện chất lượng giảng dạy

Hệ ống điều khiển tự độ th ng: Trong các hệ ống tự động như xe tự hành và nhà ththông minh, khai phá dữ liệu được sử dụng để thu thập thông tin từ cảm biến và điều khiển các hoạ ộng theo cách tối ưu.t đ

Chăm sóc sức khỏe cá nhân: Ứng dụng di động và các thiết bị theo dõi sức khỏe

sử dụng khai phá dữ liệu để cung cấp thông tin sức khỏe cá nhân và đề xuất các biện pháp cải thiện

An ninh và phát hiện gian lận: Các tổ chức sử dụng khai phá dữ ệu để phát hiệli n các hoạt động gian lận, bất thường trong giao dịch, và xác định nguy cơ bảo mật

Trang 11

Hành vi xã hội và dự đoán: Mạng xã hội và các nề ảng trực tuyến t n sử dụng khai phá dữ ệu để dự đoán sở thích và hành vi của người dùng, cung cấp nội dung cá linhân hóa và quảng cáo đích thực.

Nghiên cứu khoa học: Khai phá dữ ệu cũng được sử dụng rộng rãi trong nghiên licứu khoa học, từ nghiên cứu khoa học xã hội đến khoa học máy tính và các lĩnh vực khác

Ngoài ra, hệ ống còn áp dụng thuật toán phân loạ để phân loại các chung cư vào th i các nhóm giá cả, như "giá thấp," "giá trung bình" và "giá cao." Điều này giúp người dùng hiểu rõ hơn về đa dạng trong thị trường bấ ộng sản và tìm ra các tùy chọn phù t đhợp với nhu cầu của họ Các phân nhóm này có thể được xây dựng dựa trên mức giá trung bình trong khu vực, diện tích, hoặc các tiêu chí khác

Để ển khai hệ ống hỗ ợ ra quyế ịnh này, chúng ta cần sử dụng dữ ệu từ tri th tr t đ licác giao dịch mua bán chung cư trước đó, bao gồm thông tin về diện tích, vị trí, số phòng ngủ và giá bán Các thuật toán hồi quy và phân loại sẽ sử dụng dữ ệu này để lixây dựng các mô hình dự đoán và phân loại Kế ợp cả hai thuật toán này giúp tăng t htính chính xác và sự hiệu quả của h thống, cung cấp cho người dùng thông tin quý ệ báu để đảm bảo sự hài lòng và đầu tư thông minh trong thị trường bất động sản

Trang 12

có thể giúp dự đoán giá cả, giá trị tài sản, hoặc các yếu tố khác dựa trên dữ ệu có sẵn.li

Mục tiêu chính c a ủ Linear Regression trong lĩnh vực bất động sản như đã được nêu rõ trong đoạn văn là tìm ra những qui luật hoặc mô hình tiề ẩn trong dữ ệu liên m liquan đến dự án chung cư Cụ ể, có thể sử dụng th Linear Regression để:

Dự đoán giá cả : Một ứng dụng phổ biến của Linear Regression là xây dựng mô hình dự đoán giá cả căn hộ hoặc dự án chung cư dựa trên các yếu tố như vị trí, diện tích, tiện ích, và các yếu tố khác Điều này giúp người mua và bán có cái nhìn trực

tiếp về giá trị ềm năng.ti

Đánh giá tác động của yếu tố độc lập: Linear Regression cho phép xác định mức

độ ảnh hưởng của các biến độc lập (ví dụ: diện tích, vị trí, tiện ích) lên biến phụ thuộc (ví dụ: giá cả) Điều này có thể giúp nhà phát triển và quản lý dự án hiểu rõ hơn về yếu tố nào đóng góp nhiều vào giá trị tài sản

Đánh giá hiệu suấ t d ự án: Linear Regressioncũng có thể đượ ử dụng để đánh c sgiá hiệu suất dự án bất động sản Điều này bao gồm việc dự đoán giá trị tài sản theo thời gian hoặc đo lường tác động của các cải thiện cơ sở hạ tầng và thay đổi môi trường xung quanh dự án

Linear Regression không chỉ giúp xây dựng mô hình dự đoán mà còn giúp hiểu

sâu hơn về mối quan hệ giữa các yếu tố bấ ộng sản và git đ á trị của chúng Điều này cung cấp tri thức giúp ngành bấ ộng sản đưa ra quyế ịnh thông minh hơn, tạo lợt đ t đ i ích cho người mua và nhà phát triển

Trang 13

Random forrest

Random Forest là một phương pháp máy học mạnh mẽ có thể đượ ứng dụng c trong lĩnh vực bấ ộng sản để dự đoán giá chung cư và khám phá mối quan hệ phức t đtạp giữa các biến độ ập và giá trị c l tài sản, như được mô tả trong đoạn văn

Random Forest là một thuật toán học máy dựa trên nguyên tắc của "tập hợp"

(ensemble learning), trong đó nó sử dụng một loạt cây quyế ịnh (t đ decision trees) để tạo ra một mô hình dự đoán mạnh hơn Đây là cách Random Forest có thể đượ ứng c dụng trong lĩnh vực bất động sản:

Dự đoán giá cả: Random Forest có khả năng học từ dữ ệu lịch sử về giá chung li

cư và các yếu tố độc lập như vị trí, diện tích, tiện ích, và nhiều biến khác Dựa trên việc xây dựng hàng loạt cây quyết định từ dữ liệu này, nó có thể tạo ra một mô hình

dự đoán giá cả chính xác hơn và ổn định hơn

Đánh giá tác động của yếu tố độc lập: Random Forest cho phép đánh giá tác

động của các yếu tố độc lập lên giá trị tài sản bằng cách xem xét độ quan trọng của từng biến trong việc tạo ra dự đoán Điều này giúp nhà phát triển và quản lý dự án hiểu rõ hơn về cách từng yếu tố ảnh hưởng đến giá bấ ộng sản.t đ

Đánh giá hiệ u suất dự án: Random Forest có thể được sử dụng để đánh giá hiệu suất dự án bất động sản theo thời gian Điều này có thể bao gồm việc dự đoán giá

trị tài sản trong tương lai dựa trên dữ liệu cũ và các yếu tố thay đổi.

Một điểm mạnh của Random Forest là khả năng xử lý các tương tác phức tạp giữa các biến độ ập, đồng thời giảm thiểu hiện tượng overfitting (quá khớp) và cải c lthiện tính ổn định của mô hình dự đoán

Với Random Forest, lĩnh vực bấ ộng sản có thể sử dụng dữ liệu lịt đ ch sử và các yếu tố quan trọng để tạo ra mô hình dự đoán giá trị tài sản và hiểu rõ hơn về ị thtrường Điều này giúp người mua và nhà phát triển đưa ra quyế ịnh thông minh hơn, t đmang lại lợi ích lớn cho ngành bất động sản

Decision Tree

Cây quyết định là một phương pháp phân loại và dự đoán trong lĩnh vực bất động sản Nó là một thuật toán máy học mạnh mẽ cho phép xây dựng mô hình dự đoán dựa

Trang 14

trên quyế ịnh đượ ạo ra từ dữ ệu Trong bấ ộng sản, t đ c t li t đ decision tree có thể được

áp dụng để:

Phân loại bất động sản: Decision tree có thể được sử dụng để phân loại các loại

bất động sản vào các danh mục dựa trên các yếu tố quan trọng như diện tích, vị trí, loại hình, và giá trị Chẳng hạn, bạn có thể tạo một cây quyết định để phân loại các căn hộ thành "căn hộ cao cấp," "căn hộ tiêu chuẩn," hoặc "căn hộ giá rẻ" dựa trên các đặc điểm của chúng

Dự đoán giá trị tài sản: Decision tree có thể được sử dụng để dự đoán giá trị của

tài sản dựa trên các yếu tố như diện tích, vị trí, tiện ích, và tình trạng của tài sản Điều này giúp người mua và bán bất động sản hiểu rõ hơn về giá trị ềm năng củti a tài sản và quyế ịnh mua bán dựa trên dự đoán từ cây quyết định.t đ

Đánh giá quyết định đầu tư: Decision tree cũng có thể giúp nhà đầu tư bất động

sản đánh giá quyết định đầu tư Bằng cách sử dụng các yếu tố như tỷ ất lợi nhuận su

kỳ vọng, thời gian đầu tư, và rủi ro, cây quyế ịnh có thể tạo ra các dự đoán về t đ khả năng sinh lờ ừ dự án đầu tư cụ i t thể

Cây quyết định giúp tạo ra sự minh bạch trong quá trình ra quyết định và tạo ra các lựa chọn dựa trên dữ ệu thống kê Nó cung cấp cho người dùng cái nhìn trực quan về liquyết định và có thể giúp họ đưa ra các quyết định thông minh trong lĩnh vực bấ ộng t đsản

Support Vector Machine – SVM

Một trong những công cụ quan trọng trong việc dự đoán và phân loại trong lĩnh vực bất động sản là Support Vector Machine (SVM) SVM là một thuật toán học máy đượ ử dụng rộng rãi trong việc phân loạc s i và dự đoán dựa trên dữ ệu Nó có likhả năng xây dựng một ranh giới tối ưu giữa các lớp dữ ệu khác nhau dựli a trên các điểm dữ ệu mẫu Trong lĩnh vựli c bất động sản, SVM có thể được áp dụng trong các tác vụ sau:

Phân loại loại hình bất động sản: SVM có thể được sử dụng để phân loại các loại

hình bất động sản như căn hộ, biệt thự, nhà phố, văn phòng, và nhiều loại khác Điều này giúp người mua và nhà đầu tư nhanh chóng xác định loại hình bất động sản phù hợp với nhu cầu của họ

Trang 15

Dự đoán giá trị bấ t đ ộng sản: SVM có khả năng dự đoán giá trị của bất động sản dựa trên các yếu tố như diện tích, vị trí, tiện ích, và các biến độc lập khác Điều này giúp người mua và bán có cái nhìn chi tiết về giá trị ềm năng của tài sản.ti

Đánh giá tác động của yếu tố độc lập: SVM có thể xác định mức độ ảnh hưởng

của các biến độc lập như vị trí, giao thông, hoặc tiện ích đối với giá trị bất động sản Điều này giúp nhà phát triển hiểu rõ hơn về những yếu tố nào có thể làm tăng hoặc giảm giá trị tài sản

Phát hiện biên giới và khuyến nghị đầu tư: SVM cũng có thể được sử dụng để

xác định biên giới của một khu vực cụ ể dựa trên các dữ ệu địa lý Nó có thể hỗ th litrợ trong việc đưa ra quyết định đầu tư thông minh bằng cách xác định các vùng có tiềm năng tăng giá trị trong tương lai

SVM là một công cụ mạnh mẽ để hỗ ợ quyết định trong lĩnh vựtr c bất động sản

Nó giúp tạo ra các mô hình dự đoán chính xác và tối ưu hóa quyế ịnh dựt đ a trên dữ

liệu, giúp cho người mua, bán, và nhà đầu tư đạt được sự hiểu biết sâu sắc hơn về thị trường bấ ộng sản.t đ

K-nearest neighbors

Phương pháp K-nearest neighbors (KNN) là một trong những kỹ thuật quan

trọng trong việc phân tích dữ ệu bấ ộng sản li t đ KNN dựa trên ý tưởng rằng các bất

động sản tương tự sẽ có giá trị tương tự Trong bố ảnh bấ ộng sản, i c t đ KNN có thể được áp dụng như sau:

Dự đoán giá cả: Khi có một tài sản mới cần định giá, KNN có ể được sử dụng để thtìm ra các bất động sản tương tự nhất trong kho dữ ệu và dự đoán giá của tài sản limới dựa trên giá trị của những bấ ộng sản gần nhất.t đ

Lựa chọn vị trí phù hợp: KNN có thể giúp người mua bất động sản tìm các khu

vực có bấ ộng sản tương tự với các yếu tố như vị trí, diện tích, tiện ích, và giá trị t đĐiều này giúp họ tìm ra những vị trí phù hợp với nhu cầu của họ

Đánh giá thị trư ờng tài sả n: Bằng cách quan sát các tài sản trong khu vực cụ ể th

và sử dụng KNN, bạn có thể đánh giá thị trường bất động sản trong khu vực đó Điều này có thể giúp nhà đầu tư và nhà phát triển hiểu rõ hơn về giá trị tài sản và tiềm năng lợi nhuận

KNN có th cung cể ấp một cách tiếp cận đơn giản và hiệu quả để đánh giá và dự đoán giá trị tài sản dựa trên các yếu tố quan trọng trong bấ ộng sản Nó giúp ngườt đ i

Trang 16

Thị trường bất động sản ngày nay đang trải qua sự ến đổi nhanh chóng, và biviệc dự đoán giá chung cư trở nên ngày càng quan trọng đối với người mua và nhà đầu tư Việc đưa ra quyết định thông minh về mua hoặ đầu tư vào bất động c sản đòi hỏi sự ểu biết về ững yếu tố ảnh hưởng đến giá cả và giá trị của các hi nh

dự án chung cư Đây chính là lý do tại sao sử dụng các kỹ thuật và thuật toán trong lĩnh vực dự đoán giá chung cư trở nên cần thiết

Chương 3 sẽ ới thiệu các kỹ thuật và thuật toán chính mà chúng ta sẽ sử gidụng trong dự án dự đoán giá chung cư Các kỹ thuật này bao gồm những phương pháp mạnh mẽ trong lĩnh vực thống kê, máy học và khoa học dữ ệu, giúp chúng li

ta hiểu rõ hơn về dữ ệu thị trường bất động sản và xây dựng các mô hình dự liđoán

Chương 3 sẽ giải quyết một số mục tiêu chính, bao gồm:

Hiểu biết về các kỹ thuật và thuật toán: Chúng ta sẽ tìm hiểu về các kỹ thuật như Linear Regression, Decision Trees Random Forests, và các thuật toán phân loại

Ứng dụng các kỹ thuật và thuật toán: Chúng ta sẽ ảo luận về cách áp dụng các th

kỹ thuật và thuật toán này vào việc dự đoán giá chung cư và phân loại chúng dựa trên các yếu tố quan trọng

Hiểu rõ vai trò của các kỹ thuật và thuật toán trong thị trư ờng bất động sả n:

Chúng ta sẽ đánh giá cách các kỹ thuật này có thể cải thiện tính chính xác và sự

Trang 17

hiệu quả trong việc dự đoán giá cả, đánh giá tác động của các yếu tố độc lập và đánh giá hiệu suất dự án bất động sản.

import pandas as pd: Dòng này nhập thư viện pandas, thường được sử dụng để

thao tác và phân tích dữ liệu

import numpy as np: Thư viện numpy, được sử dụng để thực hiện các phép toán

số học và cung cấp các cấu trúc dữ ệu cho dữ ệu số.li li

import matplotlib.pyplot as plt: Thư viện matplotlib, dùng để ực quan hóa dữ trliệu, bao gồm việc tạo biểu đồ và biểu đồ

Import các thư viện Machine Learning:

from matplotlib import style

from sklearn.model_selection import StratifiedShuffleSplit, cross_val_score

from sklearn.linear_model import LinearRegression

from sklearn.tree import DecisionTreeRegressor

from sklearn.ensemble import RandomForestRegressor

from sklearn.metrics import mean_squared_error

from sklearn.preprocessing import StandardScaler

Trang 18

from sklearn.model_selection import .: Dòng này nhập các hàm và lớp liên

quan đến việc chia dữ ệu, kiểm tra sự tồn tại của phần thiếu và tối ưu hóa siêu litham số cho các mô hình học máy

from sklearn.preprocessing import StandardScaler: Import lớp để chuẩn hóa (scale) các đặc trưng số

from sklearn.linear_model import LinearRegression: Import lớp Linear Regression cho mô hình hồi quy tuyến tính.

from sklearn.metrics import mean_squared_error: Import phương pháp để

đánh giá mô hình hồi quy

from sklearn.tree import DecisionTreeRegressor: Import lớp Decision Tree Regressor cho mô hình hồi quy dựa trên cây quyết định.

from sklearn.ensemble import RandomForestRegressor: Import lớp Random Forest Regressor cho mô hình hồi quy dựa trên rừng ngẫu nhiên

from sklearn.model_selection import StratifiedShuffleSplit : Lớp Stratified Shuffle Split được sử dụng để tạo sự phân chia dữ ệu/kiểm tra được phân tầng li

và xáo trộn Tính năng này hữu ích khi bạn muốn duy trì sự phân bổ lớp trong tập

dữ ệu của mình trong quá trình phân chia, điều này rất cần thiết cho một số tác li

vụ phân loại nh t đấ ịnh

from sklearn.model_selection import cross_val_score: Quá trình nhập này cho

phép bạn sử dụng hàm cross_val_score để ực hiện xác thực chéo, điều này rấth t quan trọng để đánh giá hiệu suấ ổng quát hóa của các mô hình học máy.t t

from matplotlib import style: Câu lệnh nhập này cho phép bạn đặt kiểu cho các

ô Matplotlib Bạn có thể chỉ định kiểu của ô bằng cách sử dụng lần nhập này, điều

này có thể ảnh hưởng đến giao diện trực quan hóa của bạn

Chọn dữ liệu:

from google.colab import files

uploaded = files.upload()

Dòng này sử dụng thư viện google.colab để tải lên một tệp CSV từ máy tính cá nhân của bạn

và lưu trữ nó trong môi trường Google Colab

Đọc dữ liệu:

df = pd.read_csv('housing.csv')

Trang 19

Dòng này sử dụng pd.read_csv('housing.csv') để nạp tệp CSV ('housing.csv') vào một Data Frame của pandas có tên là df DataFrame này cho phép bạn làm việc với dữ ệu trong mã linguồn của bạn.

df["ocean_proximity"].value_counts(): Đếm số ợng giá ị duy nhấlư tr t trong cột

"ocean_proximity", giúp bạn hiểu về phân phối của d liữ ệu phân loại

df.describe(): Cung cấp các thống kê tóm tắt cho các cộ ố học, như giá trị trung bình, độ t slệch chuẩn, giá trị tối thiểu và tối đa

Trực quan hóa dữ liệu:

df.hist(bins=50, figsize=(15, 8))

Tạo ra biểu đồ histogram cho mỗi đặc trưng số học trong tập dữ ệu Biểu đồ lihistogram giúp bạn xem phân phố ủa các đặc trưng số, có thể giúp bạn hiểu về các mẫu dữ i cliệu

Trang 20

Chia dữ liệu:

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

for train_index, test_index in split.split(df, df["income_categories"]):

strat_train_set = df.loc[train_index]

strat_test_set = df.loc[test_index]

StratifiedShuffleSplit là một phương thức trong scikit-learn được sử dụng để phân chia

dữ ệu có tính đồng nhất (stratified) thành các phần Nó đảm bảo rằng phân phối củli a một biến phân loại (có lẽ "income_cat") được bảo toàn trong các phần

n_splits=1 chỉ định rằng bạn muốn tạo một lần phân chia duy nhất

test_size=0.2 xác định kích thước phần kiểm tra, trong trường hợp này, là 20% của tập

dữ liệu

Tiêu đề	Dự đoán giá chung cư bằng mô hình hồi quy
Tác giả	Tăng Vương Thiên Phúc, Trịnh Duy Khánh, Phan Trọng Đức
Người hướng dẫn	ThS. Vũ Thị Hạnh
Trường học	Trường Đại học Thủy lợi
Chuyên ngành	Công nghệ thông tin
Thể loại	Báo cáo môn chuyên đề
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	41
Dung lượng	3,73 MB