6
PHƯƠNG PHÁP THỰC HIỆN
Trong chương này tơi xin trình bày về nội dung bài toán cần giải của luận văn và phương pháp giải bài tốn đó.
Mục lục
6.1 Nội dung bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.1 Nội dung bài tốn
Với dữ liệu về thơng tin các căn nhà được lấy từ các trang bất động sản, giá (giá bán, giá th,...) của một ngơi nhà có thể khơng chính xác do q trình xử lý dữ liệu, giá căn nhà bị người bán cố tình nâng hoặc giảm giá xuống so với mặt bằng chung,...
Vì thế, cần có những chun gia về nhà đất vào và đánh giá lại giá của từng ngôi nhà, từng khu vực hay con đường. Tuy nhiên, sức người có hạn, các chun gia khơng thể báo giá tất cả các căn nhà, mặt đường hay các con hẻm. Do đó, cần có một giải thuật giúp lan truyền các giá này từ điểm mà các chuyên gia chỉ đến các ngơi nhà khác.
Trong q trình lan truyền, cần tận dụng một số tri thức, kinh nghiệm con người như:
• Giá nhà mặt tiền thường gấp đơi so với nhà trong hẻm một sẹc và nhỏ hơn khoảng 20% so với nhà hai mặt tiền.
• Các nhà trên cùng con đường với nhau thường cùng giá với nhau.
• Giá căn nhà thường gấp khoảng 20 đến 30 lần (thường gấp 24 lần) so với giá thuê của căn nhà đó cũng như giá ngưỡng trên và ngưỡng dưới của một ngơi nhà.
• Các căn nhà trong cùng một quận thường lên/xuống cùng nhau. • ...
K-SOM là một giải thuật thích hợp cho bài tốn này. K-SOM là mạng nơ-ron nhân tạo sử dụng phương pháp học cạnh tranh để làm tăng tính chun mơn hóa của từng node trong mạng. Đối với mỗi vectơ đầu vào, các nơ-ron cạnh tranh với nhau để chọn ra nơ-ron giống với vectơ đầu vào cụ thể nhất. Nơ-ron chiến thắng cập nhật trọng số của nó và cập nhật cho các nơ-ron xung quanh một cách lan truyền.
Điều là nghĩa là, các node gần nhau sẽ có độ tương quan luận lý với nhau. Mỗi cụm node gồm nhiều node sẽ gom cụm các ngơi nhà có sự tương quan nhất định với nhau (chung con đường, tọa độ gần nhau, chung hẻm, cùng quận...). Từ đó, khi cập nhật giá, những ngơi nhà này sẽ có xu hướng tăng (giảm) đồng đều giá nhà cùng nhau.
Để K-SOM có thể phản ánh mức độ tương quan luận lý giữa các căn nhà, cần có một cơng thức khoảng cách luận lý một cách hợp lý cùng với các hệ số thích hợp. Để có được cơng thức này, chúng tơi đã sử dụng GA để học được các hệ số sao cho phù hợp dựa trên ý kiến của chuyên gia.
6.2 Phương pháp giải bài toán 6.2.1 Tập dữ liệu của bài toán
Tập dữ liệu sử dụng trong luận văn này là dữ liệu được lấy từ các trang BĐS trong phạm vi thành phố Hồ Chí Minh. Các trường dữ liệu sẽ sử dụng bao gồm:
• ID: index của một bài báo (post) trong tập dữ liệu. • Latitude: vĩ độ của BĐS trong bài post này. • Longitude: kinh độ của BĐS trong bài post này. • Address District: Tên quận/huyện của BĐS • Address Ward: Tên phường của BĐS • Address Street: Địa chỉ của BĐS
• Position Street: là con số đại diện cho nhà mặt tiền, hai mặt tiền, hẻm một sẹc, hai sẹc,... Chi tiết hơn sẽ được đề cập ở phần hàm pos.
x.position_street Ý nghĩa 1 mặt tiền 2 góc 2 mặt tiền 3 hẻm 1 sẹc 4 hẻm 2 sẹc trở lên 5 hai mặt tiền hẻm 6 hẻm
Bảng 6.1:Các giá trị Position Street
• Area Cal: Diện tích BĐS trong bài post • Floor: Số tầng của BĐS
• Price: Giá bán của BĐS. Dữ liệu được model sử dụng sẽ là:
Giá thị trường đất nhà ở = Giá BĐS – Giá cơng trình
(đã khấu hao và bao gồm chi phí gỡ bỏ tương ứng, trong đó giá cơng trình được tính từ diện tích và số tầng của BĐS)
6.2.1.1 Lọc các điểm nhiễu từ tập dữ liệu
Dữ liệu khơng tránh được có những điểm gây nhiễu, chưa chính xác. Vì thế, cần lọc đi các điểm gây nhiễu (outlier) này để khi chạy thuật tốn cho chính xác hơn.
Tơi sử dụng giải thuật DBSCAN cho từng quận để lọc đi các điểm gây nhiễu. Ứng với mỗi quận, các tham số đầu vào cho giải thuật DBSCAN sẽ khác. Hình dưới đây tơi đã áp dụng giải thuật DBSCAN cho quận 10 với bán kínheps=0.00005 và số điểm tối thiếu cho một cụm min−samples=10: