Chính vì thế, từ dữ liệu thu thập được tại thành phố Chennai một trong những thành phố lớn nhất Ấn Độ, nhóm có thể giúp cho các người dân tại đây hiểu hơn về những yếu tố ảnhhưởng đến g
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG
KHOA THƯƠNG MẠI ĐIỆN TỬ
-BÁO CÁO GIỮA KỲ
Trang 2a Data Cleaning 3
Hình 1 Ảnh hưởng của diện tích ( sqft m2 ) lên giá nhà 13
Hình 2 Ảnh hưởng của khoảng cách của nhà và đường lớn đến giá nhà
14
Hình 3 Ảnh hưởng của tổng số phòng đến giá nhà 14
Hình 4 và 5 Giá nhà trung bình và số căn nhà được mua tại các địa
Hình 6 Sự khác biệt về giá giữa nhà có chỗ để xe và không có chỗ để xe
17
Hình 7 Sự khác biệt về giá giữa đường nhà được lát sỏi và bê tông 17
Hình 8 Sự ảnh hưởng của mật độ dân cư quanh căn nhà đến giá nhà 18 Hình 9 Sự khác biệt về giá giữa những ngôi nhà có cơ sở vật chất khác
Lý do chọn đề tài: Ấn Độ là đất nước có số lượng dân số cao thứ hai thế giới Với sự bùng nổ dân số
tại quốc gia này, việc mua được một căn nhà có hợp lýý đối với mỗi khách hàng là một công việc không hề dễ dàng Chính vì thế, từ dữ liệu thu thập được tại thành phố Chennai ( một trong những thành phố lớn nhất Ấn Độ), nhóm có thể giúp cho các người dân tại đây hiểu hơn về những yếu tố ảnhhưởng đến giá nhà cho nơi ở của họ, so sánh giữa các loại nhà khác nhau và cũng giúp người bán hiểuđược những yếu tố nào đang kiếm thêm tiền cho căn nhà để có thể cải thiện tăng doanh thu cho ngànhbất động sản
Trang 3Bộ dữ liệu: CHENNAI HOUSE PRICE
Công cụ: Python, Tableau, SSAS
Phương pháp: Clustering, Linear Regression
Kỹ thuật:
- Mô tả và trực quan hóa dữ liệu
- Clustering: gộp nhóm các căn nhà và tìm đặc điểm các căn nhà đó để có thể định giá nhà phù
hợp KMEANS
- Hồi quy dự báo giá LINEAR
=> Định giá bán phù hợp cho những căn nhà này (Định giá dựa trên chi phí))
Trang 4- Đổi kiểu dữ liệu
Too long to read on your phone? Save
to read later on your computer
Save to a Studylist
Trang 5- Thêm cột “Age”
- Kiểm tra và sửa lỗi chính tả
- Ta có 1 bộ dữ liệu đã được làm sạch với 7109 dòng và 21 cột
Trang 6b Data Preprocessing:
- Kiểm tra xem có mối quan hệ nào giữa các biến phân loại và Sales_Price (Giá nhà) hay không?
Kết luận:
Trang 7+ AREA: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc
+ MZZONE: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc
+ UTILITY_AVAIL: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc + STREET: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc
+ PARK_FACIL: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc
- Kiểm tra xem có mối quan hệ nào giữa các biến liên tục và Sales_Price (Giá nhà) hay không?
Kết luận:
+ QS_OVERALL: Không có mối quan hệ tuyến tính nào => drop đặc trưng
+ INT_SQFT: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng
+ DIST_MAINROAD: Không có mối quan hệ tuyến tính nào => drop đặc trưng
+ Age: Có mối quan hệ tuyến tính yếu => giữ đặc trưng
- Kiểm tra xem có mối quan hệ nào giữa các biến rời rạc và Sales_Price (Giá nhà) hay không?
Trang 8Kết luận:
+ QS_ROOMS: Không có mối quan hệ tuyến tính nào => drop đặc trưng+ QS_BATHROOM: Không có mối quan hệ tuyến tính nào => drop đặc trưng+ QS_BEDROOM: Không có mối quan hệ tuyến tính nào => drop đặc trưng+ N_BEDROOM: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng+ N_ROOM: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng
+ N_BATHROOM: Có mối quan hệ tuyến tính yếu => giữ đặc trưng
- Mã hóa dữ liệu
Trang 9Sau khi mã hóa:
Trang 10- Bảng mô tả chi tiết các cột (Sau khi đã mã hóa) gồm 17 cột và 7109 hàng
2 NoSeWa : Electricity Only
3 All Pub : All public utilities
5 STREET Text 1 NoAccess : Không có hẻm Chất liệu đường xá xung quanh
3 I: Indestrial (Khu công nghiệp)
4 RH: Residential High Density
5 FV: Floating Village Residential
Trang 117 RM : Residential Medium Density
7 DATE_BUILD Datetime 28/10/1949 - 12/11/2010 Ngày xây nhà
8 DATE_SALE Datetime 16/01/2004 - 17/2/2015 Ngày bán nhà
9 Age Int 3 - 55 Số tuổi của căn nhà tính tới lúc
bánAge = DATE_SALE - DATE_BUILD
10 INT_SQFT Int 500 - 2500 Diện tích của căn nhà
11 DIST_MAINR
OAD
Int 0-200 Khoảng cách đến đường chính
12 N_BEDROOM Int 4-Jan Số phòng ngủ
13 N_BATHROO
M
Int 2-Jan Số phòng tắm
14 N_ROOM Int Feb-66 Tổng số phòng
15 REG_FEE Int 71177 - 983922 USD Phí đăng kí mua nhà
16 COMMIS Int 5055 - 49540 USD Tiền hoa hồng
17 SALES_PRICE Int 2156875 - 23667000 USD Giá tiền căn nhà
Mzzone: (Kiểu vùng các căn nhà)
- A: Agriculture → Khu vựựa nông thôn
Trang 12- C: Commercial → Khu vựực thuựoựng mại
- FV: Floating village Residential → Khu dân cuự làng nôổi
- I: Khu vực công nghiệp
- RH: Residential High Density → Khu vực mật độ dân cư cao
- RL: Residential Low Density → Khu vực mật độ dân cư thấp
- RP: Residential Low Density Park → Khu vựực công viên dân cứự thuựa thớựt
- RM: Residential Medium Density → Khu vực mật độ dân cư trung bình
UTILITY_AVAIL
- All Pub: All public utilities → Tâất cả coự sởự vạật châất
- NoSeWa: Electricity and Gas only
- ELO: Electricity only
STREET:
- Gravel: đá sỏi
- Paved: bê tông
- No access: no alley access (Không có hẻm)
- Các thông tin về giá nhà ( yếu tố ảnh hưởng, giá nhà trên các khu vực, ):
Hình 1 Ảnh hưởng của diện tích ( sqft m2 ) lên giá nhà
Chúng ta có thể dễ dàng nhận thấy diện tích nhà có ảnh hưởng rất nhiều đến giá nhà ( diện tích càng lớn, giá nhà càng cao ) Tuy nhiên ở 2 khu vực Anna Nagar và T Nagar lại là nơi có giá nhà cao nhất mặc dù diện tích nhà ở đây cao nhất chỉ 2000m2, điều này có thể giải thích bởi vì đây là 2 địa điểm trung tâm của thành phố Chennai, Ấn Độ nên định giá của ngôi nhà ở đây có thể cao hơn các khu vực khác
Trang 13Hình 2 Ảnh hưởng của khoảng cách của nhà và đường lớn đến giá nhà
Nhìn chung, khoảng cách đến đường lớn không ảnh hưởng đến định giá của giá nhà khi giá nhà của một nơi có khoảng cách gần đường lớn bằng giá nhà của một nơi có khoảng cách xa với đường lớn
Hình 3 Ảnh hưởng của tổng số phòng đến giá nhà
Ta có thể khi số phòng có ảnh hưởng không quá lớn đến giá nhà khi một ngôi nhà Velachery có 5 phòng giá tiền vẫn thấp hơn các ngôi nhà ở Adyar Ngoài ra, qua biểu đồ ta thấy được chỉ có khu vực
KK Nagar có bán nhà loại 6 phòng trên toàn thành phố Chennai
Trang 14Hình 4 và 5 Giá nhà trung bình và số căn nhà được mua tại các địa điểm
khác nhau tại Chennai
Chrompet là vị trí có nhiều căn nhà được mua nhất, lý do là vì mức giá trung bình của 1 căn nhà tại khu vực này ở trung bình ( không quá cao nhưng cũng đủ để có một căn nhà với đầy đủ tiện nghi Trong khi đó, T Nagar là khu vực có số nhà được bán ít nhất vì giá nhà trung bình ở đây rất cao ( tầng lớp thượng lưu )
Trang 15Hình 6 Sự khác biệt về giá giữa nhà có chỗ để xe và không có chỗ để xe
Những ngôi nhà có bãi giữ xe có giá trung bình cao hơn những ngôi nhà không có 1M, điều này có thể lí giải vì thông thường những ngôi nhà có bãi giữ xe sẽ có diện tích lớn hơn, số tiền bỏ ra để mua khoảng đất để xe đó nhiều hơn dẫn đến giá nhà sẽ tăng lên
Hình 7 Sự khác biệt về giá giữa đường nhà được lát sỏi và bê tông
Nhà có giá trung bình cao sẽ là những căn nhà có chứa mặt đường là sỏi, trong khi đó những căn nhà
có mặt đường là bê tông sẽ có giá trung bình thấp hơn Có thể với những căn nhà có đường như thế sẽ
ở gần những nơi có thể phát triển kinh tế với nghề nông
Trang 16Hình 8 Sự ảnh hưởng của mật độ dân cư quanh căn nhà đến giá nhà
Những ngôi nhà nằm ở khu vực có mật độ dân số trung bình sẽ có giá cao nhất vì nó là điều kiện lí tưởng cho một căn nhà Thông thường, với các ngôi nhà nằm ở khu vực có mật độ dân số trung bình
sẽ rất thuận lợi cho việc sinh hoạt làm việc vì nó sẽ gần các hay các địa điểm cần thiết cho cuộc sống như ăn uống giải trí Ngoài ra, với việc mật độ dân số chỉ ở mức trung bình, việc đi lại cũng sẽ thuận tiện hơn, tránh được các vấn đề như kẹt xe
Hình 9 Sự khác biệt về giá giữa những ngôi nhà có cơ sở vật chất khác
nhau
Trang 17Thực tế các căn nhà có đầy đủ cơ sở vật chất luôn có giá cao hơn những căn nhà chỉ có điện và gas
3 Dự báo giá nhà
- Mục đích: Giúp người bán định giá bán phù hợp cho những căn nhà theo đặc điểm của chúng
và giúp khách hàng biết được liệu giá nhà có phù hợp với những gì mình sẽ nhận được hay cóphù hợp với kinh tế của họ hay không Qua kĩ thuật này, có thể giúp người bán biết được những nhân tố nào giúp họ có thể tối ưu để đạt được giá bán tốt hơn và thu về doanh thu cao hơn
- Phương pháp trích chọn đặc trưng: sau khi thực hiện phân tích các đặc trưng tác động đến
giá nhà thì sẽ chọn ra những đặc trưng sau để đưa vào mô hình: INT_SQRT, AREA, MZZONE, UTILITY_AVAIL, PARK_FACIL, STREET, N BEDROOM, N BATHROOM, N ROOM, AGE
- Phương pháp Linear Regression: là một phương pháp để dự đoán biến phụ thuộc (Y) dựa
trên giá trị của biến độc lập (X) Nó có thể được sử dụng cho các trường hợp chúng ta muốn
dự đoán một số lượng liên tục
Các hệ số cần thiết trong LR
→ R square cho biết mức độ ảnh hưởng của các biến tới giá trị dự đoán Với 61% có thể thấy tầmảnh hưởng của các biến đã cho đến dự đoán giá nhà khá cao Nhưng vẫn chưa đạt đến giá trị mong muốn Điều này dẫn đến sai số cao trong mô hình
→ Trên thực tế chuyện giá nhà bằng -929520 không bao giờ xảy ra, do các các biến độc lập khác không đồng thời bằng 0 được, vì giá trị tối thiểu của các biến đó bằng 1
→ Mối tương quan giữa các biến Các biến có mối quan hệ khá mạnh mẽ với giá, điển hình là N_ROOM, INT_SQFT, AREA
- Kết quả sau khi thực hiện mô hình Linear Regression:
SALES_PRICE = 590646*[AREA] + 1078368*[PARK_FACIL] +
163288.1*[UTILITY_AVAIL] + 452579.9*[STREET] + 511903.6*[MZZONE] -
Trang 1820541.46*[Age] + 1293.928*[INT_SQFT] - 1618611*[N_BEDROOM] +
162294.9*[N_BATHROOM] + 1863294*[N_ROOM] - 929520.8226556648
Giá trị dự đoán so với giá trị thực tế
→ Tổng mức độ chênh lệch giữa giá trị dự đoán và giá trị thực tế gần bằng 0 → Mô hình khá hiệu quảcho việc dự đoán
Trang 19+ Tiếp theo là nhân tố PARK_FACIL, giá càng cao với những căn nhà có chỗ
để xe Khách hàng sẽ không phải để xe ở phía ngoài nhà của mình, tránh tốn những chi phí không đáng như phí giữ xe
+ Khu vực là một trong những nhân tố tác động mạnh Trong thực tế ta có thể thấy được những căn nhà nằm trong khu vực trung tâm chưa kể đến giá mua thì giá thuê của nó cũng đã cao hơn nhiều so với khu vực ngoại ô Nên nhữngcăn nhà nằm ở khu vực trung tâm như Anna Nagar, T Nagar sẽ có giá cao dù diện tích căn nhà nhỏ
+ Ta thấy tuổi tác động ít nhất và nó tỉ lệ nghịch vì một căn nhà được xây càng lâu thì cơ sở hạ tầng đã xuống cấp nên giá nhà sẽ giảm theo đó
→ Kêất luạận:
- LR giúp người mua nhà dự đoán chi phí mình phải bỏ ra với một mong muốn cụ thể Giúp người bán biết được nhân tố nào giúp tăng giá cho căn nhà để giúp căn nhà trở nên có giá trị hơn
- Đồng thời cung cấp một hàm tính gần với giá trị thực tế giúp cho người muốn bán nhà tham khảo Với đặc điểm căn nhà của mình là như thế thì có thể bán được với giá bao nhiêu để tránh bị lỗ vì sự thiếu hiểu biết hay gặp phải người lừa gạt
- Nhưng LR vẫn có sự hạn chế và sai số nhất định Đưa vào trường hợp khách hàng chưa có mong muốn chính xác về căn nhà mình dự tính mua, hay những khách hàng bị khống chế tài chính (tức là với khoảng tiền đó liệu họ có thể mua nhà hay không, nếu có thì căn nhà đó có những đặc điểm như thế nào có đáp ứng được mong muốn của khách hàng hay không) thì LRkhông thể hỗ trợ cho nhóm khách hàng này Chính vì vậy cần phải có một thuật toán bổ trợ đi kèm
4 PHÂN KHÚC NHÀ Ở
- Chất lượng cuộc sống hiện tại ngày càng tăng kéo theo nhu cầu của khách hàng cũng tăng theo đó nhưng đồng thời nhu cầu của mỗi người là khác nhau Vì thế, thị trường bất động sản phân nhà ở thành từng phân khúc khác nhau để đáp ứng thị trường Hiệntại có 3 phân khúc chính với tiêu chí đánh giá khác nhau
+ Nhà ở cao cấp là hạng có chất lượng sử dụng cao nhất, đảm bảo yêu cầu về quy hoạch, kiến trúc, hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết bị
và điều kiện cung cấp dịch vụ quản lý sử dụng đạt mức độ hoàn hảo
Trang 20+ Nhà ở trung cấp là hạng có chất lượng sử dụng khá cao, đảm bảo yêu cầu về quy hoạch, kiến trúc, hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết
bị và điều kiện cung cấp dịch vụ quản lý sử dụng đạt mức độ khá
+ Nhà ở bình dân là hạng có chất lượng sử dụng trung bình, đảm bảo yêu cầu về quyhoạch, kiến trúc; hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết
bị và điều kiện cung cấp dịch vụ quản lý sử dụng đạt tiêu chuẩn, đủ điều kiện để đưa vào khai thác sử dụng
- Mục đích: Phân thành các phân khúc nhà ở phù hợp cho việc kinh doanh của doanh nghiệp và giúp khách hàng có nhu cầu tham khảo các kiểu nhà ở nhanh hơn khi lựa chọn phân khúc mình muốn thay vì phải xem tất cả kiểu nhà khác nhau Đặc biệt kết hợp với Linear Regression định giá cho một căn nhà và phân căn nhà đó vào phân khúc phù hợp để giúp người bán tiếp cận đúng đối tượng khách hàng cho căn nhà đó
- Phương pháp trích chọn đặc trưng để chạy mô hình: tham khảo các đặc điểm phân loại nhà trên thị trường hiện tại và sau khi thực hiện mô hình LR có thể thấy được những nhân tố tác động mạnh có thể sử dụng được như sau: AREA, IN_SQRT, MZZONE, N ROOM, N BATHROOM, N BEDROOM, UTILITY AVAIL, PARK_FACIL, SALES PRICE
- Phương pháp phân cụm: K-Means Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xácđịnh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất
- Phương pháp chọn số k phù hợp: Elbow và Silhouette
+ Khi thực hiện tính toán chỉ số Silhouette cho k chạy trong range (3,10) thì chỉ số silhouette cao nhất đạt tại k = 3
+ Theo phương pháp Elbow: Dựa vào kết quả ở hình dưới , dễ dàng nhận ra điểm uốn của đồ thị tại vị trí k = 3, điều đó có nghĩa là phân dữ liệu thành 3 cụm là hợp lý
Trang 21+ Và hiện tại trên thị trường bất động sản vẫn có 3 phân khúc nhà ở đang hiện hành Vì vậy, chọn số cụm bằng 3 là tối ưu nhất Và sau khi thực hiện các so sánh về đặc trưng và tìm hiểu về các phân khúc nhà ở đang hiện hành trên thị
trường, sẽ chia thành 3 phân khúc nhà ở lần lượt là: Nhà bình dân, Nhà trung cấp và Nhà cao cấp
- Có 7109 căn nhà được thực hiện quá trình phân cụm
- Kết quả sau khi thực hiện kĩ thuật phân cụm dữ liệu:
a Cụm 1 (Nhà bình dân)
○ Chiếm số lượng nhà thứ 2 trong 3 cụm là 3043 căn nhà
○ Tập trung nhiều nhất ở khu vực Chrompet và Karapakkam
○ Thường tập trung ở khu vực RM, RL, RH là những khu dân cư và vùng nông thôn
○ Thường là những căn nhà đã có sẵn Electricity và Gas hay chỉ mỗi Electricity
○ Những căn nhà có chỗ để xe và không có chỗ để xe có số lượng tương đương nhau
Trang 22○ Diện tích căn nhà dao động trung bình từ 745-1127 m^2
Trang 23○ Phân bố toàn bộ khu vực thành phố Chennai, trong đó nhiều nhất tập trung ở khu vực KK Nagar, Velachery
○ Thường tập trung nhiều nhất ở khu dân cư
○ Thường là những căn nhà đã có sẵn Electricity và Gas với xác suất xuất hiện cao hơn những căn nhà với cơ sở vật chất có sẵn Electricity hay đầy đủ tất cả
○ Sẽ có những căn nhà có sẵn chỗ để xe nhưng cũng có những căn nhà không
có sẵn điều kiện này
○ Diện tích căn nhà dao động trung bình từ 1400 - 2000 m^2
○ Số phòng tắm trung bình sẽ là 1 phòng
○ Số phòng ngủ trung bình là 1 đến 2 phòng