1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận chủ đề phân khúc và dự báo giá nhà tại thành phố chennai ấn độ

30 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Khúc Và Dự Báo Giá Nhà Tại Thành Phố Chennai, Ấn Độ
Tác giả Nguyễn Văn Tuấn, Nguyễn Phúc Vĩnh Nguyên, Nguyễn Thị Hoàng Anh, Đặng Hoàng Yến
Người hướng dẫn Nguyễn Văn Chức
Trường học Trường Đại Học Kinh Tế - Đại Học Đà Nẵng
Chuyên ngành Thương Mại Điện Tử
Thể loại báo cáo
Thành phố Đà Nẵng
Định dạng
Số trang 30
Dung lượng 3,63 MB

Nội dung

Chính vì thế, từ dữ liệu thu thập được tại thành phố Chennai một trong những thành phố lớn nhất Ấn Độ, nhóm có thể giúp cho các người dân tại đây hiểu hơn về những yếu tố ảnhhưởng đến g

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG

KHOA THƯƠNG MẠI ĐIỆN TỬ

-BÁO CÁO GIỮA KỲ

Trang 2

a Data Cleaning 3

Hình 1 Ảnh hưởng của diện tích ( sqft m2 ) lên giá nhà 13

Hình 2 Ảnh hưởng của khoảng cách của nhà và đường lớn đến giá nhà

14

Hình 3 Ảnh hưởng của tổng số phòng đến giá nhà 14

Hình 4 và 5 Giá nhà trung bình và số căn nhà được mua tại các địa

Hình 6 Sự khác biệt về giá giữa nhà có chỗ để xe và không có chỗ để xe

17

Hình 7 Sự khác biệt về giá giữa đường nhà được lát sỏi và bê tông 17

Hình 8 Sự ảnh hưởng của mật độ dân cư quanh căn nhà đến giá nhà 18 Hình 9 Sự khác biệt về giá giữa những ngôi nhà có cơ sở vật chất khác

Lý do chọn đề tài: Ấn Độ là đất nước có số lượng dân số cao thứ hai thế giới Với sự bùng nổ dân số

tại quốc gia này, việc mua được một căn nhà có hợp lýý đối với mỗi khách hàng là một công việc không hề dễ dàng Chính vì thế, từ dữ liệu thu thập được tại thành phố Chennai ( một trong những thành phố lớn nhất Ấn Độ), nhóm có thể giúp cho các người dân tại đây hiểu hơn về những yếu tố ảnhhưởng đến giá nhà cho nơi ở của họ, so sánh giữa các loại nhà khác nhau và cũng giúp người bán hiểuđược những yếu tố nào đang kiếm thêm tiền cho căn nhà để có thể cải thiện tăng doanh thu cho ngànhbất động sản

Trang 3

Bộ dữ liệu: CHENNAI HOUSE PRICE

Công cụ: Python, Tableau, SSAS

Phương pháp: Clustering, Linear Regression

Kỹ thuật:

- Mô tả và trực quan hóa dữ liệu

- Clustering: gộp nhóm các căn nhà và tìm đặc điểm các căn nhà đó để có thể định giá nhà phù

hợp KMEANS

- Hồi quy dự báo giá LINEAR

=> Định giá bán phù hợp cho những căn nhà này (Định giá dựa trên chi phí))

Trang 4

- Đổi kiểu dữ liệu

Too long to read on your phone? Save

to read later on your computer

Save to a Studylist

Trang 5

- Thêm cột “Age”

- Kiểm tra và sửa lỗi chính tả

- Ta có 1 bộ dữ liệu đã được làm sạch với 7109 dòng và 21 cột

Trang 6

b Data Preprocessing:

- Kiểm tra xem có mối quan hệ nào giữa các biến phân loạiSales_Price (Giá nhà) hay không?

Kết luận:

Trang 7

+ AREA: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

+ MZZONE: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

+ UTILITY_AVAIL: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc + STREET: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

+ PARK_FACIL: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

- Kiểm tra xem có mối quan hệ nào giữa các biến liên tụcSales_Price (Giá nhà) hay không?

Kết luận:

+ QS_OVERALL: Không có mối quan hệ tuyến tính nào => drop đặc trưng

+ INT_SQFT: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng

+ DIST_MAINROAD: Không có mối quan hệ tuyến tính nào => drop đặc trưng

+ Age: Có mối quan hệ tuyến tính yếu => giữ đặc trưng

- Kiểm tra xem có mối quan hệ nào giữa các biến rời rạcSales_Price (Giá nhà) hay không?

Trang 8

Kết luận:

+ QS_ROOMS: Không có mối quan hệ tuyến tính nào => drop đặc trưng+ QS_BATHROOM: Không có mối quan hệ tuyến tính nào => drop đặc trưng+ QS_BEDROOM: Không có mối quan hệ tuyến tính nào => drop đặc trưng+ N_BEDROOM: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng+ N_ROOM: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng

+ N_BATHROOM: Có mối quan hệ tuyến tính yếu => giữ đặc trưng

- Mã hóa dữ liệu

Trang 9

Sau khi mã hóa:

Trang 10

- Bảng mô tả chi tiết các cột (Sau khi đã mã hóa) gồm 17 cột và 7109 hàng

2 NoSeWa : Electricity Only

3 All Pub : All public utilities

5 STREET Text 1 NoAccess : Không có hẻm Chất liệu đường xá xung quanh

3 I: Indestrial (Khu công nghiệp)

4 RH: Residential High Density

5 FV: Floating Village Residential

Trang 11

7 RM : Residential Medium Density

7 DATE_BUILD Datetime 28/10/1949 - 12/11/2010 Ngày xây nhà

8 DATE_SALE Datetime 16/01/2004 - 17/2/2015 Ngày bán nhà

9 Age Int 3 - 55 Số tuổi của căn nhà tính tới lúc

bánAge = DATE_SALE - DATE_BUILD

10 INT_SQFT Int 500 - 2500 Diện tích của căn nhà

11 DIST_MAINR

OAD

Int 0-200 Khoảng cách đến đường chính

12 N_BEDROOM Int 4-Jan Số phòng ngủ

13 N_BATHROO

M

Int 2-Jan Số phòng tắm

14 N_ROOM Int Feb-66 Tổng số phòng

15 REG_FEE Int 71177 - 983922 USD Phí đăng kí mua nhà

16 COMMIS Int 5055 - 49540 USD Tiền hoa hồng

17 SALES_PRICE Int 2156875 - 23667000 USD Giá tiền căn nhà

Mzzone: (Kiểu vùng các căn nhà)

- A: Agriculture → Khu vựựa nông thôn

Trang 12

- C: Commercial → Khu vựực thuựoựng mại

- FV: Floating village Residential → Khu dân cuự làng nôổi

- I: Khu vực công nghiệp

- RH: Residential High Density → Khu vực mật độ dân cư cao

- RL: Residential Low Density → Khu vực mật độ dân cư thấp

- RP: Residential Low Density Park → Khu vựực công viên dân cứự thuựa thớựt

- RM: Residential Medium Density → Khu vực mật độ dân cư trung bình

UTILITY_AVAIL

- All Pub: All public utilities → Tâất cả coự sởự vạật châất

- NoSeWa: Electricity and Gas only

- ELO: Electricity only

STREET:

- Gravel: đá sỏi

- Paved: bê tông

- No access: no alley access (Không có hẻm)

- Các thông tin về giá nhà ( yếu tố ảnh hưởng, giá nhà trên các khu vực, ):

Hình 1 Ảnh hưởng của diện tích ( sqft m2 ) lên giá nhà

Chúng ta có thể dễ dàng nhận thấy diện tích nhà có ảnh hưởng rất nhiều đến giá nhà ( diện tích càng lớn, giá nhà càng cao ) Tuy nhiên ở 2 khu vực Anna Nagar và T Nagar lại là nơi có giá nhà cao nhất mặc dù diện tích nhà ở đây cao nhất chỉ 2000m2, điều này có thể giải thích bởi vì đây là 2 địa điểm trung tâm của thành phố Chennai, Ấn Độ nên định giá của ngôi nhà ở đây có thể cao hơn các khu vực khác

Trang 13

Hình 2 Ảnh hưởng của khoảng cách của nhà và đường lớn đến giá nhà

Nhìn chung, khoảng cách đến đường lớn không ảnh hưởng đến định giá của giá nhà khi giá nhà của một nơi có khoảng cách gần đường lớn bằng giá nhà của một nơi có khoảng cách xa với đường lớn

Hình 3 Ảnh hưởng của tổng số phòng đến giá nhà

Ta có thể khi số phòng có ảnh hưởng không quá lớn đến giá nhà khi một ngôi nhà Velachery có 5 phòng giá tiền vẫn thấp hơn các ngôi nhà ở Adyar Ngoài ra, qua biểu đồ ta thấy được chỉ có khu vực

KK Nagar có bán nhà loại 6 phòng trên toàn thành phố Chennai

Trang 14

Hình 4 và 5 Giá nhà trung bình và số căn nhà được mua tại các địa điểm

khác nhau tại Chennai

Chrompet là vị trí có nhiều căn nhà được mua nhất, lý do là vì mức giá trung bình của 1 căn nhà tại khu vực này ở trung bình ( không quá cao nhưng cũng đủ để có một căn nhà với đầy đủ tiện nghi Trong khi đó, T Nagar là khu vực có số nhà được bán ít nhất vì giá nhà trung bình ở đây rất cao ( tầng lớp thượng lưu )

Trang 15

Hình 6 Sự khác biệt về giá giữa nhà có chỗ để xe và không có chỗ để xe

Những ngôi nhà có bãi giữ xe có giá trung bình cao hơn những ngôi nhà không có 1M, điều này có thể lí giải vì thông thường những ngôi nhà có bãi giữ xe sẽ có diện tích lớn hơn, số tiền bỏ ra để mua khoảng đất để xe đó nhiều hơn dẫn đến giá nhà sẽ tăng lên

Hình 7 Sự khác biệt về giá giữa đường nhà được lát sỏi và bê tông

Nhà có giá trung bình cao sẽ là những căn nhà có chứa mặt đường là sỏi, trong khi đó những căn nhà

có mặt đường là bê tông sẽ có giá trung bình thấp hơn Có thể với những căn nhà có đường như thế sẽ

ở gần những nơi có thể phát triển kinh tế với nghề nông

Trang 16

Hình 8 Sự ảnh hưởng của mật độ dân cư quanh căn nhà đến giá nhà

Những ngôi nhà nằm ở khu vực có mật độ dân số trung bình sẽ có giá cao nhất vì nó là điều kiện lí tưởng cho một căn nhà Thông thường, với các ngôi nhà nằm ở khu vực có mật độ dân số trung bình

sẽ rất thuận lợi cho việc sinh hoạt làm việc vì nó sẽ gần các hay các địa điểm cần thiết cho cuộc sống như ăn uống giải trí Ngoài ra, với việc mật độ dân số chỉ ở mức trung bình, việc đi lại cũng sẽ thuận tiện hơn, tránh được các vấn đề như kẹt xe

Hình 9 Sự khác biệt về giá giữa những ngôi nhà có cơ sở vật chất khác

nhau

Trang 17

Thực tế các căn nhà có đầy đủ cơ sở vật chất luôn có giá cao hơn những căn nhà chỉ có điện và gas

3 Dự báo giá nhà

- Mục đích: Giúp người bán định giá bán phù hợp cho những căn nhà theo đặc điểm của chúng

và giúp khách hàng biết được liệu giá nhà có phù hợp với những gì mình sẽ nhận được hay cóphù hợp với kinh tế của họ hay không Qua kĩ thuật này, có thể giúp người bán biết được những nhân tố nào giúp họ có thể tối ưu để đạt được giá bán tốt hơn và thu về doanh thu cao hơn

- Phương pháp trích chọn đặc trưng: sau khi thực hiện phân tích các đặc trưng tác động đến

giá nhà thì sẽ chọn ra những đặc trưng sau để đưa vào mô hình: INT_SQRT, AREA, MZZONE, UTILITY_AVAIL, PARK_FACIL, STREET, N BEDROOM, N BATHROOM, N ROOM, AGE

- Phương pháp Linear Regression: là một phương pháp để dự đoán biến phụ thuộc (Y) dựa

trên giá trị của biến độc lập (X) Nó có thể được sử dụng cho các trường hợp chúng ta muốn

dự đoán một số lượng liên tục

Các hệ số cần thiết trong LR

→ R square cho biết mức độ ảnh hưởng của các biến tới giá trị dự đoán Với 61% có thể thấy tầmảnh hưởng của các biến đã cho đến dự đoán giá nhà khá cao Nhưng vẫn chưa đạt đến giá trị mong muốn Điều này dẫn đến sai số cao trong mô hình

→ Trên thực tế chuyện giá nhà bằng -929520 không bao giờ xảy ra, do các các biến độc lập khác không đồng thời bằng 0 được, vì giá trị tối thiểu của các biến đó bằng 1

→ Mối tương quan giữa các biến Các biến có mối quan hệ khá mạnh mẽ với giá, điển hình là N_ROOM, INT_SQFT, AREA

- Kết quả sau khi thực hiện mô hình Linear Regression:

SALES_PRICE = 590646*[AREA] + 1078368*[PARK_FACIL] +

163288.1*[UTILITY_AVAIL] + 452579.9*[STREET] + 511903.6*[MZZONE] -

Trang 18

20541.46*[Age] + 1293.928*[INT_SQFT] - 1618611*[N_BEDROOM] +

162294.9*[N_BATHROOM] + 1863294*[N_ROOM] - 929520.8226556648

Giá trị dự đoán so với giá trị thực tế

→ Tổng mức độ chênh lệch giữa giá trị dự đoán và giá trị thực tế gần bằng 0 → Mô hình khá hiệu quảcho việc dự đoán

Trang 19

+ Tiếp theo là nhân tố PARK_FACIL, giá càng cao với những căn nhà có chỗ

để xe Khách hàng sẽ không phải để xe ở phía ngoài nhà của mình, tránh tốn những chi phí không đáng như phí giữ xe

+ Khu vực là một trong những nhân tố tác động mạnh Trong thực tế ta có thể thấy được những căn nhà nằm trong khu vực trung tâm chưa kể đến giá mua thì giá thuê của nó cũng đã cao hơn nhiều so với khu vực ngoại ô Nên nhữngcăn nhà nằm ở khu vực trung tâm như Anna Nagar, T Nagar sẽ có giá cao dù diện tích căn nhà nhỏ

+ Ta thấy tuổi tác động ít nhất và nó tỉ lệ nghịch vì một căn nhà được xây càng lâu thì cơ sở hạ tầng đã xuống cấp nên giá nhà sẽ giảm theo đó

→ Kêất luạận:

- LR giúp người mua nhà dự đoán chi phí mình phải bỏ ra với một mong muốn cụ thể Giúp người bán biết được nhân tố nào giúp tăng giá cho căn nhà để giúp căn nhà trở nên có giá trị hơn

- Đồng thời cung cấp một hàm tính gần với giá trị thực tế giúp cho người muốn bán nhà tham khảo Với đặc điểm căn nhà của mình là như thế thì có thể bán được với giá bao nhiêu để tránh bị lỗ vì sự thiếu hiểu biết hay gặp phải người lừa gạt

- Nhưng LR vẫn có sự hạn chế và sai số nhất định Đưa vào trường hợp khách hàng chưa có mong muốn chính xác về căn nhà mình dự tính mua, hay những khách hàng bị khống chế tài chính (tức là với khoảng tiền đó liệu họ có thể mua nhà hay không, nếu có thì căn nhà đó có những đặc điểm như thế nào có đáp ứng được mong muốn của khách hàng hay không) thì LRkhông thể hỗ trợ cho nhóm khách hàng này Chính vì vậy cần phải có một thuật toán bổ trợ đi kèm

4 PHÂN KHÚC NHÀ Ở

- Chất lượng cuộc sống hiện tại ngày càng tăng kéo theo nhu cầu của khách hàng cũng tăng theo đó nhưng đồng thời nhu cầu của mỗi người là khác nhau Vì thế, thị trường bất động sản phân nhà ở thành từng phân khúc khác nhau để đáp ứng thị trường Hiệntại có 3 phân khúc chính với tiêu chí đánh giá khác nhau

+ Nhà ở cao cấp là hạng có chất lượng sử dụng cao nhất, đảm bảo yêu cầu về quy hoạch, kiến trúc, hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết bị

và điều kiện cung cấp dịch vụ quản lý sử dụng đạt mức độ hoàn hảo

Trang 20

+ Nhà ở trung cấp là hạng có chất lượng sử dụng khá cao, đảm bảo yêu cầu về quy hoạch, kiến trúc, hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết

bị và điều kiện cung cấp dịch vụ quản lý sử dụng đạt mức độ khá

+ Nhà ở bình dân là hạng có chất lượng sử dụng trung bình, đảm bảo yêu cầu về quyhoạch, kiến trúc; hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết

bị và điều kiện cung cấp dịch vụ quản lý sử dụng đạt tiêu chuẩn, đủ điều kiện để đưa vào khai thác sử dụng

- Mục đích: Phân thành các phân khúc nhà ở phù hợp cho việc kinh doanh của doanh nghiệp và giúp khách hàng có nhu cầu tham khảo các kiểu nhà ở nhanh hơn khi lựa chọn phân khúc mình muốn thay vì phải xem tất cả kiểu nhà khác nhau Đặc biệt kết hợp với Linear Regression định giá cho một căn nhà và phân căn nhà đó vào phân khúc phù hợp để giúp người bán tiếp cận đúng đối tượng khách hàng cho căn nhà đó

- Phương pháp trích chọn đặc trưng để chạy mô hình: tham khảo các đặc điểm phân loại nhà trên thị trường hiện tại và sau khi thực hiện mô hình LR có thể thấy được những nhân tố tác động mạnh có thể sử dụng được như sau: AREA, IN_SQRT, MZZONE, N ROOM, N BATHROOM, N BEDROOM, UTILITY AVAIL, PARK_FACIL, SALES PRICE

- Phương pháp phân cụm: K-Means Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xácđịnh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất

- Phương pháp chọn số k phù hợp: Elbow và Silhouette

+ Khi thực hiện tính toán chỉ số Silhouette cho k chạy trong range (3,10) thì chỉ số silhouette cao nhất đạt tại k = 3

+ Theo phương pháp Elbow: Dựa vào kết quả ở hình dưới , dễ dàng nhận ra điểm uốn của đồ thị tại vị trí k = 3, điều đó có nghĩa là phân dữ liệu thành 3 cụm là hợp lý

Trang 21

+ Và hiện tại trên thị trường bất động sản vẫn có 3 phân khúc nhà ở đang hiện hành Vì vậy, chọn số cụm bằng 3 là tối ưu nhất Và sau khi thực hiện các so sánh về đặc trưng và tìm hiểu về các phân khúc nhà ở đang hiện hành trên thị

trường, sẽ chia thành 3 phân khúc nhà ở lần lượt là: Nhà bình dân, Nhà trung cấp và Nhà cao cấp

- Có 7109 căn nhà được thực hiện quá trình phân cụm

- Kết quả sau khi thực hiện kĩ thuật phân cụm dữ liệu:

a Cụm 1 (Nhà bình dân)

○ Chiếm số lượng nhà thứ 2 trong 3 cụm là 3043 căn nhà

○ Tập trung nhiều nhất ở khu vực Chrompet và Karapakkam

○ Thường tập trung ở khu vực RM, RL, RH là những khu dân cư và vùng nông thôn

○ Thường là những căn nhà đã có sẵn Electricity và Gas hay chỉ mỗi Electricity

○ Những căn nhà có chỗ để xe và không có chỗ để xe có số lượng tương đương nhau

Trang 22

○ Diện tích căn nhà dao động trung bình từ 745-1127 m^2

Trang 23

○ Phân bố toàn bộ khu vực thành phố Chennai, trong đó nhiều nhất tập trung ở khu vực KK Nagar, Velachery

○ Thường tập trung nhiều nhất ở khu dân cư

○ Thường là những căn nhà đã có sẵn Electricity và Gas với xác suất xuất hiện cao hơn những căn nhà với cơ sở vật chất có sẵn Electricity hay đầy đủ tất cả

○ Sẽ có những căn nhà có sẵn chỗ để xe nhưng cũng có những căn nhà không

có sẵn điều kiện này

○ Diện tích căn nhà dao động trung bình từ 1400 - 2000 m^2

○ Số phòng tắm trung bình sẽ là 1 phòng

○ Số phòng ngủ trung bình là 1 đến 2 phòng

Ngày đăng: 03/06/2024, 13:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN