Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
0,99 MB
Nội dung
lOMoARcPSD|18034504 ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÍ NHÀ NƯỚC KHOA KINH TẾ TIỂU LUẬN: BỘ MƠN: KHOA HỌC DỮ LIỆU SỬ DỤNG BỘ DỮ LIỆU ĐỂ LẬP MƠ HÌNH PHÂN CỤM VÀ DỰ BÁO SỐ LƯỢNG KHÁCH HÀNG MUA NHÀ Ở CALIFORNIA Giảng viên: Võ Thành Đức Lớp: AE001 – K46 Sinh viên thực hiện: Nhóm 10 TP.HCM, ngày 22 tháng 03 năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài 1.1.1 Mục tiêu nghiên cứu .4 1.1.2 Đối tượng nghiên cứu .4 1.2 Mơ tả tốn 1.3 Mô tả phương pháp 1.3.1 Thuật toán phân cụm K-Means: 1.3.2 Thuật toán phân cụm phân cấp (Hierachical Clustering) 1.4 Câu hỏi nghiên cứu CHƯƠNG 2: THU THẬP VÀ LÀM SẠCH DỮ LIỆU 2.1 Mô tả liệu 2.2 Các thuộc tính lựa chọn đưa vào mơ hình 2.3 Làm liệu CHƯƠNG 3: KIỂM ĐỊNH VÀ LỰA CHỌN MƠ HÌNH CHƯƠNG 4: CHIẾN LƯỢC PHÁT TRIỂN 12 4.1 Xác định nhóm khách hàng 13 4.2 Phân tích sai lầm 13 4.3 Lên kế hoạch 13 CHƯƠNG 5: TÀI LIỆU THAM KHẢO 14 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài Trong thời đại 4.0 giá bán mảnh đất nhỏ lên tới số khổng lồ Các sinh viên trường có giỏi hay chí xuất sắc có việc làm sau vừa trường phải tới 10-15 năm sau đủ tiền mua nhà Phải giá bán thổi lên cách khơng kiểm sốt? Điều gây hoang mang cho nhiều người thời điểm Điều thể rõ khứ vào đầu năm 1990 thời kỳ huy hoàng người sở hữu nhà Mỹ khu vực California nói riêng giá nhà tăng chóng mặt gấp 2-3 lần so với số vốn bỏ mua trước Điều làm cho người chủ sở hữu nhà khoảng thời gian ngắn trở nên giàu có ngược lại người vô gia cư hay người có thu nhập thấp lại gần đóng lại cánh cửa tới ước mơ mua nhà họ phải sống chui gầm cầu hay thuê phòng giá rẻ để sinh sống Giá nhà California tăng mạnh với nhà khoảng nửa triệu $ làm giảm nhu cầu mua nhà người dân kích thích mua nhà vùng khác có giá rẻ Để đáp ứng nhu cầu số lượng mua nhà California nhóm chúng em lựa chọn sử dụng liệu để phân tích, xử lí liệu để đưa phương án phù hợp kích thích cung cầu người dân California mua nhà 1.1.1 Mục tiêu nghiên cứu Dùng dự báo phân cụm để phân loại nhóm khách hàng từ có chiến lược phát triển đắn riêng cho nhóm khách hàng 1.1.2 Đối tượng nghiên cứu Sử dụng liệu California housing prices xử lý liệu phần mềm Orange để khai thác liệu cần thiết 1.2 Mơ tả tốn Sử dụng Excel để xử lý liệu dùng phần mềm Orange để giải toán: Bài tốn dự đốn nhóm khách hàng Bài tồn phân cụm liệu dựa theo thu nhập năm 1.3 Mô tả phương pháp Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Phân cụm dự báo hai toán phân tích liệu nhằm rút mơ hình cụ thể mơ tả cụm liệu quan trọng hay dự đoán liệu tương lai 1.3.1 Thuật tốn phân cụm K-Means: - Thuộc nhóm thuật tốn phân cụm dựa phân hoạch - Là thuật toán phân cụm liệu sử dụng nhiều khai phá liệu - Ý tưởng thuật toán: B1: Tất phần tử liệu gán số cụm từ đến k cách ngẫu nhiên, k số cụm mong muốn B2: Tìm tâm cụm B3: Đối với phần tử liệu, tìm trung tâm gần với phần tử nhất, gán phần tử cho cụm có tâm gần B4: Tính tốn lại trung tâm cụm sau gán phần tử B5: Lặp lại bước bước vị trí tâm cụm không thay đổi tâm tất điểm liệu khơng thay đổi 1.3.2 Thuật tốn phân cụm phân cấp (Hierachical Clustering) - Không yêu cầu khai báo trước số lượng cụm - Chỉ yêu cầu xác định trước thước đo khác biệt cụm (không giao nhau)dựa khác biệt cặp quan sát hai cụm Ý tưởng thuật toán: B1:Sắp xếp liệu cho thành mơ hình có dạng hình B2: Phân cụm phân cấp chia thành hai mơ hình Hợp (agglomerative) phân chia (divisive) 1.4 Câu hỏi nghiên cứu Làm để phân loại nhóm khách hàng ? Thu nhập năm ảnh hưởng lựa chọn mua nhà hộ gia đình ? Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Làm để tăng nhu cầu mua nhà khách hàng ? Các chiến lược tư để tăng doanh số cho công ty ? CHƯƠNG 2: THU THẬP VÀ LÀM SẠCH DỮ LIỆU 2.1 Mô tả liệu California housing prices liệu bao gồm 3000 khách hàng với biến định tính housing median age, total room, total bedroom, population, household, median house value, silhouette Biến quan trọng ảnh hưởng tới kết phân nhóm: median income 2.2 Các thuộc tính lựa chọn đưa vào mơ hình housing_median_age (Tuổi thọ trung bình ngơi nhà) total_rooms (tổng số phịng) total_bedrooms (tổng số phịng ngủ) population (dân số) households (số hộ dân) median_income (thu nhập trung bình) median_house_value (giá trj trung bình cảu nhà) Silhouette số điểm chi tiêu khách hàng cơng ty tính tốn liê ̣u thu thập => Vấn đề đă ̣t phải phân nhóm số khách hàng để lên kế hoạch Marketing hiê ̣u đem lại doanh thu cao Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Biểu đồ Histogram biến mơ hình 2.3 Làm liệu Các bước làm liệu (data cleaning) gồm: Tóm tắt hóa liệu Xử lý liệu bị thiếu Xóa liệu định lượng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 1: Bảng liệu hồn chỉnh CHƯƠNG 3: KIỂM ĐỊNH VÀ LỰA CHỌN MƠ HÌNH Bảng Orange phân cụm liệu xử lý Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Theo kết Hierachical Clustering: Phân cụm: + Nhóm 1: có điểm số -0,24 Có phân cách + Nhóm 2: Có điểm số 0,23 Có phân cách Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Phân cụm: + Nhóm 1: có điểm số -0,33 Có phân cách + Nhóm 2: Có điểm số -0,31 Khơng có phân cách + Nhóm 3: có điểm số 0,25 Có phân cách Theo kết K-Means: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Từ kết ta thấy nên chọn phân cụm số có điểm số Silhouette Score cao 0.626 nên phân cụm có độ tin cậy cao Đánh giá tương đối: - Ở kết Hierarchical Clustering ta chọn phân cụm số kết Kmeans ta chọn phân cụm số - Tuy nhiên, thuật toán K-Means có điểm số Silhoutte biểu đồ Silhoutte tối ưu so với thuật tốn Hierarchical Clustering Nhóm 1: Ngơi nhà có tuổi thọ trung bình (28.21) Tổng số phòng ( 2435.17) Tổng số phòng ngủ (516.98) Dân số trung bình (1420.41) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Thu nhập trung bình (3.20) Tổng hộ gia đình (474.99) Giá trị nhà thấp (149847.94) tỷ lệ sinh nhiều đồng thời mức sống thấp Nhóm 2: Ngơi nhà có tuổi thọ trung bình (30.43) Tổng số phịng ( 3050.92) Tổng số phòng ngủ (565.00) Dân số trung bình (1349.51) Tổng hộ gia đình (530.33) Thu nhập trung bình (5.46) Giá trị nhà cao (361872.93) tỷ lệ sinh đồng thời mức sống cao Tuổi thọ trung bình nhà Tổng số phịng Tổng số phịng ngủ Tổng dân số Tổng hộ gia đình Thu nhập trung bình Giá trị trung bình nhà Nhóm 28.21 2435.17 516.98 1420.41 474.99 3.20 149847.94 Nhóm 30.43 3050.92 565.00 1349.51 530.33 5.46 361872.93 Nhận xét: Dựa theo bảng số liệu ta có kết luận sau: Nhóm nhóm có thu nhập thấp Nhóm nhóm có thu nhập cao CHƯƠNG 4: CHIẾN LƯỢC PHÁT TRIỂN Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 4.1 Xác định nhóm khách hàng Khách hàng thu nhập cao Từ kết phân cụm nhận biết nhóm khách hàng có thu nhập cao, mang lại doanh số bán nhà nhiều => Ghi lại thông tin khách hàng là: tuổi tác, giới tính, vị trí đắc lợi trung tâm mà khách hàng hướng tới, yếu tố như: thái độ phục vụ, chăm sóc tư vấn khách hàng, thủ tục mua bán không phức tạp, nhanh gọn dễ hiểu Khách hàng thu nhập thấp Từ kết phân cụm nhận biết nhóm khách hàng có thu nhập thấp, mang lại doanh số bán nhà => Hỗ trợ cho trả góp có mức hạn quy định, tìm kiếm hộ phù hợp với thu nhập hộ dân có thái độ tích cực, có tư dịch vụ khơng phân biệt nhóm khách hàng , tư vấn miễn phí có ưu đãi giá cho nhóm khách hàng này, kích cầu mua nhà nhóm khách hàng 4.2 Phân tích sai lầm Sau phân cụm dựa thu nhập trung bình phân nhóm khách hàng: nhóm có thu nhập cao nhóm có thu nhập thấp Xác định yếu tố ảnh hưởng khiến doanh số bán nhà chưa cao: 4.3 Thông tin mua bán hộ chưa giám định tính xác cao địa điểm, thời gian mua bán cách thức bán, giấy tờ lằng nhằng gây khó hiểu cho người mua Vị trí hộ cao cấp chưa đạt yêu cầu người mua: chỗ để xe, hướng nhà không hợp với phong thủy người mua Chưa cung cấp dịch vụ cho nhóm khách hàng Thiếu tiếp cận hiểu biết mua bán nhà cửa tới người mua ( thiếu truyền thông) Thiếu nhiều ưu đãi mua nhà dành cho nhóm khách hàng: Nhóm khách hàng thu nhập thấp ưu đãi giá Nhóm khách hàng thu nhập cao hỗ trợ dịch vụ mang tới thoải mái thuận lợi Lên kế hoạch Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bản thân nhóm cơng ty bất động sản có kế hoạch giúp tăng doanh thu cho cơng ty: Đưa giải pháp thu hút khách hàng - Đầu tiên phải có voucher ưu đãi giá dành cho nhóm khách hàng có tiết kiệm chi phí mua nhà - Tìm hộ đẹp, sang trọng tiện lợi dành cho nhóm khách hàng thượng lưu - Đưa thơng tin xác giá địa điểm để tạo tin tưởng công ty khách hàng - Thái độ làm việc niềm nở, tận tình, chu đáo đưa lời khuyên đắn cho nhóm khách hàng để họ lựa chọn hộ phù hợp - Sử dụng tin cậy nhóm khách hàng trước để quảng bá cho uy tín cho cơng ty thu hút nhóm khách hàng Quản lý khách hàng - Tìm kiếm nhóm khách hàng ln có thái độ quan tâm tới nhóm khách hàng cũ đặc biệt nhóm khách hàng có thu nhập cao - Xem xét phân tích khó khăn mà khách hàng thường gặp phải mua nhà để từ đưa giải pháp tối ưu Quản lý cơng ty - Ln cập nhật tìm kiếm thông tin tốt cho khách hàng - Luôn trau dồi đội ngũ Marketing - Tạo uy tín cao để khách hàng tin tưởng CHƯƠNG 5: TÀI LIỆU THAM KHẢO https://l.facebook.com/l.php?u=https%3A%2F%2Fwww.kaggle.com %2Fdatasets%2Fcamnugent%2Fcalifornia-housing-prices%3Ffbclid %3DIwAR3Dok5C0jSW_cnoWq6US_LRyzEclFkAfx3RHq800CsfLIhmH XxvLNIeGho&h=AT3Ka8mP3Que8pSFr6mJu0J4Ounp_agrmQti64TChQD Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 m0Sa9LhaAZnRlK2sK1CX1yUQJMFL5ecFRlRV0lcRPBjVPyMOHeyfd4jFEB3DQTszA6HHewlbi3dUMk2pduMoyZv nQA https://l.facebook.com/l.php?u=https%3A%2F%2Fdoi.org %2F10.1111%2Fj.1540-6229.2011.00306.x%3Ffbclid %3DIwAR0RXz4_SQcjCXPe42sUy6BfckUUEMg-gJ-CGw5Chf4KKy_Ng_V_KqhlUc&h=AT3Ka8mP3Que8pSFr6mJu0J4Ounp_agrmQti64T ChQDm0Sa9LhaAZnRlK2sK1CX1yUQJMFL5ecFRlRV0lcRPBjVPyMOHeyfd4jFEB3DQTszA6HHewlbi3dUMk2pduMoyZv nQA Downloaded by vu ga (vuchinhhp2@gmail.com) ... với nhà khoảng nửa triệu $ làm giảm nhu cầu mua nhà người dân kích thích mua nhà vùng khác có giá rẻ Để đáp ứng nhu cầu số lượng mua nhà California nhóm chúng em lựa chọn sử dụng liệu để phân. .. Phân cụm dự báo hai tốn phân tích liệu nhằm rút mơ hình cụ thể mô tả cụm liệu quan trọng hay dự đoán liệu tương lai 1.3.1 Thuật toán phân cụm K-Means: - Thuộc nhóm thuật tốn phân cụm dựa phân hoạch... toán phân cụm liệu sử dụng nhiều khai phá liệu - Ý tưởng thuật toán: B1: Tất phần tử liệu gán số cụm từ đến k cách ngẫu nhiên, k số cụm mong muốn B2: Tìm tâm cụm B3: Đối với phần tử liệu,