Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
1,3 MB
Nội dung
TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM KHOA CÔNG NGH Ệ THÔNG TIN KINH DOANH - - BÁO CÁO CU Ố I K Ỳ Ứng dụng máy học vào phân nhóm dự đốn giá phịng cho th Airbnb t i M ỹ năm 2020 Môn h ọc: Khoa h ọ c d ữ liệ u - 21D1INF50905914 Giảng viên : Ths Nguy ễ n M nh Tu ấn Sinh viên th ự c hi ện: Nguyễn Phương Linh - 31171021011 TP H Chí Minh 06/2021 DANH M Ụ C BI ỂU ĐỒ Biểu Biểu Biểu Biểu Biểu Biểu đồ đồ đồ đồ đồ đồ Dữ liệu Data theo giá loại phòng - 11 Số lượng phòng cho thuê theo lo ại hộ 12 Số lượng phòng cho thuê theo thành phố - 12 Tỷ lệ phân bố loại phòng cho thuê theo khu vực 12 Minh họa Sihouette Plot 19 Minh họa Scatter Plot (Pri ce/Avalibility_365) - 19 DANH M Ụ C HÌNH ẢNH Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 1: Mơ hình phân l p d ữ liệ u Ví d ụ sơ đồ quy ết định - Sơ đồ t ổ ng quát SVM Ví d ụ sơ đồ kNN - Mô hình phân c ụ m d ữ liệ u Mơ hình tốn 14 K ế t qu ả d ự báo (1) 15 Mơ hình tốn 16 K ế t qu ả d ự báo (2) 17 10 Mơ hình toán 18 DAN H M Ụ C B Ả NG Bảng Bảng Bảng Bảng Bảng Bảng Mô tả biến - 10 K ế t qu ả Test & Score (1) 14 K ế t qu ả Confusion Matrix (1) - 15 K ế t qu ả Test & Score (2) 16 K ế t qu ả Confusion Matrix (2) - 17 K ế t qu ả k-Means 18 MỤC L Ụ C CHƯƠN G I: TỔN G QUAN - 1.1 L Ý DO CH ỌN ĐỀ T ÀI - 1.1.1 Mục tiêu ng hiên c ứ u - 1.1.2 Đối tượng nghiên c ứu - 1.2 M Ô T Ả BÀI T OÁN 1.3 M Ô T Ả PHƯƠNG PHÁP - 1.3.1 Phương pháp phân lớp (Cla ssification) - 1.3.2 Phương pháp phân c ụm (Clustering) 1.4 M Ô T Ả D Ữ LIỆU 10 CHƯƠN G II: QUY TRÌN H THỰC HIỆN & KẾT QU Ả - 11 2.1 P HÂN T ÍCH VÀ T I Ề N X Ử L Ý D Ữ LIỆU 11 2.1.1 Phân tích d ữ liệ u 11 2.1.2 Tiền x lý d ữ liệ u 13 2.2 B ÀI TOÁN 1: D Ự ĐOÁN PHÂN LO ẠI ĐỐI TƯ ỢNG CHO THUÊ THE O L OẠI PHÒNG C ỦA A IRBNB H OA K Ỳ T HÁNG 10/2020 14 2.2.1 Quy trình th ự c hi ện: - 14 2.2.2 Đánh giá k ết qu ả - 14 2.3 B ÀI TỐN 2: D Ự BÁO GIÁ PHỊNG CHO THUÊ L O ẠI “H OT E L ROOM ” 16 2.3.1 Quy trình th ự c hi ện: - 16 2.3.2 Đánh giá k ết qu ả - 16 2.4 B ÀI TOÁN 3: P HÂN CỤM CÁC PHÒNG CHO T HUÊ L OẠI “S HARE D ROOM ” 18 2.4.1 Quy trình th ự c hi ện: - 18 2.4.2 Đánh giá & k ết qu ả - 18 TÀI LI Ệ U THAM KH Ả O - 20 CHƯƠN G I: TỔNG QUAN 1.1 Lý ch ọn đ ề tài Từ đư ợ c th ành l ập năm 2008, Airbnb phát triể n mạnh mẽ v tha y đổi c ách vận h ành truy ề n th ố ng c ủ a ngành khách s n trê n th ế giới N gày nhi ề u du khách lựa ch ọn Airbnb nơi tìm kiếm địa điểm tá túc du lịch Airbnb đặ c bi ệ t cung cấp cho khách du l ịch p hương th ứ c tìm ki ếm nơi lư u trú d ễ dàng – độc đáo – cá nh ân hóa Đặc biệt, Airbnb có độ phủ sóng cao phư ơng ti ệ n tra cứu quen th uộc khách du l ịch có nhu c ầu nghỉ dưỡ ng h o ặ c trả i nghi ệ m vă n hó a M ỹ Vì v ậ y, phân tích s ố liệ u phòng cho thuê t i Airbnb Hoa K ỳ - m ộ t kh ía c ạnh – có th ể nhận bi ết nhu c ầ u x u hướ ng th ự c t ế c ủ a khách du l ị ch đối vớ i t ng lo i phòng ho ặc từn g địa phương Ngoài ra, d ữ liệ u v ề giá cho thuê d ự a cung – c ầ u th ự c t ế c ủ a khách thuê t ại Airbnb c ó th ể s d ụng để dự báo ho ặc đưa mức đị nh giá h ợp lý cho đối tượng cho thuê tương ứ ng Quan tr ọ ng, b ộ d ữ liệ u v ề nh cho thuê c ủ a Airbnb qua năm đư ợ c cung cấp c ông khai phi thư ơng mạ i bên thứ ba: http://in sideairbnb com/ Điều giúp sinh v iên thu th ậ p nhanh c hóng ch ính xác n gu ồn liệ u t thự c t ế Từ lý trên, sinh viên l ự a c h ọn đề tài “Ứng d ụ ng máy h ọ c vào phân nhóm d ự đốn giá phòng cho thuê Airbnb t ại Mỹ năm 202 0” làm b áo cáo kết thúc môn học 1.1.1 Mục tiêu nghiên cứu Ba m ụ c tiêu chín h c đề tài tư ơng ứ ng v i ba toán c ầ n g i ả i quy ết: Dự n ph ân lo i đối tượ ng theo nhóm loại phịng có A irbnb giúp khách hà ng d ễ dàng tìm ki ế m lo i phịng phù h ợ p theo nhu c ầu Định kho ả ng giá cho đối tư ợ ng cho thuê lo i phòng “Hotel room” Airbnb theo tiêu chí có s ẵn - giú p ngư i cho thuê l ự a ch ọ n m ứ c giá c ho thuê phù h ợ p v i th ị trườ ng Gom c ụm đối tư ợ ng cho thuê lo ại phòng “Shared home” tồ n t i hệ thống c ủ a Airbnb – để doanh nghi ệ p có th ể phá t tri ể n thêm nh ữ ng d ị ch v ụ tăng cường riêng cho nhóm khách hàng 1.1.2 Đối tượng nghiên cứu Sử d ụ ng b ộ d ữ liệu bao g m thông tin công khai v ề da nh sách cho thuê Airbnb t i nh ph ố Hoa K ỳ mà insideairbnb.com cung c ấ p 1.2 Mô t ả b ài toán Sử d ụng Excel phần m ềm Orang e để x lý d ữ liệu gi ả i quy ế t toán sau: Bài toán 1: D ự đoán phân đ ối tượ ng cho thuê theo lo i phòng c ủ a Airbnb Hoa K ỳ (bài toán phân l ớp đa lớ p) Bài toán 2: D ự báo giá phòng cho thuê lo ại “Ho tel room” (bài toán phân lớp đa lớp) Bài toán 3: Phân c ụ m phòng cho thuê lo ại “Shared room” (bài toán gom c ụm liệ u) 1.3 Mô t ả phư ơng pháp 1.3.1 Phương pháp phân lớp (C lassification) Phân l p d ữ liệ u trình phân m ột đối tư ợ ng d ữ liệ u vào m ộ t hay nhi ề u l ớp (loại) cho trư c nhờ mơ hình p hân l p Mơ hìn h đư ợ c xâ y dựng dựa m ộ t t ậ p d ữ liệu đượ c gán nhãn trư ớc Quá trình gán nhãn cho m ột đối tượng liệu c hính q trình ph ân l ớp Hì n h : M h ì n h p h â n l p d ữ l i ệ u Quá trình p hân l ớp liệ u g ồm bướ c: Bước 1: Xây d ựn g mơ hình (giai đo n “huấn luy ện”) • Dữ liệu đầu vào liệu m ẫu đượ c gán nhãn ti ền xử lý • Các thu ậ t tốn phân l p: Cây quy ết đị nh, SVM , … • Kết qu ả c bướ c mơ hình phân l ớp đượ c hu ấ n luy ệ n (trình phân lớp) Bước 2: Đánh giá mơ hình (ki ểm tra tính đ ắ n) • Dữ liệu đầu vào: tập liệu m ẫu khác đư ợ c g ắ n nhãn ti ền xử lý Tuy nhiên lú c đưa vào mơ hình phân l ớp, ta “lờ” thuộc tình gắn nhãn • Tính đắ n mơ hình đư ợc xác đị nh b ằng cách so sánh thu ộc tính gắn n hãn liệu đầu vào k ế t qu ả phân l p mơ h ình Bước 3: Phân l p d ữ liệu m i Phân lo i toán phân l ớp: Nhiệm v ụ c ủ a toán phân l p phân lo ại đ ối tượng liệu vào n l p cho trư c n ếu: • n = 2: Thu ộ c toán phân l p n h ị phân • n > 2: Thu ộ c toán phân l ớp đa lớp Các phương p háp phân lớp sử dụng tron g bài: Cây quy ết đị n h (Decision Tree ): Trong lý thuy ế t qu ả n tr ị , quy ết đị nh đồ thị quy ết đị nh c ùng k ết kh ả d ĩ kèm nhằ m hỗ trợ qu trình định Trong lĩnh v ự c kh thá c d ữ liệu, câ y qu yết đ ịnh phư ơng pháp mô tả , phân lo i t ổ ng quát hóa t ậ p d ữ liệu cho trướ c Hì n h V í d ụ s đ câ y q u y ế t đ ị n h SVM (Support Vec tor Machine) m ộ t thu ậ t tốn có giám sát, SVM nh ận liệu vào, xem chúng vector không gian phân lo ại chún g vào lớp khác b ằ ng cách xây d ự ng m ộ t siê u ph ẳ n g không gian n hi ề u chi ề u làm mặt ph ân cách l p d ữ liệu Để t ối ưu kế t phân lớp phải xá c đị n h siêu phẳng (hyperplane) có kho ảng cách đ ến điể m d ữ liệ u (margin) c ủ a t ấ t c ả l ớp xa nh ấ t có th ể SVM có n hi ề u bi ế n th ể để ph ù h ợ p v i nhi ề u bà i toán phân lo i khác Hì n h S đ t ổ n g q u t S V M KNN (K-nearsest neighbor) thu ật toán đơn giả n nh ấ t nh ữ ng th u ật toán supervised- lea rning lạ i hi ể u q u ả tro ng m ộ t s ố trườ ng h ợ p Thu ậ t tốn khơng c ầ n h ọ c t d ữ liệ u hu ấ n luy ệ n, c ầ n d ự đoán kế t qu ả c ủ a d ữ liệ u m ới thu ậ t tốn m i th ự c hi ệ n tính tốn KNN có th ể p d ụ ng c ả hai lo i toán phân lo i h i quy Hì n h V í d ụ s đ kN N 1.3.2 Phương pháp phân c ụm (Clustering) Phân c ụ m d ữ liệ u q trình gom c ụm/nhóm đ ối tượng /dữ liệu có đặ c điểm tương đ ng vào c ụm/nhóm tư ơng ứng Trong đó: Các đối tượ ng c ùng cụm có tính ch ất tương tự Các đối tượng thuộc cụm/nhóm khác s ẽ có tính c h ấ t khác Lưu ý: D ữ liệu toán phân cụm li ệu chưa đư ợc gán nhãn Đây d ữ liệu t ự nhiên thư ng th ấ y th ự c t ế Hì n h M h ìn h p h â n c ụ m d ữ l i ệ u Đặ c điểm: Nhiệm v ụ tìm đo đ c s ự c bi ệ t g i ữa đối tượ ng d ữ liệu Phân c ụ m thu ộc nhóm phương pháp h ọ c khơng giám sát (unsupervise d learning) khơng bi ết trư ớc đượ c s ố nhóm (khá c v i toán phâ n l ớp) Một phương pháp phân c ụ m t ốt phương p háp tạ o c ụm có chất lượng cao: • Độ tương đồng bên c ụm cao Độ tương tự c ác c ụ m th ấ p (khác bi ệ t cao) Các ứ ng d ụ ng điển hình: Cơng c ụ phân c ụ m d ữ liệu độ c lập • Là giai đoạn tiền xử lý cho c ác thuật toán khác Độ đo phân c ụm s d ụ ng làm tiêu chí nh ằ m tính toán s ự tương đồ ng sai bi ệ t gi ữa đối tư ợ n g d ữ liệ u nh ằ m ph ụ c v ụ cho qu trình go m c ụm Mộ t s ố độ đo phân cụm: Euclid , Cosin, Minkowski … Thuật tốn K-mean s: Thuộc nhóm thu ậ t toán phâ n c ụ m d ự a phâ n ho ch Tư tưở ng chín h: Ta xem m ỗi đối tượ ng tập liệu m ột điể m không gian d chi ề u (v i d s ố lượ ng thu ộ c tính c đối tượ ng) • • 1.4 Mơ t ả d ữ liệ u Bộ liệu tổng hợp từ tập d ữ liệu v ề nhà cho thuê Airbnb t i Hoa Kỳ - truy xu ấ t t i: http://insideairbnb.c om/ B ộ d ữ liệu đượ c thu th ậ p vào ngày 20 tháng 10 n ăm 2020 b ởi Kritik Seth Bộ liệu g m c ác thông tin: Thuộc tính id Ý nghĩa Mã định danh Airbnb cho đối tượng cho thuê Mô tả chuỗi ký tự số Tên đối tượng cho thuê Mã định danh Airbnb cho chủ nhà / người cho thuê chuỗi ký chữ host_name Tên chủ nhà/ người cho thuê chuỗi ký chữ neighbourhood Tên khu vực lân cận latitude longitude Vĩ độ Kinh độ room_type Loại phòng đối tượng cho thuê price Giá phòng ngày ($) Số đêm lưu trú tối thiểu đối tượng cho thuê Số tiền (USD) number_of_reviews Số lượng đánh giá đối tượng cho thuê Số tự nhiên reviews_per_month Số lượt đánh giá trung bình tháng Số thập phân calculated_host_listings_count Số lượng phòng cho thuê thành phố mà chủ nhà sở hữu có danh sách Số tự nhiên availability_365 Tính khả dụng (ngày): Một máy chủ Airbnb thiết lập lịch cho danh sách họ để có sẵn vài ngày vài tuần năm Số tự nhiên city Thành phố nơi cho thuê Asheville, Austin, Boston, Broward County, Chicago, Clark County, Columbus, Denver, Hawaii, Cambridge valuation Khoảng định giá phịng / ngày (chỉ có sheet "HR") < $130; [ $130 ; $190 ); [ $190 ; $300 ); >= $300 name host_id minimum_nights Bảng Mô tả biến 10 chuỗi ký tự số chuỗi ký tự số chữ Số thập phân Số thập phân Entire home/apt; Private room; Shared room; Hotel room Số tự nhiên CHƯƠN G II: QUY TRÌN H THỰC HIỆN & KẾT QU Ả 2.1 Phân tích ti ề n x lý d ữ liệ u 2.1.1 Phân tích d ữ liệ u Phân tích d ữ liệu cá c đặc trưng có tính phân lo ại: Mỗi h àng đạ i d ện cho đố i tượ ng cho thuê, cột chứa thu ộc tính đối tượng Dữ liệu thơ ch ứa 5.535 hàng (đố i tượ ng) 15 c ột (đặc trưng) Trong c ộ t d ữ liệu loại phịng có thu ộ c tính là: nhà ngun căn/ hộ, p hịng riêng, phòng chung, phòng khách s n Tổng số lượng thuê phòng lo ại nhà/ h ộ nguyê n ca o rấ t nhi ều so v i lo i phòng l ại ( phòng “Entire home/apt” chi ế m 77,36%) Hawaii, Broward C ountry Au stin thành ph ố có s ố lượng phịng cho th nhi ều nhấ t (l ầ n lư ợ t 26,53% - 16, 57% - 15 ,92% t ổ ng s ố phòng cho thuê Airbnb t i M ỹ) Mức độ phân b ố giá phòng tập trung mạnh mẽ tro ng kho ảng từ $0 đế n $2000, m ức độ giá t ập trung khác theo lo i phòng, l ần lượ t t r ẻ đến đắt là: Phòng c -> Phòng KS -> Phòng riêng - > Nhà nguyên B i ểu đ D ữ l i ệ u Da t a t h e o g i v l o i p h ò n g 11 Số lượng phòng cho thuê 60000 Số lượng phòng cho thuê 50697 50000 40000 30000 20000 13430 10000 816 20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 17385 10858 10436 8408 6397 4200 3339 2074 1409 1029 592 Entire home/apt Hotel room Private room Shared room Loại hộ Thành phố B i ểu đ S ố l ợn g p h òn g c h o th u ê t h e o l o i că n h ộ B i ểu đ S ố l ợn g p h ò n g c h o t h u ê t h e o t h n h p h ố 100% 90% 80% 70% 60% 50% 40% Shared room 30% Private room 20% 10% Hotel room Entire home/apt 0% Asheville Austin Boston Broward County Cambridge Chicago Clark County Columbus Denver Shared room 134 162 90 66 17 44 55 Private room 364 2202 1142 2295 484 1833 2291 346 935 1538 73 330 35 180 536 4401 5721 1043 3186 15612 Hotel room Entire home/apt 19 15 27 134 1684 8085 2162 8267 B i ểu đ T ỷ l ệ p h â n b ố cá c l o i p h ò n g c h o t h u ê t h e o k h u v ự c 12 Hawaii 2.1.2 Tiền x lý d ữ liệ u Xử lý liệu: • Báo cá o s d ụ ng b ộ d ữ liệu đư ợ c t ổ ng h ợ p t trang inside airbnb.com, xác x lý bả n nên khơng có d ữ liệu thiếu • Loại b ỏ biế n ngo ại lai (Outliers) shee t “SR” có giá (“Price”) = 10.000 Phân chia liệu: Lọc t d ữ liệu gốc “AB_US_2020 ” thàn h sheet chứa d ữ liệ u theo t ng lo ại phòng khác n hau: “HR” ; “SR ” ; “EH” ; “PR” Thêm bi ế n phân lo ại: Thê m c ột Định giá (“Valuation”) sheet “HR” - gá n kho ảng g iá tương ứ ng v i giá tr ị c ột G iá (“Price”) C ác m ố c giá phân chia d ựa m ật độ phòng cho thuê t ại mức g iá kho ảng Price