Đồ án môn học phân tích dữ liệu đặt phòng khách sạn bằng phần mềm orange

20 8 0
Đồ án môn học phân tích dữ liệu đặt phòng khách sạn bằng phần mềm orange

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ  ĐỒ ÁN MƠN HỌC Phân tích liệu đặt phòng khách sạn phần mềm Orange Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên:  NGUYỄN VĂN A  NGUYỄN VĂN B  NGUYỄN VĂN C  NGUYỄN VĂN D  NGUYỄN VĂN E Chuyên Ngành: Khóa: K46 Giảng Viên: TP Hồ Chí Minh, Ngày xx tháng xx MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Lý Do Chọn Lựa Đề Tài 1.2 Giới Thiệu Về Phần Mềm Orange 1.3 Mục tiêu nghiên cứu CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ liệu Tiền xử lý liệu: .3 3.2 Các Kết Quả Thực Nghiệm 3.2.1 Bài toán phân cụm khách hàng 3.2.2 Bài toán phân lớp khách hàng 11 3.3 Phân Tích Đánh Giá 12 3.3 Kết dự báo .18 CHƯƠNG KẾT LUẬN .18 4.1 Kết 18 TÀI LIỆU THAM KHẢO .20 CHƯƠNG TỔNG QUAN 1.1 Lý Do Chọn Lựa Đề Tài Đội ngũ nhân viên tài sản lớn mà công ty Các nhân viên công ty làm việc để mở đường cho thành công công ty tất quản trị cần thiết để điều hành cơng ty Nhưng nhiều lý nhân viên khơng hài lịng với cơng việc cơng ty mà họ làm việc điều có xu hướng kết họ rời bỏ công ty tìm kiếm cơng ty Đó khó khăn quan trọng mà chủ sở hữu công ty phải đối mặt tổ chức họ nhân viên xuất sắc Một nhân viên giỏi tài sản quý giá cơng ty, rời họ dẫn đến nhiều vấn đề khác nhau, bao gồm tổn thất tài chính, hiệu suất tổng thể tích lũy chun mơn Hơn nữa, so với đào tạo, nâng cao tay nghề, chuyên môn nhân viên tại, việc tuyển dụng nhân gây chi phí tốn kém, thời gian đáng kể không đạt hiệu mong muốn Vì thế, nhóm em muốn cung cấp hệ thống để dự đoán phương pháp máy học để giúp phận nhân công ty muốn dự đốn liệu số nhân viên có rời cơng ty năm tới hay không Một khám phá thú vị giúp nhà tuyển dụng tương lai xây dựng quy trình làm việc đưa định nhằm ngăn cản nhân viên yêu thích rời bỏ công ty họ 1.2 Giới Thiệu Về Phần Mềm Orange Giới thiệu Phần Mềm Orange: Orange công cụ khai phá liệu học máy nguồn mở, viết Python Orange cung cấp môi trường trực quan tương tác để phân tích liệu xây dựng mơ hình học máy Orange có số tính chính, bao gồm:    Trực quan hóa liệu: Orange cung cấp loạt cơng cụ để trực quan hóa liệu, bao gồm biểu đồ, đồ thị, đồ nhiệt Khai thác liệu: Orange cung cấp loạt thuật toán khai thác liệu, bao gồm  phân loại, hồi quy, clustering Học máy: Orange cung cấp loạt mơ hình học máy, bao gồm mơ hình dựa cây, mơ hình dựa hỗ trợ vector, mơ hình dựa mạng nơ-ron Orange công cụ mạnh mẽ cho phân tích liệu học máy Nó lựa chọn tốt cho nhà khoa học liệu, kỹ sư máy học, sinh viên 1.3 Mục tiêu nghiên cứu Xác định đặc điểm đặc trưng nhân viên có ý định rời khỏi cơng ty để kịp thời đưa sách, giải pháp, đề nghị để hạn chế tối đa việc thiếu hụt nhân lực thông qua toán cụ thể Bài toán 1: Phát điểm đặc thù liệu Bài toán 3: Phân cụm/ nhóm nhân viên có khả cao rời khỏi cơng ty Bài tốn 2: Dự đốn khả nhân viên rời bỏ cơng ty hay không CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ liệu Tiền xử lý liệu: Dữ liệu lấy từ Kaggle 4653 đối tượng có biến phụ thuôc (LeaveOrNot) biến độc lập, khảo sát năm 2018  Nguồn liệu: https://www.kaggle.com/code/nourhanmahmoudahmed/employee-future prediction-eda/notebook  STT Thuộc tính Education Ý nghĩa Trình độ học vấn nhân viên Kiểu liệu JoiningYear   Năm tham gia công ty Số nguyên (từ 2012 đến 2018) City PaymentTier  Thành phố nơi đặt văn  phòng của công ty Bậc lương nhân viên Bangalore, Pune,  New Delhi (Cao nhất) Cử Nhân, Thạc sĩ, Tiến sĩ  (Trung cấp) 3(Thấp nhất)  Age Tuổi nhân viên Gender  Giới tính nhân viên Số nguyên ( Từ 21 đến 42)  Nam  Nữ EverBenched ExperienceInCurrentDomain LeaveOrNot Từng khơng tham dự dự Có án từ tháng trở lên: Không Kinh nghiệm lĩnh Số nguyên (từ vực (năm) đến 7)  Nhân viên có rời năm tới hay không 1: Nhân viên rời năm tới 0: nhân vien không rời năm tới  Nhóm em sử dụng chức outlier để lọc đối tượng khơng ngoại lệ, sau sử dụng tiếp chức data sampler để lấy ngầy nhiên 70% liệu gốc dùng 30% lại để thực tốn dự báo nhân viên có lựa chọn rời hay khơng vịng năm tới 3.2 Bài tốn phân cụm khách hàng  Mơ tả toán Bước 1: Chọn file “train_70%.tab” để tất biến “LeaveOrNot” Skip Bước 2: Dùng phương pháp K-means Hierachical, thực phân làm từ đến nhóm, xem xét phân làm cụm tối ưu Bước 3: Dùng Silhouette Plot để minh họa liệu Dữ liệu từ Silhouette minh họa Data table Bước 4: Tìm đặc điểm nhóm khách hàng hủy đặt phòng Bước 5: Đánh giá kết luận Kết phân loại Kmeans  Nhận xét: số Silhoitte Scores phân làm cụm cao Quan sát điểm bóng  bằng chức Silhouette Score, điểm bóng cụm lớn cụm (0.4>0.1), nhiên độ lệch điểm bóng phân cụm lớn nhiều với cụm (-0.4 Decision tree > SVM (0.906>0.880>0.613) CA: Decision tree > Logistic Regression > SVM (0.873 > 0.854 > 0.596) F1: Decision tree > Logistic Regression > SVM (0.872 > 0.850 > 0.596) Prec: Decision tree > Logistic Regression > SVM(0.874 > 0.872 > 0.597) Recall: Decision tree > Logistic Regression > SVM (0.873>0.854 > 0.596) => Nên sử dụng mơ hình decision tree cho tốn dự đốn  2.2.3.2 Đánh giá mơ hình dựa kết Confusion Matrix: Kết hồi quy theo Logistis Regression: 11 12 Kết hồi quy teo Decision Tree: 13 Kết hồi quy theo SVM: Sai lầm loại 2: Dự đốn khơng khơng hủy phịng thực tế hủy phòng Nếu sai lầm nhiều khách sạn tổn thất kinh tế đưa chiến lược kinh doanh sai lầm Tree = 18.5% < Logistic Regression = 29.3% < LR = 43.0% → Sai lâm loại phương pháp Tree nhỏ ba phương pháp  Sử dụng phương pháp Tree để dự đốn khách hàng có hủy đặt phịng hay khơng ⇒ 14 Mơ hình Decision tree    Nếu tình trạng đặt cọc khách sạn khơng hồn lại phí đặt cọc phịng đặt bị hủy với độ xác 99,6 %  Nếu yêu cầu khách sạn không cọc tiền cọc trả lại khách hàng khơng hủy phịng đặt đặt phịng với độ xác 73,8% 15 Kết Logistic Regression Từ kết trên, nhóm em nhận thấy biến sau có tác động mạnh đến việc khách hàng hủy phòng:    market_segment: OperationOnline TA (Travel Agency): đặt phòng online qua văn phòng đặt phịng khách sạn deposit_type: Non Refund: khách sạn khơng trả lại cọc  previous_cancellations: lịch sử số lần hủy phòng khách hàng 16 3.3 Kết dự báo CHƯƠNG KẾT LUẬN 4.1 Kết Với kết dự báo có tính xác tối đa mức độ sai lầm tối thiểu, vậy, nhóm xin đề xuất sử dụng phương pháp Decision tree để thực tốn dự báo khách hàng hủy hay khơng hủy phịng Qua đó, đồ án giúp phân tích đặc điểm khách hàng hủy phòng đặt khách hàng khơng hủy phịng khách sạn Từ giúp khách sạn đề chiến lược kinh doanh Thơng qua mơ hình Decision tree Logistic Regression, nhóm em nhận thấy tỷ lệ hủy phòng cao sách khơng trả cọc khách sạn Do nhóm em đề xuất khách sạn nên tăng tiền đặt cọc phòng để giảm tỷ lệ phòng  bị hủy Đặc biệt, khách sạn nên tăng tiền cọc cao với nhóm khách hàng đăng ký trực tuyến qua văn phòng đặt phòng khách sạn Khách sạn nên có danh sách riêng dành cho nhóm khách hàng có lượt đặt chỗ  bị hủy trước nhiều lần nhóm khách có xu hướng hủy phịng 4.2 Hạn chế Bộ liệu nhóm em sử dụng hoàn thành khứ (2015-2017) nên kết không với kêt Sinh viên chưa áp dụng nhiều kiến thức chuyên ngành quan trọng dự án hạn chế mặt thơng tin hiểu biết kiến thức chuyên ngành       17  Phạm vi nghiên cứu ứng dụng dự án nhiều hạn chế, nhóm đưa giải pháp cho nhóm khách hàng nhỏ liệu chưa có nhiều biến độc lập nên không đưa nhiều giải pháp cho tình trạng hủy đặt phịng khách sạn  18 TÀI LIỆU THAM KHẢO Batóg, B., Wawrzyniak, K (2022) Comparison of Influence of Various Proposals of  Transforming Nominants into Stimulants on Linear Ordering and Grouping of Listed  Companies In: Jajuga, K., Dehnel, G., Walesiak, M (eds) Modern Classification and Data Analysis Springer, Cham Speller, J., Staerk, C., Gude, F et al (2023). Robust gradient boosting for generalized  additive models for location, scale and shape Adv Data Anal Classif  Luís Nunes, Nuno Antonio, Ana Maria De Almeida (2018) Hotel booking demand dataset 19

Ngày đăng: 30/10/2023, 16:00