Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
1,68 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ ĐỒ ÁN MƠN HỌC Phân tích liệu đặt phòng khách sạn phần mềm Orange Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên: NGUYỄN VĂN A NGUYỄN VĂN B NGUYỄN VĂN C NGUYỄN VĂN D NGUYỄN VĂN E Chuyên Ngành: Khóa: K46 Giảng Viên: TP Hồ Chí Minh, Ngày xx tháng xx MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Lý Do Chọn Lựa Đề Tài 1.2 Giới Thiệu Về Phần Mềm Orange 1.3 Mục tiêu nghiên cứu CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ liệu Tiền xử lý liệu: .3 3.2 Các Kết Quả Thực Nghiệm 3.2.1 Bài toán phân cụm khách hàng 3.2.2 Bài toán phân lớp khách hàng 11 3.3 Phân Tích Đánh Giá 12 3.3 Kết dự báo .18 CHƯƠNG KẾT LUẬN .18 4.1 Kết 18 TÀI LIỆU THAM KHẢO .20 CHƯƠNG TỔNG QUAN 1.1 Lý Do Chọn Lựa Đề Tài Đội ngũ nhân viên tài sản lớn mà công ty Các nhân viên công ty làm việc để mở đường cho thành công công ty tất quản trị cần thiết để điều hành cơng ty Nhưng nhiều lý nhân viên khơng hài lịng với cơng việc cơng ty mà họ làm việc điều có xu hướng kết họ rời bỏ công ty tìm kiếm cơng ty Đó khó khăn quan trọng mà chủ sở hữu công ty phải đối mặt tổ chức họ nhân viên xuất sắc Một nhân viên giỏi tài sản quý giá cơng ty, rời họ dẫn đến nhiều vấn đề khác nhau, bao gồm tổn thất tài chính, hiệu suất tổng thể tích lũy chun mơn Hơn nữa, so với đào tạo, nâng cao tay nghề, chuyên môn nhân viên tại, việc tuyển dụng nhân gây chi phí tốn kém, thời gian đáng kể không đạt hiệu mong muốn Vì thế, nhóm em muốn cung cấp hệ thống để dự đoán phương pháp máy học để giúp phận nhân công ty muốn dự đốn liệu số nhân viên có rời cơng ty năm tới hay không Một khám phá thú vị giúp nhà tuyển dụng tương lai xây dựng quy trình làm việc đưa định nhằm ngăn cản nhân viên yêu thích rời bỏ công ty họ 1.2 Giới Thiệu Về Phần Mềm Orange Giới thiệu Phần Mềm Orange: Orange công cụ khai phá liệu học máy nguồn mở, viết Python Orange cung cấp môi trường trực quan tương tác để phân tích liệu xây dựng mơ hình học máy Orange có số tính chính, bao gồm: Trực quan hóa liệu: Orange cung cấp loạt cơng cụ để trực quan hóa liệu, bao gồm biểu đồ, đồ thị, đồ nhiệt Khai thác liệu: Orange cung cấp loạt thuật toán khai thác liệu, bao gồm phân loại, hồi quy, clustering Học máy: Orange cung cấp loạt mơ hình học máy, bao gồm mơ hình dựa cây, mơ hình dựa hỗ trợ vector, mơ hình dựa mạng nơ-ron Orange công cụ mạnh mẽ cho phân tích liệu học máy Nó lựa chọn tốt cho nhà khoa học liệu, kỹ sư máy học, sinh viên 1.3 Mục tiêu nghiên cứu Xác định đặc điểm đặc trưng nhân viên có ý định rời khỏi cơng ty để kịp thời đưa sách, giải pháp, đề nghị để hạn chế tối đa việc thiếu hụt nhân lực thông qua toán cụ thể Bài toán 1: Phát điểm đặc thù liệu Bài toán 3: Phân cụm/ nhóm nhân viên có khả cao rời khỏi cơng ty Bài tốn 2: Dự đốn khả nhân viên rời bỏ cơng ty hay không CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ liệu Tiền xử lý liệu: Dữ liệu lấy từ Kaggle 4653 đối tượng có biến phụ thuôc (LeaveOrNot) biến độc lập, khảo sát năm 2018 Nguồn liệu: https://www.kaggle.com/code/nourhanmahmoudahmed/employee-future prediction-eda/notebook STT Thuộc tính Education Ý nghĩa Trình độ học vấn nhân viên Kiểu liệu JoiningYear Năm tham gia công ty Số nguyên (từ 2012 đến 2018) City PaymentTier Thành phố nơi đặt văn phòng của công ty Bậc lương nhân viên Bangalore, Pune, New Delhi (Cao nhất) Cử Nhân, Thạc sĩ, Tiến sĩ (Trung cấp) 3(Thấp nhất) Age Tuổi nhân viên Gender Giới tính nhân viên Số nguyên ( Từ 21 đến 42) Nam Nữ EverBenched ExperienceInCurrentDomain LeaveOrNot Từng khơng tham dự dự Có án từ tháng trở lên: Không Kinh nghiệm lĩnh Số nguyên (từ vực (năm) đến 7) Nhân viên có rời năm tới hay không 1: Nhân viên rời năm tới 0: nhân vien không rời năm tới Nhóm em sử dụng chức outlier để lọc đối tượng khơng ngoại lệ, sau sử dụng tiếp chức data sampler để lấy ngầy nhiên 70% liệu gốc dùng 30% lại để thực tốn dự báo nhân viên có lựa chọn rời hay khơng vịng năm tới 3.2 Bài tốn phân cụm khách hàng Mơ tả toán Bước 1: Chọn file “train_70%.tab” để tất biến “LeaveOrNot” Skip Bước 2: Dùng phương pháp K-means Hierachical, thực phân làm từ đến nhóm, xem xét phân làm cụm tối ưu Bước 3: Dùng Silhouette Plot để minh họa liệu Dữ liệu từ Silhouette minh họa Data table Bước 4: Tìm đặc điểm nhóm khách hàng hủy đặt phòng Bước 5: Đánh giá kết luận Kết phân loại Kmeans Nhận xét: số Silhoitte Scores phân làm cụm cao Quan sát điểm bóng bằng chức Silhouette Score, điểm bóng cụm lớn cụm (0.4>0.1), nhiên độ lệch điểm bóng phân cụm lớn nhiều với cụm (-0.4 Decision tree > SVM (0.906>0.880>0.613) CA: Decision tree > Logistic Regression > SVM (0.873 > 0.854 > 0.596) F1: Decision tree > Logistic Regression > SVM (0.872 > 0.850 > 0.596) Prec: Decision tree > Logistic Regression > SVM(0.874 > 0.872 > 0.597) Recall: Decision tree > Logistic Regression > SVM (0.873>0.854 > 0.596) => Nên sử dụng mơ hình decision tree cho tốn dự đốn 2.2.3.2 Đánh giá mơ hình dựa kết Confusion Matrix: Kết hồi quy theo Logistis Regression: 11 12 Kết hồi quy teo Decision Tree: 13 Kết hồi quy theo SVM: Sai lầm loại 2: Dự đốn khơng khơng hủy phịng thực tế hủy phòng Nếu sai lầm nhiều khách sạn tổn thất kinh tế đưa chiến lược kinh doanh sai lầm Tree = 18.5% < Logistic Regression = 29.3% < LR = 43.0% → Sai lâm loại phương pháp Tree nhỏ ba phương pháp Sử dụng phương pháp Tree để dự đốn khách hàng có hủy đặt phịng hay khơng ⇒ 14 Mơ hình Decision tree Nếu tình trạng đặt cọc khách sạn khơng hồn lại phí đặt cọc phịng đặt bị hủy với độ xác 99,6 % Nếu yêu cầu khách sạn không cọc tiền cọc trả lại khách hàng khơng hủy phịng đặt đặt phịng với độ xác 73,8% 15 Kết Logistic Regression Từ kết trên, nhóm em nhận thấy biến sau có tác động mạnh đến việc khách hàng hủy phòng: market_segment: OperationOnline TA (Travel Agency): đặt phòng online qua văn phòng đặt phịng khách sạn deposit_type: Non Refund: khách sạn khơng trả lại cọc previous_cancellations: lịch sử số lần hủy phòng khách hàng 16 3.3 Kết dự báo CHƯƠNG KẾT LUẬN 4.1 Kết Với kết dự báo có tính xác tối đa mức độ sai lầm tối thiểu, vậy, nhóm xin đề xuất sử dụng phương pháp Decision tree để thực tốn dự báo khách hàng hủy hay khơng hủy phịng Qua đó, đồ án giúp phân tích đặc điểm khách hàng hủy phòng đặt khách hàng khơng hủy phịng khách sạn Từ giúp khách sạn đề chiến lược kinh doanh Thơng qua mơ hình Decision tree Logistic Regression, nhóm em nhận thấy tỷ lệ hủy phòng cao sách khơng trả cọc khách sạn Do nhóm em đề xuất khách sạn nên tăng tiền đặt cọc phòng để giảm tỷ lệ phòng bị hủy Đặc biệt, khách sạn nên tăng tiền cọc cao với nhóm khách hàng đăng ký trực tuyến qua văn phòng đặt phòng khách sạn Khách sạn nên có danh sách riêng dành cho nhóm khách hàng có lượt đặt chỗ bị hủy trước nhiều lần nhóm khách có xu hướng hủy phịng 4.2 Hạn chế Bộ liệu nhóm em sử dụng hoàn thành khứ (2015-2017) nên kết không với kêt Sinh viên chưa áp dụng nhiều kiến thức chuyên ngành quan trọng dự án hạn chế mặt thơng tin hiểu biết kiến thức chuyên ngành 17 Phạm vi nghiên cứu ứng dụng dự án nhiều hạn chế, nhóm đưa giải pháp cho nhóm khách hàng nhỏ liệu chưa có nhiều biến độc lập nên không đưa nhiều giải pháp cho tình trạng hủy đặt phịng khách sạn 18 TÀI LIỆU THAM KHẢO Batóg, B., Wawrzyniak, K (2022) Comparison of Influence of Various Proposals of Transforming Nominants into Stimulants on Linear Ordering and Grouping of Listed Companies In: Jajuga, K., Dehnel, G., Walesiak, M (eds) Modern Classification and Data Analysis Springer, Cham Speller, J., Staerk, C., Gude, F et al (2023). Robust gradient boosting for generalized additive models for location, scale and shape Adv Data Anal Classif Luís Nunes, Nuno Antonio, Ana Maria De Almeida (2018) Hotel booking demand dataset 19