BÀI TOÁNDự báo giá vé máy bay nhằm để hãng hàng không điều chỉnh giá vé thích hợp và khách hàng điều chỉnh hành vi tiêu dùngSử dụng các thuật toán phân cụm để định hình và hiểu rõ hơn hà
Trang 1KHDL – G05
ĐỀ TÀI: NGHIÊN CỨU THÔNG TIN CHUYẾN BAY TRONG VẬN CHUYỂN
HÀNG KHÔNG VÀ DU LỊCH
Trang 2NGUYỄN VĂN TÚ31221025423Xử lý dữ liệu thô ,Phân tích giải bài toán, đưa ra kiến nghị giải pháp, phương pháp
phân cụm, tiểu luận, slides
PHAN THỊ HOÀI THƯƠNG31221026956Tìm Mẫu, Tiền Xử lý dữ liệu, phân tích bài toán, phương phân lớp, đưa kiến nghị dự
đoán, slides, tiểu luận
100%
Trang 3NỘI DUNG THUYẾT
Trang 5• Dữ liệu phục vụ cho việc nghiên cứu những thông tin chuyến bay trong ngành vận chuyển hàng không và vận chuyển trong du lịch • Dữ liệu thô chứa 271888 đối tượng (hàng) và 10 thuộc tính (cột)
NGUỒN:
Trang 6Mô tả cấu trúc của bộ dữ liệu về FLIGHT
Trang 9hiểu khách hàng đó đi với giá cao hay thấp
• Sử dụng công cụ Feature Statistics để mô tả thống kê các biến này với những giá trị như Mean, Median, Dispersion, Min, Max, của 8932 kết quả khảo sát.
Trang 10● AveragePrice: biến phụ thuộc.
● priceType có giá trị là “Cao” : giá vé cao hơn so với giá trị trung bình
● priceType có giá trị là “Thấp”: giá vé thấp hơn so với giá trị trung bình
MÔ TẢ DỮ LIỆU
Bởi vì
FlightType, Price, Time, Distance ảnh
hưởng trực tiếp và gián tiếp theo chiều hướng tỉ lệ thuận với priceType
Year, Month ảnh hưởng priceType
theo chiều hướng tháng cao điểm hoặc thấp điểm của mùa bay thì sẽ ảnh hưởng tới Price và priceType tăng hoặc giảm Mỗi năm sẽ bị ảnh hưởng theo biến động của nền kinh tế - xã hội
Trang 11PHÂN TÍCH 02
Trang 12BÀI TOÁN
Dự báo giá vé máy bay nhằm để hãng hàng không điều chỉnh giá vé thích hợp và khách hàng điều chỉnh hành vi tiêu dùng
Sử dụng các thuật toán phân cụm để định hình và hiểu rõ hơn hành vi đặt vé của các nhóm khách hàng
Trang 13MÔ TẢ BÀI TOÁN 1
Các hãng hàng không cần lên kế hoạch cũng như các nghiệp vụ phân tích và dự báo để tính toán hợp lí các chi phí như chi phí bay của từng loại vé như thế nào để khách hàng tin tưởng đồng hành và sử dụng dịch vụ với
chất lượng và chi phí phù hợp ?
Trang 14XÂY DỰNG MÔ HÌNH
Trang 16KẾT QUẢ VÀ ĐÁNH GIÁ
Kết quả đánh giá bài toán 1 theo SVM
Trang 17+ T = 0,0% < LR = 2,6% < SVM = 8,3%
→ Vậy nên chọn phương pháp T và LR để thực hiện Test & Core - Dựa vào Test & Core
+ AUC của T = NN = 1.000
→ Vậy 2 phương pháp trên đều có thể thích hợp thực hiện dự báo
dự báo là cao >< giá vé thấp vì lỗ vốn Giá thấp hơn >< tiềm năng lợi
nhuận
KẾT QUẢ VÀ ĐÁNH GIÁ
Trang 18Kết quả đánh giá bài toán 1 và quyết định chọn phương pháp nghiên cứu
Trang 19KẾT QUẢ VÀ ĐÁNH GIÁ
Đường cong ROC
Quan sát bảng kết quá trên ta thấy đường màu cam của mô hình Tree là mô hình tiệm cận với điểm (0;1) nhất
Còn đường màu xanh dương của mô hình SVM và đường màu xanh lá của mô
Trang 20KẾT QUẢ VÀ ĐÁNH GIÁ
Kết quả nghiên cứu bài toán 1
Trang 21KẾT QUẢ VÀ ĐÁNH GIÁ
Kết quả đánh giá bài toán 1 theo Tree
Trang 22Phân tích:
• (Time) ≤ 0,72 có giá vé thấp 100% → nên tăng giá.
• (Time) ≥ 0,72 có tỉ lệ tăng đến 21% ( 73,2%) → nên giảm giá.
• Giá vé không được hơn 1166,1 BRL → Xét 2 premium) do tỷ lệ dự báo giá cao đến 71,2% → lợi nhuận cao, duy trì lâu → cạnh tranh → mất khách hàng.
Trang 23KIẾN NGHỊ
• Khách hàng có xu hướng đi bằng phương tiện hàng không nhiều hơn → tạo chương trình thưởng và ưu đãi dành riêng cho khách hàng thân thiết → thúc đẩy hành khách quen thuộc của bạn tiếp tục lựa chọn hãng của bạn khi đi lại.
• Xem xét giá vé của các đối thủ cạnh tranh trong cùng tuyến
đường và cùng phân đoạn thị trường → điều chỉnh giá → cân nhắc liệu nên cạnh tranh bằng giá thấp hơn / giá tương đương /giá cao hơn.
• Khách hàng sẵn sàng chi trả với mức giá cao → tạo ra các giá trị và trải nghiệm đáng giá , duy trì một dịch vụ xuất sắc để có thể cạnh tranh được với các đối thủ.
Trang 24MÔ TẢ BÀI TOÁN 2
Các hãng hàng không cần làm gì để giúp cải thiện dịch vụ, tối ưu hóa quy trình đặt vé và tạo ra chiến lược tiếp
thị chính xác hơn cho từng nhóm khách hàng?
Trang 26Hierarchic al
Clustering
Trang 27CHẠY MÔ HÌNH VÀ KẾT QUẢ
Trang 28Thực hiện phân cụm bằng bộ dữ liệu phân lớp để dự báo xu hướng đặt vé máy bay của
Trang 29 Do số lượng dự liệu lên đến 8932 kết quả khảo sát -> Dùng Data Sampler để lấy ngẫu nhiên dữ liệu để khảo sát để có thể làm việc hiệu quả hơn -> tránh mất thời gian tiến hành và khai thác
Trang 30 Để tiến hành Hierarchical Clustering -> Cần tính khoảng cách ước tính (sử dụng Euclidean (normalized)) -> với cách tính khoảng cách Complete-link (khoảng cách lớn nhất) Cho kết quả chạy từ 2 đến 5 cụm.
Trang 31Hộp thoại Hierarchical Clustering để chia dữ liệu thành các cụm từ 2 tới 5
Trang 33 Sau khi chia dữ liệu lần lượt thành 2, 3, 4, 5 cùng thì ta dùng Silhouette Plot để xem kết quả công cụ từ đó lựa chọn phương án tối ưu Khi đó
Silhouette Plot sẽ được
Trang 35Silhouette score của cụm càng lớn thì độ tương đồng của từng điểm trong cum càng cao thì kết quả
phân cụm đó càng tốt Vì thế sau khi thử phân cụm bố dữ liệu thành 2, 3, 4 và 5 cụm thì kết quả khi chia dữ liệu thành hai cụm là tốt nhất.
=> Qua những giá trị này, có thể nói cách phân cụm chưa thật sự đáng tin cậy, sát với thực tế và cần thêm các chuyên gia có kinh nghiệm, chuyên môn để đánh giá lại.
Trang 36K-Means
Trang 37Tiến hành phân cụm với thuật toán k-means ta có :
Trang 38+ Silhouette index 0,5: sát thực tế.
+ 0,25 Silhouette index 0,5: cần đánh giá lại (kinh nghiệm của chuyên gia) + Silhouette index 0,25: không tin tưởng và cluster, tìm phương pháp đánh giá khác Theo kết quả chạy từ 2 đến 5 cụm có những kết quả sau:
+ Phân thành 2 cụm: Score=0.282, cụm 1, 2 có sự phân tách + Phân thành 3 cụm: Score=0.251, cụm 1, 2, 3 có sự phân tách + Phân thành 4 cụm: Score=0.224, nhóm 1, 2, 3, 4 có sự phân tách + Phân thành 5 cụm: Score=0.229, nhóm 1, 2, 3, 4, 5 có sự phân tách.
Kết quả được phân ra các giá trị sau :
Trang 39Vì vậy đối với bộ dữ liệu của nhóm thì phân cụm theo phương pháp k-Means là tốt nhất
Kết quả lựa chọn phương pháp phân cụm :
Kết quả phân cụm bằng k-Means
Trang 40Phân càng nhiều nhóm chỉ số score càng thấp, và sự phân tách trong các nhóm càng nhiều Vì vậy, nhóm đã quyết định chọn phương án phân bộ dữ liệu thành hai nhóm:
Bảng Silhouette Plot cho 2 phân cụm phân hoạch
Trang 41Chuỗi thao tác thực hiện phân cụm và phân tích cụm
Trang 42Bảng thống kê mô tả cụm 1
Trang 43Bảng thống kê mô tả cụm 2
Trang 44Biểu đồ Bar Plot so sánh giá trị distance giữa 2 cụm
Trang 45Biểu đồ Box Plot so sánh giá trị distance giữa 2 cụm
Trang 46NHẬN XÉT
Qua 2 biểu đồ trên ta có thể nhận thấy rằng, với nhóm khách hàng cụm 1, với chặng bay ngắn hơn, người ta sẽ lựa chọn đa dạng các loại vé nhưng có nghiêng về về loại vé 3 là economy
Đây là một dạng vé máy có mức giá tiết kiệm Còn với nhóm khách hàng cụm 2 ta thấy :Với chặng bay dài hơn người ta thường lựa chọn loại vé 1 và 2, lần lượt là loại firstClass và premium, đây là những hàng vé có mức giá khá cao.
Trang 47KIẾN NGHỊ
+ Với nhóm khách hàng cụm 1 (chặng bay ngắn hơn), nên tiếp tục tối ưu hóa giá vé economy để thu hút họ Cân nhắc cung cấp các ưu đãi giảm giá cho vé economy trên các chặng bay ngắn
+ Dựa trên sự hiểu biết về hành vi lựa chọn loại vé của các nhóm khách hàng, tạo chiến dịch tiếp thị đặc trưng cho từng nhóm.
+ Chú ý những ngành hàng không và du lịch là nhũng ngành có tính cạnh tranh cao và thị trường thay đổi nhanh chóng Do đó, việc duy trì sự linh hoạt và thích nghi là rất quan trọng để thành công
+ Đối với nhóm khách hàng cụm 2 (chặng bay dài), tiếp tục cung cấp các dịch vụ và tiện ích cao cấp cho hành khách như firstClass và premium
Trang 48THANKS FOR WATCHING
NHÓM G05 – KHOA HỌC DỮ LIỆU