BÀI TOÁNDự báo giá vé máy bay nhằm để hãng hàng không điều chỉnh giá vé thích hợp và khách hàng điều chỉnh hành vi tiêu dùngSử dụng các thuật toán phân cụm để định hình và hiểu rõ hơn hà
Trang 1KHDL –
G05
ĐỀ TÀI: NGHIÊN CỨU THÔNG TIN CHUYẾN BAY TRONG VẬN CHUYỂN HÀNG KHÔNG VÀ DU LỊCH
Trang 2DANH SÁCH THÀNH VIÊN
THÀNH
TRƯƠNG THIÊN BẢO 312210230819 Tiểu luận, bổ sung hoàn
chỉnh dữ liệu, Phân tích dữ liệu, giải bài toán, phương pháp phân cụm, dự doán kết quả, làm slides.
100%
NGUYỄN VĂN TÚ 31221025423 Xử lý dữ liệu thô ,Phân tích
giải bài toán, đưa ra kiến nghị giải pháp, phương pháp phân cụm, tiểu luận, slides
100%
PHAN THỊ HOÀI THƯƠNG 31221026956 Tìm Mẫu, Tiền Xử lý dữ liệu,
phân tích bài toán, phương pháp phân lớp, dự đoán số liệu, tiêu luận, làm slides
100%
NGUYỄN HOÀNG VÂN 31221024163 Tìm Mẫu, Xử Lý Dữ liệu thô,
phân tích , phương pháp phân lớp, đưa kiến nghị dự đoán, slides, tiểu luận
100%
Trang 3NỘI DUNG THUYẾT
Trang 6Mô tả cấu trúc của bộ dữ
liệu về FLIGHT
Trang 7Mô tả dữ liệu sau rút gọn
Trang 9• Sử dụng công cụ Feature Statistics để mô tả thống
kê các biến này với những giá trị như Mean, Median, Dispersion, Min, Max, của
8932 kết quả khảo sát
Trang 10● AveragePrice: biến phụ thuộc.
● priceType có giá trị là “Cao” : giá vé cao hơn
so với giá trị trung bình
● priceType có giá trị là “Thấp”: giá vé thấp
hơn so với giá trị trung bình
MÔ TẢ DỮ LIỆU
Bởi vì
FlightType, Price, Time, Distance ảnh
hưởng trực tiếp và gián tiếp theo chiều hướng tỉ lệ thuận với priceType
Year, Month ảnh hưởng priceType
theo chiều hướng tháng cao điểm hoặc thấp điểm của mùa bay thì sẽ ảnh hưởng tới Price và priceType tăng hoặc giảm Mỗi năm sẽ bị ảnh hưởng theo biến động của nền kinh tế - xã hội
Trang 11PHÂN TÍCH 0
2
Trang 12Sử dụng các thuật toán phân cụm để định hình
và hiểu rõ hơn hành vi đặt vé của các nhóm khách hàng
Trang 13MÔ TẢ BÀI TOÁN
1 Các hãng hàng không cần lên kế hoạch cũng như các nghiệp vụ phân tích và dự báo để tính toán hợp lí các chi phí như chi phí bay của từng loại vé như thế nào để khách hàng tin tưởng đồng hành và sử dụng dịch vụ với
chất lượng và chi phí phù hợp ?
Trang 14XÂY DỰNG MÔ
HÌNH
Trang 16KẾT QUẢ VÀ ĐÁNH GIÁ
Kết quả đánh giá bài toán 1 theo SVM
Trang 17+ T = 0,0% < LR = 2,6% < SVM = 8,3%
→ Vậy nên chọn phương pháp T và LR để thực hiện Test & Core
- Dựa vào Test & Core
+ AUC của T = NN = 1.000
→ Vậy 2 phương pháp trên đều có thể thích hợp thực hiện dự báo
dự báo là cao >< giá vé thấp vì lỗ vốn
Giá thấp hơn >< tiềm năng lợi
nhuận
KẾT QUẢ VÀ ĐÁNH GIÁ
Trang 18Kết quả đánh giá bài toán 1 và quyết định chọn
phương pháp nghiên cứu
Trang 19KẾT QUẢ VÀ ĐÁNH GIÁ
Đường cong ROC
Quan sát bảng kết quá trên
ta thấy đường màu cam của mô hình Tree là mô hình tiệm cận với điểm (0;1) nhất
Còn đường màu xanh dương của mô hình SVM và đường màu xanh lá của mô hình Logistic Regression xa điểm (0:1) nên bị đánh giá thấp hơn
→ Vậy phương pháp Tree là phương pháp phù hợp nhất
Trang 20KẾT QUẢ VÀ ĐÁNH GIÁ
Kết quả nghiên cứu bài toán 1
Trang 21KẾT QUẢ VÀ ĐÁNH GIÁ
Kết quả đánh giá bài toán 1 theo Tree
Trang 22Phân tích:
• (Time) ≤ 0,72 có giá vé thấp 100% → nên
tăng giá
• (Time) ≥ 0,72 có tỉ lệ tăng đến 21% ( 73,2%)
→ nên giảm giá
• Giá vé không được hơn 1166,1 BRL → Xét 2 TH:
Tăng giá hạng vé 1 (firstClass) do tỷ
lệ dự báo chắc chắn thấp 100% → lợi nhuận cao hơn
Hạ giá hạng vé 2,3 (economic, premium) do tỷ lệ dự báo giá cao đến 71,2% → lợi nhuận cao, duy trì lâu → cạnh tranh → mất khách hàng
Trang 23KIẾN NGHỊ
• Khách hàng có xu hướng đi bằng phương tiện hàng không
nhiều hơn → tạo chương trình thưởng và ưu đãi dành riêng
cho khách hàng thân thiết → thúc đẩy hành khách quen thuộc
của bạn tiếp tục lựa chọn hãng của bạn khi đi lại
• Xem xét giá vé của các đối thủ cạnh tranh trong cùng tuyến
đường và cùng phân đoạn thị trường → điều chỉnh giá → cân
nhắc liệu nên cạnh tranh bằng giá thấp hơn / giá tương đương
/giá cao hơn
• Khách hàng sẵn sàng chi trả với mức giá cao → tạo ra các giá
trị và trải nghiệm đáng giá , duy trì một dịch vụ xuất sắc để
có thể cạnh tranh được với các đối thủ
Trang 24MÔ TẢ BÀI TOÁN 2
Các hãng hàng không cần làm gì để giúp cải thiện dịch
vụ, tối ưu hóa quy trình đặt vé và tạo ra chiến lược tiếp
thị chính xác hơn cho từng nhóm khách hàng?
Trang 251
Hierarchical Clustering
2 K-Means
Phân cụm
Trang 26al Clustering
Trang 27CHẠY MÔ HÌNH VÀ KẾT QUẢ
Trang 28Thực hiện phân cụm bằng bộ
dữ liệu phân lớp để dự báo xu hướng đặt vé máy bay của các nhóm khách hàng trong tương lai -> dùng meta để loại
bỏ thuộc tính “priceType” để không ảnh hưởng tới kết quả
Hierarchical
Clustering
Trang 29 Do số lượng dự liệu lên đến 8932 kết quả khảo sát -> Dùng Data Sampler để lấy ngẫu nhiên dữ liệu để khảo sát để có thể làm việc hiệu quả hơn -> tránh mất thời gian tiến hành và khai thác
Trang 30 Để tiến hành Hierarchical Clustering -> Cần tính khoảng cách ước tính (sử dụng Euclidean (normalized)) -> với cách tính khoảng cách Complete-link (khoảng cách lớn nhất) Cho kết quả chạy từ 2 đến 5 cụm.
Trang 31Hộp thoại Hierarchical Clustering để chia dữ liệu thành các cụm từ 2 tới 5
Trang 33 Sau khi chia dữ liệu lần lượt thành 2, 3, 4, 5 cùng thì ta dùng Silhouette Plot
để xem kết quả công cụ
từ đó lựa chọn phương
án tối ưu Khi đó
Silhouette Plot sẽ được tính khoảng cách theo công thức Euclidean Tìm group chọn cluster ta có kết quả phân cụm lần lượt như sau:
Trang 35Silhouette score của cụm càng lớn thì độ tương đồng của từng điểm trong cum càng cao thì kết quả
phân cụm đó càng tốt Vì thế sau khi thử phân cụm bố dữ liệu thành 2, 3, 4 và 5 cụm thì kết quả khi chia
dữ liệu thành hai cụm là tốt nhất
=> Qua những giá trị này, có thể nói cách phân cụm chưa thật sự đáng tin cậy, sát với thực tế và cần thêm các chuyên gia có kinh nghiệm, chuyên môn để đánh giá lại
Trang 36K-Means
Trang 37Tiến hành phân cụm với thuật toán k-means ta
có :
Trang 38+ Silhouette index 0,5: sát thực tế.
+ 0,25 Silhouette index 0,5: cần đánh giá lại (kinh nghiệm của chuyên gia) + Silhouette index 0,25: không tin tưởng và cluster, tìm phương pháp đánh giá khác Theo kết quả chạy từ 2 đến 5 cụm có những kết quả sau:
+ Phân thành 2 cụm: Score=0.282, cụm 1, 2 có sự phân tách.
+ Phân thành 3 cụm: Score=0.251, cụm 1, 2, 3 có sự phân tách.
+ Phân thành 4 cụm: Score=0.224, nhóm 1, 2, 3, 4 có sự phân tách.
+ Phân thành 5 cụm: Score=0.229, nhóm 1, 2, 3, 4, 5 có sự phân tách.
Kết quả được phân ra các giá trị sau :
Trang 39Vì vậy đối với bộ dữ liệu của nhóm thì phân cụm theo phương pháp k-Means là tốt nhất
Kết quả lựa chọn phương pháp phân cụm :
Kết quả phân cụm bằng k-Means
Trang 40Phân càng nhiều nhóm chỉ số score càng thấp, và sự phân tách trong các nhóm càng nhiều Vì vậy, nhóm đã quyết định chọn phương án phân bộ dữ liệu thành hai nhóm:
Bảng Silhouette Plot cho 2 phân cụm phân hoạch
Trang 41Chuỗi thao tác thực hiện phân cụm và phân tích cụm
Trang 42Bảng thống kê mô tả cụm 1
Trang 43Bảng thống kê mô tả cụm 2
Trang 44Biểu đồ Bar Plot so sánh giá trị distance giữa 2 cụm
Trang 45Biểu đồ Box Plot so sánh giá trị distance giữa 2 cụm
Trang 46NHẬN XÉT
Qua 2 biểu đồ trên ta có thể nhận thấy rằng, với
nhóm khách hàng cụm 1, với chặng bay ngắn hơn,
người ta sẽ lựa chọn đa dạng các loại vé nhưng có
nghiêng về về loại vé 3 là economy
Đây là một dạng vé máy có mức giá tiết kiệm
Còn với nhóm khách hàng cụm 2 ta thấy :
Với chặng bay dài hơn người ta thường lựa
chọn loại vé 1 và 2, lần lượt là loại firstClass
và premium, đây là những hàng vé có mức giá
khá cao.
Trang 47KIẾN NGHỊ
+ Với nhóm khách hàng cụm 1 (chặng bay ngắn hơn), nên tiếp tục tối ưu hóa giá vé economy để thu hút họ Cân nhắc cung cấp các ưu đãi giảm giá cho vé economy trên các chặng bay ngắn
+ Dựa trên sự hiểu biết về hành vi lựa chọn loại vé của các nhóm khách hàng, tạo chiến dịch tiếp thị đặc trưng cho từng nhóm
+ Chú ý những ngành hàng không và du lịch là nhũng ngành
có tính cạnh tranh cao và thị trường thay đổi nhanh chóng
Do đó, việc duy trì sự linh hoạt và thích nghi là rất quan
trọng để thành công
+ Đối với nhóm khách hàng cụm 2 (chặng bay dài), tiếp tục cung cấp các dịch vụ và tiện ích cao cấp cho hành khách như firstClass và
premium
Trang 48THANKS FOR WATCHING
NHÓM G05 – KHOA HỌC DỮ
LIỆU