1 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA QUẢN TRỊ KINH DOANH BÁO CÁO CUỐI KỲ 50% MÔN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂ
Trang 11
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA QUẢN TRỊ KINH DOANH
BÁO CÁO CUỐI KỲ 50%
MÔN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ
ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG HỦY CHUYẾN BAY CỦA CÁC HÃNG HÀNG KHÔNG Ở HOA KỲ BẰNG CÔNG CỤ AZURE MACHINE LEARNING
Giảng viên hướng dẫn: Ths PHẠM NGỌC BẢO DUY Nhóm sinh viên thực hiện:
1 NGUYỄN THỊ THIỆT 71505338
2 MẠCH KHẢ TÚ 71506266
3 HỨA CHÍ HÙNG 71505164
4 VŨ MINH TẤN LỘC 71705364
5 NGUYỄN TRUNG QUỐC HÙNG 71705051
TP HCM, THÁNG 09 NĂM 2021 BẢNG ĐÁNH GIÁ MỨ C ĐỘ ĐÓNG GÓP TỪNG THÀNH VIÊN
Trang 22
STT Họ và tên Mã s sinh viên ố Công vi c thệ ực hiện Mức độ đóng
góp
1 Nguyễn Thị Thi t ệ 71505338 Nội dung Chương 1,2,3
Nghiên cứu và tham gia chạy mô hình
100%
Nghiên c u và tham gia ứchạy mô hình
100%
3 Mạch Kh Tú ả 71506266 Tổng h p, ch nh s a báo ợ ỉ ử
cáo Nghiên c u và tham gia ứchạy mô hình
100%
4 Nguyễn Trung Qu c ố
Hùng
71705051 Nội dung Chương 5
Nghiên c u và tham gia ứchạy mô hình
100%
5 Vũ Minh Tấn Lộc 71705364 Đóng gói sản phẩm
Azure Nghiên cứu và tham gia chạy mô hình
100%
Trang 3MỤC LỤC
BẢNG ĐÁNH GIÁ MỨC ĐỘ ĐÓNG GÓP TỪNG THÀNH VIÊN 2
2.2.2 Các dịch v甃⌀ của Azure mang đ Ān 7 2.2.3 Lợi ích của Azure Machine Learning 8 2.2.4 Các thuật toán trong Azure Machine Learning 9 2.3 Cơ sở lí thuy Āt Key Paper 10
- Tên bài báo: A Classification Prediction Analysis of Flight Cancellation Based on Spark 10 2.4 Mô hình đề xuất lựa chọn 11
2.4.2 Logistic Regression 11
Trang 4CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 13
Trang 5DANH M C B NG BI U, HÌNH V Ụ Ả Ể Ẽ
1.Biểu đồ:
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan số liệu và k Āt quả nghiên cứu trong báo cáo đề tài “Dự đoán khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ bằng công c甃⌀ Azure Machine Learning” là trung thực và không có bất kỳ sự sao chép hay sử d甃⌀ng để bảo vệ một học
vị nào Tất cả những sự giúp đỡ cho việc xây dựng cơ sở lý luận cho bài nghiên cứu đều được trích dẫn đầy đủ và ghi rõ nguồn gốc rõ ràng và được phép công bố
Trang 7LỜI GI I THIỚ ỆU
Trang 8CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Lý do chọn đề tài
1.1.1 B ối c nh nghiên c u ả ứ
- Năm 2020, đại dịch Covid-19 đã khi Ān mức tăng trưởng của nhiều nền kinh t Ā trên toàn cầu bị suy giảm mạnh chưa từng thấy trong nhiều thập kỷ qua Dù các nền kinh t Ā đã có sự ph甃⌀c hồi mạnh mẽ trong quý III/2020, tuy nhiên con đường
-phối tại nhiều quốc gia, nhưng số ca mắc mới vẫn gia tăng vào dịp cuối năm, đặc biệt khi xuất hiện bi Ān thể của Covid 19 Hầu h Āt các tổ chức quốc t Ā đều có -chung nhận định, kinh t Ā toàn cầu khó có thể ph甃⌀c hồi trong ngắn hạn mà sẽ phải mất nhiều năm
- Theo số liệu của một số viện nghiên cứu kinh t Ā trên th Ā giới, mức độ tăng trưởng
-trung bình của kinh t Ā th Ā giới trong các năm trước và kinh t Ā th Ā giới cần thời
khi dịch bệnh bùng phát và lây lan Những nền kinh t Ā lâu nay chưa giải quy Āt được các vấn đề và bất cập mang tính cơ cấu cũng như ph甃⌀ thuộc nhiều nhất vào ngành dịch v甃⌀ thì đều bị ảnh hưởng tiêu cực nặng nề nhất
- Các doanh nghiệp hàng không trên khắp th Ā giới bị ảnh hưởng nặng nề bởi
Covid-19 vì hầu h Āt các chuy Ān du lịch hàng không t Ā quốc đã ngừng hoạt động Tuy nhiên, một khi cơn bão k Āt thúc, nhu cầu đi lại bằng đường hàng không dự ki Ān
sẽ tăng cao khi mọi người đổ xô trở lại các kỳ nghỉ ở nước ngoài Các hãng hàng không có thể chuẩn bị những gì để tạo cho mình một lợi th Ā cạnh tranh khi đám đông cuối cùng đã đ Ān? Để giải đáp vấn đề kinh doanh này, một mô hình phân loại được tạo ra từ dữ liệu từ Kaggle để xác định các y Āu tố quan trọng dẫn đ Ān việc hủy chuy Ān bay của các hãng hàng không để có k Ā hoạch cho sự ph甃⌀c hồi kinh t Ā toàn cầu nói chung và ngành hàng không nói riêng
1.1.2 Lý do chọn đề tài
Dự đoán rằng hiện nay hiện tượng hoãn, hủy chuy Ān bay ngày càng trở nên nghiêm trọng Chuy Ān bay bị hoãn và việc hủy chuy Ān không chỉ gây lãng phí nguồn lực vận tải mà còn ảnh hưởng đ Ān k Ā hoạch đi lại của hành khách, làm tăng
sự bất mãn của hành khách và tỷ lệ phàn nàn Việc hành khách không hài lòng và không tin tưởng vào các hãng hàng không gây thiệt hại nghiêm trọng cho danh
ti Āng công ty của các hãng hàng không và sau đó ảnh hưởng đ Ān lòng trung thành của hành khách Do đó, dựa trên thông tin của bộ dữ liệu chuy Ān bay ở Hoa Kỳ
Trang 9vào năm 2016, nhóm đã chọn đề tài “Dự đoán khả năng hủy chuyến bay của
các hãng hàng không ở Hoa Kỳ bằng công cụ Azure Machine Learning”
1.2 M 甃⌀c tiêu nghiên cứu và ý nghĩa nghiên cứu
- Nghiên cứu này nhằm chỉ ra các y Āu tố chính dẫn đ Ān khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ Dựa vào thông tin, tính chất của bi Ān, xác định mức độ liên quan của chúng đ Ān hủy chuy Ān bay của hãng hàng không Đồng thời, thông qua việc khai thác dữ liệu, chạy bộ dữ liệu của hàng không Hoa
Kỳ, nhóm dự đoán một chuy Ān bay có khả năng bị hủy hay không trước khi thông tin đ Ān khách hàng
- So sánh và lựa chọn phương pháp dự đoán bằng công c甃⌀ Azure Machine Learning tối ưu nhất để sử d甃⌀ng dự báo
- Đưa ra k Āt luận và hàm ý quản trị nhằm giúp nhà hoạch định đưa ra các giải pháp tối ưu hóa cho các chuy Ān bay
1.3 Câu h i nghiên c u ứ
- Các y Āu tố nào ảnh hưởng đ Ān hủy chuy Ān bay của các hãng hàng không?
- Mức độ tác động của các y Āu tố gây hủy chuy Ān bay của các hãng hàng không?
- Mô hình, phương pháp dự đoán nào phù hợp xác định các y Āu tố ảnh hưởng khả năng hủy chuy Ān bay của các hãng hàng không?
1.4 Đối tưng và ph愃⌀m vi nghiên cứu
- Đối tượng nghiên cứu: Các hãng hàng không ở Hoa Kỳ và các y Āu tố ảnh hưởng
đ Ān hủy chuy Ān bay của các hãng hàng không
- Phạm vi nghiên cứu: Bộ dữ liệu các chuy Ān bay ở Hoa Kỳ năm 2016 gồm 1.048.576 mẩu dữ liệu
1.5 ngh a nghiên c u Ý ĩ ứ
- Ý nghĩa khoa học: Bằng nghiên cứu của bản thân và nghiên cứu mang tính chất khoa học, nhóm mong muốn chứng minh được y Āu tố có ảnh hưởng đ Ān việc hủy chuy Ān bay của hãng hàng không
- Ý nghĩa thực tiễn: Dự đoán được việc hủy chuy Ān bay của các hãng hàng không
có thể giúp các nhà hoạch định nắm được lịch trình, đánh giá khả năng đáp ứng, tần suất bay của các hãng hàng không giúp phản ứng kịp thời trước những tình huống bất ngờ Bên cạnh đó đưa ra các giải pháp và hoạch định chi Ān lược giúp giảm thiểu y Āu tố tác động gây ảnh hưởng chuy Ān bay
Trang 111.6 K t cĀ Āu đề à t i th ị trườ ng
K Āt cấu của đề tài bao gồm 5 chương:
● Chương 1: Tổng quan đề tài
● Chương 2: Cơ sở lý thuy Āt và mô hình nghiên cứu
● Chương 3: Mô tả dữ liệu và phương pháp nghiên cứu
● Chương 4: K Āt quả nghiên cứu
● Chương 5: K Āt luận và hàm ý quản trị
Trang 12CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MÔ HÌNH NGHIÊN CỨU
2.1 Azure Machine Learning
2.1.1 Định nghĩa
- Azure là một nền tảng điện toán đám mây và một cổng thông tin trực tuy Ān, cho phép bạn truy cập và quản lý các dịch v甃⌀, cũng như tài nguyên đám mây do Microsoft cung cấp Các dịch v甃⌀ và tài nguyên này bao gồm lưu trữ và chuyển đổi
dữ liệu, tùy thuộc vào yêu cầu Để có quyền truy cập vào các tài nguyên và dịch v甃⌀ này, tất cả những gì bạn cần là k Āt nối Internet đang hoạt động và khả năng k Āt nối với Azure Portal
- Azure Machine Learning Studio là một dịch v甃⌀ tiên đoán dựa trên ứng d甃⌀ng web qua Internet mà qua đó cung cấp một trải nghiệm tinh gọn cho các nhà khoa học
dữ liệu từ tất cả các cấp độ kỹ năng Nó có tính năng dễ sử d甃⌀ng, kéo và thả giao diện để xây dựng các mô hình Machine Learning
Trang 132.2.2 Các d ch vị 甃⌀ ủa Azure mang đ Ān c
- Computer services: Cung cấp sức mạnh xử lý cần thi Āt để dịch v甃⌀ đám mây có thể chạy
- Virtual machine: cho phép bạn tạo, triển khai và quản lý VM trên môi trường đám mây Azure
- Web sites: cung cấp khả năng quản lý website cho bạn bạn có thẻ tạo mới hoặc di chuyển 1 website có sẵn lên cloud
- Cloud services: cho phép bạn xây dựng và triển khai các ứng d甃⌀ng đảm bảo tính
HA và có khả năng mở rộng với hầu h Āt các ngôn ngữ lập trình
- Mobile service: cung cấp giải pháp chìa khóa trao tay cho phép bạn xây dựng, triển khai và lưu trữ dữ liệu cho thi Āt bị di động
- Network services: Cung cấp các tùy chọn khác nhau để Azure cung cấp giải pháp
- Data management: cho phép bạn lưu trữ dữ liệu kinh doanh trong SQL database
or với các VM SQL Server sử d甃⌀ng Azure SQL Database
- Business Analytics: cho phép dễ dàng phát hiện và làm giàu dữ liệu bằng cách sử d甃⌀ng Microsoft SQL Server Reporting và Analysis Services hoặc Microsoft
Trang 34Hình 4.3: Số liệu k Āt quả dự đoán của mô hình TWO - CLASS BOOSTED DECISION TREE
Trang 35Hình 4.4: Số liệu k Āt quả dự đoán của mô hình TWO - CLASS LOGISTIC REGRESSION
Trang 36Hình 4.5: Số liệu k Āt quả dự đoán của mô hình TWO – CLASS SUPPORT VECTOR MACHINE (SVM)
Trang 37Hình 4.6: Số liệu k Āt quả dự đoán của mô hình TWO – CLASS BAYES POINT MACHINE
Trang 38- Dưới đây là bảng so sánh k Āt quả chỉ số AUC giữa các thuật toán:
Decision Tree Logistic
Regression
Support Vector Machine
Naive Bayes
K Āt quả cho thấy thuật toán Decision Tree có hiệu quả tốt nhất, có giá trị AUC là 0.901 Tương tự, nhóm quy Āt định Decision Tree là thuật toán phù hợp nhất để dự đoán hủy các chuy Ān trong số 4 thuật toán Do đó, cần dự đoán chính xác để mọi chuy Ān bay bị hủy b tránh sự bất tiện cho việc đi lại của khách hàng và lợi nhuận của các hang bay bị thiệt hại nghiêm trọng Để tránh một loạt các sự cố, thì hủy chuy Ān bay sớm là sự lựa chọn tốt nhất
Trang 394.2 Test
4.2.1 API - Web Service Set Up
Sau khi hoàn tất chạy tất cả 4 mô hình dự đoán hủy của các chuy Ān bay, nhóm chọn SELECT COLUMN IN DATASET b đi bi Ān CANCELLED để máy dự báo
Hình 4.7: Giao diện loại b bi Ān CANCELLED để dự báo
Ti Āp đó, nhóm chọn chức năng PREDICTIVE WEB SERVICE để tạo API, lưu mô hình lên Cloud để sử d甃⌀ng cho những lần sau Mô hình sẽ được x Āp gọn lại và lưu trữ lên Cloud
Trang 40Hình 4.8: Giao diện sau khi đã tải lên Web service
Trang 42Sau đó nhóm ấn vào Test Preview để thử nghiệm máy
Hình 4.10a: Giao diện Test Endpoint (Scored Labels: 0)
Trang 43Hình 4.10b: Giao diện Test Endpoint (Scored Labels: 1)
K Āt quả dự đoán cho thấy chuy Ān bay không Hủy là Scored Labels: 0 còn Hủy là Scored Labels: 1
Trang 44CE Carrier_
Mean_Di stance
Origin_
Taxiout Origin_
Delay
K Āt Quả
Trang 45gập ghềnh, với ti Ān trình ph甃⌀c hồi ph甃⌀ thuộc vào tốc độ triển khai vaccine, khả năng ti Āp cận vốn, chính sách và sự khó lường của loại virus,… mà người ta chưa hiểu rõ
N Āu trong quá khứ, đi máy bay được xem như một việc trọng đại, mang lại giá trị lớn lao cho hành khách (như du lịch, tham quan hoặc đi công tác) thì thời điểm hiện tại, đi máy bay lại thường đi kèm với những vấn đề tiêu cực Đó là sự trì hoãn bay, vấn đề về an ninh
và sự xuống cấp của các dịch v甃⌀ hàng không Sự trì hoãn bay gây ra nhiều hệ quả nghiêm trọng Về phía khách hàng, một mặt, việc hoãn, hủy chuy Ān bay làm lãng phí thời gian quý báu của hành khách dẫn đ Ān giảm sự hài lòng Bamford và Xystouri (2005) cho rằng, trì hoãn bay là một trong ba vấn đề thường xuyên bị khi Āu nại của hành khách Kim và Park (2016) cho rằng điều này sẽ gây nên cảm xúc tiêu cực, tăng cường truyền miệng tiêu cực và giảm ý định mua Mặt khác, nó cũng có ảnh hưởng lớn và lãng phí đ Ān việc phân
bổ các nguồn lực Các hãng hàng không, để gia tăng sức mạnh cạnh tranh của họ, n Āu không phải có giá rẻ nhất, thì cần cung cấp dịch v甃⌀ đảm bảo và phù hợp để thu hút khách hàng m甃⌀c tiêu
Nhận thấy điều n y nhà óm đưa ra ý tưởng và sử d甃⌀ng phân loại máy tính để dự đoán Cho
dù các chuy Ān bay bị hủy hoặc bị hoãn, chúng ta có thể ti Āt kiệm nguồn lực và giảm bớt
sự lo lắng của hành khách Vì th Ā, việc sự đoán được đánh giá sẽ giúp cho ngành kinh doanh n y tr nên thu n l i v h p dà ở ậ ợ à ấ ẫn hơn Để ự đoán đượ d c khả năng hủy chuy n bay Āhay không, b i nghiên c u tham kh o v d li u c c chuy n bay c a Hoa K v à ứ ả ề ữ ệ á Ā ủ ì ì đây là một trong những thị trường hàng không dân d甃⌀ng lớn nhất trên th Ā giới, trị giá đ Ān 179 tỷ đô
la Mỹ (Euromonitor, 2018) và sử d甃⌀ng các mô hình máy học: Logistic Regression, Support Vector Machine, Bayes Point Machine v Boosted Decision Tree Sau khi th c à ựhiện d ự đoán s ẽ đưa ra so sánh giữa b n mô hố ình để xem x t mô h nh n o s d é ì à ẽ ự đoán khả năng hủy chuy Ān bay tốt hơn để đem lại hiệu suất cho việc kinh doanh hàng không
Trang 46thận, xuyên suốt trước khi đào tạo mô hình để ngăn chặn những dữ liệu gây nhiễu khi Ān quá trình đào tạo và thực nghiệm bị gián đoạn
Support Vector Machine là một kĩ thuật phân lớp khá phổ bi Ān, SVM thể hiện được nhiều
ưu điểm trong số đó có việc tính toán hiệu quả trên các tập dữ liệu lớn Ngoài ra còn có khả năng xử lý không gian số chiều cao, tính linh hoạt giữa các phương pháp tuy Ān tính
và phi tuy n t nh tĀ í ừ đó khi n cho hi u su t phân lo i lĀ ệ ấ ạ ớn hơn Nhưng chưa thể ệ hi n rõ tính x c suá ất Việc phân lớp của SVM chỉ là việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM Điều này chưa giải thích được xác suất xuất hiện của một thành viên trong một nhóm là như th Ā nào
Bayes Point Machine là một thuật toán học có giám sát, dựa trên định lý Bayes và được
sử d甃⌀ng để giải các bài toán phân loại Nó chủ y Āu được sử d甃⌀ng trong phân loại văn bản bao gồm một tập dữ liệu đào tạo chiều cao Nó là một bộ phân loại theo xác suất, có nghĩa
là nó dự đoán trên cơ sở xác suất của một đối tượng Một số ví d甃⌀ phổ bi Ān của Thuật toán Bayes là lọc thư rác, phân tích tình cảm và phân loại các bài báo Nó là sự lựa chọn phổ bi Ān nhất cho các bài toán phân loại văn bản, một trong những thuật toán ML nhanh
và dễ dàng để dự đoán một lớp tập dữ liệu Nó có thể được sử d甃⌀ng cho Phân loại Nhị phân cũng như Đa lớp Nó hoạt động tốt trong các dự đoán Đa lớp so với các Thuật toán khác Tuy nhiên tất cả các đối tượng địa lý là độc lập hoặc không liên quan, vì vậy nó không thể tìm hiểu mối quan hệ giữa các đối tượng địa lý Bên cạnh đó, mô h nh Decision ìTree được đánh giá cao hơn với tính chính xác của mô hình Trong quá trình chạy mô hình, Decision Tree là một thuật toán học có giám sát hiệu quả nhất Nó áp d甃⌀ng cho các danh m甃⌀c và đầu vào liên t甃⌀c (đặc điểm) và các bi Ān đầu ra (dự đoán) Phương pháp dựa trên cây chia không gian đối tượng thành một loạt các hình chữ nhật và sau đó gán một
mô hình đơn giản cho mỗi hình chữ nhật Về mặt khái niệm, chúng đơn giản và hiệu quả Tuy nhiên thu t to n n y ch hoậ á à ỉ ạt động hi u qu trên b d liệ ả ộ ữ ệu đơn giản c t bi n d ó í Ā ữliệu liên h v i nhau, v ệ ớ à ngượ ạc l i n u p dung cho b d li u ph c tĀ á ộ ữ ệ ứ ạp Điều này đòi h i phức tạp hơn về ứ s c m nh tạ ính to n, yêu c u bá ầ ộ d li u phữ ệ ải được chu n b ho n h o, ẩ ị à ảchất lượng t t phố ải được cân đối theo các l p, c c nh m trong bi n mớ á ó Ā 甃⌀c tiêu,… Ngoài ra,
biĀn m甃⌀c tiêu ph i c cả ó ác giá ị “rời rạc” ễ nh n bi tr d ậ Āt, không được quá đa dạng, v ph i à ảc甃⌀ thể V thu t to n Decision Tree không h tr k thu t hay kh ì ậ á ỗ ợ ỹ ậ ả năng “truy vấn ngược”
mà chỉ phân nh nh liên tá 甃⌀ ực d a trên c c công th c phân nhá ứ ánh cho đ Ān khi thấy được k Āt quả sau c ng nên ch ng ta kh ph t hiù ú ó á ện được c c l i á ỗ ở đâu n Āu có sai sót Tóm lại, đối