1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài dự đoán khả năng hủy chuyến bay của các hãng hàng không ở hoa kỳ bằng công cụ azure machine learning

48 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

1 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA QUẢN TRỊ KINH DOANH BÁO CÁO CUỐI KỲ 50% MÔN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂ

Trang 1

1

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

KHOA QUẢN TRỊ KINH DOANH

BÁO CÁO CUỐI KỲ 50%

MÔN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ

ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG HỦY CHUYẾN BAY CỦA CÁC HÃNG HÀNG KHÔNG Ở HOA KỲ BẰNG CÔNG CỤ AZURE MACHINE LEARNING

Giảng viên hướng dẫn: Ths PHẠM NGỌC BẢO DUY Nhóm sinh viên thực hiện:

1 NGUYỄN THỊ THIỆT 71505338

2 MẠCH KHẢ TÚ 71506266

3 HỨA CHÍ HÙNG 71505164

4 VŨ MINH TẤN LỘC 71705364 5 NGUYỄN TRUNG QUỐC HÙNG 71705051

TP HCM, THÁNG 09 NĂM 2021

BẢNG ĐÁNH GIÁ MỨC ĐỘ ĐÓNG GÓP TỪNG THÀNH VIÊN

Trang 2

2 STT Họ và tên Mã s sinh viên ố Công vi c thệ ực hiện Mức độ đóng

góp 1 Nguyễn Thị Thi t ệ 71505338 Nội dung Chương 1,2,3

Nghiên cứu và tham gia chạy mô hình

100%

Nghiên c u và tham gia ứchạy mô hình

100%

3 Mạch Kh Tú ả 71506266 Tổng h p, ch nh s a báo ợ ỉ ửcáo

Nghiên c u và tham gia ứchạy mô hình

100%

4 Nguyễn Trung Qu c ốHùng

71705051 Nội dung Chương 5 Nghiên c u và tham gia ứchạy mô hình

100%

5 Vũ Minh Tấn Lộc 71705364 Đóng gói sản phẩm Azure

Nghiên cứu và tham gia chạy mô hình

100%

Trang 3

MỤC LỤC

BẢNG ĐÁNH GIÁ MỨC ĐỘ ĐÓNG GÓP TỪNG THÀNH VIÊN 2

2.2.2 Các dịch v甃⌀ của Azure mang đ Ān 7 2.2.3 Lợi ích của Azure Machine Learning 8 2.2.4 Các thuật toán trong Azure Machine Learning 9 2.3 Cơ sở lí thuy Āt Key Paper 10 - Tên bài báo: A Classification Prediction Analysis of Flight Cancellation Based on Spark 10

2.4 Mô hình đề xuất lựa chọn 11

2.4.2 Logistic Regression 11

Trang 4

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 13

Trang 5

DANH M C B NG BI U, HÌNH V ỤẢỂẼ1.Biểu đồ:

Trang 6

LỜI CAM ĐOAN

Tôi xin cam đoan số liệu và k Āt quả nghiên cứu trong báo cáo đề tài “Dự đoán khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ bằng công c甃⌀ Azure Machine Learning” là trung thực và không có bất kỳ sự sao chép hay sử d甃⌀ng để bảo vệ một học vị nào Tất cả những sự giúp đỡ cho việc xây dựng cơ sở lý luận cho bài nghiên cứu đều được trích dẫn đầy đủ và ghi rõ nguồn gốc rõ ràng và được phép công bố

Trang 7

LỜI GI I THIỆU

Trang 8

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Lý do chọn đề tài

1.1.1 B ối c nh nghiên c u ả ứ

- Năm 2020, đại dịch Covid-19 đã khi Ān mức tăng trưởng của nhiều nền kinh t Ā trên toàn cầu bị suy giảm mạnh chưa từng thấy trong nhiều thập kỷ qua Dù các nền kinh t Ā đã có sự ph甃⌀c hồi mạnh mẽ trong quý III/2020, tuy nhiên con đường

-phối tại nhiều quốc gia, nhưng số ca mắc mới vẫn gia tăng vào dịp cuối năm, đặc biệt khi xuất hiện bi Ān thể của Covid 19 Hầu h Āt các tổ chức quốc t Ā đều có -chung nhận định, kinh t Ā toàn cầu khó có thể ph甃⌀c hồi trong ngắn hạn mà sẽ phải mất nhiều năm.

- Theo số liệu của một số viện nghiên cứu kinh t Ā trên th Ā giới, mức độ tăng trưởng

-trung bình của kinh t Ā th Ā giới trong các năm trước và kinh t Ā th Ā giới cần thời

khi dịch bệnh bùng phát và lây lan Những nền kinh t Ā lâu nay chưa giải quy Āt được các vấn đề và bất cập mang tính cơ cấu cũng như ph甃⌀ thuộc nhiều nhất vào ngành dịch v甃⌀ thì đều bị ảnh hưởng tiêu cực nặng nề nhất.

- Các doanh nghiệp hàng không trên khắp th Ā giới bị ảnh hưởng nặng nề bởi 19 vì hầu h Āt các chuy Ān du lịch hàng không t Ā quốc đã ngừng hoạt động Tuy nhiên, một khi cơn bão k Āt thúc, nhu cầu đi lại bằng đường hàng không dự ki Ān sẽ tăng cao khi mọi người đổ xô trở lại các kỳ nghỉ ở nước ngoài Các hãng hàng không có thể chuẩn bị những gì để tạo cho mình một lợi th Ā cạnh tranh khi đám đông cuối cùng đã đ Ān? Để giải đáp vấn đề kinh doanh này, một mô hình phân loại được tạo ra từ dữ liệu từ Kaggle để xác định các y Āu tố quan trọng dẫn đ Ān việc hủy chuy Ān bay của các hãng hàng không để có k Ā hoạch cho sự ph甃⌀c hồi kinh t Ā toàn cầu nói chung và ngành hàng không nói riêng

Covid-1.1.2 Lý do chọn đề tài

Dự đoán rằng hiện nay hiện tượng hoãn, hủy chuy Ān bay ngày càng trở nên nghiêm trọng Chuy Ān bay bị hoãn và việc hủy chuy Ān không chỉ gây lãng phí nguồn lực vận tải mà còn ảnh hưởng đ Ān k Ā hoạch đi lại của hành khách, làm tăng sự bất mãn của hành khách và tỷ lệ phàn nàn Việc hành khách không hài lòng và không tin tưởng vào các hãng hàng không gây thiệt hại nghiêm trọng cho danh ti Āng công ty của các hãng hàng không và sau đó ảnh hưởng đ Ān lòng trung thành của hành khách Do đó, dựa trên thông tin của bộ dữ liệu chuy Ān bay ở Hoa Kỳ

Trang 9

vào năm 2016, nhóm đã chọn đề tài “Dự đoán khả năng hủy chuyến bay của

các hãng hàng không ở Hoa Kỳ bằng công cụ Azure Machine Learning” 1.2 M甃⌀c tiêu nghiên cứu và ý nghĩa nghiên cứu

- Nghiên cứu này nhằm chỉ ra các y Āu tố chính dẫn đ Ān khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ Dựa vào thông tin, tính chất của bi Ān, xác định mức độ liên quan của chúng đ Ān hủy chuy Ān bay của hãng hàng không Đồng thời, thông qua việc khai thác dữ liệu, chạy bộ dữ liệu của hàng không Hoa Kỳ, nhóm dự đoán một chuy Ān bay có khả năng bị hủy hay không trước khi thông tin đ Ān khách hàng

- So sánh và lựa chọn phương pháp dự đoán bằng công c甃⌀ Azure Machine Learning tối ưu nhất để sử d甃⌀ng dự báo

- Đưa ra k Āt luận và hàm ý quản trị nhằm giúp nhà hoạch định đưa ra các giải pháp tối ưu hóa cho các chuy Ān bay

1.3 Câu h i nghiên c u  ứ

- Các y Āu tố nào ảnh hưởng đ Ān hủy chuy Ān bay của các hãng hàng không? - Mức độ tác động của các y Āu tố gây hủy chuy Ān bay của các hãng hàng không? - Mô hình, phương pháp dự đoán nào phù hợp xác định các y Āu tố ảnh hưởng khả

năng hủy chuy Ān bay của các hãng hàng không?

1.4 Đối tưng và ph愃⌀m vi nghiên cứu

- Đối tượng nghiên cứu: Các hãng hàng không ở Hoa Kỳ và các y Āu tố ảnh hưởng đ Ān hủy chuy Ān bay của các hãng hàng không

- Phạm vi nghiên cứu: Bộ dữ liệu các chuy Ān bay ở Hoa Kỳ năm 2016 gồm 1.048.576 mẩu dữ liệu

1.5 ngh a nghiên c u Ý ĩ ứ

- Ý nghĩa khoa học: Bằng nghiên cứu của bản thân và nghiên cứu mang tính chất khoa học, nhóm mong muốn chứng minh được y Āu tố có ảnh hưởng đ Ān việc hủy chuy Ān bay của hãng hàng không

- Ý nghĩa thực tiễn: Dự đoán được việc hủy chuy Ān bay của các hãng hàng không có thể giúp các nhà hoạch định nắm được lịch trình, đánh giá khả năng đáp ứng, tần suất bay của các hãng hàng không giúp phản ứng kịp thời trước những tình huống bất ngờ Bên cạnh đó đưa ra các giải pháp và hoạch định chi Ān lược giúp giảm thiểu y Āu tố tác động gây ảnh hưởng chuy Ān bay

Trang 11

● Chương 5: K Āt luận và hàm ý quản trị

Trang 12

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MÔ HÌNH NGHIÊN CỨU 2.1 Azure Machine Learning

2.1.1 Định nghĩa

- Azure là một nền tảng điện toán đám mây và một cổng thông tin trực tuy Ān, cho phép bạn truy cập và quản lý các dịch v甃⌀, cũng như tài nguyên đám mây do Microsoft cung cấp Các dịch v甃⌀ và tài nguyên này bao gồm lưu trữ và chuyển đổi dữ liệu, tùy thuộc vào yêu cầu Để có quyền truy cập vào các tài nguyên và dịch v甃⌀ này, tất cả những gì bạn cần là k Āt nối Internet đang hoạt động và khả năng k Āt nối với Azure Portal

- Azure Machine Learning Studio là một dịch v甃⌀ tiên đoán dựa trên ứng d甃⌀ng web qua Internet mà qua đó cung cấp một trải nghiệm tinh gọn cho các nhà khoa học dữ liệu từ tất cả các cấp độ kỹ năng Nó có tính năng dễ sử d甃⌀ng, kéo và thả giao diện để xây dựng các mô hình Machine Learning

Trang 13

2.2.2 Các d ch v甃⌀ ủa Azure mang đ Ān c

- Computer services: Cung cấp sức mạnh xử lý cần thi Āt để dịch v甃⌀ đám mây có thể chạy

- Virtual machine: cho phép bạn tạo, triển khai và quản lý VM trên môi trường đám mây Azure

- Web sites: cung cấp khả năng quản lý website cho bạn bạn có thẻ tạo mới hoặc di chuyển 1 website có sẵn lên cloud.

- Cloud services: cho phép bạn xây dựng và triển khai các ứng d甃⌀ng đảm bảo tính HA và có khả năng mở rộng với hầu h Āt các ngôn ngữ lập trình

- Mobile service: cung cấp giải pháp chìa khóa trao tay cho phép bạn xây dựng, triển khai và lưu trữ dữ liệu cho thi Āt bị di động

- Network services: Cung cấp các tùy chọn khác nhau để Azure cung cấp giải pháp đ Ān người sử d甃⌀ng và datacenter

- Virtual network: cho phép bạn xử lý các đám mây công cộng như phần mở rộng là của datacenter tại chỗ

- Traffic manager: cho phép bạn định tuy Ān lưu lượng người dùng theo 3 cách: hiệu suất tốt nhất, theo round Robin or cấu hình failover

- Data services: Cung cấp những cách khác nhau để bạn lưu trữ, quản lý, bảo vệ, phân tích và báo cáo dữ liệu kinh doanh

- Data management: cho phép bạn lưu trữ dữ liệu kinh doanh trong SQL database or với các VM SQL Server sử d甃⌀ng Azure SQL Database

- Business Analytics: cho phép dễ dàng phát hiện và làm giàu dữ liệu bằng cách sử d甃⌀ng Microsoft SQL Server Reporting và Analysis Services hoặc Microsoft

Trang 34

Hình 4.3: Số liệu k Āt quả dự đoán của mô hình TWO - CLASS BOOSTED DECISION TREE

Trang 35

Hình 4.4: Số liệu k Āt quả dự đoán của mô hình TWO - CLASS LOGISTIC REGRESSION

Trang 36

Hình 4.5: Số liệu k Āt quả dự đoán của mô hình TWO – CLASS SUPPORT VECTOR MACHINE (SVM)

Trang 37

Hình 4.6: Số liệu k Āt quả dự đoán của mô hình TWO – CLASS BAYES POINT MACHINE

Trang 38

- Dưới đây là bảng so sánh k Āt quả chỉ số AUC giữa các thuật toán: Decision Tree Logistic

Regression

Support Vector Machine

Naive Bayes

K Āt quả cho thấy thuật toán Decision Tree có hiệu quả tốt nhất, có giá trị AUC là 0.901 Tương tự, nhóm quy Āt định Decision Tree là thuật toán phù hợp nhất để dự đoán hủy các chuy Ān trong số 4 thuật toán Do đó, cần dự đoán chính xác để mọi chuy Ān bay bị hủy b tránh sự bất tiện cho việc đi lại của khách hàng và lợi nhuận của các hang bay bị thiệt hại nghiêm trọng Để tránh một loạt các sự cố, thì hủy chuy Ān bay sớm là sự lựa chọn tốt nhất

Trang 39

4.2 Test

4.2.1 API - Web Service Set Up

Sau khi hoàn tất chạy tất cả 4 mô hình dự đoán hủy của các chuy Ān bay, nhóm chọn SELECT COLUMN IN DATASET b đi bi Ān CANCELLED để máy dự báo

Hình 4.7: Giao diện loại b bi Ān CANCELLED để dự báo

Ti Āp đó, nhóm chọn chức năng PREDICTIVE WEB SERVICE để tạo API, lưu mô hình lên Cloud để sử d甃⌀ng cho những lần sau Mô hình sẽ được x Āp gọn lại và lưu trữ lên Cloud

Trang 40

Hình 4.8: Giao diện sau khi đã tải lên Web service

Trang 42

Sau đó nhóm ấn vào Test Preview để thử nghiệm máy

Hình 4.10a: Giao diện Test Endpoint (Scored Labels: 0)

Trang 43

Hình 4.10b: Giao diện Test Endpoint (Scored Labels: 1)

K Āt quả dự đoán cho thấy chuy Ān bay không Hủy là Scored Labels: 0 còn Hủy là Scored Labels: 1

Trang 44

4.2.3 S dử 甃⌀ng các d li u thữ ệ ực để test độ chính xác

MONTH

DAY_OF_MONTH

DAY_OF_WEEK

ORIGIN DEST CRS_DEP_TIME

DISTANCE

Carrier_Mean_Distance

Origin_Taxiout

Origin_Delay

K Āt Quả

Trang 45

gập ghềnh, với ti Ān trình ph甃⌀c hồi ph甃⌀ thuộc vào tốc độ triển khai vaccine, khả năng ti Āp cận vốn, chính sách và sự khó lường của loại virus,… mà người ta chưa hiểu rõ

N Āu trong quá khứ, đi máy bay được xem như một việc trọng đại, mang lại giá trị lớn lao cho hành khách (như du lịch, tham quan hoặc đi công tác) thì thời điểm hiện tại, đi máy bay lại thường đi kèm với những vấn đề tiêu cực Đó là sự trì hoãn bay, vấn đề về an ninh và sự xuống cấp của các dịch v甃⌀ hàng không Sự trì hoãn bay gây ra nhiều hệ quả nghiêm trọng Về phía khách hàng, một mặt, việc hoãn, hủy chuy Ān bay làm lãng phí thời gian quý báu của hành khách dẫn đ Ān giảm sự hài lòng Bamford và Xystouri (2005) cho rằng, trì hoãn bay là một trong ba vấn đề thường xuyên bị khi Āu nại của hành khách Kim và Park (2016) cho rằng điều này sẽ gây nên cảm xúc tiêu cực, tăng cường truyền miệng tiêu cực và giảm ý định mua Mặt khác, nó cũng có ảnh hưởng lớn và lãng phí đ Ān việc phân bổ các nguồn lực Các hãng hàng không, để gia tăng sức mạnh cạnh tranh của họ, n Āu không phải có giá rẻ nhất, thì cần cung cấp dịch v甃⌀ đảm bảo và phù hợp để thu hút khách hàng m甃⌀c tiêu

Nhận thấy điều n y nhà óm đưa ra ý tưởng và sử d甃⌀ng phân loại máy tính để dự đoán Cho dù các chuy Ān bay bị hủy hoặc bị hoãn, chúng ta có thể ti Āt kiệm nguồn lực và giảm bớt sự lo lắng của hành khách Vì th Ā, việc sự đoán được đánh giá sẽ giúp cho ngành kinh doanh n y tr nên thu n l i v h p dà ở ậ ợ à ấ ẫn hơn Để ự đoán đượ d c khả năng hủy chuy n bay Āhay không, b i nghiên c u tham kh o v d li u c c chuy n bay c a Hoa K v à ứ ả ề ữ ệ á Ā ủ ì ì đây là một trong những thị trường hàng không dân d甃⌀ng lớn nhất trên th Ā giới, trị giá đ Ān 179 tỷ đô la Mỹ (Euromonitor, 2018) và sử d甃⌀ng các mô hình máy học: Logistic Regression, Support Vector Machine, Bayes Point Machine v Boosted Decision Tree Sau khi th c à ựhiện d ự đoán s ẽ đưa ra so sánh giữa b n mô hố ình để xem x t mô h nh n o s d é ì à ẽ ự đoán khả năng hủy chuy Ān bay tốt hơn để đem lại hiệu suất cho việc kinh doanh hàng không

Logistic Regression là phương pháp hồi quy thông d甃⌀ng nh t, p dấ á 甃⌀ng cho các bi Ān m甃⌀c tiêu không ph i l biả à Ān định lượng liên t甃⌀c Đượ ức ng d甃⌀ng r ng r i trong nhi u ng nh ộ ã ề àvà l nh v c kh c nhau, mĩ ự á ột số v dí 甃⌀ như: Dự báo khả năng trả nợ của khách hàng, khả năng rời dịch v甃⌀ của khách hàng,… Nhưng đối với dữ liệu phi tuy Ān tính, các dữ liệu phức tạp thì sẽ khó khăn trong việc thi Āt k Ā và cần phải xử lí trước dữ liệu một cách cẩn

Trang 46

thận, xuyên suốt trước khi đào tạo mô hình để ngăn chặn những dữ liệu gây nhiễu khi Ān quá trình đào tạo và thực nghiệm bị gián đoạn

Support Vector Machine là một kĩ thuật phân lớp khá phổ bi Ān, SVM thể hiện được nhiều ưu điểm trong số đó có việc tính toán hiệu quả trên các tập dữ liệu lớn Ngoài ra còn có khả năng xử lý không gian số chiều cao, tính linh hoạt giữa các phương pháp tuy Ān tính và phi tuy n t nh tĀ í ừ đó khi n cho hi u su t phân lo i lĀ ệ ấ ạ ớn hơn Nhưng chưa thể ệ hi n rõ tính x c suá ất Việc phân lớp của SVM chỉ là việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM Điều này chưa giải thích được xác suất xuất hiện của một thành viên trong một nhóm là như th Ā nào

Bayes Point Machine là một thuật toán học có giám sát, dựa trên định lý Bayes và được sử d甃⌀ng để giải các bài toán phân loại Nó chủ y Āu được sử d甃⌀ng trong phân loại văn bản bao gồm một tập dữ liệu đào tạo chiều cao Nó là một bộ phân loại theo xác suất, có nghĩa là nó dự đoán trên cơ sở xác suất của một đối tượng Một số ví d甃⌀ phổ bi Ān của Thuật toán Bayes là lọc thư rác, phân tích tình cảm và phân loại các bài báo Nó là sự lựa chọn phổ bi Ān nhất cho các bài toán phân loại văn bản, một trong những thuật toán ML nhanh và dễ dàng để dự đoán một lớp tập dữ liệu Nó có thể được sử d甃⌀ng cho Phân loại Nhị phân cũng như Đa lớp Nó hoạt động tốt trong các dự đoán Đa lớp so với các Thuật toán khác Tuy nhiên tất cả các đối tượng địa lý là độc lập hoặc không liên quan, vì vậy nó không thể tìm hiểu mối quan hệ giữa các đối tượng địa lý Bên cạnh đó, mô h nh Decision ìTree được đánh giá cao hơn với tính chính xác của mô hình Trong quá trình chạy mô hình, Decision Tree là một thuật toán học có giám sát hiệu quả nhất Nó áp d甃⌀ng cho các danh m甃⌀c và đầu vào liên t甃⌀c (đặc điểm) và các bi Ān đầu ra (dự đoán) Phương pháp dựa trên cây chia không gian đối tượng thành một loạt các hình chữ nhật và sau đó gán một mô hình đơn giản cho mỗi hình chữ nhật Về mặt khái niệm, chúng đơn giản và hiệu quả Tuy nhiên thu t to n n y ch hoậ á à ỉ ạt động hi u qu trên b d liệ ả ộ ữ ệu đơn giản c t bi n d ó í Ā ữliệu liên h v i nhau, v ệ ớ à ngượ ạc l i n u p dung cho b d li u ph c tĀ á ộ ữ ệ ứ ạp Điều này đòi h i phức tạp hơn về ứ s c m nh tạ ính to n, yêu c u bá ầ ộ d li u phữ ệ ải được chu n b ho n h o, ẩ ị à ảchất lượng t t phố ải được cân đối theo các l p, c c nh m trong bi n mớ á ó Ā 甃⌀c tiêu,… Ngoài ra, biĀn m甃⌀c tiêu ph i c cả ó ác giá ị “rời rạc” ễ nh n bi tr d ậ Āt, không được quá đa dạng, v ph i à ảc甃⌀ thể V thu t to n Decision Tree không h tr k thu t hay kh ì ậ á ỗ ợ ỹ ậ ả năng “truy vấn ngược” mà chỉ phân nh nh liên tá 甃⌀ ực d a trên c c công th c phân nhá ứ ánh cho đ Ān khi thấy được k Āt quả sau c ng nên ch ng ta kh ph t hiù ú ó á ện được c c l i á ỗ ở đâu n Āu có sai sót Tóm lại, đối

Ngày đăng: 07/05/2024, 16:21

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN