1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tiểu luận ứng dụng của data science trong hãng hàng không quốc gia vietnam airlines

45 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu Luận Ứng Dụng Của Data Science Trong Hãng Hàng Không Quốc Gia Vietnam Airlines
Tác giả Đỗ Thu Phương, Đỗ Thị Thảo Nhi, Trần Dương Thiên Phụng, Võ Kim Oanh, Nguyễn Thị Minh Nguyệt
Người hướng dẫn Tiến Sĩ Nguyễn An Tế
Trường học Đại Học UEH
Chuyên ngành Khoa Học Dữ Liệu
Thể loại tiểu luận
Định dạng
Số trang 45
Dung lượng 1,95 MB

Cấu trúc

  • CHƯƠNG I: TỔNG QUAN VỀ DATA SCIENCE (7)
    • 1. Data Science là gì? (7)
    • 2. Vai trò, tính ứng dụng của Data Science trong thời kì công nghệ (8)
    • CHƯƠNG 2: ỨNG DỤNG DATA SCIENCE ĐỐI VỚI HÃNG HÀNG KHÔNG VIETNAM AIRLINES (8)
      • 1. An ninh (8)
        • 1.1. Check-in và hải quan (8)
        • 1.2. Phân tích hành vi, phòng ngừa các mối nguy hại (9)
      • 2. Chăm sóc khách hàng (9)
      • 3. Marketing (9)
        • 3.1. Phân tích dữ liệu khách hàng (10)
        • 3.2. Hệ thống Quản trị Khách hàng Doanh nghiệp (Customer Relationship Management (10)
      • 4. Quản lý doanh nghiệp (10)
        • 4.1. Ứng dụng Data Science vào quản lý rủi ro (10)
          • 4.1.1. Dự đoán bảo dưỡng (10)
          • 4.1.2. Quản lý sức khỏe nhân sự (11)
          • 4.1.3. Quản lý chuyến bay (11)
        • 4.2. Ứng dụng Data Science vào quản lý tài chính (11)
          • 4.2.1. Hỗ trợ thực hiện báo cáo tài chính (11)
          • 4.2.2. Quản lý lợi nhuận và khả năng duy trì các chuyến bay (12)
          • 4.2.3. Thanh toán và chi trả (12)
      • 5. Ứng dụng Data Science vào quản lí nhân sự (12)
        • 5.1. Tuyển dụng và thu hút nhân tài (12)
          • 5.1.1. Phân tích tập trung vào ứng viên (12)
          • 5.1.2. Đo lường hiệu quả quá trình tuyển dụng (12)
        • 5.2. Đào tạo và phát triển (13)
        • 5.3. Phúc lợi nhân viên (13)
        • 5.4. Sắp xếp lịch trình bay của nhân viên (13)
    • CHƯƠNG 3: CHẠY DỮ LIỆU PHẦN MỀM ORANGE (13)
      • 1. Mục tiêu nghiên cứu (13)
        • 1.1. Mục tiêu tổng quát (13)
        • 1.2. Mục tiêu cụ thể (13)
        • 1.3. Đối tượng và phạm vi nghiên cứu (14)
      • 2. Mô tả bài toán và mô tả dữ liệu (14)
        • 2.1. Mô tả bài toán (14)
        • 2.2. Mô tả dữ liệu (14)
      • 3. Cơ sở lý thuyết (15)
        • 3.1. Sử dụng phần mềm Orange (15)
        • 3.2. Phương pháp phân lớp dữ liệu (16)
          • 3.2.1. Quy trình phân lớp dữ liệu (16)
          • 3.2.2. Phân loại bài toán phân lớp (19)
          • 3.2.3. Một số phương pháp phân lớp (19)
            • 3.2.3.1. Hồi quy Logistic (Logistic Regression) (19)
            • 3.2.3.2. SVM (Support Vector Machine) (20)
          • 3.2.4. Neural Network (21)
          • 3.2.5. Các phương pháp đánh giá mô hình phân lớp (0)
            • 3.2.5.1. Ma trận nhầm lẫn (23)
            • 3.2.5.2. Độ chính xác (Accuracy) (0)
            • 3.2.5.3 Precision, Recall, F1-Score (24)
            • 3.2.5.4. Cross Validation: Holdout và K-fold cross validation (0)
            • 3.2.5.5. Ứng dụng (27)
      • 4. Quy trình nghiên cứu (28)
        • 4.1. Phân tích dữ liệu (28)
        • 4.2. Tiền xử lý dữ liệu (29)
        • 4.3. Phân lớp dữ liệu (31)
          • 4.3.1. Một số phương pháp phân lớp dữ liệu (31)
          • 4.3.2. Quy trình và kết quả mô hình (31)
    • CHƯƠNG 4: THẢO LUẬN (39)
    • CHƯƠNG 5: KẾT LUẬN (39)
  • TÀI LIỆU THAM KHẢO (45)

Nội dung

Trang 1 ĐẠI HỌC UEH KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬNỨNG DỤNG CỦA DATA SCIENCE TRONG HÃNGHÀNG KHÔNG QUỐC GIA VIETNAM AIRLINES Trang 2 DANH MỤC BẢNG BIỂU Hình 3.1: Xây dựng mô hình phân

TỔNG QUAN VỀ DATA SCIENCE

Data Science là gì?

Trong những năm gần đây, nhu cầu chuyển đổi kỹ thuật số ngày càng tăng từ đó ngành Khoa học dữ liệu cũng trở thành một trong những lĩnh vực phát triển nhanh nhất trong mọi ngành.

Data Science là quá trình thu thập, xử lý, phân tích, chuyển hóa dữ liệu thành thông tin có giá trị Thông tin này sau đó được sử dụng để đưa ra các quyết định và hành động phù hợp

Theo công ty công nghệ máy tính đa quốc gia Oracle, Khoa học dữ liệu (Data Science) kết hợp nhiều lĩnh vực bao gồm thống kê, phương pháp khoa học, trí tuệ nhân tạo và trích xuất giá trị từ dữ liệu (Oracle (n.d) Retrieved October 3.2021)

Có thể hiểu, Khoa học dữ liệu là ngành phát triển dựa trên sự kết hợp của toán học (thống kê toán học), Công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể Khoa học dữ liệu đang ngày càng phát triển rộng rãi ở nhiều lĩnh vực khác nhau như chăm sóc sức khoẻ, truyền thông, tài chính, giáo dục,

Vai trò, tính ứng dụng của Data Science trong thời kì công nghệ

Trong thời đại công nghệ số, việc áp dụng khoa học dữ liệu là điều vô cùng cần thiết cho các doanh nghiệp giúp cho họ có thể cấu trúc, phát triển và cải tiến hoạt động Data Science là các chuyên gia phân tích dữ liệu sử dụng các phương pháp thống kê, máy học để tìm kiếm những thông tin hữu ích từ khối lượng dữ liệu lớn

Những thông tin còn gọi là insight, giúp doanh nghiệp hiểu rõ hơn về thị trường, khách hàng, và hoạt động của chính mình Từ đó, họ có thể đưa ra các quyết định đúng đắn, nâng cao hiệu quả lao động

Cũng như các ngành công nghiệp thương mại khác, ngành hàng không cũng ứng dụng Data Science Nơi mà công nghệ đang có nhu cầu rất lớn để dự đoán, phân tích khách hàng và ngăn chặn những rủi ro

Cụ thể là hãng hàng không Vietnam Airlines là một hãng bay quốc gia của Việt Nam Với 25 năm hoạt động, hãng đã trở thành hãng bay hàng đầu Việt Nam, phục vụ hàng triệu khách mỗi năm Tuy nhiên, vẫn có một số khó khăn mà họ cần phải giải quyết như:

 Quản lý tài chính và nhân sự

 Quảng cáo, truyền thông dịch vụ

ỨNG DỤNG DATA SCIENCE ĐỐI VỚI HÃNG HÀNG KHÔNG VIETNAM AIRLINES

Trước khi khoa học dữ liệu phát triển, an ninh ngành hàng không chỉ được kiểm tra thủ công bằng mắt, nên không thể bảo đảm được về sự an toàn cho hành khách trên chuyến bay, cũng như phi hành đoàn Thấy được những khó khăn ấy, hãng hàng không Vietnamairlines đã áp dụng khoa học dữ liệu để có thể đảm bảo an toàn hơn về chất lượng chuyến bay nhằm đem lại cho khách hàng những trải nghiệm đáng nhớ.

1.1 Check-in và hải quan

Vietnam Airlines đã sử dụng máy quét mã vạch để kiểm tra thông tin hành khách, chuyến bay Điều này không chỉ giúp kiểm soát số lượng và thông tin hành khách mà còn ngăn chặn việc giả mạo giấy tờ, vé máy bay.

Cửa từ ở sân bay được ứng dụng khoa học dữ liệu trong việc phân tích các dữ liệu có sẵn về các đồ dùng cấm đem lên máy bay đã giúp các hãng hàng không phát hiện những đối tượng tình nghi có mang theo vũ khí, những đồ dùng cấm mang theo trên người.

Máy soi hành lý phân tích các dữ liệu về các đồ vật ngoài việc kiểm tra xem khách hàng có đem đồ vật cấm, đồ dùng nguy hiểm, thì máy soi hành lý còn kiểm tra xem đồ vật đó liệu có phù hợp là đồ xách tay hay không, để có thể hỗ trợ hành khách ký gửi hành lí.

1.2 Phân tích hành vi, phòng ngừa các mối nguy hại

Vietnamairlines đã và đang sử dụng dữ liệu từ dữ liệu giám sát được sử dụng để phân tích hành vi của hành khách và nhân viên Điều này có thể giúp phát hiện các mối đe dọa tiềm ẩn, chẳng hạn như hành vi của những người có ý định gây hại.

Một số thiết bị giám sát hiện nay đã có mặt tại Vietnam Airlines đó là camera an ninh Ngoài ra còn có hệ thống giám sát theo dõi thân nhiệt tự động có thể phát hiện được nhanh, chính xác nhiệt độ cơ thể người trong khu vực quan sát của camera Việc này giúp đội ngũ quản lý sân bay có thể ngăn chặn được các mối nguy hiểm như các bệnh truyền nhiễm và hỗ trợ y tế cho hành khách của mình.

2 Chăm sóc khách hàng Áp dụng phân lớp dữ liệu chuyến bay của hành khách, giúp Vietnam Airlines có thể hỗ trợ hành khách một cách nhanh chóng hơn Có thể thấy, đối với hành khách nối chuyến, Vietnam Airlines sẽ tự động nhắn tin nhắc nhở những giấy tờ cần chuẩn bị cho chặng bay sau và khi chuyến bay kết thúc

Sau những chuyến bay, Vietnam Airlines sẽ gửi khảo sát và lấy ý kiến hành khách về chất lượng dịch vụ Từ đó có thể phân tích và cải thiê ̣n chất lượng trong hê ̣ thống Điều này làm cho khách hàng càng cảm thấy hài lòng hơn với những dịch vụ của hãng Một ví dụ tiêu biểu cho điều này chính là sau khi lắng nghe ý kiến của khách hàng về viê ̣c phải chờ đợi check in thì dịch vụ làm thủ tục trực tuyến (Self Check-in) ra đời, giúp hành khách có thể tự làm thủ tục lên máy bay bằng bất cứ thiết bị nào có nối mạng internet và kết nối được với Website của Vietnam Airlines từ đó giảm thiểu thời gian chờ đợi check in của hành khách.

Hơn nữa dữ liệu từ hệ thống giải trí trên chuyến bay có thể giúp hãng nắm bắt được sở thích của hành khách và điều chỉnh các dịch vụ ăn nhẹ, đồ uống cũng như lựa chọn giải trí cho phù hợp Mới đây, hãng tiếp tục triển khai chương trình số hoá thực đơn bằng cách thay thế cuốn thực đơn giấy truyền thống thành thực đơn trên website

Vietnam Airlines là hãng hàng không quốc gia Việt Nam và là một trong những hãng hàng không hàng đầu khu vực Châu Á và thế giới với nhiều giải thưởng và danh hiệu uy tín Để duy trì và nâng cao vị thế cạnh tranh của mình, hãng có thể sử dụng khoa học dữ liệu trong marketing để tối ưu hóa chiến lược kinh doanh, cải thiện trải nghiệm khách hàng và tăng hiệu quả lao đông.

3.1 Phân tích dữ liệu khách hàng Áp dụng phương pháp gom cụm để có thể đưa ra những quảng cáo, ưu đãi phù hợp với từng loại nhóm khách hàng Data Science giúp hãng hàng không thu thập dữ liệu về hành vi của khách hàng từ các nguồn khác nhau như trang web, ứng dụng di động, mạng xã hội,…để làm rõ về xu hướng, sở thích,… hành khách để tạo ra chiến lược tiếp thị tập trung hơn, hiểu được cách khách hàng tương tác trên các nền tảng truyền thông xã hội, email, hay các kênh trực tuyến khác, từ đó tối ưu hóa nội dung và tạo ra chiến lược tương tác hiệu quả hơn, thu hút được nhiều khách hàng mới hơn Đặc biệt hơn, thông qua việc phân tích dữ liệu khách hàng, Vietnam Airlines có thể đưa ra nhiều giải pháp tối ưu hơn về quy trình đặt vé, thanh toán và check- in cũng như hỗ trợ chăm sóc khách hàng Vietnam Airlines còn có thể áp dụng mô hình hồi quy để dự đoán, phân tích khả năng khách hàng tái đặt vé hay tái sử dụng dịch vụ

Ngoài ra, ước tính doanh số bán hàng trên chuyến bay và cung cấp thực phẩm bằng việc sử dụng phần mềm dữ liệu lớn để phân tích là điều vô cùng cần thiết đối với hãng bay Qua quá trình phân tích dữ liệu, Vietnam Airlines có thể kiểm tra dữ liệu bán hàng, lịch sử mua hàng để xác định mặt hàng thực phẩm và đồ uống nào có nhiều khả năng bán trên các đường bay cụ thể vào các thời điểm khác nhau trong ngày Thông tin này có thể giúp tổ phục vụ chuẩn bị trước những mặt hàng phổ biến nhất.

3.2 Hệ thống Quản trị Khách hàng Doanh nghiệp (Customer Relationship Management B2B – CRM B2B).

Hệ thống CRM-B2B sẽ là giải pháp giúp Vietnam Airlines nâng cao hiệu quả quản trị, chăm sóc khách hàng là các tổ chức, doanh nghiệp, đại lý Đồng thời, với CRM B2B, nhân viên của Vietnam Airlines có thể theo sát liên tục các hoạt động, nhu cầu của khách hàng, từ đó đưa ra những quyết định tư vấn, hỗ trợ hiệu quả và nhanh chóng Đây là một trong những nền tảng công nghệ Quản trị Quan hệ Khách hàng tiên tiến, hiện đại nhất hiện nay được VietNam Airlines sử dụng.Vì vậy, hãng hàng không có thể đem lại những trải nghiệm tốt nhất cho người dùng trong quá trình sử dụng dịch vụ [1].

4 Quản lý doanh nghiệp 4.1 Ứng dụng Data Science vào quản lý rủi ro

Lúc trước, Vietnam Airlines đã dựa trên các quy định của nhà sản xuất để bảo dưỡng định kỳ đảm bảo hiệu quả hoạt động của các máy bay như: thời gian bay, số lần cất hạ cánh, điều kiện môi trường,…

Ngày nay, hãng bay đã áp dụng bài toán phân tích hồi quy để dự đoán lịch bảo dưỡng gồm biến phụ thuộc là thời điểm cần bảo dưỡng và các biến độc lập như số giờ bay, tình trạng các bộ phận máy bay, để triển khai giải pháp bảo trì dự đoán Skywise - là sự kết hợp giữa hãng hàng không Vietnam Airline và Airbus.

CHẠY DỮ LIỆU PHẦN MỀM ORANGE

1 Mục tiêu nghiên cứu 1.1 Mục tiêu tổng quát

Hiểu rõ về Khoa học dữ liệu, sự ảnh hưởng của nó đối với các doanh nghiệp nói chung và ngành hàng không nói riêng và nắm được các quy trình trong phân tích dữ liệu tiền xử lý dữ liệu, phân lớp dữ liệu cũng như các điều kiện khi sử dụng phần mềm Orange.

Giải quyết vấn đề được đặt ra là phân tích dịch vụ chăm sóc khách hàng của hãng Vietnam Airlines, dự báo về sự hài lòng của hành khách đối với dịch vụ; từ đó tìm ra nguyên nhân khách hàng không hài lòng và đưa ra các khuyến nghị để cải thiện chất lượng bay

1.2 Mục tiêu cụ thể: Để đưa ra các khuyến nghị cho việc cải thiện dịch vụ chăm sóc khách hàng ở Vietnam Airlines, nhóm tác giả đã đưa ra 2 mục tiêu nghiên cứu chính:

Mục tiêu 1: Phân tích các dịch vụ chăm sóc

Mục tiêu 2: Phân lớp dữ liệu để dự báo về sự hài lòng của hành khách khi sử dụng dịch vụ

1.3 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: Các nhân tố ảnh hưởng đến dịch vụ chăm sóc khách hàng của hãng hàng không Vietnam Airlines Đối tượng khảo sát: Khách hàng từng sử dụng dịch vụ bay từ 18 tuổi trở lên, sinh sống tại thành phố Hồ Chí Minh

Phạm vi nghiên cứu: Dữ liệu được thu thập trên nền tảng Kaggle với sự chỉnh sửa số liệu dư thừa của nhóm tác giả

2 Mô tả bài toán và mô tả dữ liệu 2.1 Mô tả bài toán

Sử dụng công cụ thống kê, lược đồ,… của phần mềm Orange để xứ lý dữ liệu và giải quyết vấn đề: Đánh giá sự hài lòng của khách hàng thông qua hai mô hình là Support Vector Machine (SVM) và Hồi quy Logistic

STT Tên thuộc tính Giải thích Chú thích

4 Inflight wifi serviceRate Đánh giá dịch vụ Wifi Thang điểm 1-5

5 Inflight entertainmentRate Đánh giá dịch vụ giải trí

6 Online supportRate Đánh giá hỗ trợ trực tuyến

7 Ease of Online Đánh giá đặt Thang điểm 1-5 bookingRate phòng trực tiếp (1 Rất kém, 5

8 On-board serviceRate Đánh giá phục vụ trên chuyến bay

9 Baggage handlingRate Đánh giá dịch vụ hành lý xách tay

10 Check-in serviceRate Đánh giá vấn đề Check-in

11 CleanlinessRate Đánh giá vệ sinh

12 Care Khách hàng có hài lòng không?

3 Cơ sở lý thuyết 3.1 Sử dụng phần mềm Orange

Data Mining và Machine Learning là những lĩnh vực khá phức tạp để tìm hiểu Do đó, nhiều loại phần mềm đã được phát triển nhằm giúp người dùng dễ dàng giải quyết các bài toán trong lĩnh vực khó khăn này Orange là một trong những phần mềm phổ biến nhất hiện nay.

Orange là một hệ điều hành Linux nhân bản thuộc dòng Minimal X của OpenSUSE Hệ điều hành này có thể hoạt động trên bộ vi xử x86 của Intel hoặc AMD, dựa trên kiến trúc x86 (32-bit) của Intel Phần mềm Orange nổi tiếng với việc tích hợp các công cụ khai phá dữ liệu, mã nguồn mở và học máy thông minh, cho phép người dùng thực hiện mọi nhiệm vụ từ việc chuẩn bị dữ liệu cho đến đánh giá mô hình mà không cần viết mã dịch Orange là một giải pháp khai thác dữ liệu giúp các doanh nghiệp từ vừa và nhỏ (SMEs) tạo ra các quy trình công việc phân tích và trình bày dữ liệu để tạo ra các phép chiếu tuyến tính bản đồ nhiệt, MDS, trên nền tảng tập trung.

Các tiện ích được tích hợp nhỏ gọn của Orange hỗ trợ phân tích dữ liệu, bao gồm các tiện ích cơ bản sau:

- Data: Quá trình rút trích, biến đổi và nạp dữ liệu (ETL).

- Visualize: Trình bày dữ liệu dưới dạng biểu đồ để quan sát trực quan hơn.

- Model: bao gồm các hàm máy học phân lớp dữ liệu bằng cách sử dụng các phương pháp như Tree, Logistics Regression và SVM.

- Evaluate: đánh giá hiệu quả của các mô hình.

- Unsupervised: bao gồm các hàm máy học phân cụm dữ liệu như khoảng cách, K-means

Người dùng có thể truy cập mục Options > Add ons… nếu họ cần sử dụng các tiện ích bổ sung.

3.2 Phương pháp phân lớp dữ liệu

Một mô hình phân lớp được sử dụng để xác định lớp (hoặc loại) của một đối tượng dữ liệu được gọi là phân lớp dữ liệu Mô hình này bắt nguồn từ một tập dữ liệu đã được tiền xử lý trước đó Việc phân lớp dữ liệu bao gồm việc gán nhãn cho đối tượng hoặc dữ liệu chính Phương pháp Hồi quy Logistic (Logistic

Regression), phương pháp SVM (Support Vector Machine) và phương pháp Cây Quyết định (Decision Tree) là một số phương pháp phân lớp phổ biến Mỗi thuật toán có những đặc điểm và lợi ích riêng Tùy thuộc vào mục đích phân tích và bộ dữ liệu, một phương pháp có thể được sử dụng hiệu quả hơn so với phương pháp khác.

3.2.1 Quy trình phân lớp dữ liệu

Phân lớp dữ liệu diễn ra trong hai giai đoạn chính:

Giai đoạn 1: Xây dựng mô hình (Giai đoạn huấn luyện) Ở giai đoạn này, chúng ta sử dụng các thuật toán phân lớp như cây quyết định, hàm số toán học hoặc tập luật để xử lý dữ liệu đầu vào là các mẫu dữ liệu đã được gán nhãn và đã được tiền xử lý để loại bỏ nhiễu, thiếu hoặc sai sót Cuối cùng, ta thu được một mô hình phân lớp đã được huấn luyện.

Hình 3.1: Xây dựng mô hình phân lớp dữ liệu

Giai đoạn 2: Sử dụng mô hình:

Giai đoạn 2.1: Đánh giá mô hình phân lớp (kiểm tra tính chính xác của mô hình) Ở bước này, dữ liệu mới được gán nhãn và tiền xử lý Tuy nhiên, khi đưa dữ liệu này vào mô hình phân lớp, ta tạm thời không xem xét thuộc tính đã gán nhãn Tính đúng đắn của mô hình được xác định bằng cách so sánh thuộc tính đã gán nhãn với kết quả phân lớp của mô hình Khi phân lớp các dữ liệu mới chưa biết thuộc tính, mô hình này sẽ được sử dụng nếu độ chính xác của nó đạt được mức độ có thể chấp nhận được.

Hình 3.2: Kiểm tra tính chính xác của mô hình

Giai đoạn 2.2: Phân lớp dữ liệu mới

Dữ liệu mà ta sử dụng là mới và chưa có thông tin thuộc tính và cần được dự đoán gán nhãn Dữ liệu được phân lớp (gán nhãn) được thực hiện bởi mô hình dựa trên dữ liệu huấn luyện từ giai đoạn 1.

Hình 3.3: Áp dụng mô hình phân lớp vào dữ liệu mới

3.2.2 Phân loại bài toán phân lớp

Bài toán phân lớp đặt ra mục tiêu phân chia các đối tượng dữ liệu thành n lớp đã được xác định trước Có 2 hình thức phân loại chính:

- Phân loại nhị phân (n = 2): Trong trường hợp này, mỗi dữ liệu chỉ thuộc về một lớp duy nhất.

- Phân loại đa lớp (n > 2): Ở dạng này, một đối tượng dữ liệu có thể thuộc đồng thời vào nhiều lớp khác nhau.

3.2.3 Một số phương pháp phân lớp 3.2.3.1 Hồi quy Logistic (Logistic Regression):

Phương pháp Hồi quy Logistic được định nghĩa là: "Một mô hình xác suất được sử dụng để dự đoán giá trị đầu ra rời rạc dựa trên một tập giá trị đầu vào (được biểu diễn dưới dạng vector)." Phương pháp này tạo ra một mô hình phân loại nhị phân và cho ra kết quả là các giá trị nhị phân như 1 hoặc 0, đại diện cho "Có hoặc Không", Để dự đoán các biến phụ thuộc rời rạc dựa trên các biến độc lập, phương pháp Hồi quy Logistic, một phương pháp phân tích dữ liệu phổ biến, được sử dụng Điều này khác với Hồi quy tuyến tính, nơi biến phụ thuộc là liên tục Phương pháp này nhằm mục đích xác định các hệ số tối ưu cho mô hình để có thể dự đoán chính xác xác suất của biến phụ thuộc rời rạc dựa trên các giá trị của các biến độc lập

Phương pháp hồi quy logistic có thể được sử dụng để dự đoán khả năng một khách hàng mua một sản phẩm, khả năng một người dùng trả tiền cho một dịch vụ trực tuyến hay khả năng một bệnh nhân mắc một căn bệnh cụ thể. Ưu điểm của phương pháp Hồi quy Logistic:

- Phân lớp được thực hiện nhanh chóng.

- Không cần thông tin liên quan đến phân phối của các lớp trong không gian đặc trưng.

- Tính đơn giản: cài đặt và huấn luyện dễ dàng, kết quả phân tích, quy trình huấn luyện dễ hiểu

Nhược điểm của phương pháp Hồi quy Logistic:

- Giả thuyết tuyến tính giữa các biến độc lập và biến phụ thuộc

- Chỉ áp dụng được với biến phụ thuộc rời rạc.

- Dữ liệu có số chiều (đặc trưng) cao có thể bị overfitting (quá khớp).

Hình 3.4: Ví dụ mô hình Hồi quy Logistic

Một phương pháp học máy phổ biến trong dự đoán và phân loại là phương pháp SVM (Support Vector Machine) SVM dựa trên việc tìm kiếm đường biên phân chia tối ưu giữa các nhóm dữ liệu

KẾT LUẬN

Hình 4.15: Kết quả chia mẫu dữ liệu thành 10 phần

Hình 4.16: Kết quả chia mẫu dữ liệu thành 50-90%

Hình 3.18: Kết quả chia mẫu dữ liệu thành 50-90%

Hình 4.17: Kết quả chia mẫu dữ liệu thành 20-80%

Nhận xét: Theo các kết quả định lượng của cả 2 mô hình: “Hồi quy Logistic (Logistic Regression), SVM (Support Vector Machine)” và xem xét theo thứ tự các trường hợp lấy mẫu ngẫu nhiên từ các trường hợp trên, thấy được mô hình Hồi quy Logistic ở trường hợp chia mẫu dữ liệu theo Random Sampling 20-80% có kết quả như sau:

- Giá trị trung bình điều hòa (FI): 72.7%

- Diện tích dưới đường cong ROC (AUC): 70.1% - đạt được số liệu tốt nhất trong tất cả các trường hợp khác đã xét ở trên.

Bước 3: Ma trận nhầm lẫn (Confusion Matrix):

Hình 4.18:Kết quả ma trận nhầm lẫn theo phương pháp Hồi quy Logistic

Hình 4.19: Kết quả ma trận nhầm lẫn theo phương pháp SVM

Nhận xét: Tại Confusion Matrix, thấy được mô hình Hồi quy Logistic có sai lầm loại I là

15 và loại II là 67 Đây là tỷ lệ đạt giá trị thấp nhất Vì vậy, lựa chọn phương pháp phù hợp nhất là phương pháp Hồi quy Logistic.

Hình 4.20:Đường cong ROC với biến target là loyal

Biểu đồ thể hiện đường cong ROC của biến phụ thuộc, quan sát mô hình Hồi quy

Logistic có đường cong tiệm cận với điểm (0;1) nhất, theo định nghĩa thì mô hình có đường cong càng tiệm cận với điểm (0;1) thì mô hình đó càng hiệu quả Cho nên, mô hình Hồi quy Logistic là hiệu quả nhất.

Giai đoạn 3: Phân lớp dữ liệu mới

Thông qua phương pháp đánh giá mô hình phân lớp, nhóm lựa chọn mô hình Hồi quy

Logistic để dự báo cho tập dữ liệu forecast.

Hình 4.22:Mô hình dự báo dữ liệu forecast

Ngày xưa, đối với các hãng hàng không nói chung và Vietnam Airlines nói riêng thì các doanh nghiệp gặp không ít khó khăn về nhiều mặt như check-in, chăm sóc khách hàng, marketing,… Tất nhiên, bởi vì lúc đó chỉ sử dụng sức lao động của con người mà không có sự trợ giúp đến từ máy móc nên mọi việc vô cùng thử thách

Ngày nay, các hãng hàng không đã biết ứng dụng Data Science vào doanh nghiệp của họ để hỗ trợ, tự động hóa về nhiều vấn đề để có thể tiết kiệm thời gian, chi phí của doanh nghiệp và công sức của người lao động Vì vậy, Data Science đem lại rất nhiều lợi ích cho Vietnam Airlines.

Nhờ vào sự phát triển của khoa học dữ liệu mà các hãng bay có thể phân tích được hành vi của khách hàng, khai thác các dịch vụ và ngoài ra còn dự đoán xu thế thị trường, giúp các doanh nghiệp tối ưu về mọi mặt Từ đó, giúp nâng cao chất lượng và lợi nhuận của chính doanh nghiệp đó, đặc biệt là sẽ hướng tới và chọn loc được khách hàng tiềm năng mà họ mong muốn

Khoa học dữ liệu là một công nghệ hiện đại có vai trò quan trọng trong cuộc sống, đặc biệt là trong lĩnh vực hàng không Nhờ ứng dụng khoa học dữ liệu, ngành hàng không nhanh chóng đã có những bước phát triển vượt bậc, mang lại nhiều lợi ích cho cả doanh nghiệp và khách hàng. Đối với doanh nghiệp, khoa học dữ liệu giúp nâng cao hiệu quả hoạt động, tiết kiệm chi phí, và tăng cường cạnh tranh Đối với khách hàng, khoa học dữ liệu giúp nâng cao chất lượng dịch vụ, giảm thiểu rủi ro, và mang lại trải nghiệm tốt hơn.

Khoa học dữ liệu đang là xu hướng phát triển tất yếu trong lĩnh vực hàng không Trong tương lai, với sự phát triển của khoa học dữ liệu, ngành hàng không sẽ tiếp tục có những bước phát triển vượt bậc, mang lại nhiều lợi ích hơn nữa cho cả doanh nghiệp và khách hàng.

Ngày đăng: 23/02/2024, 23:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w