Giúp hãng hàng không phục vụ khách hàng tốt hơn từđó giữ chân khách hàng cũ, thu hút thêm khách hàng mới

Qua đó, chúng em cũng cảm ơn thầy Trần Mạnh Tuấn đã hướng dẫn tâ rn tình, giải đáp các thắc mắc của chúng em để có thể thực hiê rn đề tài này mô rt cách tốt nhất.1.1.1 Mục tiêu nghiên cứ

Trang 1

BỘ GIÁO DỤC & ĐÀO TẠO

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

DỰ ÁN MÔN HỌC: KHOA HỌC DỮ LIỆU

Đ! TÀI: “Giúp hãng hàng không phục vụ khách hàng tốt hơn từ

đó giữ chân khách hàng cũ, thu hút thêm khách hàng mới

Mã h?c ph@n: 22C1INF50905961 Giáo viên hướng dKn: Nguyễn Mạnh Tuấn

TP H Ch Minh

9 Thng 10 , 2022

Trang 2

NHPM SINH VIÊN THỰC HIÊTN DỰ ÁN

NHPM 9

Mức độ bài toán liên quan đến chuyên ngành

Nhóm tự đánh giá dự án của mình có không liên quan đến chuyên ngành (Kế toán)

DANH MỤC HÌNH ẢNH

Trang 3

Hình 1 Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cụ thểHình 2 Biểu đồ thể hiện giá trị Margin và Support Vector

Hình 3 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logisticHình 4 Đường cong ROC

Hình 5 Diện tích đường cong ROC (độ đo AUC)

Hình 6 Sơ đồ khai phá dữ liệu

Hình 7 Mô hình bài toán 1

Hình 8 Kết quả đánh giá bài toán 1

Hình 9,10,11 Ma trận nhầm lẫn

Hình 12 Kết quả dự báo

Hình 13,14 Mô hình bài toán 2

Hình 15 Kết quả phân nhóm

Hình 16-29 Đánh giá chung bộ dữ liệu

Hình 30,31 Mô hình bài toán 3

Hình 32- 47 Thống kê bằng biểu đồ bài toán 3

DANH MỤC BẢNG

Bảng 1 Ma trận nhầm lẫn

Bảng 2 Độ đo AUC với độ chính xác của mô hình phân lớp

MỤC LỤC

Trang 4

CHƯƠNG 1 TỔNG QUAN

1.1 Lý do ch?n đề tài:

Trang 5

Ngành hàng không bao gồm các chuỗi dịch vụ từ vận tải hàng không, cảng hàngkhông đến các dịch vụ phụ trợ Trong đó, vận tải hàng không đóng vai trò quan trọngnhất trong chuỗi giá trị ngành; vận tải hàng không phát triển thì cảng hàng không vàcác dịch vụ phụ trợ sẽ hưởng lợi theo Nếu xem vận tải hàng không là xương sống củangành, thì cảng hàng không là lĩnh vực chịu trách nhiệm cung cấp CSHT cho hầu hếtcác hoạt động của các phân khúc kinh doanh khác trong chuỗi giá trị ngành, là nơi kếtnối hệ thống hàng không của mỗi quốc gia với các phương thức vận chuyển khác.Công nghệ đang thay đổi mạnh mẽ cách các doanh nghiệp kết nối với khách hàng, đưa

ra quyết định kinh doanh và xây dựng quy trình làm việc Thế giới hàng không cũng

bị ảnh hưởng: dữ liệu đang chuyển đổi các hãng hàng không từ hoạt động trướcchuyến bay sang sau chuyến bay, bao gồm mua vé, chọn chỗ ngồi, hành lý, lên máybay, vận chuyển mặt đất, Do đó, dữ liệu cần thiết cho hàng chục các trường hợp sửdụng được ghi lại dọc theo các thành phần khác nhau của hành trình của hành khách.Chúng ta sẽ không đặt chuyến bay qua điện thoại nữa, chúng ta không đi đến các đại

lý du lịch để tìm kiếm các ưu đãi tốt nhất Thay vào đó, chúng ta có quyền truy cậptheo thời gian thực vào dữ liệu, theo đó, cho phép các tổ chức thực hiện các bước sángsuốt nhằm hướng tới hiệu quả hoạt động và cải thiện trải nghiệm khách hàng

Lý do chính cho điều này có thể được giải thích là do bối cảnh cực kỳ phức tạp của

ngành và thực tế là các hãng hàng không hiện đại có nhiều vấn đề kinh doanh đang chờ xử lý, chẳng hạn như sân chơi không đồng đều trên toàn cầu, lỗ hổng doanh

thu, đường chân trời lập kế hoạch cực kỳ thay đổi, tính chu kỳ và thời vụ cao, cạnhtranh khốc liệt và sự can thiệp quá mức của chính phủ

Cạnh tranh trong ngành hàng không rất khốc liệt và hãng hàng không là một trongnhững doanh nghiệp phức tạp nhất để quản lý do nhiều biến số thị trường và các quyđịnh của chính phủ có thể ảnh hưởng đến lợi nhuận của họ, cũng như mức độ khóđoán định cao của ngành Ứng dụng khoa học dữ liệu có thể tăng doanh thu của hãnghàng không bằng cách cung cấp cho các công ty sự hiểu biết sâu sắc hơn về hành vi

của khách hàng “Giúp hãng hàng không phục vụ khách hàng tốt hơn từ đó giữ chân khách hàng cũ, thu hút thêm khách hàng mới và tăng doanh thu”

Vì đây là dự án đầu tiên chúng em thực hiê rn và cũng là lần đầu chúng em có cơ hô rihợp tác với nhau, vì thế dự án mà chúng em nghiên cứu sao đây không khsi tránh

Trang 6

được những sơ sót mong thầy bs qua vì những lỗi này Qua đó, chúng em cũng cảm

ơn thầy Trần Mạnh Tuấn đã hướng dẫn tâ rn tình, giải đáp các thắc mắc của chúng em

để có thể thực hiê rn đề tài này mô rt cách tốt nhất

1.1.1 Mục tiêu nghiên cứu

Mục tiêu tổng quát của bài báo cáo là đưa ra các chiến lược kinh doanh hợp lý dựavào việc dự báo và phân tích dữ liệu về hành vi của khách hàng

1.1.2 Đối tượng nghiên cứu

Nhóm đã sử dụng bộ dữ liệu nghiên cứu do một tổ chức hàng không đưa ra:

https://www.kaggle.com/datasets/teejmahal20/airline-passenger satisfaction?resource=download

Tập dữ liệu bao gồm thông tin chi tiết về những khách hàng đã bay với họ Phản hồicủa khách hàng về các bối cảnh khác nhau và dữ liệu chuyến bay của họ đã được tổnghợp Mục đích chính của tập dữ liệu này là dự đoán liệu một khách hàng trong tươnglai có hài lòng với dịch vụ của họ hay không khi cung cấp thông tin chi tiết về các giátrị tham số khác Ngoài ra, các hãng hàng không cần biết khía cạnh nào của các dịch

vụ mà họ cung cấp phải được nhấn mạnh hơn để tạo ra nhiều khách hàng hài lònghơn

1.2 Mô tả bài toán:

BT1: Dự đoán một khách hàng trong tương lai có hài lòng với dịch vụ của hãng haykhông

BT2: Phân cụm sự hài lòng của khách hàng theo loại hình du lịch là đi công tác.BT3: Đặc điểm của khách hàng trong bộ dữ liệu

1.3 Mô tả phương pháp:

1.3.1 Phương pháp phân lớp (Classification)

Phương pháp phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một haynhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này đã được xâydựng dựa trên một tập dữ liệu đã được gán nhãn trước đó

Quá trình phân lớp dữ liệu gồm 3 bước:

- Bước 1: Xây dựng mô hình

• Dữ liệu đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lý

• Các thuật toán phân lớp: LR,NN, SVM,…

Trang 7

• Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)

- Bước 2: Đánh giá mô hình (kiểm tra tính đúng đắn)

• Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gắn nhãn và tiền xử lý Tuynhiên lúc đưa vào mô hình phân lớp, ta sẽ “lờ” đi thuộc tình đã được gắn nhãn

• Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gắnnhãn của dữ liệu đầu vào và kết quả phân lớp mô hình

- Bước 3: Phân lớp dữ liệu mới phân loại bài toán phân lớp: Nhiệm vụ của bài toánphân lớp là phân loại đối tượng dữ liệu vào n lớp cho trước nếu:

• n = 2: Thuộc bài toán phân lớp nhị phân 7

• n > 2: Thuộc bài toán phân lớp đa lớp

Các phương pháp phân lớp được sử dụng trong bài:

- Cây quyết định (Decision Tree):

Cây quyết định là một hệ thống phân cấp có cấu trúc được dùng để phân lớpcác đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộcvào nhiều kiểu dữ liệu khác nhau (Binary, Norminal, Ordinal, Quantitative,…)

và thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal

Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng

ta mô tả, phân loại, tổng quan dữ liệu cho trước này Cụ thể hơn, cây quyết định

sẽ đưa ra các dự đoán cho từng đối tượng

Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại Cây hồiquy có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trongcác mô hình có giá trị cuối cùng nằm mục đích chính là phần loại

Để hiểu rõ hơn về cây quyết định, ta xét ưu và nhược điểm như sau Về ưuđiểm, cây quyết định trình bày một cách đơn giản, dễ hiểu, không cần chuẩnhóa dữ liệu, có thể xử lý trên nhiều kiểu dữ liệu khác nhau và xử lý tốt mộtlượng lớn dữ liệu trong thời gian nhanh nhất Mặc khác, cây quyết định cũng

có một vài khuyết điểm cơ bản là khó giải quyết trong tình huống dữ liệu bịảnh hưởng bởi thời gian hoặc chi phí để xây dựng các mô hình về cây quyếtđịnh khá cao

Trang 8

Hình 1 Ví dụ mô hình cây quyết định về lựa ch?n làm việc một ngày cụ thể

- SVM (Support Vector Machine):

SVM là một thuật toán giám sát, nhưng hầu như nó được dùng cho phân loại Ởthuật toán này, chúng ta sẽ vẽ đi đồ thị dữ liệu là các điểm trong chiều (ta xácđịnh là các tính năng mà chúng ta có sẵn) với giá trị của mỗi tính năng sẽ làmột phần liên kết SVM nhận dữ liệu vào, xem các dữ liệu đầu vào là cácvector không gian, sau đó chúng được phân loại vào các lớp khác nhau thôngqua cơ chế xây dựng một siêu phẳng trong không gian nhiều chiều làm mặtphân cách các lớp dữ liệu

Để chúng ta có thể tối ưu được kết quả phân lớp thì phải xác định siêu phẳng

có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.SVM có nhiều dạng phù hợp với nhiều bài toán về phân loại Để hiểu rõ sâuhơn, chúng ta đi tìm các khái niệm về Margin cũng như là Support Vector.Margin là khoảng cách giữa siêu phẳng trong trường hợp không gian hai chiều

là đường thẳng đến hai điểm dữ liệu gần nhất tương ứng với hai phân lớp.SVM tối ưu bằng cách tối đa hóa giá trị margin này, từ đó sẽ tìm ra một siêuphằng đẹp nhất và thích hợp nhất cho phân hai lớp dữ liệu Vì thế, SVM có thểlàm giảm thiếu việc phân lớp bị sai (misclassification) đối với dữ liệu điểm mớiđưa vào

Trang 9

Phương pháp hồi quy Logistic hay Logistic Regression là một mô hình xác suất

dự đoán giá trị đầu ra rời rạc (discrete target variable) từ một tập các giá trị đầuvào (được thể hiện dưới dạng vector) Việc này khá tương đương với việc phânloại đầu vào vào các nhóm tương ứng

Mô hình hồi quy Logistic sử dụng để chúng ta dự đoán biến phân loại bởi mộthay nhiều biến độc lập liên tục Biến phụ thuộc của chúng ta có thể là thứ tự,rời rac,… Đối với biến độc lập có thể là một khoảng hay một tỉ lệ, rời rạc,…hay có thể hỗ hợp của tất cả Chúng ta có thể biểu diễn công thức của phươngpháp hồi quy Logistic như sau:

Trong đó:

d là số lượng thuộc tính của dữ liệu

w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại chophù hợp

Trang 10

Hình 3 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic

1.3.2 Các phương pháp đánh giá mô hình phân lớp

Trong các bài toán phân loại, để chúng ta có thể đánh giá mô hình tốt chúng ta

có thể sử dụng như dựa vào ma trận nhầm lẫn để xác định độ chính xác (Accuracy);ROC, AUC, Precision/Recall và Cross Validation: Holdout và K-fold cross validation.Bây giờ chúng ta sẽ tìm hiểu chi tiết về mức độ đánh giá của chúng

1.3.2.1 Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC,AUC, Precision/Recall

Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vềmột lớp cụ thể và được dự đoán rơi vào lớp nào Ma trận nhầm lẫn có kích thước với

là số lượng của lớp dữ liệu Ma trận nhầm lẫn bao gồm 4 loại giá trị chính như sau:

TP[i] (true positive) là số dự đoán chính xác của lớp

FP[i] (false positive) là số lượng các mẫu không thuộc lớp , bị phân loại nhầmvào lớp

TN[i] (true negative) là số lượng các ví dụ không thuộc lớp được phân loạichính xác

FN[i] (false negative) là số lương các mẫu thuộc lớp nhưng bị phân loại nhầmvào lớp khác

Ma trận nhầm lẫn với bài toán cụ thể phân lớp với hai mẫu dữ liệu mang nhãn(+) và mang nhãn (–) Bảng 2.1 thể hiện rõ hơn ma trận nhầm lẫn:

Bảng 1 Ma trận nh@m lKn

MKu dữ liệu Được phân lớp bởi mô hình+ –

Trang 11

– FP TNNguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)

Từ bảng ma trận nhầm lẫn 2.1, ta có thể được các giá trị để đo độ chính xác của

mô hình Độ chính xác (Precision) là tỷ lệ giữa số phân loại đúng là mẫu dương trêntổng số các mẫu được phân loại là mẫu dương Ta có công thức của Precision được thểhiện như sau:

Độ bao phủ (Recall) được xác định số mẫu phân loại đúng là mẫu dương trêntổng số mẫu dương thực, được thể hiện bởi công thức sau đây:

Từ đó, ta có thể tính được chỉ số F – score và nó là tiêu chí đánh giá dựa trên1

sự kết hợp của độ chính xác (Precision) và độ bao phủ (Recall) Công thức tính F –1score như sau:

Ngoài ra, ta còn công thức về độ chính xác (Accuracy) như sau:

Vì ở trong bài, chúng ta không dùng nhiều về độ nhạy (Sensitivity) và độ đặchiệu (Specificity) nhưng, chúng ta vẫn phân tích một vào chi tiết để có phân phân tích

kỹ hơn ở phần ROC và AUC Độ nhạy (Sentivity) là tỷ lệ số mẫu phân loại đúng làmẫu dương trên tổng số mẫu dương thực

Độ đặc hiệu (Specificity) là tỷ lệ số mẫu phân loại đúng là mẫu âm trên tổng sốmẫu âm thực:

Ta có thể thấy trong bài toán phân loại hai mẫu dương và âm, kết quả lý tưởng

là độ nhạy và độ đặc hiệu bằng 1 Tức mô hình là phân lớp đúng 100% Nhưng theothực tế thì không có bất cứ một mô hình phân lớp nào chính xác tuyệt đối 100% Hầuhết, các mô hình có độ nhạy cao thì độ đặc hiệu thấp và ngược lại vì vậy biểu đồ ROC(Receiver Operating Characteristic) là phương pháp phân tích để cân bằng hai độ đonày Biểu đồ ROC gồm 2 trục và trục Trục hoành biểu diễn cho giá trị False

Trang 12

Positive Rate và trục tung biểu diễn cho giá trị True Positive Rate Công thức củaTrue Positive Rate và False Positive Rate như sau:

Hình 4 Đường cong ROC

Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phânloại nhị phân Hai giá trị True positive rate và False positive rate được biểu diễn bởicác điểm trên biểu đồ ROC Hai chỉ số này biến thiên ngược chiều nhau và tạo thànhđường cong ROC Các điểm nằm phía bên trái của đường chéo sẽ cho kết quả tốt.AUC (Area Under the Curve) Là diện tích nằm dưới đường cong ROC Giá trị này làmột số dương nhs hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt (AUCtrên 0.5 là mô hình tốt)

Hình 5 Diện tích đường cong ROC (độ đo AUC)

Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)

Bảng 2 Độ đo AUC với độ chính xác của mô hình phân lớp

Trang 13

dữ liệu dự báo để đánh giá hiệu năng của hệ thống đã học Từ đó ta có kết quả nhưsau:

Chúng ta có các yêu cầu cho phần Holdout Bất kỳ ví dụ nào thuộc tập dự báođều không được sử dụng trong quá trình huấn luyện hệ thống Hay bất kỳ ví dụ nàođược sử dụng trong quá trình huấn luyện thì sẽ không được sử dụng trong quá trình dựbáo Một chi tiết nhs cần phải lưu ý là tập phải có kích thước lớn

Đối với K-fold cross validation dùng với việc tránh trùng lặp giữa các tập kiểmthử (một số ví dụ thường xuất hiện trong các tập kiểm thử khác nhau) Tập dữ liệu Ađược chia thành tập con không giao nhau (chúng ta gọi là “fold”) có kích thước xấp

xỉ nhau Mỗi lần (trong số lần) lặp, một tập con sẽ sử dụng làm tập kiểm thử và tậpcon còn lại làm tập huấn luyện giá trị lỗi (mỗi giá trị tương ứng với một fold) đượctính trung bình cộng để thu được giá trị lỗi tổng thể Các lựa chọn của thông thường

sẽ là 10 hoặc 5, phù hợp với tập A vừa và nhs Thông thường, mỗi tập con (fold) đượclấy mẫu phân tầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá Cross-validation

1.3.3 Phương pháp phân cụm (Clustering)

Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểmtương đồng vào các cụm/nhóm tương ứng Trong đó:

- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau

- Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau

Trang 14

Đặc điểm:

- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu

- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vìkhông biết trước được số nhóm

- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

• Độ tương đồng bên trong cụm cao 9

• Độ tương tự giữa các cụm thấp (khác biệt cao)

- Các ứng dụng điển hình:

• Công cụ phân cụm dữ liệu độc lập

• Là giai đoạn tiền xử lý cho các thuật toán khác Độ đo phân cụm được sử dụng làmtiêu chí nhằm tính toán sự tương đồng hoặc sai biệt giữa các đối tượng dữ liệu nhằmphục vụ cho quá trình gom cụm Một số độ đo phân cụm: Euclid, Cosin, Minkowski

…

Thuật toán K-means:

- Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

- Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong khônggian d chiều (với d là số lượng thuộc tính của đối tượng)

1.4 Mô tả thuộc tính:

Giới tính: Nữ, Nam

Loại khách hàng: Khách hàng trung thành, khách hàng không trung thành

Tuổi: Tuổi thực của hành khách

Loại hình du lịch: Du lịch cá nhân, Đi công tác

Hạng: hạng Thương gia, hạng Eco, hạng Eco Plus

Khoảng cách bay: Khoảng cách bay của hành trình

Dịch vụ wifi trên chuyến bay: Mức độ hài lòng đối với dịch vụ wifi trên chuyếnThời gian đi / đến thuận tiện: Mức độ hài lòng về Thời gian đi/đến thuận tiện

Dễ dàng đặt phòng trực tuyến: Mức độ hài lòng khi đặt phòng trực tuyến

Vị trí cổng: Mức độ hài lòng về vị trí cổng lên máy bay

Đồ ăn và thức uống: Mức độ hài lòng của đồ ăn và thức uống trên máy bay

Nội trú trực tuyến: Mức độ hài lòng của nội trú trực tuyến

Sự thoải mái của chỗ ngồi: Mức độ hài lòng về sự thoải mái của chỗ ngồi

Trang 15

Giải trí trên chuyến bay: Mức độ hài lòng của giải trí trên chuyến bay

Dịch vụ trên tàu: Mức độ hài lòng của dịch vụ trên tàu

Dịch vụ phòng chân: Mức độ hài lòng của dịch vụ phòng chân

Xử lý hành lý: Mức độ hài lòng của việc xếp dỡ hành lý

Dịch vụ nhận phòng: Mức độ hài lòng về dịch vụ nhận phòng

Dịch vụ trên chuyến bay: Mức độ hài lòng của dịch vụ trên chuyến bay

Sạch sẽ: Mức độ hài lòng về sự sạch sẽ của máy bay

Khởi hành chậm trễ trong vài phút: Số phút bị trì hoãn khi khởi hành

2.1 Khai phá dữ liệu

2.1.1 Khai phá dữ liệu là gì?

Khai phá dữ liệu (Data Mining) là quá trình sắp xếp, phân loại một tập hợp các

dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiềuvấn đề thông qua việc phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các công

ty hay các doanh nghiệp có thể dự báo được xu hướng trong tương lại

Quá trình để khai phá dữ liệu là một quá trình rất phức tạp đòi hsi dữ liệu cầnphải chuyên sâu và yêu cầu nhiều kỹ năng tính toán khác nhau Hơn nữa, khai phá dữliệu không chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch,chuyển đổi, tích hợp dữ liệu và phân tích các mẫu

2.1.2 Các tính năng chính của khai phá dữ liệu

Có nhiều các tham số quan trọng trong khai phá dữ liệu, ví dụ như các quy tắc

về phân loại và phân cụm Khai phá dữ liệu có 5 tính năng chính như sau:

Dự báo nhiều mẫu dựa trên bộ dữ liệu đã được huấn luyện

Trang 16

Tính toán và dự đoán các kết quả.

Tạo nhiều thông tin để phản hồi và phân tích

Bộ dữ liệu khá lớn

Phân cụm dữ liệu một cách trực quan, sinh động

2.1.3 Quy trình khai phá dữ liệu

Quy trình khai phá dữ liệu bao gồm 7 bước như sau cùng với đó quy trình khaiphá dữ liệu được trình bày dưới dạng sơ đồ hình vẽ thông qua hình 6 như sau:Bước 1: Làm sạch dữ liệu Đây là bước đầu tiên trong quy trình khai phá dữliệu Bước này được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sửdụng trực tiếp trong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo

ra các kết quả không được chính xác

Bước 2 Tích hợp dữ liệu.: Ở bước này, có thể giúp cho dữ liệu của chúng ta cảithiện về độ chính xác cũng như tốc độ của quá trình khai phá dữ liệu

Bước 3 Làm giảm dữ liệu : Mục đích ở bước này là giúp kích thước của dữ liệu

có khối lượng nhs hơn nhưng nó vẫn đảm bảo và vẫn duy trì về tính toàn vẹn.Bước 4 Chuyển đổi dữ liệu : Trong bước này, dữ liệu được chuyển thành mộtdạng phù hợp với quy trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình khaiphá dữ liệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn

Bước 5 Khai thác dữ liệu : Ở bước này, chúng ta đi khai thác dữ liệu là để xácđịnh các mẫu và một lượng lớn dữ liệu từ những suy luận

Bước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu đại diện chonhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết,kiến thức nào là dư thừa và sẽ bị loại bs

Bước 7: Trình bày thông tin Dữ liệu sẽ được diễn giải lại dưới các báo cáo,hoặc các báo cáo dạng bảng,… và sau đó gửi cho bên bộ phân xử lý thông tin này

Trang 17

cre:insight.isb.edu.vn

Hình 6 Sơ đồ khai phá dữ liệu

2.2 Phân tích và tiền xử lý dữ liệu

2.2.1 Phân tích dữ liệu Phân tích dữ liệu của các đặc trưng có tính phân loại:

- Mỗi hàng đại diện cho 1 khách hàng, mỗi cột chứa các thuộc tính của đối tượng

- Dữ liệu thô chứa 3.119 hàng (đối tượng) và 26 cột (đặc trưng)

- Trong cột dữ liệu về sự hài lòng có 2 thuộc tính là: hài lòng, trung tính hoặc không hài lòng, nhóm đã tiến hành xử lí 2 thuộc tính này về dạng là 1,0 (1 đại diện cho “hài lòng” và 0 là “trung tính hoặc không hài lòng”)

2.2.2 Tiền xử lý dữ liệu

Báo cáo sử dụng bộ dữ liệu được tổng hợp từ trang kaggle, đã được xác mình và xử lý

cơ bản nên không có dữ liệu thiếu

2.3 Bài toán 1: Dự đoán liệu một khách hàng trong tương lai có hài lòng với dịch

vụ của hãng hay không

2.3.1 Qui trình thực hiện

-Bước 1: Chọn dữ liệu File Data.xlsx và chọn cột “Sastisfacion” làm Target -Bước 2: Dùng 3 phương pháp: LR, SVM, Tree tiến hành phân loại loại khách hàng &đánh giá hiệu quả các phương pháp

-Bước 3: Chọn phương pháp được đánh giá tốt nhất, dùng phương pháp đó dự báo cho

dữ liệu

Tiêu đề	Giúp hãng hàng không phục vụ khách hàng tốt hơn từ đó giữ chân khách hàng cũ, thu hút thêm khách hàng mới
Tác giả	Nguyễn Văn Chương, Ngô Thị Thanh Tâm, Nguyễn Thị Yến Khoa, Trần An Bình, Trần Hoàng Anh
Người hướng dẫn	Nguyễn Mạnh Tuấn
Trường học	Đại Học Kinh Tế Tp Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin Kinh Doanh
Thể loại	Dự án môn học
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	38
Dung lượng	3,81 MB