Qua đó, chúng em cũng cảm ơn thầy Trần Mạnh Tuấn đã hướng dẫn tâ rn tình, giải đáp các thắc mắc của chúng em để có thể thực hiê rn đề tài này mô rt cách tốt nhất.1.1.1 Mục tiêu nghiên cứ
Trang 1BỘ GIÁO DỤC & ĐÀO TẠO
ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
DỰ ÁN MÔN HỌC: KHOA HỌC DỮ LIỆU
Đ! TÀI: “Giúp hãng hàng không phục vụ khách hàng tốt hơn từ
đó giữ chân khách hàng cũ, thu hút thêm khách hàng mới
Mã h?c ph@n: 22C1INF50905961 Giáo viên hướng dKn: Nguyễn Mạnh Tuấn
TP H Ch Minh
9 Thng 10 , 2022
Trang 2NHPM SINH VIÊN THỰC HIÊTN DỰ ÁN
NHPM 9
Mức độ bài toán liên quan đến chuyên ngành
Nhóm tự đánh giá dự án của mình có không liên quan đến chuyên ngành (Kế toán)
DANH MỤC HÌNH ẢNH
Trang 3Hình 1 Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cụ thểHình 2 Biểu đồ thể hiện giá trị Margin và Support Vector
Hình 3 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logisticHình 4 Đường cong ROC
Hình 5 Diện tích đường cong ROC (độ đo AUC)
Hình 6 Sơ đồ khai phá dữ liệu
Hình 7 Mô hình bài toán 1
Hình 8 Kết quả đánh giá bài toán 1
Hình 9,10,11 Ma trận nhầm lẫn
Hình 12 Kết quả dự báo
Hình 13,14 Mô hình bài toán 2
Hình 15 Kết quả phân nhóm
Hình 16-29 Đánh giá chung bộ dữ liệu
Hình 30,31 Mô hình bài toán 3
Hình 32- 47 Thống kê bằng biểu đồ bài toán 3
DANH MỤC BẢNG
Bảng 1 Ma trận nhầm lẫn
Bảng 2 Độ đo AUC với độ chính xác của mô hình phân lớp
MỤC LỤC
Trang 4CHƯƠNG 1 TỔNG QUAN
1.1 Lý do ch?n đề tài:
Trang 5Ngành hàng không bao gồm các chuỗi dịch vụ từ vận tải hàng không, cảng hàngkhông đến các dịch vụ phụ trợ Trong đó, vận tải hàng không đóng vai trò quan trọngnhất trong chuỗi giá trị ngành; vận tải hàng không phát triển thì cảng hàng không vàcác dịch vụ phụ trợ sẽ hưởng lợi theo Nếu xem vận tải hàng không là xương sống củangành, thì cảng hàng không là lĩnh vực chịu trách nhiệm cung cấp CSHT cho hầu hếtcác hoạt động của các phân khúc kinh doanh khác trong chuỗi giá trị ngành, là nơi kếtnối hệ thống hàng không của mỗi quốc gia với các phương thức vận chuyển khác.Công nghệ đang thay đổi mạnh mẽ cách các doanh nghiệp kết nối với khách hàng, đưa
ra quyết định kinh doanh và xây dựng quy trình làm việc Thế giới hàng không cũng
bị ảnh hưởng: dữ liệu đang chuyển đổi các hãng hàng không từ hoạt động trướcchuyến bay sang sau chuyến bay, bao gồm mua vé, chọn chỗ ngồi, hành lý, lên máybay, vận chuyển mặt đất, Do đó, dữ liệu cần thiết cho hàng chục các trường hợp sửdụng được ghi lại dọc theo các thành phần khác nhau của hành trình của hành khách.Chúng ta sẽ không đặt chuyến bay qua điện thoại nữa, chúng ta không đi đến các đại
lý du lịch để tìm kiếm các ưu đãi tốt nhất Thay vào đó, chúng ta có quyền truy cậptheo thời gian thực vào dữ liệu, theo đó, cho phép các tổ chức thực hiện các bước sángsuốt nhằm hướng tới hiệu quả hoạt động và cải thiện trải nghiệm khách hàng
Lý do chính cho điều này có thể được giải thích là do bối cảnh cực kỳ phức tạp của
ngành và thực tế là các hãng hàng không hiện đại có nhiều vấn đề kinh doanh đang chờ xử lý, chẳng hạn như sân chơi không đồng đều trên toàn cầu, lỗ hổng doanh
thu, đường chân trời lập kế hoạch cực kỳ thay đổi, tính chu kỳ và thời vụ cao, cạnhtranh khốc liệt và sự can thiệp quá mức của chính phủ
Cạnh tranh trong ngành hàng không rất khốc liệt và hãng hàng không là một trongnhững doanh nghiệp phức tạp nhất để quản lý do nhiều biến số thị trường và các quyđịnh của chính phủ có thể ảnh hưởng đến lợi nhuận của họ, cũng như mức độ khóđoán định cao của ngành Ứng dụng khoa học dữ liệu có thể tăng doanh thu của hãnghàng không bằng cách cung cấp cho các công ty sự hiểu biết sâu sắc hơn về hành vi
của khách hàng “Giúp hãng hàng không phục vụ khách hàng tốt hơn từ đó giữ chân khách hàng cũ, thu hút thêm khách hàng mới và tăng doanh thu”
Vì đây là dự án đầu tiên chúng em thực hiê rn và cũng là lần đầu chúng em có cơ hô rihợp tác với nhau, vì thế dự án mà chúng em nghiên cứu sao đây không khsi tránh
Trang 6được những sơ sót mong thầy bs qua vì những lỗi này Qua đó, chúng em cũng cảm
ơn thầy Trần Mạnh Tuấn đã hướng dẫn tâ rn tình, giải đáp các thắc mắc của chúng em
để có thể thực hiê rn đề tài này mô rt cách tốt nhất
1.1.1 Mục tiêu nghiên cứu
Mục tiêu tổng quát của bài báo cáo là đưa ra các chiến lược kinh doanh hợp lý dựavào việc dự báo và phân tích dữ liệu về hành vi của khách hàng
1.1.2 Đối tượng nghiên cứu
Nhóm đã sử dụng bộ dữ liệu nghiên cứu do một tổ chức hàng không đưa ra:
https://www.kaggle.com/datasets/teejmahal20/airline-passenger satisfaction?resource=download
Tập dữ liệu bao gồm thông tin chi tiết về những khách hàng đã bay với họ Phản hồicủa khách hàng về các bối cảnh khác nhau và dữ liệu chuyến bay của họ đã được tổnghợp Mục đích chính của tập dữ liệu này là dự đoán liệu một khách hàng trong tươnglai có hài lòng với dịch vụ của họ hay không khi cung cấp thông tin chi tiết về các giátrị tham số khác Ngoài ra, các hãng hàng không cần biết khía cạnh nào của các dịch
vụ mà họ cung cấp phải được nhấn mạnh hơn để tạo ra nhiều khách hàng hài lònghơn
1.2 Mô tả bài toán:
BT1: Dự đoán một khách hàng trong tương lai có hài lòng với dịch vụ của hãng haykhông
BT2: Phân cụm sự hài lòng của khách hàng theo loại hình du lịch là đi công tác.BT3: Đặc điểm của khách hàng trong bộ dữ liệu
1.3 Mô tả phương pháp:
1.3.1 Phương pháp phân lớp (Classification)
Phương pháp phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một haynhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này đã được xâydựng dựa trên một tập dữ liệu đã được gán nhãn trước đó
Quá trình phân lớp dữ liệu gồm 3 bước:
- Bước 1: Xây dựng mô hình
• Dữ liệu đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lý
• Các thuật toán phân lớp: LR,NN, SVM,…
Trang 7• Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)
- Bước 2: Đánh giá mô hình (kiểm tra tính đúng đắn)
• Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gắn nhãn và tiền xử lý Tuynhiên lúc đưa vào mô hình phân lớp, ta sẽ “lờ” đi thuộc tình đã được gắn nhãn
• Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gắnnhãn của dữ liệu đầu vào và kết quả phân lớp mô hình
- Bước 3: Phân lớp dữ liệu mới phân loại bài toán phân lớp: Nhiệm vụ của bài toánphân lớp là phân loại đối tượng dữ liệu vào n lớp cho trước nếu:
• n = 2: Thuộc bài toán phân lớp nhị phân 7
• n > 2: Thuộc bài toán phân lớp đa lớp
Các phương pháp phân lớp được sử dụng trong bài:
- Cây quyết định (Decision Tree):
Cây quyết định là một hệ thống phân cấp có cấu trúc được dùng để phân lớpcác đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộcvào nhiều kiểu dữ liệu khác nhau (Binary, Norminal, Ordinal, Quantitative,…)
và thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng
ta mô tả, phân loại, tổng quan dữ liệu cho trước này Cụ thể hơn, cây quyết định
sẽ đưa ra các dự đoán cho từng đối tượng
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại Cây hồiquy có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trongcác mô hình có giá trị cuối cùng nằm mục đích chính là phần loại
Để hiểu rõ hơn về cây quyết định, ta xét ưu và nhược điểm như sau Về ưuđiểm, cây quyết định trình bày một cách đơn giản, dễ hiểu, không cần chuẩnhóa dữ liệu, có thể xử lý trên nhiều kiểu dữ liệu khác nhau và xử lý tốt mộtlượng lớn dữ liệu trong thời gian nhanh nhất Mặc khác, cây quyết định cũng
có một vài khuyết điểm cơ bản là khó giải quyết trong tình huống dữ liệu bịảnh hưởng bởi thời gian hoặc chi phí để xây dựng các mô hình về cây quyếtđịnh khá cao
Trang 8
Hình 1 Ví dụ mô hình cây quyết định về lựa ch?n làm việc một ngày cụ thể
- SVM (Support Vector Machine):
SVM là một thuật toán giám sát, nhưng hầu như nó được dùng cho phân loại Ởthuật toán này, chúng ta sẽ vẽ đi đồ thị dữ liệu là các điểm trong chiều (ta xácđịnh là các tính năng mà chúng ta có sẵn) với giá trị của mỗi tính năng sẽ làmột phần liên kết SVM nhận dữ liệu vào, xem các dữ liệu đầu vào là cácvector không gian, sau đó chúng được phân loại vào các lớp khác nhau thôngqua cơ chế xây dựng một siêu phẳng trong không gian nhiều chiều làm mặtphân cách các lớp dữ liệu
Để chúng ta có thể tối ưu được kết quả phân lớp thì phải xác định siêu phẳng
có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.SVM có nhiều dạng phù hợp với nhiều bài toán về phân loại Để hiểu rõ sâuhơn, chúng ta đi tìm các khái niệm về Margin cũng như là Support Vector.Margin là khoảng cách giữa siêu phẳng trong trường hợp không gian hai chiều
là đường thẳng đến hai điểm dữ liệu gần nhất tương ứng với hai phân lớp.SVM tối ưu bằng cách tối đa hóa giá trị margin này, từ đó sẽ tìm ra một siêuphằng đẹp nhất và thích hợp nhất cho phân hai lớp dữ liệu Vì thế, SVM có thểlàm giảm thiếu việc phân lớp bị sai (misclassification) đối với dữ liệu điểm mớiđưa vào
Trang 9Phương pháp hồi quy Logistic hay Logistic Regression là một mô hình xác suất
dự đoán giá trị đầu ra rời rạc (discrete target variable) từ một tập các giá trị đầuvào (được thể hiện dưới dạng vector) Việc này khá tương đương với việc phânloại đầu vào vào các nhóm tương ứng
Mô hình hồi quy Logistic sử dụng để chúng ta dự đoán biến phân loại bởi mộthay nhiều biến độc lập liên tục Biến phụ thuộc của chúng ta có thể là thứ tự,rời rac,… Đối với biến độc lập có thể là một khoảng hay một tỉ lệ, rời rạc,…hay có thể hỗ hợp của tất cả Chúng ta có thể biểu diễn công thức của phươngpháp hồi quy Logistic như sau:
Trong đó:
d là số lượng thuộc tính của dữ liệu
w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại chophù hợp
Trang 10
Hình 3 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
1.3.2 Các phương pháp đánh giá mô hình phân lớp
Trong các bài toán phân loại, để chúng ta có thể đánh giá mô hình tốt chúng ta
có thể sử dụng như dựa vào ma trận nhầm lẫn để xác định độ chính xác (Accuracy);ROC, AUC, Precision/Recall và Cross Validation: Holdout và K-fold cross validation.Bây giờ chúng ta sẽ tìm hiểu chi tiết về mức độ đánh giá của chúng
1.3.2.1 Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC,AUC, Precision/Recall
Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vềmột lớp cụ thể và được dự đoán rơi vào lớp nào Ma trận nhầm lẫn có kích thước với
là số lượng của lớp dữ liệu Ma trận nhầm lẫn bao gồm 4 loại giá trị chính như sau:
TP[i] (true positive) là số dự đoán chính xác của lớp
FP[i] (false positive) là số lượng các mẫu không thuộc lớp , bị phân loại nhầmvào lớp
TN[i] (true negative) là số lượng các ví dụ không thuộc lớp được phân loạichính xác
FN[i] (false negative) là số lương các mẫu thuộc lớp nhưng bị phân loại nhầmvào lớp khác
Ma trận nhầm lẫn với bài toán cụ thể phân lớp với hai mẫu dữ liệu mang nhãn(+) và mang nhãn (–) Bảng 2.1 thể hiện rõ hơn ma trận nhầm lẫn:
Bảng 1 Ma trận nh@m lKn
MKu dữ liệu Được phân lớp bởi mô hình+ –
Trang 11– FP TNNguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
Từ bảng ma trận nhầm lẫn 2.1, ta có thể được các giá trị để đo độ chính xác của
mô hình Độ chính xác (Precision) là tỷ lệ giữa số phân loại đúng là mẫu dương trêntổng số các mẫu được phân loại là mẫu dương Ta có công thức của Precision được thểhiện như sau:
Độ bao phủ (Recall) được xác định số mẫu phân loại đúng là mẫu dương trêntổng số mẫu dương thực, được thể hiện bởi công thức sau đây:
Từ đó, ta có thể tính được chỉ số F – score và nó là tiêu chí đánh giá dựa trên1
sự kết hợp của độ chính xác (Precision) và độ bao phủ (Recall) Công thức tính F –1score như sau:
Ngoài ra, ta còn công thức về độ chính xác (Accuracy) như sau:
Vì ở trong bài, chúng ta không dùng nhiều về độ nhạy (Sensitivity) và độ đặchiệu (Specificity) nhưng, chúng ta vẫn phân tích một vào chi tiết để có phân phân tích
kỹ hơn ở phần ROC và AUC Độ nhạy (Sentivity) là tỷ lệ số mẫu phân loại đúng làmẫu dương trên tổng số mẫu dương thực
Độ đặc hiệu (Specificity) là tỷ lệ số mẫu phân loại đúng là mẫu âm trên tổng sốmẫu âm thực:
Ta có thể thấy trong bài toán phân loại hai mẫu dương và âm, kết quả lý tưởng
là độ nhạy và độ đặc hiệu bằng 1 Tức mô hình là phân lớp đúng 100% Nhưng theothực tế thì không có bất cứ một mô hình phân lớp nào chính xác tuyệt đối 100% Hầuhết, các mô hình có độ nhạy cao thì độ đặc hiệu thấp và ngược lại vì vậy biểu đồ ROC(Receiver Operating Characteristic) là phương pháp phân tích để cân bằng hai độ đonày Biểu đồ ROC gồm 2 trục và trục Trục hoành biểu diễn cho giá trị False
Trang 12Positive Rate và trục tung biểu diễn cho giá trị True Positive Rate Công thức củaTrue Positive Rate và False Positive Rate như sau:
Hình 4 Đường cong ROC
Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phânloại nhị phân Hai giá trị True positive rate và False positive rate được biểu diễn bởicác điểm trên biểu đồ ROC Hai chỉ số này biến thiên ngược chiều nhau và tạo thànhđường cong ROC Các điểm nằm phía bên trái của đường chéo sẽ cho kết quả tốt.AUC (Area Under the Curve) Là diện tích nằm dưới đường cong ROC Giá trị này làmột số dương nhs hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt (AUCtrên 0.5 là mô hình tốt)
Hình 5 Diện tích đường cong ROC (độ đo AUC)
Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
Bảng 2 Độ đo AUC với độ chính xác của mô hình phân lớp
Trang 13dữ liệu dự báo để đánh giá hiệu năng của hệ thống đã học Từ đó ta có kết quả nhưsau:
Chúng ta có các yêu cầu cho phần Holdout Bất kỳ ví dụ nào thuộc tập dự báođều không được sử dụng trong quá trình huấn luyện hệ thống Hay bất kỳ ví dụ nàođược sử dụng trong quá trình huấn luyện thì sẽ không được sử dụng trong quá trình dựbáo Một chi tiết nhs cần phải lưu ý là tập phải có kích thước lớn
Đối với K-fold cross validation dùng với việc tránh trùng lặp giữa các tập kiểmthử (một số ví dụ thường xuất hiện trong các tập kiểm thử khác nhau) Tập dữ liệu Ađược chia thành tập con không giao nhau (chúng ta gọi là “fold”) có kích thước xấp
xỉ nhau Mỗi lần (trong số lần) lặp, một tập con sẽ sử dụng làm tập kiểm thử và tậpcon còn lại làm tập huấn luyện giá trị lỗi (mỗi giá trị tương ứng với một fold) đượctính trung bình cộng để thu được giá trị lỗi tổng thể Các lựa chọn của thông thường
sẽ là 10 hoặc 5, phù hợp với tập A vừa và nhs Thông thường, mỗi tập con (fold) đượclấy mẫu phân tầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá Cross-validation
1.3.3 Phương pháp phân cụm (Clustering)
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểmtương đồng vào các cụm/nhóm tương ứng Trong đó:
- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau
- Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau
Trang 14Đặc điểm:
- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu
- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vìkhông biết trước được số nhóm
- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
• Độ tương đồng bên trong cụm cao 9
• Độ tương tự giữa các cụm thấp (khác biệt cao)
- Các ứng dụng điển hình:
• Công cụ phân cụm dữ liệu độc lập
• Là giai đoạn tiền xử lý cho các thuật toán khác Độ đo phân cụm được sử dụng làmtiêu chí nhằm tính toán sự tương đồng hoặc sai biệt giữa các đối tượng dữ liệu nhằmphục vụ cho quá trình gom cụm Một số độ đo phân cụm: Euclid, Cosin, Minkowski
…
Thuật toán K-means:
- Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
- Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong khônggian d chiều (với d là số lượng thuộc tính của đối tượng)
1.4 Mô tả thuộc tính:
Giới tính: Nữ, Nam
Loại khách hàng: Khách hàng trung thành, khách hàng không trung thành
Tuổi: Tuổi thực của hành khách
Loại hình du lịch: Du lịch cá nhân, Đi công tác
Hạng: hạng Thương gia, hạng Eco, hạng Eco Plus
Khoảng cách bay: Khoảng cách bay của hành trình
Dịch vụ wifi trên chuyến bay: Mức độ hài lòng đối với dịch vụ wifi trên chuyếnThời gian đi / đến thuận tiện: Mức độ hài lòng về Thời gian đi/đến thuận tiện
Dễ dàng đặt phòng trực tuyến: Mức độ hài lòng khi đặt phòng trực tuyến
Vị trí cổng: Mức độ hài lòng về vị trí cổng lên máy bay
Đồ ăn và thức uống: Mức độ hài lòng của đồ ăn và thức uống trên máy bay
Nội trú trực tuyến: Mức độ hài lòng của nội trú trực tuyến
Sự thoải mái của chỗ ngồi: Mức độ hài lòng về sự thoải mái của chỗ ngồi
Trang 15Giải trí trên chuyến bay: Mức độ hài lòng của giải trí trên chuyến bay
Dịch vụ trên tàu: Mức độ hài lòng của dịch vụ trên tàu
Dịch vụ phòng chân: Mức độ hài lòng của dịch vụ phòng chân
Xử lý hành lý: Mức độ hài lòng của việc xếp dỡ hành lý
Dịch vụ nhận phòng: Mức độ hài lòng về dịch vụ nhận phòng
Dịch vụ trên chuyến bay: Mức độ hài lòng của dịch vụ trên chuyến bay
Sạch sẽ: Mức độ hài lòng về sự sạch sẽ của máy bay
Khởi hành chậm trễ trong vài phút: Số phút bị trì hoãn khi khởi hành
2.1 Khai phá dữ liệu
2.1.1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) là quá trình sắp xếp, phân loại một tập hợp các
dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiềuvấn đề thông qua việc phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các công
ty hay các doanh nghiệp có thể dự báo được xu hướng trong tương lại
Quá trình để khai phá dữ liệu là một quá trình rất phức tạp đòi hsi dữ liệu cầnphải chuyên sâu và yêu cầu nhiều kỹ năng tính toán khác nhau Hơn nữa, khai phá dữliệu không chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch,chuyển đổi, tích hợp dữ liệu và phân tích các mẫu
2.1.2 Các tính năng chính của khai phá dữ liệu
Có nhiều các tham số quan trọng trong khai phá dữ liệu, ví dụ như các quy tắc
về phân loại và phân cụm Khai phá dữ liệu có 5 tính năng chính như sau:
Dự báo nhiều mẫu dựa trên bộ dữ liệu đã được huấn luyện
Trang 16Tính toán và dự đoán các kết quả.
Tạo nhiều thông tin để phản hồi và phân tích
Bộ dữ liệu khá lớn
Phân cụm dữ liệu một cách trực quan, sinh động
2.1.3 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu bao gồm 7 bước như sau cùng với đó quy trình khaiphá dữ liệu được trình bày dưới dạng sơ đồ hình vẽ thông qua hình 6 như sau:Bước 1: Làm sạch dữ liệu Đây là bước đầu tiên trong quy trình khai phá dữliệu Bước này được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sửdụng trực tiếp trong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo
ra các kết quả không được chính xác
Bước 2 Tích hợp dữ liệu.: Ở bước này, có thể giúp cho dữ liệu của chúng ta cảithiện về độ chính xác cũng như tốc độ của quá trình khai phá dữ liệu
Bước 3 Làm giảm dữ liệu : Mục đích ở bước này là giúp kích thước của dữ liệu
có khối lượng nhs hơn nhưng nó vẫn đảm bảo và vẫn duy trì về tính toàn vẹn.Bước 4 Chuyển đổi dữ liệu : Trong bước này, dữ liệu được chuyển thành mộtdạng phù hợp với quy trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình khaiphá dữ liệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn
Bước 5 Khai thác dữ liệu : Ở bước này, chúng ta đi khai thác dữ liệu là để xácđịnh các mẫu và một lượng lớn dữ liệu từ những suy luận
Bước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu đại diện chonhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết,kiến thức nào là dư thừa và sẽ bị loại bs
Bước 7: Trình bày thông tin Dữ liệu sẽ được diễn giải lại dưới các báo cáo,hoặc các báo cáo dạng bảng,… và sau đó gửi cho bên bộ phân xử lý thông tin này
Trang 17cre:insight.isb.edu.vn
Hình 6 Sơ đồ khai phá dữ liệu
2.2 Phân tích và tiền xử lý dữ liệu
2.2.1 Phân tích dữ liệu Phân tích dữ liệu của các đặc trưng có tính phân loại:
- Mỗi hàng đại diện cho 1 khách hàng, mỗi cột chứa các thuộc tính của đối tượng
- Dữ liệu thô chứa 3.119 hàng (đối tượng) và 26 cột (đặc trưng)
- Trong cột dữ liệu về sự hài lòng có 2 thuộc tính là: hài lòng, trung tính hoặc không hài lòng, nhóm đã tiến hành xử lí 2 thuộc tính này về dạng là 1,0 (1 đại diện cho “hài lòng” và 0 là “trung tính hoặc không hài lòng”)
2.2.2 Tiền xử lý dữ liệu
Báo cáo sử dụng bộ dữ liệu được tổng hợp từ trang kaggle, đã được xác mình và xử lý
cơ bản nên không có dữ liệu thiếu
2.3 Bài toán 1: Dự đoán liệu một khách hàng trong tương lai có hài lòng với dịch
vụ của hãng hay không
2.3.1 Qui trình thực hiện
-Bước 1: Chọn dữ liệu File Data.xlsx và chọn cột “Sastisfacion” làm Target -Bước 2: Dùng 3 phương pháp: LR, SVM, Tree tiến hành phân loại loại khách hàng &đánh giá hiệu quả các phương pháp
-Bước 3: Chọn phương pháp được đánh giá tốt nhất, dùng phương pháp đó dự báo cho
dữ liệu