Tiền xử lý dữ liệu và xác định thuộc tính quan trọng trong phân tích mức độ hài lòng của khách hàng

MỤC LỤC

Tiền xử lý dữ liệu trước khi đưa vào mô hình

    - Việc chuyển đổi các giá trị thành dạng nhị phân có thể giúp chuẩn hóa dữ liệu, đặc biệt trong quá trình tiền xử lý dữ liệu trước khi đưa vào mô hình học máy. - Giúp cho việc sử dụng cho các mô hình học máy như logistic regression, decision trees, random forests, và neural networks vì chúng yêu cầu dữ liệu đầu vào là dạng số. - Sau khi mã hóa nhị phân cho các cột dữ liệu, dữ liệu sẽ được biến đổi thành dạng nhị phân (0 và 1) như hình minh họa dưới đây.

    Xác định các thuộc tính quan trọng: Thuộc tính có mối quan hệ tương quan cao với biến phụ thuộc Satisfaction. - Tính toán hệ số tương quan giữa cột 'Satisfaction' và tất cả các cột dữ liệu khác trong DataFrame (df). - Xác định danh sách các biến số khác (không tính 'Satisfaction') được sắp xếp theo độ tương quan tuyệt đối với 'Satisfaction'.

    Các biến số này được xếp hạng dựa trên mức độ tương quan cao hoặc thấp với mức độ hài lòng của khách hàng. - Các biến số có tương quan cao có ảnh hưởng đáng kể đến mức độ hài lòng của khách hàng như Class, Online Boarding, Type of Travel… Trong khi các biến số có tương quan thấp như ID, Gender, Gate Location… không ảnh hưởng nhiều. Do đó, ta có thể tập trung vào những yếu tố quan trọng trong phân tích dữ liệu và loại bỏ các biến 'ID', 'Gender', và 'Gate Location'.

    Việc xử lý giá trị null trong một cột cụ thể là một phần quan trọng trong quá trình phân tích dữ liệu và cần được tiếp cận một cách cẩn thận để đảm bảo tính chính xác và đáng tin cậy của kết quả phân tích. - Thay thế giá trị null bằng giá trị trung bình giúp giữ nguyên cấu trúc dữ liệu và dễ dàng thực hiện trong nhiều tình huống. - Chuẩn hóa dữ liệu theo phương pháp min-max là một kỹ thuật trong xử lý dữ liệu, chuyển đổi giá trị của các biến số thành một phạm vi cụ thể, thường là từ 0 đến 1 hoặc từ -1 đến 1.

    - Việc chuẩn hóa này giúp làm phẳng dữ liệu và đảm bảo rằng tất cả các giá trị nằm trong cùng một khoảng phạm vi, giúp dễ dàng phân tích mức độ hài lòng của khách hàng với các tiêu chuẩn chung và so sánh đánh giá các tiêu chí khác nhau một cách cân đối và công bằng.

    Các mô hình dự đoán

    Mô hình Correlation Matrice

    - Correlation Matrices cho thấy mức độ tương quan giữa các biến số, ví dụ: thời gian trễ, chất lượng dịch vụ, tiện ích tại cửa sổ, v.v. Nếu có tương quan cao (tương quan dương hoặc âm gần -1 hoặc 1), có thể ám chỉ mối quan hệ mạnh giữa các yếu tố này và mức độ hài lòng. - Tương quan âm: Online Boarding, In-flight Entertainment, Seat Comfort, Flight Distance có tương quan âm.

    Lưu ý rằng các giá trị này càng thấp thì càng có nhiều khả năng mức độ hài lòng cao. Lưu ý rằng các giá trị này càng cao thì càng có nhiều khả năng mức độ hài lòng cao. - Việc sử dụng Correlation Matrices là một phần quan trọng của việc phân tích dữ liệu để hiểu mối quan hệ giữa các yếu tố có thể ảnh hưởng đến mức độ hài lòng của khách hàng trong ngành hàng không.

    Mô hình phân lớp

      → Mục đích: mô hình Logistic Regression có thể được sử dụng để phân loại khách hàng thành các nhóm hài lòng và không hài lòng dựa trên các biến đầu vào và đánh giá mức độ hài lòng của họ. Trong trường hợp này, mô hình có độ chính xác là khoảng 87.24%, có nghĩa là mô hình dự đoán đúng khoảng 87.24% trên tổng số mức độ hài lòng của khách hàng trong tập kiểm tra. - True Positives (TP): Số lần mô hình dự đoán đúng một khách hàng thuộc vào nhóm Không hài lòng khi thực tế xác nhận cũng thuộc nhóm khách hàng Không hài lòng.

      - False Positives (FP): Số lần mô hình dự đoán sai một khách hàng thuộc vào nhóm Không hài lòng khi thực tế thuộc vào nhóm khách hàng Hài lòng. - False Negatives (FN): Số lần mô hình dự đoán sai một khách hàng thuộc vào nhóm Hài lòng khi thực tế thuộc vào nhóm khách hàng không Hài lòng. - True Positives (TP): Số lần mô hình dự đoán đúng một khách hàng thuộc vào nhóm Không hài lòng khi thực tế xác nhận cũng thuộc nhóm khách hàng Không hài lòng.

      - True Positives (TP): Số lần mô hình dự đoán đúng một khách hàng thuộc vào nhóm Không hài lòng khi thực tế xác nhận cũng thuộc nhóm khách hàng Không hài lòng. Trong trường hợp này, mô hình có độ chính xác là khoảng 96.29%, có nghĩa là mô hình dự đoán đúng khoảng 96.29% trên tổng số mức độ hài lòng của khách hàng trong tập kiểm tra. - Flight Distance (không chênh lệch với Room Service nhiều) và Ease of Online Booking (thấp hơn Flight Distance một chút): Đây là tính năng quan trọng nhưng không ảnh hưởng mạnh đến mức độ hài lòng so với các tính năng khác.

      - Customer Type (không chênh lệch với Ease of Online Booking nhiều) và Age (không chênh lệch với Customer Type): Customer Type và độ tuổi có tầm quan trọng tương đối thấp so với các tính năng khác. - Các yếu tố liên quan đến dịch vụ tàu bay (On-board Service, Baggage Handling, In-flight Service, Check-in Service, Cleanliness) và thời gian xuất phát và đến nơi (Departure and Arrival Time Convenient): Các yếu tố này có tầm quan trọng tương đối thấp và không có sự chênh lệch lớn giữa chúng, đều ở khoảng 0.025. - Một số yếu tố khác (Arrival Delay, Food and Drink, Departure Delay): Các yếu tố này có tầm quan trọng thấp nhất và không có sự chênh lệch lớn giữa chúng, đều ở khoảng 0.015.

      → Biểu đồ này giỳp hóng hàng khụng hiểu rừ hơn về những gỡ quan trọng đối với hành khách và tập trung vào việc cải thiện những khía cạnh quan trọng nhất của trải nghiệm hành khách để nâng cao mức độ hài lòng và cạnh tranh trên thị trường hàng không. Điều này chỉ ra rằng mô hình có khả năng phân loại tốt, với khả năng phân biệt giữa các lớp (positive và negative) tốt hơn so với mô hình dự đoán ngẫu nhiên. - Ngoài ra, Random Forest không chỉ dự đoán mà còn có khả năng xếp hạng quan trọng của các biến đầu vào, giúp hiểu được các yếu tố quyết định hơn về việc khách hàng không hài lòng.

      - Vì vậy, với mục tiêu là tìm những người có xu hướng không hài lòng để cải thiện chất lượng dịch vụ và giữ chân khách hàng, Random Forest có vẻ là mô hình phù hợp hơn. ● Cần tinh chỉnh tham số như số cây trong rừng, độ sâu của cây, và số lượng biến được chọn để phân chia tại mỗi nút để đảm bảo hiệu suất tốt nhất.