đề tài phân tích và dự đoán mức độ hài lòng của khách hàng

39 0 0
Tài liệu đã được kiểm tra trùng lặp
đề tài phân tích và dự đoán mức độ hài lòng của khách hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ ĐÀ NẴNG KHOA THƯƠNG MẠI ĐIỆN TỬ

MÔN: KHO VÀ KHAI PHÁ DỮ LIỆU

ĐỀ TÀI:

Phân tích và dự đoán mức độ hài lòng của khách hàng

Giảng viên hướng dẫn : GV Nguyễn Văn Chức Nhóm: 6

Sinh viên thực hiện:

1 Trương Thị Kiều Vân (nhóm trưởng)2 Lê Thị Mỹ Linh

3 Nguyễn Thị Giang4 Nguyễn Lê Hoàng Như5 Nguyễn Thị Như Bình

Lớp học phần: MIS3009_47K29.1

Trang 2

MỤC LỤC

I Mở đầu:

1 Chủ đề và mục đích phân tích:

2 Dữ liệu và link dữ liệu:

II Phân tích dữ liệu:

1 Import dữ liệu:

1.1 Đọc dữ liệu

1.2 Mô tả dữ liệu:

1.3 Thông tin dữ liệu:

Kiểm tra giá trị null:➢

Kiểm tra sự trùng lặp:➢

Đếm giá trị của Satisfaction:➢

2 Tiền xử lý dữ liệu trước khi đưa vào mô hình:

Trang 3

I Mở đầu:

Mức độ hài lòng của khách hàng là yếu tố quan trọng đối với một hãng hàngkhông Để có thể nắm bắt thông tin quan trọng về nhu cầu và mong muốncủa khách hàng, giúp Hãng hàng không B tối ưu hóa dịch vụ, nâng cao trảinghiệm của khách hàng Và bên cạnh đó, còn có thể giữ chân được kháchhàng tiềm năng, cũng như thu hút nhiều đối tượng khách hàng mới hơn Vìvậy, hãy đến với chủ đề phân tích và dự đoán mức độ hài lòng của kháchhàng với Hãng hàng không B

1 Chủ đề và mục đích phân tích:

- Chủ đề: Phân tích và dự đoán mức độ hài lòng của khách hàng

- Mục đích phân tích: Dựa vào các thông tin cụ thể về cảm nhận và đánh

giá từ khách hàng về các khía cạnh khác nhau Từ đó phân tích và đánhgiá mức độ hài lòng của khách hàng đối với dịch vụ hàng không, xâydựng mô hình dự đoán mức độ hài lòng của khách hàng trong tương lai.Cũng như đảm bảo được việc cung cấp các dịch vụ và sản phẩm đáp ứngtốt nhu cầu của khách hàng và cải thiện trải nghiệm của họ.

2 Dữ liệu và link dữ liệu:

- Dữ liệu được lấy từ Kaggle

- Bộ dữ liệu chứa điểm hài lòng của khách hàng từ hơn 120.000 hànhkhách đi máy bay, bao gồm thông tin về từng hành khách, chuyến bayvà loại hình di chuyển của họ, cũng như đánh giá các yếu tố khác nhaunhư độ sạch sẽ, sự thoải mái, dịch vụ và trải nghiệm tổng thể.

- Gồm 24 cột và 129880 dòng:

Trang 4

IndexColumns Dtype Description

Too long to read onyour phone? Save

to read later onyour computer

Save to a Studylist

Trang 5

1 ID Integer Mã số định danh cho từng bản ghi.2 Gender Object Thông tin về giới tính của hành khách,

có thể là "Nam" hoặc "Nữ"3 Age Integer Độ tuổi của hành khách4 Customer Type Object Loại khách hàng, có thể là

- "First-time" (Khách hàng lần đầu) - "Returning" (Khách hàng quay lại).5 Type of Travel Object Loại chuyến đi, có thể là

- "Business" (Chuyến đi công tác) - "Personal" (Chuyến đi cá nhân).6 Class Object Loại hạng ghế trên chuyến bay,

- "Economy" (Hạng phổ thông) - “Economy plus” (Hạng phổ thông

đặc biệt)

- "Business" (Hạng thương gia).7 Flight Distance Integer Khoảng cách của chuyến bay.8 Departure Delay Integer Thời gian trễ khi máy bay xuất phát.9 Arrival Delay Float Thời gian trễ khi máy bay đến nơi.10 Departure and Arrival

Time Convenience

Integer Đánh giá về tiện ích của thời gian xuất phát và đến nơi.

11 Ease of Online Booking

Integer Đánh giá về việc đặt vé trực tuyến.12 Check-in Service Integer Đánh giá về dịch vụ làm thủ tục check-

Trang 6

16 Seat Comfort Integer Đánh giá về mức độ thoải mái của ghế trên máy bay

17 Leg Room Service Integer Đánh giá về dịch vụ liên quan đến khoảng cách chân ghế.

18 Cleanliness Integer Đánh giá về mức độ sạch sẽ trên máy bay.

19 Food and Drink Integer Đánh giá về thức ăn và đồ uống trên máy bay.

20 In-flight Service Integer Đánh giá về dịch vụ trong suốt chuyến bay.

21 In-flight Wifi Service Integer Đánh giá về dịch vụ Wifi trên chuyến bay.

22 In-flight Entertainment

Integer Đánh giá về dịch vụ giải trí trên chuyến bay

23 Baggage Handling Integer Đánh giá về việc xử lý hành lý.24 Satisfaction Object Mức độ hài lòng của hành khách sau

chuyến bay, có thể được đánh giá bằngsố liệu hoặc dạng văn bản.

+ "Neutral or dissatisfied": trung lậphoặc không hài lòng

+ "Satisfied": hài lòng

Trang 7

II Phân tích dữ liệu:1 Import dữ liệu:

1.1 Đọc dữ liệu

1.2 Mô tả dữ liệu:

Trang 8

- Dữ liệu của chúng ta bao gồm 129880 quan sát với 24 feature

- Phân phối của dữ liệu bao gồm giá trị trung bình (mean) và độ lệchchuẩn (std)

+ Giá trị trung bình giúp xác định giá trị trung tâm của phân phối dữliệu.

+ Độ lệch chuẩn cho biết mức độ biến động của dữ liệu Ở đây, độ lệchchuẩn của Flight Distance là cao nhất với 997.45 cho thấy sự biếnđộng lớn hơn so với các biến còn lại trong dữ liệu.

- Phân vị 25%, 50% và 75% cho biết vị trí của các giá trị quan trọng trongdữ liệu Các giá trị càng gần nhau, dữ liệu có thể có phân phối gần vớiphân phối chuẩn.

+ Các biến số này có thể đánh giá chất lượng và trải nghiệm của cácdịch vụ và tiện ích trong hành trình bay.

Trang 9

+ Phân tích sâu hơn về phân phối của các biến số này có thể cung cấpthông tin chi tiết về cách mà khách hàng đánh giá các tiện ích vàdịch vụ.

→ Nhận xét chung: Dữ liệu bao gồm một loạt các thông tin liên quan đến trải

nghiệm bay và đánh giá của khách hàng về các dịch vụ và tiện ích Để hiểu rõhơn về mối quan hệ giữa các biến và tác động của chúng đối với mức độ hàilòng, việc thực hiện phân tích sâu hơn và xử lý dữ liệu là cần thiết.

1.3 Thông tin dữ liệu:

Trang 10

Kiểm tra giá trị null:

- Dữ liệu có một cột có giá trị null là: “Arrival Delay” với 393 giá trị , cầnđược xử lý.Việc xử lý giá trị null trong một cột cụ thể là một phần quantrọng trong quá trình phân tích dữ liệu và cần được tiếp cận một cách cẩnthận để đảm bảo tính chính xác và đáng tin cậy của kết quả phân tích.➢Kiểm tra sự trùng lặp:

- Kết quả là False, có nghĩa rằng không có bất kỳ hàng nào trongDataFrame df bị trùng lặp hoàn toàn, và dữ liệu không chứa các bản ghitrùng lặp.

Trang 11

Đếm giá trị của Satisfaction:

- Sự phân phối về mức độ hài lòng của khách hàng đối với hãng hàngkhông là không đồng đều Với số lượng khách hàng ở mức "Neutral ordissatisfied"(Trung lập hoặc không hài lòng) là 73,452 khách hàng nhiềuhơn so với "Satisfied"( hài lòng) là 56,428 khách hàng.

- Điều này có thể cho thấy rằng một phần lớn hành khách không cảm thấyhoàn toàn hài lòng hoặc có những ý kiến tiêu cực đối với sản phẩm hoặcdịch vụ Trong khi đó, một số lượng khá lớn hành khách cảm thấy hàilòng.

- Việc hiểu nguyên nhân dẫn đến mức hài lòng của khách hàng có thể yêucầu một phân tích sâu hơn về các yếu tố cụ thể mà hành khách đánh giá.Điều này có thể bao gồm phân tích các yếu tố như tiện ích, dịch vụ, giátrị, chất lượng và nhiều khía cạnh khác Sự phân phối này có thể có ýnghĩa quan trọng trong việc quyết định về chiến lược và cải thiện sảnphẩm và dịch vụ

Trang 12

2 Tổng quan dữ liệu: 2.1 Nhân khẩu học:

Biểu đồ phân tích mức độ hài lòng dựa vào giới tính

- Qua biểu đồ có thể thấy số lượng khách hàng là nữ không hài lòng về hãnghàng không cao hơn nam giới một chút Tuy nhiên, điểm quan trọng làmức độ không hài lòng của cả hai giới đều cao và không chênh lệch nhiều,và tỉ lệ cao hơn so với mức độ hài lòng Điều này có thể thấy có một số vấnđề chung liên quan đến chất lượng dịch vụ của hãng hàng không cần đượcgiải quyết để cải thiện trải nghiệm của hành khách.

- Sự chênh lệch không đáng kể giữa mức độ không hài lòng của cả hai giớicó thể cho thấy rằng cả nam và nữ đều gặp phải những vấn đề tương tự khisử dụng dịch vụ hàng không Điều này có thể làm nổi bật các khía cạnh cầncải thiện trong ngành hàng không, bao gồm việc nâng cao chất lượng dịchvụ, giảm thiểu tình trạng trễ hoặc hủy chuyến, và tạo ra môi trường thoảimái và an toàn cho hành khách.

- Mức độ không hài lòng cao hơn so với mức hài lòng nói chung đòi hỏi sựquan tâm từ hãng hàng không để tìm hiểu về nguyên nhân và tiến hành cácbiện pháp để cải thiện trải nghiệm của hành khách, đặc biệt là việc giảmthiểu sự không hài lòng.

Trang 13

Biểu đồ phân tích mức độ hài lòng dựa vào độ tuổi

- Dữ liệu bao gồm một loạt các nhóm độ tuổi, từ trẻ đến người cao tuổi, vớimột số liệu phân phối không đồng đều Đa số các khách hàng trong tập dữliệu nằm trong nhóm 20-55 tuổi, có sự phân bố không đồng đều ở các nhómtuổi còn lại Sự phân bố này có thể đến từ các yếu tố kỳ vọng, trải nghiệm cánhân, hoặc sự đa dạng về nhóm tuổi Khách hàng có nhiều kinh nghiệm sửdụng dịch vụ nhiều hơn và đánh giá theo các tiêu chí khách quan hơn.- Nhóm tuổi trẻ (dưới 20 tuổi): Có tỷ lệ thấp người dùng hài lòng và tỉ lệ cao

người dùng không hài lòng và trung lập Nhóm tuổi trẻ thường có kỳ vọngcao với sản phẩm hoặc dịch vụ họ sử dụng Nếu sản phẩm không đáp ứngđược mong đợi của họ, họ có thể cảm thấy không hài lòng hơn so với nhómtuổi lớn tuổi hơn.nhóm tuổi trẻ dưới 20 tuổi có thể thiếu kinh nghiệm sửdụng các dịch vụ hoặc sản phẩm, điều này có thể dẫn đến sự không hài lòngdo họ chưa có sự thấu hiểu sâu sắc về sản phẩm hoặc dịch vụ đó.

- Nhóm tuổi trung niên (20-55 tuổi): Có sự khác biệt đáng kể giữa các độ tuổivà chiếm phần lớn số lượng đánh giá.Trong đó thì nhóm khách hàng có độtuổi từ 22-38 có tỉ lệ không hài lòng cao còn ở nhóm khách hàng từ 38-55tuổi thì ngược lại với tỉ lệ hài lòng cao hơn Nhóm khách hàng từ 22-38 tuổicó thể đang ở giai đoạn sự nghiệp ban đầu, với áp lực tài chính và mục tiêu

Trang 14

đầu tư khác biệt so với nhóm 38-55 tuổi, có thể tạo ra sự nhạy cảm cao hơnđối với giá trị và chất lượng của sản phẩm hoặc dịch vụ.

- Nhóm tuổi cao (trên 55 tuổi): Nhìn chung có tỷ lệ hài lòng thấp do kỳ vọngcao với trải nghiệm và dịch vụ chất lượng cao Họ có thể ít linh hoạt hơntrong việc thích nghi với thay đổi.

- Qua biểu đồ ta có thể thấy hãng hàng nên tập trung vào nhóm khách hàng cóđộ tuổi từ 20-55, đặc biệt là nhóm tuổi 20-38 Ở độ tuổi này thường chiếmphần lớn số lượng khách hàng Họ có khả năng phát triển do có thể thay đổikỳ vọng và yêu cầu dịch vụ theo thời gian Đây là một nhóm có tiềm năngphát triển và có thể tạo ra sự ổn định cho hãng hàng không.Tuy nhiên cũngkhông nên bỏ qua các cơ hội từ các nhóm khách hàng khác để đảm bảo cungcấp dịch vụ tốt nhất cho mọi đối tượng khách hàng.

Biểu đồ so sánh hài lòng và không hài lòng theo loại khách hàng- Khách hàng "first-time" chiếm gần 2000 trên tổng hơn 2000 khách hàng, và

mức độ không hài lòng của họ là khá cao, trong khi mức độ hài lòng thấp.Điều này có thể ngụ ý rằng hãng hàng không có vấn đề trong việc làm hàilòng khách hàng mới Có thể cần xem xét cách cải thiện trải nghiệm của họvà đảm bảo họ sẽ trở thành khách hàng trung thành sau này.

- Khách hàng "returning" chiếm gần 6000 trên tổng hơn 100,000 khách hàng, vàmức độ không hài lòng của họ cũng cao Mặc dù tỷ lệ không hài lòng của họ

Trang 15

không chênh lệch nhiều so với khách hàng hài lòng, nhưng việc có mức độkhông hài lòng cao trong số họ vẫn là một vấn đề cần quan tâm Điều này cóthể gợi ý rằng hãng hàng không cần nắm vững và duyệt xét lại các yếu tố dẫnđến mức độ không hài lòng của khách hàng trung thành.

- Tổng số khách hàng returning cao hơn 100.000, điều này có thể cho thấy rằnghãng hàng không có một lượng lớn khách hàng trung thành Tuy nhiên, việcmức độ không hài lòng ở cả hai loại khách hàng (first-time và returning) đềucao có thể ảnh hưởng đến sự trung thành của họ Cần nỗ lực để giảm mức độkhông hài lòng và tăng mức độ hài lòng của khách hàng để duy trì và pháttriển cơ sở khách hàng trung thành.

- Biểu đồ này cho thấy rằng hãng hàng không cần cải thiện dịch vụ và trảinghiệm của khách hàng, đặc biệt là trong việc làm hài lòng khách hàng mớivà duy trì sự trung thành của khách hàng trở lại để tăng cường hiệu suất vàtiếp tục phát triển.

Biểu đồ về sự hài lòng theo thông tin khách hàng

Trang 16

2.2 Trải nghiệm trên chuyến bay:

Biểu đồ so sánh sự hài lòng của khách hàng theo hạng ghế (Class)Độ tương quan giữa các đánh giá dịch vụ với sự hài lòng của khách hàng- Với hạng ghế Thương gia (Business), mức độ "Neutral or Dissatisfied"

chiếm một phần nhỏ, khoảng gần 20,000, trong khi mức độ "Satisfied"chiếm một tỷ lệ lớn hơn, khoảng hơn 40,000 Điều này cho thấy rằng kháchhàng ở hạng ghế Business thường đáng giá hài lòng

- Với hạng ghế Phổ thông (Economy), mức độ "Neutral or Dissatisfied"chiếm một tỷ lệ lớn, khoảng gần 50,000, trong khi mức độ "Satisfied"chiếm một số ít, khoảng hơn 10,000 Điều này có thể chỉ ra rằng kháchhàng ở hạng ghế Economy có xu hướng hài lòng kém hơn so với hạngBusiness.

- Với hạng ghế Phổ thông đặc biệt (Economy plus), mức độ "Neutral orDissatisfied" chiếm 9,000 và mức độ "Satisfied" rất thấp chỉ khoảng 2,000- 3,000 Điều này cho thấy rằng hạng ghế Economy Plus có tỷ lệ hài lòngrất thấp và cần được cải thiện.

Kết luận: Qua đó có thể thấy Hãng hàng không cần phải:

Trang 17

● Đánh giá và cải thiện chất lượng dịch vụ trong hạng ghế Economyđể giảm tỷ lệ hành khách "Neutral or Dissatisfied."

● Nắm rõ yêu cầu và mong muốn của hành khách trong hạng ghếEconomy và tối ưu hóa dịch vụ để tạo trải nghiệm tốt hơn.- Với hạng Ghế Economy Plus:

● Tổ chức các cuộc khảo sát và phản hồi của hành khách để hiểu rõnguyên nhân của tỷ lệ hài lòng thấp và xác định cải thiện cụ thể.● Cải thiện dịch vụ và tiện nghi trong hạng ghế Economy Plus để

tạo điểm mạnh và tăng cường sự hài lòng của hành khách.Nhìn chung, Hãng hàng không cần tập trung vào việc nâng cao trải nghiệm củahành khách trong từng hạng ghế và cải thiện dịch vụ dựa trên thông tin từ biểuđồ để tạo ra sự hài lòng và sự khác biệt trong ngành hàng không.

Biểu đồ sự hài loàng về dịch vụ chuyến bay

Trang 18

Biểu đồ sự hài lòng về trải nghiệm chuyến bay

Biểu đồ sự hài lòng về dịch vụ sắp xếp hành lý

Trang 19

Biểu đồ hài lòng về dịch vụ Checkin online

3 Tiền xử lý dữ liệu trước khi đưa vào mô hình: 3.1 Mã hóa dữ liệu:

- Mã hóa dữ liệu (Data Encoding) là quá trình chuyển đổi các giá trị dữ liệutừ dạng không phù hợp hoặc không phải dạng số thành dạng số hoặc dạngmà mô hình máy học có thể hiểu và sử dụng được.

- Dữ liệu của chúng ta chứa các cột có kiểu dữ liệu text như: Gender,Customer Type, Type of Travel, Class, Satisfaction cần được chuyển đổiqua được dạng số để mô hình máy học có thể hiểu được.

- Quá trình mã hóa dữ liệu sẽ thay đổi tùy theo kiểu dữ liệu và tính chất củatừng cột Lựa chọn kỹ thuật mã hóa phù hợp sẽ giúp chuẩn bị dữ liệu tốthơn cho việc huấn luyện mô hình Nhóm đã chọn mã hóa nhị phân cho tậpdữ liệu.

- Việc mã hóa nhị phân có thể xử lý nhanh hơn khi có số lượng lớn các giátrị duy nhất Mã hóa nhị phân vẫn giữ nguyên thông tin từ cột gốc, trongkhi vẫn chuyển đổi chúng thành dạng số có thể sử dụng cho mô hình họcmáy.

Trang 20

- Việc chuyển đổi các giá trị thành dạng nhị phân có thể giúp chuẩn hóa dữliệu, đặc biệt trong quá trình tiền xử lý dữ liệu trước khi đưa vào mô hìnhhọc máy.

- Giúp cho việc sử dụng cho các mô hình học máy như logistic regression,decision trees, random forests, và neural networks vì chúng yêu cầu dữ liệuđầu vào là dạng số.

- Sau khi mã hóa nhị phân cho các cột dữ liệu, dữ liệu sẽ được biến đổi thànhdạng nhị phân (0 và 1) như hình minh họa dưới đây.

3.2 Thu giảm dữ liệu:

Xác định các thuộc tính quan trọng: Thuộc tính có mối quan hệ tương quan caovới biến phụ thuộc Satisfaction.

Trang 21

- Tính toán hệ số tương quan giữa cột 'Satisfaction' và tất cả các cột dữ liệukhác trong DataFrame (df).

- Xác định danh sách các biến số khác (không tính 'Satisfaction') được sắpxếp theo độ tương quan tuyệt đối với 'Satisfaction' Các biến số này đượcxếp hạng dựa trên mức độ tương quan cao hoặc thấp với mức độ hài lòngcủa khách hàng.

- Các biến số có tương quan cao có ảnh hưởng đáng kể đến mức độ hài lòngcủa khách hàng như Class, Online Boarding, Type of Travel… Trong khicác biến số có tương quan thấp như ID, Gender, Gate Location… khôngảnh hưởng nhiều Do đó, ta có thể tập trung vào những yếu tố quan trọngtrong phân tích dữ liệu và loại bỏ các biến 'ID', 'Gender', và 'GateLocation'.

→ Dữ liệ ữ saữ loại bỏ các biế n gồ m: 129880 dòng và 21 cộ t

Ngày đăng: 27/05/2024, 15:41

Tài liệu cùng người dùng

Tài liệu liên quan