Chúng em đã tiến hành tìm kiếm và phân tích một bộ dữ liệu bằng công cụ Orange, nhằm đánh giá các yếu tố ảnh hưởng đến quyết định của khách hàng về việc rời bỏ hoặc ở lại với một công ty
GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 5
Giới thiệu về Khoa học dữ liệu
Khoa học dữ liệu (DS) là một lĩnh vực nghiên cứu và ứng dụng chuyên sâu trong việc quản trị và phân tích dữ liệu, nhằm khai thác những thông tin có ý nghĩa và áp dụng chúng vào lĩnh vực chuyên ngành cụ thể Từ những kiến thức và thông tin này, các quyết định được hình thành, đặt nền tảng cho các hành động thực hiện sau này Khoa học dữ liệu là một ngành đa nguyên tắc, sự kết hợp giữa nhiều nguyên tắc và phương pháp từ các lĩnh vực khác nhau, chung quy từ ba khía cạnh chính:
- Toán học (Toán thống kê): Đây là nền tảng toán học xác định cách thu thập, xử lý, và đánh giá dữ liệu một cách khoa học và chính xác
- Khoa học máy tính: Sử dụng các công cụ và kỹ thuật máy tính để xử lý và phân tích dữ liệu Các thuật toán máy tính đóng vai trò quan trọng trong việc khai thác thông tin từ dữ liệu
- Kiến thức chuyên ngành khác: Khoa học dữ liệu đòi hỏi hiểu biết sâu rộng về lĩnh vực mà nó được áp dụng, ví dụ như kinh doanh, y tế, khoa học xã hội, và nhiều lĩnh vực khác Sự hiểu biết này giúp định hình cách tiếp cận và phân tích dữ liệu một cách có ý nghĩa
Sự kết hợp của các khía cạnh trên tạo điều kiện thuận lợi cho việc xử lý khối lượng lớn các dữ liệu Từ dữ liệu thô, thông qua các kỹ thuật tiên tiến, chúng ta có thể biến chúng thành dữ liệu có ý nghĩa Các nhà khoa học dữ liệu, hay còn được gọi là "data scientist," đảm nhận nhiệm vụ xem xét, phân tích, và đưa ra các kết luận và dự đoán dựa trên dữ liệu Điều này giúp các doanh nghiệp giảm chi phí, tăng hiệu quả sản xuất, nhận biết cơ hội và thách thức, và tạo lợi thế cạnh tranh trên thị trường Các lĩnh vực chính của khoa học dữ liệu bao gồm: khai thác dữ liệu (Data Mining), thống kê (Statistics), học máy (Machine Learning), phân tích (Analysis), và lập trình (Programming) Khoa học dữ liệu không chỉ giúp chúng ta hiểu sâu hơn về dữ liệu mà còn mở ra những cơ hội đầy tiềm năng để nâng cao hiệu suất và sự hiểu biết trong nhiều lĩnh vực khác nhau.
Giới thiệu về đề tài
1.2.1 Lý do chọn đề tài
Ngày nay với sự phát triển mạnh mẽ không ngừng của ngành du lịch, thì các doanh nghiệp trong lĩnh vực này cũng phải đang phải đối mặt với sự cạnh tranh khốc liệt Bên cạnh đó đời sống vật chất và tinh thần của con người ngày càng cao vì vậy khi trải nghiệm, sử dụng dịch vụ khách hàng cũng có những tiêu chí, yêu cầu cao hơn xứng đáng với số tiền họ bỏ ra Bên cạnh đó nhu cầu được cá nhân hóa, riêng tư hóa trong trải nghiệm du lịch thì các công ty cung cấp dịch vụ chưa đáp ứng được Vì vậy việc phân tích hành vi khách hàng, nhất là hiểu được những yếu tố tác động đến việc họ rời bỏ dịch vụ Sẽ giúp công ty xác định và giải quyết các vấn đề một cách hiệu quả để có thể tối ưu hóa tài nguyên Thông qua việc phân tích đưa ra những giải pháp như cải thiện chất lượng dịch vụ để, tạo ra các chương trình để duy trì khách hàng trung thành và tiếp cận được những khách hàng mới Việc này sẽ giúp cho doanh nghiệp giảm mất mát và tăng doanh thu Đề tài của dự án này có tính ứng dụng cao, với khả năng áp dụng kết quả vào kinh doanh thực tế Vì các công ty kinh doanh dịch vụ của các ngành nói chung và ngành du lịch nói riêng đều hướng đến việc tối ưu hóa chiến lược tiếp thị, cải thiện dịch vụ khách hàng, tối đa hóa lợi nhuận dự đoán xu hướng du lịch tương lai Ứng dụng khoa học dữ liệu và công cụ Orange trong ngành du lịch không chỉ giúp tối ưu hóa hoạt động kinh doanh mà còn tạo ra trải nghiệm tốt hơn cho khách hàng và cải thiện sự cạnh tranh của doanh nghiệp trong ngành này
- Phân cụm, phân lớp dữ liệu
- So sánh dựa trên nhãn “Target”
- Định hướng chiến lược cho công ty du lịch, giúp họ thu hút và duy trì khách hàng một cách hiệu quả
Nhóm đã sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu, rồi tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp Để thực hiện phân cụm bộ dữ liệu đã chọn, nhóm sử dụng hai phương pháp là Hierarchical và K-means:
- Đối với phương pháp Hierarchical clustering, nhóm tiến hành tính khoảng cách giữa các phần tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot
- Đối với phương pháp K-means, nhóm quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp đã nêu, nhóm tiến hành chọn ra phương pháp tốt nhất để phân cụm cho bộ dữ liệu đã chọn
TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG – ORANGE VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
Tổng quan về phần mềm Orange
Môn Khoa học dữ liệu (Data Science) liên quan đến việc khai thác và nghiên cứu dữ liệu, bao gồm hai lĩnh vực phức tạp: Khai phá dữ liệu (Data Mining) và Học máy (Machine Learning) Để giúp người dùng thuận tiện trong việc nghiên cứu những vấn đề phức tạp trong hai lĩnh vực này, đã có nhiều phần mềm được phát triển Một trong số đó là Orange
Orange là một phần mềm khai thác dữ liệu (Data Mining) giúp các doanh nghiệp, từ nhỏ đến lớn, tạo quy trình công việc phân tích và trực quan hoá dữ liệu Nó cho phép tạo ra các phép chiếu tuyến tính, bản đồ nhiệt, MDS, cây quyết định và nhiều hơn nữa trên một nền tảng tập trung
Phần mềm Orange nổi tiếng vì tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh Nó được lập trình bằng Python và có giao diện trực quan và tương tác Với nhiều chức năng, Orange có thể phân tích từ dữ liệu đơn giản đến dữ liệu phức tạp, tạo ra các đồ họa đẹp mắt và thú vị Ngoài ra, nó cũng làm cho việc khai phá dữ liệu và học máy dễ dàng hơn đối với cả người mới sử dụng và chuyên gia
Orange cung cấp cho người dùng một tập hợp các công cụ nhỏ nhất giúp tiến hành phân tích dữ liệu, bao gồm:
- Data: cho phép rút trích, biến đổi và nạp dữ liệu (quy trình ETL)
- Visualize: cho phép biểu diễn dữ liệu dưới dạng biểu đồ để quan sát dễ dàng hơn
- Model: bao gồm các hàm học máy cho việc phân loại dữ liệu
- Evaluate: cung cấp các phương pháp để đánh giá mô hình học máy
- Unsupervised: bao gồm các hàm học máy cho việc gom nhóm dữ liệu
- Others: các công cụ giúp ghi chú quy trình công việc đang làm việc
- Add ons: giúp mở rộng các chức năng nâng cao như xử lý Big Data với Spark, xử lý ảnh với Deep Learning, xử lý văn bản, phân tích mạng xã hội,
Tổng quan về các phương pháp sử dụng
2.2.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một phương pháp khai thác dữ liệu nhằm chuyển đổi dữ liệu thô (dữ liệu gốc/nguyên thủy) thành định dạng dễ hiểu Trên thực tế, dữ liệu thường không hoàn chỉnh, không nhất quán hoặc thiếu đi một số hành vi hoặc xu hướng cụ thể và có thể chứa nhiều lỗi Việc tiền xử lý dữ liệu đóng vai trò quan trọng trong quá trình khám phá tri thức, bởi vì chất lượng quyết định phụ thuộc vào chất lượng của dữ liệu Quá trình tiền xử lý dữ liệu bao gồm các giai đoạn như: làm sạch dữ liệu, tích hợp và biến đổi dữ liệu, và rút gọn dữ liệu
Quá trình tiến hành làm sạch dữ liệu (data cleaning/cleansing) đóng vai trò quan trọng trong việc điền các giá trị bị thiếu, loại bỏ nhiễu (remove noise) và điều chỉnh những phần dữ liệu không nhất quán (correct data inconsistencies) Đối với dữ liệu bị thiếu, có một số phương pháp được áp dụng:
- Bỏ qua các mẫu có giá trị thiếu: Phương pháp này thường được sử dụng khi thuộc tính nhãn (label) bị thiếu Tuy nhiên, phương pháp này không hiệu quả khi tỷ lệ giá trị thiếu trong từng thuộc tính là quan trọng
- Điền vào bằng tay các giá trị thiếu: Phương pháp này yêu cầu đầu tư thời gian và không khả thi khi áp dụng cho tập dữ liệu lớn với nhiều giá trị thiếu
- Sử dụng một hằng số toàn cục để điền vào giá trị thiếu: Thay thế toàn bộ giá trị thiếu của thuộc tính bằng một hằng số như "Unknown" hoặc vô cực
- Sử dụng giá trị trung bình của thuộc tính để điền vào giá trị thiếu
- Sử dụng giá trị trung bình của thuộc tính cho toàn bộ các mẫu thuộc cùng một lớp trong bộ dữ liệu
- Sử dụng giá trị dự đoán có khả năng nhất để điền vào giá trị thiếu: Giá trị này có thể được tìm thấy thông qua phương pháp hồi quy hoặc dựa trên các công cụ sử dụng hình thức Bayesian
Ví dụ về công cụ Preprocessing widget có thể được sử dụng trong quá trình này Đối với dữ liệu nhiễu, nhiễu thường được hiểu là lỗi hoặc sự mâu thuẫn ngẫu nhiên trong quá trình đo lường các biến số Các kỹ thuật loại bỏ nhiễu có thể được áp dụng như phương pháp hồi quy hoặc phân cụm
Kỹ thuật rút gọn dữ liệu được sử dụng để tạo ra một biểu diễn rút gọn của tập dữ liệu, giúp giảm số lượng dữ liệu mà vẫn giữ được tính nguyên vẹn của dữ liệu gốc Việc khai thác dữ liệu trên dữ liệu rút gọn thường hiệu quả hơn so với việc khai thác dữ liệu trên dữ liệu gốc Quá trình rút gọn dữ liệu bao gồm các giai đoạn sau:
1 Tổng hợp dữ liệu: Áp dụng các phép toán tổng hợp lên dữ liệu trong khối dữ liệu để tạo ra một biểu diễn rút gọn
2 Lựa chọn tập thuộc tính con: Xác định và loại bỏ các thuộc tính hoặc chiều không liên quan, liên quan yếu hoặc thừa thãi trong cấu trúc dữ liệu
3 Rút gọn chiều: Sử dụng cơ chế mã hóa để rút gọn kích thước của tập dữ liệu
4 Giảm số lượng: Thay thế hoặc đánh giá dữ liệu bằng dữ liệu khác nhỏ hơn về số lượng, chẳng hạn như sử dụng các mô hình tham số chỉ cần lưu giữ các tham số mô hình thay vì dữ liệu thật, hoặc sử dụng các phương pháp không dùng tham số như phân cụm, lấy mẫu và sử dụng các lược đồ
5 Rời rạc hóa và tạo phân cấp khái niệm: Thay thế giá trị dữ liệu thô của thuộc tính bằng các dải hoặc mức khái niệm cao hơn Rời rạc hóa là một công cụ mạnh mẽ trong việc khai thác dữ liệu, cho phép khám phá dữ liệu ở nhiều mức khái niệm khác nhau.
Phân cụm
Phân cụm dữ liệu là quá trình nhóm các đối tượng hoặc dữ liệu có các đặc điểm tương đồng vào các nhóm tương ứng, trong khi các đối tượng hoặc dữ liệu thuộc các nhóm khác nhau không có sự tương đồng Phân cụm dữ liệu được sử dụng làm bước tiền xử lý cho các thuật toán khai phá dữ liệu khác, như phân loại hoặc mô tả đặc điểm, nhằm mục đích chia thành các nhóm riêng biệt
Nhiệm vụ chính để tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu
Phân cụm thuộc nhóm phương pháp học không giám sát (Unsupervised learning) vì không biết trước được số nhóm
Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
- Độ tương đồng bên trong cụm cao
- Độ tương tự giữa các cụm thấp (khác biệt cao) Ứng dụng điển hình:
- Công cụ phân cụm dữ liệu độc lập
- Giai đoạn tiền xử lý cho các thuật toán khác
2.3.3 Các ứng dụng của phân cụm dữ liệu
Các ứng dụng của phân cụm dữ liệu là công cụ phân cụm dữ liệu độc lập và giai đoạn tiền xử lý cho các thuật toán khác Phân cụm dữ liệu cũng đã được ứng dụng trong nhiều lĩnh vực như sinh học, thương mại, bảo hiểm, quy hoạch đô thị và khai phá web Ví dụ, phân cụm dữ liệu có thể được sử dụng để phân loại các lớp động vật dựa trên chức năng gen tương đồng, phân loại nhóm hành khách dựa trên nhu cầu thông qua cơ sở dữ liệu giao dịch, nhận dạng nhóm mua bảo hiểm có yêu cầu bồi thường cao, trung bình hay thấp, xác định gian lận trong bảo hiểm thông qua các mẫu cá biệt, nhận dạng các nhóm nhà trong quy hoạch đô thị dựa trên phong cách, vị trí địa lý, giá trị, và khám phá các nhóm tài liệu quan trọng trong môi trường web để phát hiện thông tin quan trọng
2.3.3.1 Các phương pháp phân cụm
Loại Đặc điểm Các phương pháp điển hình
Phân cấp các đối tượng dựa trên một số tiêu chí Diana, Agnes
Xây dựng các phân hoạch khác nhau và đánh giá chúng Sau đó, tìm cách tối thiểu hóa tổng bình phương độ lỗi
Bảng 1 Các phương pháp phân cụm
Phương pháp phân cụm cây, còn được gọi là phân cụm dựa trên cây, là quá trình phân cụm dữ liệu dựa trên một đồ thị cây Dữ liệu được sắp xếp thành cấu trúc cây phân cụm, và cây này có thể được xây dựng bằng hai phương pháp chính: từ dưới lên (bottom up) và từ trên xuống (top down)
Trong phương pháp từ dưới lên, còn được gọi là phương pháp trộn, ban đầu mỗi đối tượng được coi như một cụm riêng Quá trình trộn các cụm gần nhất với nhau liên tiếp được thực hiện bằng đệ quy cho đến khi chỉ còn một cụm duy nhất chứa toàn bộ dữ liệu
Các thuật toán phân cụm cây khác nhau đánh giá sự gần nhau của hai cụm dựa trên các tiêu chuẩn đánh giá tương ứng với khoảng cách giữa các cụm Quy tắc để chọn cụm để trộn được gọi là quy tắc liên kết
Quyết định về số lượng cụm cuối cùng sẽ được người dùng quyết định dựa trên cây phân cụm Một cây biểu diễn quá trình phân cụm và cho phép người dùng xem kết quả phân cụm
- Liên kết đơn (Single link)
- Liên kết đầy (Complete link)
- Liên kết trung bình giữa các nhóm (Average link)
Trong phương pháp phân hoạch, người ta xác định trước số lượng cụm và tiến hành phân các đối tượng dữ liệu vào từng cụm Sau đó, quá trình điều chỉnh được thực hiện lặp đi lặp lại để tối thiểu hóa một hàm mục tiêu đã chọn Một trong những thuật toán phổ biến nhất được sử dụng trong phương pháp này là thuật toán k-means và các biến thể của nó
Trong thuật toán k-means, số lượng cụm k được xác định trước hoặc đặt như một tham số Với một tập dữ liệu D gồm n đối tượng trong không gian d chiều, thuật toán này phân chia các đối tượng thành k cụm sao cho tổng bình phương độ lệch của mỗi đối tượng đến tâm của cụm mà nó thuộc vào là nhỏ nhất K-means là một ví dụ điển hình của phương pháp phân cụm này.
Phân lớp
Có thể thấy phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn con người có thể trích rút ra các quyết định nghiệp vụ thông minh
Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu
2.4.2 Quá trình phân lớp dữ liệu
Phân loại có nhiệm vụ dự đoán nhãn phân loại cho các bộ dữ liệu hoặc mẫu mới Quá trình phân loại bao gồm hai bước chính:
- Bước 1 : Xây dựng mô hình phân loại, trong đó ta mô tả một tập hợp các lớp đã được xác định trước Dữ liệu đầu vào có thể là các mẫu đã được gán nhãn và tiền xử lý, ví dụ như các sample, example, object, record, hoặc case Các thuật toán phân loại phổ biến bao gồm cây quyết định, hàm số toán học, tập luật, và nhiều hơn nữa
- Bước 2: Sử dụng mô hình đã xây dựng để phân loại dữ liệu trong tương lai hoặc phân loại các đối tượng chưa biết trước Quá trình này được chia thành hai bước nhỏ:
+ Đánh giá mô hình để kiểm tra tính chính xác của nó Nếu mô hình được đào tạo và đánh giá trên cùng một tập dữ liệu, thì độ chính xác được ước lượng cơ bản trên dữ liệu huấn luyện và kết quả có thể rất khả quan
+ Phân loại dữ liệu mới: Mô hình sẽ tự động gán nhãn cho các đối tượng dữ liệu này dựa trên kiến thức đã được học trong bước 1
2.4.3 Các vấn đề liên quan đến phân lớp dữ liệu
Việc tiền xử lý dữ liệu là một bước không thể thiếu và có vai trò quan trọng trong quá trình phân loại Quá trình tiền xử lý giúp đảm bảo việc áp dụng mô hình phân loại hiệu quả và có khả năng mở rộng Dưới đây là hai hoạt động tiền xử lý chính:
1 Làm sạch dữ liệu: Quá trình này liên quan đến xử lý lỗi và giá trị thiếu trong tập dữ liệu ban đầu Các hoạt động như loại bỏ dữ liệu trùng lặp, xử lý giá trị thiếu bằng cách điền giá trị hoặc xoá các mẫu thiếu, kiểm tra và sửa các lỗi dữ liệu, đồng nhất hóa định dạng dữ liệu, giúp làm sạch và chuẩn hoá dữ liệu trước khi tiếp tục quá trình phân loại
2 Phân tích sự cần thiết của dữ liệu: Bước này nhằm loại bỏ các thuộc tính không cần thiết hoặc dư thừa khỏi quá trình học của mô hình phân loại Những thuộc tính không cần thiết này có thể làm chậm tốc độ học, làm phức tạp mô hình hoặc gây nhầm lẫn trong quá trình học và dẫn đến một mô hình phân loại không đáng tin cậy Phân tích sự cần thiết của dữ liệu giúp tăng hiệu quả và hiệu suất của mô hình phân loại
2.4.4 Một số phương pháp phân lớp
Hồi quy Logistic (Logistic Regression) là một phương pháp thống kê được sử dụng để xác định mối quan hệ giữa biến độc lập (biến liên tục hoặc biến phân loại) và biến phụ thuộc là một biến nhị phân
Cây quyết định (Random Forest): Trong lý thuyết quản trị, cây quyết định là một đồ thị quyết định và các kết quả có thể xảy ra đi kèm nhằm hỗ trợ quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là một phương pháp để mô tả, phân loại và tổng quát hóa bộ dữ liệu cho trước
SVM (Support Vector Machine): SVM là một thuật toán có giám sát Đối với SVM, dữ liệu được xem như các vector trong không gian và được phân loại vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều để phân cách các lớp dữ liệu
2.4.5 Các phương pháp đánh giá mô hình phân lớp
- Các phương pháp được sử dụng để đánh giá hiệu suất của mô hình phân loại trên dữ liệu có tính chất đặc thù nhằm quyết định việc sử dụng mô hình đó
- Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu để tránh tình trạng dưới cân và quá khớp
- Ma trận nhầm lẫn (Confusion Matrix) là một ma trận thể hiện số lượng điểm dữ liệu thực sự thuộc vào một lớp cụ thể và được dự đoán thuộc vào các lớp nào
- Precision (độ chính xác) cho biết tỷ lệ mẫu được phân vào lớp i trong số mẫu được phân vào lớp đó
- ROC (Receiver Operating Characteristic) và AUC (Area Under Curve) là hai công cụ đánh giá phổ biến trong mô hình phân loại nhị phân
- ROC là một đồ thị được sử dụng để đánh giá hiệu suất của mô hình phân loại nhị phân
- AUC là diện tích nằm dưới đường cong ROC Giá trị AUC là số dương nhỏ hơn hoặc bằng 1 Một giá trị AUC lớn thể hiện một mô hình tốt hơn
2.4.6 Các ứng dụng phân lớp dữ liệu trong kinh tế
MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
Nhóm chúng em chọn bộ dữ liệu “Tour and Travels customer churn prediction” làm mô hình nghiên cứu Dữ liệu này được thực hiện bởi một doanh nghiệp du lịch mà ở đó ban lãnh đạo muốn khám phá các yếu tố đến sự rời bỏ hay ở lại của khách hàng đối với công ty du lịch này Điều này giúp cho bộ phận quản trị đưa ra chiến lược với mục tiêu tốt hơn để giữ chân khách hàng Bộ dữ liệu ấy và những phân tích của nhóm sẽ là cơ sở cho nhà quản trị đưa ra quyết định, các chiến lược để giữ chân khách hàng, ổn định và phát triển doanh nghiệp
Bộ dữ liệu được khảo sát với 954 khách hàng, không có missing value Dữ liệu bao gồm những yếu tố: Age, Frequent Flyer, Annual Income Class, Services Opted, Account Synced To Social Media, Booked HotelOrNot, Target Những yếu tố sẽ tác động đến quyết định ở lại hay rời bỏ của khách hàng với doanh nghiệp
STT Thuộc tính Ý nghĩa Kiểu dữ liệu
1 Age Độ tuổi của khách hàng Numeric
2 Frequent Flyer Khách hàng chọn phương tiện du lịch thường xuyên là máy bay
Mức thu nhập hàng năm Categorical
4 Services Otped Số lần sử dụng dịch vụ của doanh nghiệp những năm tại thời điểm đó
Số người dùng quyết định đồng bộ tài khoản của họ với MXH của công ty.
Not Khách du lịch có quyết định sử dụng dịch vụ đặt khách sạn/ nơi lưu trú của công ty hay không.
7 Target Khách hàng (Khách du lịch) rời bỏ hoặc không rời bỏ công ty.
Age Tần số Tần suất
Frequent Flyer Tần số Tần suất
Class Annual Income Tần số Tần suất
Services Otped Tần số Tần suất
• Account Synced To Social Media
Account Synced To Social Media Tần số Tần suất
Booked Hotel Or Not Tần số Tần suất
KẾT QUẢ THỰC HIỆN
Phân tích dữ liệu và tiền xử lý dữ liệu
Phân tích dữ liệu của các đặc trưng có tính phân loại:
- Mỗi hàng đại diện cho một đối tượng (khách hàng) của du lịch, của công ty Mỗi cột là một thuộc tính bao gồm thông tin khách hàng và mỗi liên hệ giữa khách hàng với công ty
- Dữ liệu bao gồm 954 đối tượng (hàng) và 7 thuộc tính (cột)
- Độ tuổi của khách hàng có bao nhiêu
- Dữ liệu sạch và không có giá trị null
Hình 1: Mô tả thông tin Dataset 4.1.2 Tiền xử lý dữ liệu
- Nhóm tiến hành quan sát bộ dữ liệu Để thuận tiện cho việc xử lý dữ liệu, nhóm đã số hóa một số đối tượng
- Ở Frequent Flyer, Account Synced To Social Media, Booked Hotel or Not nhóm chúng em xử lý như sau: Yes và No lần lượt đổi thành 1 và 0
- Phần còn lại, bộ dữ liệu khá sạch, không có giá trị null và không có các biến ngoại lai (outliers)
Dữ liệu Tour and Travels Customer prediction churn được nhóm tìm kiếm và chọn lọc từ trang web https://www.kaggle.com/datasets Sau đó, tiến hành xử lý dữ liệu gồm các bước tại phần mềm Orange:
• Bước 1: Nạp dữ liệu Tour and Travels Customer Prediction : mở file chọn Tour and Travels Customer prediction.
• Bước 2: Quan sát dữliệu trên bảng, ta thấy ở biến Frequentflyer có 60 biến “No Record” - dữ liệu bị thiếu Do đó chúng em giải quyết bằng cách dùng giá trị thay thế bởi trị số phổ biến nhất là “No”.
Do nhóm nhận thấy biến “Target’’ của dữ liệu gốc ban đầu có hai giá trị là 0 và 1 được hiểu lần lượt là “No’’ và “Yes’’ Thêm vào đó có một số biến cũng mang hai giá trị
“Yes” và “No’’ Vì vậy nhóm quyết định đổi các giá trị “No” và “Yes’’ lần lượt thành 0 và 1.
• Bước 3: Nhóm quan sát dữ liệu 1 lần nữa, thấy không còn missing value và các biến trong bảng dữ liệu đều cần thiết cho việc nghiên cứu ( không có dữ liệu nhiễu).
• Bước 4: nhóm tiến hành lưu dữ liệu mới thànhfile “FILE ĐÃ TIỀN XỬ LÝ.xlsx”.
Khai thác dữ liệu
4.2.1 Bài toán phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong đó:
- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau
- Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau
4.2.1.2.1 Phân cụm bằng Hierarchical Clustering
Bước 1: Chọn dữ liệu “file đã tiền xử lý.xlxs” và chọn cột “Target” làm Target
Bước 2: Chúng ta đo độ phân cụm bằng Distances nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ quá trình phân cụm
Hình 3 Mô hình phân cụm bằng Hierarchical Clustering
- Hierarchical Clustering: chia dữ liệu thành nhiều cụm khác nhau tùy theo sự điều chỉnh ở mục Selection (chia bằng cách kéo đường gạch đứt nếu chọn Height ratio hoặc tăng giảm giá trị của N để lấy số cụm nếu chọn Top N)
- Silhouette Plot: Để có những đánh giá phân cụm thích hợp, đổ dữ liệu sang công cụ
Silhouette Plot, công cụ này giúp đánh giá được độ chính xác của cụm dữ liệu được chia Khi chỉ số Silhouette càng tiến dần về 1 thì độ chính xác của cụm dữ liệu đã chia càng cao Chính vì vậy sau khi thực hiện đồng thời 2 bước phân chia dữ liệu và đánh giá, ta có:
Hình 4 Giao diện Hierarchical Clustering với số số cụm bằng 2
Hình 5 Giao diện Silhouette Plot với số cụm bằng 2
Hình 6 Giao diện Hierarchical Clustering với số cụm bằng 3
Hình 7 Giao diện Silhouette Plot với số cụm bằng 3
Hình 8 Giao diện Hierarchical Clustering với số cụm bằng 4
Hình 9 Giao diện Silhouette Plots với số cụm bằng 4
Ta có bằng kết luận sau:
N Cluster Single Average Weighted Complete Ward
Bảng 2 Bảng tổng hợp kết quả chỉ số Silhouette
Bước 3: Từ đây, ta chọn N=2 vì cho chỉ số Silhouette của các cụm là tốt nhất (tiến về phía 1 hơn) Vì vậy, phân thành 2 cụm là tốt nhất
Bước 1: Dùng phương pháp K-Means để phân cụm dữ liệu: Chạy K-Means từ 2 đến
7 cụm, chọn phân thành 6 với điểm Silhouette cao nhất là 0.280
Bước 2: Khi tăng số cụm từ 2 tới 7 thì các chỉ số Silhouette Scores luôn tăng đến 6 và giảm xuống ở 7 nên ta chọn k=6 có chỉ số Silhouette Scores bằng 0.280
Bước 3: Chọn Silhouette Plot để đánh giá độ chính xác của cụm dữ liệu được chia
Hình 11 Kết quả Silhouette Plot
Hình 12 Mô hình phân cụm bằng K-Means
4.2.1.3.1 Đánh giá các phương pháp phân cụm
Dựa vào chỉ số Silhouette Plot:
Bảng 3: Thông số Silhouette plot ở hai phương pháp
- Qua 2 phương pháp Hierarchical Clustering và K-Means, ta có thể thấy phân thành 2 cụm là phương pháp tối ưu
- Nên chọn phương pháp Hierarchical Clustering vì có chỉ số Silhouette tiến về 1 hơn
4.2.1.4 So sánh đặc điểm từng cụm dữ liệu
Hình 13 Mô hình so sánh giữa 2 cụm a Age
Biểu đồ 1 So sánh đặc điểm từng nhóm tuổi đối với dịch vụ công ty
Bảng 4: Đặc điểm nhóm tuổi cụm 1 với dịch vụ công ty
Bảng 5: Đặc điểm nhóm tuổi cụm 2 với dịch vụ công ty
Nhận xét: Thống kê độ tuổi cho thấy độ tuổi của khách hàng ở hai cụm có sự khác nhau rõ rệt
- Cụm 1, khách hàng có độ tuổi từ 27-31 tuổi Trong đó chiếm tỉ trọng lớn nhất là 30 tuổi (chiếm 45.54%) và chiếm tỉ trọng thấp nhất là 27 tuổi (chiếm 11.44%)
- Cụm 2, khách hàng có độ tuổi từ 33-38 tuổi Trong đó chiếm tỉ trọng lớn nhất là 37 tuổi (chiếm 30.58%) và chiếm tỉ trọng thấp nhất là 33 tuổi (chiếm 7.04%) b FrequentFlyer
Biểu đồ 2 So sánh số lần bay của khách hàng
Bảng 6: So sánh số lần bay của khách hàng ở 2 cụm
Theo như thống kê về “mức độ thường xuyên bay” ở cả 2 cụm Có thể thấy khách hàng lựa chọn “không thường xuyên bay” là đa số và cao gấp đôi so với sự lựa chọn còn lại Cụ thể ở cụm 1 là 356 khách hàng (chiếm 65.68%) và cụm 2 là 253 khách hàng chiếm (61.41%) c Annual Income Class
Biểu đồ 3 So sánh mức thu nhập của khách hàng
High Income Low Income Middle Income
Bảng 7: So sánh mức thu nhập của khách hàng ở 2 cụm
Kết quả thống kê về mức thu nhập của khách hàng ở cả hai cụm đều cho thấy khách hàng có mức thu nhập trung bình (lần lượt chiếm 41.88% và 44.17%) và mức thu nhập thấp (lần lượt chiếm 40.41% và 40.54%) chiếm đa số và chênh lệch không đáng kể Trong khi đó, khách hàng có mức thu nhập cao chiếm tỉ trọng thấp hơn (lần lượt chiếm 17.71% và 15.29%) d ServicesOpted
Biểu đồ 4 So sánh số lần 1 đối tượng khách hàng lựa chọn dịch vụ công ty du lịch
(7.28%) Bảng 8: So sánh số lần 1 đối tượng khách hàng lựa chọn dịch vụ công ty du lịch ở 2 cụm
- Theo số liệu trên, phần lớn số lần khách hàng lựa chọn dịch vụ công ty này giao động từ 1-6 (lần) Ta có thể thấy tỉ lệ khách hàng chỉ chọn dịch vụ công ty này chỉ duy nhất 1 lần khá cao, tại cụm 1 có 231 khách hàng (42.62%) và cụm 2 có 173 khách hàng (41.99%)
- Nhu cầu khách hàng quay trở lại sử dụng dịch vụ ngày càng giảm Những số liệu thống kê trên cho thấy rằng, dịch vụ công ty chưa thỏa mãn nhu cầu khách hàng, đáp ứng tốt nguyện vọng của họ trên thị trường e AccountSyncedToSocialMedia
Biểu đồ 5 So sánh tỷ lệ khách hàng lựa chọn đồng bộ tài khoản của họ với nền tảng mạng xã hội của công ty
Bảng 9: So sánh tỷ lệ khách hàng lựa chọn đồng bộ tài khoản của họ với nền tảng mạng xã hội của công ty ở 2 cụm
- Theo số liệu đã được thống kê, tỷ lệ khách hàng không lựa chọn đồng bộ tài khoản của họ với nền tảng mạng xã hội của công ty chiếm tỷ lệ khá ổn định Ở cụm 1 có 337 khách hàng (62.18%), cụm 2 có 257 khách hàng (62.38%)
- Trong khi đó, số lượng khách hàng đồng ý đồng bộ tài khoản của họ với nền tảng mạng xã hội của công ty có phần ít hơn Ở cụm 1 có 205 khách hàng (37.82%), cụm 2 có
- Số liệu trên cho thấy, tỷ lệ khách hàng tin tưởng và lựa chọn sử dụng các nền tảng truyền thông của công ty này còn tương đối ít Chứng tỏ họ chưa thực sự có sức hút và tạo ra niềm tin khách hàng bền vững f BookHotelOrNot
Biểu đồ 6 So sánh số lượng khách hàng có đặt chỗ ở/khách sạn bằng dịch vụ của công ty hay không giữa 2 cụm
Bảng 10: So sánh số lượng khách hàng có đặt chỗ ở/khách sạn bằng dịch vụ của công ty hay không giữa 2 cụm
- Cụm 1 và cụm 2 giống nhau ở đa số khách hàng lựa chọn không đặt chỗ ở/khách sạn bằng dịch vụ của công ty Ở cụm 1, có 332 khách hàng (61.25%) và cụm 2 có 244 khách hàng (59.22%) chọn không đặt chỗ ở/khách sạn bằng dịch vụ của công ty Ngoài ra vẫn có
210 khách hàng (38.75%) ở cụm 1 và 168 khách hàng (40.78%) ở cụm 2 lựa chọn đặt chỗ ở/khách sạn bằng dịch vụ của công ty
- Có thể khách hàng vẫn chưa đủ tin tưởng hoặc các chương trình, ưu đãi đặt chỗ ở/khách sạn bằng dịch vụ của công ty chưa thỏa mãn được mong muốn của khách hàng g Target
Biểu đồ 7 so sánh tỷ lệ rời bỏ/ không rời bỏ của khách hàng với dịch vụ công ty
Bảng 11: so sánh tỷ lệ rời bỏ/ không rời bỏ của khách hàng với dịch vụ công ty ở 2 cụm
- Nhìn chung khách hàng lựa chọn không rời bỏ đều chiếm đa số ở 2 cụm, cụ thể lần lượt là 405 khách hàng (chiếm 74.72% ở cụm 1) và 325 khách hàng (chiếm 78.88% ở cụm 2) Phần còn lại là những khách hàng lựa chọn rời bỏ công ty, cụ thể là 137 khách hàng ở cụm 1 (25.28%) và 87 khách hàng ở cụm 2 (21.12%)
- Những con số này sẽ không cố định và sẽ còn dịch chuyển và thay đổi trong tương lai Do đó công ty du lịch cần có những biện pháp để giữ chân lượng khách hàng hiện tại và thu hút thêm khách hàng mới để có thể tăng doanh thu cho doanh nghiệp
4.2.1.4 Nhận xét phân cụm và định hướng phát triển cho doanh nghiệp
Age: Độ tuổi khách hàng dao động từ 27-
31 tuổi và nhiều nhất là 30 tuổi Điều này cho thấy rằng đây là những đối tượng khách hàng còn khá trẻ có thể chưa có gia đình là nhiều
FrequentFlyer: Khách hàng không bay thường xuyên chiếm đa số nhiều hơn khách hàng bay thường xuyên Do đó về hành vi du lịch của khách hàng: họ muốn trải nghiệm và khám phá nhiều hơn và họ muốn tiết kiệm chi phí để trải nghiệm những dịch vụ khác
AnnualIncomeClass: Khách hàng có mức thu nhập trung bình - thấp là chủ yếu
ServicesOpted: Khách hàng phần lớn chỉ sử dụng dịch vụ 1-2 lần, không gắn bó trung thành với công ty
AccountSyncedToSocialMedia: Khách hàng có xu hướng không đồng bộ tài khoản với các nền tảng mạng xã hội
Age: Độ tuổi khách hàng dao động từ 33-
38 tuổi và nhiều nhất là 37 tuổi Điều này cho thấy rằng đây có thể là những đối tượng khách hàng đã có gia đình và công việc ổn định
ĐÁNH GIÁ KẾT QUẢ VÀ NHÌN NHẬN BÀI LÀM
Tóm tắt
Từ dữ liệu Tour and Travels Customer Churn Prediction, nhóm đã đưa ra được những yếu tố ảnh hưởng đến sự sụt giảm số lượng khách hàng sử dụng dịch vụ của công ty du lịch và dự báo được những yếu tố này có ảnh hưởng thế nào đến biến phụ thuộc Target (Churn) Thông qua việc lấy mẫu dữ liệu từ trang web https://www.kaggle.com/, thực hiện xử lý dữ liệu, huấn luyện dữ liệu và phân lớp dữ liệu trên phần mềm Orange Sau đó, chọn ra được mô hình Tree là mô hình phù hợp nhất và đưa ra được kết quả dự báo lưu dưới dạng ketquaphanlop.xlsx Từ phân cụm dữ liệu, nhóm đã phân ra được 2 nhóm khách hàng có đặc điểm riêng biệt và đã kiến nghị những phương hướng phát triển trong tương lai.
Đánh giá
Nhóm đã hoàn thành được mục tiêu đề ra là dự báo những yếu tố ảnh hưởng đến sự sụt giảm khách hàng từ đó công ty có thể dựa vào đó đưa ra những giải pháp phù hợp Các lý thuyết ở chương phân lớp và phân cụm được nhóm vận dụng vào để xây dựng mô hình, phân tích độ khả năng rời bỏ của khách hàng, đưa ra dự báo có độ chính xác cao và chia cụm dữ liệu với số cụm hợp lý nhất
Tuy đã cố gắng hết sức để hoàn thành dự án, nhóm vẫn không thể tránh khỏi những sai sót trong việc xử lý, phân tích và khai thác dữ liệu Nhóm đã tự đánh giá và nhận ra những thiếu sót đó như là: tiền xử lý dữ liệu chưa tối ưu do có một số dữ liệu chưa rõ ràng, nguồn dữ liệu có thể sẽ chứa những khách hàng chọn bừa cho có dẫn đến độ tin cậy chưa cao ảnh hưởng đến việc xử lý số liệu, nguồn của dữ liệu chưa rõ ràng,
Đề xuất giải quyết những bất cập trong số liệu
Việc tìm hiểu sâu hơn về nguyên nhân, các yếu tố tác động hoặc liên quan đến vấn đề về thu thập dữ liệu là rất cần thiết Các nghiên cứu tiếp theo có thể đi theo các hướng: Khám phá thêm các nhân tố khác có tác động đến ý định rời bỏ của khách hàng và đưa vào mô hình nghiên cứu để kiểm tra mức độ tác động của từng nhân tố Các nhân tố khác có thể là Nguyên nhân chủ quan, khách quan, điểm số đánh giá công ty du lịch trên hệ thống điện tử,
Tiếp tục mở rộng quy mô, khảo sát trên số lượng khách hàng lớn hơn, và phải luôn cập nhật kết quả khảo sát theo từng năm Bởi vì xu hướng sử dụng của khách hàng luôn bị tác động và thay đổi dưới nhiều yếu tố khác nhau.