Các phương pháp khai phá dữ liệu Có nhiều kỹ thuật khai phá dữ liệu khác nhau bao gồm [17]: - Phân tích thống kê: là một phương pháp trong khai phá dữ liệu để sử dụng các phương pháp thố
GIỚI THIỆU CHUNG
T ỔNG QUAN VỀ CÁC DỊCH VỤ VÀ VNPT B ÌNH D ƯƠNG
VNPT Bình Dương là một đơn vị trực thuộc Tập đoàn Bưu Chính Viễn thông Việt Nam (VNPT) và chuyên về cung cấp dịch vụ Viễn thông – Công nghệ thông tin tại tỉnh Bình Dương [1] Công ty cung cấp các dịch vụ Internet, truyền hình trực tuyến, điện thoại di động, các dịch vụ viễn thông khác và dịch vụ công nghệ thông tin Phương thức hoạt động của VNPT Bình Dương bao gồm các bước sau:
Xây dựng và quản lý hệ thống mạng: Công ty sẽ xây dựng và quản lý hệ thống mạng cung cấp dịch vụ viễn thông trong tỉnh Bình Dương
Cung cấp dịch vụ: Công ty sẽ cung cấp các dịch vụ viễn thông, bao gồm Internet, truyền hình trực tuyến, điện thoại di động và các dịch vụ viễn thông khác cho khách hàng trong tỉnh Bình Dương
Quản lý và bảo trì hệ thống: Công ty sẽ quản lý và bảo trì hệ thống mạng và các thiết bị để đảm bảo dịch vụ được cung cấp một cách ổn định và chất lượng cao
Tư vấn và hỗ trợ khách hàng: Công ty sẽ cung cấp tư vấn và hỗ trợ cho khách hàng trong việc sử dụng các dịch vụ của công ty
Tích cực đầu tư và phát triển: Công ty sẽ tích cực đầu tư và phát triển mạng lưới và các dịch vụ của mình để đáp ứng nhu cầu và mong đợi của khách hàng Công ty sẽ tiên phong và cập nhật các công nghệ mới để cung cấp dịch vụ chất lượng tốt hơn
Quản lý chi phí: Công ty sẽ quản lý chi phí hợp lý để đảm bảo sự hợp lý giữa giá cả và chất lượng dịch vụ
Tạo ra các chương trình ưu đãi và khuyến mại để giữ khách hàng hiện hữu và thu hút khách hàng mới
Tất cả các hoạt động của Công ty được thực hiện theo quy định của pháp luật và các chính sách của tổ chức.
C ÁC DỊCH VỤ CỦA VNPT B ÌNH D ƯƠNG
VNPT Bình Dương cung cấp một loạt các dịch vụ viễn thông cho khách hàng trong tỉnh Bình Dương [1], bao gồm:
Dịch vụ Internet: Công ty cung cấp các gói dịch vụ Internet có tốc độ cao với nhiều tùy chọn về thông lượng và thời gian sử dụng
Dịch vụ Truyền hình trực tuyến: Công ty cung cấp dịch vụ truyền hình trực tuyến với nhiều kênh và chương trình truyền hình đa dạng
Dịch vụ Điện thoại di động: Công ty cung cấp dịch vụ điện thoại di động với nhiều tùy chọn về gói cước và dịch vụ đi kèm, như gửi tin nhắn, gọi điện, sử dụng internet di động, gói cước trả sau và trả trước
Dịch vụ điện thoại cố định: Công ty cung cấp dịch vụ điện thoại thông qua đường dây hữu tuyến kéo tới trực tiếp địa điểm của doanh nghiệp cho phép thực hiện các cuộc gọi nội hạt, liên tỉnh, quốc tế tới các thuê bao điện thoại cố định và di động
Dịch vụ Cloud: Công ty cung cấp dịch vụ cloud cho khách hàng, cho phép khách hàng lưu trữ và chia sẻ dữ liệu, ứng dụng, hệ thống từ xa và quản lý dữ liệu an toàn
Dịch vụ Internet of Thing: Công ty cấp dịch vụ Internet of Thing cho khách hàng, cho phép khách hàng sử dụng các thiết bị điện tử và công nghệ kết nối mạng để giám sát, quản lý và điều khiển các tác vụ từ xa Dịch vụ này có thể được sử dụng trong nhiều lĩnh vực khác nhau, như giám sát và quản lý tài nguyên, giám sát an toàn và bảo mật, quản lý và điều khiển hệ thống giải trí, …
Dịch vụ cho doanh nghiệp: Công ty cung cấp các dịch vụ cho doanh nghiệp, bao gồm các dịch vụ mạng riêng, hạ tầng mạng, bảo mật và quản lý dữ liệu, để giúp các doanh nghiệp tăng năng suất và giảm chi phí
Dịch vụ cho cá nhân: Công ty cũng cung cấp các dịch vụ cho cá nhân, như đăng ký và sử dụng dịch vụ Internet, Truyền hình trực tuyến, Điện thoại di động, cho phép người dùng cập nhật thông tin cước, thanh toán, quản lý thông tin cá nhân
Dịch vụ chăm sóc khách hàng: Công ty có hệ thống chăm sóc khách hàng để hỗ trợ khách hàng trong việc sử dụng dịch vụ của công ty và giải quyết các vấn đề liên quan đến dịch vụ
Dịch vụ giải trí và truyền thông: Công ty có thể cung cấp dịch vụ giải trí và truyền thông, bao gồm những nội dung video, âm nhạc, game, kỹ thuật số và các dịch vụ truyền thông khác
Dịch vụ an toàn và bảo mật: Công ty cung cấp các dịch vụ bảo mật và an toàn cho khách hàng của mình để bảo vệ thông tin cá nhân và doanh nghiệp của họ
Dịch vụ kỹ thuật: Công ty có thể cung cấp các dịch vụ kỹ thuật cho khách hàng, bao gồm hỗ trợ kỹ thuật, cài đặt, bảo trì và bảo dưỡng hệ thống
Mọi dịch vụ và hoạt động của VNPT Bình Dương được thực hiện theo quy định của pháp luật và các chính sách của tổ chức Tùy thuộc vào từng thời điểm Công ty có thể có thêm hoặc thay đổi các dịch vụ cụ thể.
T ỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
Dữ liệu khổng lồ đã được thu thập từ khắp mọi nơi và mọi lúc, chứa thông tin về mọi khía cạnh và mọi sự kiện trong cuộc sống [16] Điều này được gọi là "lũ lụt dữ liệu" và được gây ra bởi sự phát triển của các thiết bị thu thập dữ liệu, như điện thoại thông minh, máy tính và các thiết bị đo lường Các nguồn dữ liệu phát sinh hằng ngày bao gồm:
Dữ liệu từ các mạng xã hội: Bài đăng, bình luận, thích và chia sẻ trên các mạng xã hội cung cấp rất nhiều dữ liệu về các sản phẩm và dịch vụ
Dữ liệu từ các thiết bị định vị: Dữ liệu về vị trí của các thiết bị định vị cung cấp thông tin về các đường đi, địa điểm và thời gian
Dữ liệu từ các thiết bị IoT: Dữ liệu từ các thiết bị IoT như cảm biến và thiết bị đo lường cung cấp thông tin về môi trường và trạng thái của các thiết bị
Trong nghiên cứu này, chúng tôi tập trung vào việc đánh giá và phân tích các yếu tố ảnh hưởng đến trải nghiệm dịch vụ của khách hàng nhằm nâng cao chất lượng dịch vụ tại VNPT Bình Dương Chúng tôi sử dụng dữ liệu về chất lượng đường truyền và thuê bao phát sinh cước của các dịch vụ như FTTH, Mega, MyTV, tỷ lệ sự cố trên tổng thuê bao quản lý, thời gian sửa chữa trung bình, xử lý khiếu nại, điểm tín nhiệm và độ hài lòng của khách hàng trên địa bàn tỉnh Bình Dương
Dữ liệu của chúng tôi bao gồm 08 bảng chính với tổng cộng 51.420 dòng, và mô tả các yếu tố ảnh hưởng đến trải nghiệm dịch vụ của khách hàng thông qua 14 thuộc tính Trong quá trình nghiên cứu, chúng tôi đã tìm hiểu các yếu tố có khả năng tác động và chọn lọc những yếu tố này để bổ sung vào dữ liệu phân tích, nhằm cải thiện chất lượng dịch vụ tại VNPT Bình Dương
Mục tiêu của chúng tôi là đảm bảo chất lượng dịch vụ tốt nhất cho khách hàng Bằng cách sử dụng các thuật toán khai phá dữ liệu như Linear Regression, K- nearest neighbors, Decision trees và Random Forest, chúng tôi hy vọng có thể phân tích và đánh giá các yếu tố ảnh hưởng đến trải nghiệm của khách hàng Kết quả từ nghiên cứu này sẽ giúp chúng tôi đề xuất các biện pháp cải thiện và khắc phục các vấn đề tồn đọng, từ đó nâng cao sự hài lòng và trải nghiệm của khách hàng khi sử dụng dịch vụ tại VNPT Bình Dương
Khai phá dữ liệu còn được gọi là Data Mining hoặc Knowledge Discovery in Databases (KDD) Nó có thể giúp tìm ra các quan sát và mẫu quan trọng trong dữ liệu, giúp người dùng hiểu rõ hơn về dữ liệu và tìm ra các cơ hội kinh doanh hoặc khoa học [7]
Khai phá dữ liệu là quá trình sử dụng các phương pháp và công cụ để tìm kiếm, phân tích và hiểu rõ thông tin từ các tập dữ liệu lớn Nó bao gồm cả việc sắp xếp và trực quan hóa dữ liệu để tìm ra các mẫu và quan sát
Khai phá dữ liệu được sử dụng trong nhiều lĩnh vực khác nhau, bao gồm kinh doanh, y tế, khoa học dữ liệu và trí tuệ nhân tạo Nó có thể giúp các công ty tìm ra các xu hướng và cơ hội kinh doanh, hoặc giúp các nhà khoa học tìm ra các quan sát khoa học quan trọng
1.3.2 Quy trình khai phá dữ liệu
Khai phá dữ liệu là một quá trình phức tạp, cần cả kỹ năng lập trình và thống kê để thực hiện Quy trình này bao gồm các bước:
Bước 1: Tiền xử lý dữ liệu: loại bỏ các giá trị sai, chuẩn hóa dữ liệu và chuyển đổi dữ liệu thành dạng có thể phân tích
Bước 2: Phân tích dữ liệu: sử dụng các phương pháp thống kê và học máy để tìm ra các mẫu và quan sát trong dữ liệu
Bước 3: Trực quan hóa dữ liệu: sử dụng các công cụ trực quan hóa để hiển thị dữ liệu và giúp người dùng hiểu rõ hơn
Bước 4: Kết luận và áp dụng: sử dụng kết quả tìm được để ra quyết định hoặc áp dụng trong các lĩnh vực khác nhau
Khai phá dữ liệu cũng đang trở nên quan trọng hơn bao giờ hết với sự phát triển của công nghệ và sự tăng trưởng của dữ liệu Nó đang được sử dụng rộng rãi trong các lĩnh vực như marketing, tài chính, y tế và trí tuệ nhân tạo Khai phá dữ liệu còn có thể giúp các công ty và tổ chức cải thiện quy trình và tăng hiệu suất của họ, giúp họ tìm ra các cơ hội kinh doanh mới và tiết kiệm chi phí
Với sự phát triển của công nghệ, khai phá dữ liệu đang trở nên dễ dàng hơn bao giờ hết với sự xuất hiện của các công cụ và dịch vụ khai phá dữ liệu được cung cấp bởi các công ty công nghệ Điều này cũng giúp cho các doanh nghiệp và tổ chức
6 nhỏ hơn có thể sử dụng các công cụ và kỹ thuật khai phá dữ liệu mà không cần sự giải quyết kỹ thuật cao
1.3.3 Các phương pháp khai phá dữ liệu
Có nhiều kỹ thuật khai phá dữ liệu khác nhau bao gồm [17]:
- Phân tích thống kê: là một phương pháp trong khai phá dữ liệu để sử dụng các phương pháp thống kê để phân tích dữ liệu và tìm ra các quan sát thú vị hoặc ý nghĩa Các thuật toán thường sử dụng trong phân tích thống kê bao gồm:
+ ANOVA (Analysis of variance) được sử dụng để kiểm tra sự khác biệt trung bình giữa hai hoặc nhiều nhóm dữ liệu
+ Chi-square test được sử dụng để kiểm tra sự khác biệt giữa một phân bố thống kê và một phân bố thống kê mong đợi
+ T-test sử dụng để kiểm tra sự khác biệt trung bình giữa hai nhóm dữ liệu + Regression được sử dụng để tìm ra quan hệ giữa các biến và dự đoán giá trị của biến mục tiêu
Ngoài ra còn có rất nhiều thuật toán thống kê khác như Correlation, Hypothesis testing, … Mỗi thuật toán có thể sử dụng cho một mục đích và trong một tình huống khác nhau Cần phải chọn thuật toán phù hợp và làm rõ các giả định cho dữ liệu và mục đích khai phá dữ liệu để đạt được kết quả chính xác và hữu ích
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
C ÁC PHƯƠNG PHÁP DỰ BÁO [14][15]
Phương pháp dự báo là một trong các phương pháp mang đến hiệu quả hoạt động doanh nghiệp Bên cạnh các chiến lược được xây dựng và thực hiện Việc xây dựng và tổ chức dự báo thực hiện trên cơ sở của hiện tại Mang đến các dự báo về tương lai Điều này có thể tạo cơ sở hiệu quả trong xây dựng chiến lược hay lộ trình hoạt động doanh nghiệp hiệu quả Việc phân loại mang đến những cách thức tổ chức phương pháp dự báo khác nhau Đảm bảo cho những nhu cầu với từng nội dung công việc hay thời đoạn dự báo
Thời đoạn phản ánh trong nhu cầu và khả năng dự báo Khi đó các cơ sở phản ánh cho dự báo chính xác hay hiệu quả nhất định Nó gắn với mức độ thời gian để mang đến mục đích tiếp cận cũng như khả năng xây dựng kế hoạch khác nhau
– Dự báo ngắn hạn: Thời đoạn dự báo thường không quá 3 tháng, ít khi đến 1 năm Với khoảng thời gian này, hoạt động doanh nghiệp không quá thay đổi trong cách thức tổ chức thực hiện chiến lược Nhu cầu trong hoạt động hay điều hành nội bộ được phản ánh hiệu quả hơn Do đó, hướng đến các nhu cầu trong tổ chức hay điều phối lại hoạt động của các bộ phận Loại dự báo này cần cho việc mua sắm, điều độ công việc, phân giao nhiệm vụ Cân đối các mặt trong quản trị tác nghiệp Với các khoảng thời gian ngắn, thường gắn với quý hoạt động
– Dự báo trung hạn: Thời đoạn dự báo thường từ 3 tháng đến 3 năm Trong tính chất của lộ trình hoạt động với tính chất tương đối Khoảng thời gian này gắn với các đảm bảo cho ổn định và hướng đến phát triển doanh nghiệp Do đó cần thiết cho việc lập kế hoạch bán hàng Khi những nhu cầu trong tiếp cận, giữ chân hay ổn định nguồn cầu được phản ánh Kế hoạch sản xuất, dự trù tài chính tiền mặt Ứng với
14 những nhu cầu phản ánh trong hướng phát triển sản xuất hay kinh doanh tiềm năng
Và làm căn cứ cho các loại kế hoạch khác
– Dự báo dài hạn: Thời đoạn dự báo từ 3 năm trở lên Khi những dự định trong đổi mới bộ mặt của doanh nghiệp là cần thiết Với các khoảng thời gian càng dài, những tham vọng xây dựng càng lớn Và do đó mà các chiến lược được xây dựng với thời gian dài Loại dự báo này cần cho việc lập các dự án sản xuất sản phẩm mới Từ những thúc đẩy cho sản phẩm mới được ra mắt đến những vai trò nắm giữ và chiếm lĩnh thị trường Các mục tiêu với tính chất điều chỉnh và tác động lâu dài được định hướng Các định điểm cho các cơ sở mới, lựa chọn các dây chuyền công nghệ, thiết bị mới Thay đổi và mang đến hướng tiếp cận mới cho các nhu cầu trong doanh nghiệp Vừa phản ánh và phát huy những thành tựu đạt được trong khoảng thời gian đó Mở rộng doanh nghiệp hiện có hoặc thành lập doanh nghiệp mới Bằng các mục tiêu dự đoán lâu dài, có cơ sở cho việc thực hiện trên xây dựng chiến lược
Ngoài ra, Căn cứ vào nội dung công việc cần dự báo cũng được chia thành ba loại:
– Dự báo kinh tế: Với các nhu cầu đảm bảo trong hoạt động ổn định và phát triển kinh tế Các chủ thể thực hiện với tính chất phản ánh kinh tế trong xu hướng chung Thường được thực hiện vì mục đích của các cơ quan nghiên cứu, cơ quan dịch vụ thông tin, các bộ phận tư vấn kinh tế nhà nước Mang đến những phản ánh cũng như căn cứ xây dựng dự báo thích hợp Tính chất của dự báo này ảnh hưởng trực tiếp cho nhu cầu trong nền kinh tế Những chỉ tiêu này có giá trị lớn trong việc hỗ trợ, tạo tiền đề cho công tác dự báo trung hạn, dài hạn của các doanh nghiệp Tác động trực tiếp lên tính chất tác động và hiệu quả kinh tế Cũng là những lợi ích cuối cùng doanh nghiệp tìm kiếm Dự báo xây dựng với những dữ liệu phản ánh trong khả năng hiện tại bên cạnh những lợi ích hay xu hướng kinh tế Từ đó mà các chiến lược được xây dựng phù hợp, khả thi và hiệu quả hơn
– Dự báo kỹ thuật công nghệ: Là nhu cầu trong phát triển mới một cách bền vững Khi vai trò phát triển khoa học, công nghệ mang đến ứng dụng tốt hơn cho tương lai là càng cần thiết Dự báo này đề cập đến mức độ phát triển khoa học kỹ thuật công nghệ trong tương lai Bên cạnh những phản ánh trong năng lực, trình độ hay cơ hội tương lai Từ đó đảm bảo để các hiện thực có ý nghĩa cũng như hiệu quả tương lai có thể dự báo trước Loại này rất quan trọng đối với các ngành có hàm lượng kỹ thuật cao Khi nhu cầu cần thiết và lợi ích phản ánh rõ rệt đến phát triển chung của cộng đồng Như năng lượng nguyên tử, tàu vũ trụ, dầu lửa, máy tính, nghiên cứu không gian, điện tử, … Dự báo kỹ thuật, công nghệ thường do các chuyên gia trong các lĩnh vực đặc biệt thực hiện Dự báo được thực hiện mang đến tầm nhìn chiến lược, các khả năng và thành tựu có thể đạt được Cũng như chuyển hóa thành hành động đưa đến hiệu quả trên thực tế
– Dự báo nhu cầu sản phẩm: Thực chất là những dự kiến, tiên đoán về doanh số bán ra của doanh nghiệp Dựa trên các căn cứ phân tích và đánh giá tiềm năng có thể cho các giai đoạn khác nhau trong tương lai Dự báo được quan tâm và thực hiện trong hoạt động của các nhà quản trị sản xuất Bởi nó gắn với những lợi ích trực tiếp cho các giai đoạn tương lai Dự báo sẽ được xây dựng trên thúc đẩy các khả năng thực tế Bằng các quyết định trong quy mô sản xuất, hoạt động của công ty Và là cơ sở để dự kiến về tài chính, tiếp thị, nhân sự Tất cả những hoạt động cần thiết thực hiện để phản ánh tốt nhất kết quả của dự báo
Căn cứ vào phương pháp dự báo có thể chia dự báo thành 3 loại chính:
- Phương pháp dự báo chuyên gia là một trong những phương pháp dự báo khác biệt so với các phương pháp dự báo máy học, vì nó dựa trên kinh nghiệm và tình hình của một chuyên gia trong một lĩnh vực cụ thể Trong phương pháp này, chuyên gia sẽ sử dụng các kỹ năng phân tích, sử dụng các bản vẽ và các biểu đồ, và sử dụng các kiến thức của họ về mô hình và quy luật cụ thể để dự báo tình hình và xu hướng trong tương lai Phương pháp này thường được sử dụng trong các lĩnh vực như kinh tế, chính trị, quản lý, quản trị doanh nghiệp, và các lĩnh vực liên quan đến con người và xã hội Vì kinh nghiệm và kiến thức của chuyên gia là chìa khóa quan trọng trong
16 việc dự báo, nên các dự báo của chuyên gia thường được coi là rất tin cậy và có giá trị Tuy nhiên, phương pháp dự báo chuyên gia cũng có một số hạn chế, chẳng hạn như khó khăn trong việc tìm kiếm chuyên gia chuyên nghiệp và chính xác, và thiếu sự tự động hóa trong quá trình dự báo
- Phương pháp dự báo bằng phương trình hồi quy (Regression) là một trong những phương pháp dự báo phổ biến trong máy học Nó sử dụng mô hình hồi quy để dự báo giá trị của một biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Có hai loại hồi quy phổ biến là hồi quy tuyến tính (Linear Regression) và hồi quy phi tuyến (Nonlinear Regression) Trong hồi quy tuyến tính, chúng ta sử dụng một đường thẳng để dự báo giá trị của biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Trong hồi quy phi tuyến, chúng ta sử dụng một hàm phi tuyến để dự báo giá trị của biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Phương trình hồi quy đòi hỏi các giá trị của biến định lượng là liên tục và đòi hỏi có tồn tại mối quan hệ tuyến tính giữa các biến định lượng Nó cũng yêu cầu dữ liệu huấn luyện là không có giá trị bị thiếu và không có outliers Một khi các giá trị của biến định lượng đã được chuẩn bị, chúng ta có thể sử dụng phương pháp hồi quy để dự báo giá trị của biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Phương trình hồi quy có rất nhiều ưu điểm, nó rất dễ sử dụng và có thể áp dụng cho rất nhiều tình huống dự báo Nó cũng có thể sử dụng để tìm ra các mối quan hệ giữa các biến, tuy nhiên, nó có thể không hoạt động tốt khi dữ liệu không tuân thủ các điều kiện hồi quy hoặc khi có quá nhiều ngoại lệ
- Phương pháp dự báo định tính (Determinisitic forecasting) là một phương pháp dự báo mà sử dụng một mô hình cụ thể để dự báo giá trị của biến định lượng mà chúng ta quan tâm trong tương lai Nó sử dụng các quy luật cụ thể và các giá trị cụ thể của các biến để dự báo giá trị của biến định lượng Phương pháp dự báo định tính thường được sử dụng trong các lĩnh vực như kinh tế, chính trị, quản lý, quản trị doanh nghiệp, và các lĩnh vực liên quan đến con người và xã hội Phương pháp dự báo định tính có một số ưu điểm như dễ dàng sử dụng và áp dụng, dự báo chính xác
17 và có thể sử dụng để tìm ra các mối quan hệ giữa các biến Tuy nhiên, nó cũng có một số hạn chế như khó khăn trong việc tìm ra mô hình phù hợp và không thể áp dụng cho các tình huống không có quy luật cụ thể
- Phương pháp dự báo định lượng (Probabilistic forecasting) là một phương pháp dự báo mà sử dụng xác suất và thống kê để dự báo giá trị của biến định lượng mà chúng ta quan tâm trong tương lai Nó sử dụng các phân phối xác suất và các thống kê để dự báo giá trị của biến định lượng Phương pháp dự báo định lượng thường sử dụng cho các tình huống không có quy luật cụ thể hoặc có nhiều rủi ro và incertitude, ví dụ như dự báo thời tiết, giá cả, tình hình kinh tế, chứng khoán Phương pháp này cung cấp một dự báo mức độ chắc chắn của kết quả dự báo, chẳng hạn như xác suất cho mỗi giá trị cụ thể hoặc một phân phối xác suất cho kết quả dự báo Nó cũng hỗ trợ tính toán risk và incertitude Nhưng điểm hạn chế của phương pháp này là nó yêu cầu dữ liệu lớn và phải được xử lý để xác định phân phối xác suất hợp lý, nó cũng có thể khó khăn trong việc hiểu và giải thích.
C ÁC NGHIÊN CỨU LIÊN QUAN
Chen và cộng sự đã áp dụng phương pháp học máy, trong đó có tính đến các yếu tố kinh tế và công nghệ, để dự đoán tỷ giá của đồng tiền điện tử Bitcoin [2] Nghiên cứu này đã áp dụng phương pháp học máy hai giai đoạn Giai đoạn thứ nhất, nghiên cứu này đã áp dụng phương pháp học máy để xác định các thông tin kinh tế và thông tin công nghệ tác động đến tỷ giá Bitcoin Giai đoạn thứ hai, nghiên cứu này đã áp dụng phương pháp mạng thần kinh để sử dụng các yếu tố được xác định ở giai đoạn thứ nhất dự đoán tỷ giá Bitcoin Nhóm tác giả đã chỉ ra rằng, phương pháp học máy có khả năng dự đoán tốt hơn các phương pháp dự đoán truyền thống như phương pháp trung bình trượt tự hồi quy Đề tài “Ứng dụng học máy trong dự đoán lưu lượng giao thông” của nhóm Tác giả Giang Thị Thu Huyền và Lê Quý Tài, sử dụng các thuật toán về mô hình mạng nơron bộ nhớ dài-ngắn hạn (LSTM) và mạng nơ ron tích chập (CNN) để dự đoán lưu lượng giao thông [3] Tuy nhiên, các cảm biến đặt tại các nút giao thông với diện tích lớn và mật độ giao thông cao tại các giờ cao điểm đóng vai trò quan trọng, vì vậy đòi
18 hỏi cần có một độ đo co xem xét điến cả không gian và thời gian Nhưng đề tài chỉ mới dự đoán dựa theo thời gian
Lê Thị Ngọc Anh và cộng sự (2016) đã sử dụng “Kỹ thuật học máy phân lớp với dự báo bệnh dịch tả” [4] Trong đề tài đã sữ dụng các thuật toán phân lớp/phân cụm như cây quyết định, rừng ngẫu nhiên, mạng nơ ron, các phương pháp Bayes, các mô hình Markov, K hàng xóm gần nhất, hay máy vector hỗ trợ để dự báo bệnh dịch tả trong thực tế tại khu vực Hà Nội Tuy nhiên nhóm nghiên cứu chưa có độ chính xác cao và tiếp tục huấn luyện mô hình với dữ liệu ca bệnh trong thời gian dài hơn nữa và thử nghiệm thêm các yếu tố khác trong môi trường, điều kiện sống, dân trí và các yếu tố về địa lý
Bài báo nghiên cứu dự báo chất lượng nước dưới đất khu vực lân cận bãi rác Cẩm Hà, Tp Hội An, Quảng Nam bằng các mô hình học máy của Lê Phước Cừng và Ngô Viết Thắng (2022) [5] Nghiên cứu đã tiến hành phân tích bộ dữ liệu về chất lượng nước dưới đất trong mùa mưa và mùa khô Bộ dữ liệu với 268 dòng, gồm 8 biến đầu vào (Fe, As, Mo, Co, Ni, Al, Zn, Pb) và 1 biến đầu ra Các tác giả đã nghiên cứu xác định mô hình dự báo tối ưu dựa vào các giá trị sai số tuyệt đối trung bình (MAE), sai số toàn phương trung bình (RMSE) và R2 Ngôn ngữ R được dùng để tối ưu hoá các mô hình hồi quy tuyến tính (LR), rừng ngẫu nhiên (RF), máy hỗ trợ vectơ (SVM), K- điểm dữ liệu gần nhất (K-NN), mạng lập thể (Cubist) với tỉ lệ “Huấn luyện”: “Kiểm tra” từ 70:30 đến 85:15 Kết quả thu được cho thấy, mô hình Cubist ở tỷ lệ 70:30 là tối ưu nhất cho bộ dữ liệu tại khu vực lân cận bãi rác Cẩm Hà với độ tin cậy R2 lần lượt là 98,8% và 96% Đề tài “Sử dụng Data Mining để dự báo nhu cầu lao động cho một số ngành công nghiệp trên địa bàn tỉnh Bình Dương” năm 2019 của tác giả Nguyễn Kim Sơn [6] trình bày các phương pháp cơ bản về dự báo, khai thác dữ liệu, kỹ thuật khai thác dữ liệu và ứng dụng của khai thác dữ liệu trong thực tế Nghiên cứu các kỹ thuật, phương pháp hồi quy trên các thuật toán và ứng dụng vào thực tế bài toán dự báo nhu cầu lao động cho một số ngành nghề trên địa bàn tỉnh Bình Dương
Nhìn chung chưa có nghiên cứu nào về khai phá dữ liệu dựa trên dữ liệu về chất lượng đường truyền, thuê bao phát sinh cước của các dịch vụ: FTTH, Mega, MyTV, tỉ lệ sự cố trên tổng thuê bao quản lý, thời gian xử lý trung bình, xử lý khiếu nại, điểm tín nhiệm, độ hài lòng của khách hàng tại VNPT Bình Dương bằng học máy; Nhưng với những nghiên cứu trên chính là cơ sở để chúng tôi phát triển và phân tích bộ dữ liệu tại VNPT từ đó đưa ra các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng tại VNPT Bình Dương.
C ÁC MÔ HÌNH SỬ DỤNG TRONG ĐỀ TÀI
Linear Regression là một trong những mô hình hồi quy cơ bản trong Machine Learning Nó dự báo một giá trị liên tục (đầu ra) dựa trên một hoặc nhiều giá trị liên tục (đầu vào) Mô hình Linear Regression có thể được sử dụng để dự báo giá trị trung bình của một biến đầu ra dựa trên một hoặc nhiều biến đầu vào [8]
Mô hình Linear Regression dựa trên giả thuyết rằng có một quan hệ tuyến tính giữa đầu vào và đầu ra Nó tìm một đường thẳng hồi quy tuyến tính để tối ưu hóa sai khác biệt giữa dự báo và giá trị thực tế
Công thức của mô hình Linear Regression là một đường thẳng tuyến tính: y = b0 + b1x1 + b2x2 + + bnxn
Trong đó: y là giá trị dự báo (đầu ra) x1, x2, xn là các biến đầu vào (độc lập) b0, b1, b2, bn là các hệ số tuyến tính (tham số mô hình)
Hệ số tuyến tính b0, b1, b2, bn được tìm bằng cách tối ưu hóa sai số giữa giá trị dự báo và giá trị thực tế Có nhiều phương pháp tối ưu hóa như Gradient Descent, Least Squares, …
Linear Regression có thể dùng với một đầu vào hoặc nhiều đầu vào, tùy vào tình huống dự báo
Linear Regression có một số ưu điểm và khuyết điểm sau: Ưu điểm:
- Mô hình đơn giản và dễ hiểu, dễ dàng huấn luyện và dự báo
- Không yêu cầu dữ liệu có phân bố chuẩn
- Có thể sử dụng để dự báo khi có một số đầu vào liên tục
- Chỉ áp dụng cho quan hệ tuyến tính giữa đầu vào và đầu ra
- Không có khả năng xử lý dữ liệu phức tạp và đa chiều
- Không thể xử lý dữ liệu rỗng hoặc biến đổi của đầu vào
- Không thể xử lý dữ liệu phân loại và dữ liệu rỗng
2.1.2 k-Nearest Neighbors k-NN (k-Nearest Neighbors) là một mô hình học máy cực kỳ đơn giản, dựa trên ý tưởng rằng một điểm dữ liệu mới sẽ có nhãn giống với những điểm gần nó nhất [9] Nó thuộc loại học máy có giám sát (supervised learning), và thường được sử dụng để phân loại hoặc hồi quy Cách hoạt động của k-NN như sau:
- Tìm k điểm dữ liệu gần nhất với điểm dữ liệu mới dựa trên khoảng cách
- Sử dụng các nhãn của k điểm dữ liệu gần nhất để dự báo nhãn cho điểm dữ liệu mới
Trong k-NN, số k là một tham số quan trọng, nó có thể được thay đổi để tìm ra giá trị tốt nhất cho mô hình k càng lớn thì dự báo sẽ trở nên chính xác hơn, nhưng cũng sẽ tăng thời gian tính toán
Công thức của k-NN (k-Nearest Neighbors) không có một công thức chính thức như các mô hình học máy khác, vì nó chủ yếu dựa trên ý tưởng tìm kiếm các điểm dữ liệu gần nhất với điểm dữ liệu mới Quy trình hoạt động của k-NN như sau:
- Nhập vào tập dữ liệu huấn luyện và điểm dữ liệu mới cần dự báo
- Tính khoảng cách giữa điểm dữ liệu mới và tất cả các điểm trong tập dữ liệu huấn luyện
- Tìm k điểm dữ liệu gần nhất với điểm dữ liệu mới dựa trên khoảng cách
- Sử dụng các nhãn của k điểm dữ liệu gần nhất để dự báo nhãn cho điểm dữ liệu mới k-NN (k-Nearest Neighbors) là một mô hình học máy rất đơn giản và dễ triển khai, nó có một số ưu điểm và nhược điểm như sau: Ưu điểm:
- Đơn giản: k-NN không yêu cầu sự hiểu biết về các thuật toán phức tạp hoặc các thông số cấu hình
- Không yêu cầu huấn luyện trước: k-NN không cần huấn luyện trước để dự báo nhãn cho điểm dữ liệu mới
- Có thể sử dụng cho cả phân loại và hồi quy
- Có thể sử dụng với các đặc trưng không liên tục
- Tốn thời gian tính toán: k-NN tốn thời gian tính toán khi tìm kiếm các điểm gần nhất, điều này càng trở nên khó khăn khi số lượng điểm dữ liệu càng lớn
- Không tốt trong các bài toán có quá nhiều đặc trưng: k-NN không tốt trong các bài toán có quá nhiều đặc trưng, vì nó sẽ tốn thời gian tính toán và gây nhiễu cho kết quả dự báo
- Cần chọn k tốt: k là một tham số quan trọng trong k-NN, cần chọn k tốt để thuật toán được chính xác hơn
Mô hình cây quyết định (Decision Trees) là một phương pháp học máy có giám sát được sử dụng rộng rãi trong khai phá dữ liệu Nó sử dụng các quy tắc đơn giản để tạo ra một cây quyết định dự đoán giá trị mục tiêu dựa trên các đặc trưng đầu
22 vào [10] Mỗi nút trên cây quyết định đại diện cho một điều kiện đầu vào, và nhánh đại diện cho các giá trị của điều kiện đó Bạn có thể sử dụng mô hình cây quyết định để phân loại hoặc hồi quy dữ liệu
Các mô hình cây quyết định rất dễ hiểu và dễ sử dụng, nhưng cũng có một số hạn chế cần lưu ý Một trong những hạn chế chính là rằng các cây quyết định có thể dễ dàng quá chỉnh sát với tập dữ liệu huấn luyện, điều này có nghĩa là mô hình có thể không hoạt động tốt với tập dữ liệu mới Ngoài ra, các cây quyết định có thể không tốt với tập dữ liệu có nhiều đặc trưng hoặc nhiều nhãn Để giải quyết những vấn đề này, có nhiều phương pháp được sử dụng, bao gồm: chọn tập dữ liệu huấn luyện phù hợp, sử dụng các thuật toán khác nhau để tạo ra cây quyết đị Công thức của mô hình cây quyết định dựa trên việc tìm kiếm các điều kiện đầu vào tốt nhất để phân chia tập dữ liệu thành các nhóm có giá trị mục tiêu tương tự
Các thuật toán được sử dụng để tạo ra cây quyết định bao gồm ID3, C4.5, C5.0 và CART Mỗi thuật toán sử dụng một công thức khác nhau để tìm kiếm điều kiện tốt nhất, nhưng chung chung đều sử dụng các đặc trưng đầu vào và giá trị mục tiêu để tạo ra cây quyết định
Chi tiết công thức của từng thuật toán đều khá phức tạp và có thể đòi hỏi một số kiến thức về thuật toán và học máy Nếu bạn muốn tìm hiểu thêm, tôi khuyên bạn nên tìm hiểu về các thuật toán đó trong nguồn tài liệu về học máy, và sử dụng các phương pháp tổng quát hóa để tránh quá chỉnh sát
Mô hình cây quyết định có một số ưu điểm và khuyết điểm chính Ưu điểm:
- Dễ hiểu và dễ sử dụng: Cây quyết định có thể dễ dàng hiểu và giải thích bằng ngôn ngữ tự nhiên, do đó rất dễ dàng cho người dùng không có kiến thức chuyên sâu về học máy
- Khả năng chấp nhận đặc trưng liên tục và categorical: Mô hình cây quyết định có thể chấp nhận cả đặc trưng liên tục và categorical
MÔ HÌNH ĐỀ XUẤT PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG SỰ TRẢI NGHIỆM DỊCH VỤ CỦA KHÁCH HÀNG TẠI VNPT TỈNH BÌNH DƯƠNG
M Ô HÌNH ĐỀ XUẤT
Mô hình đề xuất cho việc phân tích các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng dựa trên dự báo thời gian sửa chữa dịch vụ tại VNPT Bình Dương, như sau:
Hình 3.1: Mô hình dự báo các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng tại VNPT Bình Dương
3 Trực quan hóa dữ liệu
1 Thu thập Dữ liệu về dịch vụ tại VNPT Bình
2 Tiền xử lý dữ liệu
- Thu thập dữ liệu về thông tin thuê bao, cước thuê bao từ tháng 6 đến tháng
12 năm 2022, thời gian thi công lắp đặt mới dịch vụ, thời gian xử lý hỏng, khảo sát chăm sóc khách hàng sau thi công, khảo sát chăm sóc khách hàng sau báo hỏng và tình trạng thuê bao có chất lượng GPON kém tại VNPT Bình Dương
- Tiền xử lý dữ liệu giúp chuẩn hóa, chỉnh sửa và chuyển đổi dữ liệu để sẵn sàng cho việc phân tích và trích xuất thông tin Tiền xử lý dữ liệu bao gồm các bước sau:
+ Lọc dữ liệu: Loại bỏ các dữ liệu không cần thiết hoặc sai sót
+ Chuẩn hóa dữ liệu: Chuyển đổi dữ liệu về một định dạng chung để dễ dàng so sánh và phân tích
+ Tách dữ liệu: Tách các thuộc tính hoặc biến từ các bản ghi dữ liệu
+ Tiền xử lý text: Xử lý các dữ liệu văn bản bằng các công cụ như tokenization, stemming, hoặc stopword removal
+ Tiền xử lý số liệu: Chuyển đổi hoặc chuẩn hóa dữ liệu số liệu để cho phù hợp với các phương pháp phân tích
+ Tạo bản sao dữ liệu: Tạo bản sao dữ liệu để tiến hành thử nghiệm và xử lý dữ liệu mà không làm thay đổi dữ liệu gốc
+ Tạo các biến mới: Tạo các biến mới từ các biến hiện có để cung cấp thông tin thêm cho việc phân tích
+ Nhóm dữ liệu: Nhóm dữ liệu theo nhóm cụ thể để phân tích và trích xuất thông tin
Trực quan hóa dữ liệu là một bước quan trọng trong khai phá dữ liệu của đề tài Bước này giúp giải thích và hiểu dữ liệu một cách dễ dàng và nhanh chóng hơn Trực quan hóa dữ liệu có thể thực hiện bằng các phương pháp sau:
+ Biểu đồ: Sử dụng các biểu đồ như đồ thị cột, đồ thị tròn, hoặc đồ thị dòng để trực quan hóa dữ liệu các số liệu trong đề tài
+ Bảng: Sử dụng bảng để trực quan hóa dữ liệu về số liệu hoặc thông tin văn bản
+ Giao diện người dùng: Sử dụng các giao diện đồ họa để trực quan hóa dữ liệu và giúp người dùng dễ dàng truy cập và tìm kiếm thông tin
Mô hình bài toán: Trong bộ dữ liệu về các dịch vụ của VNPT Bình Dương, chúng tôi sẽ chọn một số mô hình phổ biến để khai phá như: Mô hình hồi quy Logictic, Mơ hình hồi quy tuyến tính, Mơ hình Nạve Bayes, Mơ hình Decision tree,
Mô hình Random Forest Các mô hình này kết hợp với các siêu tham số để dự đoán dữ liệu trong đề tài
Huấn luyện và đánh giá mô hình học máy trong khai phá dữ liệu của đề tà chúng tôi thực hiện một số bước chính sau:
+ Chia tách dữ liệu: Chia dữ liệu thành tập huấn luyện và tập kiểm tra để đánh giá mô hình
+ Huấn luyện mô hình: Sử dụng tập huấn luyện để huấn luyện mô hình và tìm các tham số tốt nhất
+ Đánh giá mô hình: Sử dụng tập kiểm tra để đánh giá mô hình và đo lường chất lượng của nó bằng các chỉ số như chính xác, Spearman, Pearson, test_score
+ So sánh với các mô hình khác: So sánh kết quả đánh giá của mô hình với các mô hình khác để chọn ra mô hình tốt nhất
+ Tinh chỉnh mô hình: Tinh chỉnh mô hình dựa trên kết quả đánh giá để cải thiện chất lượng của mô hình
+ Áp dụng mô hình vào dữ liệu thực tế: sau khi đã chọn được mô hình tốt nhất thì ta sẽ áp dụng mô hình này vào dữ liệu thực tế để phân tích và trả lời các câu hỏi của người dùng
+ Đo lường chất lượng dự đoán: Sử dụng các chỉ số đánh giá để đo lường chất lượng của dự đoán của mô hình
+ Điều chỉnh mô hình: Dùng các phương pháp điều chỉnh như regularization hoặc early stopping để tránh overfitting
+ Đánh giá lại mô hình: Tiến hành đánh giá lại mô hình sau khi điều chỉnh để xem có cải thiện chất lượng dự đoán hay không
+ Cải thiện mô hình: Tiếp tục cải thiện mô hình bằng các phương pháp khác như thay đổi cấu trúc mô hình hoặc thêm dữ liệu huấn luyện
Theo dõi kết quả sau khi điều chỉnh mô hình học máy là một bước quan trọng để xác định hiệu quả của các thay đổi mà chúng ta đã thực hiện Nếu trong dữ liệu thực tế so với kết quả dự báo không đạt yêu cầu, chúng ta có thể cải thiện mô hình bằng cách thay đổi các tham số Ngoài ra chúng ta có thể sử dụng thêm dữ liệu mới hoặc tiền xử lý dữ liệu khác để cải thiện kết quả dự báo lâu dài.
D Ữ LIỆU BÀI TOÁN
Dữ liệu chúng tôi thu thập về các yếu tố ảnh hưởng đến chất lượng người dùng được điều tra trong 06 tháng (từ tháng 6/2022 đến tháng 12/2022) Dữ liệu được thu thập gồm thông tin của khách hàng với 2 phân loại: khách hàng doanh nghiệp và khách hàng cá nhân, với mục đích phân chia thuê bao về các khu vực theo định danh hành chính xã/phường, quận/huyện, thu thập thông tin về tiền cước hàng tháng của thuê bao ở các kỳ cước từ tháng 6/2022 đến tháng 12/2022 Ngoài ra, chúng tôi còn thu thập thông tin thời gian thi công lắp đặt mới của các thuê bao, thời gian báo hỏng của các thuê bao, thông tin kết quả khảo sát mức độ hài lòng của khách hàng sau thi công, khảo sát mức độ hài lòng của khách hàng sau khi báo hỏng và dữ liệu theo dõi tình trạng thuê bao có chất lượng GPON kém
Dữ liệu được trích xuất từ hệ quản trị Cơ sở dữ liệu Oracle và được lưu lại thành tập tin Excel gồm nhiều trường dữ liệu đã được chúng tôi chọn lọc về các yếu tố ảnh hưởng đến chất lượng người dùng tại VNPT Bình Dương như: Mã thuê bao, địa chỉ theo địa danh xã/phường, địa chỉ theo địa danh quận huyện, địa chỉ theo tỉnh, tốc độ đường truyền thuê bao khi khách hàng đăng ký, phân loại khách hàng, ngày báo hỏng dịch vụ, tháng báo hỏng dịch vụ; các thông tin liên quan đến quá trình xử
30 lý báo hỏng dịch vụ: chỉ tiêu thời gian báo hỏng, thời gian xử lý báo hỏng thực tế, thời gian báo hỏng của khách hàng tính từ lần báo hỏng trước gần nhất; thông tin về độ suy hao GPON của thuê bao
Mã thuê bao Tên phường/xã
Tên quận/huyện Tỉnh Tốc độ
Bình Dương 50 Doanh nghiệp 22 … f162567.bdg Phường
Bình Dương 50 Doanh nghiệp 04 … f156865.bdg
Bình Dương 50 Doanh nghiệp 04 … pos14459
Bình Dương 50 Doanh nghiệp 31 … f158394.bdg Phường
Thời gian báo hỏng lại
Bảng 4.1: Dữ liệu thu thập từ VNPT tỉnh Bình Dương
Mã thuê bao là mã định danh của 1 thuê bao trên hệ thống, là mã đại diện để tra cứu toàn bộ thông tin của khách hàng Khi đăng ký lắp đặt mới, thuê bao được cập nhật thông tin về phân loại khách hàng nhằm phân chia nhóm thuê bao quản lý khác
31 nhau sẽ có các chỉ tiêu về thời gian xử lý báo hỏng khác nhau, gồm: Khách hàng doanh nghiệp, Khách hàng cá nhân
Các thông tin dữ liệu về thời gian xử thi công lắp đặt mới nhằm theo dõi tình hình thi công xử lý lắp đặt cho các dịch vụ mới, từ đó so sánh, đối chiếu giữa thời gian thi công thực tế và thời gian theo quy định trong chỉ tiêu Các trường hợp có thời gian thực hiện (THUCHIEN) 0
+ Thang điểm áp dụng đánh giá Độ trễ trung bình cho các đơn vị: Độ trễ trung bình (h) Điểm h > 4 1
+ Thời gian thi công trung bình = Tổng thời gian THUCHIEN / Tổng số lượng hợp đồng thi công
+ Thang điểm áp dụng đánh giá Thời gian thi công trung bình cho các đơn vị:
Thời gian thi công trung bình (h) Điểm h > 84 giờ 1
0 giờ < h