phân tích các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng tại vnpt bình dương bằng học máy

63 0 0
Tài liệu đã được kiểm tra trùng lặp
phân tích các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng tại vnpt bình dương bằng học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Các phương pháp khai phá dữ liệu Có nhiều kỹ thuật khai phá dữ liệu khác nhau bao gồm [17]: - Phân tích thống kê: là một phương pháp trong khai phá dữ liệu để sử dụng các phương pháp thố

Trang 1

i

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN MINH CƯỜNG

PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG SỰ TRẢI NGHIỆM DỊCH VỤ CỦA KHÁCH HÀNG TẠI

Trang 2

ii

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN MINH CƯỜNG

PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG SỰ

TRẢI NGHIỆM DỊCH VỤ CỦA KHÁCH HÀNG TẠI VNPT BÌNH DƯƠNG BẰNG HỌC MÁY

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS LÊ TUẤN ANH

BÌNH DƯƠNG - 2023

Trang 3

iii

LỜI CAM ĐOAN

Tôi cam đoan đề tài: “Phân tích các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng tại VNPT Bình Dương bằng học máy” là công trình nghiên cứu của riêng tôi

Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Các tài liệu tham khảo, sản phẩm nghiên cứu sử dụng cho luận văn này được trích dẫn theo đúng quy định

Bình Dương, ngày tháng năm 2023 Học viên thực hiện luận văn

Nguyễn Minh Cường

Trang 4

iv

LỜI CẢM ƠN

Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành PGS.TS Lê Tuấn Anh, Thầy đã tận tình chỉ dẫn, định hướng và truyền đạt những kiến thức cho tôi suốt thời gian thực hiện luận văn này

Tôi xin bày tỏ lòng biết ơn ơn đến với quý Thầy Cô giáo trong Viện Kỹ thuật - Công nghệ, Viện Đào tạo sau Đại học – Trường đại học Thủ Dầu Một đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trong suốt quá trình tôi theo học

Mặc dù đã cố gắng xong luận văn cũng không tránh khỏi những thiếu sót Tôi rất mong nhận được những ý kiến đóng góp của Thầy Cô để tôi có thể hoàn thiện hơn đề tài của mình

Xin trân trọng cảm ơn

Bình Dương, ngày tháng năm 2023 Học viên thực hiện đề tài

Nguyễn Minh Cường

Trang 5

v

TÓM TẮT ĐỀ TÀI

Trong nghiên cứu này, chúng tôi đã tiến hành một khám phá sâu về phân tích và khai thác dữ liệu cùng các ứng dụng thực tế của nó Tập trung vào bài toán quan trọng về việc phân tích yếu tố ảnh hưởng đến trải nghiệm của khách hàng VNPT Bình Dương Bằng việc khai thác một cơ sở dữ liệu có 51.420 dòng và 14 cột, chúng tôi đã thu thập dữ liệu về các yếu tố tác động đến trải nghiệm người dùng, và sau đó xây dựng mô hình để phân tích các yếu tố này Trong quá trình nghiên cứu, với việc xây dựng 4 mô hình khác nhau: Random Forest, Linear Regression, Decision Tree và k-Nearest Neighbors, chúng tôi đã tiến hành các thử nghiệm và so sánh kết quả Kết quả cho thấy, mô hình sử dụng thuật toán Random Forest đã đạt được độ chính xác dự đoán cao nhất trong việc phân tích yếu tố ảnh hưởng đến trải nghiệm của khách hàng Do đó, chúng tôi đã chọn thuật toán này để thực hiện trong nghiên cứu của chúng tôi Việc xây dựng mô hình để phân tích các yếu tố ảnh hưởng đến trải nghiệm của khách hàng sử dụng dịch vụ VNPT Bình Dương là rất quan trọng trong việc đóng góp vào việc xây dựng hệ thống thông tin của tập đoàn VNPT

Trang 6

1.3.2 Quy trình khai phá dữ liệu 5

1.3.3 Các phương pháp khai phá dữ liệu 6

1.3.4 Một số lĩnh vực áp dụng khai phá dữ liệu 10

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 13

2.1 CÁC PHƯƠNG PHÁP DỰ BÁO [14][15] 13

2.2 CÁC NGHIÊN CỨU LIÊN QUAN 17

2.1 CÁC MÔ HÌNH SỬ DỤNG TRONG ĐỀ TÀI 19

3.2 DỮ LIỆU BÀI TOÁN 29

CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 35

4.1 THỰC NGHIỆM BÀI TOÁN 35

4.2 THỰC NGHIỆM, ĐÁNH GIÁ VÀ CHỌN MÔ HÌNH PHÙ HỢP 37

CHƯƠNG 5 KẾT LUẬN 44

Trang 7

vii

DANH MỤC BẢNG BIỂU

Bảng 4.1: Dữ liệu thu thập từ VNPT Bình Dương 30

Bảng 4.2: Kết quả các độ đo về phường, huyện và tốc độ đường truyền 38

Bảng 4.3: Kết quả các độ đo về loại khách, thời gian thực hiện và báo hỏng lại 39

Bảng 4.4: Kết quả các độ đo về suy hao Down, suy hao Up và số dịch vụ 40

Bảng 4.5: Trung bình kết quả các độ đo thực nghiệm 41

Trang 8

viii

DANH SÁCH HÌNH, BIỂU ĐỒ

Hình 3.1: Mô hình dự báo các yếu tố ảnh hưởng sự trải nghiệm dịch vụ

của khách hàng tại VNPT Bình Dương 26

Hình 4.1: Phân phối dữ liệu trong tập dữ liệu thu thập 36

Hình 4.2: Biểu đồ nhiệt của bộ dữ liệu thu thập 37

Hình 4.3: Biểu đồ kết quả trung bình các độ đo đã thực nghiệm 41

Trang 9

ix

DANH MỤC CÁC TỪ VIẾT TẮT

(Xếp theo thứ tự A,B,C của chữ cái đầu viết tắt)

3 CTM Correlated Topic Model

4 DBSCAN Density-Based Spatial Clustering of Applications with Noise 5 GMM Gaussian Mixture Model

7 HDP Hierarchical Dirichlet Process 8 HMM Hidden Markov Models 9 IoT Internet of Things

10 KDD Knowledge Discovery in Databases

12 LDA Latent Dirichlet Allocation

14 NMF Non-negative Matrix Factorization 15 PCA Principal Component Analysis

17 STL Seasonal decomposition of time series 18 STM Structural Topic Model

19 SVM Support Vector Machine

Trang 10

1

Chương 1 GIỚI THIỆU CHUNG

Trong chương này, chúng tôi sẽ trình bày một cách sơ lược về dịch vụ của VNPT Bình Dương, vai trò của các yếu tố ảnh hưởng đến sự trải nghiệm của khách hàng khi sử dụng dịch vụ của VNPT, những khó khăn trong việc tìm ra các yếu tố ảnh hưởng từ đó cho thấy sự cần thiết trong việc xây dựng mô hình phân tích các yếu tố ảnh hưởng đến trải nghiệm của khách hàng

VNPT Bình Dương là một đơn vị trực thuộc Tập đoàn Bưu Chính Viễn thông Việt Nam (VNPT) và chuyên về cung cấp dịch vụ Viễn thông – Công nghệ thông tin tại tỉnh Bình Dương [1] Công ty cung cấp các dịch vụ Internet, truyền hình trực tuyến, điện thoại di động, các dịch vụ viễn thông khác và dịch vụ công nghệ thông tin Phương thức hoạt động của VNPT Bình Dương bao gồm các bước sau:

Xây dựng và quản lý hệ thống mạng: Công ty sẽ xây dựng và quản lý hệ thống mạng cung cấp dịch vụ viễn thông trong tỉnh Bình Dương

Cung cấp dịch vụ: Công ty sẽ cung cấp các dịch vụ viễn thông, bao gồm Internet, truyền hình trực tuyến, điện thoại di động và các dịch vụ viễn thông khác cho khách hàng trong tỉnh Bình Dương

Quản lý và bảo trì hệ thống: Công ty sẽ quản lý và bảo trì hệ thống mạng và các thiết bị để đảm bảo dịch vụ được cung cấp một cách ổn định và chất lượng cao

Tư vấn và hỗ trợ khách hàng: Công ty sẽ cung cấp tư vấn và hỗ trợ cho khách hàng trong việc sử dụng các dịch vụ của công ty

Tích cực đầu tư và phát triển: Công ty sẽ tích cực đầu tư và phát triển mạng lưới và các dịch vụ của mình để đáp ứng nhu cầu và mong đợi của khách hàng Công ty sẽ tiên phong và cập nhật các công nghệ mới để cung cấp dịch vụ chất lượng tốt hơn

Quản lý chi phí: Công ty sẽ quản lý chi phí hợp lý để đảm bảo sự hợp lý giữa giá cả và chất lượng dịch vụ

Trang 11

Dịch vụ điện thoại cố định: Công ty cung cấp dịch vụ điện thoại thông qua đường dây hữu tuyến kéo tới trực tiếp địa điểm của doanh nghiệp cho phép thực hiện các cuộc gọi nội hạt, liên tỉnh, quốc tế tới các thuê bao điện thoại cố định và di động Dịch vụ Cloud: Công ty cung cấp dịch vụ cloud cho khách hàng, cho phép khách hàng lưu trữ và chia sẻ dữ liệu, ứng dụng, hệ thống từ xa và quản lý dữ liệu an toàn

Dịch vụ Internet of Thing: Công ty cấp dịch vụ Internet of Thing cho khách hàng, cho phép khách hàng sử dụng các thiết bị điện tử và công nghệ kết nối mạng để giám sát, quản lý và điều khiển các tác vụ từ xa Dịch vụ này có thể được sử dụng trong nhiều lĩnh vực khác nhau, như giám sát và quản lý tài nguyên, giám sát an toàn và bảo mật, quản lý và điều khiển hệ thống giải trí, …

Trang 12

3

Dịch vụ cho doanh nghiệp: Công ty cung cấp các dịch vụ cho doanh nghiệp, bao gồm các dịch vụ mạng riêng, hạ tầng mạng, bảo mật và quản lý dữ liệu, để giúp các doanh nghiệp tăng năng suất và giảm chi phí

Dịch vụ cho cá nhân: Công ty cũng cung cấp các dịch vụ cho cá nhân, như đăng ký và sử dụng dịch vụ Internet, Truyền hình trực tuyến, Điện thoại di động, cho phép người dùng cập nhật thông tin cước, thanh toán, quản lý thông tin cá nhân

Dịch vụ chăm sóc khách hàng: Công ty có hệ thống chăm sóc khách hàng để hỗ trợ khách hàng trong việc sử dụng dịch vụ của công ty và giải quyết các vấn đề liên quan đến dịch vụ

Dịch vụ giải trí và truyền thông: Công ty có thể cung cấp dịch vụ giải trí và truyền thông, bao gồm những nội dung video, âm nhạc, game, kỹ thuật số và các dịch vụ truyền thông khác

Dịch vụ an toàn và bảo mật: Công ty cung cấp các dịch vụ bảo mật và an toàn cho khách hàng của mình để bảo vệ thông tin cá nhân và doanh nghiệp của họ

Dịch vụ kỹ thuật: Công ty có thể cung cấp các dịch vụ kỹ thuật cho khách hàng, bao gồm hỗ trợ kỹ thuật, cài đặt, bảo trì và bảo dưỡng hệ thống

Mọi dịch vụ và hoạt động của VNPT Bình Dương được thực hiện theo quy định của pháp luật và các chính sách của tổ chức Tùy thuộc vào từng thời điểm Công ty có thể có thêm hoặc thay đổi các dịch vụ cụ thể

1.3 Tổng quan về phát hiện tri thức và khai phá dữ liệu

Dữ liệu khổng lồ đã được thu thập từ khắp mọi nơi và mọi lúc, chứa thông tin về mọi khía cạnh và mọi sự kiện trong cuộc sống [16] Điều này được gọi là "lũ lụt dữ liệu" và được gây ra bởi sự phát triển của các thiết bị thu thập dữ liệu, như điện thoại thông minh, máy tính và các thiết bị đo lường Các nguồn dữ liệu phát sinh hằng ngày bao gồm:

Dữ liệu từ các mạng xã hội: Bài đăng, bình luận, thích và chia sẻ trên các mạng xã hội cung cấp rất nhiều dữ liệu về các sản phẩm và dịch vụ

Trang 13

Dữ liệu của chúng tôi bao gồm 08 bảng chính với tổng cộng 51.420 dòng, và mô tả các yếu tố ảnh hưởng đến trải nghiệm dịch vụ của khách hàng thông qua 14 thuộc tính Trong quá trình nghiên cứu, chúng tôi đã tìm hiểu các yếu tố có khả năng tác động và chọn lọc những yếu tố này để bổ sung vào dữ liệu phân tích, nhằm cải thiện chất lượng dịch vụ tại VNPT Bình Dương

Mục tiêu của chúng tôi là đảm bảo chất lượng dịch vụ tốt nhất cho khách hàng Bằng cách sử dụng các thuật toán khai phá dữ liệu như Linear Regression, K-nearest neighbors, Decision trees và Random Forest, chúng tôi hy vọng có thể phân tích và đánh giá các yếu tố ảnh hưởng đến trải nghiệm của khách hàng Kết quả từ nghiên cứu này sẽ giúp chúng tôi đề xuất các biện pháp cải thiện và khắc phục các vấn đề tồn đọng, từ đó nâng cao sự hài lòng và trải nghiệm của khách hàng khi sử dụng dịch vụ tại VNPT Bình Dương

1.3.1 Khái niệm

Khai phá dữ liệu còn được gọi là Data Mining hoặc Knowledge Discovery in Databases (KDD) Nó có thể giúp tìm ra các quan sát và mẫu quan trọng trong dữ liệu, giúp người dùng hiểu rõ hơn về dữ liệu và tìm ra các cơ hội kinh doanh hoặc khoa học [7]

Trang 14

5

Khai phá dữ liệu là quá trình sử dụng các phương pháp và công cụ để tìm kiếm, phân tích và hiểu rõ thông tin từ các tập dữ liệu lớn Nó bao gồm cả việc sắp xếp và trực quan hóa dữ liệu để tìm ra các mẫu và quan sát

Khai phá dữ liệu được sử dụng trong nhiều lĩnh vực khác nhau, bao gồm kinh doanh, y tế, khoa học dữ liệu và trí tuệ nhân tạo Nó có thể giúp các công ty tìm ra các xu hướng và cơ hội kinh doanh, hoặc giúp các nhà khoa học tìm ra các quan sát khoa học quan trọng

1.3.2 Quy trình khai phá dữ liệu

Khai phá dữ liệu là một quá trình phức tạp, cần cả kỹ năng lập trình và thống kê để thực hiện Quy trình này bao gồm các bước:

Bước 1: Tiền xử lý dữ liệu: loại bỏ các giá trị sai, chuẩn hóa dữ liệu và chuyển đổi dữ liệu thành dạng có thể phân tích

Bước 2: Phân tích dữ liệu: sử dụng các phương pháp thống kê và học máy để tìm ra các mẫu và quan sát trong dữ liệu

Bước 3: Trực quan hóa dữ liệu: sử dụng các công cụ trực quan hóa để hiển thị dữ liệu và giúp người dùng hiểu rõ hơn

Bước 4: Kết luận và áp dụng: sử dụng kết quả tìm được để ra quyết định hoặc áp dụng trong các lĩnh vực khác nhau

Khai phá dữ liệu cũng đang trở nên quan trọng hơn bao giờ hết với sự phát triển của công nghệ và sự tăng trưởng của dữ liệu Nó đang được sử dụng rộng rãi trong các lĩnh vực như marketing, tài chính, y tế và trí tuệ nhân tạo Khai phá dữ liệu còn có thể giúp các công ty và tổ chức cải thiện quy trình và tăng hiệu suất của họ, giúp họ tìm ra các cơ hội kinh doanh mới và tiết kiệm chi phí

Với sự phát triển của công nghệ, khai phá dữ liệu đang trở nên dễ dàng hơn bao giờ hết với sự xuất hiện của các công cụ và dịch vụ khai phá dữ liệu được cung cấp bởi các công ty công nghệ Điều này cũng giúp cho các doanh nghiệp và tổ chức

Trang 15

6

nhỏ hơn có thể sử dụng các công cụ và kỹ thuật khai phá dữ liệu mà không cần sự giải quyết kỹ thuật cao

1.3.3 Các phương pháp khai phá dữ liệu

Có nhiều kỹ thuật khai phá dữ liệu khác nhau bao gồm [17]:

- Phân tích thống kê: là một phương pháp trong khai phá dữ liệu để sử dụng

các phương pháp thống kê để phân tích dữ liệu và tìm ra các quan sát thú vị hoặc ý nghĩa Các thuật toán thường sử dụng trong phân tích thống kê bao gồm:

+ ANOVA (Analysis of variance) được sử dụng để kiểm tra sự khác biệt trung bình giữa hai hoặc nhiều nhóm dữ liệu

+ Chi-square test được sử dụng để kiểm tra sự khác biệt giữa một phân bố thống kê và một phân bố thống kê mong đợi

+ T-test sử dụng để kiểm tra sự khác biệt trung bình giữa hai nhóm dữ liệu + Regression được sử dụng để tìm ra quan hệ giữa các biến và dự đoán giá trị của biến mục tiêu

Ngoài ra còn có rất nhiều thuật toán thống kê khác như Correlation, Hypothesis testing, … Mỗi thuật toán có thể sử dụng cho một mục đích và trong một tình huống khác nhau Cần phải chọn thuật toán phù hợp và làm rõ các giả định cho dữ liệu và mục đích khai phá dữ liệu để đạt được kết quả chính xác và hữu ích

- Phân tích học máy: là một phương pháp trong khai phá dữ liệu để sử dụng

các thuật toán học máy để tìm ra các quan hệ giữa các biến hoặc để dự đoán giá trị của biến mục tiêu Học máy là một ngành nghiên cứu trong điện toán đám mây và trí tuệ nhân tạo để tạo ra máy tính có thể học từ dữ liệu và tự động hóa các quy trình Các thuật toán học máy thường sử dụng trong phân tích dữ liệu bao gồm:

+ Linear Regression: dự đoán giá trị của một biến mục tiêu dựa trên các biến đầu vào

+ Logistic Regression: dự đoán xác suất của một sự kiện xảy ra dựa trên các biến đầu vào

Trang 16

- Phân tích nhóm: là một trong những kỹ thuật được sử dụng để tìm ra các

nhóm dữ liệu có tính tương đồng cao Một số thuật toán phân nhóm phổ biến bao gồm:

+ K-Means: Thuật toán phân cụm cơ bản được sử dụng để tìm ra các nhóm dữ liệu có tính tương đồng cao

+ Hierarchical Clustering: Thuật toán phân cụm theo cấp bậc, được sử dụng để tìm ra các nhóm dữ liệu và cấu trúc của chúng

+ DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Thuật toán phân cụm dựa trên độ đặc, cho phép tìm ra các nhóm dữ liệu có kích thước khác nhau và có thể có các khoảng trống giữa chúng

+ Gaussian Mixture Model (GMM): Thuật toán phân cụm dựa trên mô hình phân phối Gaussian, cho phép phân tích các nhóm dữ liệu có hình dạng phân phối không chuẩn

Trang 17

8

+ Affinity Propagation: Thuật toán phân cụm dựa trên giữa các điểm dữ liệu, cho phép tìm ra các nhóm dữ liệu mạnh mẽ và có nhiều trọng số

- Phân tích thời gian: là một trong những kỹ thuật được sử dụng để phân tích

các dữ liệu liên quan đến thời gian Một số thuật toán phân tích thời gian phổ biến bao gồm:

+ Exponential smoothing: thuật toán dùng để dự đoán giá trị trong tương lai dựa trên các giá trị trong quá khứ

+ ARIMA (AutoRegressive Integrated Moving Average): thuật toán dùng để dự đoán giá trị trong tương lai dựa trên các giá trị trong quá khứ và các đặc trưng của chuỗi thời gian

+ Seasonal decomposition of time series (STL): thuật toán dùng để phân tích các đặc trưng của chuỗi thời gian và tìm ra các xu hướng mùa

+ Hidden Markov Models (HMM): thuật toán dùng để dự đoán giá trị trong tương lai và phân tích các trạng thái liên quan đến thời gian của dữ liệu

+ Long short-term memory (LSTM): thuật toán dùng để dự đoán giá trị trong tương lai và phân tích các trạng thái liên quan đến thời gian của dữ liệu, đặc biệt hữu ích trong dữ liệu thời gian liên tục và có thể ghi nhớ các trạng thái trong quá khứ

- Phân tích quan hệ: là một trong những kỹ thuật được sử dụng để phân tích

các quan hệ giữa các đối tượng trong dữ liệu Một số thuật toán phân tích quan hệ phổ biến bao gồm:

+ Graph-based algorithms: các thuật toán dựa trên đồ thị, như PageRank, HITS, và Betweenness Centrality, được sử dụng để tìm ra các quan hệ chính trong dữ liệu

+ Link analysis: thuật toán dùng để phân tích các quan hệ giữa các đối tượng trong dữ liệu và tìm ra các quan hệ quan trọng

+ Social network analysis: sử dụng các thuật toán phân tích mạng xã hội để phân tích các quan hệ giữa các đối tượng trong dữ liệu

Trang 18

+ Association rule mining: thuật toán dùng để tìm ra các quan hệ giữa các thuộc tính trong dữ liệu và tìm ra các quy tắc liên quan đến các quan hệ này

+ Correlation analysis: thuật toán dùng để tìm ra các quan hệ giữa các biến trong dữ liệu và đánh giá mức độ liên quan giữa chúng

+ Factor analysis: thuật toán dùng để phân tích quan hệ giữa các biến trong dữ liệu và tìm ra các nhóm các biến liên quan

- Phân tích chủ đề: là một trong những kỹ thuật được sử dụng để phân tích và

tìm ra các chủ đề chính trong tập dữ liệu văn bản Một số thuật toán phân tích chủ đề phổ biến bao gồm:

+ Latent Dirichlet Allocation (LDA): thuật toán phân tích chủ đề dựa trên mô hình phân phối Dirichlet, cho phép tìm ra các chủ đề chính trong tập dữ liệu văn bản + Non-negative Matrix Factorization (NMF): thuật toán phân tích chủ đề dựa trên giải nén ma trận, cho phép tìm ra các chủ đề chính trong tập dữ liệu văn bản

+ Correlated Topic Model (CTM): thuật toán phân tích chủ đề dựa trên mô hình phân phối Correlated, cho phép tìm ra các chủ đề chính trong tập dữ liệu văn bản và đánh giá mức độ liên quan giữa chúng

+ Hierarchical Dirichlet Process (HDP): thuật toán phân tích chủ đề dựa trên mô hình phân phối Dirichlet cấp cao, cho phép tìm ra các chủ đề chính trong tập dữ liệu văn bản và cấu trúc của chúng

+ Probabilistic Latent Semantic Analysis (PLSA): thuật toán phân tích chủ đề dựa trên mô hình phân phối tần suất, cho phép tìm ra các chủ đề chính trong tập dữ liệu văn bản và liên quan giữa các từ

Trang 19

10

+ Structural Topic Model (STM): thuật toán phân tích chủ đề dựa trên mô hình cấu trúc, cho phép tìm ra các chủ đề chính trong tập dữ liệu văn bản và các quan hệ giữa chúng

+ Embedding-based algorithms: các thuật toán dựa trên Embedding như Word2Vec, GloVe, và BERT, được sử dụng để tìm ra các chủ đề chính trong tập dữ liệu văn bản và các quan hệ giữa các từ

Như vậy, có nhiều thuật toán khác nhau có thể sử dụng để phân tích chủ đề trong khai phá dữ liệu, tùy vào mục đích và dữ liệu cụ thể mà chúng ta sẽ chọn thuật toán phù hợp để sử dụng

Tài chính: khai phá dữ liệu được sử dụng để dự đoán tình hình tài chính, phân tích rủi ro và xác định các cơ hội đầu tư

Y tế: khai phá dữ liệu được sử dụng để phân tích dữ liệu y tế để tìm ra các nguyên nhân dẫn đến bệnh, xác định các nhóm người dễ bị bệnh và quản lý dữ liệu y tế

Nghiên cứu thị trường: khai phá dữ liệu được sử dụng để phân tích các dữ liệu thị trường, tìm ra nhóm khách hàng tiềm năng và xác định các xu hướng thị trường

An ninh: khai phá dữ liệu được sử dụng để phát hiện các hoạt động gian lận, xác định các nguy cơ an ninh và quản lý dữ liệu an ninh

Trang 20

11

Công nghệ thông tin: khai phá dữ liệu được sử dụng để phân tích các dữ liệu người dùng, xác định các xu hướng sử dụng và ước tính hiệu quả của các giải pháp công nghệ

Kinh doanh: khai phá dữ liệu được sử dụng để phân tích các dữ liệu kinh doanh, tìm ra các cơ hội kinh doanh và đưa ra các quyết định kinh doanh có hiệu quả Công nghệ sản xuất: khai phá dữ liệu được sử dụng để phân tích các dữ liệu sản xuất, tìm ra các cơ hội cải tiến và đưa ra các quyết định cải tiến sản xuất

Lưu trữ và quản lý dữ liệu: khai phá dữ liệu được sử dụng để phân tích các dữ liệu lưu trữ, tìm ra các cơ hội tối ưu hóa quản lý dữ liệu và đưa ra các quyết định về quản lý dữ liệu

Trí tuệ nhân tạo: khai phá dữ liệu được sử dụng để hỗ trợ các thuật toán trí tuệ nhân tạo như máy học, deep learning và machine learning

Internet of Thing: khai phá dữ liệu được sử dụng để phân tích dữ liệu từ các thiết bị IoT để xác định các xu hướng và cơ hội kinh doanh

Logistics: khai phá dữ liệu được sử dụng để phân tích dữ liệu vận chuyển và quản lý để tìm ra các cơ hội cải tiến và tiết kiệm chi phí

Bảo mật: khai phá dữ liệu được sử dụng để phân tích dữ liệu bảo mật để tìm ra các lỗ hổng bảo mật và đưa ra các giải pháp bảo mật

Giao thông: khai phá dữ liệu được sử dụng để phân tích dữ liệu giao thông để tìm ra các cơ hội cải tiến và tiết kiệm chi phí

Tài chính: khai phá dữ liệu được sử dụng để phân tích dữ liệu tài chính để tìm ra các cơ hội kinh doanh và đưa ra các quyết định tài chính có hiệu quả

Du lịch: khai phá dữ liệu được sử dụng để phân tích dữ liệu du lịch để tìm ra các cơ hội kinh doanh và đưa ra các quyết định về du lịch có hiệu quả

Nghệ thuật: khai phá dữ liệu được sử dụng để phân tích dữ liệu nghệ thuật để tìm ra các xu hướng và cơ hội kinh doanh trong ngành nghệ thuật

Trang 21

12

Tổng kết chương 1

Trong chương này chúng tôi đã nêu một số tình hình tổng quan của VNPT và dịch vụ của VNPT Bình Dương Đồng thời chúng tôi cũng đã trình bày sơ lược về khai phá dữ liệu trong bộ dữ liệu của VNPT Bình Dương, các bước thực hiện khai phá dữ liệu trong bộ dữ liệu mà chúng tôi thực hiện

Trang 22

13

Chương 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Trong Chương 2 này, chúng tôi sẽ trình bày lý thuyết về dự báo và các phương pháp dự báo trong kinh tế nói riêng, từ đó chúng tôi sẽ thực hiện những dự báo này việc khai phá dữ liệu để phân tích các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng tại VNPT tỉnh Bình Dương Ngoài ra chúng tôi còn trình bày một số nghiên cứu liên quan về những phương pháp dự báo gần với đề tài của chúng tôi

2.1 Các phương pháp dự báo [14][15]

Phương pháp dự báo là một trong các phương pháp mang đến hiệu quả hoạt động doanh nghiệp Bên cạnh các chiến lược được xây dựng và thực hiện Việc xây dựng và tổ chức dự báo thực hiện trên cơ sở của hiện tại Mang đến các dự báo về tương lai Điều này có thể tạo cơ sở hiệu quả trong xây dựng chiến lược hay lộ trình hoạt động doanh nghiệp hiệu quả Việc phân loại mang đến những cách thức tổ chức phương pháp dự báo khác nhau Đảm bảo cho những nhu cầu với từng nội dung công việc hay thời đoạn dự báo

Thời đoạn phản ánh trong nhu cầu và khả năng dự báo Khi đó các cơ sở phản ánh cho dự báo chính xác hay hiệu quả nhất định Nó gắn với mức độ thời gian để mang đến mục đích tiếp cận cũng như khả năng xây dựng kế hoạch khác nhau

– Dự báo ngắn hạn: Thời đoạn dự báo thường không quá 3 tháng, ít khi đến 1 năm Với khoảng thời gian này, hoạt động doanh nghiệp không quá thay đổi trong cách thức tổ chức thực hiện chiến lược Nhu cầu trong hoạt động hay điều hành nội bộ được phản ánh hiệu quả hơn Do đó, hướng đến các nhu cầu trong tổ chức hay điều phối lại hoạt động của các bộ phận Loại dự báo này cần cho việc mua sắm, điều độ công việc, phân giao nhiệm vụ Cân đối các mặt trong quản trị tác nghiệp Với các khoảng thời gian ngắn, thường gắn với quý hoạt động

– Dự báo trung hạn: Thời đoạn dự báo thường từ 3 tháng đến 3 năm Trong tính chất của lộ trình hoạt động với tính chất tương đối Khoảng thời gian này gắn với các đảm bảo cho ổn định và hướng đến phát triển doanh nghiệp Do đó cần thiết cho việc lập kế hoạch bán hàng Khi những nhu cầu trong tiếp cận, giữ chân hay ổn định nguồn cầu được phản ánh Kế hoạch sản xuất, dự trù tài chính tiền mặt Ứng với

Trang 23

Ngoài ra, Căn cứ vào nội dung công việc cần dự báo cũng được chia thành ba loại:

– Dự báo kinh tế: Với các nhu cầu đảm bảo trong hoạt động ổn định và phát triển kinh tế Các chủ thể thực hiện với tính chất phản ánh kinh tế trong xu hướng chung Thường được thực hiện vì mục đích của các cơ quan nghiên cứu, cơ quan dịch vụ thông tin, các bộ phận tư vấn kinh tế nhà nước Mang đến những phản ánh cũng như căn cứ xây dựng dự báo thích hợp Tính chất của dự báo này ảnh hưởng trực tiếp cho nhu cầu trong nền kinh tế Những chỉ tiêu này có giá trị lớn trong việc hỗ trợ, tạo tiền đề cho công tác dự báo trung hạn, dài hạn của các doanh nghiệp Tác động trực tiếp lên tính chất tác động và hiệu quả kinh tế Cũng là những lợi ích cuối cùng doanh nghiệp tìm kiếm Dự báo xây dựng với những dữ liệu phản ánh trong khả năng hiện tại bên cạnh những lợi ích hay xu hướng kinh tế Từ đó mà các chiến lược được xây dựng phù hợp, khả thi và hiệu quả hơn

Trang 24

15

– Dự báo kỹ thuật công nghệ: Là nhu cầu trong phát triển mới một cách bền vững Khi vai trò phát triển khoa học, công nghệ mang đến ứng dụng tốt hơn cho tương lai là càng cần thiết Dự báo này đề cập đến mức độ phát triển khoa học kỹ thuật công nghệ trong tương lai Bên cạnh những phản ánh trong năng lực, trình độ hay cơ hội tương lai Từ đó đảm bảo để các hiện thực có ý nghĩa cũng như hiệu quả tương lai có thể dự báo trước Loại này rất quan trọng đối với các ngành có hàm lượng kỹ thuật cao Khi nhu cầu cần thiết và lợi ích phản ánh rõ rệt đến phát triển chung của cộng đồng Như năng lượng nguyên tử, tàu vũ trụ, dầu lửa, máy tính, nghiên cứu không gian, điện tử, … Dự báo kỹ thuật, công nghệ thường do các chuyên gia trong các lĩnh vực đặc biệt thực hiện Dự báo được thực hiện mang đến tầm nhìn chiến lược, các khả năng và thành tựu có thể đạt được Cũng như chuyển hóa thành hành động đưa đến hiệu quả trên thực tế

– Dự báo nhu cầu sản phẩm: Thực chất là những dự kiến, tiên đoán về doanh số bán ra của doanh nghiệp Dựa trên các căn cứ phân tích và đánh giá tiềm năng có thể cho các giai đoạn khác nhau trong tương lai Dự báo được quan tâm và thực hiện trong hoạt động của các nhà quản trị sản xuất Bởi nó gắn với những lợi ích trực tiếp cho các giai đoạn tương lai Dự báo sẽ được xây dựng trên thúc đẩy các khả năng thực tế Bằng các quyết định trong quy mô sản xuất, hoạt động của công ty Và là cơ sở để dự kiến về tài chính, tiếp thị, nhân sự Tất cả những hoạt động cần thiết thực hiện để phản ánh tốt nhất kết quả của dự báo

Căn cứ vào phương pháp dự báo có thể chia dự báo thành 3 loại chính:

- Phương pháp dự báo chuyên gia là một trong những phương pháp dự báo khác biệt so với các phương pháp dự báo máy học, vì nó dựa trên kinh nghiệm và tình hình của một chuyên gia trong một lĩnh vực cụ thể Trong phương pháp này, chuyên gia sẽ sử dụng các kỹ năng phân tích, sử dụng các bản vẽ và các biểu đồ, và sử dụng các kiến thức của họ về mô hình và quy luật cụ thể để dự báo tình hình và xu hướng trong tương lai Phương pháp này thường được sử dụng trong các lĩnh vực như kinh tế, chính trị, quản lý, quản trị doanh nghiệp, và các lĩnh vực liên quan đến con người và xã hội Vì kinh nghiệm và kiến thức của chuyên gia là chìa khóa quan trọng trong

Trang 25

16

việc dự báo, nên các dự báo của chuyên gia thường được coi là rất tin cậy và có giá trị Tuy nhiên, phương pháp dự báo chuyên gia cũng có một số hạn chế, chẳng hạn như khó khăn trong việc tìm kiếm chuyên gia chuyên nghiệp và chính xác, và thiếu sự tự động hóa trong quá trình dự báo

- Phương pháp dự báo bằng phương trình hồi quy (Regression) là một trong những phương pháp dự báo phổ biến trong máy học Nó sử dụng mô hình hồi quy để dự báo giá trị của một biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Có hai loại hồi quy phổ biến là hồi quy tuyến tính (Linear Regression) và hồi quy phi tuyến (Nonlinear Regression) Trong hồi quy tuyến tính, chúng ta sử dụng một đường thẳng để dự báo giá trị của biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Trong hồi quy phi tuyến, chúng ta sử dụng một hàm phi tuyến để dự báo giá trị của biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Phương trình hồi quy đòi hỏi các giá trị của biến định lượng là liên tục và đòi hỏi có tồn tại mối quan hệ tuyến tính giữa các biến định lượng Nó cũng yêu cầu dữ liệu huấn luyện là không có giá trị bị thiếu và không có outliers Một khi các giá trị của biến định lượng đã được chuẩn bị, chúng ta có thể sử dụng phương pháp hồi quy để dự báo giá trị của biến định lượng mà chúng ta quan tâm dựa trên các giá trị của các biến định lượng khác Phương trình hồi quy có rất nhiều ưu điểm, nó rất dễ sử dụng và có thể áp dụng cho rất nhiều tình huống dự báo Nó cũng có thể sử dụng để tìm ra các mối quan hệ giữa các biến, tuy nhiên, nó có thể không hoạt động tốt khi dữ liệu không tuân thủ các điều kiện hồi quy hoặc khi có quá nhiều ngoại lệ

- Phương pháp dự báo định tính (Determinisitic forecasting) là một phương pháp dự báo mà sử dụng một mô hình cụ thể để dự báo giá trị của biến định lượng mà chúng ta quan tâm trong tương lai Nó sử dụng các quy luật cụ thể và các giá trị cụ thể của các biến để dự báo giá trị của biến định lượng Phương pháp dự báo định tính thường được sử dụng trong các lĩnh vực như kinh tế, chính trị, quản lý, quản trị doanh nghiệp, và các lĩnh vực liên quan đến con người và xã hội Phương pháp dự báo định tính có một số ưu điểm như dễ dàng sử dụng và áp dụng, dự báo chính xác

Trang 26

17

và có thể sử dụng để tìm ra các mối quan hệ giữa các biến Tuy nhiên, nó cũng có một số hạn chế như khó khăn trong việc tìm ra mô hình phù hợp và không thể áp dụng cho các tình huống không có quy luật cụ thể

- Phương pháp dự báo định lượng (Probabilistic forecasting) là một phương pháp dự báo mà sử dụng xác suất và thống kê để dự báo giá trị của biến định lượng mà chúng ta quan tâm trong tương lai Nó sử dụng các phân phối xác suất và các thống kê để dự báo giá trị của biến định lượng Phương pháp dự báo định lượng thường sử dụng cho các tình huống không có quy luật cụ thể hoặc có nhiều rủi ro và incertitude, ví dụ như dự báo thời tiết, giá cả, tình hình kinh tế, chứng khoán Phương pháp này cung cấp một dự báo mức độ chắc chắn của kết quả dự báo, chẳng hạn như xác suất cho mỗi giá trị cụ thể hoặc một phân phối xác suất cho kết quả dự báo Nó cũng hỗ trợ tính toán risk và incertitude Nhưng điểm hạn chế của phương pháp này là nó yêu cầu dữ liệu lớn và phải được xử lý để xác định phân phối xác suất hợp lý, nó cũng có thể khó khăn trong việc hiểu và giải thích

2.2 Các nghiên cứu liên quan

Chen và cộng sự đã áp dụng phương pháp học máy, trong đó có tính đến các yếu tố kinh tế và công nghệ, để dự đoán tỷ giá của đồng tiền điện tử Bitcoin [2] Nghiên cứu này đã áp dụng phương pháp học máy hai giai đoạn Giai đoạn thứ nhất, nghiên cứu này đã áp dụng phương pháp học máy để xác định các thông tin kinh tế và thông tin công nghệ tác động đến tỷ giá Bitcoin Giai đoạn thứ hai, nghiên cứu này đã áp dụng phương pháp mạng thần kinh để sử dụng các yếu tố được xác định ở giai đoạn thứ nhất dự đoán tỷ giá Bitcoin Nhóm tác giả đã chỉ ra rằng, phương pháp học máy có khả năng dự đoán tốt hơn các phương pháp dự đoán truyền thống như phương pháp trung bình trượt tự hồi quy

Đề tài “Ứng dụng học máy trong dự đoán lưu lượng giao thông” của nhóm Tác giả Giang Thị Thu Huyền và Lê Quý Tài, sử dụng các thuật toán về mô hình mạng nơron bộ nhớ dài-ngắn hạn (LSTM) và mạng nơ ron tích chập (CNN) để dự đoán lưu lượng giao thông [3] Tuy nhiên, các cảm biến đặt tại các nút giao thông với diện tích lớn và mật độ giao thông cao tại các giờ cao điểm đóng vai trò quan trọng, vì vậy đòi

Trang 27

Bài báo nghiên cứu dự báo chất lượng nước dưới đất khu vực lân cận bãi rác Cẩm Hà, Tp Hội An, Quảng Nam bằng các mô hình học máy của Lê Phước Cừng và Ngô Viết Thắng (2022) [5] Nghiên cứu đã tiến hành phân tích bộ dữ liệu về chất lượng nước dưới đất trong mùa mưa và mùa khô Bộ dữ liệu với 268 dòng, gồm 8 biến đầu vào (Fe, As, Mo, Co, Ni, Al, Zn, Pb) và 1 biến đầu ra Các tác giả đã nghiên cứu xác định mô hình dự báo tối ưu dựa vào các giá trị sai số tuyệt đối trung bình (MAE), sai số toàn phương trung bình (RMSE) và R2 Ngôn ngữ R được dùng để tối ưu hoá các mô hình hồi quy tuyến tính (LR), rừng ngẫu nhiên (RF), máy hỗ trợ vectơ (SVM), K- điểm dữ liệu gần nhất (K-NN), mạng lập thể (Cubist) với tỉ lệ “Huấn luyện”: “Kiểm tra” từ 70:30 đến 85:15 Kết quả thu được cho thấy, mô hình Cubist ở tỷ lệ 70:30 là tối ưu nhất cho bộ dữ liệu tại khu vực lân cận bãi rác Cẩm Hà với độ tin cậy R2 lần lượt là 98,8% và 96%

Đề tài “Sử dụng Data Mining để dự báo nhu cầu lao động cho một số ngành công nghiệp trên địa bàn tỉnh Bình Dương” năm 2019 của tác giả Nguyễn Kim Sơn [6] trình bày các phương pháp cơ bản về dự báo, khai thác dữ liệu, kỹ thuật khai thác dữ liệu và ứng dụng của khai thác dữ liệu trong thực tế Nghiên cứu các kỹ thuật, phương pháp hồi quy trên các thuật toán và ứng dụng vào thực tế bài toán dự báo nhu cầu lao động cho một số ngành nghề trên địa bàn tỉnh Bình Dương

Trang 28

19

Nhìn chung chưa có nghiên cứu nào về khai phá dữ liệu dựa trên dữ liệu về chất lượng đường truyền, thuê bao phát sinh cước của các dịch vụ: FTTH, Mega, MyTV, tỉ lệ sự cố trên tổng thuê bao quản lý, thời gian xử lý trung bình, xử lý khiếu nại, điểm tín nhiệm, độ hài lòng của khách hàng tại VNPT Bình Dương bằng học máy; Nhưng với những nghiên cứu trên chính là cơ sở để chúng tôi phát triển và phân tích bộ dữ liệu tại VNPT từ đó đưa ra các yếu tố ảnh hưởng sự trải nghiệm dịch vụ của khách hàng tại VNPT Bình Dương

2.1 Các mô hình sử dụng trong đề tài

2.1.1 Linear Regression

Linear Regression là một trong những mô hình hồi quy cơ bản trong Machine Learning Nó dự báo một giá trị liên tục (đầu ra) dựa trên một hoặc nhiều giá trị liên tục (đầu vào) Mô hình Linear Regression có thể được sử dụng để dự báo giá trị trung bình của một biến đầu ra dựa trên một hoặc nhiều biến đầu vào [8]

Mô hình Linear Regression dựa trên giả thuyết rằng có một quan hệ tuyến tính giữa đầu vào và đầu ra Nó tìm một đường thẳng hồi quy tuyến tính để tối ưu hóa sai khác biệt giữa dự báo và giá trị thực tế

Công thức của mô hình Linear Regression là một đường thẳng tuyến tính: y = b0 + b1x1 + b2x2 + + bnxn

Trong đó:

y là giá trị dự báo (đầu ra)

x1, x2, xn là các biến đầu vào (độc lập)

b0, b1, b2, bn là các hệ số tuyến tính (tham số mô hình)

Hệ số tuyến tính b0, b1, b2, bn được tìm bằng cách tối ưu hóa sai số giữa giá trị dự báo và giá trị thực tế Có nhiều phương pháp tối ưu hóa như Gradient Descent, Least Squares, …

Linear Regression có thể dùng với một đầu vào hoặc nhiều đầu vào, tùy vào tình huống dự báo

Trang 29

2.1.2 k-Nearest Neighbors

k-NN (k-Nearest Neighbors) là một mô hình học máy cực kỳ đơn giản, dựa trên ý tưởng rằng một điểm dữ liệu mới sẽ có nhãn giống với những điểm gần nó nhất [9] Nó thuộc loại học máy có giám sát (supervised learning), và thường được sử dụng để phân loại hoặc hồi quy Cách hoạt động của k-NN như sau:

- Tìm k điểm dữ liệu gần nhất với điểm dữ liệu mới dựa trên khoảng cách - Sử dụng các nhãn của k điểm dữ liệu gần nhất để dự báo nhãn cho điểm dữ liệu mới

Trong k-NN, số k là một tham số quan trọng, nó có thể được thay đổi để tìm ra giá trị tốt nhất cho mô hình k càng lớn thì dự báo sẽ trở nên chính xác hơn, nhưng cũng sẽ tăng thời gian tính toán

Công thức của k-NN (k-Nearest Neighbors) không có một công thức chính thức như các mô hình học máy khác, vì nó chủ yếu dựa trên ý tưởng tìm kiếm các điểm dữ liệu gần nhất với điểm dữ liệu mới Quy trình hoạt động của k-NN như sau:

- Nhập vào tập dữ liệu huấn luyện và điểm dữ liệu mới cần dự báo

Trang 30

k-NN (k-Nearest Neighbors) là một mô hình học máy rất đơn giản và dễ triển khai, nó có một số ưu điểm và nhược điểm như sau:

- Tốn thời gian tính toán: k-NN tốn thời gian tính toán khi tìm kiếm các điểm gần nhất, điều này càng trở nên khó khăn khi số lượng điểm dữ liệu càng lớn

- Không tốt trong các bài toán có quá nhiều đặc trưng: k-NN không tốt trong các bài toán có quá nhiều đặc trưng, vì nó sẽ tốn thời gian tính toán và gây nhiễu cho kết quả dự báo

- Cần chọn k tốt: k là một tham số quan trọng trong k-NN, cần chọn k tốt để thuật toán được chính xác hơn

2.1.3 Decision Trees

Mô hình cây quyết định (Decision Trees) là một phương pháp học máy có giám sát được sử dụng rộng rãi trong khai phá dữ liệu Nó sử dụng các quy tắc đơn giản để tạo ra một cây quyết định dự đoán giá trị mục tiêu dựa trên các đặc trưng đầu

Trang 31

22

vào [10] Mỗi nút trên cây quyết định đại diện cho một điều kiện đầu vào, và nhánh đại diện cho các giá trị của điều kiện đó Bạn có thể sử dụng mô hình cây quyết định để phân loại hoặc hồi quy dữ liệu

Các mô hình cây quyết định rất dễ hiểu và dễ sử dụng, nhưng cũng có một số hạn chế cần lưu ý Một trong những hạn chế chính là rằng các cây quyết định có thể dễ dàng quá chỉnh sát với tập dữ liệu huấn luyện, điều này có nghĩa là mô hình có thể không hoạt động tốt với tập dữ liệu mới Ngoài ra, các cây quyết định có thể không tốt với tập dữ liệu có nhiều đặc trưng hoặc nhiều nhãn

Để giải quyết những vấn đề này, có nhiều phương pháp được sử dụng, bao gồm: chọn tập dữ liệu huấn luyện phù hợp, sử dụng các thuật toán khác nhau để tạo ra cây quyết đị Công thức của mô hình cây quyết định dựa trên việc tìm kiếm các điều kiện đầu vào tốt nhất để phân chia tập dữ liệu thành các nhóm có giá trị mục tiêu tương tự

Các thuật toán được sử dụng để tạo ra cây quyết định bao gồm ID3, C4.5, C5.0 và CART Mỗi thuật toán sử dụng một công thức khác nhau để tìm kiếm điều kiện tốt nhất, nhưng chung chung đều sử dụng các đặc trưng đầu vào và giá trị mục tiêu để tạo ra cây quyết định

Chi tiết công thức của từng thuật toán đều khá phức tạp và có thể đòi hỏi một số kiến thức về thuật toán và học máy Nếu bạn muốn tìm hiểu thêm, tôi khuyên bạn nên tìm hiểu về các thuật toán đó trong nguồn tài liệu về học máy, và sử dụng các phương pháp tổng quát hóa để tránh quá chỉnh sát

Mô hình cây quyết định có một số ưu điểm và khuyết điểm chính Ưu điểm:

- Dễ hiểu và dễ sử dụng: Cây quyết định có thể dễ dàng hiểu và giải thích bằng ngôn ngữ tự nhiên, do đó rất dễ dàng cho người dùng không có kiến thức chuyên sâu về học máy

- Khả năng chấp nhận đặc trưng liên tục và categorical: Mô hình cây quyết định có thể chấp nhận cả đặc trưng liên tục và categorical

Ngày đăng: 14/06/2024, 08:53

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan