Dự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạngDự báo khách hàng sử dụng dịch vụ FIBERVNN của VNPT Tây Ninh có nguy cơ rời mạng
Trang 1-
DƯƠNG MINH LÝ
DỰ BÁO KHÁCH HÀNG SỬ DỤNG
DỊCH VỤ FIBERVNN CỦA VNPT TÂY NINH
CÓ NGUY CƠ RỜI MẠNG
Chuyên ngành: Hệ Thống thông tin
Mã số: 8.48.01.04
TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
Trang 2Đề án tốt nghiệp được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS TS Vũ Đức Lung
Phản biện 1: ………
Phản biện 2: ………
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Như chúng ta đã biết, thị trường viễn thông gần như
đã đi vào giai đoạn bão hòa, khách hàng ngày càng đòi hỏi cao về chất lượng dịch vụ Hơn nữa, khách hàng hiện có nhiều lựa chọn và có quyền chuyển đổi nhà cung cấp dịch
vụ nếu không hài lòng Mở rộng thị phần càng khó khăn và khái niệm khách hàng phát triển mới đang dần thay đổi thành khách hàng chuyển từ nhà cung cấp dịch vụ khác chuyển sang Vì thế, việc hạn chế khách hàng rời mạng hay nói cách khác là giữ chân khách hàng sử dụng dịch vụ là mục tiêu song song với việc phát triển một khách hàng mới
Để quản trị số liệu về khách hàng rời mạng áp dụng cho dịch vụ FiberVNN, VNPT Tây Ninh đang quản trị theo
tỷ lệ khách hàng rời mạng/khách hàng phát triển mới, con
số thực tế được thống kê trong 3 tháng 10/2022, 11/2022, 12/2022 lần lượt là:
Trang 4thể cảnh báo được danh sách khách hàng của nguy cơ rời mạng là vô cùng cấp thiết
Xuất phát từ những lý do trên, học viên chọn đề tài
nghiên cứu “Dự báo khách hàng sử dụng dịch vụ
FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng”
làm đề án tốt nghiệp cho chương trình đào tạo thạc sĩ của mình
Mục tiêu của đề án là thu thập thông tin khách hàng,
xử lý dữ liệu và áp dụng các thuật toán máy học để xây dựng mô hình dự báo danh sách khách hàng đang sử dụng
có nguy cơ rời mạng làm cơ sở để áp dụng các chính sách thích hợp nhằm giữ chân khách hàng sử dụng dịch vụ Nội dung của đề án được trình bày trong bốn chương nội dung chính như sau:
Chương 1: Tổng quan về đề tài
Trong chương này sẽ trình bày các khái niệm về khách hàng rời mạng, tổng quan về các phương pháp dự báo khách hàng rời mạng Ngoài ra chương này còn trình bày về những dự án đã thực hiện về việc dự báo khách hàng sử dụng dịch vụ có nguy cơ rời mạng trong và ngoài nước
Chương 2: Các lý thuyết liên quan
Chương này sẽ giới thiệu cơ sở lý thuyết về kỹ thuật khai phá dữ liệu, phương pháp học máy cũng như trình bày
2 công cụ thực hiện công việc trên là phần mềm WEKA để khai phá, tiền xử lý dữ liệu, Azure Machine Learning để xây dựng mô hình dự báo Cũng trong chương này, một số thuật toán máy học trên Azure Machine Learning cũng được giới thiệu và so sánh với các thuật toán cùng loại trước
nó
Trang 5Chương 3: Phương pháp dự báo khách hàng có nguy
Chương 4: Thử nghiệm và đánh giá kết quả
Chương này sẽ trình bày về tiền xử lý dữ liệu để lọc các thuộc tính có tác động đến khả năng rời mạng khách hàng cũng như xử lý các dữ liệu bất thường có thể làm nhiễu kết quả dự báo Dùng phần mềm Azure Machine Learning
để áp dụng thuật toán máy học vào bộ dữ liệu đã thực hiện tiền xử lý và đánh giá kết quả dự báo của mô hình
Trang 6Chương 1 TỔNG QUAN VỀ ĐỀ TÀI
Bảng 1.1: Chi phí phát triển một khách hàng mới
1 Chi phí lắp đặt
+ hoa hồng
- Lắp đặt: 100.000 VNĐ/KH
- Hoa hồng: 150.000 VNĐ/KH
3 tháng liền kề – 180.000 VNĐ/tháng) Ta có thể thấy chi phí để giữ chân một khách hàng thấp đáng kể so với chi phí
để phát triển một khách hàng mới
Trang 71.2 Các nghiên cứu ngoài nước
Hiện nay, trên thế giới có rất nhiều nghiên cứu về việc áp dụng các mô hình máy học để dự báo khách hàng
có nguy cơ rời bỏ trong lĩnh vực viễn thông cũng như các lĩnh vực khác
- Tác giả Ming Zhao [7] cùng các cộng sự từ Đại học kinh doanh và công nghệ Trùng Khánh, Trung Quốc áp dụng thuật toán hồi quy logistic dựa trên dữ liệu lớn về hoạt động khách hàng để xác định các khách hàng có khả năng rời mạng Nghiên cứu này tập trung vào đối tượng khách hàng mang lại doanh thu cao cho ngành viễn thông Trung Quốc
- Tác giả T.Vafeiadis [8] cùng các cộng sự đến từ Học viện Giáo dục Công nghệ Alexander của Thessaloniki
áp dụng thuật toán máy học như Artificial Neural Networks, Decision Trees, Regression Analysis, Logistic Regression, Support Vector Machines, … và các phiên bản tăng cường để tìm ra thuật toán tối ưu nhất nhằm dự báo chính xác khách hàng có nguy cơ rời mạng trong lĩnh vực viễn thông Tập dữ liệu áp dụng là tập khách hàng di động với các thuộc tính là thông tin tiêu dùng trong quá trình sử dụng dịch vụ
- Năm 2019, Tác giả Nasebah Almufadi [9] cùng các cộng sự đến từ Đại học Qassim, Al-Mulaida, Ả Rập Saudi đã áp dụng các phương pháp học sâu để dự đoán khách hàng sử dụng dịch vụ di động của một công ty viễn thông có nguy cơ rời mạng hay nói cách khác là chuyển từ nhà cung cấp dịch vụ này sang nhà cung cấp dịch vụ khác
Cụ thể trong nghiên cứu này, tác giả và cộng sự đã sử dụng
Trang 8phần mềm WEKA để tiền xử lý dữ liệu tập khách hàng với hơn 48 thuộc tính, sử dụng mô hình Mạng nơ-ron tích chập (CNN) để huấn luyện tập dữ liệu đã được tiền xử lý Mô hình được xây dựng và kết quả dự đoán với độ chính xác 96%
- Tác giả Junxiang Lu[10] cùng các cộng sự đến từ Công ty Sprint Communications, Overland Park, Kansas, USA áp dụng thuật toán phân tích sinh tồn nhằm dự báo thời gian duy trì sử dụng dịch vụ nhà cung cấp của khách hàng trong tương lai cũng như nguy cơ khách hàng sẽ rời
bỏ nhà cung cấp dịch vụ để sử dụng dịch vụ của nhà cung cấp khác
1.3 Các nghiên cứu trong nước
Việc áp dụng các thuật toán phân cụm, phân lớp, máy học để dự báo xuất hiện nhiều ở các lĩnh vực như chứng khoán, bất động sản, viễn thông, Một số luận văn
áp dụng các thuật toán máy học để thực hiện dự báo khách hàng rời mạng như:
- Năm 2014, tác giả Nguyễn Thị Như Ngọc [1], Trường Đại học Công Nghệ – Đại học Quốc gia Hà Nội dùng thuật toán cây quyết định C4.5, Naive Bayes, Support Vector Machine và Neural Networks để phân lớp dự đoán thuê bao rời mạng viễn thông Tác giả thực hiện phân tích các hoạt động, hành vi trước khi rời mạng của các thuê bao bằng các phương pháp khai phá dữ liệu nhằm phát hiện những yếu tố liên quan đến việc rời mạng của thuê bao Với việc phân lớp dữ liệu dùng các thuật toán trên thì kết quả đạt được của dự án là khoản hơn 60%
Trang 9- Năm 2016, tác giả Nguyễn Như Thế [2], Trường Đại học Thái Nguyên đã áp dụng các phương pháp phân lớp như cây quyết định C4.5, phương pháp Naive Bayes, phướng pháp Support Vector Machine để dự báo thuê bao rời mạng viễn thông Dữ liệu khách hàng được mô tả qua
101 thuộc tính, qua quá trình trích xuất đặc trưng, tác giả chọn lọc được 20 thuộc tính ảnh hưởng trực tiếp đến quá trình dự báo để đưa vào mô hình huấn luyện Sử dụng phần mềm R để áp dụng các thuật toán phân lớp như cây quyết định C4.5, Naive Bayes, Support Vector Machine, tác giả thu được kết quả dự báo của thuật toán Cây quyết định C4.5
là tốt nhất với độ chính xác 93.58%
- Năm 2018, tác giả Lê Trương Trọng Duy [3], Trường Đại học Bách Khoa TP HCM đã áp dụng mô hình mạng hỗn hợp Nơron nhân tạo (ANN) kết hợp cây quyết định (Decision Tree) để dự báo khách hàng rời mạng viễn thông cho luận văn thạc sĩ của mình Qua kết quả thực nghiệm, tác giả cho thấy sự hiệu quả của việc kết hợp Mạng Nơron nhân tạo và Cây quyết định sẽ cho thời gian thực thi nhanh hơn, độ chính xác tốt hơn so với giải thuật kết hợp ANN + ANN
- Năm 2019, tác giả Đoàn Văn Tâm [4], Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội đã đề xuất một kỹ thuật dựa trên việc kết hợp nhiều phương pháp học máy cũng như trích xuất các đặc trưng nổi trội cho các hành
vi tiêu dùng viễn thông nhằm làm tăng độ chính xác của mô hình dự đoán trong bài toán “Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động” Cụ thể tác giả sử dụng công cụ khai phá dữ liệu Knime để áp dụng các thuật toán như KNN, SVM, cây
Trang 10quyết định trên tập dữ liệu gồm 26 thuộc tính đặc trưng được trích xuất trong quá trình tiền xử lý dữ liệu So với kết quả thực nghiệm của từng thuật toán thì phương pháp kết hợp cả 3 thuật toán cho kết quả tốt hơn với Micro-F 0.71
- Năm 2021, tác giả Nguyễn Xuân Sang [5], Học viện Công nghệ Bưu chính Viễn Thông HCM đã áp dụng thuật toán Logistic Regression và Support Vector Machine trong luận văn thạc sĩ “Cải tiến thuật toán SVM với SVM song song, ứng dụng vào phân lớp và dự báo số khách hàng
sử dụng di động” Dư liệu khách hàng được thu thập từ tháng 07/2019 đến tháng 12/2019 Bằng cách áp dụng nhiều thuật toán vào mô hình dự báo thì thuật toán Logistic Regression và Support Vector Machine dự báo kết quả tốt nhất 91.4%
Tại hội nghị FAIR 2022:
- Tác giả Phạm Thị Thu Thúy [9] cùng các cộng sự trường Đại học Nha Trang đã trình bày công trình
“Application of the promotion model based customer lifetime value to prevent customers transfer network in VNPT Lam Dong” Trong công trình này, các tác giả đã áp dụng các thuật toán như Decision Tree, XGBoost, LightGBM, KNeighbors và Random Forest để phân loại khách hàng và tính toán giá trị khuyến mãi cho khách hàng dựa vào các tham số đầu vào như độ tuổi khách hàng, thời gian sử dụng, số lần báo hỏng dịch vụ
- Tác giả Vũ Văn Hiệu [6] cùng các cộng sự Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và công nghệ Việt Nam, Học viện Chính sách và Phát triển đã trình bày công trình “Ứng dụng phân lớp dữ liệu trong dự báo khách hàng rời bỏ dịch vụ tại Ngân hàng thương mại” Phương
Trang 11pháp đề xuất đã thu được kết quả tốt với các chỉ số accuracy
là 95.36%, recall là 95.57%, precision là 95.45% và F1 score là 95.51%
Qua một số công trình nghiên cứu trong nước và ngoài nước về dự báo khách hàng rời bỏ dịch vụ như đã mô
tả ở trên, ta có thể thấy để giải quyết bài toán này có 2 lĩnh vực: Học sâu (deep learning) và máy học (machine learning)
Trong khuôn khổ đề án này, để dự báo khách hàng
sử dụng dịch vụ viễn thông trên địa bàn Tây Ninh có nguy
cơ rời mạng ta có lượng dữ liệu không quá lớn (khoảng 150 ngàn dòng dữ liệu) bên cạnh đó để mô hình dự báo tốt ta cần phải trích xuất các thuộc tính đặc trưng của dữ liệu, tránh những thuộc tính gây nhiễu kết quả - điều này cần phải có kiến thức về nghiệp vụ khách hàng cũng như có kinh nghiệm xử lý dữ liệu thu thập được mới đảm bảo tập
dữ liệu đưa vào huấn luyện là cô đọng và tối ưu nhất
Cũng trong các nghiên cứu ở trên, việc áp dụng các thuật toán tăng cường Adaptive Boosting sẽ cải tiến đáng
kể kết quả dự báo của mô hình Và Azure Machine Learning là một phần mềm máy học tích hợp hầu như tất cả các thuật toán dự báo bao gồm cả các thuật toán được cải tiến bằng cách áp dụng thêm các thuật toán tăng cường,
Từ hai lý do trên, hướng tiếp cận của đề án sẽ là sử dụng phần mềm Azure Machine Learning để xây dựng mô hình dự báo thuê bao rời mạng với các thuật toán máy học
đã được tích hợp thuật toán tăng cường Adaptive Boosting
Trang 12Chương 2 CÁC LÝ THUYẾT LIÊN QUAN 2.1 Kỹ thuật khai phá dữ liệu và phương pháp
học máy
2.1.1 Kỹ thuật khai phá dữ liệu
Kỹ thuật khai phá dữ liệu[12] (Data Mining) là quá trình tìm kiếm, khám phá và phân tích các mẫu tiềm ẩn, thông tin hữu ích và kiến thức bất ngờ từ một tập dữ liệu lớn Nó liên quan đến việc áp dụng các phương pháp, thuật toán và công cụ tính toán để tìm hiểu sâu và khám phá thông tin ẩn trong dữ liệu
Các bước thực hiện trong quy trình khai phá dữ liệu:
Trang 132.1.2 Phương pháp học máy
Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể
Phân loại học máy:
- Học có giám sát (Supervised Learning)
- Học không giám sát (Unsupervised Learning)
- Học máy bán giám sát (unsupervised learning)
Hình 2.2: Các phương pháp học máy
Một số phương pháp đánh giá mô hình học máy:
- Chia dữ liệu và kiểm tra
- Cross-validation
- Confusion matrix
- Curve ROC và AUC
- Brier score và log loss
Trang 14Ngoài ra, còn có nhiều phương pháp khác như precision, recall, F1-score, và các phương pháp đánh giá đặc thù cho các bài toán dự báo khác nhau Việc lựa chọn phương pháp đánh giá phụ thuộc vào bài toán và mục tiêu
cụ thể
2.2 Tổng quan Azure Machine Learning và phần
mềm Weka
2.2.1 Azure Machine Learning
Azure Machine Learning [13] (AML) là một dịch vụ đám mây của Microsoft Azure được thiết kế để hỗ trợ việc xây dựng, triển khai và quản lý các mô hình học máy Nó cung cấp một môi trường làm việc tích hợp cho các nhà phân tích dữ liệu và nhà phát triển để thực hiện các tác vụ liên quan đến học máy và trí tuệ nhân tạo
Azure Machine Learning cung cấp các tính năng và công cụ để:
- Chuẩn bị dữ liệu
- Xây dựng mô hình
- Đánh giá và tinh chỉnh mô hình
- Triển khai mô hình
- Quản lý và giám sát
Azure Machine Learning là một giải pháp mạnh mẽ
và linh hoạt để triển khai các dự án học máy trong môi trường đám mây và hỗ trợ tích hợp tốt với các dịch vụ và công cụ khác trong hệ sinh thái của Microsoft Azure
2.2.2 Phần mềm Weka
WEKA là một phần mềm mã nguồn mở được sử dụng rộng rãi trong lĩnh vực khai phá dữ liệu và học máy Tên WEKA là viết tắt của "Waikato Environment for
Trang 15Knowledge Analysis" Nó được phát triển tại Đại học Waikato, New Zealand và cung cấp một loạt các công cụ
và thuật toán để tiến hành các công việc khai phá dữ liệu và xây dựng mô hình học máy
WEKA hỗ trợ nhiều công cụ và thuật toán cho các tác vụ khai phá dữ liệu như: tiền xử lý dữ liệu, lựa chọn đặc trưng, phân loại, hồi quy, gom cụm, khám phá quy tắc, và nhiều thuật toán khác Người dùng có thể chọn và áp dụng các thuật toán khai phá dữ liệu khác nhau, điều chỉnh các tham số và đánh giá hiệu suất của mô hình trên dữ liệu
2.3 Một số thuật toán dự báo trên Azure Machine Learning
2.3.1 Two-Class Support Vector Machine
Two-Class Support Vector Machine (2CLS_SVM)
là một thuật toán học máy được sử dụng để phân loại các điểm dữ liệu vào hai lớp khác nhau
2.3.2 Two-Class Neural Network
Two-Class Neural Network (2CLS_NN) là một kiểu mạng nơ-ron nhân tạo đơn giản bao gồm hai lớp: lớp đầu vào và lớp đầu ra Nó được sử dụng để giải quyết các bài toán phân loại với chỉ hai lớp dữ liệu khác nhau
2.3.3 Two-Class Logistic Regression
Two-Class Logistic Regression (2CLS_LG) là một thuật toán phân loại dữ liệu trong học máy Thuật toán này được sử dụng để phân loại các điểm dữ liệu vào hai lớp khác nhau
Trang 162.3.4 Two-Class Decision Forest
Thuật toán Two-Class Decision Forest (2CLS_DF)
là một thuật toán học máy trong đó được sử dụng để phân loại các điểm dữ liệu vào hai lớp khác nhau
Thuật toán Two-Class Boosted Decision Tree (2CLS_BDT) là một thuật toán học máy được sử dụng để phân loại các điểm dữ liệu vào hai lớp khác nhau Nó kết hợp giữa kỹ thuật rừng quyết định (decision forest) và kỹ thuật boosting, tạo ra một mô hình phân loại có tính chính xác cao và khả năng tổng quát hóa tốt
Đến đây, câu hỏi đặt ra là các thuật toán vừa trình bày có
gì khác so với các thuật toán trước đó cùng cách hoạt động Dưới đây là một số ưu điểm:
- Hiệu suất cao: Two-Class Boosted thường cho kết quả phân loại tốt hơn so với một số thuật toán truyền thống khác, đặc biệt là trên các tập dữ liệu phức tạp
- Chống overfitting: Two-Class Boosted có khả năng kiểm soát hiện tượng overfitting bằng cách tạo ra các
bộ phân loại yếu có trọng số, nhằm cân bằng dữ liệu và giảm thiểu sự thiên lệch
- Khả năng xử lý nhiễu: Với việc sử dụng nhiều bộ phân loại yếu, Two-Class Boosted có khả năng xử lý tốt các điểm dữ liệu nhiễu trong tập huấn luyện