Những kĩ thuật phổ biến để giải quyết dữ liệu mất cân bằng trong bài toán thuê bao rời bỏ nhà mạng thuộc hai nhóm chính sau: kĩ thuật lấy mẫu để làm cân bằng tập dữ liệu trước khi huấn l
T ỔNG QUAN VỀ ĐỀ TÀI
Trong bối cảnh các nhà cung cấp dịch vụ mạng viễn thông cạnh tranh nhau để thu hút khách hàng thì việc tìm hiểu hành vi người dùng nhằm xác định tập khách hàng có nguy cơ rời bỏ nhà mạng là nhu cầu cấp thiết Vì chi phí để giữ khách hàng tiếp tục sử dụng thấp hơn rất nhiều chi phí bỏ ra để thu hút khách hàng mới, hơn nữa với tình trạng bão hoà khách hàng hiện nay thì việc để mất khách hàng sẽ gây thiệt hại lớn cho các nhà cung cấp dịch vụ mạng viễn thông đứng trước sức ép cạnh tranh Do đó với việc dự đoán trước được khả năng khách hàng có nguy cơ rời bỏ sẽ giúp doanh nghiệp điều chỉnh chiến lược kinh doanh, tối ưu được chi phí
Lĩnh vực học máy được áp dụng thành công trong nhiều lĩnh vực để dự đoán được hành vi khách hàng dựa vào dữ liệu quá khứ, trong bài toán dự báo thuê bao rời bỏ nhà mạng, chiến lược được áp dụng là sử dụng giải thuật phân lớp với mô hình học có giám sát để phân tách được hành vi rời bỏ nhà mạng và không rời bỏ nhà mạng, sau đó dùng mô hình học này để dự đoán đối với các khách hàng đang sử dụng, để biết được khả năng tiềm ẩn họ có hành vi rời bỏ nhà mạng đang sử dụng trong tương lai hay không Đề tài này đầu tiên tìm hiểu tổng quan các cách tiếp cận khác nhau dựa trên học máy cũng như mạng nơ ron học sâu để giải bài toán Trong đó quan tâm đến các khía cạnh là đánh giá lại khả năng áp dụng các mạng nơ ron học sâu (deep neural network) vào bài toán này so với các giải thuật học máy căn bản khác như thế nào Quan trọng hơn tìm hiểu các khía cạnh then chốt ảnh hưởng đến hiệu năng phân lớp như tính mất cân bằng trong tập dữ liệu và tính bất ổn định của bộ phân lớp theo thời gian khi dữ liệu thực tế bị thay đổi theo thời gian Từ đó đưa ra cách tiếp cận, xây dựng chiến lược học và sử dụng cái giải thuật học máy chọn lọc phù hợp với tập dữ liệu và vấn đề ứng dụng cần quan tâm.
M ỤC ĐÍCH NGHIÊN CỨU
Có nhiều công trình nghiên cứu về khả năng áp dụng các giải thuật học máy cũng như mạng nơ ron học sâu để giải quyết bài toán phân lớp thuê bao có rời bỏ nhà mạng hay không, tuy nhiên nhiều phương pháp đề xuất hạn chế khả năng áp dụng trong thực tế do nhiều nguyên nhân như nguồn dữ liệu huấn luyện hạn chế về số lượng dữ liệu, về tính liên tục theo thời gian, cũng như dữ liệu mất cân bằng (Imbalanced Data) do nhãn thu được khách hàng đã rời bỏ nhà mạng thường rất hiếm Do vậy đề tài đánh giá lại khả năng áp dụng mạng nơ ron học sâu với bài toán dự đoán thuê bao rời bỏ nhà mạng, cũng như tập trung tìm hiểu các khía cạnh từ việc hạn chế về tính mất cân bằng dữ liệu hay khả năng mô hình sẽ không học tốt trong tương lai do hành vi khách hàng thay đổi theo thời gian để đề xuất một chiến lược áp dụng các giải thuật học máy truyền thống, các mô hình mạng nơ ron học sâu, các phương pháp kết hợp nhiều bộ phân lớp (ensemble) , khả năng tạo ra tập dữ liệu mới từ mô hình sinh xác suất, kĩ thuật học thích nghi với tập dữ liệu thay đổi theo thời gian Mục đích nhằm tạo ra sự phối hợp linh hoạt để cải thiện hiệu năng phân lớp của mô hình dự đoán thuê bao rời bỏ nhà mạng có khả năng ứng phó tốt với khía cạnh về dữ liệu mất cân bằng và thích nghi với việc dữ liệu thay đổi theo thời gian.
Đ ỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
Đề tài này tập trung vào hai đối tượng nghiên cứu sau:
• Giải quyết vấn đề dữ liệu mất cân bằng (Imbalanced data) vì nguồn dữ liệu huấn luyện trong thực tế hay gặp phải mà các giải thuật phân lớp chưa có khả năng học tốt nhóm dữ liệu có ít nhãn (nhóm thiểu số)
• Xây dựng bộ phân lớp hiệu quả dựa vào kĩ thuật học thích nghi để giải quyết vấn đề mô hình thông thường sẽ không học tốt khi áp dụng trong thời gian dài do hành vi của khách hàng thay đổi theo thời gian
3 Việc nghiên cứu dựa trên dữ liệu được thu thập từ nhà cung cấp dịch vụ viễn thông được dùng làm tiêu chuẩn cho các mô hình dự đoán sử dụng các kĩ thuật thống kê, học máy Dữ liệu mô tả hành vi sử dụng mạng viễn thông bao gồm:
• Hành vi sử dụng điện thoại trong ngày, trong tuần, trong tháng
• Thông tin về nhân khẩu học (dermographic) của khách hàng
• Thông tin về các gói dịch vụ mạng, các gói giá trị gia tăng
• Thông tin về dữ liệu mạng và chi phí nộp tiền dịch vụ mạng
K ẾT QUẢ ĐẠT ĐƯỢC
Trong luận văn đã tìm hiểu hai vấn đề quan trọng ảnh hướng đến hiệu năng phân lớp của bài toán dự báo thuê bao rời bỏ nhà mạng Trong đó giải quyết vấn đề mất cân bằng dữ liệu tiếp cận theo hai phương diện: phương diện về dữ liệu và phương diện về hàm mất mát Trong đó phương diện hàm mất mát mang lại hiệu quả đáng kể về hiệu năng phân lớp cũng như thời gian chạy
Về vấn đề độ lệch dữ liệu thay đổi theo thời gian, luận văn áp dụng kĩ thuật tìm kiếm đối kháng (Adversarial Search) và phương pháp nghịch đảo trọng số của hệ số xu hướng (Inverse
Propensity Weighting) nhằm giúp cân bằng phân bố dữ liệu tập kiểm thử và tập huấn luyện Cách tiếp cận này mang lại kết quả phân lớp tốt hơn so với các phương pháp truyền thống, đồng thời mở ra tiềm năng to lớn khi có thể phát hiện và điều chỉnh mô hình học tự động theo thời gian Điều này quan trọng khi triển khai mô hình dự đoán sử dụng học máy trong thực tế.
C ẤU TRÚC LUẬN VĂN
Chúng tôi xin được trình bày cấu trúc của luận văn để người đọc tiện theo dõi hoặc tra cứu tham khảo sau này
CHƯƠNG 1 GIỚI THIỆU nhằm giới thiệu tổng quan về bài toán dự báo thuê bao rời bỏ nhà mạng bao gồm phần giới thiệu vấn đề, mục đích, đối tượng và phạm vi nghiên cứu và kết quả đạt được
CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN bao gồm các công trình nghiên cứu liên quan đến bài toán dự đoán thuê bao rời bỏ nhà mạng Đặc biệt trình bày các nghiên cứu gần đây để giải quyết vấn đề mất cân bằng dữ liệu và vấn đề độ lệch phân bố dữ liệu thay đổi theo thời gian
CHƯƠNG 3 CƠ SỞ LÝ THUYẾT đầu tiên trình bày sơ lược về vấn đề dữ liệu mất cân bằng và các phương pháp cơ bản để giải quyết Tiếp theo đó trình bày bốn phương pháp chính được chọn trong luận văn để giải quyết vấn đề dữ liệu mất cân bằng, các phương pháp bao gồm: SMOTE, DBN, hàm mất mát Focal và hàm mất mát entropy theo trọng số Tiếp theo trình bày vấn đề độ lệch phân bố dữ liệu và các phương pháp cơ bản để giải quyết trong đó nhấn mạnh hai kĩ thuật: kĩ thuật tìm kiếm đối xứng và kĩ thuật đảo ngược trọng số của hệ số xu hướng
CHƯƠNG 4 PHƯƠNG PHÁP TIẾP CẬN bao gồm 2 phương pháp chính là giải quyết dữ liệu mất cân bằng và độ lệch phân bố dữ liệu
CHƯƠNG 5 HIỆN THỰC VÀ THỰC NGHIỆM là kết quả thực nghiệm dựa trên các phương pháp thực hiện ở CHƯƠNG 4
CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN nêu ra một số kết luận và nhận xét được đúc kết trong quá trình hiện thực nhằm mục tiêu cải thiện hiệu năng phân lớp cho bài toán dự báo thuê bao rời bỏ nhà mạng Phần cuối là trình bày các hướng phát triển trong tương lai
CÁC CÔNG TRÌNH LIÊN QUAN
M Ô HÌNH ÁP DỤNG CÁC GIẢI THUẬT HỌC MÁY CĂN BẢN VÀ MẠNG NƠRON HỌC SÂU
Trong bài toán dự báo thuê bao rời bỏ nhà mạng, các phương pháp khai phá dữ liệu theo hướng thống kê truyền thống cũng như sử dụng các giải thuật học máy được áp dụng rộng rãi Kĩ thuật khai quá dữ liệu tiếp cận theo phương pháp thống kê truyền thống như Hồi Quy Logistics [1], mô hình phi tham số như k lân cận gần nhất ([2], [3]), cây quyết định ([4], [5]), mạng nơron nhân tạo ([6], [7]), máy vector hỗ trợ [8], các mô hình tổ hợp bộ phân lớp (kĩ thuật ensemble) ([9], [10]) Tuy nhiên bài toán dự báo thuê bao rời bỏ nhà mạng thường gặp phải vấn đề dữ liệu mất cân bằng, trong đó nhóm dữ liệu rời bỏ thường chiếm tỉ lệ rất thấp, trung bình chỉ chiếm khoảng 2% thuê bao Các phương pháp truyền thống gặp nhiều khó khăn khi làm việc trên dữ liệu mất cân bằng, do các phương pháp này được thiết kế chỉ chú trọng vào tính chất của dữ liệu nhóm đa số, trong trường hợp này là nhóm không rời bỏ nhà mạng
Sự thành công của mô hình mạng nơ ron học sâu trong lĩnh vực xử lí ảnh, xử lí ngôn ngữ tự nhiên… nhờ khả năng tạo được đặc trưng bậc cao và khả năng học được lượng lớn dữ liệu Với bài toán thuê bao rời bỏ nhà mạng, trong thực tế tập dữ liệu khách hàng đến từ nhiều nguồn khác nhau, đặc trưng và tính chất khác nhau, đối với mô hình học truyền thống việc trích xuất đặc trưng thủ công sẽ mất nhiều thời gian và không có khả năng được áp dụng cho tập dữ liệu từ nguồn khác Spanoudes và Nguyen năm 2017 [11] cố gắng giải bài toán này bằng việc sử dụng mạng nơ ron học sâu để tự động trích xuất được đặc trưng từ nhiều nguồn dữ liệu khác nhau, cách tiếp cận này phù hợp với thực tế về tính linh động của mô hình học với sự thay đổi dữ liệu huấn luyện từ nhiều nguồn khác nhau nhưng kết quả còn hạn chế vì một số đặc trưng đặc biệt cần được trích xuất tường minh bằng sự hiểu biết sâu về tính chất của hành vi khách hàng rời bỏ nhà mạng Một số nghiên cứu áp dụng mô hình mạng nơ ron tích chập (convolutional neural networks - CNN) và auto-encoder [12], trong đó hành vi người dùng được lấy trong một khoảng thời gian để xây dựng nên không gian vector hai chiều tương tự dữ liệu hình ảnh, trong mô hình này phụ thuộc vào dữ liệu thu thập được từ nhiều ngày từ nhà cung cấp dịch vụ mạng để xây dựng được hành vi người dùng theo thời gian Nghiên cứu [13] áp dụng nhiều mô hình CNN làm bộ phân lớp cơ sở cho mô hình học kết hợp giữa giải thuật di truyền kết hợp với kĩ thuật Ada Boosting Do dữ liệu ban đầu trên không gian một chiều nên tác giả đã ánh xạ qua không gian hai chiều để làm đầu vào cho mạng CNN, việc ánh xạ sử dụng kĩ thuật nội suy thử nhiều lần để kết quả nội suy gần với không gian vector ban đầu nhất, quá trình huấn luyện tốn rất nhiều thời gian vì sử dụng nhiều bộ phân lớp CNN được chọn lọc, tinh chỉnh từ không gian cá thể ban đầu qua sự kết hợp giữa cách tạo ra quần thể mô hình thế hệ tiếp theo và sự chọn lựa cá thể đi tiếp dựa trên giải thuật Ada Boosting
Qua các nghiên cứu gần đây chúng tôi thấy được bài toán dự báo thuê bao rời bỏ nhà mạng được áp dụng nhiều kĩ thuật học máy mới nhất hiện nay như mạng nơron học sâu kết hợp với kĩ thuật học chuyển giao và các kĩ thuật phối hợp, tăng cường nhiều bộ phân lớp như giải thuật di truyền, giải thuật boosting Song song bên cạnh đó, các kĩ thuật xử lí dữ liệu để tránh tập dữ liệu bị mất cân bằng cũng được áp dụng kèm theo Chúng tôi thấy rằng, với sự kết hợp các kĩ thuật mới nhất của lĩnh vực học máy và tối ưu đem lại tiềm năng to lớn đối với mô hình dự báo thuê bao nhà mạng nói riêng và các bài toán phân lớp nói chung, để giải quyết hai tính chất quan trọng nhất của bài toán phân lớp trong thực tế là tập dữ liệu thường bị mất cân bằng và tính dịch chuyển, không đồng nhất của phân bố xác xuất tập dữ liệu huấn luyện và tập dữ liệu kiểm thử thực tế
Chúng tôi tập trung tìm hiểu các công trình liên quan đến vấn đề giải quyết tập dữ liệu mất cân bằng và vấn đề phân bố dữ liệu thay đổi theo thời gian
M Ô HÌNH ÁP DỤNG CÁC KĨ THUẬT HỌC CHUYỂN GIAO ( TRANSFER LEARNING )
Gần đây với xu hướng học chuyển giao (transfer learning) được áp dụng thành công trong mảng xử lí ảnh dùng kĩ thuật học sâu, học chuyển giao đã được áp dụng vào bài toán xác định thuê bao rời bỏ nhà mạng đạt được kết quả khả quan Với giả định thực tế là khi tập khách hàng đến từ các vùng miền khác nhau có đặc trưng khác nhau về kinh tế, vùng miền, nghề nghiệp… thì tập dữ liệu trong công tác nguồn và tập dữ liệu trong công tác đích sẽ có phân bố xác suất khác nhau, thậm chí trong trường hợp tập dữ liệu trong công tác nguồn và tập dữ liệu trong công tác đích có cùng phân bố xác xuất thì có thể xảy ra trường hợp tập dữ liệu huấn luyện và tập kiểm thử có sự khác biệt phân bố vì hành vi khách hàng sử dụng sẽ thay đổi theo thời gian Vấn đề này gây khó khăn với cái giải thuật học máy căn bản vì các giải thuật này giả định rằng phân bố tập huấn luyện và tập kiểm thử phải cùng phân bố xác suất Học chuyển giao sẽ giải quyết vấn đề này khi áp dụng kiến thức được học từ một tập công tác nguồn sau đó lấy kiến thức kết hợp với tập dữ liệu mục tiêu để áp dụng lên mô hình học Hình 1 và hình 2 diễn tả sự khác biệt của mô hình học truyền thống và mô hình học chuyển giao
Hình 1 Mô hình học truyền thống [14] Hình 2 Mô hình học chuyển giao [14]
Xiao và các cộng sự năm 2014 [14] đã kết hợp mô hình học chuyển giao với kĩ thuật lựa chọn đặc trưng (Feature Selection) nhằm trích xuất đặc trưng từ tập trong công tác nguồn sau đó kết hợp với tập dữ liệu trong công tác đích để tạo nhiều đặc trưng bậc cao trong đó nhóm đặc trưng mới này chứa đựng nhiều thông tin giao hỗ tương giữa tập công tác nguồn và tập công tác đích Mô hình này đạt kết quả khá cao so với các mô hình truyền thống, chứng tỏ khả năng áp dụng tốt của học chuyển giao với bài toán dự báo thuê bao rời bỏ nhà mạng
Với các nghiên cứu gần đây về kĩ thuật học chuyển giao nhằm giải quyết vấn đề Covariate Shift có một số kĩ thuật như:
• Học chuyển giao dựa trên chiến lược lựa chọn đặc trưng TFS
• Học chuyển giao dựa trên chiến lược lựa chọn mẫu TrBagg
• Học chuyển giao dựa trên chiến lược lựa chọn mẫu TrAdaBoos
Giải thuật TFS dựa vào kĩ thuật lựa chọn đặc trưng theo chiều tiến có giám sát (Supervised
Forward Feature Selection - SFFS), đầu tiên áp dụng SFFS để chọn tập đặc trưng tốt nhất trên tập dữ liệu mục tiêu, sau đó dựa trên tập đặc trưng này để tính độ tin cậy (confidence score) của từng mẫu trong tập dữ liệu nguồn Tiếp đến một số mẫu trong tập dữ liệu nguồn được chọn dựa trên tiêu chí độ tin cậy kết hợp với tập dữ liệu nguồn để sinh ra tập dữ liệu mới, trên tập dữ liệu mới này dùng SFFS để chọn ra một tập đặc trưng mới, nếu các đặc trưng mới này có tần số xuất hiện nhiều lần qua các lần lặp thì được thêm vào tập đặc trưng được chọn Quá trình cứ lặp lại nhiều lần để cuối cùng tập đặc trưng tiến tới con số định trước thì giải thuật dừng Cuối cùng dùng tập đặc trưng được chọn để huấn luyện trên tập dữ liệu mục tiêu [15]
Giải thuật TrBagg được đề xuất bởi Kamishima và các cộng sự năm 2009 [16] dựa trên ý tưởng của chiến lược kết hợp nhiều mô hình (Bagging), trong đó tập dữ liệu nguồn ban đầu dùng kĩ thuật Boostrap để tạo ra N bộ phân lớp, sau đó N bộ phân lớp này được dùng để xác định nhãn của tập mục tiêu dựa vào số phiếu bầu đa số
Giải thuật TrAdaBoost được đề xuất bởi Wenyuan Dai và các cộng sự năm 2007 [17] dựa trên kĩ thuật AdaBoost, ý tưởng cơ bản là giải thuật được huấn luyện ban đầu trên tập dữ liệu mục tiêu, sau đó dùng mô hình để xác định nhãn trên tập dữ liệu nguồn, khi mẫu trên tập dữ liệu nguồn bị phân lớp sai, giải thuật sẽ đánh trọng số cao để lần chạy tiếp theo giải thuật chú ý nhiều đến độ lỗi này và cập nhật lại giải thuật
9 Việc áp dụng các kĩ thuật nêu trên được nghiên cứu nhiều trong thời gian gần đây, nhưng tác giả nhận thấy việc áp dụng các kĩ thuật này chưa quan tâm nhìn cụ thể về quá trình phân bố dữ liệu bị lệch, điều này quan trọng trong thực tế vì mô hình học phải được đo đếm, giám sát theo thời gian để có thể được cải thiện hay huấn luyện lại theo thời gian trước sự thay đổi phân bố liên tục từ khách hàng hoặc từ sự khác biệt của các nhóm khách hàng khác nhau Một hạn chế khác của cách tiếp cận này là mô hình học máy trở nên phức tạp, chồng chất nhiều giải thuật học máy khiến mô hình khó trong việc ứng dụng trong thực tế khi đòi hỏi quá trình tính toán phức tạp, đồng thời mô hình đánh mất khả năng giải thích trong các ngữ cảnh cụ thể.
M Ô HÌNH GIẢI QUYẾT DỮ LIỆU MẤT CÂN BẰNG
Trong các tập dữ liệu được thu thập cũng như trong thực tế tập khách hàng thu được thường bị mất cân bằng giữa nhóm rời bỏ nhà mạng (nhóm thiểu số) với nhóm không rời bỏ (nhóm đa số), cụ thể nhóm rời bỏ nhà mạng chỉ chiếm khoảng 2% trên tổng số tập khách hàng Điều này dẫn đến các mô hình học căn bản có xu hướng nhắm đến tập dữ liệu thuộc nhóm đa số, mà không học được nhiều hành vi từ nhóm thiểu số để có thể dự đoán cho dữ liệu có xu hướng rời bỏ nhà mạng trong tương lai Ví dụ nếu tập dữ liệu chỉ có 0.1% dữ liệu thuộc nhóm thiểu số thì một giải thuật đơn giản chỉ dự đoán tất cả là nhóm đa số thì độ chính xác đã đạt được 99.9%
Vấn đề mất cân bằng dữ liệu rất then chốt cho bài toán phân lớp nói chung và bài toán dự đoán thuê bao rời bỏ nhà mạng nói riêng, có hai cách phổ biến để giải quyết trường hợp này là: xử lí trên tập dữ liệu và can thiệp vào giải thuật Cách giải quyết vấn đề mất cân bằng dữ liệu theo hướng dữ liệu chú trọng đến phương pháp lấy mẫu dữ liệu (Data Sampling) nhằm tạo tập dữ liệu mới cân bằng giữa hai nhóm rời bỏ và không rời bỏ nhà mạng Trong khi xu hướng can thiệp vào giải thuật mà cụ thể là tinh chỉnh hàm mất mát (lost function) chú ý nhiều đến độ lỗi của nhóm thiểu số trong khi đánh giá hàm mất mát, cách tiếp cận này đòi hỏi nhiều kiến thức về tối ưu hoá và giải thuật [18]
Cụ thể, những nghiên cứu gần đây tiếp cận với hai hướng chính về phương diện dữ liệu và phương diện giải thuật
2.3.1 Xử lí dữ liệu mất cân bằng với tiếp cận về phương diện dữ liệu
Tiếp cận mức độ dữ liệu bao gồm kĩ thuật lấy mẫu gồm over-sampling, under-sampling và kĩ thuật sinh ra dữ liệu mới (synthetic data) thuộc nhóm thiểu số bao gồm SMOTE [19] và các phương pháp SMOTE cải tiến ([20], [21), nhằm giúp bộ phân lớp chú trọng nhiều hơn với nhóm thiểu số Cụ thể, với nhóm thiểu số sẽ lấy mẫu over-sampling để tăng nhóm thiểu số, ngược lại với nhóm đa số sẽ dùng under-sampling để làm giảm dữ liệu, cuối cùng đạt được tập dữ liệu xấp xỉ giữa nhóm thiểu số và nhóm đa số [22] Tuy nhiên cả hai phương pháp over-sampling và under-sampling đều có nhược điểm, over-sampling thì tăng khả năng mô hình học quá khớp (overfitting) trong khi under-sampling thì loại bỏ các dữ liệu quan trọng trong tập huấn luyện Phương pháp SMOTE cải tiến bằng cách kết hợp cả over- sampling và under-sampling để tạo tập dữ liệu cân bằng, đạt được kết quả tốt hơn khi mô hình chú ý nhiều hơn với nhóm dữ liệu thiểu số, SMOTE được đánh giá trên các giải thuật máy vector hỗ trợ và cây quyết định đều cho kết quả khá tốt ([23], [24]) Tuy nhiên việc sinh ra dữ liệu mới dễ dẫn đến dữ liệu bị nhiễu không phản ánh được tính đúng của nhóm dữ liệu thiểu số, quan trọng hơn là việc thêm dữ liệu mới này kèm thêm bổ sung thông tin làm mô hình học bị nhiễu
2.3.2 Xử lí dữ liệu mất cân bằng với tiếp cận về phương diện giải thuật
Tiếp cận mức độ giải thuật cố gắng tăng cường giải thuật phân lớp sẵn có để phân loại tốt hơn đối với nhóm dữ liệu thiểu số Một số cách tiếp cận dựa trên kĩ thuật hàm mất mát (cost- sensitive), trong đó lỗi phân lớp sai giữa hai nhóm dữ liệu thiểu số và đa số sẽ được tính khác nhau, cụ thể lỗi cho nhóm thiểu số sẽ có trọng số cao hơn nhóm đa số, khi đó mô hình học sẽ chú ý đến sự phân lớp sai của nhóm thiểu số Nghiên cứu [25] sử dụng hai bộ phân lớp cây quyết định và ada-boost nhằm thay đổi hàm mất mát Tuy nhiên hướng này gặp nhiều khó khăn trong việc thiết kế hàm mất mát vì dễ ảnh hưởng xấu đến kết quả tối ưu toàn cục Hướng khác là sử dụng kĩ thuật tổ hợp nhiều bộ phân lớp (ensemble learning) với kĩ thuật lấy mẫu như nghiên cứu [26] Nghiên cứu [27] sử dụng kĩ thuật học chuyển giao kết hợp với kĩ thuật tổ hợp nhiều bộ phân lớp để giúp mô hình học phân tán tập dữ liệu mất cân bằng cho nhiều mô hình cơ sở, khi tổng hợp lại làm giảm độ lỗi khi phân lớp Nhược điểm của
11 các phương pháp tiếp cận theo hướng giải thuật hay gặp phải là mô hình chồng chéo, phức tạp dẫn đến thời gian thực thi chậm, một khó khăn khác là quá trình tác động đến hàm mất mát cần thiết kế cẩn thận xem xét các kĩ thuật tối ưu để cho mục tiêu tối ưu toàn cục được thoã mãn.
M Ô HÌNH GIẢI QUYẾT VẤN ĐỀ ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THAY ĐỔI THEO THỜI GIAN
Các nghiên cứu tập trung giải quyết vấn đề phân bố dữ liệu thay đổi theo thời gian thường tập trung vào các phương pháp tác động trên tập dữ liệu huấn luyện sao cho phân bố tập huấn luyện gần giống với phân bố tập kiểm thử, nhằm giúp mô hình học trên dữ liệu mang tính thời sự Vấn đề giúp cho mô hình học thích ứng với sự thay đổi phân bố dữ liệu theo thời gian là vấn đề quan trọng khi triển khai các mô hình học máy trong thực tế, vì thực tế dữ liệu luôn thay đổi do đó yêu cầu cần có quá trình củng cố giúp mô hình tự động tự thay đổi để thích ứng Tuy nhiên, trong lĩnh vực này chưa có nhiều nghiên cứu mang tính hệ thống để giải quyết vấn đề này Nghiên cứu [28] chỉ ra vấn đề thay đổi phân bố ảnh hưởng rất lớn đến hiệu năng phân lớp Một số nghiên cứu dùng kĩ thuật nghịch đảo trọng số trên tập huấn luyện, giúp mô hình học chú trọng đến các mẫu dữ liệu huấn luyện tương đồng với dữ liệu kiểm thử, như trong các nghiên cứu ([29], [30]) Nghiên cứu [31] dùng kĩ thuật đối kháng (Adversarial) nhằm tạo ra bộ phân lớp có khả năng phân lớp giữa tập dữ liệu huấn luyện và dữ liệu kiểm thử, sau đó kết quả phân lớp này dùng để lựa chọn tập huấn luyện sao cho phân bố tập dữ liệu huấn luyện cân bằng với tập dữ liệu kiểm thử [31] Một số nghiên cứu sử dụng giải thuật tối ưu Frank-Wolfe để cân bằng phân bố xác suất giữa hai tập tập huấn luyện và tập kiểm thử, như các nghiên cứu ([32], [33]).
K ẾT L UẬN
Qua quá trình nghiên cứu tìm hiểu các công trình liên quan đến vấn đề dữ liệu mất cân bằng, chúng tôi thấy rằng đây là lĩnh vực nghiên cứu nhận được nhiều sự quan tâm trong lĩnh vực học máy, thống kê và tối ưu Các phương pháp đề xuất đều mang lại tiềm năng cao để cải thiện hiệu quả phân lớp và mang tính ứng dụng cao trong thực tế Đối với vấn đề độ lệch phân bố dữ liệu theo thời gian, lĩnh vực này chưa được nghiên cứu sâu rộng và chưa được tổng hợp mang tính hệ thống, dù vấn đề này rất quan trọng mang tính ứng dụng cao khi triển khai các mô hình học máy trong thực tế.
CƠ SỞ LÍ THUYẾT
G IẢI THUẬT PHÂN LỚP H ỒI QUY L OGISTICS VÀ XGB OOST
Phần này trình bày sơ lược hai giải thuật phân lớp được sử dụng làm bộ phân lớp cho bài toán dự báo thuê bao rời bỏ nhà mạng
3.1.1 Giải thuật phân lớp Hồi quy Logistics
Phương pháp hồi qui logistics là mô hình hồi quy (regression) với biến đầu ra (biến mục tiêu) mang giá trị rời rạc Khái niệm toán học của hồi quy logistic là thể hiện mối quan hệ giữa biến mục tiêu và biến dự đoán (biến độc lập) về mặt logit: logarit tự nhiên của tỷ lệ cược (odds) Trong trường hợp đơn giản: trong đó Y là biến mục tiêu nhị phân được phân loại là
1, 0 và X là một biến dự đoán liên tục Bây giờ nếu chúng ta vẽ một biểu đồ phân tán, chúng ta sẽ có hai đường thẳng song song tương ứng với từng loại biến mục tiêu Các mối quan hệ không theo một xu hướng tuyến tính và do đó không thể mô tả thông qua một hàm hồi quy tuyến tính đơn giản Hồi quy logistic tạo điều kiện thuận lợi cho tình huống này bằng cách chuyển đổi logit trên biến mục tiêu Dạng đơn giản nhất của mô hình hồi quy logistic có thể được viết như công thức (1) như sau:
13 Ở đây, π là xác suất xảy ra kết quả Y và π / (1 − π) là tỷ lệ thành công (tỷ lệ xác suất xảy ra kết quả Y và xác suất không xảy ra kết quả Y) β 0 và β 1 được gọi là hệ số chặn và hệ số dốc (hệ số hồi quy) tương ứng Bằng cách lấy log trên cả hai vế của phương trình (1) chúng ta có thể ước tính xác suất xuất hiện của kết quả Y dựa trên giá trị của biến dự đoán X như trong công thức (2):
Biến dự đoán X có thể là biến liên tục hoặc rời rạc Chúng ta có thể mở rộng mô hình hồi quy logistic cho nhiều biến dự đoán
Phương trình (3) là dạng tổng quát của mô hình hồi quy logistic cho p biến dự đoán Tham số hồi quy β s có thể được ước tính bằng phương pháp hợp lí cực đại (Maximum Likelihood) hoặc phương pháp bình phương tối thiểu trọng số Giá trị của hồi quy hệ số β 1 p chỉ ra mối quan hệ logit giữa X và Y
3.1.2 Giải thuật phân lớp XGBoost
XGBoost là một thuật toán mạnh mẽ, gần đây thuật toán đã được dùng chủ yếu cho các cuộc thi học máy ứng dụng và các cuộc thi Kaggle cho dữ liệu có cấu trúc hoặc dạng bảng XGBoost là một hiện thực của giải thuật cây quyết định tăng cường độ dốc (gradient boosted decision trees) được thiết kế dựa trên tiêu chí tốc độ và hiệu quả phân lớp XGBoost được đề xuất bởi Tianqi Chen và cộng sự năm 2016 [45] Ý tưởng chính của kĩ thuật tăng cường (boosting) là kết hợp các bộ phân lớp cơ sở (base learner) với độ chính xác thấp để xây dựng bộ phân lớp mạnh với hiệu năng cải thiện Điểm mạnh của giải thuật XGBoost:
• Trong mô hình XGBoost, tính toán song song đa luồng được hiện thực do đó cải thiện thời gian tính toán nhanh hơn so với phương pháp truyền thống
• XGBoost là mô hình cấu trúc cây, không cần quá trình chuẩn hoá dữ liệu đầu vào Hơn nữa, nó có thể xử lí tốt với dữ liệu bị thiếu (missing data) mà không cần quá trình xử lí loại bỏ dữ liệu thiếu hoặc điền dữ liệu thiếu
• XGBoost tăng cường kĩ thuật chính quy hoá (regularization) để tránh mô hình học bị vấn đề quá khít (overfitting) mà điều này các giải thuật cây phân lớp hay gặp phải
3.2 Vấn đề dữ liệu mất cân bằng
Dữ liệu mất cân bằng thường gặp trong bài toán phân lớp gồm hai lớp (phân lớp nhị phân), khi số mẫu dữ liệu dùng để huấn luyện mô hình phân lớp thường bị lệch giữa nhóm thiểu số và nhóm đa số, trong đó nhóm dữ liệu thiểu số có tỉ lệ dữ liệu rất thấp so với nhóm đa số
Ví dụ như trong bài toán thuê bao rời bỏ nhà mạng, nhóm khách hàng rời bỏ nhà mạng (nhóm thiểu số) thường chỉ chiếm khoảng 2% trên tổng số thuê bao nhà mạng Trong thực tế, các bài toán phân lớp nhị phân thường gặp phải vấn đề này như: dự báo thuê bao rời bỏ nhà mạng, dự đoán lừa đảo tín dụng, dự đoán tấn công xâm nhập vào hệ thống máy tính…Dễ hiểu vì trong thực tế, nhóm hành vi bất thường thường chiếm phần nhỏ so với hành vi bình thường
Dữ liệu mất cân bằng gây nhiều khó khăn khi áp dụng các kĩ thuật học máy vì các giải thuật học máy cơ bản thường được thiết kế không làm việc hiệu quả với tập dữ liệu mất cân bằng, cụ thể nhóm dữ liệu thiểu số sẽ lấn át tác động đến hành vi học của giải thuật học máy Kết quả mô hình sẽ dự đoán gần như đa số các mẫu dữ liệu huấn luyện là thuộc nhóm đa số, trong khi đó yêu cầu mô hình phải dự đoán được mẫu huấn luyện có thuộc nhóm thiểu số hay không vì nhóm thiểu số là cái cần quan tâm hơn, ví dụ như xem khách hàng có nguy cơ rời bỏ nhà mạng hay không, khách hàng có khả năng cao lừa đảo hay không Vấn đề dữ liệu mất cân bằng gây ra khó khăn khi chọn độ đo để đánh giá hiệu năng phân lớp, ví dụ như trong trường hợp chỉ có 1% trường hợp khách hàng rời bỏ nhà mạng, khi đó với mô hình dự đoán tất cả đều là không rời bỏ nhà mạng (tất cả đều thuộc nhóm đa số) thì mô hình đã đạt được 99% độ chính xác Do đó khi làm việc với dữ liệu mất cân bằng cần xem xét lựa chọn tiêu chí đánh giá phù hợp, đồng thời áp dụng nhiều kĩ thuật để giúp mô hình đạt được sự phân lớp hiệu quả hơn Phần sau đây giới thiệu các cách tiếp cận cơ bản để giải quyết vấn đề dữ liệu mất cân bằng
C ÁCH TIẾP CẬN CƠ BẢN ĐỂ GIẢI QUYẾT DỮ LIỆU MẤT CÂN BẰNG
3.3.1 Sử dụng các độ đo, tiêu chí để đánh giá phù hợp Áp dụng các độ đo để đánh giá cho mô hình phân lớp với dữ liệu mất cân bằng cần phải chọn độ đo, tiêu chí phù hợp Như ví dụ trên, như trong trường hợp chỉ có 1% trường hợp khách hàng rời bỏ nhà mạng, khi đó với mô hình dự đoán tất cả đều là không rời bỏ nhà mạng (tất cả đều thuộc nhóm đa số) Nếu độ chính xác được sử dụng để đo lường hiệu năng phân lớp của mô hình, mô hình phân loại khi đó sẽ có độ chính xác là 99,9%, nhưng rõ ràng mô hình này sẽ không cung cấp bất kỳ thông tin giá trị nào cho chúng ta Trong trường hợp này, các chỉ số đánh giá thay thế khác có thể được áp dụng như:
• Độ chính xác (Precision) / độ đặc hiệu (Specifility) : bao nhiêu trường hợp được chọn có liên quan
• Độ truy hồi (Recall) / Độ nhạy (Sensitivity) : bao nhiêu trường hợp có liên quan được chọn
• Điểm số F1: trung bình điều hòa của độ chính xác và độ truy hồi
• MCC: hệ số tương quan giữa phân loại nhị phân được quan sát và được dự đoán
• AUC: mối quan hệ giữa tỷ lệ thực dương và tỷ lệ dương tính giả
Hình 3 minh hoạ chi tiết các độ đo phổ biến dùng để đánh giá hiệu năng phân lớp nhị phân được cho bên dưới Việc chọn lựa các độ đo cho trường hợp dữ liệu mất cân bằng cũng cần xem xét cẩn thận cho từng bài toán cụ thể, ví dụ như trong bài toán cần chọn lựa ngưỡng để xác định nhãn phân lớp độ đo F1 có thể được chọn, trong khi đó nếu bài toán không yêu cầu cần cụ thể chọn ngưỡng giá trị để xác định nhãn thì độ đo AUC sẽ được chọn phổ biến
Hình 3 Độ đo đánh giá hiệu năng phân lớp nhị phân
3.3.2 Lấy mẫu trên tập huấn luyện
Ngoài việc sử dụng các tiêu chí đánh giá khác nhau Việc tác động đến tập dữ liệu ban đầu để tạo ra tập dữ liệu mới sao cho hai nhóm đa số và thiểu số đạt cân bằng cũng được quan tâm rộng rãi Hai cách tiếp cận để tạo ra một tập dữ liệu cân bằng là under-sampling và over- sampling
Việc lấy mẫu làm cân bằng tập dữ liệu bằng cách giảm kích thước của nhóm đa số Phương pháp này đạt được tập dữ liệu cân bằng giữa nhóm thiểu số và nhóm đa số nhưng chỉ phù hợp với tập dữ liệu lớn vì làm mất khá nhiều mẫu dữ liệu huấn luyện của nhóm đa số
Ngược lại, kĩ thuật over-sampling sẽ tăng số mẫu thuộc nhóm thiểu số bẳng cách sử dụng các kĩ thuật thống kê như lặp lại, bootstrapping hoặc SMOTE (Synthetic Minority Over-
Sampling Technique) [34] Phương pháp này có ưu điểm là không làm giảm dữ liệu huấn
17 luyện, tuy nhiên việc thêm các mẫu dữ liệu tự tạo thuộc nhóm thiểu số bằng quá trình áp dụng các kĩ thuật thống kê có thể dẫn đến thêm thông tin gây nhiễu và làm mô hình mang tính thiên kiến Do đó việc áp dụng kĩ thuật này phải được cân nhắc và đánh giá cẩn thận phù hợp vào bài toán phân lớp hoặc tập dữ liệu cụ thể
Hình 4 minh hoạ kĩ thuật under-sampling và over-sampling
Hình 4 Minh hoạ kĩ thuật under-sampling và over-sampling
3.3.3 Sử dụng K-fold kiểm tra chéo (K-fold Validation) đúng cách
Cần chú ý khi dùng kĩ thuật kiểm tra chéo (cross-validation) để đánh giá hiệu năng phân lớp, quá trình này phải được áp dụng đúng cách trong khi sử dụng phương pháp over-sampling để giải quyết vấn đề dữ liệu mất cân bằng Khi áp dụng over-sampling phải quan sát các mẫu thuộc nhóm thiểu số và áp dụng bootstrapping để tạo ra dữ liệu ngẫu nhiên mới dựa trên một hàm phân bố xác suất Nếu kĩ thuật kiểm tra chéo được áp dụng sau khi over-sampling, về cơ bản những gì chúng ta đang làm là đưa mô hình của chúng ta bị quá khớp (over-fitting) trên một kết quả bootstrapping đặc biệt Đó là lý do tại sao kĩ thuật kiểm tra chéo phải luôn được thực hiện trước khi over-sampling, cũng giống như cách lựa chọn đặc trưng được thực hiện Chỉ bằng cách lấy mẫu dữ liệu nhiều lần, quá trình ngẫu nhiên có thể được đưa vào tập dữ liệu để đảm bảo rằng sẽ không bị vấn đề quá khớp.
S YNTHETIC M INORITY O VERSAMPLING T ECHNIQUE (SMOTE)
SMOTE (Synthetic Minority Oversampling Technique) dựa trên kĩ thuật over-sampling trên tập dữ liệu thiểu số, được Chawla và cộng sự đề xuất năm 2002 [34] Ý tưởng của SMOTE là sinh ra mẫu dữ liệu mới thuộc nhóm thiểu số dựa vào những mẫu lân cận với mẫu thiểu số, cụ thể mẫu dữ liệu mới được sinh ra theo phương pháp nội suy giữa những điểm cùng thuộc nhóm thiểu số lân cận với nhau Ví dụ đơn giản có thể giải thích theo hình 5 bên dưới, mẫu thiểu số x i được lựa chọn là mẫu cơ sở để sinh ra mẫu dữ liệu mới, dựa vào độ đo khoảng cách, một vài mẫu thuộc nhóm thiểu số lân cận với mẫu x i được chọn từ tập dữ liệu, trong trường hợp này là các mẫu ( x i1 đến x i4 ) Từ mẫu x i đến các mẫu này ta vẽ một đường thẳng để nối hai điểm lại với nhau, các mẫu dữ liệu mới là các điểm nội suy nằm trên đường thẳng đó
Hình 5 Hình minh hoạ kĩ thuật SMOTE [34]
Mã giả cho giải thuật SMOTE [34] chi tiết sau:
Input: Number of minority class samples T;
Output: (N/100) * T synthetic minority class samples
1 (∗ If N is less than 100%, randomize the minority class samples as only a random percent of them will be SMOTEd ∗)
3 then Randomize the T minority class samples
7 N = (int)(N/100) (∗ The amount of SMOTE is assumed to be in integral multiples of
10 Sample[ ][ ]: array for original minority class samples
11 newindex: keeps a count of number of synthetic samples generated, initialized to 0
12 Synthetic[ ][ ]: array for synthetic samples
(∗ Compute k nearest neighbors for each minority class sample only ∗)
14 Compute k nearest neighbors for i, and save the indices in the nnarray
Populate(N, i, nnarray) (∗ Function to generate the synthetic samples ∗)
18 Choose a random number between 1 and k, call it nn This step chooses one of the k nearest neighbors of i
20 Compute: dif = Sample[nnarray[nn]][attr] − Sample[i][attr]
21 Compute: gap = random number between 0 and 1
22 Synthetic[newindex][attr] = Sample[i][attr] + gap ∗ dif
D EEP B ELIEF N ETWORK (DBN)
Deep Belief Network (DBN) là mô hình học sâu sinh xác suất thuộc nhóm giải thuật không giám sát được Hilton và các cộng sự đề xuất năm 2006 ([35], [36]) DBN gồm nhiều tầng
Máy Boltzmann giới hạn (Restricted Boltzmann Machine - RBM), mỗi lớp RBM này chồng lên lớp kia, mỗi lớp RBM sẽ lấy đầu vào là các đặc trưng ẩn từ lớp dưới đó và truyền đầu ra cho lớp trên, RBM hoạt động theo cấu trúc encoder-decoder Trong khía cạnh encoder, mô hình sẽ mã hoá đặc trưng đầu vào thành các đặc trưng mang tính kết hợp, rút trích đặc trưng ẩn (hidden feature) Ngược lại quá trình decoder, sẽ tái xây dựng lại từ thông tin đặc trưng ẩn thành đặc trưng ban đầu Mô hình DBN có thể xem như mô hình sinh xác suất, có khả năng sinh ra dữ liệu thông qua quá trình decoding ([35], [37]) Chúng tôi sử dụng DBN để sinh dữ liệu thuộc nhóm thiểu số Hình 6 minh hoạ cấu trúc của mạng DBN gồm nhiều khối RBM chồng lên nhau
Hình 6 Minh hoạ cho quá trình học của giải thuật Deep Belief Network
H ÀM MẤT MÁT F OCAL (F OCAL L OSS )
Hàm mất mát Focal (Focal Loss), giải thuật tác động đến hàm mất mát được đề xuất bởi Lin và cộng sự năm 2017 [38] Hàm mất mát Focal xử lí dữ liệu mất cân bằng bằng cách giảm nhẹ trọng số cho những mẫu dữ liệu dễ phân tách, trong đó tập trung trọng số vào những mẫu dữ liệu mang tính nhập nhằng, khó phân tách giữa hai nhóm Những mẫu dữ liệu dễ phân tách thường là mẫu dữ liệu có sự phân tách rạch ròi giữa hai nhóm, trong trường hợp tập dữ liệu mất cân bằng thì các mẫu dễ phân tách đa số là các mẫu dữ liệu thuộc nhóm đa số và các mẫu này phân tách rõ rệt với các mẫu thuộc nhóm thiểu số Ngược lại các mẫu dữ liệu thuộc nhóm khó phân tách thường là các mẫu dữ liệu mang tính nhập nhằng giữa hai nhóm, các mẫu dữ liệu này thường nằm xen kẻ giữa nhóm thiểu số và nhóm đa số Do đó việc đặt trọng số cao cho những mẫu dữ liệu khó phân tách trong trường hợp dữ liệu mất cân bằng ngầm ý nghĩa đặt trọng số cho hàm mất mát khác biệt giữa nhóm dữ liệu thiểu số và nhóm dữ liệu đa số Cơ sở toán học của hàm mất mát Focal được trình bày bên dưới:
Với m là số mẫu dữ liệu, y i là nhãn thực tế của mẫu dữ liệu i, là giá trị xác suất dự đoán của mẫu dữ liệu i Hàm mất mát Focal theo dạng hàm mất mát cross-entropy, định nghĩa như sau:
H ÀM MẤT MÁT ENTROPY THEO TRỌNG SỐ (W EIGHTED C ROSS E NTROPY L OSS )
Mô hình Imbalance-XGBoost, đề xuất bởi Wang và cộng sự năm 2019 [39], là mô hình tác động đến hàm mất mát hiện thực trên giải thuật XGBoost, để xử lí dữ liệu mất cân bằng trong bài toán phân lớp nhị phân Imbalance-XGBoost hiện thực hàm mất mát Entropy theo trọng số (Weighted Cross Entropy Loss), định nghĩa bên dưới
Trong đó hệ số α thể hiện tham số mất cân bằng giữa hai nhóm Nếu giá trị α lớn hơn 1, hàm mất mát sẽ phạt nặng cho nhãn 1 thành 0, có nghĩa sẽ đánh trọng số cao hơn cho nhãn 1 bị phân lớp sai Ngược lại nếu giá trị α nhỏ hơn 1, hàm mất mát sẽ đánh trọng số cao cho nhóm dữ liệu có nhãn 0 bị phân lớp thành 1 Với trường hợp dữ liệu mất cân bằng, nhóm dữ liệu thiểu số sẽ được đánh nhãn là 1, nhóm dữ liệu đa số được đánh nhãn là 0, việc chọn tham số α phù hợp nhằm phạt độ lỗi khi phân lớp sai cho nhóm thiểu số nhiều hơn trên nhóm đa số
Hình 7 minh hoạ kĩ thuật gán trọng số cho hàm mất mát, trong đó mẫu dữ liệu thiểu số được tính trọng số cao khi phân lớp sai
Hình 7 Hình minh hoạ kĩ thuật gán trọng số cho hàm mất mát
Đ Ộ L ỆCH P HÂN B Ố D Ữ L IỆU (D ISTRIBUTION S HIFT )
Độ lệch phân bố dữ liệu (Distibution Shift) là vấn đề phổ biến và gây nhiều khó khăn khi áp dụng các mô hình học máy trong thực tế Độ lệch phân bố dữ liệu được định nghĩa như sau: Độ lệch phân bố dữ liệu là tình huống thử thách khi phân bố xác suất kết (joint distribution) giữa biến đầu vào và đầu ra có sự khác nhau giữa giai đoạn huấn luyện và giai đoạn kiểm thử [46] Độ lệch phân bố dữ liệu thường gặp trong thực tế do hành vi khách hàng, môi trường bên ngoài luôn thay đổi theo thời gian Đặc biệt là các bài toán liên quan đến yếu tố bên ngoài tác động như trong các bài toán kinh tế, bài toán liên quan đến hành vi khách hàng…vì với xu hướng thế giới, kinh tế hiện nay luôn biến động, thay đổi không ngừng Trong phạm vi đề tài này chúng tôi quan tâm đến sự thay đổi phân bố của tập dữ liệu dự đoán thực tế lệch
23 dụng mô hình học máy để dự đoán theo thời gian Trong bài toán dự đoán thuê bao rời bỏ nhà mạng độ lệch phân bố dữ liệu theo thời gian làm kết quả mô hình sẽ không xác định chính xác trên tập dữ liệu mới, nguyên nhân thay đổi do ứng với trường hợp dự báo thuê bao rời khỏi nhà mạng là sự thay đổi hành vi khách hàng theo thời gian ví dụ như thay đổi về môi trường sống, môi trường làm việc…Khi đó việc áp dụng các giải thuật học máy sẽ gặp nhiều khó khăn do bản chất các giải thuật học máy đều dựa trên cơ sở là phân bố dữ liệu giữa tập huấn luyện và tập dự đoán luôn cùng phân bố xác suất Với việc phát hiện sớm có độ lệch phân bố dữ liệu giữa tập huấn luyện và tập dự đoán là bước quan trọng, kịp thời để từ đó có các biện pháp can thiệp nhằm mục tiêu giúp mô hình có khả năng thích ứng với sự thay đổi
Hình 8 bên dưới minh hoạ sự khác biệt phân bố giữa tập huấn luyện và tập kiểm thử
Hình 8 Hình minh hoạ sự khác biệt giữa phân bố tập huấn luyện và tập dự đoán
Trong phần này, chúng tôi sẽ trình bày tóm gọn các dạng độ lệch phân bố dữ liệu Sau đó trình bày các phương pháp tiếp cận cơ bản để phát hiện và giải quyết vấn đề này Độ lệch phân bố dữ liệu được chia thành 3 loại:
• Covariate shift: có sự thay đổi, độ lệch phân bố giữa các biến độc lập (tức là các thuộc tính trong bài toán phân lớp)
• Prior probability shift: sự thay đổi, độ lệch về tiền xác suất của biến mục tiêu ( biến nhãn lớp trong bài toán phân lớp)
• Concept shift: kết hợp cả covariate shift và prior probability shift
Covariate shift có thể hiểu đơn giản là phân bố trên các đặc trưng có sự khác biệt giữa tập huấn luyện và tập kiểm thử Sự thay đổi này có thể do sự tác động của các đặc trưng tiềm ẩn (latent feature) do môi trường thay đổi tạm thời hay thay đổi ổn định theo một tiến trình nhất định Khi đó phân bố xác suất kết giữa biến độc lập và biến mục tiêu không có sự thay đổi giữa trạng thái huấn luyện và trạng thái dự đoán, duy chỉ phân bố xác suất của biến độc lập có sự khác biệt, sự khác biệt này có thể lớn dần theo thời gian Hình 9 minh hoạ quá trình Covariate shift:
Hình 9 Hình minh hoạ quá trình Covariate shift
Ngược lại với Covariate shift, Prior probability shift có thể hiểu đơn giản là phân bố trên biến mục tiêu có sự khác biệt giữa tập huấn luyện và tập kiểm thử Cụ thể khi đó phân bố xác suất kết giữa biến độc lập và biến mục tiêu không có sự thay đổi giữa trạng thái huấn luyện và trạng thái dự đoán, duy chỉ phân bố xác suất của biến mục tiêu có sự khác biệt, sự khác biệt này có thể lớn dần theo thời gian Một ví dụ phổ biến cho trường hợp Prior probability shift là vấn đề dữ liệu mất cân bằng gặp trong thực tế dự đoán, giả sử trong quá trình huấn luyện chúng ta làm việc trên tập dữ liệu cân bằng, tức giá trị xác suất biến mục tiêu khoảng 0.5 Trong khi thực tế, nhóm thiểu số chiếm phần rất ít, ví dụ trong thực tế nhóm khách hàng rời bỏ nhà mạng chỉ chiếm 2% Ta thấy rõ ràng giá trị xác suất của biến mục tiêu thay đổi từ trạng thái huấn luyện đến trạng thái dự đoán Qua vấn đề này chúng ta cũng thấy rằng, việc tác động đến tập dữ liệu mất cân bằng qua quá trình lấy mẫu hoặc áp dụng kĩ thuật sinh ra dữ liệu mới nhằm giúp cân bằng tập dữ liệu huấn luyện sẽ tiềm ẩn quá trình Prior probability shift, vì vấn đề mất cân bằng dữ liệu trong quá trình dự đoán là điều chắc chắn xảy ra Do đó khi áp dụng kĩ thuật để tạo tập dữ liệu mất cân bằng nên cân nhắc, chọn lựa kĩ càng tuỳ theo ứng dụng thực tế
Concept shift xảy ra khi phân bố xác suất kết giữa biến độc lập và biến mục tiêu có sự thay đổi giữa trạng thái huấn luyện và trạng thái dự đoán, sự khác biệt này không đến từ vấn đề phân bố dữ liệu cũng như phân bố dữ liệu trên nhiều nhóm mà sự khác biệt đến từ mối quan hệ giữa biến độc lập và biến mục tiêu Chúng ta có thể hiểu nôm na là theo thời gian việc định nghĩa biến mục tiêu dựa trên dữ liệu biến độc lập có sự thay đổi Ví dụ như trong bài toán dự báo thuê bao rời bỏ nhà mạng, hành vi được gọi là rời bỏ nhà mạng theo thời gian có sự thay đổi đối với hành vi người dùng, chẳng hạn trước đây thuê bao không sử dụng trong khoảng thời gian hai tuần có thể coi là có nguy cơ rời bỏ, nhưng hiện nay khi xem xét hành vi này có thể khác vì thuê bao có thể đi du lịch dài ngày, hay đồng thời sử dụng nhiều nhà mạng khác Concept shift trong thực tế rất khó để giải quyết vì sự thay đổi mang tính chất định nghĩa mối quan hệ, cách đơn giản để giải quyết là phải định nghĩa lại nhãn dựa trên tình hình thực tế hiện tại sau đó tái xây dựng mô hình để học trên dữ liệu đã được định nghĩa lại
3.8.4 Phương pháp giải quyết vấn đề độ lệch phân bố dữ liệu Đề tài này chú ý đến vấn đề covariate shift, vì có rất nhiều trường hợp thực tế gặp phải vấn đề này khi các biến ngẫu nhiên độc lập (đặc trưng) bị lệch theo thời gian giữa tập huấn luyện và tập dự đoán Trong phần tiếp theo sẽ trình bày chi tiết cơ sở lí thuyết các kĩ thuật giải quyết vấn đề covariate shift được lựa chọn cho bài toán dự đoán thuê bao rời bỏ nhà mạng
Các nghiên cứu tập trung giải quyết vấn đề phân bố dữ liệu thay đổi theo thời gian thường tập trung vào các phương pháp tác động trên tập dữ liệu huấn luyện sao phân bố tập huấn luyện gần giống với phân bố tập kiểm thử, nhằm giúp mô hình học trên dữ liệu mang tính thời sự Các phương pháp cơ bản để giải quyết vấn đề covariate shift bao gồm:
• Lựa chọn đặc trưng (feature selection)
• Lựa chọn mẫu dữ liệu (data selection)
• Điều chỉnh trọng số tập huấn luyện (Importance Reweighting)
Lựa chọn đặc trưng (Feature Selection): trên một số đặc trưng có sự thay đổi lớn phân bố theo thời gian Các đặc trưng có sự thay đổi phân bố đáng kể được phát hiện bằng các kĩ thuật thống kê căn bản như Population Stability Index (PSI), kiểm định Kolmogorov-
Smirnov, đánh giá độ hội tụ Kullback-Lebler hoặc dùng giản đồ histogram đo sự phân tách giữa hai phân bố xác suất… Nếu đánh giá trên đặc trưng thấy có sự khác biệt mang ý nghĩa thống kê giữa dữ liệu dự đoán và dữ liệu huấn luyện, thì đặc trưng này được xem xét để loại bỏ khỏi mô hình học Việc loại bỏ đặc trưng nhằm hạn chế ảnh hưởng của độ lệch phân bố dữ liệu ảnh hưởng đến kết quả phân lớp mô hình học, tuy nhiên việc loại bỏ này phải được cân nhắc kĩ lưỡng vì có thể làm mất thông tin có tính phân loại hay nói cách khác là loại bỏ các đặc trưng phân lớp quan trọng ảnh hưởng đến hiệu năng phân lớp của mô hình và tính giải thích của mô hình
Lựa chọn mẫu dữ liệu (Data Selection): Giống với phương pháp lựa chọn đặc trưng, phương pháp lựa chọn mẫu dữ liệu xem xét chỉ chọn các mẫu thích hợp để làm đầu vào cho mô hình học Các mẫu dữ liệu huấn luyện được lựa chọn trên tiêu chí các mẫu huấn luyện này có xu hướng giống với mẫu dữ liệu dự đoán Việc lựa chọn các mẫu này dựa trên hệ số
27 tương đồng (matching score), sau đó qua quá trình ánh xạ từ mỗi dữ liệu tập dự đoán đến tập huấn luyện, để tìm ra các mẫu trong tập huấn luyện có hệ số xu hướng lân cận với mẫu trong tập dự đoán Việc áp dụng kĩ thuật lựa chọn mẫu dữ liệu huấn luyện nhằm chỉ chọn những mẫu dữ liệu gần giống, tương đồng với mẫu dữ liệu dự đoán về khía cạnh thống kê, các mẫu dữ liệu huấn luyện bị loại bỏ mang tính chất lỗi thời (outupdate)
Phương pháp này có hạn chế khi làm mất các mẫu dữ liệu huấn luyện, trong khi nhiều trường hợp chúng ta có số lượng dữ liệu huấn luyện hạn chế Điều chỉnh trọng số tập huấn luyện (Importance Reweighting): phương pháp này sẽ cho mỗi mẫu trong tập huấn luyện một trọng số nhất định Trọng số cho mỗi mẫu trong tập dữ liệu huấn luyện thể hiện sự tương đồng giữa mẫu huấn luyện so với tập dữ liệu dự đoán, ví dụ mẫu có trọng số cao thì khả năng mẫu dữ liệu này tương đồng tốt với phân bố tập dữ liệu dự đoán Trọng số này nhằm giúp kéo phân bố tập dữ liệu huấn luyện gần với phân bố tập dữ liệu kiểm thử Khi trọng số làm đầu vào cho mô hình học, mô hình sẽ chú ý nhiều đến mẫu dữ liệu huấn luyện có trọng số cao Phương pháp này có ưu điểm là không làm mất mẫu dữ liệu trong tập huấn luyện.
T ÌM KIẾM ĐỐI KHÁNG (A DVERSARIAL S EARCH )
Tìm kiếm đối kháng (Adversarial Search): trong phương pháp này sẽ có bộ phân lớp để xác định mẫu dữ liệu nào là trong tập huấn luyện, mẫu dữ liệu nào là trong tập kiểm thử Nếu hiệu năng của bộ phân lớp này đủ lớn, thì ngầm định rằng phân bố dữ liệu giữa tập huấn luyện và tập kiểm thử có sự khác biệt Với phương pháp này sẽ cân bằng giữa tập huấn luyện và tập đặc trưng để mô hình học cách nắm bắt được sự thay đổi phân bố ([31], [40])
Cụ thể, kĩ thuật tìm kiếm đối khánglà kĩ thuật giúp phát hiện và giải quyết sự thay đổi phân bố dữ liệu trên tập kiểm thử so với tập huấn luyện Trong kĩ thuật Tìm kiếm đối kháng, bộ phân lớp đối kháng (Adversarial Classifier)được tạo để xác định mẫu dữ liệu nào là mẫu dữ liệu kiểm thử Nếu hiệu năng có bộ phân lớp đối kháng tốt hơn việc đoán ngẫu nhiên, ngầm định rằng trong dữ liệu tập huấn luyện và tập kiểm thử có sự phân tách, tức là phân bố dữ liệu trên tập kiểm thử và tập huấn luyện có sự khác biệt Điều này giúp xác định được quá trình thay đổi phân bố dữ liệu theo thời gian Đồng thời kĩ thuật tìm kiếm đối khángcho phép giúp cân bằng phân bố dữ liệu giữa tập huấn luyện và tập kiểm thử, cho phép mô hình học thích ứng được với sự thay đổi phân bố trên tập dữ liệu kiểm thử nhằm đạt được hiệu quả phân lớp tốt và phù hợp với các ứng dụng thực tiễn khi phân bố dữ liệu liên tục thay đổi theo thời gian.
H Ệ SỐ XU HƯỚNG (P ROPENSITY S CORE )
Kĩ thuật tìm kiếm đối kháng lấy ý tưởng từ hệ số xu hướng (propensity score) trong mô hình suy luận nhân quả ([41], [42]) Trong mô hình suy luận nhân quả, hệ số xu hướng được tính từ sự khác biệt phân bố dữ liệu giữa nhóm điều khiển và nhóm thực nghiệm, cụ thể hệ số xu hướng là xác suất mẫu dữ liệu thuộc nhóm thực nghiệm Tương tự như vậy trong bài toán phân bố xác suất thay đổi giữa nhóm dữ liệu kiểm thử và nhóm dữ liệu huấn luyện, hệ số xu hướng thể hiện sự phân tách phân bố dữ liệu giữa hai nhóm Hệ số xu hướng trong trường hợp này là xác suất mẫu dữ liệu thuộc nhóm dữ liệu kiểm thử Hệ số xu hướng được tính thông qua bộ phân lớp nhị phân, bộ phân lớp này sẽ dự đoán mẫu dữ liệu thuộc nhóm dữ liệu kiểm thử hay không.
P HƯƠNG PHÁP NGHỊCH ĐẢO TRỌNG SỐ CỦA HỆ SỐ XU HƯỚNG
Phương pháp nghịch đảo trọng số của hệ số xu hướng cho mỗi mẫu dữ liệu huấn luyện, giúp cho mô hình học quan tâm đến những mẫu dữ liệu quan trọng có trọng số cao Phương pháp nghịch đảo trọng số của hệ số xu hướng sẽ đánh trọng số của mỗi mẫu dữ liệu huấn luyện dựa trên hệ số xu hướng
Trọng số này thể hiện sự tương đồng giữa mẫu dữ liệu huấn luyện với mẫu dữ liệu kiểm thử, tức hệ số xu hướng càng cao thì mẫu này càng được chú ý tới nhiều vì nó phù hợp với đặc tính dữ liệu kiểm thử Ngược lại, nếu mẫu dữ liệu huấn luyện có trọng số thấp tức mẫu này không còn phù hợp với tập dữ liệu kiểm thử
29 Công thức tính trọng số như sau:
Với trọng số được tính, quá trình cân bằng phân bố dữ liệu giữa tập huấn luyện và tập kiểm thử được thể hiện qua:
Mỗi mẫu dữ liệu tập huấn luyện ứng với một trọng số thể hiện tính tương quan đến phân bố tập dữ liệu kiểm thử, giúp cho mô hình học thêm thông tin về độ lệch phân bố của từng mẫu dữ liệu, mô hình học sẽ chú trọng nhiều với những mẫu dữ liệu có trọng số cao Điều này giúp mô hình học có khả năng thích ứng tốt khi phân bố dữ liệu thay đổi theo thời gian, đồng thời không làm giảm đi số mẫu dữ liệu ban đầu.
K ẾT LUẬN
Qua quá trình tìm hiểu cơ sở lí thuyết để giải quyết hai vấn đề quan trọng ảnh hưởng đến hiệu năng phân lớp của bài toán dự báo thuê bao rời bỏ nhà mạng ta thấy có nhiều kĩ thuật hiện đại có tiềm năng cao và phù hợp để áp dụng trong luận văn này Trong luận văn, các phương pháp được chọn để giải quyết vấn đề mất cân bằng dữ liệu là: SMOTE, DBN, hàm mất mát Focal, hàm mất mát Entropy dựa trên trọng số Các phương pháp dùng để giải quyết vấn đề độ lệch dữ liệu theo thời gian là: kĩ thuật tìm kiếm đối kháng, kĩ thuật nghịch đảo trọng số của hệ số xu hướng.
PHƯƠNG PHÁP TIẾP CẬN
C ÁC BƯỚC THỰC HIỆN
Hệ thống dự báo thuê bao rời bỏ nhà mạng gặp phải hai vấn đề quan trọng cần giải quyết: thứ nhất là nguồn dữ liệu huấn luyện bị mất cân bằng và phân bố xác xuất giữa tập huấn luyện và tập dự đoán trong thực tế khác nhau, với các nghiên cứu gần đây đều nhấn mạnh vào giải quyết hai vấn đề đó Tuy nhiên việc kết hợp các giải thuật học sâu với nhiều kĩ thuật phức tạp đòi hỏi chi phí tính toán cao cũng như đánh đổi cho sự phức tạp khó diễn tả được cách thức hoạt động của mô hình trong thực tế, hơn nữa một số kĩ thuật mạng nơ ron học sâu đòi hỏi yêu cầu dữ liệu phải liên tục được thu thập theo thời gian để quan sát hành vi khách hàng thay đổi, dữ liệu này khó gặp trong nghiên cứu vì tính bảo mật và riêng tư của khách hàng và nhà cung cấp dịch vụ mạng Do đó phạm vi của đề tài này chọn nguồn dữ liệu được rút trích trong một khoảng thời gian để quan sát hành vi của khách hàng, bộ dữ liệu được chọn phải được mô tả tổng quan các hoạt động sử dụng dịch vụ mạng viễn thông được dùng làm chuẩn để so sánh đối chiếu với các giải thuật khác nhau
Quá trình thực hiện mô hình học có khả năng dự đoán khách hàng rời bỏ nhà mạng được tiến hành qua các bước sau:
• Quá trình tìm hiểu, phân tích về hành vi sử dụng dịch vụ mạng viễn thông: tìm ra sự khác biệt về hành vi giữa hai nhóm rời bỏ và nhóm không rời bỏ, làm nền tảng cho quá trình suy luận, chọn lọc thông tin, lựa chọn đặc trưng có khả năng phân lớp Quá trình này được thực hiện bằng các kĩ thuật thăm dò, khai phá dữ liệu kết hợp góc nhìn thực tế về nhu cầu rời bỏ nhà mạng nhằm vẽ nên được bức tranh toàn cảnh về dữ liệu,
31 cung cấp kiến thức cho quá trình chuẩn bị dữ liệu, làm sạch dữ liệu, lựa chọn đặc trưng, rút trích đặc trưng
• Quá trình rút trích, lựa chọn đặc trưng, tạo ra đặc trưng mới: trong giai đoạn này vận dụng các quan sát thống kê học được cho phép chúng tôi chọn lọc, rút trích và có thể tạo ra các đặc trưng bậc cao hơn từ dữ liệu đã có
• Quá trình cân bằng dữ liệu giữa hai nhóm: nhóm rời bỏ (thiểu số) và nhóm không rời bỏ (đa số) Đây là bước quan trọng của mô hình, chúng tôi sẽ đánh giá trên hai cách tiếp cận: tiếp cận trên khía cạnh dữ liệu và tiếp cận trên khía cạnh hàm mất mất Trong đó mô hình sinh xác suất sử dụng mạng Deep Belief Network (DBN) có khả năng sinh ra được dữ liệu từ phân bố xác suất học được, khi đó nhóm dữ liệu thiểu số sẽ được biểu diễn với góc nhìn xác suất, cô đọng, trích xuất được các mối quan hệ dựa trên các biến ẩn nhằm tạo ra một bộ dữ liệu mới cho nhóm thiểu số Điều này làm tăng lượng dữ liệu nhóm thiểu số, tăng khả năng cân bằng trong tập dữ liệu huấn luyện Việc áp dụng mô hình xác suất sẽ được so sánh với các kĩ thuật hiện có như over- sampling, under-sampling, SMOTE để thấy được điểm mạnh và hạn chế của cách tiếp cận này Trong phương pháp tiếp cận theo hướng tác động đến hàm mất mát, chúng tôi chọn hàm mất mát Focal và hàm mất mát Entropy theo trọng số hiện thực trên giải thuật XGBoost để so sánh hiệu năng phân lớp với hai phương pháp SMOTE, DBN
• Quá trình xây dựng, thiết kế kĩ thuật giúp mô hình học phát hiện và thích nghi với phân bố dữ liệu thay đổi theo thời gian : nhận thấy được phân bố dữ liệu bị lệch, khác biệt phân bố giữa tập dữ liệu huấn luyện và tập dữ liệu dự đoán trong thực tế do hành vi người dùng thay đổi theo thời gian, chúng tôi sẽ nghiên cứu quá trình có thể tự động phát hiện được sự thay đổi phân bố trên tập dữ liệu kiểm thử để kịp thời phát hiện sự thay đổi này để cho mô hình học tự động được huấn luyện lại để thích ứng với sự thay đổi phân bố dữ liệu theo thời gian Quá trình này có ý nghĩa quan trọng khi áp dụng mô hình học máy để dự đoán thuê bao rời bỏ nhà mạng, khi có thể tự điều chỉnh, tự thích ứng được với sự thay đổi hành vi khách hàng theo thời gian
• Quá trình lựa chọn giải thuật học máy, nghiên cứu cách tiếp cận các giải thuật học sâu vào bài toán và so sánh tính khả thi, thực tiễn của các giải thuật học sâu so với các giải thuật học máy căn bản Trong quá trình này cần chọn tiêu chí đánh giá đúng đắn, phù hợp để có khả năng so sánh các khía cạnh các giải thuật khác nhau
Trong đó hai phần đặc biệt quan trọng được quan tâm là quá trình tạo cân bằng dữ liệu trong tập huấn luyện và quá trình thiết kế, hiện thực quá trình học thích nghi với sự thay đổi hành vi khách hàng theo thời gian.
Q UÁ TRÌNH TẠO CÂN BẰNG DỮ LIỆU HUẤN LUYỆN
Trong nghiên cứu này sẽ khảo sát giữa hai cách tiếp cận về khía cạnh dữ liệu và giải thuật Trong đó về khía cạnh dữ liệu, sử dụng hướng sinh ra dữ liệu mới (synthetic data) thuộc nhóm thiểu số gồm phương pháp SMOTE và phương pháp đề xuất DBN
Trong nghiên cứu này chúng tôi cố gắng đề xuất phương pháp sử dụng mô hình sinh xác suất từ mạng nơron học sâu mà cụ thể là Deep Belief Network để tạo ra một cách diễn tả về xác xuất và đặc trưng ẩn cho nhóm dữ liệu thiểu số
Khi dữ liệu được cho vào mạng DBN, qua nhiều máy Boltzmann giới hạn gồm các nơ ron biểu diễn các đặc trưng ẩn, đầu ra được xác định bằng các quan hệ xác xuất giữa các tầng ẩn, cho phép biểu diễn dữ liệu theo quan hệ xác suất ứng với các đặc trưng mới được biểu diễn bằng cách tổ hợp từ các đặc trưng ẩn trừu tượng
Về khía cạnh giải thuật, nghiên cứu sử dụng phương pháp tác động đến hàm mất mát để phạt độ lỗi có trọng số nhiều hơn với tập dữ liệu thiểu số Hai phương pháp được sử dụng là hàm mất mát Focal và hàm mất mát Entropy trọng số
• Hàm mất mát Focal (Focal Loss)
• Hàm mất mát Entropy theo trọng số (Weighted Loss)
Q UÁ TRÌNH THIẾT KẾ KĨ THUẬT HỌC THÍCH ỨNG VỚI ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THEO THỜI GIAN
Đề tài này chú ý đến vấn đề covariate shift, vì có rất nhiều trường hợp thực tế gặp phải vấn đề này khi phân bố đặc trưng bị lệch theo thời gian giữa tập huấn luyện và tập dự đoán
Trong nghiên cứu này, sẽ áp dụng kĩ thuật tìm kiếm đối kháng để giúp mô hình học thích ứng với sự thay đổi phân bố dữ liệu thay đổi theo thời gian, cụ thể là phân bố đặc trưng của dữ liệu kiểm thử theo thời gian sẽ lệch so với phân bố đặc trưng trên tập dữ liệu huấn luyện
Trong thực tế, dữ liệu dự đoán đến theo dòng thời gian ta có thể dùng phương pháp xác xuất hay đánh giá phân bố hệ số xu hướng giữa tập huấn luyện ban đầu và dữ liệu dự đoán Tuy nhiên trong thực nghiệm do hạn chế về dữ liệu, chúng tôi đề xuất phương pháp dùng độ đo khoảng cách Euclid để tách biệt tập dữ liệu kiểm thử và tập dữ liệu huấn luyện nhằm tạo ra tập dữ liệu kiểm thử có độ lệch phân bố có ý nghĩa thống kê đối với tập huấn luyện
Sau khi phân chia tập dữ liệu kiểm thử có sự thay đổi phân bố đặc trưng so với tập huấn luyện, chúng tôi tiến hành dùng kĩ thuật tìm kiếm đối kháng nhằm giúp cho mô hình học có khả năng thích ứng với sự thay đổi phân bố dữ liệu Trong thực nghiệm đánh giá hiệu quả của các giải thuật phân lớp để tạo bộ phân lớp đối kháng, các giải thuật được chọn là:
K ẾT LUẬN
Nhận thấy rằng hai tính chất then chốt là tính mất cân bằng dữ liệu và tính covariate shift của bài toán dự báo thuê bao rời khỏi nhà mạng nói riêng và chung cho nhiều bài toán phân lớp khác gặp phải trong thực tế Nếu giải quyết được tốt hai vấn đề này sẽ tăng được hiệu quả phân lớp, bằng cách đi vào bản chất của mô hình học cũng như nền tảng phân bố dữ liệu để mô hình học có khả năng tách biệt được sự nhập nhằng của hai nhóm đa số và thiểu số Cũng như giúp mô học giải quyết vấn đề covariate shift để mô hình học thích ứng với dữ liệu thực tế luôn biến đổi theo thời gian
HIỆN THỰC VÀ THỰC NGHIỆM
T HỰC NGHIỆM GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU
Trong nghiên cứu này sử dụng độ đo AUC (Area Under the ROC Curve) là độ đo chính để đánh giá hiệu năng của mô hình học, độ đo AUC được sử dụng vì phản ánh đúng hiệu năng cho tập dữ liệu mất cân bằng, mặc khác độ đo AUC không phụ thuộc vào việc chia ngưỡng xác xuất dự đoán giữa hai nhóm rời bỏ và nhóm không rời bỏ Đồng thời các tiêu chí như độ chính xác (accuracy), precision, recall và F1 cũng được xem xét nhằm mang lại góc nhìn bổ sung cho độ đo AUC
Thực nghiệm đánh giá dựa trên kết quả đánh giá trên tập kiểm thử được lấy 30% từ tập dữ liệu gốc ban đầu Tập dữ liệu kiểm thử này hoàn toàn tách biệt với tập huấn luyện Giá trị AUC được lấy dựa trên kết quả chạy tốt nhất giữa các lần chạy Tham số tối ưu (parameter) của các phương pháp qua quá trình tìm kiếm lưới (grid search) được chọn từ thực nghiệm có độ đo AUC đạt kết quả tốt nhất Tất cả các thực nghiệm đều dùng chung nhất tập dữ liệu trong đó có quá trình tiền xử lí, lựa chọn tập dữ liệu hoàn toàn tương đồng
Bảng 1 Đặc tính hai tập dữ liệu UCI và Cell2Cell
Source UCI University Duke Univerity
Missing Feature Values No Yes
Bảng 2 Thông số dữ liệu huấn luyện và kiểm thử
Non-churn Class Training Samples 1991 25416
Non-churn Class Testing Samples 859 10920
Thực nghiệm dựa trên hai tập dữ liệu UCI và Cell2Cell về hành vi sử dụng mạng viễn thông để dự báo người dùng rời bỏ nhà mạng Tập dữ liệu UCI từ kho dữ liệu dùng cho các nghiên cứu học máy từ trường đại học California, Irvine [43] Tập dữ liệu UCI chứa thông tin hành vi sử dụng dịch vụ mạng viễn thông dựa vào lịch sử gọi thoại của khách hàng Tập dữ liệu Cell2Cell từ trung tâm quản lí quan hệ khách hàng từ đại học Duke [44] mô tả hành vi sử dụng mạng viễn thông đến từ nhà mạng Cell2Cell, nhà mạng Cell2Cell là một trong những nhà cung cấp dịch vụ mạng không dây lớn nhất tại Mỹ Trung bình tỉ lệ rời bỏ nhả mạng này khoảng 4% khách hàng Đặc tính chi tiết của hai tập dữ liệu này được mô tả chi tiết trong Bảng 1
38 Mục tiêu đầu tiên của thực nghiệm là so sánh độ hiệu quả khi dùng các phương pháp xử lí dữ liệu mất cân bằng so với phương pháp cổ điển mà tập trung phần nhiều vào các giải thuật học máy
Mục tiêu thứ hai của thực nghiệm là đánh giá hiệu quả của các phương pháp xử lí dữ liệu mất cân bằng, dựa trên hai nhóm chính là tiếp cận theo hướng dữ liệu và tiếp cận theo hướng hàm mất mát Thực nghiệm cũng khảo sát sự ảnh hưởng của các tham số đến sự điều chỉnh hàm mất mát và hiệu năng phân lớp của mô hình học
Chúng tôi sử dụng phương pháp chiếu giảm chiều phân tích thành phần chính (Principal Component Analysis - PCA) trên hai tập dữ liệu UCI và Cell2Cell, kết quả phép chiếu được thể hiện trong hình 10, hình 11 bên dưới
Qua kết quả phép chiếu thể hiện rõ nhóm khách hàng rời bỏ so với nhóm nhóm khách hàng không rời bỏ có sự nhập nhằng, đan xen lẫn nhau đặc biệt là trên tập Cell2Cell Điều này ngầm định sự phân tách giữa hai nhóm khách hàng rời bỏ và không rời bỏ trên tập Cell2Cell sẽ đặc biệt khó khăn hơn trên tập UCI
Hình 10 Phép chiếu PCA trên tập UCI
Hình 11 Phép chiếu PCA trên tập Cell2Cell
40 Trong thực nghiệm, chúng tôi áp dụng hai mô hình học máy khác nhau, Hồi quy Logistics và XGBoost [45] Hồi quy Logistics là mô hình học máy cổ điển, XGBoost là mô hình học máy dựa trên kĩ thuật tổng hợp các bộ phân lớp (ensemble) thuộc nhóm giải thuật Gradient Tree Boosting (Chen và Guestrin, 2016 [45]) Sau đó với mỗi giải thuật học máy, các phương pháp xử lí dữ liệu mất cân bằng được áp dụng để so sánh hiệu năng với nhau Độ đo AUC được dùng làm độ đo chính để đánh giá hiệu quả phân lớp Giải thuật Hồi quy Logistics được thực hiện trên thư viện scikit-learn, giải thuật XGBoost sử dụng thư viện xgboost Giải thuật XGBoost với hai hàm mất mát Focal và hàm mất mát Entropy theo trọng số sử dụng thư viện imblance-xgboost Chúng tôi hiện thực mô hình DBN và hàm mất mát Focal, hàm mất mát Entropy theo trọng số trên giải thuật Hồi quy Logistics dùng thư viện Tensorflow trên ngôn ngữ Python
Bảng 3, Bảng 4, Bảng 5 trình bày kết quả đánh giá hiệu năng trên tập dữ liệu UCI
Bảng 6, Bảng 7, Bảng 8 trình bày kết quả đánh giá hiệu năng trên tập dữ liệu Cell2Cell Các bảng trên thể hiện rõ hiệu năng phân lớp giữa hai nhóm giải thuật học máy (Hồi quy Logistics và XGBooost) cũng như so sánh hiệu năng phân lớp giữa các phương pháp xử lí dữ liệu mất cân bằng khác nhau Kết quả trong phần tô đậm, chúng tôi đánh dấu phương pháp mang lại hiệu năng phân lớp cải thiện đáng kể so với các phương pháp còn lại
Bảng 3 Đánh giá hiệu năng phân lớp (AUC) trên tập UCI
Bảng 4 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật
Hồi quy Logistics trên tập UCI
Bảng 5 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật
Bảng 6 Đánh giá hiệu năng phân lớp (AUC) trên tập Cell2Cell
Kết quả trong Bảng 3 và Bảng 6 thể hiện rõ hiệu năng phân lớp được cải thiện đáng kể khi áp dụng kĩ thuật giải quyết vấn đề mất cân bằng dữ liệu so với phương pháp truyền thống Đặc biệt phương pháp tác động đến hàm mất mát đạt hiệu quả cao hơn phương pháp tiếp cận theo hướng dữ liệu Tuy nhiên việc kết hợp hai hàm mất Focal và hàm mất mát Entropy theo trọng số trên giải thuật XGBoost hiệu quả hơn rất nhiều so với giải thuật Hồi quy Logistics, cho thấy hiệu quả của hàm mất mát Focal và Entropy theo trọng số phụ thuộc vào giải thuật học máy phân lớp SMOTE và DBN có kết quả khá tương đồng Đồng thời thấy rõ hiệu năng của giải thuật XGBoost đạt hiệu quả tốt hơn nhiều so với giải thuật Hồi quy Logistics Việc áp dụng đồng thời cả hai phương pháp tiếp cận theo hướng dữ liệu và phương pháp tác động đến hàm mất mát không mang lại hiệu quả tốt hơn
Bảng 7 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật
Hồi quy Logistics trên tập Cell2Cell
Bảng 8 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật
XGBoost trên tập Cell2Cell
Kết quả trong Bảng 4, Bảng 5, Bảng 7, Bảng 8 thể hiện rõ hiệu năng phân lớp thể hiện qua các độ đo Accuracy, Precision, Recall và F1 Trong đó độ đo Accuracy được tính cho cả hai lớp, các độ đo còn lại chỉ tính trên lớp rời bỏ nhà mạng (lớp thiểu số) Qua đó cho thấy độ đo Accuracy không phản ánh đúng hiệu năng phân lớp cho trường hợp tập dữ liệu mất cân bằng Độ đo F1 cũng là độ đo phản ánh tốt hiệu năng phân lớp cho trường hợp dữ liệu mất cân bằng, trong tập UCI cả hai phương pháp hàm mất mát Focal và hàm mất mát Entropy theo trọng số có giá trị F1 tốt hơn so với các phương pháp khác, trên tập dữ liệu Cell2Cell thì phương pháp hàm mất mát theo trọng số đạt giá trị F1 vượt trội Tuy nhiên các độ đo Accuracy, Precision, Recall và F1 phụ thuộc vào việc chia ngưỡng xác suất để xác định nhãn lớp, điều này đòi hỏi việc chọn lựa ngưỡng phù hợp với tiêu chí triển khai
47 mô hình học máy trong thực tế Một vấn đề khác khi so sánh hiệu năng phân lớp sử dụng các độ đo Accuracy, Precision, Recall, F1 là phân bố xác suất giữa các giải thuật không đồng nhất, đối với giải thuật hồi quy Logistics đã chuẩn hoá phân bố xác suất đầu ra, trong khi đó với các giải thuật như Random Forest, XGBoost… đầu ra chưa được chuẩn hoá, khi so sánh ta cần quá trình điều chỉnh phân bố xác suất đầu ra này Do đó trong luận văn chúng tôi chỉ chọn độ đo AUC là độ đo chính để đánh giá hiệu năng phân lớp, các độ đo còn lại Accuracy, Precision, Recall, F1 nhằm mang lại góc nhìn khác bổ sung thêm Điều này phù hợp trong thực tế khi triển khai các giải thuật học máy khi chỉ chọn một mục tiêu nhất định khi tối ưu hoá
Kết quả thực nghiệm trên tập Cell2Cell có kết quả tương đồng với tập dữ liệu UCI Tuy nhiên sự cải thiện giá trị AUC trên tập Cell2Cell khi áp dụng phương pháp tác động đến hàm mất mát (hàm mất mát Focal và hàm mất mát Entropy theo trọng số) so với phương pháp tiếp cận dữ liệu (SMOTE và DBN) đạt sự cải thiện đáng kể so với trên tập UCI Điều này có thể giải thích do hai nhóm khách hàng rời bỏ và không rời bỏ trên tập Cell2Cell rất nhập nhằng, khó phân tách so với tập UCI, dẫn dến khi áp dụng phương pháp tác động đến hàm mất mát có nhiều thuận lợi để tối ưu, mang đến sự cải thiện đáng kể
Hình 12 Giá trị AUC ứng với tỉ lệ nhóm rời bỏ trên tập UCI
Hình 13 Giá trị AUC ứng với tỉ lệ nhóm rời bỏ trên tập Cell2Cell
Tiếp theo thực nghiệm khảo sát sự biến động của giá trị AUC đối với tỉ lệ nhóm khách hàng rời bỏ nhà mạng (tỉ lệ mất cân bằng của nhóm thiểu số) Giá trị AUC đối với từng tỉ lệ nhóm khách hàng rời bỏ nhà mạng được thể hiện trong hình 12 và 13, tương ứng với tập dữ liệu UCI và tập dữ liệu Cell2Cell Qua đó thể hiện rõ hiệu năng phân lớp khi áp dụng phương pháp tác động đến hàm mất mát cải thiện đáng kể so với phương pháp tiếp cận
SMOTE DBN Focal Loss Weight Loss
SMOTE DBN Focal Loss Weight Loss
49 theo hướng dữ liệu Đặc biệt cả hàm mất mát Focal và hàm mất mát Entropy theo trọng số có hiệu năng tương đương và hiệu quả phân lớp cải thiện tốt đối với tỉ lệ nhóm khách hàng rời bỏ là 1% và 5% Điều này mang lại khả năng ứng dụng cao của phương pháp tác động đến hàm mất mất (hàm Focal và hàm Entropy theo trọng số) khi giải quyết tập dữ liệu rất mất cân bằng hay thường gặp trong thực tế
T HỰC NGHIỆM GIẢI QUYẾT VẤN ĐỀ ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THEO THỜI GIAN
Trong các bài toán thực tế, dữ liệu kiểm thử đến tuần tự theo thời gian, nên có thể kiểm tra sự thay đổi phân bố dữ liệu giữa tập huấn luyện và tập kiểm thử Trong thực nghiệm này chúng tôi tạo ra tập dữ liệu kiểm thử (chiếm 30%), tập này thể hiện rõ độ lệch phân bố so với phần còn lại (70%) dùng làm tập huấn luyện Phương pháp chọn ra tập dữ liệu này dựa trên độ đo Euclid, minh hoạ sau đây: Ứng với mỗi mẫu dữ liệu tương ứng với vector n chiều, trong đó n là số đặc trưng dùng để huấn luyện mô hình phân lớp
53 Bước 1: Từ mỗi mẫu trong tập dữ liệu ban đầu, tính khoảng cách từ mẫu này đến tất cả mẫu còn lại
Bước 2: Ứng với mỗi mẫu dữ liệu tìm mẫu dữ liệu lân cận với nó, tức là mẫu có khoảng cách Euclid ngắn nhất với nó
Bước 3: Dùng khoảng cách lân cận để xếp hạng từ trên xuống dưới, các mẫu có khoảng cách Euclid lớn đối với lân cận của nó có xu hướng nằm xa với phân bố Chọn 30% các mẫu có khoảng cách đến lân cận lớn nhất làm tập kiểm thử, 70% dữ liệu còn lại làm tập dữ liệu huấn luyện
Sau khi được tập dữ liệu huấn luyện và tập dữ liệu kiểm thử, ta đánh giá lại độ lệch phân bố giữa hai tập này Sau đó áp dụng các phương pháp giải quyết vấn đề thay đổi phân bố dữ liệu để đánh giá hiệu năng trên tập dữ liệu huấn luyện được chọn Thực nghiệm dùng độ đo AUC làm độ đo đánh giá hiệu quả phân lớp Thực nghiệm thực hiện trên tập dữ liệu UCI
Mục đích thực nghiệm trình bày phương pháp xác định quá trình thay đổi phân bố dữ liệu giữa tập huấn luyện và tập kiểm thử Sau đó trình bày hiệu quả phân lớp đạt được khi áp dụng các phương pháp giải quyết khi dữ liệu thay đổi phân bố theo thời gian Áp dụng phương pháp nghịch đảo trọng số của hệ số xu hướng (Inverse Propensity
Weighted), chúng tôi thực hiện so sánh hiệu quả các giải thuật phân lớp đối kháng so với phương pháp truyền thống Sử dụng hai giải thuật Hồi quy Logistics và XGBoost làm bộ phân lớp đối kháng Với nhãn phân lớp ứng với nhãn 1 là tập dữ liệu kiểm thử, nhãn 0 là tập dữ liệu huấn luyện Kết quả bộ phân lớp sẽ cho ra giá trị xác suất của mẫu dữ liệu thuộc nhóm dữ liệu kiểm thử.Xác suất này chính là hệ số xu hướng của từng mẫu dữ liệu Sau đó quá trình nghịch đảo trọng số của hệ số xu hướng trên tập dữ liệu huấn luyện, mỗi mẫu dữ liệu huấn luyện sẽ có một trọng số, trọng số này thể hiện độ quan trọng của mẫu cho giải
54 thuật học máy nhận biết, trong trường hợp này trọng số của mẫu dữ liệu huấn luyện tương quan với khả năng mẫu này giống với mẫu trong tập dữ liệu kiểm thử Ví dụ, mẫu có trọng số cao thì mẫu này có khả năng cao giống với dữ liệu tập huấn luyện Phương pháp này ngầm định đánh trọng số cho mỗi mẫu, trọng số liên quan đến sự tương đồng với dữ liệu kiểm thử giúp cho mô hình học máy ưu tiên những mẫu có trọng số cao
Thực hiện quá trình phân chia dữ liệu huấn luyện và kiểm thử dùng phương pháp độ đo khoảng cách Euclid Sau khi phân chia dữ liệu, đánh giá lại độ lệch phân bố của hệ số xu hướng giữa quá trình phân chia bằng độ đo Euclid so với phương pháp ngẫu nhiên để kiểm định lại phương pháp dùng độ đo khoảng cách Euclid tạo ra tập dữ liệu kiểm thử lệch phân bố có ý nghĩa thống kê so với tập dữ liệu huấn luyện Biểu diễn độ lệch phân bố giữa tập huấn luyện và tập kiểm thử khi dùng phương pháp độ đo khoảng cách Euclid được biểu diễn trong hình 19 so với phương pháp ngẫu nhiên được biễu diễn trong hình 20
Hình 19 Phân bố hệ số xu hướng khi phân chia tập huấn luyện (tập control) và tập kiểm thử (tập test) dựa trên khoảng cách Euclid
Hình 20 Phân bố hệ số xu hướng khi phân chia ngẫu nhiên tập huấn luyện (tập control) và tập kiểm thử (tập test)
56 Qua hình 19 và hình 20, ta thấy khi dùng phương pháp độ đo khoảng cách Euclid để phân chia tập dữ liệu huấn luyện và tập dữ liệu kiểm thử, có sự tách biệt phân bố của hệ số xu hướng giữa hai nhóm Trong khi so với phương pháp phân chia ngẫu nhiên, phân bố hệ số xu hướng giữa hai nhóm gần như chồng khít lên nhau Điều này khẳng định, việc dùng phương pháp độ đo khoảng cách Euclid để phân chia tập dữ liệu huấn luyện và tập dữ liệu kiểm thử nhằm mục đích tạo ra tập kiểm thử có độ lệch phân bố có ý nghĩa thống kê, phù hợp trong ngữ cảnh thực nghiệm
Sau đó chúng tôi đánh giá phương pháp nghịch đảo trọng số của hệ số xu hướng lên tập dữ liệu có sự thay đổi phân bố giữa tập dữ liệu tập kiểm thử so với tập huấn luyện để đánh giá hiệu quả cách tiếp cận này Áp dụng phương pháp nghịch đảo trọng số của hệ số xu hướng, ta thực hiện so sánh hiệu quả các giải thuật phân lớp đối kháng so với phương pháp truyền thống Sử dụng hai giải thuật Hồi Logistics và XGBoost làm bộ phân lớp đối kháng Sau đó dùng phương pháp nghịch đảo trọng số của hệ số xu hướng để tìm trọng số mỗi mẫu trong tập dữ liệu huấn luyện Các mẫu dữ liệu huấn luyện ứng với mỗi trọng số sẽ được đưa vào giải thuật phân lớp để dự đoán mẫu này có khả năng rời bỏ nhà mạng hay không, giải thuật được chọn là XGBoost vì theo đánh giá bên trên giải thuật này có hiệu quả phân lớp tốt Kết quả giá trị AUC khi dùng kĩ thuật tìm kiếm đối kháng được ghi nhận trong Bảng 5
Bảng 10 Kết quả tập dữ liệu mô phỏng quá trình lệch phân bố
Split Algorithm AUC Accuracy Precision Recall F1
Bảng 11 Kết quả áp dụng kĩ thuật tìm kiếm đối kháng
Classifier Algorithm AUC Accuracy Precision Recall F1
Bảng 7 cho thấy khi áp dụng kĩ thuật tìm kiếm đối kháng cho kết quả tốt hơn, cụ thể với bộ phân lớp đối kháng dùng Hồi quy Logistics giá trị AUC tăng gần 1.5%, với giải thuật XGBoost tăng gần 2% Kết quả này chứng tỏ cách tiếp cận tìm kiếm đối kháng mang lại
58 tiềm năng to lớn giúp mô hình học thích ứng được với sự thay đổi phân bố dữ liệu theo thời gian
Qua thực nghiệm chứng tỏ khả năng ứng dụng kĩ thuật tìm kiếm đối kháng để giải quyết vấn đề phân bố dữ liệu thay đổi theo thời gian Trong thực tế với kĩ thuật tìm kiếm đối kháng giúp chúng ta phát hiện sớm sự thay đổi phân bố, nếu sự thay đổi này lớn hơn ngưỡng đặt trước, khi đó chứng ta sẽ áp dụng kĩ thuật nghịch đảo trọng số của hệ số xu hướng để giúp mô hình học thích ứng được sự thay đổi theo thời gian Quá trình này có thể thiết lập tự động theo thời gian, phù hợp với các ngữ cảnh trong thực tế khi dữ liệu liên tục thay đổi, và mô hình học cần thích ứng nhanh và thay đổi kịp thời Giải quyết vấn đề thay đổi mô hình học thích ứng với sự thay đổi phân bố dữ liệu cũng là một trong những khía cạnh quan trọng trong bài toán tự động quá trình học máy (Auto Machine Learning) được quan tâm nhiều gần đây