1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Giải quyết vấn đề mất cân bằng dữ liệu trong bài toán dự báo thuê bao rời bỏ nhà mạng

80 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM

Cán bộ hướng dẫn khoa học: PGS TS Dương Tuấn Anh

Cán bộ chấm nhận xét 1: TS Võ Thị Ngọc Châu

Cán bộ chấm nhận xét 2: PGS TS Nguyễn Thanh Hiên

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 24 tháng 8 năm 2020

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 Chủ tịch hội đồng: PGS TS Quản Thành Thơ2 Thư ký hội đồng: TS Nguyễn Tiến Thịnh 3 Phản biện 1: TS Võ Thị Ngọc Châu

4 Phản biện 2: PGS TS Nguyễn Thanh Hiên 5 Ủy viên hội đồng: TS Phạm Văn Chung

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KHMT

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: NGUYỄN NHẬT NAM MSHV: 1770658 Ngày, tháng, năm sinh: 05-09-1992 Nơi sinh: Tiền Giang Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01.01

I TÊN ĐỀ TÀI:

GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO THUÊ BAO RỜI BỎ NHÀ MẠNG

II NHIỆM VỤ VÀ NỘI DUNG:

NGHIÊN CỨU VÀ ÁP DỤNG CÁC KĨ THUẬT ĐỂ GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU TRONG BÀI TOÁN THUÊ BAO RỜI BỎ NHÀ MẠNG

III NGÀY GIAO NHIỆM VỤ : 19-08-2019

IV NGÀY HOÀN THÀNH NHIỆM VỤ : 31-7-2020 V CÁN BỘ HƯỚNG DẪN : PGS.TS DƯƠNG TUẤN ANH

Trang 4

Lời Cám Ơn

Lời đầu tiên, tôi muốn gửi lời cảm ơn chân thành đến thầy PGS.TS Dương Tuấn Anh, trong thời gian qua, đã hướng dẫn và giúp đỡ tôi trong quá trình thực hiện luận văn tốt nghiệp Những lời nhận xét, góp ý và hướng dẫn của Thầy đã giúp tôi có một định hướng đúng trong quá trình thực hiện đề tài, giúp chúng tôi thấy được những ưu khuyết điểm của từng phương pháp tiếp cận và từng bước khắc phục để ngày một tốt hơn

Cám ơn Lê Anh Vũ tại trường Đại học Fulbright Việt Nam đã đóng góp và sửa chữa cách trình bày, văn phong trong quá trình hoàn thành bài báo khoa học

Đồng thời tôi cũng muốn gửi lời cảm ơn sâu sắc đến gia đình và bạn bè đã động viên, cổ vũ tinh thần và góp ý trong suốt quá trình học tập và thực hiện đề tài, đặc biệt là gia đình đã chăm lo và hy sinh rất nhiều để tôi có thể chuyên tâm học tập

Sau cùng, tôi xin kính chúc quý Thầy Cô trong khoa Khoa Học và Kĩ Thuật Máy Tính thật dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau

Thành phố Hồ Chí Minh, 9/2020 Nguyễn Nhật Nam

Trang 5

Tóm Tắt

Dự báo thuê bao rời bỏ nhà mạng là vấn đề được quan tâm rộng rãi trong công nghiệp như ngân hàng, các công ty dịch vụ viễn thông vì nó ảnh hưởng quan trọng đến lợi nhuận của công ty Tuy nhiên, các giải thuật truyền thống áp dụng cho bài toán dự báo thuê bao rời bỏ nhà mạng có một số hạn chế bởi vì dữ liệu thường mất cân bằng Những kĩ thuật phổ biến để giải quyết dữ liệu mất cân bằng trong bài toán thuê bao rời bỏ nhà mạng thuộc hai nhóm chính sau: kĩ thuật lấy mẫu để làm cân bằng tập dữ liệu trước khi huấn luyện mô hình học và kĩ thuật tác động đến hàm mất mát, mà kĩ thuật này điều chỉnh chi phí khi phân lớp sai trong khi huấn luyện mô hình Trong đề tài, chúng tôi so sánh hiệu quả phân lớp của hai

phương pháp lấy mẫu là: SMOTE và Deep Belief Network (DBN) đối với hai phương pháp

liên quan đến hàm mất mát là: hàm mất mát Focal và hàm mất mát Entropy theo trọng số Kết quả thực nghiệm cho thấy rằng trong bài toán thuê bao rời bỏ nhà mạng, hiệu năng dự đoán tổng thể của phương pháp hàm mất mát Focal và hàm mất mát Entropy theo trọng số đạt hiệu quả tốt hơn so với hai phương pháp SMOTE và DBN Thêm vào đó chúng tôi nhận

thấy vấn đề độ lệch phân bố dữ liệu thay đổi theo thời gian là vấn đề quan trọng khi triển

khai các mô hình dự đoán trong thực tế Trong đề tài chúng tôi tìm hiểu kĩ thuật tìm kiếm đối kháng nhằm giúp mô hình có khả năng tự phát hiện và thích ứng với sự thay đổi phân bố dữ liệu theo thời gian Qua kết quả thực nghiệm cho thấy việc áp dụng kĩ thuật đối kháng mang lại hiệu quả phân lớp tốt hơn so với các phương pháp truyền thống

Trang 6

Abstract

Customer churn is a major problem in several service industries such as banks and telecommunication companies for its profound impact on the company’s revenue However, the existing algorithms for churn prediction still have some limitations because the data is usually imbalanced The commonly-used techniques for handling imbalanced data in churn prediction belong to two categories: resampling methods that balance the data before model training, and cost-sensitive learning methods that adjust the relative costs of the errors during model training In this work, we compare the performance of two data resampling methods:

SMOTE and deep belief network (DBN) against the two cost-sensitive learning methods:

focal loss and weighted loss in churn prediction problem The empirical results show that as for churn prediction problem, the overall predictive performance of focal loss and weighted loss methods is better than that of SMOTE and DBN In addition, we recognize that the

problem of data distribution shift over time is an important problem when implementing predictive models in practice In this topic, we explore adversarial search technique to help

the model self-detect and adapt to changes in data distribution over time Experimental

results show that the application of adversarial search technique brings better classification

effect compare with using traditional methods

Trang 7

Lời Cam Đoan

Tôi là Nguyễn Nhật Nam học viên cao học khoa Khoa Học và Kĩ Thuật Máy Tính, Đại học Bách Khoa TP HCM, MSHV 1770658 Tôi xin cam đoan rằng luận văn thạc sĩ "Giải Quyết Vấn Đề Mất Cân Bằng Dữ Liệu Trong Bài Toán Dự Báo Thuê Bao Rời Bỏ Nhà Mạng" là kết quả tìm hiểu, nghiên cứu độc lập của chính bản thân

Tôi xin cam đoan:

• Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc cao học • Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều được trích

dẫn, tham khảo Tất cả các tài liệu được trích dẫn và có tính kế thừa từ các tạp chí và các công trình nghiên cứu đã được công bố

• Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phần mềm mã nguồn mở

• Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng

• Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khi chạy chương trình

Thành phố Hồ Chí Minh, 9/2020 Nguyễn Nhật Nam

Trang 8

Mục Lục

LỜI CÁM ƠN I TÓM TẮT II ABSTRACT III LỜI CAM ĐOAN IV DANH MỤC HÌNH VIII DANH MỤC BẢNG IX CHƯƠNG 1 GIỚI THIỆU IX

1.1TỔNG QUAN VỀ ĐỀ TÀI 1

1.2MỤC ĐÍCH NGHIÊN CỨU 2

1.3ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2

1.4KẾT QUẢ ĐẠT ĐƯỢC 3

1.5CẤU TRÚC LUẬN VĂN 3

CHƯƠNG 2 CÁC CÔNG TRÌNH LIÊN QUAN 5

2.1MÔ HÌNH ÁP DỤNG CÁC GIẢI THUẬT HỌC MÁY CĂN BẢN VÀ MẠNG NƠRON HỌC SÂU 5

2.2 MÔ HÌNH ÁP DỤNG CÁC KĨ THUẬT HỌC CHUYỂN GIAO (TRANSFER LEARNING) 7

2.3MÔ HÌNH GIẢI QUYẾT DỮ LIỆU MẤT CÂN BẰNG 9

2.3.1 Xử lí dữ liệu mất cân bằng với tiếp cận về phương diện dữ liệu 10

2.3.2 Xử lí dữ liệu mất cân bằng với tiếp cận về phương diện giải thuật 10

2.4MÔ HÌNH GIẢI QUYẾT VẤN ĐỀ ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THAY ĐỔI THEO THỜI GIAN 11

2.5KẾT LUẬN 11

CHƯƠNG 3 CƠ SỞ LÍ THUYẾT 12

3.1GIẢI THUẬT PHÂN LỚP HỒI QUY LOGISTICS VÀ XGBOOST 12

3.1.1 Giải thuật phân lớp Hồi quy Logistics 12

3.1.2 Giải thuật phân lớp XGBoost 13

3.2VẤN ĐỀ DỮ LIỆU MẤT CÂN BẰNG 14

Trang 9

3.3CÁCH TIẾP CẬN CƠ BẢN ĐỂ GIẢI QUYẾT DỮ LIỆU MẤT CÂN BẰNG 15

3.3.1 Sử dụng các độ đo, tiêu chí để đánh giá phù hợp 15

3.3.2 Lấy mẫu trên tập huấn luyện 16

3.3.3 Sử dụng K-fold kiểm tra chéo (K-fold Validation) đúng cách 17

3.4SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE (SMOTE) 18

3.5DEEP BELIEF NETWORK (DBN) 20

3.6HÀM MẤT MÁT FOCAL (FOCAL LOSS) 21

3.7HÀM MẤT MÁT ENTROPY THEO TRỌNG SỐ (WEIGHTED CROSS ENTROPY LOSS) 21

3.8ĐỘ LỆCH PHÂN BỐ DỮ LIỆU (DISTRIBUTION SHIFT) 22

3.8.1 Covariate shift 24

3.8.2 Prior probability shift 25

3.8.3 Concept shift 25

3.8.4 Phương pháp giải quyết vấn đề độ lệch phân bố dữ liệu 26

3.9TÌM KIẾM ĐỐI KHÁNG (ADVERSARIAL SEARCH) 27

3.10HỆ SỐ XU HƯỚNG (PROPENSITY SCORE) 28

3.11PHƯƠNG PHÁP NGHỊCH ĐẢO TRỌNG SỐ CỦA HỆ SỐ XU HƯỚNG 28

3.12KẾT LUẬN 29

CHƯƠNG 4 PHƯƠNG PHÁP TIẾP CẬN 30

4.1CÁC BƯỚC THỰC HIỆN 30

4.1QUÁ TRÌNH TẠO CÂN BẰNG DỮ LIỆU HUẤN LUYỆN 32

4.2QUÁ TRÌNH THIẾT KẾ KĨ THUẬT HỌC THÍCH ỨNG VỚI ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THEO THỜI GIAN 33

4.3KẾT LUẬN 34

CHƯƠNG 5 HIỆN THỰC VÀ THỰC NGHIỆM 35

5.1THỰC NGHIỆM GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU 35

Trang 10

5.2.2 Kết Quả Thực Nghiệm 54

5.2.3 Kết Luận 58

CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59

BÀI BÁO KHOA HỌC CÔNG BỐ 61

TÀI LIỆU THAM KHẢO 62

Trang 11

Danh Mục Hình

Hình 1 Mô hình học truyền thống [14] 7

Hình 2 Mô hình học chuyển giao [14] 7

Hình 3 Độ đo đánh giá hiệu năng phân lớp nhị phân 16

Hình 4 Minh hoạ kĩ thuật under-sampling và over-sampling 17

Hình 5 Hình minh hoạ kĩ thuật SMOTE [34] 18

Hình 6 Minh hoạ cho quá trình học của giải thuật Deep Belief Network 20

Hình 7 Hình minh hoạ kĩ thuật gán trọng số cho hàm mất mát 22

Hình 8 Hình minh hoạ sự khác biệt giữa phân bố tập huấn luyện và tập dự đoán 23

Hình 9 Hình minh hoạ quá trình Covariate shift 24

Hình 10 Phép chiếu PCA trên tập UCI 39

Hình 11 Phép chiếu PCA trên tập Cell2Cell 39

Hình 12 Giá trị AUC ứng với tỉ lệ nhóm rời bỏ trên tập UCI 48

Hình 13 Giá trị AUC ứng với tỉ lệ nhóm rời bỏ trên tập Cell2Cell 48

Hình 14 Gía trị AUC biến động theo γ trên hàm Focal của tập UCI 49

Hình 15 Giá trị AUC biến động theo α trên hàm trọng số cùa tập UCI 50

Hình 16 Gía trị AUC biến động theo γ trên hàm Focal của tập Cell2Cell 50

Hình 17 Giá trị AUC biến động theo α trên hàm trọng số cùa tập Cell2Cell 50

Hình 18 Thời gian huấn luyện (giây) của bốn phương pháp 51

Hình 19 Phân bố hệ số xu hướng khi phân chia tập huấn luyện (tập control) và tập kiểm thử (tập test) dựa trên khoảng cách Euclid 55

Hình 20 Phân bố hệ số xu hướng khi phân chia ngẫu nhiên tập huấn luyện (tập control) và tập kiểm thử (tập test) 55

Trang 12

Danh Mục Bảng

Bảng 1 Đặc tính hai tập dữ liệu UCI và Cell2Cell 36

Bảng 2 Thông số dữ liệu huấn luyện và kiểm thử 37

Bảng 3 Đánh giá hiệu năng phân lớp (AUC) trên tập UCI 41

Bảng 4 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật Hồi quy Logistics trên tập UCI 42

Bảng 5 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật XGBoost trên tập UCI 43

Bảng 6 Đánh giá hiệu năng phân lớp (AUC) trên tập Cell2Cell 44

Bảng 7 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật Hồi quy Logistics trên tập Cell2Cell 45

Bảng 8 Đánh giá hiệu năng phân lớp (Accuracy, Precision, Recall, F1) với giải thuật XGBoost trên tập Cell2Cell 46

Bảng 9 Thời gian huấn luyện (giây) của bốn phương pháp 51

Bảng 10 Kết quả tập dữ liệu mô phỏng quá trình lệch phân bố 57

Bảng 11 Kết quả áp dụng kĩ thuật tìm kiếm đối kháng 57

Trang 13

Chương 1 Giới thiệu 1.1 Tổng quan về đề tài

Trong bối cảnh các nhà cung cấp dịch vụ mạng viễn thông cạnh tranh nhau để thu hút khách hàng thì việc tìm hiểu hành vi người dùng nhằm xác định tập khách hàng có nguy cơ rời bỏ nhà mạng là nhu cầu cấp thiết Vì chi phí để giữ khách hàng tiếp tục sử dụng thấp hơn rất nhiều chi phí bỏ ra để thu hút khách hàng mới, hơn nữa với tình trạng bão hoà khách hàng hiện nay thì việc để mất khách hàng sẽ gây thiệt hại lớn cho các nhà cung cấp dịch vụ mạng viễn thông đứng trước sức ép cạnh tranh Do đó với việc dự đoán trước được khả năng khách hàng có nguy cơ rời bỏ sẽ giúp doanh nghiệp điều chỉnh chiến lược kinh doanh, tối ưu được chi phí

Lĩnh vực học máy được áp dụng thành công trong nhiều lĩnh vực để dự đoán được hành vi khách hàng dựa vào dữ liệu quá khứ, trong bài toán dự báo thuê bao rời bỏ nhà mạng,

chiến lược được áp dụng là sử dụng giải thuật phân lớp với mô hình học có giám sát để

phân tách được hành vi rời bỏ nhà mạng và không rời bỏ nhà mạng, sau đó dùng mô hình học này để dự đoán đối với các khách hàng đang sử dụng, để biết được khả năng tiềm ẩn họ có hành vi rời bỏ nhà mạng đang sử dụng trong tương lai hay không

Đề tài này đầu tiên tìm hiểu tổng quan các cách tiếp cận khác nhau dựa trên học máy cũng như mạng nơ ron học sâu để giải bài toán Trong đó quan tâm đến các khía cạnh là đánh

giá lại khả năng áp dụng các mạng nơ ron học sâu (deep neural network) vào bài toán này

so với các giải thuật học máy căn bản khác như thế nào Quan trọng hơn tìm hiểu các khía cạnh then chốt ảnh hưởng đến hiệu năng phân lớp như tính mất cân bằng trong tập dữ liệu và tính bất ổn định của bộ phân lớp theo thời gian khi dữ liệu thực tế bị thay đổi theo thời gian Từ đó đưa ra cách tiếp cận, xây dựng chiến lược học và sử dụng cái giải thuật học máy chọn lọc phù hợp với tập dữ liệu và vấn đề ứng dụng cần quan tâm

Trang 14

1.2 Mục đích nghiên cứu

Có nhiều công trình nghiên cứu về khả năng áp dụng các giải thuật học máy cũng như mạng nơ ron học sâu để giải quyết bài toán phân lớp thuê bao có rời bỏ nhà mạng hay không, tuy nhiên nhiều phương pháp đề xuất hạn chế khả năng áp dụng trong thực tế do nhiều nguyên nhân như nguồn dữ liệu huấn luyện hạn chế về số lượng dữ liệu, về tính liên

tục theo thời gian, cũng như dữ liệu mất cân bằng (Imbalanced Data) do nhãn thu được khách hàng đã rời bỏ nhà mạng thường rất hiếm Do vậy đề tài đánh giá lại khả năng áp

dụng mạng nơ ron học sâu với bài toán dự đoán thuê bao rời bỏ nhà mạng, cũng như tập

trung tìm hiểu các khía cạnh từ việc hạn chế về tính mất cân bằng dữ liệu hay khả năng mô hình sẽ không học tốt trong tương lai do hành vi khách hàng thay đổi theo thời gian

để đề xuất một chiến lược áp dụng các giải thuật học máy truyền thống, các mô hình mạng

nơ ron học sâu, các phương pháp kết hợp nhiều bộ phân lớp (ensemble) , khả năng tạo ra

tập dữ liệu mới từ mô hình sinh xác suất, kĩ thuật học thích nghi với tập dữ liệu thay đổi theo thời gian Mục đích nhằm tạo ra sự phối hợp linh hoạt để cải thiện hiệu năng phân lớp của mô hình dự đoán thuê bao rời bỏ nhà mạng có khả năng ứng phó tốt với khía cạnh về dữ liệu mất cân bằng và thích nghi với việc dữ liệu thay đổi theo thời gian

1.3 Đối tượng và phạm vi nghiên cứu

Đề tài này tập trung vào hai đối tượng nghiên cứu sau:

• Giải quyết vấn đề dữ liệu mất cân bằng (Imbalanced data) vì nguồn dữ liệu huấn

luyện trong thực tế hay gặp phải mà các giải thuật phân lớp chưa có khả năng học tốt nhóm dữ liệu có ít nhãn (nhóm thiểu số)

• Xây dựng bộ phân lớp hiệu quả dựa vào kĩ thuật học thích nghi để giải quyết vấn

đề mô hình thông thường sẽ không học tốt khi áp dụng trong thời gian dài do hành vi của khách hàng thay đổi theo thời gian

Trang 15

Việc nghiên cứu dựa trên dữ liệu được thu thập từ nhà cung cấp dịch vụ viễn thông được dùng làm tiêu chuẩn cho các mô hình dự đoán sử dụng các kĩ thuật thống kê, học máy Dữ liệu mô tả hành vi sử dụng mạng viễn thông bao gồm:

• Hành vi sử dụng điện thoại trong ngày, trong tuần, trong tháng

• Thông tin về nhân khẩu học (dermographic) của khách hàng

• Thông tin về các gói dịch vụ mạng, các gói giá trị gia tăng • Thông tin về dữ liệu mạng và chi phí nộp tiền dịch vụ mạng

1.4 Kết quả đạt được

Trong luận văn đã tìm hiểu hai vấn đề quan trọng ảnh hướng đến hiệu năng phân lớp của bài toán dự báo thuê bao rời bỏ nhà mạng Trong đó giải quyết vấn đề mất cân bằng dữ liệu tiếp

cận theo hai phương diện: phương diện về dữ liệu và phương diện về hàm mất mát Trong

đó phương diện hàm mất mát mang lại hiệu quả đáng kể về hiệu năng phân lớp cũng như thời gian chạy

Về vấn đề độ lệch dữ liệu thay đổi theo thời gian, luận văn áp dụng kĩ thuật tìm kiếm đối

kháng (Adversarial Search) và phương pháp nghịch đảo trọng số của hệ số xu hướng (Inverse

Propensity Weighting) nhằm giúp cân bằng phân bố dữ liệu tập kiểm thử và tập huấn luyện Cách tiếp cận này mang lại kết quả phân lớp tốt hơn so với các phương pháp truyền thống, đồng thời mở ra tiềm năng to lớn khi có thể phát hiện và điều chỉnh mô hình học tự động theo thời gian Điều này quan trọng khi triển khai mô hình dự đoán sử dụng học máy trong thực tế

1.5 Cấu trúc luận văn

Chúng tôi xin được trình bày cấu trúc của luận văn để người đọc tiện theo dõi hoặc tra cứu tham khảo sau này

Trang 16

CHƯƠNG 1 GIỚI THIỆU nhằm giới thiệu tổng quan về bài toán dự báo thuê bao rời bỏ nhà mạng bao gồm phần giới thiệu vấn đề, mục đích, đối tượng và phạm vi nghiên cứu và kết quả đạt được

CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN bao gồm các công trình nghiên cứu liên quan đến bài toán dự đoán thuê bao rời bỏ nhà mạng Đặc biệt trình bày các nghiên cứu gần đây để giải quyết vấn đề mất cân bằng dữ liệu và vấn đề độ lệch phân bố dữ liệu thay đổi theo thời gian

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT đầu tiên trình bày sơ lược về vấn đề dữ liệu mất cân bằng và các phương pháp cơ bản để giải quyết Tiếp theo đó trình bày bốn phương pháp chính được chọn trong luận văn để giải quyết vấn đề dữ liệu mất cân bằng, các phương pháp bao gồm: SMOTE, DBN, hàm mất mát Focal và hàm mất mát entropy theo trọng số Tiếp theo trình bày vấn đề độ lệch phân bố dữ liệu và các phương pháp cơ bản để giải quyết trong đó nhấn mạnh hai kĩ thuật: kĩ thuật tìm kiếm đối xứng và kĩ thuật đảo ngược trọng số của hệ số xu hướng

CHƯƠNG 4 PHƯƠNG PHÁP TIẾP CẬN bao gồm 2 phương pháp chính là giải quyết dữ liệu mất cân bằng và độ lệch phân bố dữ liệu

CHƯƠNG 5 HIỆN THỰC VÀ THỰC NGHIỆM là kết quả thực nghiệm dựa trên các phương pháp thực hiện ở CHƯƠNG 4

CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN nêu ra một số kết luận và nhận xét được đúc kết trong quá trình hiện thực nhằm mục tiêu cải thiện hiệu năng phân lớp cho bài toán dự báo thuê bao rời bỏ nhà mạng Phần cuối là trình bày các hướng phát triển trong tương lai

Trang 17

Chương 2 Các công trình liên quan

Chương này trình bày các công trình liên quan được chúng tôi tìm hiểu nghiên cứu trong quá trình hiện thực đề tài luận văn Dựa vào mô hình dự đoán được xây dựng trên nền tảng lý thuyết cũng như các giải thuật khác nhau, qua quá trình tìm hiểu có thể phân thành các nhóm sau đây:

• Mô hình áp dụng các giải thuật học máy căn bản và mạng nơron học sâu

• Mô hình áp dụng các kĩ thuật học chuyển giao (transfer learning)

• Mô hình giải quyết dữ liệu mất cân bằng

• Mô hình giải quyết vấn đề độ lệch phân bố dữ liệu thay đổi theo thời gian

2.1 Mô hình áp dụng các giải thuật học máy căn bản và mạng nơron học sâu

Trong bài toán dự báo thuê bao rời bỏ nhà mạng, các phương pháp khai phá dữ liệu theo hướng thống kê truyền thống cũng như sử dụng các giải thuật học máy được áp dụng rộng rãi Kĩ thuật khai quá dữ liệu tiếp cận theo phương pháp thống kê truyền thống như Hồi Quy Logistics [1], mô hình phi tham số như k lân cận gần nhất ([2], [3]), cây quyết định ([4],

[5]), mạng nơron nhân tạo ([6], [7]), máy vector hỗ trợ [8], các mô hình tổ hợp bộ phân lớp

(kĩ thuật ensemble) ([9], [10]) Tuy nhiên bài toán dự báo thuê bao rời bỏ nhà mạng thường gặp phải vấn đề dữ liệu mất cân bằng, trong đó nhóm dữ liệu rời bỏ thường chiếm tỉ lệ rất thấp, trung bình chỉ chiếm khoảng 2% thuê bao Các phương pháp truyền thống gặp nhiều khó khăn khi làm việc trên dữ liệu mất cân bằng, do các phương pháp này được thiết kế chỉ chú trọng vào tính chất của dữ liệu nhóm đa số, trong trường hợp này là nhóm không rời bỏ nhà mạng

Sự thành công của mô hình mạng nơ ron học sâu trong lĩnh vực xử lí ảnh, xử lí ngôn ngữ tự nhiên… nhờ khả năng tạo được đặc trưng bậc cao và khả năng học được lượng lớn dữ liệu Với bài toán thuê bao rời bỏ nhà mạng, trong thực tế tập dữ liệu khách hàng đến từ nhiều nguồn khác nhau, đặc trưng và tính chất khác nhau, đối với mô hình học truyền thống việc trích xuất đặc trưng thủ công sẽ mất nhiều thời gian và không có khả năng được áp dụng cho tập dữ liệu từ nguồn khác Spanoudes và Nguyen năm 2017 [11] cố gắng giải bài toán này

Trang 18

bằng việc sử dụng mạng nơ ron học sâu để tự động trích xuất được đặc trưng từ nhiều nguồn dữ liệu khác nhau, cách tiếp cận này phù hợp với thực tế về tính linh động của mô hình học với sự thay đổi dữ liệu huấn luyện từ nhiều nguồn khác nhau nhưng kết quả còn hạn chế vì một số đặc trưng đặc biệt cần được trích xuất tường minh bằng sự hiểu biết sâu về tính chất

của hành vi khách hàng rời bỏ nhà mạng Một số nghiên cứu áp dụng mô hình mạng nơ ron

tích chập (convolutional neural networks - CNN) và auto-encoder [12], trong đó hành vi

người dùng được lấy trong một khoảng thời gian để xây dựng nên không gian vector hai chiều tương tự dữ liệu hình ảnh, trong mô hình này phụ thuộc vào dữ liệu thu thập được từ nhiều ngày từ nhà cung cấp dịch vụ mạng để xây dựng được hành vi người dùng theo thời gian Nghiên cứu [13] áp dụng nhiều mô hình CNN làm bộ phân lớp cơ sở cho mô hình học kết hợp giữa giải thuật di truyền kết hợp với kĩ thuật Ada Boosting Do dữ liệu ban đầu trên không gian một chiều nên tác giả đã ánh xạ qua không gian hai chiều để làm đầu vào cho mạng CNN, việc ánh xạ sử dụng kĩ thuật nội suy thử nhiều lần để kết quả nội suy gần với không gian vector ban đầu nhất, quá trình huấn luyện tốn rất nhiều thời gian vì sử dụng nhiều bộ phân lớp CNN được chọn lọc, tinh chỉnh từ không gian cá thể ban đầu qua sự kết hợp giữa cách tạo ra quần thể mô hình thế hệ tiếp theo và sự chọn lựa cá thể đi tiếp dựa trên giải thuật Ada Boosting

Qua các nghiên cứu gần đây chúng tôi thấy được bài toán dự báo thuê bao rời bỏ nhà mạng được áp dụng nhiều kĩ thuật học máy mới nhất hiện nay như mạng nơron học sâu kết hợp với kĩ thuật học chuyển giao và các kĩ thuật phối hợp, tăng cường nhiều bộ phân lớp như giải thuật di truyền, giải thuật boosting Song song bên cạnh đó, các kĩ thuật xử lí dữ liệu để tránh tập dữ liệu bị mất cân bằng cũng được áp dụng kèm theo Chúng tôi thấy rằng, với sự kết hợp các kĩ thuật mới nhất của lĩnh vực học máy và tối ưu đem lại tiềm năng to lớn đối với mô hình dự báo thuê bao nhà mạng nói riêng và các bài toán phân lớp nói chung, để giải quyết hai tính chất quan trọng nhất của bài toán phân lớp trong thực tế là tập dữ liệu thường bị mất cân bằng và tính dịch chuyển, không đồng nhất của phân bố xác xuất tập dữ liệu huấn luyện và tập dữ liệu kiểm thử thực tế

Chúng tôi tập trung tìm hiểu các công trình liên quan đến vấn đề giải quyết tập dữ liệu mất cân bằng và vấn đề phân bố dữ liệu thay đổi theo thời gian

Trang 19

2.2 Mô hình áp dụng các kĩ thuật học chuyển giao (transfer learning)

Gần đây với xu hướng học chuyển giao (transfer learning) được áp dụng thành công trong

mảng xử lí ảnh dùng kĩ thuật học sâu, học chuyển giao đã được áp dụng vào bài toán xác định thuê bao rời bỏ nhà mạng đạt được kết quả khả quan Với giả định thực tế là khi tập khách hàng đến từ các vùng miền khác nhau có đặc trưng khác nhau về kinh tế, vùng miền, nghề nghiệp… thì tập dữ liệu trong công tác nguồn và tập dữ liệu trong công tác đích sẽ có phân bố xác suất khác nhau, thậm chí trong trường hợp tập dữ liệu trong công tác nguồn và tập dữ liệu trong công tác đích có cùng phân bố xác xuất thì có thể xảy ra trường hợp tập dữ liệu huấn luyện và tập kiểm thử có sự khác biệt phân bố vì hành vi khách hàng sử dụng sẽ thay đổi theo thời gian Vấn đề này gây khó khăn với cái giải thuật học máy căn bản vì các giải thuật này giả định rằng phân bố tập huấn luyện và tập kiểm thử phải cùng phân bố xác suất Học chuyển giao sẽ giải quyết vấn đề này khi áp dụng kiến thức được học từ một tập công tác nguồn sau đó lấy kiến thức kết hợp với tập dữ liệu mục tiêu để áp dụng lên mô hình học Hình 1 và hình 2 diễn tả sự khác biệt của mô hình học truyền thống và mô hình học chuyển giao

Hình 1 Mô hình học truyền thống [14] Hình 2 Mô hình học chuyển giao [14]

Xiao và các cộng sự năm 2014 [14] đã kết hợp mô hình học chuyển giao với kĩ thuật lựa

chọn đặc trưng (Feature Selection) nhằm trích xuất đặc trưng từ tập trong công tác nguồn

sau đó kết hợp với tập dữ liệu trong công tác đích để tạo nhiều đặc trưng bậc cao trong đó nhóm đặc trưng mới này chứa đựng nhiều thông tin giao hỗ tương giữa tập công tác nguồn và tập công tác đích Mô hình này đạt kết quả khá cao so với các mô hình truyền thống,

Trang 20

chứng tỏ khả năng áp dụng tốt của học chuyển giao với bài toán dự báo thuê bao rời bỏ nhà mạng

Với các nghiên cứu gần đây về kĩ thuật học chuyển giao nhằm giải quyết vấn đề Covariate Shift có một số kĩ thuật như:

• Học chuyển giao dựa trên chiến lược lựa chọn đặc trưng TFS • Học chuyển giao dựa trên chiến lược lựa chọn mẫu TrBagg • Học chuyển giao dựa trên chiến lược lựa chọn mẫu TrAdaBoos

Giải thuật TFS dựa vào kĩ thuật lựa chọn đặc trưng theo chiều tiến có giám sát (Supervised

Forward Feature Selection - SFFS), đầu tiên áp dụng SFFS để chọn tập đặc trưng tốt nhất

trên tập dữ liệu mục tiêu, sau đó dựa trên tập đặc trưng này để tính độ tin cậy (confidence

score) của từng mẫu trong tập dữ liệu nguồn Tiếp đến một số mẫu trong tập dữ liệu nguồn được chọn dựa trên tiêu chí độ tin cậy kết hợp với tập dữ liệu nguồn để sinh ra tập dữ liệu mới, trên tập dữ liệu mới này dùng SFFS để chọn ra một tập đặc trưng mới, nếu các đặc trưng mới này có tần số xuất hiện nhiều lần qua các lần lặp thì được thêm vào tập đặc trưng được chọn Quá trình cứ lặp lại nhiều lần để cuối cùng tập đặc trưng tiến tới con số định trước thì giải thuật dừng Cuối cùng dùng tập đặc trưng được chọn để huấn luyện trên tập dữ liệu mục tiêu [15]

Giải thuật TrBagg được đề xuất bởi Kamishima và các cộng sự năm 2009 [16] dựa trên ý

tưởng của chiến lược kết hợp nhiều mô hình (Bagging), trong đó tập dữ liệu nguồn ban đầu

dùng kĩ thuật Boostrap để tạo ra N bộ phân lớp, sau đó N bộ phân lớp này được dùng để xác

định nhãn của tập mục tiêu dựa vào số phiếu bầu đa số

Giải thuật TrAdaBoost được đề xuất bởi Wenyuan Dai và các cộng sự năm 2007 [17] dựa

trên kĩ thuật AdaBoost, ý tưởng cơ bản là giải thuật được huấn luyện ban đầu trên tập dữ liệu mục tiêu, sau đó dùng mô hình để xác định nhãn trên tập dữ liệu nguồn, khi mẫu trên tập dữ liệu nguồn bị phân lớp sai, giải thuật sẽ đánh trọng số cao để lần chạy tiếp theo giải thuật chú ý nhiều đến độ lỗi này và cập nhật lại giải thuật

Trang 21

Việc áp dụng các kĩ thuật nêu trên được nghiên cứu nhiều trong thời gian gần đây, nhưng tác giả nhận thấy việc áp dụng các kĩ thuật này chưa quan tâm nhìn cụ thể về quá trình phân bố dữ liệu bị lệch, điều này quan trọng trong thực tế vì mô hình học phải được đo đếm, giám sát theo thời gian để có thể được cải thiện hay huấn luyện lại theo thời gian trước sự thay đổi phân bố liên tục từ khách hàng hoặc từ sự khác biệt của các nhóm khách hàng khác nhau Một hạn chế khác của cách tiếp cận này là mô hình học máy trở nên phức tạp, chồng chất nhiều giải thuật học máy khiến mô hình khó trong việc ứng dụng trong thực tế khi đòi hỏi quá trình tính toán phức tạp, đồng thời mô hình đánh mất khả năng giải thích trong các ngữ cảnh cụ thể

2.3 Mô hình giải quyết dữ liệu mất cân bằng

Trong các tập dữ liệu được thu thập cũng như trong thực tế tập khách hàng thu được thường bị mất cân bằng giữa nhóm rời bỏ nhà mạng (nhóm thiểu số) với nhóm không rời bỏ (nhóm đa số), cụ thể nhóm rời bỏ nhà mạng chỉ chiếm khoảng 2% trên tổng số tập khách hàng Điều này dẫn đến các mô hình học căn bản có xu hướng nhắm đến tập dữ liệu thuộc nhóm đa số, mà không học được nhiều hành vi từ nhóm thiểu số để có thể dự đoán cho dữ liệu có xu hướng rời bỏ nhà mạng trong tương lai Ví dụ nếu tập dữ liệu chỉ có 0.1% dữ liệu thuộc nhóm thiểu số thì một giải thuật đơn giản chỉ dự đoán tất cả là nhóm đa số thì độ chính xác đã đạt được 99.9%

Vấn đề mất cân bằng dữ liệu rất then chốt cho bài toán phân lớp nói chung và bài toán dự đoán thuê bao rời bỏ nhà mạng nói riêng, có hai cách phổ biến để giải quyết trường hợp này là: xử lí trên tập dữ liệu và can thiệp vào giải thuật Cách giải quyết vấn đề mất cân bằng dữ

liệu theo hướng dữ liệu chú trọng đến phương pháp lấy mẫu dữ liệu (Data Sampling) nhằm

tạo tập dữ liệu mới cân bằng giữa hai nhóm rời bỏ và không rời bỏ nhà mạng Trong khi xu

hướng can thiệp vào giải thuật mà cụ thể là tinh chỉnh hàm mất mát (lost function) chú ý

nhiều đến độ lỗi của nhóm thiểu số trong khi đánh giá hàm mất mát, cách tiếp cận này đòi hỏi nhiều kiến thức về tối ưu hoá và giải thuật [18]

Cụ thể, những nghiên cứu gần đây tiếp cận với hai hướng chính về phương diện dữ liệu và phương diện giải thuật

Trang 22

2.3.1 Xử lí dữ liệu mất cân bằng với tiếp cận về phương diện dữ liệu

Tiếp cận mức độ dữ liệu bao gồm kĩ thuật lấy mẫu gồm over-sampling, under-sampling và

kĩ thuật sinh ra dữ liệu mới (synthetic data) thuộc nhóm thiểu số bao gồm SMOTE [19] và

các phương pháp SMOTE cải tiến ([20], [21), nhằm giúp bộ phân lớp chú trọng nhiều hơn với nhóm thiểu số Cụ thể, với nhóm thiểu số sẽ lấy mẫu over-sampling để tăng nhóm thiểu số, ngược lại với nhóm đa số sẽ dùng under-sampling để làm giảm dữ liệu, cuối cùng đạt được tập dữ liệu xấp xỉ giữa nhóm thiểu số và nhóm đa số [22] Tuy nhiên cả hai phương pháp over-sampling và under-sampling đều có nhược điểm, over-sampling thì tăng khả năng

mô hình học quá khớp (overfitting) trong khi under-sampling thì loại bỏ các dữ liệu quan

trọng trong tập huấn luyện Phương pháp SMOTE cải tiến bằng cách kết hợp cả sampling và under-sampling để tạo tập dữ liệu cân bằng, đạt được kết quả tốt hơn khi mô hình chú ý nhiều hơn với nhóm dữ liệu thiểu số, SMOTE được đánh giá trên các giải thuật máy vector hỗ trợ và cây quyết định đều cho kết quả khá tốt ([23], [24]) Tuy nhiên việc sinh ra dữ liệu mới dễ dẫn đến dữ liệu bị nhiễu không phản ánh được tính đúng của nhóm dữ liệu thiểu số, quan trọng hơn là việc thêm dữ liệu mới này kèm thêm bổ sung thông tin làm mô hình học bị nhiễu

over-2.3.2 Xử lí dữ liệu mất cân bằng với tiếp cận về phương diện giải thuật

Tiếp cận mức độ giải thuật cố gắng tăng cường giải thuật phân lớp sẵn có để phân loại tốt

hơn đối với nhóm dữ liệu thiểu số Một số cách tiếp cận dựa trên kĩ thuật hàm mất mát

(cost-sensitive), trong đó lỗi phân lớp sai giữa hai nhóm dữ liệu thiểu số và đa số sẽ được tính khác nhau, cụ thể lỗi cho nhóm thiểu số sẽ có trọng số cao hơn nhóm đa số, khi đó mô hình học sẽ chú ý đến sự phân lớp sai của nhóm thiểu số Nghiên cứu [25] sử dụng hai bộ phân lớp cây quyết định và ada-boost nhằm thay đổi hàm mất mát Tuy nhiên hướng này gặp nhiều khó khăn trong việc thiết kế hàm mất mát vì dễ ảnh hưởng xấu đến kết quả tối ưu toàn cục

Hướng khác là sử dụng kĩ thuật tổ hợp nhiều bộ phân lớp (ensemble learning) với kĩ thuật

lấy mẫu như nghiên cứu [26] Nghiên cứu [27] sử dụng kĩ thuật học chuyển giao kết hợp với kĩ thuật tổ hợp nhiều bộ phân lớp để giúp mô hình học phân tán tập dữ liệu mất cân bằng cho nhiều mô hình cơ sở, khi tổng hợp lại làm giảm độ lỗi khi phân lớp Nhược điểm của

Trang 23

các phương pháp tiếp cận theo hướng giải thuật hay gặp phải là mô hình chồng chéo, phức tạp dẫn đến thời gian thực thi chậm, một khó khăn khác là quá trình tác động đến hàm mất mát cần thiết kế cẩn thận xem xét các kĩ thuật tối ưu để cho mục tiêu tối ưu toàn cục được thoã mãn

2.4 Mô hình giải quyết vấn đề độ lệch phân bố dữ liệu thay đổi theo thời gian

Các nghiên cứu tập trung giải quyết vấn đề phân bố dữ liệu thay đổi theo thời gian thường tập trung vào các phương pháp tác động trên tập dữ liệu huấn luyện sao cho phân bố tập huấn luyện gần giống với phân bố tập kiểm thử, nhằm giúp mô hình học trên dữ liệu mang tính thời sự Vấn đề giúp cho mô hình học thích ứng với sự thay đổi phân bố dữ liệu theo thời gian là vấn đề quan trọng khi triển khai các mô hình học máy trong thực tế, vì thực tế dữ liệu luôn thay đổi do đó yêu cầu cần có quá trình củng cố giúp mô hình tự động tự thay đổi để thích ứng Tuy nhiên, trong lĩnh vực này chưa có nhiều nghiên cứu mang tính hệ thống để giải quyết vấn đề này Nghiên cứu [28] chỉ ra vấn đề thay đổi phân bố ảnh hưởng rất lớn đến hiệu năng phân lớp Một số nghiên cứu dùng kĩ thuật nghịch đảo trọng số trên tập huấn luyện, giúp mô hình học chú trọng đến các mẫu dữ liệu huấn luyện tương đồng với dữ liệu

kiểm thử, như trong các nghiên cứu ([29], [30]) Nghiên cứu [31] dùng kĩ thuật đối kháng

(Adversarial) nhằm tạo ra bộ phân lớp có khả năng phân lớp giữa tập dữ liệu huấn luyện và dữ liệu kiểm thử, sau đó kết quả phân lớp này dùng để lựa chọn tập huấn luyện sao cho phân bố tập dữ liệu huấn luyện cân bằng với tập dữ liệu kiểm thử [31] Một số nghiên cứu sử dụng giải thuật tối ưu Frank-Wolfe để cân bằng phân bố xác suất giữa hai tập tập huấn luyện và tập kiểm thử, như các nghiên cứu ([32], [33])

2.5 Kết Luận

Qua quá trình nghiên cứu tìm hiểu các công trình liên quan đến vấn đề dữ liệu mất cân bằng, chúng tôi thấy rằng đây là lĩnh vực nghiên cứu nhận được nhiều sự quan tâm trong lĩnh vực học máy, thống kê và tối ưu Các phương pháp đề xuất đều mang lại tiềm năng cao để cải thiện hiệu quả phân lớp và mang tính ứng dụng cao trong thực tế Đối với vấn đề độ lệch phân bố dữ liệu theo thời gian, lĩnh vực này chưa được nghiên cứu sâu rộng và chưa được tổng hợp mang tính hệ thống, dù vấn đề này rất quan trọng mang tính ứng dụng cao khi triển khai các mô hình học máy trong thực tế

Trang 24

Chương 3 Cơ Sở Lí Thuyết

Chương này sẽ trình bày chi tiết về các phương pháp được dùng để giải quyết vấn đề dữ liệu mất cân bằng và vấn đề phân bố dữ liệu thay đổi theo thời gian Đầu tiên trình bày sơ lược về các giải thuật phân lớp được áp dụng trong phần 3.1, tiếp theo trình bày vấn đề dữ liệu mất cân bằng và các cách tiếp cận cơ sở để giải quyết, chi tiết trong phần 3.2, 3.3 Các phương pháp xử lí dữ liệu mất cân bằng được chọn thực hiện trong luận văn là SMOTE, DBN, hàm mất mát Focal, hàm mất mát Entropy theo trọng số được nêu chi tiết trong phần 3.4, 3.5, 3.6, 3.7 Cơ sở lí thuyết về vấn đề độ lệch phân bố dữ liệu theo thời gian và các phương pháp xử lí liên quan được trình bày trong phần 3.8, 3.9, 3.10, 3.11

3.1 Giải thuật phân lớp Hồi quy Logistics và XGBoost

Phần này trình bày sơ lược hai giải thuật phân lớp được sử dụng làm bộ phân lớp cho bài toán dự báo thuê bao rời bỏ nhà mạng

3.1.1 Giải thuật phân lớp Hồi quy Logistics

Phương pháp hồi qui logistics là mô hình hồi quy (regression) với biến đầu ra (biến mục

tiêu) mang giá trị rời rạc Khái niệm toán học của hồi quy logistic là thể hiện mối quan hệ

giữa biến mục tiêu và biến dự đoán (biến độc lập) về mặt logit: logarit tự nhiên của tỷ lệ cược (odds) Trong trường hợp đơn giản: trong đó Y là biến mục tiêu nhị phân được phân loại là 1, 0 và X là một biến dự đoán liên tục Bây giờ nếu chúng ta vẽ một biểu đồ phân tán, chúng

ta sẽ có hai đường thẳng song song tương ứng với từng loại biến mục tiêu Các mối quan hệ không theo một xu hướng tuyến tính và do đó không thể mô tả thông qua một hàm hồi quy tuyến tính đơn giản Hồi quy logistic tạo điều kiện thuận lợi cho tình huống này bằng cách chuyển đổi logit trên biến mục tiêu Dạng đơn giản nhất của mô hình hồi quy logistic có thể được viết như công thức (1) như sau:

Trang 25

Ở đây, π là xác suất xảy ra kết quả Y và π / (1 − π) là tỷ lệ thành công (tỷ lệ xác suất xảy ra

kết quả Y và xác suất không xảy ra kết quả Y) β0 và β1 được gọi là hệ số chặn và hệ số dốc (hệ số hồi quy) tương ứng Bằng cách lấy log trên cả hai vế của phương trình (1) chúng ta

có thể ước tính xác suất xuất hiện của kết quả Y dựa trên giá trị của biến dự đoán X như trong

công thức (2):

Biến dự đoán X có thể là biến liên tục hoặc rời rạc Chúng ta có thể mở rộng mô hình hồi

quy logistic cho nhiều biến dự đoán

Phương trình (3) là dạng tổng quát của mô hình hồi quy logistic cho p biến dự đoán Tham

số hồi quy βs có thể được ước tính bằng phương pháp hợp lí cực đại (Maximum Likelihood) hoặc phương pháp bình phương tối thiểu trọng số Giá trị của hồi quy hệ số β1 p chỉ ra mối

quan hệ logit giữa X và Y

3.1.2 Giải thuật phân lớp XGBoost

XGBoost là một thuật toán mạnh mẽ, gần đây thuật toán đã được dùng chủ yếu cho các cuộc thi học máy ứng dụng và các cuộc thi Kaggle cho dữ liệu có cấu trúc hoặc dạng bảng

XGBoost là một hiện thực của giải thuật cây quyết định tăng cường độ dốc (gradient boosted

decision trees) được thiết kế dựa trên tiêu chí tốc độ và hiệu quả phân lớp XGBoost được

đề xuất bởi Tianqi Chen và cộng sự năm 2016 [45] Ý tưởng chính của kĩ thuật tăng cường (boosting) là kết hợp các bộ phân lớp cơ sở (base learner) với độ chính xác thấp để xây dựng

bộ phân lớp mạnh với hiệu năng cải thiện Điểm mạnh của giải thuật XGBoost:

• Trong mô hình XGBoost, tính toán song song đa luồng được hiện thực do đó cải thiện thời gian tính toán nhanh hơn so với phương pháp truyền thống

Trang 26

• XGBoost là mô hình cấu trúc cây, không cần quá trình chuẩn hoá dữ liệu đầu vào

Hơn nữa, nó có thể xử lí tốt với dữ liệu bị thiếu (missing data) mà không cần quá trình

xử lí loại bỏ dữ liệu thiếu hoặc điền dữ liệu thiếu

• XGBoost tăng cường kĩ thuật chính quy hoá (regularization) để tránh mô hình học bị vấn đề quá khít (overfitting) mà điều này các giải thuật cây phân lớp hay gặp phải

3.2 Vấn đề dữ liệu mất cân bằng

Dữ liệu mất cân bằng thường gặp trong bài toán phân lớp gồm hai lớp (phân lớp nhị phân), khi số mẫu dữ liệu dùng để huấn luyện mô hình phân lớp thường bị lệch giữa nhóm thiểu số và nhóm đa số, trong đó nhóm dữ liệu thiểu số có tỉ lệ dữ liệu rất thấp so với nhóm đa số Ví dụ như trong bài toán thuê bao rời bỏ nhà mạng, nhóm khách hàng rời bỏ nhà mạng (nhóm thiểu số) thường chỉ chiếm khoảng 2% trên tổng số thuê bao nhà mạng Trong thực tế, các bài toán phân lớp nhị phân thường gặp phải vấn đề này như: dự báo thuê bao rời bỏ nhà mạng, dự đoán lừa đảo tín dụng, dự đoán tấn công xâm nhập vào hệ thống máy tính…Dễ hiểu vì trong thực tế, nhóm hành vi bất thường thường chiếm phần nhỏ so với hành vi bình thường

Dữ liệu mất cân bằng gây nhiều khó khăn khi áp dụng các kĩ thuật học máy vì các giải thuật học máy cơ bản thường được thiết kế không làm việc hiệu quả với tập dữ liệu mất cân bằng, cụ thể nhóm dữ liệu thiểu số sẽ lấn át tác động đến hành vi học của giải thuật học máy Kết quả mô hình sẽ dự đoán gần như đa số các mẫu dữ liệu huấn luyện là thuộc nhóm đa số, trong khi đó yêu cầu mô hình phải dự đoán được mẫu huấn luyện có thuộc nhóm thiểu số hay không vì nhóm thiểu số là cái cần quan tâm hơn, ví dụ như xem khách hàng có nguy cơ rời bỏ nhà mạng hay không, khách hàng có khả năng cao lừa đảo hay không Vấn đề dữ liệu mất cân bằng gây ra khó khăn khi chọn độ đo để đánh giá hiệu năng phân lớp, ví dụ như trong trường hợp chỉ có 1% trường hợp khách hàng rời bỏ nhà mạng, khi đó với mô hình dự đoán tất cả đều là không rời bỏ nhà mạng (tất cả đều thuộc nhóm đa số) thì mô hình đã đạt được 99% độ chính xác Do đó khi làm việc với dữ liệu mất cân bằng cần xem xét lựa chọn tiêu chí đánh giá phù hợp, đồng thời áp dụng nhiều kĩ thuật để giúp mô hình đạt được sự phân lớp hiệu quả hơn Phần sau đây giới thiệu các cách tiếp cận cơ bản để giải quyết vấn đề dữ liệu mất cân bằng

Trang 27

3.3 Cách tiếp cận cơ bản để giải quyết dữ liệu mất cân bằng

3.3.1 Sử dụng các độ đo, tiêu chí để đánh giá phù hợp

Áp dụng các độ đo để đánh giá cho mô hình phân lớp với dữ liệu mất cân bằng cần phải chọn độ đo, tiêu chí phù hợp Như ví dụ trên, như trong trường hợp chỉ có 1% trường hợp khách hàng rời bỏ nhà mạng, khi đó với mô hình dự đoán tất cả đều là không rời bỏ nhà mạng (tất cả đều thuộc nhóm đa số) Nếu độ chính xác được sử dụng để đo lường hiệu năng phân lớp của mô hình, mô hình phân loại khi đó sẽ có độ chính xác là 99,9%, nhưng rõ ràng mô hình này sẽ không cung cấp bất kỳ thông tin giá trị nào cho chúng ta Trong trường hợp này, các chỉ số đánh giá thay thế khác có thể được áp dụng như:

• Độ chính xác (Precision) / độ đặc hiệu (Specifility) : bao nhiêu trường hợp được

chọn có liên quan

• Độ truy hồi (Recall) / Độ nhạy (Sensitivity) : bao nhiêu trường hợp có liên quan

được chọn

• Điểm số F1: trung bình điều hòa của độ chính xác và độ truy hồi

• MCC: hệ số tương quan giữa phân loại nhị phân được quan sát và được dự đoán • AUC: mối quan hệ giữa tỷ lệ thực dương và tỷ lệ dương tính giả

Hình 3 minh hoạ chi tiết các độ đo phổ biến dùng để đánh giá hiệu năng phân lớp nhị phân được cho bên dưới Việc chọn lựa các độ đo cho trường hợp dữ liệu mất cân bằng cũng cần xem xét cẩn thận cho từng bài toán cụ thể, ví dụ như trong bài toán cần chọn lựa ngưỡng để xác định nhãn phân lớp độ đo F1 có thể được chọn, trong khi đó nếu bài toán không yêu cầu cần cụ thể chọn ngưỡng giá trị để xác định nhãn thì độ đo AUC sẽ được chọn phổ biến

Trang 28

Hình 3 Độ đo đánh giá hiệu năng phân lớp nhị phân

3.3.2 Lấy mẫu trên tập huấn luyện

Ngoài việc sử dụng các tiêu chí đánh giá khác nhau Việc tác động đến tập dữ liệu ban đầu để tạo ra tập dữ liệu mới sao cho hai nhóm đa số và thiểu số đạt cân bằng cũng được quan tâm rộng rãi Hai cách tiếp cận để tạo ra một tập dữ liệu cân bằng là under-sampling và over-sampling

Under-sampling

Việc lấy mẫu làm cân bằng tập dữ liệu bằng cách giảm kích thước của nhóm đa số Phương pháp này đạt được tập dữ liệu cân bằng giữa nhóm thiểu số và nhóm đa số nhưng chỉ phù hợp với tập dữ liệu lớn vì làm mất khá nhiều mẫu dữ liệu huấn luyện của nhóm đa số

Over-sampling

Ngược lại, kĩ thuật over-sampling sẽ tăng số mẫu thuộc nhóm thiểu số bẳng cách sử dụng

các kĩ thuật thống kê như lặp lại, bootstrapping hoặc SMOTE (Synthetic Minority

Over-Sampling Technique) [34] Phương pháp này có ưu điểm là không làm giảm dữ liệu huấn

Trang 29

luyện, tuy nhiên việc thêm các mẫu dữ liệu tự tạo thuộc nhóm thiểu số bằng quá trình áp dụng các kĩ thuật thống kê có thể dẫn đến thêm thông tin gây nhiễu và làm mô hình mang tính thiên kiến Do đó việc áp dụng kĩ thuật này phải được cân nhắc và đánh giá cẩn thận phù hợp vào bài toán phân lớp hoặc tập dữ liệu cụ thể

Hình 4 minh hoạ kĩ thuật under-sampling và over-sampling

Hình 4 Minh hoạ kĩ thuật under-sampling và over-sampling

3.3.3 Sử dụng K-fold kiểm tra chéo (K-fold Validation) đúng cách

Cần chú ý khi dùng kĩ thuật kiểm tra chéo (cross-validation) để đánh giá hiệu năng phân lớp,

quá trình này phải được áp dụng đúng cách trong khi sử dụng phương pháp over-sampling để giải quyết vấn đề dữ liệu mất cân bằng Khi áp dụng over-sampling phải quan sát các mẫu thuộc nhóm thiểu số và áp dụng bootstrapping để tạo ra dữ liệu ngẫu nhiên mới dựa trên một hàm phân bố xác suất Nếu kĩ thuật kiểm tra chéo được áp dụng sau khi over-sampling, về

cơ bản những gì chúng ta đang làm là đưa mô hình của chúng ta bị quá khớp (over-fitting)

trên một kết quả bootstrapping đặc biệt Đó là lý do tại sao kĩ thuật kiểm tra chéo phải luôn

Trang 30

được thực hiện trước khi over-sampling, cũng giống như cách lựa chọn đặc trưng được thực hiện Chỉ bằng cách lấy mẫu dữ liệu nhiều lần, quá trình ngẫu nhiên có thể được đưa vào tập dữ liệu để đảm bảo rằng sẽ không bị vấn đề quá khớp

3.4 Synthetic Minority Oversampling Technique (SMOTE)

SMOTE (Synthetic Minority Oversampling Technique) dựa trên kĩ thuật over-sampling trên

tập dữ liệu thiểu số, được Chawla và cộng sự đề xuất năm 2002 [34] Ý tưởng của SMOTE là sinh ra mẫu dữ liệu mới thuộc nhóm thiểu số dựa vào những mẫu lân cận với mẫu thiểu số, cụ thể mẫu dữ liệu mới được sinh ra theo phương pháp nội suy giữa những điểm cùng thuộc nhóm thiểu số lân cận với nhau Ví dụ đơn giản có thể giải thích theo hình 5 bên dưới,

mẫu thiểu số xi được lựa chọn là mẫu cơ sở để sinh ra mẫu dữ liệu mới, dựa vào độ đo khoảng

cách, một vài mẫu thuộc nhóm thiểu số lân cận với mẫu xi được chọn từ tập dữ liệu, trong

trường hợp này là các mẫu (xi1 đến xi4) Từ mẫu xi đến các mẫu này ta vẽ một đường thẳng để nối hai điểm lại với nhau, các mẫu dữ liệu mới là các điểm nội suy nằm trên đường thẳng đó

Hình 5 Hình minh hoạ kĩ thuật SMOTE [34]

Trang 31

Mã giả cho giải thuật SMOTE [34] chi tiết sau:

Algorithm SMOTE(T, N, k)

Input: Number of minority class samples T; Amount of SMOTE N%;

Number of nearest neighbors k

Output: (N/100) * T synthetic minority class samples

1 (∗ If N is less than 100%, randomize the minority class samples as only a random percent of them will be SMOTEd ∗)

10 Sample[ ][ ]: array for original minority class samples

11 newindex: keeps a count of number of synthetic samples generated, initialized to 0 12 Synthetic[ ][ ]: array for synthetic samples

(∗ Compute k nearest neighbors for each minority class sample only ∗)

19 for attr ← 1 to numattrs

20 Compute: dif = Sample[nnarray[nn]][attr] − Sample[i][attr] 21 Compute: gap = random number between 0 and 1

22 Synthetic[newindex][attr] = Sample[i][attr] + gap ∗ dif 23 endfor

24 newindex++ 25 N = N − 1 26 endwhile

27 return

(∗ End of Populate ∗)

Trang 32

3.5 Deep Belief Network (DBN)

Deep Belief Network (DBN) là mô hình học sâu sinh xác suất thuộc nhóm giải thuật không

giám sát được Hilton và các cộng sự đề xuất năm 2006 ([35], [36]) DBN gồm nhiều tầng

Máy Boltzmann giới hạn (Restricted Boltzmann Machine - RBM), mỗi lớp RBM này chồng

lên lớp kia, mỗi lớp RBM sẽ lấy đầu vào là các đặc trưng ẩn từ lớp dưới đó và truyền đầu ra cho lớp trên, RBM hoạt động theo cấu trúc encoder-decoder Trong khía cạnh encoder, mô

hình sẽ mã hoá đặc trưng đầu vào thành các đặc trưng mang tính kết hợp, rút trích đặc trưng

ẩn (hidden feature) Ngược lại quá trình decoder, sẽ tái xây dựng lại từ thông tin đặc trưng

ẩn thành đặc trưng ban đầu Mô hình DBN có thể xem như mô hình sinh xác suất, có khả năng sinh ra dữ liệu thông qua quá trình decoding ([35], [37]) Chúng tôi sử dụng DBN để sinh dữ liệu thuộc nhóm thiểu số Hình 6 minh hoạ cấu trúc của mạng DBN gồm nhiều khối RBM chồng lên nhau

Hình 6 Minh hoạ cho quá trình học của giải thuật Deep Belief Network

Trang 33

3.6 Hàm mất mát Focal (Focal Loss)

Hàm mất mát Focal (Focal Loss), giải thuật tác động đến hàm mất mát được đề xuất bởi Lin

và cộng sự năm 2017 [38] Hàm mất mát Focal xử lí dữ liệu mất cân bằng bằng cách giảm nhẹ trọng số cho những mẫu dữ liệu dễ phân tách, trong đó tập trung trọng số vào những mẫu dữ liệu mang tính nhập nhằng, khó phân tách giữa hai nhóm Những mẫu dữ liệu dễ phân tách thường là mẫu dữ liệu có sự phân tách rạch ròi giữa hai nhóm, trong trường hợp tập dữ liệu mất cân bằng thì các mẫu dễ phân tách đa số là các mẫu dữ liệu thuộc nhóm đa số và các mẫu này phân tách rõ rệt với các mẫu thuộc nhóm thiểu số Ngược lại các mẫu dữ liệu thuộc nhóm khó phân tách thường là các mẫu dữ liệu mang tính nhập nhằng giữa hai nhóm, các mẫu dữ liệu này thường nằm xen kẻ giữa nhóm thiểu số và nhóm đa số Do đó việc đặt trọng số cao cho những mẫu dữ liệu khó phân tách trong trường hợp dữ liệu mất cân bằng ngầm ý nghĩa đặt trọng số cho hàm mất mát khác biệt giữa nhóm dữ liệu thiểu số và nhóm dữ liệu đa số Cơ sở toán học của hàm mất mát Focal được trình bày bên dưới:

Với m là số mẫu dữ liệu, yi là nhãn thực tế của mẫu dữ liệu i, là giá trị xác suất dự đoán

của mẫu dữ liệu i Hàm mất mát Focal theo dạng hàm mất mát cross-entropy, định nghĩa như

sau:

(4)

3.7 Hàm mất mát Entropy theo trọng số (Weighted Cross Entropy Loss)

Mô hình Imbalance-XGBoost, đề xuất bởi Wang và cộng sự năm 2019 [39], là mô hình tác động đến hàm mất mát hiện thực trên giải thuật XGBoost, để xử lí dữ liệu mất cân bằng trong bài toán phân lớp nhị phân Imbalance-XGBoost hiện thực hàm mất mát Entropy theo trọng số (Weighted Cross Entropy Loss), định nghĩa bên dưới

= m

)ˆ1log(ˆ1()ˆlog()ˆ1

Trang 34

Trong đó hệ số α thể hiện tham số mất cân bằng giữa hai nhóm Nếu giá trị α lớn hơn 1, hàm

mất mát sẽ phạt nặng cho nhãn 1 thành 0, có nghĩa sẽ đánh trọng số cao hơn cho nhãn 1 bị

phân lớp sai Ngược lại nếu giá trị α nhỏ hơn 1, hàm mất mát sẽ đánh trọng số cao cho nhóm

dữ liệu có nhãn 0 bị phân lớp thành 1 Với trường hợp dữ liệu mất cân bằng, nhóm dữ liệu thiểu số sẽ được đánh nhãn là 1, nhóm dữ liệu đa số được đánh nhãn là 0, việc chọn tham số

α phù hợp nhằm phạt độ lỗi khi phân lớp sai cho nhóm thiểu số nhiều hơn trên nhóm đa số

Hình 7 minh hoạ kĩ thuật gán trọng số cho hàm mất mát, trong đó mẫu dữ liệu thiểu số được tính trọng số cao khi phân lớp sai

Hình 7 Hình minh hoạ kĩ thuật gán trọng số cho hàm mất mát

3.8 Độ Lệch Phân Bố Dữ Liệu (Distribution Shift)

Độ lệch phân bố dữ liệu (Distibution Shift) là vấn đề phổ biến và gây nhiều khó khăn khi áp

dụng các mô hình học máy trong thực tế Độ lệch phân bố dữ liệu được định nghĩa như sau:

Độ lệch phân bố dữ liệu là tình huống thử thách khi phân bố xác suất kết (joint distribution) giữa biến đầu vào và đầu ra có sự khác nhau giữa giai đoạn huấn luyện và giai đoạn kiểm thử [46]

Độ lệch phân bố dữ liệu thường gặp trong thực tế do hành vi khách hàng, môi trường bên ngoài luôn thay đổi theo thời gian Đặc biệt là các bài toán liên quan đến yếu tố bên ngoài tác động như trong các bài toán kinh tế, bài toán liên quan đến hành vi khách hàng…vì với xu hướng thế giới, kinh tế hiện nay luôn biến động, thay đổi không ngừng Trong phạm vi đề tài này chúng tôi quan tâm đến sự thay đổi phân bố của tập dữ liệu dự đoán thực tế lệch đi theo thời gian so với phân bố của tập huấn luyện, vì thấy tầm quan trọng của nó khi áp

Trang 35

dụng mô hình học máy để dự đoán theo thời gian Trong bài toán dự đoán thuê bao rời bỏ nhà mạng độ lệch phân bố dữ liệu theo thời gian làm kết quả mô hình sẽ không xác định chính xác trên tập dữ liệu mới, nguyên nhân thay đổi do ứng với trường hợp dự báo thuê bao rời khỏi nhà mạng là sự thay đổi hành vi khách hàng theo thời gian ví dụ như thay đổi về môi trường sống, môi trường làm việc…Khi đó việc áp dụng các giải thuật học máy sẽ gặp nhiều khó khăn do bản chất các giải thuật học máy đều dựa trên cơ sở là phân bố dữ liệu giữa tập huấn luyện và tập dự đoán luôn cùng phân bố xác suất Với việc phát hiện sớm có độ lệch phân bố dữ liệu giữa tập huấn luyện và tập dự đoán là bước quan trọng, kịp thời để từ đó có các biện pháp can thiệp nhằm mục tiêu giúp mô hình có khả năng thích ứng với sự thay đổi

Hình 8 bên dưới minh hoạ sự khác biệt phân bố giữa tập huấn luyện và tập kiểm thử

Hình 8 Hình minh hoạ sự khác biệt giữa phân bố tập huấn luyện và tập dự đoán

Trong phần này, chúng tôi sẽ trình bày tóm gọn các dạng độ lệch phân bố dữ liệu Sau đó trình bày các phương pháp tiếp cận cơ bản để phát hiện và giải quyết vấn đề này

Trang 36

Độ lệch phân bố dữ liệu được chia thành 3 loại:

• Covariate shift: có sự thay đổi, độ lệch phân bố giữa các biến độc lập (tức là các thuộc tính trong bài toán phân lớp)

• Prior probability shift: sự thay đổi, độ lệch về tiền xác suất của biến mục tiêu ( biến nhãn lớp trong bài toán phân lớp)

• Concept shift: kết hợp cả covariate shift và prior probability shift

3.8.1 Covariate shift

Covariate shift có thể hiểu đơn giản là phân bố trên các đặc trưng có sự khác biệt giữa tập

huấn luyện và tập kiểm thử Sự thay đổi này có thể do sự tác động của các đặc trưng tiềm ẩn

(latent feature) do môi trường thay đổi tạm thời hay thay đổi ổn định theo một tiến trình nhất định Khi đó phân bố xác suất kết giữa biến độc lập và biến mục tiêu không có sự thay đổi giữa trạng thái huấn luyện và trạng thái dự đoán, duy chỉ phân bố xác suất của biến độc lập có sự khác biệt, sự khác biệt này có thể lớn dần theo thời gian Hình 9 minh hoạ quá trình Covariate shift:

Hình 9 Hình minh hoạ quá trình Covariate shift

Trang 37

3.8.2 Prior probability shift

Ngược lại với Covariate shift, Prior probability shift có thể hiểu đơn giản là phân bố trên biến mục tiêu có sự khác biệt giữa tập huấn luyện và tập kiểm thử Cụ thể khi đó phân bố xác suất kết giữa biến độc lập và biến mục tiêu không có sự thay đổi giữa trạng thái huấn luyện và trạng thái dự đoán, duy chỉ phân bố xác suất của biến mục tiêu có sự khác biệt, sự khác biệt này có thể lớn dần theo thời gian Một ví dụ phổ biến cho trường hợp Prior probability shift là vấn đề dữ liệu mất cân bằng gặp trong thực tế dự đoán, giả sử trong quá trình huấn luyện chúng ta làm việc trên tập dữ liệu cân bằng, tức giá trị xác suất biến mục tiêu khoảng 0.5 Trong khi thực tế, nhóm thiểu số chiếm phần rất ít, ví dụ trong thực tế nhóm khách hàng rời bỏ nhà mạng chỉ chiếm 2% Ta thấy rõ ràng giá trị xác suất của biến mục tiêu thay đổi từ trạng thái huấn luyện đến trạng thái dự đoán Qua vấn đề này chúng ta cũng thấy rằng, việc tác động đến tập dữ liệu mất cân bằng qua quá trình lấy mẫu hoặc áp dụng kĩ thuật sinh ra dữ liệu mới nhằm giúp cân bằng tập dữ liệu huấn luyện sẽ tiềm ẩn quá trình Prior probability shift, vì vấn đề mất cân bằng dữ liệu trong quá trình dự đoán là điều chắc chắn xảy ra Do đó khi áp dụng kĩ thuật để tạo tập dữ liệu mất cân bằng nên cân nhắc, chọn lựa kĩ càng tuỳ theo ứng dụng thực tế

3.8.3 Concept shift

Concept shift xảy ra khi phân bố xác suất kết giữa biến độc lập và biến mục tiêu có sự thay đổi giữa trạng thái huấn luyện và trạng thái dự đoán, sự khác biệt này không đến từ vấn đề phân bố dữ liệu cũng như phân bố dữ liệu trên nhiều nhóm mà sự khác biệt đến từ mối quan hệ giữa biến độc lập và biến mục tiêu Chúng ta có thể hiểu nôm na là theo thời gian việc định nghĩa biến mục tiêu dựa trên dữ liệu biến độc lập có sự thay đổi Ví dụ như trong bài toán dự báo thuê bao rời bỏ nhà mạng, hành vi được gọi là rời bỏ nhà mạng theo thời gian có sự thay đổi đối với hành vi người dùng, chẳng hạn trước đây thuê bao không sử dụng trong khoảng thời gian hai tuần có thể coi là có nguy cơ rời bỏ, nhưng hiện nay khi xem xét hành vi này có thể khác vì thuê bao có thể đi du lịch dài ngày, hay đồng thời sử dụng nhiều nhà mạng khác Concept shift trong thực tế rất khó để giải quyết vì sự thay đổi mang tính chất định nghĩa mối quan hệ, cách đơn giản để giải quyết là phải định nghĩa lại nhãn dựa trên tình hình thực tế hiện tại sau đó tái xây dựng mô hình để học trên dữ liệu đã được định nghĩa lại

Trang 38

3.8.4 Phương pháp giải quyết vấn đề độ lệch phân bố dữ liệu

Đề tài này chú ý đến vấn đề covariate shift, vì có rất nhiều trường hợp thực tế gặp phải vấn đề này khi các biến ngẫu nhiên độc lập (đặc trưng) bị lệch theo thời gian giữa tập huấn luyện và tập dự đoán Trong phần tiếp theo sẽ trình bày chi tiết cơ sở lí thuyết các kĩ thuật giải quyết vấn đề covariate shift được lựa chọn cho bài toán dự đoán thuê bao rời bỏ nhà mạng Các nghiên cứu tập trung giải quyết vấn đề phân bố dữ liệu thay đổi theo thời gian thường tập trung vào các phương pháp tác động trên tập dữ liệu huấn luyện sao phân bố tập huấn luyện gần giống với phân bố tập kiểm thử, nhằm giúp mô hình học trên dữ liệu mang tính thời sự Các phương pháp cơ bản để giải quyết vấn đề covariate shift bao gồm:

• Lựa chọn đặc trưng (feature selection) • Lựa chọn mẫu dữ liệu (data selection)

• Điều chỉnh trọng số tập huấn luyện (Importance Reweighting)

Lựa chọn đặc trưng (Feature Selection): trên một số đặc trưng có sự thay đổi lớn phân bố

theo thời gian Các đặc trưng có sự thay đổi phân bố đáng kể được phát hiện bằng các kĩ

thuật thống kê căn bản như Population Stability Index (PSI), kiểm định

Kolmogorov-Smirnov, đánh giá độ hội tụ Kullback-Lebler hoặc dùng giản đồ histogram đo sự phân tách giữa hai phân bố xác suất… Nếu đánh giá trên đặc trưng thấy có sự khác biệt mang ý nghĩa thống kê giữa dữ liệu dự đoán và dữ liệu huấn luyện, thì đặc trưng này được xem xét để loại bỏ khỏi mô hình học Việc loại bỏ đặc trưng nhằm hạn chế ảnh hưởng của độ lệch phân bố dữ liệu ảnh hưởng đến kết quả phân lớp mô hình học, tuy nhiên việc loại bỏ này phải được cân nhắc kĩ lưỡng vì có thể làm mất thông tin có tính phân loại hay nói cách khác là loại bỏ các đặc trưng phân lớp quan trọng ảnh hưởng đến hiệu năng phân lớp của mô hình và tính giải thích của mô hình

Lựa chọn mẫu dữ liệu (Data Selection): Giống với phương pháp lựa chọn đặc trưng,

phương pháp lựa chọn mẫu dữ liệu xem xét chỉ chọn các mẫu thích hợp để làm đầu vào cho mô hình học Các mẫu dữ liệu huấn luyện được lựa chọn trên tiêu chí các mẫu huấn luyện

này có xu hướng giống với mẫu dữ liệu dự đoán Việc lựa chọn các mẫu này dựa trên hệ số

Trang 39

tương đồng (matching score), sau đó qua quá trình ánh xạ từ mỗi dữ liệu tập dự đoán đến tập

huấn luyện, để tìm ra các mẫu trong tập huấn luyện có hệ số xu hướng lân cận với mẫu trong tập dự đoán Việc áp dụng kĩ thuật lựa chọn mẫu dữ liệu huấn luyện nhằm chỉ chọn những mẫu dữ liệu gần giống, tương đồng với mẫu dữ liệu dự đoán về khía cạnh thống kê, các mẫu

dữ liệu huấn luyện bị loại bỏ mang tính chất lỗi thời (outupdate)

Phương pháp này có hạn chế khi làm mất các mẫu dữ liệu huấn luyện, trong khi nhiều trường hợp chúng ta có số lượng dữ liệu huấn luyện hạn chế

Điều chỉnh trọng số tập huấn luyện (Importance Reweighting): phương pháp này sẽ cho

mỗi mẫu trong tập huấn luyện một trọng số nhất định Trọng số cho mỗi mẫu trong tập dữ liệu huấn luyện thể hiện sự tương đồng giữa mẫu huấn luyện so với tập dữ liệu dự đoán, ví dụ mẫu có trọng số cao thì khả năng mẫu dữ liệu này tương đồng tốt với phân bố tập dữ liệu dự đoán Trọng số này nhằm giúp kéo phân bố tập dữ liệu huấn luyện gần với phân bố tập dữ liệu kiểm thử Khi trọng số làm đầu vào cho mô hình học, mô hình sẽ chú ý nhiều đến mẫu dữ liệu huấn luyện có trọng số cao Phương pháp này có ưu điểm là không làm mất mẫu dữ liệu trong tập huấn luyện

3.9 Tìm kiếm đối kháng (Adversarial Search)

Tìm kiếm đối kháng (Adversarial Search): trong phương pháp này sẽ có bộ phân lớp để xác

định mẫu dữ liệu nào là trong tập huấn luyện, mẫu dữ liệu nào là trong tập kiểm thử Nếu hiệu năng của bộ phân lớp này đủ lớn, thì ngầm định rằng phân bố dữ liệu giữa tập huấn luyện và tập kiểm thử có sự khác biệt Với phương pháp này sẽ cân bằng giữa tập huấn luyện và tập đặc trưng để mô hình học cách nắm bắt được sự thay đổi phân bố ([31], [40])

Cụ thể, kĩ thuật tìm kiếm đối khánglà kĩ thuật giúp phát hiện và giải quyết sự thay đổi phân

bố dữ liệu trên tập kiểm thử so với tập huấn luyện Trong kĩ thuật Tìm kiếm đối kháng, bộ

phân lớp đối kháng (Adversarial Classifier)được tạo để xác định mẫu dữ liệu nào là mẫu dữ liệu kiểm thử Nếu hiệu năng có bộ phân lớp đối kháng tốt hơn việc đoán ngẫu nhiên, ngầm định rằng trong dữ liệu tập huấn luyện và tập kiểm thử có sự phân tách, tức là phân bố dữ liệu trên tập kiểm thử và tập huấn luyện có sự khác biệt Điều này giúp xác định được quá trình thay đổi phân bố dữ liệu theo thời gian Đồng thời kĩ thuật tìm kiếm đối khángcho phép

Trang 40

giúp cân bằng phân bố dữ liệu giữa tập huấn luyện và tập kiểm thử, cho phép mô hình học thích ứng được với sự thay đổi phân bố trên tập dữ liệu kiểm thử nhằm đạt được hiệu quả phân lớp tốt và phù hợp với các ứng dụng thực tiễn khi phân bố dữ liệu liên tục thay đổi theo thời gian

3.10 Hệ số xu hướng (Propensity Score)

Kĩ thuật tìm kiếm đối kháng lấy ý tưởng từ hệ số xu hướng (propensity score) trong mô hình

suy luận nhân quả ([41], [42]) Trong mô hình suy luận nhân quả, hệ số xu hướng được tính từ sự khác biệt phân bố dữ liệu giữa nhóm điều khiển và nhóm thực nghiệm, cụ thể hệ số xu hướng là xác suất mẫu dữ liệu thuộc nhóm thực nghiệm Tương tự như vậy trong bài toán phân bố xác suất thay đổi giữa nhóm dữ liệu kiểm thử và nhóm dữ liệu huấn luyện, hệ số xu hướng thể hiện sự phân tách phân bố dữ liệu giữa hai nhóm Hệ số xu hướng trong trường hợp này là xác suất mẫu dữ liệu thuộc nhóm dữ liệu kiểm thử Hệ số xu hướng được tính thông qua bộ phân lớp nhị phân, bộ phân lớp này sẽ dự đoán mẫu dữ liệu thuộc nhóm dữ liệu kiểm thử hay không

3.11 Phương pháp nghịch đảo trọng số của hệ số xu hướng

Phương pháp nghịch đảo trọng số của hệ số xu hướng cho mỗi mẫu dữ liệu huấn luyện, giúp cho mô hình học quan tâm đến những mẫu dữ liệu quan trọng có trọng số cao Phương pháp nghịch đảo trọng số của hệ số xu hướng sẽ đánh trọng số của mỗi mẫu dữ liệu huấn luyện dựa trên hệ số xu hướng

Trọng số này thể hiện sự tương đồng giữa mẫu dữ liệu huấn luyện với mẫu dữ liệu kiểm thử, tức hệ số xu hướng càng cao thì mẫu này càng được chú ý tới nhiều vì nó phù hợp với đặc tính dữ liệu kiểm thử Ngược lại, nếu mẫu dữ liệu huấn luyện có trọng số thấp tức mẫu này không còn phù hợp với tập dữ liệu kiểm thử

Ngày đăng: 03/08/2024, 13:36

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN