Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
VÕ ĐỨC QUANG
CẢI TIẾN THUẬT TOÁN PHÂN LỚP
CHO DỮ LIỆU KHÔNG CÂN BẰNG
VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
HÀ NỘI−2024
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI
VÕ ĐỨC QUANG
CẢI TIẾN THUẬT TOÁN PHÂN LỚP
CHO DỮ LIỆU KHÔNG CÂN BẰNG
VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ
Ngành: Hệ thống thông tin
Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS TRẦN ĐÌNH KHANG
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiêncứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứutại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của PGS.TS Trần ĐìnhKhang Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực.Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúngquy định
Hà Nội, ngày tháng 02 năm 2024
Nghiên cứu sinh
Võ Đức Quang
GIÁO VIÊN HƯỚNG DẪN KHOA HỌC
PGS.TS Trần Đình Khang
Trang 4LỜI CẢM ƠN
Chặng đường làm nghiên cứu sinh là một hành trình dài đầy khó khăn vàthử thách Trên hành trình đó, bên cạnh sự nỗ lực của bản thân, không thểthiếu sự đồng hành dẫn dắt của những Thầy Cô kính mến, sự hỗ trợ giúp đỡcủa những người đồng nghiệp, người bạn, người thân trong gia đình Tôithực sự rất biết ơn và xin trân trọng gửi lời cảm ơn sâu sắc tới mọi người vì
đã dành cho tôi sự giúp đỡ, chia sẻ quý giá trong suốt khoảng thời gian qua.Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Trần Đình Khang, ngườiThầy đã hướng dẫn, đồng hành, chỉ dạy, nhắc nhở và động viên tôi rất nhiềutrong suốt quá trình nghiên cứu
Tôi cũng xin gửi lời cảm ơn tới các Thầy giáo, Cô giáo giảng dạy tạiTrường Công nghệ Thông tin và Truyền thông - Đại học Bách khoa Hà Nội
đã truyền đạt cho tôi những kiến thức mới quý giá, giúp tôi mở rộng kiếnthức, gợi mở những ý tưởng nghiên cứu để hoàn thành luận án
Tôi xin gửi lời cảm ơn đến các đồng nghiệp tại Trường Đại học Vinh, các
em sinh viên vì sự hỗ trợ, chia sẻ, giúp đỡ nhiệt tình của mọi người
Cuối cùng, tôi muốn nói lời biết ơn chân thành đến gia đình thân yêu,những người thân và bạn bè đã luôn động viên, ủng hộ tôi trong suốt quátrình nghiên cứu và giúp tôi vượt qua các giai đoạn khó khăn để đạt đượcmột số kết quả bước đầu hôm nay
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ v
DANH MỤC HÌNH VẼ vii
DANH MỤC BẢNG viii
DANH MỤC THUẬT TOÁN x
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU 11
1.1 Bài toán phân lớp với dữ liệu không cân bằng 11
1.2 Một số thuật toán liên quan 14
1.2.1 Thuật toán SVM 14
1.2.2 Thuật toán Weighted-SVM 15
1.2.3 Fuzzy SVM-CIL 16
1.2.4 Thuật toán AdaBoost 17
1.2.5 Thuật toán CNN 19
1.2.6 Phương pháp Cây quyết định 20
1.2.7 K-nearest neighbors và Tomek link 21
1.3 Bài toán dự đoán đồng tác giả .23
1.3.1 Giới thiệu 23
1.3.2 Mô hình hóa bài toán 26
1.4 Phương pháp phân lớp cho bài toán dự đoán đồng tác giả .29
1.5 Phương pháp thực nghiệm và đánh giá .32
1.5.1 Tập dữ liệu thử nghiệm 32
1.5.2 Độ đo đánh giá .35
1.5.3 Môi trường và kịch bản thử nghiệm 37
1.6 Kết luận Chương 1 .38
Trang 6CHƯƠNG 2 CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ
LIỆU KHÔNG CÂN BẰNG 39
2.1 Đặt vấn đề .39
2.2 Đề xuất thuật toán Im.AdaBoost 41
2.2.1 Phân tích thuật toán AdaBoost 41
2.2.2 Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân bằng 43
2.2.3 Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy
cảm với nhãn dương 45
2.2.4 Mô tả thuật toán Im.AdaBoost kết hợp với WSVM 47
2.3 Thử nghiệm 49
2.3.1 Thử nghiệm trên các bộ dữ liệu UCI 50
2.3.2 Thử nghiệm cho bài toán dự đoán đồng tác giả .52
2.4 Kết luận Chương 2 .65
CHƯƠNG 3 ĐỀ XUẤT THUẬT TOÁN ĐIỀU CHỈNH THÍCH NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL 67
3.1 Đặt vấn đề .67
3.2 Đề xuất thuật toán trọng số mờ thích nghi 69
3.2.1 Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM 69
3.2.2 Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm 71
3.2.3 Thuật toán phân lớp với trọng số mờ thích nghi 73
3.3 Thử nghiệm 75
3.3.1 Thử nghiệm trên các bộ dữ liệu UCI 77
3.3.2 Thử nghiệm cho bài toán dự đoán đồng tác giả .83
3.3.3 Thử nghiệm so sánh các thuật toán đã đề xuất 92
3.4 Kết luận Chương 3 .94
KẾT LUẬN 96
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 98
TÀI LIỆU THAM KHẢO 99
Trang 7Academic Social Network Area Under Curve
CAR-based Common Neighbor In- dex)
Common Country Convolutional neural network Common Neighbor
Edited Nearest Neighbor Fuzzy Support Vector Machine Fuzzy Support Vector Machines for Class Imbalance Learning
Geometric Mean Hierarchical structure model Jaccard Coefficient
K -Nearest Neighbors
local directed path Link Prediction Microsoft Academic Graph Matrix Forest Index Neighborhood Cleaning Rule One Sided Selection
Preferential Attachment Resource Allocation Receiver operating characteristics Random Walk with Restart Stochastic block model Scholarly Paper Recommendation Dataset
Đ đo liên k t AA ộ đo liên kết AA ết AA
Đ đo liên k t ACT ộ đo liên kết AA ết AA Thu t toán h c k t h p tu n t thích nghi ật toán học kết hợp tuần tự thích nghi ọc kết hợp tuần tự thích nghi ết AA ợp tuần tự thích nghi ần tự thích nghi ự thích nghi AdaBoost k t h p v i SVM ết AA ợp tuần tự thích nghi ới SVM
AdaBoost k t h p v i W-SVM ết AA ợp tuần tự thích nghi ới SVM AdaBoost k t h p v i DecisionTree ết AA ợp tuần tự thích nghi ới SVM
M ng xã h i h c thu t ạng xã hội học thuật ộ đo liên kết AA ọc kết hợp tuần tự thích nghi ật toán học kết hợp tuần tự thích nghi
Di n tích d ện tích dưới đường cong ROC ưới SVM ường cong ROC i đ ng cong ROC
Đ đo CAR ộ đo liên kết AA
Đ đo liên k t c ng ộ đo liên kết AA ết AA ộ đo liên kết AA đ ng ồng
M ng n -ron tích ch p ạng xã hội học thuật ơ-ron tích chập ật toán học kết hợp tuần tự thích nghi
Độ đo liên kết AA đo liên k t ết AA CN Thu t toán gi m m u ENN ật toán học kết hợp tuần tự thích nghi ảm mẫu ENN ẫu ENN Máy véc-t h tr m ơ-ron tích chập ỗ trợ mờ ợp tuần tự thích nghi ờng cong ROC Máy véc-t h tr m cho h c trên d li u ơ-ron tích chập ỗ trợ mờ ợp tuần tự thích nghi ờng cong ROC ọc kết hợp tuần tự thích nghi ữ liệu ện tích dưới đường cong ROC không cân b ng ằng
Đ đo trung bình hình h c ộ đo liên kết AA ọc kết hợp tuần tự thích nghi
Mô hình c u trúc phân ấu trúc phân
c p Đ đo liên k t ấu trúc phân ộ đo liên kết AA ết AA JC
K -láng gi ng g n nh tềng gần nhất ần tự thích nghi ấu trúc phân
Đ đo liên k t LDP ộ đo liên kết AA ết AA
D đoán liên k t ự thích nghi ết AA
C s d li u khoa h c MAG ơ-ron tích chập ở dữ liệu khoa học MAG ữ liệu ện tích dưới đường cong ROC ọc kết hợp tuần tự thích nghi
Đ đo liên k t MF ộ đo liên kết AA ết AA Thu t toán gi m m u NCL ật toán học kết hợp tuần tự thích nghi ảm mẫu ENN ẫu ENN Thu t toán gi m m u OSS ật toán học kết hợp tuần tự thích nghi ảm mẫu ENN ẫu ENN
Đ đo liên k t PA ộ đo liên kết AA ết AA
Đ đo liên k t RA ộ đo liên kết AA ết AA
Đ ường cong ROC ng cong đ c tính ặc tính
Đ đo liên k t RWR ộ đo liên kết AA ết AA
Mô hình kh i ng u nhiên ối ngẫu nhiên ẫu ENN
C s d li u khoa h c SPRD ơ-ron tích chập ở dữ liệu khoa học MAG ữ liệu ện tích dưới đường cong ROC ọc kết hợp tuần tự thích nghi
Trang 8Specificity Sensitivity Similar Work Tomek Link Pair Weight Support Vector Machine
Máy véc-t h tr ơ-ron tích chập ỗ trợ mờ ợp tuần tự thích nghi
Kỹ thu t t o m u t ng h p cho l p thi u ật toán học kết hợp tuần tự thích nghi ạng xã hội học thuật ẫu ENN ổng hợp cho lớp thiểu ợp tuần tự thích nghi ới SVM ểu sối ngẫu nhiên
Đ đo đ c hi u ộ đo liên kết AA ặc tính ện tích dưới đường cong ROC
Đ đo nh y c m ộ đo liên kết AA ạng xã hội học thuật ảm mẫu ENN
Đ đo liên k t ộ đo liên kết AA ết AA SW
C p ặc tính Tomek link Máy véc-t h tr có tr ng s ơ-ron tích chập ỗ trợ mờ ợp tuần tự thích nghi ọc kết hợp tuần tự thích nghi ối ngẫu nhiên
Trang 9DANH MỤC HÌNH VẼ
1.1 Các trường hợp của ξ trong Soft-SVM 15
1.2 Minh họa kiến trúc CNN-1D 20
1.3 Minh họa các cặp TLPs 22
1.4 Tổng quan quy trình giải quyết các bài toán trong mạng ASN 23
1.5 Mô hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp .31
2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM .48
2.2 Các giá trị của Gmean trên θ thu được bởi Im.AdaBoost.WSVM 55
2.3 Các giá trị Gmean , SE , và SP được xác định cho dữ liệu Nhóm I .58
2.4 Các giá trị Gmean , SE , và SP được xác định cho dữ liệu Nhóm II .61
2.5 Các giá trị Gmean , SE , và SP được xác định cho dữ liệu Nhóm III 64
3.1 Vị trí tương đối của các mẫu giữa hai lớp .70 3.2 Minh họa cho bốn trường hợp mẫu nhạy cảm được chỉ ra bởi TLPs 72
Trang 10DANH MỤC BẢNG
1.1 Bảng ứng viên đồng tác giả .31
1.2 Thống kê dữ liệu bài báo thu thập từ năm 2000 đến năm 2017 34
1.3 Mô tả bộ dữ liệu UCI 34
2.1 Các giá trị tốt nhất của tham số θ cho thuật
toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và
Im.AdaBoost.WSVM 52
2.2 Kết quả phân lớp các tập dữ liệu UCI 53
2.3 Mô tả các bộ dữ liệu đồng tác giả .54
2.4 Các giá trị tốt nhất của tham số θ cho thuật
toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và
Im.AdaBoost.WSVM 56
2.5 Kết quả phân lớp các tập dữ liệu trong Nhóm I .57
2.6 Kết quả phân lớp các tập dữ liệu trong Nhóm II .60
2.7 Kết quả phân lớp các tập dữ liệu trong Nhóm III .63
3.1 Cài đặt FSVM-CIL với các hàm tính trọng số mờ .76
Trang 11n
n
ix
3.2 So sánh kết quả phân lớp của FSVM-CILcen _ 2 c và FSVM-CIL
trên các bộ dữ liệu UCI 783.3 So sánh kết quả phân lớp của phương pháp F-AWA khi áp dụng
vào FSVM-CIL trên các bộ dữ liệu UCI 803.4 So sánh kết quả phân lớp của AFW-CIL và FSVM-CIL cho các
bộ
dữ liệu chuẩn UCI 813.5 Mô tả các bộ dữ liệu đồng tác giả .843.6 Kết quả phân lớp của FSVM-CIL và FSVM-CILcen _ 2 c cho các bộ
dữ liệu đồng tác giả Nhóm I .853.7 Kết quả phân lớp của FSVM-CIL và FSVM-CILcen _ 2 c cho các bộ
dữ liệu đồng tác giả Nhóm II .863.8 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các
bộ
dữ liệu đồng tác giả Nhóm I .883.9 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các
bộ
dữ liệu đồng tác giả Nhóm II .89
Trang 123.10 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ
liệu đồng tác giả Nhóm I .903.11 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ
liệu đồng tác giả Nhóm II .913.12 Kết quả so sánh trên các tập dữ liệu UCI 933.13 Kết quả so sánh trên các tập dữ liệu Nhóm I .93
Trang 13DANH MỤC THUẬT TOÁN
1.1 Thuật toán SVM 14
1.2 Thuật toán AdaBoost 18
1.3 Thuật toán huấn luyện Cây quyết định 20
1.4 Thuật toán KNN 22
2.1 Thuật toán Im.AdaBoost.WSVM 47
3.1 CalFW : Tính toán trọng số mờ cho tập dữ liệu .71
3.2 AdjFW : Điều chỉnh trọng số mờ dựa trên TLPs 74
3.3 Thuật toán F-AWA 74
3.4 Thuật toán AFW-CIL 75
Trang 14bố trên các tạp chí khoa học Có nhiều tạp chí khoa học thuộc các chủ đề lĩnhvực nghiên cứu khác nhau Một bài báo khoa học có thể là kết quả hợp tác củanhiều tác giả đến từ nhiều đơn vị/trường học/viện nghiên cứu Mặt khác, tùytheo năng lực và môi trường nghiên cứu, mỗi tác giả cũng có thể tham gia nhiềunhóm nghiên cứu khác nhau, nghiên cứu nhiều vấn đề khác nhau để công bốcác bài báo khoa học Không gian quan hệ cộng tác nghiên cứu khoa học có thểxem như một mạng xã hội cộng đồng đặc biệt với các nút là các tác giả, cáccạnh thể hiện mối liên kết giữa hai tác giả Với những tính chất đó, mạng đồngtác giả không chỉ kế thừa nhiều đặc trưng của mạng xã hội nói chung như quan
hệ lân cận chung và đường dẫn liên kết, mà còn chứa đựng các đặc trưng riêng
về chuyên môn học thuật, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v.Việc nghiên cứu các bài toán trong mạng đồng tác giả có nhiều ý nghĩa vàđóng góp quan trọng cho lĩnh vực khoa học thông tin, khoa học dữ liệu và ứngdụng trong phát triển cộng đồng nghiên cứu khoa học Liên quan đến mạng
đồng tác giả, các chủ đề được quan tâm nghiên cứu phổ biến gồm: (i ) các
bài toán truy vấn tổng hợp thông tin như: tìm kiếm, tra cứu thông tin học
thuật (tạp chí, bài báo, tác giả, tổ chức, chủ đề nghiên cứu, trích dẫn, ) (ii ) các
bài toán dẫn xuất thông tin như: phân tích mối quan hệ học thuật, phân tích
xu hướng nghiên cứu, đo lường tầm ảnh hưởng học thuật của cá nhân, tổchức, đánh giá hiệu quả nghiên cứu, xác định các mối quan hệ cộng tác tiềmnăng và phát triển các hệ thống khuyến nghị, gợi ý (bài báo, tạp chí, đồng tácgiả, ) [2] Trong thực tế, khả năng mở rộng và phát triển của không gianmạng đồng tác giả phụ thuộc hoàn toàn vào việc số lượng các bài báo được
xuất bản trên
Trang 15Bài toán dự đoán cộng tác đồng tác giả, gọi tắt là dự đoán đồng tác giả, đượcphát biểu như sau:
Dựa trên dữ liệu lưu trữ về thông tin kết nối của mạng đồng tác giả đến thời
điểm hiện tại t, khi đưa thông tin đầu vào là một tác giả v i nào đó, hệ thống sẽ phân tích xử lý và đưa ra một danh sách gợi ý các tác giả v j , v k , v h , có tiềm năng cộng tác hiệu quả với tác giả v i trong tương lai (tức là sẽ có cộng tác ở một
thời điểm t ’ nào đó sau t).
Bài toán dự đoán đồng tác giả có thể xem như là một bài toán dẫn xuất củabài toán dự đoán liên kết (Link Prediction) trong mạng xã hội và được áp dụngvào mạng đồng tác giả Mục tiêu của bài toán này là dự đoán các mối quan hệ(liên kết) tiềm năng giữa các tác giả trong tương lai dựa trên những thông tin
về quan hệ tương tác của các tác giả trong mạng đồng tác giả hiện tại Trongmạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễnthông qua các cạnh và định lượng thông qua các độ đo liên kết Các độ đo nàythường được hình thành và xác định dựa trên các thông tin liên kết như dựavào số lượng đỉnh/nút hàng xóm chung, dựa vào chiều dài đường dẫn liên kết.Ngoài ra, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng chỉ
có trong không gian cộng đồng nghiên cứu khoa học như vị trí thứ tự tên tácgiả trong bài báo, hay thông tin chủ đề lĩnh vực nghiên cứu, v.v
Để giải quyết bài toán dự đoán đồng tác giả, theo khảo sát của chúng tôi, cácphương pháp và kỹ thuật chính đã được nghiên cứu đề xuất bao gồm:
• Sử dụng độ đo tương đồng (Similarity-based methods): mỗi cặp ứng viênđồng tác giả sẽ được đo lường mức độ tương đồng bằng một giá trị điểm
số, giá trị này thể hiện mối quan hệ liên kết trong mạng và được tính toán
dựa trên: (i) sự tương đồng về nội dung: sử dụng các độ đo khoảng cách, sử dụng độ đo cosin, dựa trên mối tương quan, dựa trên hệ số Jaccard ; và (ii)
Trang 16sự tương đồng về cấu trúc và liên kết mạng Một số nghiên cứu nổi bật theohướng sử dụng độ đo tương đồng là đề xuất các độ đo CN (CommonNeigh- bor) [5], PA (Preferential Attachment) [6], AA (Adamic/Adar) [7],
RA (Re- source allocation) [8], JC (Jaccard Coefficient), Cosine similarity,Sorensen Index, CAR (CAR-based Common Neighbor Index), Katz Index[9], RWR (Random Walk with Restart), Shortest Path [10], ACT (AverageCommute Time), MF (Matrix Forest Index), SimRank, local random walkindex, LDP (local directed path),
• Xây dựng các mô hình dựa trên xác suất và khả năng tối đa (Probabilisticand maximum likelihood models): sử dụng một lượng dữ liệu lớn đểnghiên cứu sâu hành vi kết nối giữa các nút và cách cấu trúc thay đổi theo
sự phát triển của mạng Các kỹ thuật này thường áp dụng các ước lượngxác suất có điều kiện kết hợp với tối ưu hóa hàm mục tiêu để đánh giákhả năng xảy ra của một mối liên kết chưa tồn tại trong mạng Mô hìnhdạng này thường yêu cầu nhiều dữ liệu, khó khăn trong việc điều chỉnh cáctham số phức tạp và cần nhiều thời gian Các nghiên cứu điển hình baogồm: Hierarchical structure model (HSM), Stochastic block model (SBM),Parametric model, Non-parametric model, Local probabilistic model,Factor graph model, Affiliation model
• Khai phá đồ thị (graph mining): sử dụng các mô hình đồ thị để khám phácác tri thức và thông tin hữu ích từ lượng dữ liệu lớn Các phương phápchính bao gồm sử dụng các thuật toán dựa trên Apriori như AGM, ACGM,path-join; dựa trên FP-growth như gSpan, CloseGraph, FFSM
• Học máy (machine learning): hướng tiếp cận này bao gồm các phươngpháp học có giám sát (phân lớp), học không giám sát (phân cụm), học sâu
và giảm chiều dữ liệu Phương pháp học có giám sát xây dựng mô hìnhphân lớp dựa trên các bộ dữ liệu huấn luyện Các bộ dữ liệu này có thuộctính dựa trên thông tin các độ đo liên kết giữa cặp tác giả và nhãn lớp dựatrên việc khảo sát sự mở rộng kết nối mạng theo chiều thời gian Theo đó,bài toán dự đoán liên kết được xem như là bài toán phân lớp nhị phân vớinhãn lớp +1 biểu thị việc có liên kết, nhãn lớp −1 biểu thị không có liênkết Các thuật toán được sử dụng rất đa dạng như: Decision Tree, NeuralNetworks, Support Vector Machines, K-Nearest Neighbors, XGboost haycác mô hình dạng hồi quy Trong khi phương pháp học không giám sát(phân cụm) tập trung vào việc dự đoán nhãn lớp cho các mẫu không đượcgán nhãn dựa trên tính chất quan hệ giữa các mẫu
Trang 17• Phương pháp học sâu và giảm chiều dữ liệu: sử dụng các kỹ thuật cáckiến trúc mạng nơ-ron và nhúng mạng (network embedding) cũng đượcquan tâm nghiên cứu trong thời gian gần đây Các kỹ thuật đặc trưng sửdụng trong phương pháp này là DeepWalk [11], Node2vec [12], HARP[13], Walklets [14], subgraph embedding, deep dynamic networkembedding [15]
Trong các hướng tiếp cận này, hướng tiếp cận giải quyết bài toán theo hướngphân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiều
ưu điểm như: tích hợp đa dạng thông tin liên kết, khả năng mở rộng linh hoạttrong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnh
và cải thiện mô hình thông qua quá trình huấn luyện,
Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết theo phươngpháp học máy, nội dung của luận án này tiếp tục mở rộng nghiên cứu đề xuấtcác cải tiến các thuật toán học máy để đem lại các mô hình dự đoán liên kết
có chất lượng tốt hơn, áp dụng hiệu quả cho bài toán dự đoán đồng tác giả và
là cơ sở cho việc xây dựng ứng dụng khuyến nghị cộng tác đồng tác giả trongmạng xã hội học thuật
2 Vấn đề nghiên cứu
Như trong phần bối cảnh nghiên cứu đề cập, phương pháp tiếp cận học máyphân lớp cho bài toán dự đoán cộng tác đồng tác giả có những ưu điểm nổi bật
và được quan tâm nghiên cứu Tuy nhiên, để huấn luyện được một mô hình gợi
ý phù hợp chúng ta cần quan tâm tới các yếu tố ảnh hưởng như: phương phápxây dựng bộ dữ liệu, xây dựng các đặc trưng của dữ liệu và lựa chọn thuật toánhuấn luyện
Trong ba yếu tố này, vấn đề xây dựng đặc trưng của tập dữ liệu huấn luyệnđược nghiên cứu chủ yếu xung quanh khía cạnh mở rộng các độ đo liên kết vàđánh giá mức độ quan trọng của các độ đo liên kết ảnh hưởng đến chất lượng
mô hình phân lớp Các nghiên cứu mở rộng độ đo liên kết hầu hết thường dựatrên thông tin về cấu trúc mạng (dựa trên hàng xóm, dựa trên đường dẫn liênkết), thông tin nghiên cứu và kết nối cộng đồng (thứ tự tên tác giả, chủ đềnghiên cứu, đơn vị nghiên cứu, quốc gia, ) Trong nghiên cứu [16] các tác giả
đã tổng hợp có hơn 20 phương pháp tính toán các độ đo tương đồng Nhìnchung các độ đo càng đa dạng, nghĩa là các đặc trưng của dữ liệu ứng viênđồng tác giả càng được mô tả đầy đủ, thì tạo ra bộ dữ liệu huấn luyện càng chấtlượng đưa đến thuận lợi cho việc huấn luyện các mô hình Tuy nhiên, một sốnghiên cứu thử nghiệm cho thấy rằng, một số độ đo liên kết chính có mức độ
Trang 185ảnh hưởng
Trang 19cao hơn trong việc tạo ra mô hình dự đoán chất lượng, các độ đo khác có mức
độ ảnh hưởng ít hơn, đóng vai trò là thuộc tính mang ý nghĩa bổ sung Do vậykhả năng nghiên cứu mở rộng tìm kiếm thêm các độ đo mới để đóng góp hiệuquả cho việc nâng cao chất lượng mô hình phân lớp là khá hạn chế
Chúng ta biết rằng không có mô hình học máy nào tốt cho tất cả các bộ dữliệu trong các bài toán khác nhau Do vậy đối với từng bài toán cụ thể, cầnnghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu để xây dựngđược các mô hình phân lớp/dự đoán có chất lượng tốt
Đối với bài toán dự đoán đồng tác giả tiếp cận theo phương pháp phân lớp,sau khi thu thập thông tin và xây dựng dữ liệu mạng đồng tác giả, bộ dữ liệuhuấn luyện được tạo ra từ mạng đồng tác giả gọi là dữ liệu bảng ứng viên đồngtác giả, gọi tắt là bảng ứng viên Mô tả sơ lược về dữ liệu bảng ứng viên nhưsau Khi đưa thông tin đầu vào là một tác giả v i nào đó, chúng ta xây dựng mộtdanh sách các tác giả v j , v k , v h , có tiềm năng cộng tác hiệu quả với tác giả
v i trong tương lai Các tác giả v j , v k , v h , gọi là ứng viên đồng tác giả Theo
đó, mỗi cặp (v i , v j) là một cặp ứng viên cộng tác tiềm năng và được xem như làmột mẫu dữ liệu Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởimột véc-tơ thuộc tính, được tính bằng các độ đo liên kết Nhãn lớp (khả năngxảy ra liên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kếttrong mạng đồng tác giả theo chiều thời gian Cụ thể hơn, giả sử rằng T2 làkhoảng thời gian sau T1 thì các độ đo liên kết được tính từ mạng đồng tác giảtrong T1và nhãn lớp +1/ − 1 được xác định bằng cách kiểm tra sự cộng tác thực
tế của các tác giả trong T2 Gán nhãn lớp +1 thể hiện rằng trong thực tế cặp tácgiả có viết chung bài báo, nhãn lớp −1 thể hiện cặp tác giả không có viếtchung bài báo nào Trong thực tế, mạng đồng tác giả được biểu diễn bằng một
đồ thị thưa kết nối, do đó, trong khoảng thời gian T2 số lượng cặp tác giả có kếtnối (tức là cùng đứng tên chung trong một bài báo) là rất ít, trong khi số lượngcặp ứng viên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) là rất nhiều.Điều này dẫn đến bộ dữ liệu bảng ứng viên được tạo ra là bộ dữ liệu hai nhãnlớp, trong đó có rất nhiều mẫu (đại diện cho mỗi cặp ứng viên đồng tác giả)
có nhãn lớp
−1 và rất ít mẫu dữ liệu cặp ứng viên có nhãn lớp +1, gây ra sự không cân bằng
về số lượng mẫu giữa các lớp Do vậy bộ dữ liệu bảng ứng viên là bộ dữ liệuhọc máy không cân bằng hai nhãn lớp và bài toán dự đoán đồng tác giả là bàitoán phân lớp nhị phân
Hơn nữa, các nghiên cứu tiếp cận giải quyết bài toán dự đoán đồng tácgiả [1][17][18] đều đề cập đến vấn đề không cân bằng về nhãn lớp trong bộ dữ
Trang 207liệu huấn luyện ở mức rất cao Điều này gây thách thức cho các thuật toán học
Trang 21máy truyền thống vì các thuật toán này thường xem xét các mẫu bình đẳng nhau,dẫn đến các mô hình phân lớp thiên về dự đoán sai các mẫu lớp thiểu số Gầnđây, trong luận án Tiến sĩ của Phạm Minh Chuẩn (2018) trình bày cách tiếp cậngiải quyết bài toán dự đoán đồng tác giả theo phuong pháp phân lớp, trong đó đã
đề xuất mở rộng các độ đo liên kết mới để bổ sung thêm các đặc trưng của dữliệu nhằm nâng cao chất lượng của mô hình phân lớp Bên cạnh đó luận án cũng
đã nêu ra vấn đề dữ liệu rất không cân bằng về nhãn lớp trong bảng ứng viên.Tiếp nối nghiên cứu này, kết hợp với khảo sát các nghiên cứu gần đây, chúng tôinhận thấy các công bố nghiên cứu vấn đề học máy trên dữ liệu không cân bằng
để áp dụng cho bộ dữ liệu đồng tác giả hầu như rất hạn chế Điều này mở rahướng nghiên cứu tiềm năng về các phương pháp cải tiến thuật toán, điều chỉnhcác tham số mô hình để cải thiện chất lượng các mô hình dự đoán trong khung
cảnh dữ liệu bảng ứng viên đồng tác giả có sự không cânbằng mức cao về số lượng mẫu giữa các lớp
Đối với bài toán học máy trên dữ liệu hai nhãn lớp nói chung thường không
có sự phân bố đồng đều số lượng mẫu giữa các lớp Tùy thuộc vào từng trườnghợp bài toán cụ thể mức độ chênh lệch số lượng mẫu giữa các lớp là khác nhau,cũng có trường hợp tỷ lệ không cân bằng là rất lớn Trong một số trường hợp,
tỷ lệ giữa các phần tử thuộc lớp thiểu số (nhãn lớp có số mẫu ít), gọi tắt lànhãn dương, ký hiệu +1, so với các phần tử thuộc lớp đa số (nhãn lớp có só mẫunhiều), gọi tắt là nhãn âm, ký hiệu −1, có thể lên đến 1:100 thậm chí 1:100,000.Khi áp dụng các thuật toán học máy truyền thống cho các tập dữ liệu khôngcân bằng, đa số các phần tử thuộc lớp đa số sẽ được phân loại đúng trong khicác phần tử thuộc lớp thiểu số dễ bị phân lớp sai thành lớp đa số Việc này dẫnđến kết quả là mô hình huấn luyện có thể có độ chính xác (accuracy) rất caotrong khi giá trị độ nhạy (sensitivity) lại rất thấp Nhìn chung các phương phápphân lớp học máy truyền thống đều khó cho kết quả độ nhạy tốt với các tập dữliệu có tỷ lệ chênh lệch số lượng mẫu giữa các lớp ở mức cao Điều này tạo nên
sự thú vị và đem đến động lực nghiên cứu trong việc tìm ra các phương pháp cảitiến nhằm huấn luyện mô hình phân lớp chất lượng khi áp dụng cho bài toán
dữ liệu không cân bằng Theo [19] nhiều phương pháp đã được đề xuất để giảiquyết vấn đề này, trong đó chủ yếu được phân thành hai nhóm cơ bản: tiếp cận
ở mức dữ liệu và tiếp cận ở mức thuật toán
• Các phương pháp tiếp cận ở mức dữ liệu nhằm mục đích thay đổi sự phân
bố số lượng mẫu trong bộ dữ liệu (resampling) bằng cách sinh thêm cácphần tử cho lớp thiểu số (over sampling), giảm bớt các phần tử thuộc lớp
đa số (under sampling) hoặc kết hợp cả hai phương pháp để bộ dữ liệu
Trang 22trở nên cân bằng hơn, sau đó sử dụng các thuật toán học máy mạnh đểtiến hành huấn luyện mô hình phân lớp Một số kỹ thuật làm sạch dữ liệu(data cleaning techniques) như Tomek links cũng được sử dụng để loại bỏ
sự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệu sau khi thựchiện các thuật toán sinh thêm các mẫu tổng hợp
• Các phương pháp tiếp cận ở mức thuật toán hướng tới việc cải tiến cácthuật toán phân lớp mạnh truyền thống để có được hiệu quả cao trên cáctập dữ liệu không cân bằng Các phương pháp phổ biến gồm: học mô hìnhdựa trên nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng cáctham số thưởng phạt khác nhau gắn với các mẫu nhãn lớp khác nhau Cácgiải thuật học máy nổi bật được quan tâm nghiên cứu là: sử dụng Boosting,
sử dụng Cây quyết định nhạy cảm chi phí (Cost-Sensitive Decision Trees),
sử dụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹ thuật họcsâu,
• Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật cân bằng hóa phân
bố số lượng mẫu trong bộ dữ liệu và các phương pháp điều chỉnh trọng sốchi phí để nâng cao chất lượng mô hình huấn luyện, ví dụ: SMOTE kết hợpDifferent Costs (SDCs), SVMs với Under/Over Sampling,
Trong các phương pháp tiếp cận mức thuật toán, các nghiên cứu cải tiếnAdaBoost nhận được nhiều sự quan tâm chú ý AdaBoost là thuật toán học kếthợp tuần tự và thích nghi sửa lỗi qua mỗi lần lặp do Freund [20] đề xuất Thuậttoán kết hợp sử dụng nhiều bộ phân lớp thành viên để tạo thành một bộ phânlớp tổng hợp giúp xem xét kỹ hơn các đặc tính của bộ dữ liệu Do đó thuật toánAdaBoost được chúng tôi lựa chọn để thực hiện nghiên cứu cải tiến
Cũng cần lưu ý rằng, vấn đề dữ liệu không cân bằng là bài toán xảy ra rấtnhiều trong thực tế như là chẩn đoán bệnh trong y tế, dự báo những sự kiệnthiên tai hiếm gặp, phát hiện xâm nhập mạng, nên các phương pháp thuậttoán hiệu quả trong bài toán dự đoán liên kết trong mạng đồng tác giả cũng cónhiều tiềm năng mở rộng cho các bài toán có dữ liệu không cân bằng trong cáclĩnh vực khác
Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, mộtvấn đề chung để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việcphân loại chính xác trong các vùng không gian nhạy cảm như: mẫu dữ liệu lànhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân loại của hailớp Với những dữ liệu không đầy đủ, không chắc chắn, phương pháp xử lý mờdựa trên lý thuyết mờ của Zadeh đưa ra vào năm 1965 tỏ ra hiệu quả Nhiều
Trang 2310nghiên cứu đã đề xuất các phương pháp xử lý mờ để giải quyết vấn đề này.
Trang 243 Đối tượng và phạm vi nghiên cứu
Trên cơ sở phân tích bối cảnh nghiên cứu và những ưu điểm hạn chế của cácnghiên cứu đã khảo sát, nội dung luận án này tập trung nghiên cứu tiếp cận giảiquyết bài toán dự đoán đồng tác giả theo phương pháp phân lớp Trong đó trọngtâm nghiên cứu là cải tiến các thuật toán học máy trên dữ liệu không cân bằnghai nhãn lớp và áp dụng cho bài toán dự đoán đồng tác giả Cụ thể hơn, luận ánnghiên cứu cải tiến các thuật toán mạnh mẽ và mềm dẻo như là AdaBoost [20],SVM [21], Weighted SVM [22], các thuật toán xử lý mờ như Fuzzy SVM [23],Fuzzy SVM-CIL [24] Luận án tập trung nghiên cứu đề xuất cải tiến các phươngpháp phân lớp nhị phân để ứng dụng hiệu quả cho bài toán dự đoán đồng tácgiả Trong đó trọng tâm là giải quyết vấn đề dữ liệu không cân bằng giữa cáclớp
Về phạm vi nghiên cứu, luận án tập trung nghiên cứu bài toán dự đoán đồngtác giả, đề xuất thử nghiệm các phương pháp cải tiến thuật toán nhằm nângcao chất lượng phân lớp trên các bộ dữ liệu có sự không cân bằng về số lượngmẫu giữa các lớp nói chung và áp dụng cho dữ liệu bảng ứng viên được tạo ra
từ mạng đồng tác giả Dữ liệu bảng ứng viên đồng tác giả sử dụng trong cácthử nghiệm kế thừa từ nguồn thông tin tác giả bài báo tự thu thập trước đây.Các thuộc tính của mẫu dữ liệu ứng viên đồng tác giả được xây dựng đặc trưng
từ một số độ đo liên kết cơ bản Các nội dung liên quan đến vấn đề về mở rộng
độ đo liên kết, phương pháp tiếp cận dự đoán đồng tác giả khác cũng được đềcập nhưng không phải là phạm vi nghiên cứu chính của luận án
4 Mục tiêu nghiên cứu
Luận án này hướng tới cải tiến các phương pháp học máy để giải quyết tốthơn vấn đề học trên dữ liệu không cân bằng trong bài toán dự đoán đồng tácgiả Luận án tập trung vào hai vấn đề nghiên cứu chính sau:
• Thứ nhất, nghiên cứu cải tiến phương pháp học kết hợp AdaBoost cho dữ
liệu không cân bằng ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề
nghiên cứu này hướng đến việc cải tiến phương pháp học kết hợp mạnh mẽnhư AdaBoost [20] để phù hợp cho dữ liệu không cân bằng thông qua việcthiết kế các tham số điều chỉnh thích nghi với mức độ không cân bằng của
dữ liệu
• Thứ hai, nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệu
không cân bằng và ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề
Trang 25nghiên cứu này hướng tới việc áp dụng điều chỉnh thích nghi các đại lượngtrọng số mờ kết hợp với thuật toán học dựa trên chi phí, giúp huấn luyệncác mô hình phân lớp hiệu quả hơn khi dữ liệu có sự không cân bằng cao
về nhãn lớp Ngoài ra, luận án cũng nghiên cứu xử lý các trường hợp dữliệu trong vùng nhạy cảm ảnh hưởng tới chất lượng mô hình phân lớp nhưmẫu dữ liệu gần đường biên phân lớp hoặc là mẫu dữ liệu là nhiễu
(1) phương pháp khởi tạo trọng số AdaBoost thích nghi với mức độ không
cân bằng mẫu trong tập dữ liệu và (2) phương pháp tính trọng số độ tin cậy
cho bộ phân lớp thành viên nhạy cảm với tổng lỗi trên mẫu nhãn dương.Các kết quả nghiên cứu này đã được công bố trong 2 bài báo số [CT.1] và[CT.3]
• Luận án đề xuất một thuật toán điều chỉnh trọng số mờ thích nghi cho bàitoán dự đoán cộng tác đồng tác giả theo dạng học trên dữ liệu không cân
bằng hai lớp Thuật toán đề xuất có hai cải tiến chính: (1) xây dựng một
hàm tính trọng số mờ cho các mẫu dữ liệu giàu ngữ nghĩa hơn dựa trênFuzzy SVM-CIL khi xem xét khoảng cách từ mỗi mẫu đến tâm của cả hai
lớp; (2) phương pháp điều chỉnh thích nghi các giá trị trọng số mờ của mẫu
nằm trong không gian phân lớp nhạy cảm như trên đường biên hoặc mẫu
là nhiễu dựa trên KNN, Tomek link và SVM Các kết quả nghiên cứu này
đã được công bố các bài báo số [CT.2][CT.4][CT.5]
Các đóng góp của luận án trọng tâm hướng đến áp dụng cho bài toán dự đoánđồng tác giả trong mạng xã hội học thuật Tuy nhiên các thuật toán cải tiếnnày cũng có thể mở rộng áp dụng cho các bài toán học máy với dữ liệu khôngcân bằng mức cao trong các lĩnh vực khác
6 Bố cục của luận án
Với các đóng góp nêu trên, luận án được trình bày trong 3 chương chính:
Trang 26• Chương 1: Nội dung Chương 1 trình bày các kiến thức nền tảng về tổng
quan bài toán dự đoán đồng tác giả và các phương pháp tiếp cận Ngoài
ra, chương cũng trình bày các kiến thức nền tảng khi tiếp cận giải quyếtbài toán theo phương pháp học máy như: vấn đề học trên dữ liệu khôngcân bằng, các thuật toán cơ sở, các bộ dữ liệu thử nghiệm, môi trường thửnghiệm làm cơ sở cho các đề xuất và thử nghiệm ở các chương tiếp theo
• Chương 2: Nội dung Chương 2 trình bày lời giải cho câu hỏi: Nghiên cứu
cải tiến phương pháp học kết hợp AdaBoost cho dữ liệu không cân bằng ứng dụng trong dự đoán đồng tác giả? Chương này đề xuất một số phương
pháp cải tiến thuật toán AdaBoost cho bài toán dữ liệu không cân bằng, ứngdụng cho dự đoán cộng tác đồng tác giả
• Chương 3: Nội dung Chương 3 hướng tới trả lời câu hỏi nghiên cứu:
Nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệu không cân bằng và ứng dụng trong bài toán dự đoán đồng tác giả? Chương này đề
xuất một thuật toán điều chỉnh trọng số mờ thích nghi nhằm giải quyết vấn
đề dữ liệu không cân bằng và xử lý vấn đề phân lớp cho các mẫu ở vùngnhạy cảm để áp dụng cho bài toán dự đoán cộng tác đồng tác giả
Với các chương này, luận án đã trình bày đầy đủ các kiến thức nền tảng vàchi tiết nội dung giải pháp cho các câu hỏi nghiên cứu giúp giải quyết hiệu quảcác thách thức nêu ra
Trang 27Chương 1 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
Chương này của luận án giới thiệu các kiến thức cơ bản về bài toán phân lớpnhị phân có tính chất dữ liệu không cân bằng và các vấn đề liên quan khi ứngdụng vào bài toán dự đoán đồng tác giả được mô hình hóa theo dạng phân lớp.Một số phương pháp tiếp cận giải quyết bài toán và thuật toán phân lớp nhịphân nổi bật cũng được phân tích để đưa ra các định hướng nghiên cứu cải tiếncác thuật toán
1.1 Bài toán phân lớp với dữ liệu không cân bằng
Dữ liệu không cân bằng là khái niệm đề cập đến các bộ dữ liệu có đặc điểmphân bố số lượng mẫu trong mỗi lớp có sự chênh lệch cao Bài toán phân lớptrên dữ liệu không cân bằng là một vấn đề thách thức trong học máy Để giảiquyết bài toán phân lớp trên dữ liệu không cân bằng nói chung, các nghiên cứutập trung vào hai hướng giải quyết chính đó là: sửa đổi tập dữ liệu để giảm mức
độ không cân bằng mẫu giữa các lớp và cải tiến thuật toán thông qua việc điềuchỉnh các tham số
Các phương pháp tiếp cận mức dữ liệu sử dụng các kỹ thuật can thiệp vào bộ
dữ liệu gốc để tạo ra bộ dữ liệu huấn luyện có tỷ lệ phân bố mẫu cân bằng hơn,
từ đó làm cơ sở cho các thuật toán phân lớp truyền thống hoạt động hiệu quảhơn Có thể thay đổi sự phân bố số lượng mẫu trong bộ dữ liệu (ReSampling)bằng cách sinh thêm các phần tử cho lớp thiểu số (Over Sampling) như Ran-dom Oversampling, Synthetic Minority Oversampling Technique (SMOTE)[25], Border-line-SMOTE [26], Adaptive Synthetic Sampling (ADA-SYN)[27]over- sampling dựa trên cụm (Cluster Based Sampling-CBO) [28],SMOTEBoost [29], OSD [30] hay giảm bớt các phần tử thuộc lớp đa số(Under Sampling) như EasyEnsemble [31], BalanceCascade [32], KNN-NearMiss [33], để bộ dữ liệu trở nên cân bằng hơn, từ đó sử dụng các thuậttoán học máy mạnh để phân lớp Một số kỹ thuật làm sạch dữ liệu (datacleaning techniques) như Tomek links được dùng để loại bỏ sự trùng lặp hoặcchồng lẫn của các mẫu trong tập dữ liệu sau khi thực hiện các thuật toán tạo cácmẫu tổng hợp (Over Sampling) [34][35]
Trang 28Việc sử dụng các phương pháp tiếp cận ở mức dữ liệu trong một số trườnghợp nào đó có thể dẫn đến mất đi những thông tin quan trọng của bộ dữ liệuhoặc đưa nhiễu vào tập dữ liệu Do đó, luận án tiếp cận giải quyết bài toán có
dữ liệu không cân bằng ở mức thuật toán, tức là nghiên cứu cải tiến các thuậttoán truyền thống để nó đạt được hiệu quả phân lớp tốt trên dữ liệu không cânbằng Trong đó, luận án lựa chọn các giải thuật mạnh như học kết hợp boostinghay SVM có trọng số để nghiên cứu cải tiến, giải quyết vấn đề phân lớp trên dữliệu không cân bằng
Phân tích một số phương pháp tiếp cận ở mức thuật toán để giải quyết khôngcân bằng dữ liệu, các phương pháp dựa trên cải tiến dựa trên AdaBoost [42],cải tiến dựa trên SVMs [21][52] và các phương pháp học sâu dựa trên CNN [53]thu hút rất nhiều sự quan tâm bởi tính tùy biến mở rộng của các thuật toáncho các bài toán có dữ liệu có tính chất khác nhau là rất hiệu quả
Thuật toán học kết hợp AdaBoost do Freund [20] đề xuất dựa trên quan điểmlà: khi sử dụng một bộ phân lớp đơn lẻ có thể sẽ không xem xét một cách đầy
đủ các đặc điểm của tập dữ liệu, do đó việc kết hợp sử dụng nhiều bộ phân lớpthành viên khác nhau để tạo thành một bộ phân lớp tổng hợp có thể sẽ xemxét kỹ hơn các đặc tính của dữ liệu và đem lại hiệu quả phân lớp tốt hơn Để
sử dụng kết hợp các bộ phân lớp con, thường có hai cách kết hợp là tuần tự(boosting) hoặc song song (bagging) AdaBoost là kiểu kết hợp tuần tự và sửalỗi phân lớp thích nghi qua mỗi lần lặp Về phương pháp học kết hợp dạng songsong, nổi bật nhất là thuật toán rừng ngẫu nhiên (Random forest) Thuật toánnày chia nhỏ bộ dữ liệu gốc thành các tập dữ liệu con bằng kỹ thuật bootstrap
và sử dụng các bộ phân lớp thành viên cho các tập dữ liệu con, sau đó kết quảphân lớp chung cuối cùng sẽ được tổng hợp từ các bộ phân lớp thành viên Tuy
Trang 29nhiên trong trường hợp dữ liệu không cân bằng, đặc biệt là dữ liệu không cânbằng mức cao, số lượng mẫu nhãn dương +1 là rất ít Vì vậy việc lấy mẫu ngẫunhiên để tạo ra các bộ dữ liệu con khó đảm bảo đầy đủ tính chất của dữ liệu
Do đó, thuật toán học kết hợp AdaBoost được luận án lựa chọn để thực hiệnnghiên cứu cải tiến
SVM [21] là một thuật toán phân lớp mạnh trong học máy SVM đã đượcnghiên cứu rộng rãi và được chứng minh là một phương pháp phân lớp mạnhtrong các kết quả thực nghiệm Giải thuật này đặc biệt hiệu quả đối với các dữliệu phân biệt tuyến tính Ngoài ra, thuật toán cũng khá mềm dẻo và có khảnăng cải tiến mở rộng để đạt hiệu quả cao trên những bộ dữ liệu có đặc tínhkhác nhau Đối với bài toán phân lớp dữ liệu không cân bằng, đã có rất nhiềucác nghiên cứu cải tiến SVM như là Weighted-SVM [22], Kernel-SVM, đặc biệt
là Fuzzy SVM [23], Fuzzy SVM-CIL [24]
Một điều cần lưu ý nữa là hai thuật toán AdaBoost và SVM đều sử dụnghàm xét dấu (−/+) để đưa ra kết quả phân lớp nên nó trở thành lựa chọn hợp
lý và phù hợp để cải tiến cho bài toán phân lớp nhị phân có dữ liệu không cânbằng mà luận án hướng tới
Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, mộtvấn đề chung để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việcphân lớp chính xác trong các vùng không gian nhạy cảm như: mẫu dữ liệu lànhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân lớp của hailớp Để xác định các vùng không gian chứa các mẫu nhạy cảm này, chúng ta cầncác phương pháp đo lường khoảng cách hoặc xem xét phân bố các mẫu Do vậychúng ta cần lưu ý đến việc sử dụng các thuật toán như K-nearest neighbors(KNN) và Tomek link để định vị các mẫu trong không gian phân bố Mặt khácSVM là thuật toán phân lớp dạng tuyến tính dựa trên lề và có các tham số điềuchỉnh để mở rộng hoặc co hẹp không gian biên lề phân lớp Khi sử dụng SVMlàm bộ phân lớp cơ sở, chúng ta hoàn toàn có thể xác định được vùng khônggian nhạy cảm là biên lề phân lớp Ngoài ra, với dữ liệu không đầy đủ, khôngchắc chắn, phương pháp xử lý mờ dựa trên lý thuyết tập mờ của Zadeh [54] đưa
ra vào năm 1965 tỏ ra hiệu quả Nhiều nghiên cứu đã đề xuất các phương pháp
xử lý mờ để giải quyết vấn đề này Vì vậy việc nghiên cứu vận dụng và cải tiếncác thuật toán như AdaBoost, SVM có trọng số, KNN, Tomek link [55] và cácgải thuật phân lớp mờ Fuzzy SVM, Fuzzy SVM-CIL cho dữ liệu không cânbằng mang đến nhiều triển vọng
Trang 30và ứng dụng trong bài toán dự đoán cộng tác đồng tác giả nói riêng.
1.2 Một số thuật toán liên quan
1.2.1 Thuật toán SVM
Thuật toán 1.1: Thuật toán SVM
Input: Tập dữ liệu X = {(x1, y1), , (x N , y N )} với y i = {−1, +1}; C:
tham số điều chỉnh kiểm soát sự đồng nhất của siêu phẳng phânlớp
Output: Hệ số w: véc-tơ trọng số của các thuộc tính, b: thuộc tính độ
lệch để xác định siêu phẳng phân lớp
1 Khởi tạo w và b
2 for Lặp đến khi hội tụ do
3 for Duyệt từng mẫu huấn luyện x i do
Trang 311.2.2 Thuật toán Weighted-SVM
Đối với vấn đề học máy trên dữ liệu không cân bằng hai nhãn lớp, đã cónhiều cải tiến của thuật toán SVM được đề xuất như [24][56][57][58][59] Mộtcải tiến nổi bật, điển hình trong số đó là thuật toán Weighted-SVM (WSVM)[22]
Weighted-SVM gán các trọng số cho các mẫu huấn luyện để biểu diễn mức
độ ảnh hưởng của các mẫu trong việc huấn luyện mô hình phân lớp TrongWSVM, hàm mục tiêu được biểu diễn như sau:
N
Trang 321 ξ i là tổng lỗi trên các mẫu và C là tham số để kiểm soát sự đánh đổi giữa
độ rộng lề tối đa và tổng lỗi tối thiểu trên các mẫu Giá trị C tốt nhất có thểđược tìm thấy sau khi chạy thử nghiệm trước trên bộ dữ liệu Các trường hợpgiá trị của biến ξ i được minh họa trong hình 1.1 Ngoài ta, lưu ý rằng m i làmột giá trị trọng số phản ánh tầm quan trọng của việc phân lớp chính xác mộtmẫu x i Giá trị trọng số của một mẫu càng lớn thì mẫu đó càng có ảnh hưởngquan trọng trong việc huấn luyện mô hình phân lớp ưu tiên phân lớp chính xácmẫu đó Ngược lại, giá trị trọng số của mẫu càng nhỏ thì ảnh hưởng của mẫuđối với việc tạo ra siêu phẳng phân lớp tối ưu càng nhỏ
Hàm mục tiêu mới ở Công thức (1.2) có hai mục đích, thứ nhất là tối đa hóabên lề, thứ hai là giảm thiểu số lượng mẫu bị phân lớp sai Lưu ý rằng m i là một
Hình 1.1: Các trường hợp của ξ trong Soft-SVM
trọng số phản ánh tầm quan trọng của việc phân loại chính xác mẫu x i Giá trị
Trang 33i i
trọng số của một mẫu càng lớn thì mẫu đó càng quan trọng trong việc tự phânloại chính xác Ngược lại, giá trị trọng số của mẫu càng nhỏ thì ảnh hưởng củamẫu đối với việc tạo ra siêu phẳng riêng tối ưu càng nhỏ
1.2.3 Fuzzy SVM-CIL
Batuwita và các cộng sự đã đề xuất một thuật toán Fuzzy SVM-CIL trongnghiên cứu [24] dựa trên thuật toán Fuzzy SVM được công bố trong nghiêncứu [23] để cải thiện hiệu quả phân lớp cho các tập dữ liệu không cân bằng.Fuzzy SVM-CIL gán trọng số cho các mẫu dựa trên các hàm thuộc mờ theocách ưu tiên các giá trị trọng số cao hơn cho các mẫu thiểu số và các giá trịtrọng số thấp hơn cho các mẫu đa số Các hàm thành viên mờ của các mẫu được
tính toán dựa trên khoảng cách được đo bằng ba phương pháp: (i ) khoảng cách
từ các mẫu đến trung tâm lớp của chúng; (ii ) khoảng cách từ các mẫu đến siêu phẳng ước tính; và (iii ) khoảng cách từ các mẫu đến một siêu phẳng thực tế.
Một mẫu ở xa trung tâm lớp hoặc các siêu phẳng của nó được coi là ít quantrọng hơn và do đó nó được gán bởi một giá trị trọng số mờ nhỏ hơn TrongFSVM-CIL, các hàm thuộc mờ được thiết kế để xác định các giá trị trọng số mờnhằm đáp ứng các mục tiêu chính: giảm ảnh hưởng của sự không cân bằng giữacác lớp dữ liệu; phản ánh tầm quan trọng của các mẫu trong một mô hình đàotạo; và giảm ảnh hưởng của các ngoại lệ và mẫu gây nhiễu FSVM-CIL gán cácgiá trị trọng số mờ cao hơn, được biểu thị bằng m+(i = 1, 2, · · · , N ), cho cácmẫu
thiểu số x+ (được gắn nhãn +1, được gọi là mẫu dương) và các giá trị trọng
số mờ thấp hơn, được biểu thị bằng m−
i (i = 1, 2, · · · , N ), cho các mẫu đa số x−
trong đó f (x i) ∈ (0, 1) là một hàm thuộc mờ phản ánh tầm quan trọng của x i
trong lớp của chính nó, trong khi r+ và r− biểu thị mức độ ảnh hưởng của tỷ lệkhông cân bằng trong tập dữ liệu FSVM-CIL chỉ định r+ = 1 và r− = r, trong
đó r là tỷ lệ không cân bằng giữa tầng lớp thiểu số và tầng lớp đa số và do đó
r < 1 Theo đó, trọng số mờ trên các mẫu dương tính có giá trị trong khoảng
(0, 1), trong khi các mẫu âm tính có giá trị trong khoảng (0, r)
Hàm thuộc mờ f (x i) được xác định dựa trên vị trí của mẫu x i trong không
(1.3)
Trang 34gian đặc trưng R n Theo đó, các mẫu có khoảng cách gần tâm lớp, siêuphẳng
Trang 35+) Dựa trên khoảng cách đến trung tâm lớp riêng:
Trang 36i i
1 +
exp βd
i i
ex p
i i
ex p
li n li
trong đó ∆ là một giá trị dương nhỏ để tránh trường hợp các đại lượng f cen(x i) =
0, f shp(x i) = 0, f hyp(x i) = 0 và β ∈ [0, 1] để kiểm soát độ dốc của các hàm số mũ
f cen(x i), f shp(x i) và f hyp(x i)
1.2.4 Thuật toán AdaBoost
Trong vấn đề phân lớp cho tập dữ liệu không cân bằng hai lớp, sử dụng mộtthuật toán đơn lẻ có thể không xem xét đầy đủ các đặc điểm của tập dữ liệu
Do đó, nhiều nghiên cứu kết hợp các thuật toán phân lớp, được gọi là bộ phân
βd
i
βd
i
Trang 37Thuật toán 1.2: Thuật toán AdaBoost
Input: Tập dữ liệu X = {(x1, y1), , (x N , y N )} với y i = {−1, +1}; M : số
bộ phân lớp thành viên; h1: bộ phân lớp thành viên
Trang 38mô hình phân lớp sau khi huấn luyện H(x) được tổng hợp từ các bộ phân lớp thành viên h t(x).
Nhãn phân lớp của một mẫu x iđược xác định dựa vào của hàm xét dấu
H(x i) = sign(ΣM α t h t(x i)) Cụ thể: gán nhãn +1 khi H(x i) > 0 và nhãn −1
khi H(x i) < 0 Nếu tổng lỗi ε t trên tập dữ liệu bằng 0.5, thì α t = 0, nghĩa là bộ
Trang 39phân lớp h t(x) không đóng góp vào quyết định phân lớp của bộ phân lớp tổng hợp H(x).
1.2.5 Thuật toán CNN
Mạng nơ-ron nhân chập (Convolutional Neural Networks – CNN) là mộtmạng điển hình cho mô hình học sâu lấy cảm hứng từ cấu trúc và chức năng củathị giác con người CNN là một mạng nơ-ron truyền thẳng có nhiều tầng, trong
đó tầng nhân chập (Convolutional Layer) và tầng gộp (Pooling Layer) được sắpxếp hoán đổi lẫn nhau, tầng cuối cùng là một tầng kết nối đầy đủ (Dense Layer).Đặc trưng nổi bật của CNN là trong quá trình tích chập nó sử dụng nhiều bộlọc đặc trưng trượt trên các ma trận điểm dữ liệu để trích xuất các đặc trưngtương ứng của dữ liệu Do đó, sau quá trình tích chập sẽ thu được ma trận cácgiá trị đặc trưng và cần tới tầng gộp để giảm kích thước của đầu ra từ tầng tíchchập, giữ lại các đặc trưng quan trọng và giảm độ phức tạp của mô hình Saucác tầng tích chập và gộp, thông tin được chuyển đến các tầng kết nối đầy đủ
để thực hiện phân loại hoặc dự báo Các nơ-ron trong lớp này kết nối với tất
cả các nơ-ron trong lớp trước đó Tầng tích chập có khả năng học các mẫu cục
bộ (local patterns) trong khi tầng kết nối đầy đủ có thể học các mẫu tổng thể(global patterns) Mô hình phân lớp sử dụng kiến trúc CNN có thể được coi là
sự kết hợp của hai giai đoạn: trích xuất đặc trưng và phân loại Các tầng tíchchập và tầng gộp thực hiện chức năng trích xuất các đặc trưng của dữ liệu Sau
đó, các tầng được kết nối đầy đủ hoạt động như một bộ phân loại trên các đặctrưng này và chỉ định xác suất cho hình ảnh đầu vào thuộc nhãn nào Trongkhi 2D-CNN thường được sử dụng đặc hiệu cho các ứng dụng trong lĩnh vựcthị giác máy tính thì 1D-CNN được thiết kế đặc biệt để hoạt động với dữ liệumột chiều Có thể kể đến một số lợi ích khi sử dụng 1D-CNN so với 2D-CNNnhư độ phức tạp tính toán được giảm xuống đáng kể, kiến trúc mạng nông dễhiểu và dễ triển khai hơn và việc huấn luyện 1D-CNN sử dụng ít tài nguyêntính toán hơn so với 2D-CNN [60] Đã có nhiều nghiên cứu chỉ ra việc áp dụng1D-CNN trong việc giải quyết các bài toán thực tế có dữ liêu một chiều, điểnhình như bài toán phát hiện tấn công mạng [60], phát hiện lỗi trong các thiết
bị công nghiệp [61], dự báo mức nicotin trong việc xây dựng các ứng dụng caithuốc lá [62], phân loại hỗn hợp cá hồi và cá tuyết [63] Kiến trúc của một mạngCNN-1D điển hình được minh họa ở Hình 1.2
Trang 40n samples × m features
abel (+1) abel (-1)
⋯
Input data
Feature extraction Classification
Hình 1.2: Minh họa kiến trúc CNN-1D
1.2.6 Phương pháp Cây quyết định
Cũng giống như SVM, mô hình Cây quyết định (Decision Trees) là các thuậttoán học máy có thể thực hiện công việc phân loại và hồi quy, có tiềm năngnghiên cứu mở rộng, hiệu suất ổn định khi thực hiện học trên các tập dữ liệuphức tạp Trong học máy, mô hình Cây quyết định nhận đầu ra là các giá trị rờirạc trong tập hữu hạn được gọi là cây phân loại (classification trees) Với mụcđích phân loại, các nút lá sẽ biểu diễn các kết quả phân loại của thuật toán, vàcác nhánh thể hiện phép giao giữa các đặc trưng dẫn tới các kết quả đoán nhận
Mô hình huấn luyện Cây quyết định được tóm tắt qua các bước như sau:
Thuật toán 1.3: Thuật toán huấn luyện Cây quyết định
Input: Tập dữ liệu X = {(x1, y1), , (x N , y N )} với y = {−1, +1}
Output: Cây quyết định đã huấn luyện.
1 if nếu tất cả các mẫu thuộc về cùng một lớp then
2 trả về một nút lá với nhãn của lớp đó
3 if nếu không còn đặc trưng nào để phân loại then
4 trả về một nút lá với nhãn là lớp có số lượng mẫu nhiều nhất
5 Đo lường độ tinh khiết của tập dữ liệu hiện tại (gini, entropy, hay error)
6 Chọn đặc trưng tốt nhất để phân loại mẫu
7 Chia dữ liệu thành các tập con dựa trên giá trị của đặc trưng được chọn
8 for đối với mỗi tập con do
9 Gọi đệ quy thuật toán trên tập con đó
10 Gắn nhãn cho nút hiện tại bằng nhãn của nút lá trả về từ đệ quy
11 return DT (x)
Dataset
So ft m ax
L L
Dense layer Output