Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI
Trang 2Công trình được hoàn thành tại:
Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học: PGS.TS Trần Đình Khang
Vào hồi giờ , ngày tháng năm
Có thể tìm hiểu luận án tại:
1 Thư viện Tạ Quang Bửu - ĐHBK Hà Nội
2 Thư viện Quốc gia Việt Nam.
Trang 3MỞ ĐẦU
1 Bối cảnh nghiên cứu
Khái niệm mạng đồng tác giả dùng để miêu tả mối quan hệ hợp tác cùng nghiên cứu giữa các nhàkhoa học Mạng đồng tác giả có thể xem như một mạng xã hội cộng đồng đặc biệt với các nút là cáctác giả, các cạnh thể hiện mối liên kết giữa hai tác giả Các bài toán phổ biến trong mạng đồng tácgiả gồm: (i ) các bài toán truy vấn thông tin như: tìm kiếm, tra cứu tạp chí, bài báo, tác giả, tổ chức,trích dẫn, (ii ) các bài toán dẫn xuất thông tin như: phân tích mối quan hệ học thuật, phân tích xuhướng nghiên cứu, đo lường tầm ảnh hưởng học thuật, đánh giá hiệu quả nghiên cứu và phát triển các
hệ thống dự đoán (bài báo, tạp chí, đồng tác giả, ) Trong thực tế, muốn có các kết quả nghiên cứutốt các nhà nghiên cứu phải tìm kiếm được các cộng sự hợp tác phù hợp Do đó, việc nghiên cứu cácphương pháp để xây dựng một hệ thống dự đoán cộng tác cùng nghiên cứu, gọi là bài toán dự đoáncộng tác đồng tác giả, trở nên cần thiết và có nhiều ý nghĩa trong việc thúc đẩy các hoạt động nghiêncứu khoa học Bài toán dự đoán đồng tác giả được phát biểu như sau:
Dựa trên thông tin kết nối của mạng đồng tác giả đến thời điểm hiện tại t, khi đưa thông tin đầu vào
là một tác giả vi nào đó, hệ thống sẽ đưa ra một danh sách các tác giả vj, vk, vh, có tiềm năng cộngtác hiệu quả với tác giả vi trong tương lai (tức là có sẽ cộng tác ở một thời điểm t’ nào đó sau t)
Để giải quyết bài toán này, có các phương pháp nghiên cứu đề xuất gồm: (i) sử dụng độ đo tươngđồng; (ii) xây dựng các mô hình dựa trên xác suất và khả năng tối đa; (iii) khai phá đồ thị (graphmining); (iv) học máy gồm: phân lớp, phân cụm và học sâu giảm chiều dữ liệu Trong đó, hướng tiếpcận theo dạng phân lớp thu hút nhiều quan tâm nghiên cứu bởi có nhiều ưu điểm như: tích hợp đa dạngthông tin liên kết, khả năng mở rộng linh hoạt trong việc lựa chọn các giải thuật, khả năng điều chỉnh
và cải thiện mô hình thông qua quá trình huấn luyện, Để tiếp cận theo hướng này, sau khi xây dựngmạng đồng tác giả, bộ dữ liệu huấn luyện tạo ra từ mạng được gọi là dữ liệu bảng ứng viên Trong đó,mỗi cặp tác giả ứng viên tiềm năng (vi, vj) được xem như là một mẫu dữ liệu Mức độ liên kết hợp táccủa cặp ứng viên được biểu diễn bởi một véc-tơ thuộc tính, được tính bằng các độ đo liên kết Nhãnlớp được xác định bằng cách khảo sát sự mở rộng liên kết trong mạng theo chiều thời gian
Mạng đồng tác giả được biểu diễn bằng một đồ thị thưa kết nối, do số lượng cặp tác giả có kết nối(cùng đứng tên trong một bài báo) là rất ít, trong khi số lượng cặp ứng viên đồng tác giả chưa cộng tác(cặp ứng viên tiềm năng) là rất nhiều Vì vậy, dữ liệu bảng ứng viên có rất nhiều mẫu nhãn −1 (khôngliên kết) và rất ít mẫu có nhãn +1 (không liên kết), gây ra sự không cân bằng về số lượng mẫu giữa cáclớp Điều này gây thách thức cho các giải thuật học máy truyền thống vì các giải thuật này thường xemxét các mẫu bình đẳng nhau, dẫn đến các mô hình phân lớp thường thiên về dự đoán sai các mẫu thiểu
số (nhãn +1) Có hai phương pháp thường dùng để giải quyết vấn đề này là: tiếp cận ở mức dữ liệu vàtiếp cận ở mức giải thuật Các phương pháp tiếp cận ở mức dữ liệu thay đổi sự phân bố số lượng mẫutrong bộ dữ liệu (resampling) bằng cách sinh thêm các phần tử cho lớp thiểu số (over sampling) haygiảm bớt các phần tử thuộc lớp đa số (under sampling) Các phương pháp tiếp cận ở mức giải thuậthướng tới việc điều chỉnh các thuật toán phân lớp cơ bản để vẫn có hiệu quả cao trên các tập dữ liệukhông cân bằng như: học nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các hằng số phạtcho các nhãn lớp khác nhau Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật sampling và điềuchỉnh trọng số chi phí để nâng cao chất lượng mô hình huấn luyện
Gần đây, luận án Tiến sĩ của Phạm Minh Chuẩn (2018) cũng tiếp cận giải quyết bài toán dự đoánđồng tác giả theo hướng phân lớp, trong đó đề xuất các độ đo liên kết mới để bổ sung thêm các đặctrưng của dữ liệu nhằm nâng cao chất lượng phân lớp của mô hình Bên cạnh đó luận án có nêu ra vấn
đề dữ liệu rất không cân bằng về nhãn lớp trong bảng ứng viên Tiếp nối nghiên cứu này, kết hợp vớikhảo sát các nghiên cứu gần đây, chúng tôi nhận thấy các công bố nghiên cứu vấn đề học máy trên dữliệu không cân bằng để khắc phục đặc điểm này của bộ dữ liệu đồng tác giả hầu như rất hạn chế Điềunày mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiến giải thuật, điều chỉnh các tham số
mô hình để cải thiện chất lượng các mô hình dự đoán trong khung cảnh dữ liệu bảng ứng viên đồng tácgiả có sự không cân bằng về nhãn lớp Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trongcác lớp, để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việc phân loại chính xác trong các
Trang 4vùng không gian nhạy cảm như: mẫu dữ liệu là nhiễu hoặc mẫu dữ liệu phân bố trong không gian ranhgiới phân loại của hai lớp Với những thông tin dữ liệu không đầy đủ, không chắc chắn, phương pháp
xử lý mờ dựa trên lý thuyết mờ của Zadeh đưa ra vào năm 1965 tỏ ra hiệu quả
2 Phạm vi và vấn đề nghiên cứu
Luận án tập trung nghiên cứu bài toán dự đoán đồng tác giả, các thuật toán để phân lớp giải quyếtvấn đề dữ liệu không cân bằng hai nhãn lớp Trọng tâm của luận án là nghiên cứu, đề xuất các thuậttoán nhằm nâng cao chất lượng phân lớp trên các bộ dữ liệu không cân bằng và ứng dụng trong dựđoán đồng tác giả Phạm vi các thử nghiệm sử dụng các độ đo liên kết cơ bản và kế thừa bộ dữ liệu tựthu thập Theo đó, luận án tập trung vào hai mục tiêu nghiên cứu chính:
• Thứ nhất, nghiên cứu cải tiến thuật toán học kết hợp AdaBoost cho dữ liệu không cân bằng ứngdụng trong bài toán dự đoán đồng tác giả? Vấn đề nghiên cứu này hướng đến việc cải tiến thuậttoán học kết hợp mạnh mẽ như AdaBoost để phù hợp cho dữ liệu không cân bằng thông qua việcthiết kế các tham số điều chỉnh thích nghi với mức độ không cân bằng của dữ liệu
• Thứ hai, nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệu không cân bằng vàứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề nghiên cứu này hướng tới việc áp dụng điềuchỉnh các trọng số đại lượng mờ kết hợp với giải thuật học dựa trên chi phí, giúp huấn luyện các
mô hình phân lớp hiệu quả hơn khi dữ liệu có sự không cân bằng cao về nhãn lớp và các trườnghợp dữ liệu nhạy cảm như gần đường biên phân lớp hoặc là dữ liệu nhiễu
độ không cân bằng mẫu trong tập dữ liệu và (2) phương pháp tính trọng số độ tin cậy cho bộphân lớp thành viên nhạy cảm với tổng lỗi trên mẫu nhãn dương Các kết quả nghiên cứu này đãđược công bố trong 2 bài báo số [CT.1] và [CT.3]
• Luận án đề xuất một thuật toán điều chỉnh trọng số mờ thích nghi cho bài toán dự đoán cộng tácđồng tác giả theo dạng học trên dữ liệu không cân bằng hai lớp Thuật toán đề xuất có hai cảitiến chính: (1) xây dựng một hàm tính trọng số mờ cho các mẫu dữ liệu giàu ngữ nghĩa hơn dựatrên Fuzzy SVM-CIL khi xem xét khoảng cách từ mỗi mẫu đến tâm của cả hai lớp; (2) phươngpháp điều chỉnh thích nghi các giá trị trọng số mờ của mẫu nằm trong không gian phân lớp nhạycảm như trên đường biên hoặc mẫu là nhiễu dựa trên KNN, Tomek link và SVM Các kết quảnghiên cứu này đã được công bố các bài báo số [CT.2][CT.4][CT.5]
4 Bố cục của luận án
Với các đóng góp nêu trên, luận án được trình bày trong 3 chương:
• Chương 1: Trình bày các kiến thức tổng quan về đề tài: giới thiệu bài toán phân lớp với dữ liệukhông cân bằng, bài toán dự đoán đồng tác giả theo dạng bài toán phân lớp, các thuật toán cơ
sở, các bộ dữ liệu thử nghiệm, môi trường thử nghiệm làm cơ sở cho các đề xuất và thử nghiệm ởcác chương tiếp theo
• Chương 2: Trình bày đề xuất một số phương pháp cải tiến giải thuật AdaBoost cho bài toán dữliệu không cân bằng, ứng dụng cho dự đoán cộng tác đồng tác giả
• Chương 3: Trình bày đề xuất một giải thuật trọng số mờ thích nghi nhằm giải quyết vấn đề dữliệu không cân bằng và xử lý vấn đề phân lớp cho các mẫu nhạy cảm ở vùng biên hoặc nhiễu chobài toán dự đoán cộng tác đồng tác giả
Với các chương này, luận án đã trình bày đầy đủ các kiến thức nền tảng và chi tiết nội dung giảipháp cho các câu hỏi nghiên cứu giúp giải quyết hiệu quả các thách thức nêu ra
Trang 5Chương 1
TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
Chương này giới thiệu phương pháp tiếp cận phân lớp để giải quyết bài toán dự đoán đồng tác giả
và những kiến thức nền tảng liên quan đến việc giải quyết vấn đề học trên dữ liệu không cân bằng
1.1 Bài toán phân lớp với dữ liệu không cân bằng
Bài toán phân lớp trên dữ liệu không cân bằng là một vấn đề thách thức trong học máy Để giảiquyết vấn đề học trên dữ liệu không cân bằng có hai hướng giải quyết chính: tiếp cận mức dữ liệu vàtiếp cận mức giải thuật Các phương pháp tiếp cận mức dữ liệu sử dụng các kỹ thuật can thiệp vào bộ
dữ liệu gốc (ReSampling) để tạo ra bộ dữ liệu huấn luyện có tỷ lệ phân bố mẫu cân bằng hơn, từ đólàm cơ sở cho các giải thuật phân lớp truyền thống hoạt động hiệu quả hơn Kỹ thuật ReSampling cóthể sinh thêm các phần tử cho lớp thiểu số như Random Oversampling, SMOTE, Border-line-SMOTE,ADA-SYN, Cluster Based Sampling-CBO, SMOTEBoost, OSD hay giảm bớt các mẫu lớp đa số nhưEasyEnsemble, BalanceCascade, KNN-NearMiss, Các phương pháp tiếp cận ở mức giải thuật hướngtới việc điều chỉnh các thuật toán phân lớp như: học dựa trên nhạy cảm chi phí, điều chỉnh xác suất ướclượng, sử dụng Boosting như AdaC1, AdaC2, AdaC3, Cây quyết định, sử dụng các hàm kernel SVM, sửdụng kỹ thuật học sâu, Các phương pháp cải tiến dựa trên AdaBoost, SVMs và học sâu thu hút rấtnhiều sự quan tâm bởi khả năng tùy biến cho các bài toán có dữ liệu có tính chất khác nhau, nổi bậtnhư là Weighted-SVM, Kernel-SVM, đặc biệt là Fuzzy SVM, Fuzzy SVM-CIL Bên cạnh đó, một vấn
đề chung để nâng cao chất lượng mô hình phân lớp là cần phân lớp chính xác trong các vùng không giannhạy cảm như: mẫu dữ liệu là nhiễu hoặc mẫu dữ liệu nằm trong không gian ranh giới phân lớp Để xácđịnh các vùng không gian chứa các mẫu nhạy cảm, chúng ta cần sử dụng phương pháp đo lường khoảngcách giữa các mẫu hoặc xem xét phân bố các mẫu Các giải thuật như K-nearest neighbors (KNN) vàTomek link và SVM cho phép định vị các mẫu trong không gian phân bố Ngoài ra, với những thôngtin dữ liệu không đầy đủ, không chắc chắn, phương pháp xử lý mờ dựa trên lý thuyết mờ của Zadehđưa ra vào năm 1965 tỏ ra hiệu quả
1.2 Một số thuật toán liên quan
1.2.1 Thuật toán SVM
SVM đã được nghiên cứu, thử nghiệm và chứng minh là một phương pháp phân lớp mạnh, đặc biệthiệu quả đối với các dữ liệu phân biệt tuyến tính Ngoài ra, giải thuật cũng khá mềm dẻo và có khảnăng cải tiến mở rộng để đạt hiệu quả cao trên những bộ dữ liệu có đặc tính khác nhau Đối với vấn đềphân lớp nhị phân, với tập dữ liệu D = {(xi, yi)|i = 1, 2, · · · , N }, trong đó xi ∈ Rn đại diện cho mộtđiểm dữ liệu n chiều và yi ∈ {−1, +1} là nhãn lớp của xi Mục tiêu của thuật toán SVM là tìm ra mộtsiêu phẳng phân tách các điểm dữ liệu này thành hai lớp trong không gian đặc trưng Rn Hàm mụctiêu cần tối ưu cho siêu phẳng phân tách trong không gian đặc trưng Rn được biểu thị bằng:
trong đó ω là ma trận tham số, b là hệ số
1.2.2 Thuật toán Weighted-SVM
Giải thuật Weighted-SVM (WSVM) là một cải tiến nổi bật của SVM Với tập dữ liệu D ={(xi, yi)|i = 1, 2, · · · , N }, trong đó xi ∈ Rn là véc-tơ đặc trưng n chiều và yi ∈ {−1, +1} là nhãnlớp của xi WSVM gán các trọng số cho các mẫu để biểu thị ảnh hưởng của mẫu trong việc huấn luyện
mô hình phân lớp Hàm mục tiêu như sau
min1
2∥ω∥
2+ C
NXi=1
miξi,
st yi∗ (⟨ω, xi⟩ + b) ≥ 1 − ξi, ξi ≥ 0, with i = 1, 2, , N,
(1.2)
Trang 6trong đó các biến ξi > 0 đại diện cho mức độ “phân loại sai ” của các mẫu, Ni=1ξi là tổng lỗi trên cácmẫu và C là tham số để kiểm soát sự đánh đổi giữa độ rộng lề tối đa và tổng lỗi tối thiểu trên các mẫu.Lưu ý rằng mi là một trọng số phản ánh tầm quan trọng của việc phân loại chính xác mẫu xi Giá trịtrọng số của một mẫu càng lớn thì mẫu đó càng quan trọng trong việc tự phân loại chính xác.
flincen(xi) = 1 − d
cen i
dhypi
+ ∆
trong đó ∆ là một giá trị dương nhỏ để tránh trường hợp flincen(xi) = 0, flinshp(xi) = 0, flinhyp(xi) = 0 và
β ∈ [0, 1] để kiểm soát độ dốc của các hàm số mũ fexpcen(xi), fexpshp(xi) và fexphyp(xi)
1.2.4 Thuật toán AdaBoost
Thuật toán AdaBoost do Freund đề xuất là một bộ phân lớp mạnh dựa trên sửa lỗi, thích nghiqua các vòng lặp Các bước của thuật toán AdaBoost được trình bày trong Thuật toán 1.1 Cụ thể,AdaBoost có dữ liệu đầu vào bao gồm: (i ) X là tập dữ liệu gồm N mẫu (xi, yi), trong đó xi là vectơthuộc tính và yi∈ {−1, +1} là nhãn lớp của xi; (ii ) M là số lần lặp tối đa; và (iii ) htlà một bộ phân lớpthành viên Đầu tiên thuật toán gán một tập các trọng số lỗi bằng nhau D1 = {wi1= N1} cho mỗi mẫu
xi ∈ X Trong mỗi lần lặp, bộ phân lớp ht sẽ phân loại tập dữ liệu X (dòng 3) Chất lượng phân lớpcủa ht được đánh giá thông qua tổng lỗi εt(dòng 4) và trọng số tin cậy αt(dòng 5) Sau đó, thuật toáncập nhật lại phân bố trọng số lỗi ωt+1i (dòng 6) Cuối cùng, một mô hình phân lớp tổng hợp được tính
Trang 7Thuật toán 1.1: Thuật toán AdaBoost
Input: Tập dữ liệu X = {(x 1 , y1), , (xN, yN)} với yi = {−1, +1}; M : số bộ phân lớp thành viên; h1:
6 Cập nhật trọng số lỗi cho vòng lặp tiếp theo: ωt+1i = ωt.exp[−αt y i h t (x i )]
L t , với Ltlà hệ số chuẩn hóa sao cho P N
i=1 ωit+1= 1;
7 return H(x) = sign( P M
t=1 α t h t (x)).
toán theo công thức H(x) = sign(PM
t=1αtht(x)) Nhãn phân lớp của mẫu được xác định dựa vào hàm
ký hiệu: nhãn +1 khi H(x) > 0 và nhãn −1 khi H(x) < 0 Nếu tổng lỗi εt trên tập dữ liệu bằng 0.5,thì αt= 0, nghĩa là bộ phân lớp ht(x) không đóng góp vào quyết định phân lớp của bộ phân lớp tổnghợp H(x)
1.2.5 Thuật toán CNN
Mạng nơ-ron nhân chập (Convolutional Neural Networks – CNN) là một mạng điển hình cho môhình học sâu lấy cảm hứng từ cấu trúc và chức năng của thị giác con người CNN là một mạng nơ-rontruyền thẳng có nhiều tầng, trong đó tầng nhân chập (Convolutional Layer) và tầng gộp (Pooling Layer)được sắp xếp hoán đổi lẫn nhau, tầng cuối cùng là một tầng kết nối đầy đủ (Dense Layer) Đặc trưngnổi bật của CNN là trong quá trình tích chập nó sử dụng nhiều bộ lọc đặc trưng trượt trên các matrận điểm dữ liệu để trích xuất các đặc trưng tương ứng của dữ liệu Trong khi 2D-CNN thường được
sử dụng đặc hiệu cho các ứng dụng trong lĩnh vực thị giác máy tính thì 1D-CNN được thiết kế đặc biệt
để hoạt động với dữ liệu một chiều Có thể kể đến một số lợi ích khi sử dụng 1D-CNN so với 2D-CNNnhư độ phức tạp tính toán được giảm xuống đáng kể, kiến trúc mạng nông dễ hiểu và dễ triển khai hơn
và việc huấn luyện 1D-CNN sử dụng ít tài nguyên tính toán hơn so với 2D-CNN Đã có nhiều nghiêncứu chỉ ra việc áp dụng 1D-CNN trong việc giải quyết các bài toán thực tế có dữ liêu một chiều, điểnhình như bài toán phát hiện tấn công mạng, phát hiện lỗi trong các thiết bị công nghiệp, dự báo mứcnicotin trong việc xây dựng các ứng dụng cai thuốc lá, phân loại hỗn hợp cá hồi và cá tuyết
1.2.6 Phương pháp Cây quyết định
Cây quyết định hoạt động bằng cách phân chia không gian đặc trưng thành các phần con, mỗi phầnđược gán một nhãn hoặc giá trị dự đoán Quá trình này được thực hiện thông qua các quyết định dựatrên các đặc trưng của dữ liệu Cây quyết định được tạo ra, trong đó mỗi nút trong cây đại diện chomột quyết định dựa trên giá trị của một thuộc tính Thuật toán bắt đầu bằng việc chọn thuộc tính tốtnhất để phân chia tập dữ liệu Thuộc tính tốt nhất là thuộc tính có khả năng phân chia tập dữ liệuthành các phần con sao cho sự thuần khiết nhất của mỗi phần con là cao nhất Quá trình phân chiađược lặp lại cho mỗi nhóm con cho đến khi một điều kiện dừng được đáp ứng, chẳng hạn như đạt đượcmột độ sâu cố định của cây hoặc không còn khả năng phân chia tốt hơn
1.2.7 K-nearest neighbors và Tomek link
Thuật toán KNN xem xét nhãn lớp của K điểm gần nhất với dữ liệu cần phân lớp để quyết địnhnhãn cho mẫu cần phân lớp Việc tìm khoảng cách giữa hai điểm dữ liệu thường sử dụng các độ đo như:Euclidean, Manhattan, Minkowski, Hamming
Thuật toán Tomek link là một phương pháp trong lĩnh vực xử lý dữ liệu không cân bằng trong họcmáy và khai phá dữ liệu Giải thuật Tomek link xác định các cặp gồm hai mẫu thuộc hai lớp khác nhauvới khoảng cách ngắn nhất (TLP) Giả sử Smin và Smaj lần lượt là tập hợp các mẫu đa số và thiểu
số, và d(xi, xj) là khoảng cách giữa xi ∈ Smin và xj ∈ Smaj Cặp (xi, xj) được gọi là TLP nếu khôngtồn tại xk sao cho d(xi, xk) < d(xi, xj) hoặc d(xj, xk) < d(xi, xj) Bằng cách loại bỏ hoặc giảm thiểu
Trang 8Bảng 1.1: Các độ đo liên kết trong mạng đồng tác giả
a) Các độ đo liên kết dựa trên hàng xóm
vk∈Γ(vi)∩Γ(vj) SW (v k , v i , v j )
những TLP này, thuật toán cố gắng làm cho không gian đặc trưng trở nên rõ ràng và tăng cường khảnăng phân loại của mô hình
1.3 Bài toán dự đoán đồng tác giả
1.3.1 Mô hình hóa bài toán
Mạng đồng tác giả được mô hình hóa dưới dạng đồ thị GT với bốn yếu tố đặc trưng GT =(VT, ET, PT, T ), trong đó (i ) T = {t1, t2, , tk} là một tập hợp các nhãn thời gian; (ii ) VT ={v1, v2 , vN} là tập hợp các đỉnh đại diện cho các tác giả xuất hiện trong bài báo tại một thời điểmnào đó trong T ; (iii ) PT = {p1, p2, , pM} là tập hợp các bài báo tại một thời điểm nào đó trong T ;
và (iv ) ET = {vi, vj, pk, th} là tập hợp các liên kết giữa các tác giả tại một thời điểm nào đó trong T ,trong đó hai tác giả (vi, vj) ∈ VT × VT có viết chung một bài báo pk∈ PT tại thời điểm th∈ T Ngoài
ra, đỉnh VT có thể chứa các thông tin bổ sung của từng tác giả như thông tin quốc tịch, mối quan hệcộng đồng, chủ đề nghiên cứu Tập các thuộc tính này được ký hiệu là AT = {a1, a2, , aN}, trong đó
ai là một vectơ đặc trưng chứa thông tin về cặp tác giả/đỉnh (vi, vj) ∈ VT × VT Các độ đo sự tươngđồng giữa hai tác giả chủ yếu được xây dựng dựa trên thông tin của các tập ET và AT Có hơn 27
độ đo liên kết được xây dựng dựa vào sự xem xét các đặc tính tương đồng cục bộ và tương đồng toàncục Trong luận án này chỉ trình bày một số độ đo phổ biến thuộc ba nhóm chính như sau: (i) Độ đoliên kết dựa trên hàng xóm: Common Neighbor (CN ), Adamic Adar (AA), Jaccard Coefficient (J C),Preferential Attachment (P A) và Resource Allocation (RA); (ii) Các độ đo liên kết dựa trên đườngdẫn: Shortest Path và Katz; (iii) Các độ đo liên kết dựa trên thông tin cá nhân bổ sung: độ tương tự
về công việc SimWork (SW ) và về địa lý quốc gia CommonCountry (CC) Các độ độ được xác địnhbằng các công thức trong Bảng1.1
Bài toán dự báo dự báo liên kết đồng tác giả được diễn giải như sau: cho hai khoảng thời gian [t0, t′0],
và [t1, t′1] thỏa mãn t0 < t1 Dựa trên cấu trúc mạng quan sát được tại thời điểm [t0, t′0], ta sẽ dự đoáncác liên kết mới sẽ xuất hiện trong thời gian [t1, t′1] mà chưa xuất hiện trong khoảng thời gian đượcquan sát Các liên kết mới được dự đoán tương ứng với việc cặp tác giả của liên kết đó có khả năng hợptác mới trong tương lai
1.3.2 Phương pháp phân lớp cho bài toán dự đoán đồng tác giả
Bộ dữ liệu học máy cho bài toán dự đoán đồng tác giả được gọi là bảng ứng viên đồng tác giả, gọitắt là bảng ứng viên Giả sử chúng ta dùng một lát cắt thời gian t∗, gọi các nhãn thời gian từ thời điểm
t∗ trở về trước là tập T1, gọi các nhãn thời gian sau thời điểm t∗ là tập T2 Khi đó t∗ sẽ chia khônggian mạng đồng tác giả GT thành hai mạng con là GT 1 và GT 2 Xét theo tiến trình thời gian, mạng
GT2 chính là các mối liên kết mới chưa từng xuất hiện trong GT1 Để xây dựng bộ dữ liệu học máy cho
Trang 9Bảng 1.2: Bảng ứng viên đồng tác giả
(v i , v j ) (CN, AA, J C, P A, RA, ShortestP ath, Kazt, CommCountry) (−1/ + 1)
1 (v 1 , v 2 ) {X1 CN , X1 AA , X1 J C , X1 P A , X1 RA , X1 ShortestP ath , X1 Kazt , X1 CommCountry } +1
2 (v 1 , v 3 ) {X2 CN , X2 AA , X2 J C , X2 P A , X2 RA , X2 ShortestP ath , X2 Kazt , X2 CommCountry } −1
3 (v 1 , v 4 ) {X3 CN , X3 AA , X3 J C , X3 P A , X3 RA , X3 ShortestP ath , X3 Kazt , X3 CommCountry } −1
bài toán, chúng ta cần xác định mẫu dữ liệu (cặp ứng viên), tính toán véc-tơ đặc trưng và gán nhãn dữliệu Cặp ứng viên (vi, vj) là cặp tác giả có khả năng cộng tác nghiên cứu trong tương lai Véc-tơ đặctrưng cho mẫu (vi, vj) được xác định bởi các độ đo liên kết cho cặp tác giả (vi, vj) sử dụng thông tintrong GT1 Xác định nhãn cho mẫu (vi, vj) sử dụng thông tin trong GT2 để gán nhãn cho mẫu dựa trênviệc xem xét việc có sự cộng tác thực sự của vi và vj trong T2 hay không Nếu vi và vj có viết chungbài báo thì gán nhãn +1 , nếu không cộng tác thì gán nhãn −1 Dữ liệu bảng ứng viên đồng tác giả cócấu trúc được minh họa trong Bảng 1.2trở thành bộ dữ liệu học máy hai nhãn lớp
Một cách trực quan, chúng ta có thể coi bảng dữ liệu ứng viên là một tập mẫu dữ liệu đồng tác giảvới đầy đủ các thuộc tính và nhãn lớp Do đó, bài toán dự đoán đồng tác giả được chuyển thành bàitoán phân lớp trên tập dữ liệu hai nhãn lớp, trong đó một lớp được gắn nhãn là +1 để biểu thị sự hợptác trong tương lai và lớp còn lại được gắn nhãn là −1 để biểu thị không có sự hợp tác trong tương lai.Lược đồ mô tả các bước thực hiện để xây dựng mô hình gợi ý cộng tác đồng tác giả được trình bàytrong Hình 1.1
Hình 1.1: Mô hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp
Trong thực tế, mạng đồng tác giả có sự thưa về kết nối, bởi vì số lượng cặp tác giả có kết nối(cùngđứng tên trong một bài báo) là rất ít hơn nhiều so với số lượng cặp ứng viên đồng tác giả chưa cộngtác (cặp ứng viên tiềm năng) Theo đó, bảng ứng viên sẽ là một bộ dữ liệu có rất nhiều mẫu nhãn −1
và rất ít mẫu có nhãn +1, gây ra sự không cân bằng về số lượng mẫu giữa các lớp
1.4 Tập dữ liệu thử nghiệm và phương pháp thực nghiệm đánh giá
Dữ liệu được thu thập từ ScienceDirect trên 3 tạp chí: Chemical Physics Letters, Journal of MolecularBiology và Biochemical and Biophysical Research Communications từ năm 2000 đến hết năm 2017.Thông tin bao gồm: ID, tiêu đề, tóm tắt, từ khóa và danh sách tác giả Từ dữ liệu đã thu thậpđược, chúng tôi lựa chọn các khung thời gian T1, T2 khác nhau để tiến hành xây dựng dữ liệu bảngứng viên đồng tác giả bao gồm các độ đo liên kết và gán nhãn Để đánh giá hiệu suất của thuậttoán một cách tổng quát, chúng tôi sử dụng kỹ thuật lấy mẫu ngẫu nghiên trên tập dữ liệu lớn đểtạo ra các bộ dữ liệu con có kích thước mẫu và tỷ lệ không cân bằng khác nhau Các thử nghiệmcũng mở rộng trên các bộ dữ liệu lưu trữ bởi UCI như: Transfusion, Ecoli, Yeast và Abalone Các kếtquả thử nghiệm được đo lường đánh giá bằng các độ đo phổ biến trong học trên dữ liệu không cân
Trang 10bằng như SE, SP, AU C, G − mean, F 1 − Score Trong đó, tập trung phân tích ở 3 độ đo quan trọng
SE, G − mean, AU C khi xem xét bài toán phân lớp với dữ liệu không cân bằng Số liệu được trình bày
đa dạng ở dạng bảng và biểu đồ để phân tích so sánh mô hình với các khía cạnh khác nhau Tất cả cácthử nghiệm cài đặt thuật toán trong luận án được thực hiện trên máy tính xách tay có cấu hình chínhnhư sau CPU Core i7-8550U 1,8 GHz, RAM 16 GB, SSD 256GB chạy trên hệ điều hành Windows 11.Phiên bản phần mềm sử dụng là Anaconda 2022, PyThon 3.11 và các thư viện hỗ trợ Các kịch bản thửnghiệm được thiết kế phù hợp với mục đích so sánh các phương pháp đa dạng với nhau, nhằm đánh giámột cách công bằng hiệu quả của phương pháp đề xuất trong từng trường hợp cụ thể
1.5 Kết luận chương 1
Chương 1 đã giới thiệu về bài toán phân lớp dữ liệu không cân bằng và các thuật toán cơ sở thườngđược áp dụng để giải quyết vấn đề như SVM, WSVM, FSVM, FSVM-CIL, AdaBoost, 1D-CNN, Câyquyết định, KNN, Tomek link Bên cạnh đó chương cũng trình bày cách mô hình hóa bài toán dự đoánđồng tác giả theo phương pháp phân lớp trên dữ liệu không cân bằng của bảng ứng viên đồng tác giả.Các phương pháp đánh giá thực nghiệm, môi trường thử nghiệm và bộ dữ liệu thử nghiệm cũng đượctrình bày nhằm phục vụ cho việc đánh giá hiệu quả của các đề xuất cải tiến thuật toán trong Chương 2
và Chương 3
Trang 11để giải quyết bài toán phân lớp dữ liệu không cân bằng nói chung và bài toán dự đoán đồng tác giả khitiếp cận theo dạng phân lớp nói riêng Các thử nghiệm trên bộ dữ liệu đồng tác giả có các kích thước
và tỷ lệ không cân bằng khác nhau được thực hiện để đánh giá hiệu suất của thuật toán
2.1 Đặt vấn đề
Nhắc lại thuật toán AdaBoost trong Thuật toán 1.1, chúng ta thấy rằng AdaBoost gán trọng số lỗikhởi tạo ωti cho mỗi mẫu dữ liệu là bằng nhau Tức là xem xét mức độ quan trọng của các mẫu trongviệc huấn luyện mô hình là như nhau Tuy nhiên với bài toán dữ liệu không cân bằng cần phải gántrọng số lỗi cho các nhãn dương +1 là cao hơn các mẫu âm −1, để điều chỉnh việc huấn luyện mô hìnhphân lớp được tốt cho các nhãn dương +1 Hơn nữa, nếu mức độ không cân bằng càng cao (tỷ lệ nhãndương +1 trong tập mẫu càng nhỏ) thì cần gán trọng số lỗi khởi tạo càng cao, theo hướng tỷ lệ nghịchvới mức độ không cân bằng Ngoài ra, kết quả mô hình phân lớp cuối cùng H(x) được tổng hợp từ kếtquả của các bộ phân lớp thành viên ht(x), trong đó sử dụng một trọng số αtmang ý nghĩa là độ tin cậycủa mỗi bộ phân lớp thành viên ht(x) Trọng số αt được tính dựa trên một hàm nghịch đảo của tổnglỗi trên toàn bộ tập dữ liệu εt, mà không xem xét chất lượng phân lớp của bộ phân lớp thành viên trênmẫu +1 hay −1 Nghĩa là độ tin cậy αt của bộ phân lớp thành viên ht(x) không phân biệt được việc
ht(x) phân lớp sai nhiều trên các mẫu nhãn âm hay sai nhiều trên các mẫu nhãn dương Trong trườnghợp dữ liệu không cân bằng, chúng ta có thể phân tích kỹ hơn các tổng lỗi trên từng mẫu nhãn dương+1 và nhãn âm −1 để đưa ra trọng số độ tin cậy của bộ phân lớp thành viên hợp lý hơn, từ đó giántiếp tạo ảnh hưởng đến kết quả của mô hình phân lớp tổng hợp H(x)
2.2 Đề xuất thuật toán Im.AdaBoost
2.2.1 Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân bằngLuận án đề xuất một phương pháp mới để khởi tạo trọng số lỗi nhằm thích nghi tốt hơn với tỷ lệkhông cân bằng dữ liệu bằng cách ưu tiên gán trọng số lỗi ban đầu cao hơn cho các mẫu nhãn dương.Giả sử rằng Nmin và Nmaj lần lượt là số lượng mẫu nhãn dương và nhãn âm (nghĩa là số lượng mẫucủa nhóm thiểu số và đa số), trong đó Nmin+ Nmaj = N và Nmin ≤ Nmaj Việc điều chỉnh trọng số lỗibằng cách tăng một lượng ∆min vào trọng số mẫu +1 và giảm một giá trị ∆maj của trọng số lỗi mẫunhãn −1 Theo đó, trọng số lỗi ωi1(i = 1, 2, N )) của mỗi mẫu (xi, yi) ∈ X được xác định như sau:
ωi1 =
( 1
N + ∆min, nếu yi= +1,1
trong đó ∆min và ∆maj phải thỏa mãn hai điều kiện sau:
1 Trọng số lỗi lớn hơn 0 và nhỏ hơn N1, hoặc
Trang 12Xem xét Eq (2.3) kết hợp với Nmin+ Nmaj = N , chúng ta có:
Nmin+ Nmaj
hoặc
Gọi tỷ lệ giữa số mẫu nhãn dương với số mẫu nhãn âm là δ = Nmin
N maj, trong đó 0 < δ ≤ 1, từ biểuthức (2.5), ta có:
N − ∆maj = N1 −1−δ
Khi áp dụng phương trình Eq (2.8) cho các bộ dữ liệu có tỷ lệ không cân bằng khác nhau, trọng sốlỗi của các mẫu dương có xu hướng tăng lên, trong khi trọng số lỗi của các mẫu âm có xu hướng giảmxuống, tùy thuộc vào giá trị của δ = Nmin
N maj Khi tập dữ liệu được cân bằng, nghĩa là δ = 1, ∆min = 0
và ∆maj = 0, các trọng số khởi tạo D1 trong phương pháp đề xuất trở về như của D1 trong AdaBoos(đều bằng N1) Ngoài ra, để điều khiển mức độ điều chỉnh các giá trị ∆min và ∆maj theo các đặc điểmriêng của bộ dữ liệu, luận án đề xuất một công thức tổng quát hơn sử dụng tham số mũ θ như sau:
∆maj = (1−δ)N θ,
Đối với mỗi bộ dữ liệu cụ thể, chúng ta có thể tìm thấy giá trị tốt nhất của θ thông qua quá trình thửnghiệm trên một tập hợp các giá trị đã cho Cải tiến này làm cho AdaBoost trở nên khái quát hơn trêncác bộ dữ liệu có tỷ lệ không cân bằng khác nhau
2.2.2 Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy cảm với nhãndương
Xem xét dòng 5 của giải thuật AdaBoost, trọng số tin cậy αt của bộ phân lớp thành viên ht đượctính bằng một hàm tỷ lệ nghịch với tổng lỗi εt trên các mẫu bị phân lớp sai Đối với vấn đề phân lớptrên tập dữ liệu không cân bằng, thuật toán cần ưu tiên gán trọng số lỗi cao khi nó phân lớp sai nhiềumẫu nhãn dương Vì thế luận án đề xuất phân tích tổng lỗi εt được tính theo hai thành phần tổng lỗicủa các mẫu +1, được ký hiệu là ε+t và của các mẫu −1, được ký hiệu là bởi ε−t , tức là:
Trang 13Vì 0 < ε−t + ε+t < 1 nên luận án chọn γ = 2 − (ε−t + ε+t ) Sau đó, trọng số tin cậy αtcủa bộ phân lớpthành viên ht trong AdaBoost bằng phương pháp được đề xuất trở thành:
α∗t = 1
2ln
1 − ε∗t
Ngoài ra, để hàm ln() trong Công thức (2.13) thỏa mãn điều kiện xác định, thì ε∗t phải thỏa mãn
0 < ε∗t < 1 Với các điều kiện ràng buộc của hệ số γ như vậy, luận án đề xuất một giá trị hệ số γ nhưsau:
ra tổng lỗi ít hơn trên các mẫu nhãn dương, tức là ht cố gắng phân lớp chính xác nhiều nhất các mẫumẫu nhãn dương
2.2.3 Mô tả giải thuật Im.AdaBoost
luận án gọi giải thuật kết hợp hai phương pháp đề xuất trong phần2.2.1và phần2.2.2là giải thuậtIm.AdaBoost Ngoài ra luận án cũng đề xuất sử dụng WSVM như là bộ phân lớp thành viên được gọi
là Im.AdaBoost.WSVM Thuật toán Im.AdaBoost.WSVM được trình bày trong Thuật toán2.1 Cũnglưu ý rằng, ngoài WSVM chúng ta có thể lựa chọn kết hợp Im.AdaBoost với các giải thuật khác nhưDecisionTree, SVM, KNN, làm bộ học phân lớp thành viên
Thuật toán 2.1: Thuật toán Im.AdaBoost.WSVM
Input: Tập dữ liệu X = {(x 1 , y 1 ), , (x N , y N )} có N mẫu; M : số bộ phân lớp thành viên; h 1 : bộ phân
lớp thành viên; C: tham số điều chỉnh WSVM.
Output: H(x): Mô hình phân lớp tổng hợp.
5 tính tổng lỗi gây ra bởi h t : ε∗t (sử dụng Công thức ( 2.12 ));
6 tính trọng số tin cậy của h t : α∗t (sử dụng Công thức ( 2.13 ));
và Im.AdaBoost.SVM Hai nhóm thử nghiệm bao gồm:
1 Thử nghiệm trên các bộ dữ liệu UCI: thực hiện trên 4 bộ dữ liệu có tỉ lệ không cân bằng khácnhau gồm: Transfusion, Ecoli, Yeast và Abalone
2 Thử nghiệm cho bài toán dự đoán đồng tác giả: thực hiện trên các bộ dữ liệu đồng tác giả tự thuthập và xây dựng cho bài toán dự đoán đồng tác giả Mô tả chi tiết về các bộ dữ liệu đồng tác giảđược trình bày ở Bảng 2.2