Cải tiến thuật toán phân lớp Im.AdaBoost.WSVM cho bài toán dự đoán đồng tác giả

MỤC LỤC

CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ LIỆU KHÔNG CÂN BẰNG

Tuy nhiên với bài toán có dữ liệu không cân bằng giữa các lớp như bài toán dự đoán cộng tác đồng tác giả (tỷ lệ các mẫu +1 đại diện cho có. khả năng liên kết của cặp ứng viên trong bảng ứng viên là rất ít, chỉ khoảng 2%) cần phải gán trọng số lỗi chi phí cho các nhãn dương +1 cao hơn trọng số lỗi cho các mẫu âm −1. Do đó, trong các thử nghiệm sau đây, luận án không chỉ so sánh hiệu suất phân lớp của thuật toán đề xuất Im.AdaBoost.WSVM với các thuật toán phân lớp phổ biến như Cây quyết định (DecisionTree) [84], CNN [53], SVM [21], WSVM [22], Ad- aBoost.DecisionTree [42], AdaBoost.SVM [44], AdaBoost.WSVM [80], mà còn so sánh với các thuật toán Im.AdaBoost.DecisionTree và Im.AdaBoost.SVM trên cả các bộ dữ liệu UCI và các bộ dữ liệu đồng tác giả đã thu thập từ nguồn dữ liệu trong thực tế. Thử nghiệm UCI-2: đánh giá so sánh hiệu suất của thuật toán đề xuất Im.AdaBoost.WSVM với các thuật toán phân lớp CNN, Cây quyết định, SVM, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, AdaBoost.WSVM, Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM trên các tập dữ liệu Trans- fusion, Ecoli, Yeast và Abalone.

Thử nghiệm ĐTG-3: đánh giá so sánh hiệu suất của thuật toán đề xuất Im.AdaBoost.WSVM với các thuật toán phân lớp CNN, Cây quyết định, SVM, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, AdaBoost.WSVM, Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM trên các tập dữ liệu có kích thước vừa trong Nhóm II. Thử nghiệm ĐTG-4: đánh giá so sánh hiệu suất của thuật toán đề xuất Im.AdaBoost.WSVM với các thuật toán phân lớp CNN, Cây quyết định, SVM, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, AdaBoost.WSVM, Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM trên các tập dữ liệu có kích thước lớn hơn trong Nhóm III. • Kết quả phân lớp trên tập dữ liệu có tỷ lệ mẫu dương +1 thấp (2%), nghĩa là tỷ lệ không cân bằng mẫu ở mức cao, tất cả các thuật toán SVM, CNN, WSVM, AdaBoost.DecisionTree và AdaBoost.WSVM đã phân lớp sai toàn bộ các mẫu dương +1, thể hiện qua độ đo SE = 0, trong khi Im.AdaBoost.SVM lại phân lớp sai tất cả các mẫu âm −1 vì SP = 0.

• Khi sử dụng các thuật toán phân lớp thành viên bao gồm Cây quyết định, SVM và WSVM cho Im.AdaBoost tạo thành các thuật toán tương ứng Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và Im.AdaBoost.WSVM, các thuật toán này đều cho giá trị Gmean, AU C và SE cao hơn tương ứng so với khi kết hợp với thuật toán AdaBoost gốc (bao gồm Ad- aBoost.DecisionTree, AdaBoost.SVM và AdaBoost.WSVM) trên toàn bộ 7 tập dữ liệu. • Đánh giá hiệu quả của thuật toán cải tiến Im.AdaBoost so với thuật toán AdaBoost ban đầu khi kết hợp sử dụng các bộ phân lớp thành viên bao gồm Cây quyết định, SVM và WSVM cho thấy: Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và Im.AdaBoost.WSVM cho giá trị tương ứng của Gmean,AU C vàSE cao hơn so với AdaBoost.DecisionTree, AdaBoost.SVM và AdaBoost.WSVM trên cả 7 tập dữ liệu. Điều này là do trong thuật toán Im.AdaBoost.WSVM đã đề xuất hai cải tiến cho AdaBoost, đó là: khởi tạo tập hợp các trọng số lỗi khác nhau phù hợp với tỷ lệ không cân bằng giữa các mẫu dữ liệu dương và âm; và thực hiện tính toán trọng số tin cậy của các bộ phân lớp thành viên dựa trên độ nhạy của chúng đối với tổng lỗi do các mẫu dương +1 gây ra.

Cụ thể, luận án đề xuất hai cải tiến cho AdaBoost là: (i) khởi tạo tập các trọng số lỗi khác nhau thích nghi với tỷ lệ không cân bằng của tập dữ liệu, trong đó sử dụng các tham số điều chỉnh θ; (ii) tính toán trọng số độ tin cậy của các bộ phân lớp thành viên dựa trên độ nhạy đối với tổng lỗi gây ra trên các mẫu nhãn dương. Luận án thử nghiệm kết hợp Im.AdaBoost với các bộ học thành viên như Cây quyết định, SVM, WSVM (tạo thành các thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM, Im.AdaBoost.WSVM) và so sánh với các thuật toán CNN, DecisionTree, SVM, WSVM, AdaBoost.SVM, AdaBoost.WSVM để đánh giá hiệu quả phân lớp trên các bộ dữ liệu không cân bằng từ UCI và các bộ dữ liệu trong bài toán dự đoán đồng tác giả.

Hình 2.1: Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM.
Hình 2.1: Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM.

FUZZY SVM-CIL

Dựa trên các phân tích đó, luận án đề xuất: một hàm thuộc mờ mới để tính giá trị trọng số cho các mẫu; một phương pháp điều chỉnh thích nghi giá trị trọng số mờ; và một thuật toán cải tiến dựa trên Fuzzy SVM-CIL cho bài toán dữ liệu không cân bằng hai nhãn lớp. Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm Để xử lý tập dữ liệu hai lớp không cân bằng, các nhà nghiên cứu thường sử dụng các kỹ thuật để giảm các mẫu thuộc lớp đa số [86] và sinh thêm các mẫu lớp thiểu số [25] để tạo một tập dữ liệu cân bằng hơn. Phương pháp điều chỉnh trọng số mờ được trình bày trong Thuật toán 3.2, trong đó ht là một bộ phân lớp WSVM, hKNN là một bộ phân lớp KNN, K là số lượng hàng xóm gần nhất cho một mẫu nhất định xi, và tập các tham số {σ1, σ2, σ3, σ4}được sử dụng để điều chỉnh các trọng số mờ.

Hơn nữa, khi bộ dữ liệu có số lượng mẫu lớn và tỷ lệ không cân bằng cao (tỷ lệ nhãn dương rất nhỏ), FSVM-CILcen_2clin thể hiện hiệu suất tốt hơn FSVM-CIL trong việc phân loại chính xác các mẫu dương, được thể hiện qua giá trị độ đo SE và GM cao. Điều này là do phương pháp đề xuất đã thực hiện lặp đi lặp lại việc điều chỉnh các trọng số mờ của các mẫu trong vùng không gian nhạy cảm như trên vùng ranh giới phân lớp hay các mẫu là nhiễu, dựa trên việc xác định các cặp TLP. Thử nghiệm UCI-3: Thử nghiệm này nhằm đánh giá hiệu quả phân lớp của thuật toán AFW-CIL, là sự kết hợp của thuật toán điều chỉnh trọng số mờ thích nghi F-AWA kết hợp thuật toán FSVM-CILcen_2clin sử dụng hàm thuộc mờ đề xuấtflincen_2c(xi).

Tương tự như thử nghiệm với các bộ dữ liệu UCI, thử nghiệm này bao gồm ba trường hợp để đánh giá hiệu quả của từng phương pháp đề xuất là: (i) Đánh giá hiệu quả của hàm thuộc mờ giàu ngữ nghĩa đã đề xuất flincen_2c(xi); (ii) Đánh giá hiệu quả của việc điều chỉnh thích nghi các trọng số mờ trên mẫu dữ liệu TLPs, gọi là F-AWA, cho 6 hàm thuộc mờ mặc định của FSVM-CIL biểu diễn trong Bảng 3.1; (iii) Đánh giá hiệu quả của thuật toán AFW-CIL kết hợp điều chỉnh thích nghi các trọng số mờ trên mẫu dữ liệu TLPs sử dụng hàm thuộc mờ đề xuấtflincen_2c(xi). Để đánh giá hiệu suất của các thuật toán một cách đa dạng trên các tập dữ liệu có các đặc điểm khác nhau, chúng tôi đã sử dụng kỹ thuật bootstrap trên tập dữ liệu đồng tác giả để tạo ra 10bộ dữ liệu đồng tác giả có số lượng mẫu và tỷ lệ phần trăm nhãn dương +1 khác nhau. Có được điều này là do trong thuật toán AFW-CIL đã áp dụng hàm thuộc mờ giàu ngữ nghĩa cho FSVM-CIL và thực hiện điều chỉnh thích nghi trọng số lỗi trên các mẫu trong vùng không gian nhạy cảm dựa trên TLPs để ưu tiên phân lớp chính xác các mẫu dương.

Các thử nghiệm sử dụng các bộ dữ liệu có tỷ lệ mất cân bằng mẫu giữa các lớp khác nhau từ UCI [79]:Transfusion, Ecoli,Yeast vàAbalone được trình bày trong Bảng 1.4và 5 bộ dữ liệu đồng tác giả tự xây dựng trong Nhóm I (CoAuthor-1, CoAuthor-2, CoAuthor-3, CoAuthor-4, CoAuthor-5) được trình bày trong Bảng 3.5. Kết quả thử nghiệm trên các bộ dữ liệu từ UCI và các bộ dữ liệu đồng tác giả tự xây dựng với nhiều kích thước và tỷ lệ không cân bằng khác nhau cho thấy rằng: Với các bộ dữ liệu UCI và dữ liệu đồng tác giả, (i) thuật toán FSVM-CIL sử dụng hàm thuộc mờ giàu ngữ nghĩa flincen_2c(xi) cho hiệu quả phân lớp tốt hơn khi sử dụng 6 hàm thuộc mờ mặc định; (ii) thuật toán F-AWA điều chỉnh thích nghi các trọng số mờ của FSVM-CIL cho hiệu quả phân lớp tốt hơn FSVM-CIL với 6hàm thuộc mờ mặc định; (iii) thuật toán AFW-CIL, kết hợp điều chỉnh thích nghi các trọng số mờ sử dụng hàm thuộc mờ đề xuất flincen_2c(xi), tỏ ra vượt trội hơn FSVM-CIL trong việc phân lớp tốt hơn các mẫu nhãn dương.

Hình 3.1: Vị trí tương đối của các mẫu giữa hai lớp
Hình 3.1: Vị trí tương đối của các mẫu giữa hai lớp