Tóm tắt: Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

26 0 0
Tóm tắt: Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHÔNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ Ngành: Hệ thống thông tin Mã số: 9480104 TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2024 Cơng trình hồn thành tại: Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS.TS Trần Đình Khang Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp Đại học Bách khoa Hà Nội Vào hồi , ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Tạ Quang Bửu - ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Bối cảnh nghiên cứu Khái niệm mạng đồng tác giả dùng để miêu tả mối quan hệ hợp tác nghiên cứu nhà khoa học Mạng đồng tác giả xem mạng xã hội cộng đồng đặc biệt với nút tác giả, cạnh thể mối liên kết hai tác giả Các toán phổ biến mạng đồng tác giả gồm: (i) tốn truy vấn thơng tin như: tìm kiếm, tra cứu tạp chí, báo, tác giả, tổ chức, trích dẫn, (ii) tốn dẫn xuất thơng tin như: phân tích mối quan hệ học thuật, phân tích xu hướng nghiên cứu, đo lường tầm ảnh hưởng học thuật, đánh giá hiệu nghiên cứu phát triển hệ thống dự đoán (bài báo, tạp chí, đồng tác giả, ) Trong thực tế, muốn có kết nghiên cứu tốt nhà nghiên cứu phải tìm kiếm cộng hợp tác phù hợp Do đó, việc nghiên cứu phương pháp để xây dựng hệ thống dự đoán cộng tác nghiên cứu, gọi toán dự đoán cộng tác đồng tác giả, trở nên cần thiết có nhiều ý nghĩa việc thúc đẩy hoạt động nghiên cứu khoa học Bài toán dự đoán đồng tác giả phát biểu sau: Dựa thông tin kết nối mạng đồng tác giả đến thời điểm t, đưa thông tin đầu vào tác giả vi đó, hệ thống đưa danh sách tác giả vj, vk, vh, có tiềm cộng tác hiệu với tác giả vi tương lai (tức có cộng tác thời điểm t’ sau t) Để giải tốn này, có phương pháp nghiên cứu đề xuất gồm: (i) sử dụng độ đo tương đồng; (ii) xây dựng mơ hình dựa xác suất khả tối đa; (iii) khai phá đồ thị (graph mining); (iv) học máy gồm: phân lớp, phân cụm học sâu giảm chiều liệu Trong đó, hướng tiếp cận theo dạng phân lớp thu hút nhiều quan tâm nghiên cứu có nhiều ưu điểm như: tích hợp đa dạng thông tin liên kết, khả mở rộng linh hoạt việc lựa chọn giải thuật, khả điều chỉnh cải thiện mơ hình thơng qua q trình huấn luyện, Để tiếp cận theo hướng này, sau xây dựng mạng đồng tác giả, liệu huấn luyện tạo từ mạng gọi liệu bảng ứng viên Trong đó, cặp tác giả ứng viên tiềm (vi, vj) xem mẫu liệu Mức độ liên kết hợp tác cặp ứng viên biểu diễn véc-tơ thuộc tính, tính độ đo liên kết Nhãn lớp xác định cách khảo sát mở rộng liên kết mạng theo chiều thời gian Mạng đồng tác giả biểu diễn đồ thị thưa kết nối, số lượng cặp tác giả có kết nối (cùng đứng tên báo) ít, số lượng cặp ứng viên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) nhiều Vì vậy, liệu bảng ứng viên có nhiều mẫu nhãn −1 (khơng liên kết) mẫu có nhãn +1 (khơng liên kết), gây không cân số lượng mẫu lớp Điều gây thách thức cho giải thuật học máy truyền thống giải thuật thường xem xét mẫu bình đẳng nhau, dẫn đến mơ hình phân lớp thường thiên dự đốn sai mẫu thiểu số (nhãn +1) Có hai phương pháp thường dùng để giải vấn đề là: tiếp cận mức liệu tiếp cận mức giải thuật Các phương pháp tiếp cận mức liệu thay đổi phân bố số lượng mẫu liệu (resampling) cách sinh thêm phần tử cho lớp thiểu số (over sampling) hay giảm bớt phần tử thuộc lớp đa số (under sampling) Các phương pháp tiếp cận mức giải thuật hướng tới việc điều chỉnh thuật toán phân lớp để có hiệu cao tập liệu không cân như: học nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng số phạt cho nhãn lớp khác Một số nghiên cứu khác sử dụng kết hợp kỹ thuật sampling điều chỉnh trọng số chi phí để nâng cao chất lượng mơ hình huấn luyện Gần đây, luận án Tiến sĩ Phạm Minh Chuẩn (2018) tiếp cận giải toán dự đốn đồng tác giả theo hướng phân lớp, đề xuất độ đo liên kết để bổ sung thêm đặc trưng liệu nhằm nâng cao chất lượng phân lớp mơ hình Bên cạnh luận án có nêu vấn đề liệu không cân nhãn lớp bảng ứng viên Tiếp nối nghiên cứu này, kết hợp với khảo sát nghiên cứu gần đây, nhận thấy công bố nghiên cứu vấn đề học máy liệu không cân để khắc phục đặc điểm liệu đồng tác giả hạn chế Điều mở hướng nghiên cứu tiềm phương pháp cải tiến giải thuật, điều chỉnh tham số mơ hình để cải thiện chất lượng mơ hình dự đốn khung cảnh liệu bảng ứng viên đồng tác giả có không cân nhãn lớp Bên cạnh vấn đề liệu không cân số lượng mẫu lớp, để nâng cao chất lượng mơ hình phân lớp cần xử lý tốt việc phân loại xác vùng không gian nhạy cảm như: mẫu liệu nhiễu mẫu liệu phân bố không gian ranh giới phân loại hai lớp Với thông tin liệu không đầy đủ, không chắn, phương pháp xử lý mờ dựa lý thuyết mờ Zadeh đưa vào năm 1965 tỏ hiệu Phạm vi vấn đề nghiên cứu Luận án tập trung nghiên cứu toán dự đoán đồng tác giả, thuật toán để phân lớp giải vấn đề liệu không cân hai nhãn lớp Trọng tâm luận án nghiên cứu, đề xuất thuật toán nhằm nâng cao chất lượng phân lớp liệu không cân ứng dụng dự đoán đồng tác giả Phạm vi thử nghiệm sử dụng độ đo liên kết kế thừa liệu tự thu thập Theo đó, luận án tập trung vào hai mục tiêu nghiên cứu chính: • Thứ nhất, nghiên cứu cải tiến thuật toán học kết hợp AdaBoost cho liệu không cân ứng dụng toán dự đoán đồng tác giả? Vấn đề nghiên cứu hướng đến việc cải tiến thuật toán học kết hợp mạnh mẽ AdaBoost để phù hợp cho liệu không cân thông qua việc thiết kế tham số điều chỉnh thích nghi với mức độ khơng cân liệu • Thứ hai, nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho liệu không cân ứng dụng toán dự đoán đồng tác giả? Vấn đề nghiên cứu hướng tới việc áp dụng điều chỉnh trọng số đại lượng mờ kết hợp với giải thuật học dựa chi phí, giúp huấn luyện mơ hình phân lớp hiệu liệu có khơng cân cao nhãn lớp trường hợp liệu nhạy cảm gần đường biên phân lớp liệu nhiễu Đóng góp luận án Hướng tới xây dựng giải pháp hiệu cho vấn đề nghiên cứu nói trên, luận án đưa đến đóng góp chính: • Luận án đề xuất phương pháp cải tiến thuật toán học kết hợp dựa lặp thích nghi AdaBoost giải tốn phân lớp liệu khơng cân nói chung toán dự đoán đồng tác giả nói riêng Các cải tiến bao gồm: (1) phương pháp khởi tạo trọng số AdaBoost thích nghi với mức độ không cân mẫu tập liệu (2) phương pháp tính trọng số độ tin cậy cho phân lớp thành viên nhạy cảm với tổng lỗi mẫu nhãn dương Các kết nghiên cứu công bố báo số [CT.1] [CT.3] • Luận án đề xuất thuật tốn điều chỉnh trọng số mờ thích nghi cho toán dự đoán cộng tác đồng tác giả theo dạng học liệu không cân hai lớp Thuật tốn đề xuất có hai cải tiến chính: (1) xây dựng hàm tính trọng số mờ cho mẫu liệu giàu ngữ nghĩa dựa Fuzzy SVM-CIL xem xét khoảng cách từ mẫu đến tâm hai lớp; (2) phương pháp điều chỉnh thích nghi giá trị trọng số mờ mẫu nằm không gian phân lớp nhạy cảm đường biên mẫu nhiễu dựa KNN, Tomek link SVM Các kết nghiên cứu công bố báo số [CT.2][CT.4][CT.5] Bố cục luận án Với đóng góp nêu trên, luận án trình bày chương: • Chương 1: Trình bày kiến thức tổng quan đề tài: giới thiệu toán phân lớp với liệu khơng cân bằng, tốn dự đốn đồng tác giả theo dạng toán phân lớp, thuật toán sở, liệu thử nghiệm, môi trường thử nghiệm làm sở cho đề xuất thử nghiệm chương • Chương 2: Trình bày đề xuất số phương pháp cải tiến giải thuật AdaBoost cho toán liệu khơng cân bằng, ứng dụng cho dự đốn cộng tác đồng tác giả • Chương 3: Trình bày đề xuất giải thuật trọng số mờ thích nghi nhằm giải vấn đề liệu không cân xử lý vấn đề phân lớp cho mẫu nhạy cảm vùng biên nhiễu cho toán dự đoán cộng tác đồng tác giả Với chương này, luận án trình bày đầy đủ kiến thức tảng chi tiết nội dung giải pháp cho câu hỏi nghiên cứu giúp giải hiệu thách thức nêu Chương TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU Chương giới thiệu phương pháp tiếp cận phân lớp để giải toán dự đoán đồng tác giả kiến thức tảng liên quan đến việc giải vấn đề học liệu không cân 1.1 Bài tốn phân lớp với liệu khơng cân Bài tốn phân lớp liệu khơng cân vấn đề thách thức học máy Để giải vấn đề học liệu không cân có hai hướng giải chính: tiếp cận mức liệu tiếp cận mức giải thuật Các phương pháp tiếp cận mức liệu sử dụng kỹ thuật can thiệp vào liệu gốc (ReSampling) để tạo liệu huấn luyện có tỷ lệ phân bố mẫu cân hơn, từ làm sở cho giải thuật phân lớp truyền thống hoạt động hiệu Kỹ thuật ReSampling sinh thêm phần tử cho lớp thiểu số Random Oversampling, SMOTE, Border-line-SMOTE, ADA-SYN, Cluster Based Sampling-CBO, SMOTEBoost, OSD hay giảm bớt mẫu lớp đa số EasyEnsemble, BalanceCascade, KNN-NearMiss, Các phương pháp tiếp cận mức giải thuật hướng tới việc điều chỉnh thuật toán phân lớp như: học dựa nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng Boosting AdaC1, AdaC2, AdaC3, Cây định, sử dụng hàm kernel SVM, sử dụng kỹ thuật học sâu, Các phương pháp cải tiến dựa AdaBoost, SVMs học sâu thu hút nhiều quan tâm khả tùy biến cho tốn có liệu có tính chất khác nhau, bật Weighted-SVM, Kernel-SVM, đặc biệt Fuzzy SVM, Fuzzy SVM-CIL Bên cạnh đó, vấn đề chung để nâng cao chất lượng mơ hình phân lớp cần phân lớp xác vùng không gian nhạy cảm như: mẫu liệu nhiễu mẫu liệu nằm không gian ranh giới phân lớp Để xác định vùng không gian chứa mẫu nhạy cảm, cần sử dụng phương pháp đo lường khoảng cách mẫu xem xét phân bố mẫu Các giải thuật K-nearest neighbors (KNN) Tomek link SVM cho phép định vị mẫu không gian phân bố Ngồi ra, với thơng tin liệu khơng đầy đủ, không chắn, phương pháp xử lý mờ dựa lý thuyết mờ Zadeh đưa vào năm 1965 tỏ hiệu 1.2 Một số thuật toán liên quan 1.2.1 Thuật toán SVM SVM nghiên cứu, thử nghiệm chứng minh phương pháp phân lớp mạnh, đặc biệt hiệu liệu phân biệt tuyến tính Ngồi ra, giải thuật mềm dẻo có khả cải tiến mở rộng để đạt hiệu cao liệu có đặc tính khác Đối với vấn đề phân lớp nhị phân, với tập liệu D = {(xi, yi)|i = 1, 2, · · · , N }, xi ∈ Rn đại diện cho điểm liệu n chiều yi ∈ {−1, +1} nhãn lớp xi Mục tiêu thuật tốn SVM tìm siêu phẳng phân tách điểm liệu thành hai lớp không gian đặc trưng Rn Hàm mục tiêu cần tối ưu cho siêu phẳng phân tách không gian đặc trưng Rn biểu thị bằng: ⟨ω, x⟩ + b = 0, (1.1) ω ma trận tham số, b hệ số 1.2.2 Thuật toán Weighted-SVM Giải thuật Weighted-SVM (WSVM) cải tiến bật SVM Với tập liệu D = {(xi, yi)|i = 1, 2, · · · , N }, xi ∈ Rn véc-tơ đặc trưng n chiều yi ∈ {−1, +1} nhãn lớp xi WSVM gán trọng số cho mẫu để biểu thị ảnh hưởng mẫu việc huấn luyện mơ hình phân lớp Hàm mục tiêu sau N 12 ∥ω∥ + C miξi, (1.2) i=1 st yi ∗ (⟨ω, xi⟩ + b) ≥ − ξi, ξi ≥ 0, with i = 1, 2, , N, biến ξi > đại diện cho mức độ “phân loại sai” mẫu, N ξi tổng lỗi i=1 mẫu C tham số để kiểm soát đánh đổi độ rộng lề tối đa tổng lỗi tối thiểu mẫu Lưu ý mi trọng số phản ánh tầm quan trọng việc phân loại xác mẫu xi Giá trị trọng số mẫu lớn mẫu quan trọng việc tự phân loại xác 1.2.3 Fuzzy SVM Batuwita cộng đề xuất thuật toán Fuzzy SVM-CIL (FSVM-CIL) dựa thuật toán Fuzzy SVM để cải thiện hiệu phân lớp cho liệu không cân FSVM-CIL gán giá trị trọng số mờ cao m+i (i = 1, 2, · · · , N ) cho mẫu thiểu số xi+ (nhãn +1) giá trị trọng số mờ thấp m−i (i = 1, 2, · · · , N ) cho mẫu đa số xi− (nhãn -1) Các giá trị trọng số mờ tính bằng: mi+ = f xi+ × r+, (1.3) mi− = f xi− × r−, f (xi) ∈ (0, 1) hàm thuộc mờ phản ánh tầm quan trọng xi lớp nó, r+ r− biểu thị mức độ ảnh hưởng tỷ lệ không cân tập liệu FSVM-CIL định r+ = r− = r, r tỷ lệ khơng cân lớp +1 lớp −1, r < Theo đó, trọng số mờ mẫu +1 có thuộc khoảng (0, 1), cịn trọng số mẫu −1 có giá trị khoảng (0, r) Hàm thuộc f (xi) xác định dựa vị trí mẫu xi không gian đặc trưng Rn xem xét khoảng cách từ mẫu xi: đến tâm lớp (dcen i ); đến siêu phẳng ước tính (dishp) xác định trung tâm toàn tập liệu; đến siêu phẳng thực tế (dihyp) hình thành mơ hình SVM Đối với phương pháp tính khoảng cách, FSVM-CIL xây dựng hai hàm thuộc mờ tuyến tính (lin) hàm mũ mờ (exp) tạo sáu hàm thuộc mẫu xi sau: flin cen (xi) = − dcen i , (1.4) cen max (di ) + ∆ fexp cen (xi) = (1.5) cen (1.6) + exp (βdi ) flin shp (xi) = − dishp , max dishp +∆ fexp shp (xi) = (1.7) + exp βdishp flin hyp (xi) = − dihyp , (1.8) max dihyp +∆ fexp hyp (xi) = (1.9) , + exp βdihyp ∆ giá trị dương nhỏ để tránh trường hợp f cen lin (xi) = 0, flin shp(xi) = 0, flin hyp(xi) = shp hyp β ∈ [0, 1] để kiểm soát độ dốc hàm số mũ fecxepn(xi), fexp (xi) fexp (xi) 1.2.4 Thuật toán AdaBoost Thuật toán AdaBoost Freund đề xuất phân lớp mạnh dựa sửa lỗi, thích nghi qua vịng lặp Các bước thuật tốn AdaBoost trình bày Thuật tốn 1.1 Cụ thể, AdaBoost có liệu đầu vào bao gồm: (i ) X tập liệu gồm N mẫu (xi, yi), xi vectơ thuộc tính yi ∈ {−1, +1} nhãn lớp xi; (ii ) M số lần lặp tối đa; (iii ) ht phân lớp thành viên Đầu tiên thuật toán gán tập trọng số lỗi D1 = {wi1 = 1N } cho mẫu xi ∈ X Trong lần lặp, phân lớp ht phân loại tập liệu X (dòng 3) Chất lượng phân lớp ht đánh giá thơng qua tổng lỗi εt (dịng 4) trọng số tin cậy αt (dịng 5) Sau đó, thuật toán cập nhật lại phân bố trọng số lỗi ωit+1 (dịng 6) Cuối cùng, mơ hình phân lớp tổng hợp tính Thuật toán 1.1: Thuật toán AdaBoost Input: Tập liệu X = {(x1, y1), , (xN , yN )} với yi = {−1, +1}; M : số phân lớp thành viên; h1: phân lớp thành viên Output: H(x): phân lớp tập hợp Khởi tạo tập trọng số lỗi D1 = {ωi1 = 1N } mẫu liệu (xi, yi) ∈ X (i = 1, · · · , N ); for t = to M Đặt ht ← Training(X) với tập trọng số lỗi Dt; Tính tổng lỗi ht: εt = i=1 N ωit, yi̸ = ht(xi); Tính trọng số độ tin cậy ht: αt = 21 ln ε 1−εt ; t t t+1 ωi exp[−αtyiht(xi)] Cập nhật trọng số lỗi cho vòng lặp tiếp theo: ωi = , với Lt hệ số chuẩn hóa Lt cho i=1 N ωit+1 = 1; return H(x) = sign( t=1 M αtht(x)) tốn theo cơng thức H(x) = sign( M αtht(x)) Nhãn phân lớp mẫu xác định dựa vào hàm t=1 ký hiệu: nhãn +1 H(x) > nhãn −1 H(x) < Nếu tổng lỗi εt tập liệu 0.5, αt = 0, nghĩa phân lớp ht(x) khơng đóng góp vào định phân lớp phân lớp tổng hợp H(x) 1.2.5 Thuật toán CNN Mạng nơ-ron nhân chập (Convolutional Neural Networks – CNN) mạng điển hình cho mơ hình học sâu lấy cảm hứng từ cấu trúc chức thị giác người CNN mạng nơ-ron truyền thẳng có nhiều tầng, tầng nhân chập (Convolutional Layer) tầng gộp (Pooling Layer) xếp hoán đổi lẫn nhau, tầng cuối tầng kết nối đầy đủ (Dense Layer) Đặc trưng bật CNN q trình tích chập sử dụng nhiều lọc đặc trưng trượt ma trận điểm liệu để trích xuất đặc trưng tương ứng liệu Trong 2D-CNN thường sử dụng đặc hiệu cho ứng dụng lĩnh vực thị giác máy tính 1D-CNN thiết kế đặc biệt để hoạt động với liệu chiều Có thể kể đến số lợi ích sử dụng 1D-CNN so với 2D-CNN độ phức tạp tính tốn giảm xuống đáng kể, kiến trúc mạng nông dễ hiểu dễ triển khai việc huấn luyện 1D-CNN sử dụng tài ngun tính tốn so với 2D-CNN Đã có nhiều nghiên cứu việc áp dụng 1D-CNN việc giải toán thực tế có liêu chiều, điển tốn phát cơng mạng, phát lỗi thiết bị công nghiệp, dự báo mức nicotin việc xây dựng ứng dụng cai thuốc lá, phân loại hỗn hợp cá hồi cá tuyết 1.2.6 Phương pháp Cây định Cây định hoạt động cách phân chia không gian đặc trưng thành phần con, phần gán nhãn giá trị dự đốn Q trình thực thơng qua định dựa đặc trưng liệu Cây định tạo ra, nút đại diện cho định dựa giá trị thuộc tính Thuật tốn bắt đầu việc chọn thuộc tính tốt để phân chia tập liệu Thuộc tính tốt thuộc tính có khả phân chia tập liệu thành phần cho khiết phần cao Quá trình phân chia lặp lại cho nhóm điều kiện dừng đáp ứng, chẳng hạn đạt độ sâu cố định khơng cịn khả phân chia tốt 1.2.7 K-nearest neighbors Tomek link Thuật toán KNN xem xét nhãn lớp K điểm gần với liệu cần phân lớp để định nhãn cho mẫu cần phân lớp Việc tìm khoảng cách hai điểm liệu thường sử dụng độ đo như: Euclidean, Manhattan, Minkowski, Hamming Thuật toán Tomek link phương pháp lĩnh vực xử lý liệu không cân học máy khai phá liệu Giải thuật Tomek link xác định cặp gồm hai mẫu thuộc hai lớp khác với khoảng cách ngắn (TLP) Giả sử Smin Smaj tập hợp mẫu đa số thiểu số, d(xi, xj) khoảng cách xi ∈ Smin xj ∈ Smaj Cặp (xi, xj) gọi TLP không tồn xk cho d(xi, xk) < d(xi, xj) d(xj, xk) < d(xi, xj) Bằng cách loại bỏ giảm thiểu Bảng 1.1: Các độ đo liên kết mạng đồng tác giả a) Các độ đo liên kết dựa hàng xóm CN (vi, vj ) = |Γ(vi) ∩ Γ(vj )| AA(vi, vj ) = vk∈Γ(vi)∩Γ(vj ) log(|Γ(vk)|) J C(vi, vj ) = Γ(vi)∪Γ(vj ) Γ(vi)∩Γ(vj ) P A(vi, vj ) = |vi| × |vj | RA(vi, vj ) = vk∈Γ(vi)∩Γ(vj ) |Γ(vk)| b) Các độ đo liên kết dựa đường dẫn SH(vi, vj ) = d(vi,vj ) Katz(vi, vj ) = ∞ β l |pathlvi ,vj | l=1 c) Các độ đo liên kết dựa quan hệ cộng đồng   2, if S1(v1) = S1(v2) = · · · = S1(vN ),    SW (v1, v2, · · · , vN ) = 1, if S2(v1) = S2(v2) = · · · = S2(vN ),    0, otherwise, CC(vi, vj ) = SW (vi, vj ) + vk∈Γ(vi)∩Γ(vj ) SW (vk, vi, vj ) TLP này, thuật tốn cố gắng làm cho khơng gian đặc trưng trở nên rõ ràng tăng cường khả phân loại mơ hình 1.3 Bài tốn dự đốn đồng tác giả 1.3.1 Mơ hình hóa tốn Mạng đồng tác giả mơ hình hóa dạng đồ thị GT với bốn yếu tố đặc trưng GT = (V T , ET , P T , T ), (i ) T = {t1, t2, , tk} tập hợp nhãn thời gian; (ii ) V T = {v1, v2 , vN } tập hợp đỉnh đại diện cho tác giả xuất báo thời điểm T ; (iii ) P T = {p1, p2, , pM } tập hợp báo thời điểm T ; (iv ) ET = {vi, vj, pk, th} tập hợp liên kết tác giả thời điểm T , hai tác giả (vi, vj) ∈ V T × V T có viết chung báo pk ∈ P T thời điểm th ∈ T Ngoài ra, đỉnh V T chứa thơng tin bổ sung tác thông tin quốc tịch, mối quan hệ cộng đồng, chủ đề nghiên cứu Tập thuộc tính ký hiệu AT = {a1, a2, , aN }, vectơ đặc trưng chứa thông tin cặp tác giả/đỉnh (vi, vj) ∈ V T × V T Các độ đo tương đồng hai tác giả chủ yếu xây dựng dựa thông tin tập ET AT Có 27 độ đo liên kết xây dựng dựa vào xem xét đặc tính tương đồng cục tương đồng tồn cục Trong luận án trình bày số độ đo phổ biến thuộc ba nhóm sau: (i) Độ đo liên kết dựa hàng xóm: Common Neighbor (CN ), Adamic Adar (AA), Jaccard Coefficient (JC), Preferential Attachment (P A) Resource Allocation (RA); (ii) Các độ đo liên kết dựa đường dẫn: Shortest Path Katz; (iii) Các độ đo liên kết dựa thông tin cá nhân bổ sung: độ tương tự công việc SimWork (SW ) địa lý quốc gia CommonCountry (CC) Các độ độ xác định công thức Bảng 1.1 ′ Bài toán dự báo dự báo liên kết đồng tác giả diễn giải sau: cho hai khoảng thời gian [t0, t0], ′ ′ [t1, t1] thỏa mãn t0 < t1 Dựa cấu trúc mạng quan sát thời điểm [t0, t0], ta dự đoán ′ liên kết xuất thời gian [t1, t1] mà chưa xuất khoảng thời gian quan sát Các liên kết dự đoán tương ứng với việc cặp tác giả liên kết có khả hợp tác tương lai 1.3.2 Phương pháp phân lớp cho toán dự đoán đồng tác giả Bộ liệu học máy cho toán dự đoán đồng tác giả gọi bảng ứng viên đồng tác giả, gọi tắt bảng ứng viên Giả sử dùng lát cắt thời gian t∗, gọi nhãn thời gian từ thời điểm t∗ trở trước tập T1, gọi nhãn thời gian sau thời điểm t∗ tập T2 Khi t∗ chia không gian mạng đồng tác giả GT thành hai mạng GT1 GT2 Xét theo tiến trình thời gian, mạng GT2 mối liên kết chưa xuất GT1 Để xây dựng liệu học máy cho Bảng 1.2: Bảng ứng viên đồng tác giả TT Cặp ứng viên Độ đo liên kết Nhãn lớp (vi, vj) (CN, AA, JC, P A, RA, ShortestP ath, Kazt, CommCountry) (−1/ + 1) (v1, v2) {X1CN , X1AA, X1JC , X1P A, X1RA, X1ShortestP ath, X1Kazt, X1CommCountry} (v1, v3) {X2CN , X2AA, X2JC , X2P A, X2RA, X2ShortestP ath, X2Kazt, X2CommCountry} +1 (v1, v4) {X3CN , X3AA, X3JC , X3P A, X3RA, X3ShortestP ath, X3Kazt, X3CommCountry} −1 ··· ··· −1 ··· ··· toán, cần xác định mẫu liệu (cặp ứng viên), tính tốn véc-tơ đặc trưng gán nhãn liệu Cặp ứng viên (vi, vj) cặp tác giả có khả cộng tác nghiên cứu tương lai Véc-tơ đặc trưng cho mẫu (vi, vj) xác định độ đo liên kết cho cặp tác giả (vi, vj) sử dụng thông tin GT1 Xác định nhãn cho mẫu (vi, vj) sử dụng thông tin GT2 để gán nhãn cho mẫu dựa việc xem xét việc có cộng tác thực vi vj T2 hay không Nếu vi vj có viết chung báo gán nhãn +1 , khơng cộng tác gán nhãn −1 Dữ liệu bảng ứng viên đồng tác giả có cấu trúc minh họa Bảng 1.2 trở thành liệu học máy hai nhãn lớp Một cách trực quan, coi bảng liệu ứng viên tập mẫu liệu đồng tác giả với đầy đủ thuộc tính nhãn lớp Do đó, tốn dự đốn đồng tác giả chuyển thành toán phân lớp tập liệu hai nhãn lớp, lớp gắn nhãn +1 để biểu thị hợp tác tương lai lớp lại gắn nhãn −1 để biểu thị khơng có hợp tác tương lai Lược đồ mô tả bước thực để xây dựng mơ hình gợi ý cộng tác đồng tác giả trình bày Hình 1.1 Hình 1.1: Mơ hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp Trong thực tế, mạng đồng tác giả có thưa kết nối, số lượng cặp tác giả có kết nối(cùng đứng tên báo) nhiều so với số lượng cặp ứng viên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) Theo đó, bảng ứng viên liệu có nhiều mẫu nhãn −1 mẫu có nhãn +1, gây không cân số lượng mẫu lớp 1.4 Tập liệu thử nghiệm phương pháp thực nghiệm đánh giá Dữ liệu thu thập từ ScienceDirect tạp chí: Chemical Physics Letters, Journal of Molecular Biology Biochemical and Biophysical Research Communications từ năm 2000 đến hết năm 2017 Thông tin bao gồm: ID, tiêu đề, tóm tắt, từ khóa danh sách tác giả Từ liệu thu thập được, lựa chọn khung thời gian T1, T2 khác để tiến hành xây dựng liệu bảng ứng viên đồng tác giả bao gồm độ đo liên kết gán nhãn Để đánh giá hiệu suất thuật tốn cách tổng qt, chúng tơi sử dụng kỹ thuật lấy mẫu ngẫu nghiên tập liệu lớn để tạo liệu có kích thước mẫu tỷ lệ không cân khác Các thử nghiệm mở rộng liệu lưu trữ UCI như: Transfusion, Ecoli, Yeast Abalone Các kết thử nghiệm đo lường đánh giá độ đo phổ biến học liệu không cân SE, SP, AU C, G − mean, F − Score Trong đó, tập trung phân tích độ đo quan trọng SE, G − mean, AU C xem xét toán phân lớp với liệu không cân Số liệu trình bày đa dạng dạng bảng biểu đồ để phân tích so sánh mơ hình với khía cạnh khác Tất thử nghiệm cài đặt thuật toán luận án thực máy tính xách tay có cấu sau CPU Core i7-8550U 1,8 GHz, RAM 16 GB, SSD 256GB chạy hệ điều hành Windows 11 Phiên phần mềm sử dụng Anaconda 2022, PyThon 3.11 thư viện hỗ trợ Các kịch thử nghiệm thiết kế phù hợp với mục đích so sánh phương pháp đa dạng với nhau, nhằm đánh giá cách công hiệu phương pháp đề xuất trường hợp cụ thể 1.5 Kết luận chương Chương giới thiệu toán phân lớp liệu khơng cân thuật tốn sở thường áp dụng để giải vấn đề SVM, WSVM, FSVM, FSVM-CIL, AdaBoost, 1D-CNN, Cây định, KNN, Tomek link Bên cạnh chương trình bày cách mơ hình hóa tốn dự đốn đồng tác giả theo phương pháp phân lớp liệu không cân bảng ứng viên đồng tác giả Các phương pháp đánh giá thực nghiệm, môi trường thử nghiệm liệu thử nghiệm trình bày nhằm phục vụ cho việc đánh giá hiệu đề xuất cải tiến thuật toán Chương Chương Xem xét Eq (2.3) kết hợp với Nmin + Nmaj = N , có: Nmin + Nmaj + Nmin × ∆min − Nmaj × ∆maj = 1, (2.4) N Nmin × ∆min = Nmaj × ∆maj (2.5) Gọi tỷ lệ số mẫu nhãn dương với số mẫu nhãn âm δ = Nmin Nmaj , < δ ≤ 1, từ biểu thức (2.5), ta có: ∆min = Nmaj × ∆maj = ∆maj (2.6) Nmin δ Từ phương trình (2.2) (2.6), có điều kiện sau để ∆min ∆maj: < ∆min, ∆maj < 1N , (2.7) ∆min = δ ∆maj Luận án đề xuất chọn ∆maj = N 1−δ , ∆min = δ×N 1−δ Từ Eq (2.1), tập hợp trọng số sai lệch xác định D1 = ω1i (i = 1, 2, N ), ωi1 = + ∆min = + δ×N 1−δ , yi = +1, (2.8) N N − ∆maj = − N 1−δ , yi = −1 N N Khi áp dụng phương trình Eq (2.8) cho liệu có tỷ lệ khơng cân khác nhau, trọng số lỗi mẫu dương có xu hướng tăng lên, trọng số lỗi mẫu âm có xu hướng giảm xuống, tùy thuộc vào giá trị δ = Nmin Nmaj Khi tập liệu cân bằng, nghĩa δ = 1, ∆min = ∆maj = 0, trọng số khởi tạo D1 phương pháp đề xuất trở D1 AdaBoos (đều 1N ) Ngoài ra, để điều khiển mức độ điều chỉnh giá trị ∆min ∆maj theo đặc điểm riêng liệu, luận án đề xuất công thức tổng quát sử dụng tham số mũ θ sau: ∆maj = N (1−δ)θ , (2.9) ∆min = δ×N (1−δ)θ Đối với liệu cụ thể, tìm thấy giá trị tốt θ thơng qua q trình thử nghiệm tập hợp giá trị cho Cải tiến làm cho AdaBoost trở nên khái quát liệu có tỷ lệ khơng cân khác 2.2.2 Phương pháp tính trọng số tin cậy phân lớp thành viên nhạy cảm với nhãn dương Xem xét dòng giải thuật AdaBoost, trọng số tin cậy αt phân lớp thành viên ht tính hàm tỷ lệ nghịch với tổng lỗi εt mẫu bị phân lớp sai Đối với vấn đề phân lớp tập liệu khơng cân bằng, thuật tốn cần ưu tiên gán trọng số lỗi cao phân lớp sai nhiều mẫu nhãn dương Vì luận án đề xuất phân tích tổng lỗi εt tính theo hai thành phần tổng lỗi mẫu +1, ký hiệu εt+ mẫu −1, ký hiệu ε−t , tức là: εt = εt− + ε+t , (2.10) εt+ = N ωit, yi ̸= ht(xi), yi = +1 (2.11) εt− = i=1 N ωit, yi ̸= ht(xi), yi = −1 i=1 Rõ ràng, ε∗ phụ thuộc vào εt+ ε−t , chúng ta muốn phân lớp thành viên ht phân lớp t εt+ ε∗ xác mẫu nhãn dương, cần tăng đó, luận án định nghĩa lại t sau: εt∗ = εt− + γ ∗ ε+t , với γ > (2.12) 10 Vì < εt− + εt+ < nên luận án chọn γ = − (ε−t + ε+t ) Sau đó, trọng số tin cậy αt phân lớp thành viên ht AdaBoost phương pháp đề xuất trở thành: ∗ − ε∗ (2.13) t αt = ln ∗ εt Ngoài ra, để hàm ln() Công thức (2.13) thỏa mãn điều kiện xác định, ε∗ phải thỏa mãn ε∗ t < t < Với điều kiện ràng buộc hệ số γ vậy, luận án đề xuất giá trị hệ số γ sau: γ = − (ε−t + ε+t ) (2.14) Ta dễ dàng chứng minh hệ số γ chọn thỏa mãn: γ > 1, = εt− + γ ∗ ε+t (2.15) < ε∗ < 1, với ε∗ t t Theo đó, tổng giá trị lỗi ε∗ Công thức (2.12) mơ hình tăng với tổng lỗi εt+ t α∗ mẫu nhãn dương, dẫn đến giá trị trọng số tin cậy t điều chỉnh giảm tương ứng Điều có nghĩa đề xuất cải tiến thiết lập tham số điều chỉnh cho phân lớp thành viên ht gây tổng lỗi mẫu nhãn dương, tức ht cố gắng phân lớp xác nhiều mẫu mẫu nhãn dương 2.2.3 Mô tả giải thuật Im.AdaBoost luận án gọi giải thuật kết hợp hai phương pháp đề xuất phần 2.2.1 phần 2.2.2 giải thuật Im.AdaBoost Ngoài luận án đề xuất sử dụng WSVM phân lớp thành viên gọi Im.AdaBoost.WSVM Thuật tốn Im.AdaBoost.WSVM trình bày Thuật tốn 2.1 Cũng lưu ý rằng, ngồi WSVM lựa chọn kết hợp Im.AdaBoost với giải thuật khác DecisionTree, SVM, KNN, làm học phân lớp thành viên Thuật toán 2.1: Thuật toán Im.AdaBoost.WSVM Input: Tập liệu X = {(x1, y1), , (xN , yN )} có N mẫu; M : số phân lớp thành viên; h1: phân lớp thành viên; C: tham số điều chỉnh WSVM Output: H(x): Mơ hình phân lớp tổng hợp Khởi tạo z1i = ω1i (i = 1, 2, , N ) sử dụng Công thức (2.8) (2.9) ; for t = to M huấn luyện phân lớp ht ← sử dụng WSVM(X) tập trọng số lỗi Dt zti ∗ ωti (i = 1, 2, , N ); tính lại zit+1 tính tổng lỗi gây ht: ε∗ (sử dụng Công thức (2.12)); t tính trọng số tin cậy ht: α∗ (sử dụng Công thức (2.13)); t t+1 ωti e−αtyiht(xi) N t+1 cập nhật trọng số lỗi ωi = , Lt hệ số chuẩn hóa cho i=1 ωi = 1; Lt return H(x) = sign( M∗ t=1 αt ht(x)) 2.3 Thử nghiệm Trong phần này, luận án trình bày chi tiết hai nhóm thử nghiệm liệu khơng cân bằng, nhằm mục đích đánh giá hiệu phương pháp đề xuất Im.AdaBoost với phương pháp phân lớp phổ biến Cây định, SVM, CNN, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, Ad- aBoost.WSVM; giải thuật kết hợp Im.AdaBoost.WSVM, Im.AdaBoost.DecisionTree (Im.AdaBoost.DT) Im.AdaBoost.SVM Hai nhóm thử nghiệm bao gồm: Thử nghiệm liệu UCI: thực liệu có tỉ lệ khơng cân khác gồm: Transfusion, Ecoli, Yeast Abalone Thử nghiệm cho toán dự đoán đồng tác giả: thực liệu đồng tác giả tự thu thập xây dựng cho tốn dự đốn đồng tác giả Mơ tả chi tiết liệu đồng tác giả trình bày Bảng 2.2 11 Bảng 2.1: Các giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM TT Thuật toán Transfusion Ecoli Yeast Abalone 31.23% 29.73% 3.56% 2.53% Im.AdaBoost.DT 1.7 1.1 1.4 0.5 Im.AdaBoost.SVM 1.7 0.2 0.2 0.2 Im.AdaBoost.WSVM 1.4 1.7 2.0 2.0 2.3.1 Thử nghiệm liệu UCI Trong phần này, luận án mô tả việc thực thử nghiệm với mục đích sau: Thử nghiệm 1: xác định giá trị tham số θ Im.AdaBoost phù hợp cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM thông qua việc khảo sát tập liệu Thử nghiệm 2: đánh giá so sánh hiệu suất giải thuật đề xuất Im.AdaBoost.WSVM với thuật toán phân lớp CNN, Cây định, SVM, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, AdaBoost.WSVM, Im.AdaBoost.DT, Im.AdaBoost.SVM tập liệu Transfusion, Ecoli, Yeast Abalone Thử nghiệm Chúng chạy thử nghiệm để tìm giá trị tham số θ tốt cho Im.AdaBoost.DT, Im.AdaBoost.SVM Im.AdaBoost.WSVM tập liệu cách khảo sát giá trị tham số θ ∈ {0.2, 0.5, 0.8, 1.1, 1.4, 1.7, 2.0} Đối với giá trị θ, luận án xem xét giá trị Gmean từ xác định giá trị tốt θ thuật toán cho Gmean tối đa Lưu ý có nhiều giá trị θ mà Gmean tối đa, ta lựa chọn lấy giá trị θ số Bảng 2.1 trình bày giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DT, Im.AdaBoost.SVM Im.AdaBoost.WSVM chạy tập liệu UCI Rõ ràng, tập liệu tạo với tỷ lệ phần trăm mẫu dương +1 khác nhau, giá trị θ khác Thử nghiệm Kết thử nghiệm giải thuật đề xuất Im.AdaBoost.WSVM đạt kết tốt giải thuật lại độ đo quan trọng SE, Gmean AUC bốn liệu Đặc biệt hai liệu có độ khơng cân cao Yeast Abalone, hầu hết giải thuật khác không phân loại nhãn dương giải thuật đề xuất Im.AdaBoost.WSVM ln cho kết phân loại chấp nhận độ đo quan trọng Như vậy, khẳng định vượt trội giải thuật đề xuất Im.AdaBoost.WSVM so với giải thuật lại liệu UCI 2.3.2 Thử nghiệm cho toán dự đoán đồng tác giả Trong thử nghiệm này, luận án sử dụng thơng tin từ tạp chí từ năm 2010 đến năm 2014 để tính tốn độ đo liên kết cặp tác giả xây dựng bảng liệu ứng cử viên đồng tác giả Cịn thơng tin từ tạp chí từ năm 2015 đến năm 2017 để xác định nhãn mẫu liệu Để đánh giá tổng quát hiệu suất thuật toán, luận án sử dụng kỹ thuật bootstrap tập liệu đồng tác giả để tạo 21 tập liệu con, tập liệu phụ chia thành ba nhóm có kích thước nhỏ (Nhóm I), trung bình (Nhóm II) lớn (Nhóm III) Mô tả chi tiết liệu trình bày Bảng 2.2 Với liệu, luận án mô tả việc thực bốn thử nghiệm với mục đích sau: Thử nghiệm 1: xác định giá trị tham số θ Im.AdaBoost phù hợp cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM thông qua việc khảo sát tập liệu 12 Bảng 2.2: Mô tả liệu đồng tác giả Nhóm I Bộ liệu Số mẫu Mẫu nhãn Mẫu nhãn % mẫu nhãn (Trung bình số mẫu = 1607) dương âm dương Co-Author 1800 360 1440 20% Nhóm II Co-Author 1710 270 1440 15% (Trung bình số mẫu = 2678) Co-Author 1620 180 1440 10% Co-Author 1584 144 1440 8% Nhóm III Co-Author 1548 108 1440 6% (Trung bình số mẫu = 4478) Co-Author 1512 72 1440 4% Co-Author 1476 36 1440 2% Co-Author 3000 600 2400 20% Co-Author 2850 450 2400 15% Co-Author 10 2700 300 2400 10% Co-Author 11 2640 240 2400 8% Co-Author 12 2580 180 2400 6% Co-Author 13 2520 120 2400 4% Co-Author 14 2460 60 2400 2% Co-Author 15 4800 600 4200 20% Co-Author 16 4650 450 4200 15% Co-Author 17 4500 300 4200 10% Co-Author 18 4440 240 4200 8% Co-Author 19 4380 180 4200 6% Co-Author 20 4320 120 4200 4% Co-Author 21 4260 60 4200 2% Thử nghiệm 2: đánh giá so sánh hiệu suất giải thuật đề xuất Im.AdaBoost.WSVM với thuật toán phân lớp CNN, Cây định, SVM, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, AdaBoost.WSVM, Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM tập liệu có kích thước nhỏ Nhóm I Thử nghiệm 3: đánh giá so sánh hiệu suất giải thuật đề xuất Im.AdaBoost.WSVM với thuật toán phân lớp CNN, Cây định, SVM, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, AdaBoost.WSVM, Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM tập liệu có kích thước vừa Nhóm II Thử nghiệm 4: đánh giá so sánh hiệu suất giải thuật đề xuất Im.AdaBoost.WSVM với thuật toán phân lớp CNN, Cây định, SVM, WSVM, AdaBoost.DecisionTree, AdaBoost.SVM, AdaBoost.WSVM, Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM tập liệu có kích thước lớn Nhóm III Thử nghiệm Trong thử nghiệm này, chúng tơi chạy thử nghiệm để tìm giá trị tham số tốt cho Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM tập liệu tạo cách khảo sát giá trị tham số θ ∈ {0.2, 0.5, 0.8, 1.1, 1.4, 1.7, 2.0} Đối với giá trị θ, luận án xem xét giá trị Gmean từ xác định giá trị tốt θ thuật toán cho Gmean tối đa Bảng 2.3 trình bày giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DecisionTree (Im.AdaBoost.DT), Im.AdaBoost.SVM Im.AdaBoost.WSVM chạy 21 tập liệu Rõ ràng, tập liệu tạo với tỷ lệ phần trăm mẫu dương +1 khác nhau, giá trị θ khác 13 Bảng 2.3: Các giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM liệu Co-Author ID Algorithms Group I Group II Group III (Co-Author − Co-Author 7) (Co-Author − Co-Author 14) (Co-Author 15 − Co-Author 21) 20% 15% 10% 8% 6% 4% 2% 20% 15% 10% 8% 6% 4% 2% 20% 15% 10% 8% 6% 4% 2% Im.AdaBoost.DecisionTree 1.7 1.1 1.4 0.5 1.4 1.1 1.7 2.0 0.2 1.1 0.8 1.4 1.4 2.0 1.4 1.4 0.2 2.0 2.0 1.7 Im.AdaBoost.SVM 1.7 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 1.7 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 Im.AdaBoost.WSVM 1.4 1.7 2.0 2.0 2.0 0.8 1.7 1.7 1.4 1.7 1.7 2.0 1.1 0.8 1.7 1.7 2.0 2.0 1.1 2.0 2.0 Thử nghiệm Trong thử nghiệm này, luận án so sánh hiệu suất Im.AdaBoost.WSVM với hiệu suất thuật toán phân lớp đề cập trên tập liệu có kích thước nhỏ Nhóm I Theo đó, đưa số quan sát dựa giá trị Gmean, SE, SP AU C sau • Khi tỷ lệ phần trăm mẫu dương +1 tập liệu giảm từ 20% xuống 2%, nghĩa tỷ lệ không cân mẫu dương +1 tăng lên, Im.AdaBoost.DecisionTree Im.AdaBoost.WSVM tìm thấy mức tối đa giá trị Gmean AU C Tuy nhiên, ba trường hợp Im.AdaBoost.DecisionTree tìm thấy giá trị tối đa Gmean, Im.AdaBoost.WSVM tìm thấy giá trị SE cao Im.AdaBoost.DecisionTree, nghĩa Im.AdaBoost.W- SVM phân lớp mẫu dương +1 xác Im.AdaBoost.DecisionTree • Khi phần trăm mẫu dương +1 tập liệu 10%, 8%, 6% 2%, Im.AdaBoost.SVM tìm thấy 100% SE, 0% Gmean 50% AU C, nghĩa phân lớp xác tất mẫu dương +1, phân lớp sai tất mẫu âm −1 Trong trường hợp này, Im.AdaBoost.WSVM tốt Im.AdaBoost.SVM việc phân lớp mẫu dương +1 mẫu âm −1 • Khi tỷ lệ mẫu dương +1 thấp (e.g., 2%), i.e., tỷ lệ không cân mẫu dương +1 âm −1 cao, tất SVM, CNN, WSVM, Thuật toán AdaBoost.DecisionTree AdaBoost.WSVM phân lớp sai tất mẫu dương +1 SE = 0, Im.AdaBoost.SVM phân lớp sai tất mẫu âm −1 SP = Chỉ có ba thuật toán bao gồm Cây định, Im.AdaBoost.DecisionTree Im.AdaBoost.WSVM phân lớp mẫu âm −1 mẫu dương +1 Tuy nhiên, số thuật toán này, Im.AdaBoost.WSVM thuật toán tốt để phân lớp xác mẫu dương +1 cho giá trị SE cao so với Cây định Im.AdaBoost.DecisionTree Trong số thuật toán này, luận án thấy Im.AdaBoost.DecisionTree Im.AdaBoost.WSVM vượt trội thuật toán khác việc phân lớp mẫu dương +1 âm −1 Tuy nhiên, Im.AdaBoost.WSVM tìm thấy giá trị SE cao Im.AdaBoost.DecisionTree, cho thấy Im.AdaBoost.WSVM phân lớp mẫu dương +1 xác Im.AdaBoost.DecisionTree Thử nghiệm Từ kết thử nghiệm giải thuật liệu nhóm II, rút số kết luận sau: • Im.AdaBoost.WSVM khơng tìm thấy giá trị tối đa Gmean AU C, mà cịn tìm thấy giá trị tối đa SE cho bảy tập liệu, nghĩa phân lớp mẫu dương +1 tốt thuật toán khác • Nhìn chung, thấy tỷ lệ phần trăm mẫu dương +1 tập liệu giảm từ 20% xuống 2%, Im tìm thấy độ lệch giá trị Gmean, AU C SE AdaBoost.WSVM so với giá trị tốt Gmean, AU C SE tìm thấy thuật tốn cịn lại tăng lên • Khi áp dụng phân lớp thành viên bao gồm Cây định, SVM WSVM cho Im.AdaBoost tạo thành giải thuật Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM, giải thuật cho giá trị Gmean, AU C SE cao hợn tương ứng so với AdaBoost.DecisionTree, AdaBoost.SVM AdaBoost.WSVM toàn tập liệu Điều cho thấy Im.AdaBoost cải thiện đáng kể khả phân biệt mẫu dương +1 âm −1 so với AdaBoost ban đầu 14 Ngoài ra, tỷ lệ phần trăm mẫu dương +1 tập liệu giảm từ 20% xuống 2%, Im.AdaBoost.WSVM đạt giá trị Gmean giảm từ 91.58% xuống 87.99%, SE tăng từ 94.67% lên 100% SP giảm từ 88.60% xuống 77.53% Điều có nghĩa giá trị Gmean, SE SP Im.AdaBoost.WSVM tìm thấy thay đổi không đáng kể tỷ lệ phần trăm mẫu dương +1 giảm đáng kể Nói cách khác, Im.AdaBoost.WSVM có hiệu việc phân lớp mẫu liệu có mức độ khơng cân cao Nhóm II Thử nghiệm Thử nghiệm giải thuật liệu Nhóm III (có số lượng mẫu lớn nhiều so với liệu Nhóm I Nhóm II) Dựa vào kết thử nghiệm rút số nhận xét sau: • Im.AdaBoost.WSVM tìm thấy giá trị tối đa Gmean AU C cho tập liệu giá trị tối đa SE cho tập liệu Tuy nhiên, tỷ lệ phần trăm mẫu dương +1 tập liệu 2%, Im.AdaBoost.SVM tìm thấy 100% SE 0% SP , nghĩa Im.AdaBoost.SVM phân lớp sai tất mẫu −1 thành mẫu +1 Do đó, Im.AdaBoost.WSVM hoạt động tốt thuật tốn so sánh việc phân lớp xác mẫu dương +1 liệu • Nhìn chung, tỷ lệ phần trăm mẫu dương +1 giảm, độ lệch giá trị Gmean, AU C SE Im.AdaBoost.WSVM tìm thấy so với giá trị cao Gmean SE tìm thấy thuật toán khác tăng lên Điều có nghĩa Im.AdaBoost.WSVM hiệu thuật tốn khác tỷ lệ khơng cân tăng lên • Như kết Thử nghiệm 2, thấy áp dụng phân lớp thành viên bao gồm Cây định, SVM WSVM cho Im.AdaBoost, Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM cho giá trị tương ứng Gmean, AU C SE cao so với AdaBoost.DecisionTree, AdaBoost.SVM AdaBoost.WSVM cho bảy tập liệu Điều lần cho thấy Im.AdaBoost có ý nghĩa quan trọng vượt trội AdaBoost ban đầu khả phân biệt mẫu dương +1 âm −1 Tóm lại, kết ba thử nghiệm cho thấy Im.AdaBoost.WSVM vượt trội thuật toán so sánh tỷ lệ không cân mẫu dương mẫu âm tăng lên Khi số lượng mẫu liệu tập liệu nhiều, Im.AdaBoost.WSVM thể rõ ràng việc phân lớp xác mẫu dương +1 tập liệu 2.4 Kết luận chương Trong Chương luận án đề xuất giải thuật có tên Im.AdaBoost cho liệu không cân với hai cải tiến dựa AdaBoost Cụ thể, luận án đề xuất hai cải tiến cho AdaBoost là: (i) khởi tạo tập trọng số lỗi khác thích nghi với tỷ lệ khơng cân tập liệu, sử dụng tham số điều chỉnh θ; (ii) tính tốn trọng số độ tin cậy phân lớp thành viên dựa độ nhạy tổng lỗi gây mẫu nhãn dương Cụ thể hơn, phân lớp thành viên phân lớp sai mẫu dương nhiều trọng số tin cậy phân lớp giảm xuống Chúng sử dụng thuật toán WSVM phân lớp thành viên Im.AdaBoost.WSVM để phân lớp tập liệu không cân Các thử nghiệm liệu UCI liệu đồng tác giả tự xây dựng với kích thước tỷ lệ khơng cân khác cho thấy thuật toán Im.AdaBoost.WSVM hiệu vấn đề phân lớp liệu không cân nói chung tốn dự đốn đồng tác giả mơ hình hóa theo dạng tốn phân lớp nói riêng Kết nghiên cứu chương công bố báo [CT.1] [CT.3] danh mục cơng trình cơng bố luận án 15 Chương ĐỀ XUẤT THUẬT TỐN ĐIỀU CHỈNH THÍCH NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL Trong chương luận án đề xuất thuật tốn điều chỉnh trọng số mờ thích nghi dựa Fuzzy SVM-CIL gọi AFW-CIL cho toán dự đoán đồng tác giả theo dạng học liệu không cân hai lớp Cụ thể, thuật toán AFW-CIL xây dựng dựa hai đề xuất gồm: (i) xây dựng hàm thuộc mờ cho mẫu liệu dựa khoảng cách từ mẫu đến tâm lớp thiểu số lớp đa số, (ii) phương pháp điều chỉnh thích nghi trọng số mờ mẫu nhạy cảm định vị dựa cặp Tomek link không gian lề phân lớp SVM mẫu nhiễu Bằng cách đó, thuật toán làm tăng ảnh hưởng mẫu thiểu số giảm ảnh hưởng mẫu đa số việc huấn luyện mơ hình phân lớp Các thử nghiệm thực liệu chuẩn UCI liệu bảng ứng viên đồng tác giả tự xây dựng với nhiều kích thước tỷ lệ không cân khác để đánh giá hiệu suất phân lớp thuật toán đề xuất so sánh trực tiếp với thuật toán Fuzzy SVM-CIL 3.1 Đặt vấn đề Lin cộng đề xuất thuật tốn Fuzzy SVM, họ sử dụng trọng số mờ cho mẫu để đưa vào SVM Batuwita cộng đề xuất thuật toán Fuzzy SVM-CIL dựa thuật toán Fuzzy SVM để cải thiện hiệu phân lớp cho tập liệu không cân Fuzzy SVM-CIL sử dụng hàm thuộc mờ để ưu tiên gán giá trị trọng số lớn cho mẫu thiểu số giá trị nhỏ cho mẫu đa số Các hàm thuộc mờ tính tốn dựa khoảng cách đo công thức 1.4–1.9 Sau đây, gọi Fuzzy SVM FSVM, Weighted-SVM WSVM Fuzzy SVM-CIL FSVM-CIL luận án thấy công thức (1.4, 1.5) Fuzzy SVM-CIL, hàm thuộc mờ xem xét khoảng cách từ mẫu đến tâm lớp chúng mà không xét đến tâm lớp Do đó, Fuzzy SVM-CIL khơng hiệu trường hợp mẫu có khoảng cách đến tâm lớp chúng có khoảng cách khác đến tâm lớp đối lập Bên cạnh đó, Tomek Links KNN hai thuật tốn cho phép định vị mẫu liệu không gian phân bố mẫu Kết hợp với biên lề phân lớp SVM, luận án gán điều chỉnh trọng số cho mẫu để tầm quan trọng mẫu việc xây dựng mơ hình phân lớp Cụ thể, mẫu cặp Tomek link (TLP) bị nhiễu, giảm mạnh trọng số nó, cặp TLP nằm ranh giới phân lớp, tăng trọng số mẫu thiểu số giảm trọng số mẫu đa số Từ luận án đề xuất hàm thuộc mờ để xác định trọng số mờ cho mẫu phương pháp điều chỉnh thích nghi giá trị trọng số mờ thích nghi cho tốn học liệu khơng cân dựa vị trí mẫu vùng nhạy cảm (như biên lề, mẫu nhiễu) xác định TLPs 3.2 Đề xuất thuật toán trọng số mờ thích nghi 3.2.1 Đề xuất hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM Trong FSVM-CIL, hàm thuộc mờ tính tốn dựa khoảng cách từ mẫu đến tâm lớp theo cơng thức (1.4, 1.5) mẫu gần tâm lớp coi có ảnh hưởng cao đó, chúng có giá trị trọng số mờ cao Ngược lại, mẫu xa trung tâm lớp chúng có giá trị trọng số mờ thấp Chúng nhận thấy việc đơn giản khơng đầy đủ Với ví dụ, giả sử C+ C− tâm hai tập mẫu gán nhãn +1 −1 tương ứng xp, xq xt mẫu gán nhãn +1 có khoảng cách R đến tâm C+, có nghĩa d(xp, C+) = d(xq, C+) = d(xt, C+) = R Các giá trị trọng số mờ m+p , m+ mt+ xp, xq xt tính tốn hàm thuộc mờ f (xp), q f (xq), f (xt) đưa Công thức (1.3), f (xp) = f (xq) = f (xt) r+ = Điều có nghĩa ba mẫu xp, xq, xt quan trọng việc góp phần hình thành mơ hình phân lớp Tuy nhiên, chúng tơi thấy vị trí ba mẫu đến trung tâm C− lớp đối diện rõ ràng khác nhau: d(xp, C−) > d(xq, C−) > d(xt, C−) Xét mặt ý nghĩa, xt mẫu nhạy cảm, 16 gần trung tâm C− Mức độ ảnh hưởng mơ hình phân lớp xp phải lớn xq xq phải lớn so với xt, tức m+ > m+ > m+t Vì vậy, luận án đề xuất hàm thuộc p q mờ dựa việc xem xét khoảng cách từ mẫu đến tâm hai lớp Cụ thể, xi mẫu liệu, hàm thuộc mờ cho mẫu xi định nghĩa bởi: cen_2c dxicen_opp (3.1) flin (xi) = cen_own cen_opp , dxi + dcen_own + ∆ dxi cen_opp khoảng cách từ xi đến tâm lớp đối diện, dxi cen_own khoảng cách từ xi đến tâm lớp nó, dcen_own cen_opp khoảng cách tâm hai lớp ∆ số dương nhỏ Thuật toán 3.1: AdjFW: Điều chỉnh trọng số mờ dựa TLPs Input : D, ht, K, σ1, σ2, σ3, σ4, mi+, mi−, tập chứa cặp Tomek link T LP s = {} Output: {mi+, mi−}, i = 1, 2, · · · , N for i = to N tìm mẫu hàng xóm gần (xj, yj) (xi, yi); if (xi, yi) hàng xóm gần (xj, yj) then if (xi, xj) ∈/ T LP s (yi̸ = yj) then T LP s = T LP s ∪ {(xi, xj)}; for với (xi, xj) ∈ T LP s thỏa mãn yi = yj = −1 if ht(xi) = ht(xj ) = then mi+ = mi+ × (1 + σ1); mj− = mj− × (1 − σ1); 10 if hKNN(xjk ) = then 11 mj− = mj− × σ2; 12 if ht(xi) = −1 ht(xj ) = −1 then 13 mi+ = mi+ × (1 + σ3); 14 mj− = mj− × (1 − σ3); 15 if hKNN(xik ) = −1 then 16 mi+ = mi+ × σ4; 17 return {mi+, mi−}, i = 1, 2, · · · , N ; Cho tập liệu D = {(x1, y1), , (xN , yN )} of N mẫu, yi ∈ {−1, +1}, ∀i = 1, 2, · · · , N , đặt r+ = biểu diễn r− tỷ lệ không cân số lượng mẫu thiểu số so với số lượng mẫu đa số Thuật tốn chúng tơi để tìm giá trị trọng số mờ mi+ mi− cho xi ∈ D biểu diễn Thuật toán 3.1 Tại lần lặp, thuật tốn tính hàm thuộc mờ flin cen_2c cho mẫu xi Công thức (3.1) với ∆ = 10(−6) Nếu mẫu xi thuộc lớp thiểu số, tức yi = +1, mi+ giá trị độ thuộc mờ xi r+ = Ngược lại, mi− giảm r− Sau qua N vịng lặp, thuật tốn trả tập hợp giá trị trọng số mờ {m+i , m−i } cho mẫu xi ∈ D, (i = 1, 2, , N ) 3.2.2 Phương pháp điều chỉnh trọng số mẫu nhạy cảm dựa KNN Tomek link luận án đề xuất giải pháp sử dụng thuật toán Tomek Links kết hợp KNN SVM để xác định mẫu nhạy cảm thiết kế bốn quy tắc điều chỉnh trọng số mờ để kiểm soát tác động chúng việc huấn luyện mơ hình phân lớp Trong ưu tiên tầm quan trọng mẫu dương, giảm tầm quan trọng mẫu âm giảm đáng kể ảnh hưởng mẫu nhiễu Hình 3.2 minh họa trường hợp mẫu nhạy cảm xác định dựa vị trí tương đối TLP với K-hàng xóm gần chúng, với K = Các biểu tượng “+” “−” đại diện cho mẫu lớp dương âm tương ứng Một cặp TLP rơi vào bốn trường hợp: (1) lề dương, (2) lề dương phân lớp nhiễu âm, (3) lề âm (4) bên lề âm phân lớp nhiễu dương Phương pháp điều chỉnh trọng số mờ trình bày Thuật tốn 3.2, ht phân lớp WSVM, hKNN phân lớp KNN, K số lượng hàng xóm gần cho mẫu định xi, tập tham số {σ1, σ2, σ3, σ4} sử dụng để điều chỉnh trọng số mờ Thuật toán hoạt động sau: Đầu tiên, xác định tập cặp TLP {(xi, xj)} (các dịng 3-10) Sau đó, cặp (xi, xj) ∈ TLPs thỏa mãn điều kiện yi = yj = −1, thuật toán kiểm tra điều chỉnh trọng số mờ dựa trường hợp minh họa Hình 3.2: 17 Hình 3.2: Một minh họa bốn trường hợp cho mẫu nhạy cảm tìm thấy TLPs Nếu ht phân lớp xi xj vào lớp dương, nghĩa ht(xi) = ht(xj) = 1, tức cặp (xi, xj) nằm lề dương (trường hợp 1) thì: trọng số mờ mi+ điều chỉnh tăng σ1 để tăng ảnh hưởng xi, trọng số mờ mj− điều chỉnh giảm σ1 để giảm ảnh hưởng xj (các dịng 13-14) Tuy nhiên, K-hàng xóm gần xjk (jk = 1, 2, · · · , K) xj thuộc lớp dương, nghĩa xj nhiễu âm (trường hợp 2), điều chỉnh giảm mạnh mj− σ2 (các dòng 15-17) Vì vậy, điều kiện σ1 σ2 chọn cho < σ1 < 0.5 < σ2 < Nếu ht phân lớp xi xj vào lớp âm, nghĩa ht(xi) = −1 ht(xj) = −1, tức cặp (xi, xj) nằm lề âm (trường hợp 3), thì: trọng số mờ mi+ điều chỉnh tăng σ3 để tăng ảnh hưởng xi, trọng số mờ mj− điều chỉnh giảm σ3 để giảm ảnh hưởng xj (các dòng 20-21) Tuy nhiên, K-hàng xóm gần xik (ik = 1, 2, · · · , K) xi thuộc lớp âm, nghĩa xi nhiễu dương (trường hợp 4), điều chỉnh giảm mạnh mi+ σ4 (các dịng 22-24) Vì vậy, điều kiện σ3 σ4 chọn cho < σ3 < 0.5 < σ4 < Thuật toán 3.2: AdjFW: Điều chỉnh trọng số mờ dựa TLPs Input : D, ht, K, σ1, σ2, σ3, σ4, mi+, mi−, tập chứa cặp Tomek link T LP s = {} Output: {mi+, mi−}, i = 1, 2, · · · , N for i = to N tìm mẫu hàng xóm gần (xj, yj) (xi, yi); if (xi, yi) hàng xóm gần (xj, yj) then if (xi, xj) ∈/ T LP s (yi̸ = yj) then T LP s = T LP s ∪ {(xi, xj)}; for với (xi, xj) ∈ T LP s thỏa mãn yi = yj = −1 if ht(xi) = ht(xj ) = then mi+ = mi+ × (1 + σ1); mj− = mj− × (1 − σ1); 10 if hKNN(xjk ) = then 11 mj− = mj− × σ2; 12 if ht(xi) = −1 ht(xj ) = −1 then 13 mi+ = mi+ × (1 + σ3); 14 mj− = mj− × (1 − σ3); 15 if hKNN(xik ) = −1 then 16 mi+ = mi+ × σ4; 17 return {mi+, mi−}, i = 1, 2, · · · , N ; 3.2.3 Thuật toán phân lớp với trọng số mờ thích nghi Chúng tơi đề xuất hai thuật tốn phân lớp có tên F-AWA AFW-CIL cho liệu hai nhãn lớp không cân Trong thuật tốn F-AWA sử dụng hàm thuộc mờ kế thừa từ FSVM-CIL trình bày Thuật toán 3.3, thuật toán AFW-CIL sử dụng hàm thuộc mờ giàu ngữ nghĩa flin cen_2c(xi) tính Cơng thức (3.1) trình bày Thuật tốn 3.4 Trong thuật tốn 18

Ngày đăng: 05/03/2024, 18:41

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan