Trong phần này, chúng tôi sẽ tiến hành một nghiên cứu trên các tham số của giải thuật SSA mà nhóm chúng tôi đề xuất để đánh giá hành vi thăm dò và khai thác của nó trong công đoạn lựa chọn đặc trưng của bài toán phân lớp tế bào bạch cầu. Biến thể cải tiến hơn của SSA này sẽ được hiện thực để cho thấy độ hiệu quả của giải thuật trong việc giảm tỷ lệ lỗi phân loại sử dụng bộ phân loại SVM với kernel linear.
Để chứng minh tính tối ưu của giải thuật, chúng tôi sử dụng chiến lược chia ngẫu nhiên tập dữ liệu thành tập huấn luyện và tập kiểm thử như sau: 80% để huấn luyện (tách 80% để huấn luyện và 20% để kiểm tra nội sử dụng kiểm tra chéo 5-fold) và 20% để kiểm tra sau cùng. Hai tập tách biệt hoàn toàn với nhau. Đối với tập ALL-IDB2, tỷ lệ này tương ứng với 208 và 52 ảnh, trong khi tập C-NMC lần lượt là 8529 và 2132 ảnh. Để đảm bảo tính thống kê của các kết quả, việc chia tập dữ liệu này sẽ được thực hiện trong 20 lần chạy độc lập. Vì vậy các kết quả thống kê thu được sẽ dựa trên 20 lần chạy độc lập này và lấy trung bình.
Phương pháp phân loại này được hiện thực bằng ngôn ngữ Python 3 trên hệ điều hành Windows 10 64 bit sử dụng một CPU Core i5-8250U và 8 GB RAM. Phần trích xuất đặc trưng bộ dữ liệu hình ảnh bạch cầu sử dụng thư viện Keras dùng GPU của Google Colab.
Kích thước quần thể của chuỗi salp được sử dụng trong nghiên cứu này là 20 và số vòng lặp tối đa của giải thuật là 100. Các kết quả được thống kê đều dựa trên tập kiểm thử. Các tham số của giải thuật được trình bày trong bảng 5.1.
Tham số Giá trị Ý nghĩa
α 0.99 Trọng số trong hàm mục tiêu NIters 100 Số vòng lặp tối đa
NAgents 10 Kích thước của quần thể chuỗi salp
NRuns 20 Số lần chạy
Không gian bài toán Số lượng đặc trưng trong dataset Không gian tìm kiếm Vector nhị phân[0,1]
ω 0.7 Trọng số quán tính
Bảng 5.1:Danh sách các tham số của giải thuật