Mặc dù phương pháp tìm kiếm tham số trên lưới là thông dụng trong Y-Sinh nhưng nhược điểm cơ bản của nó là khơng thể tìm kiếm trên lưới dày (bước lưới nhỏ) vì vậy, khi đó khơng cải thiện được lời giải. Để tăng chất lượng dự đoán, luận án đề xuất ứng dụng thuật toán di truyền [26] và phương pháp ACO [23] để xác định tham số SVM.
6.2. Thuật toán di truyền tìm tham số cho SVM dùng trong dự đoán hoạt động điều tiết gen
Luận án sử dụng phần mềm SVM [73] để phân biệt lần lượt từng lớp một, như cách làm của Zinzen [71]. Như vậy, nhãn của các mẫu dữ liệu có dạng nhị phân, thuộc lớp thì có nhãn bằng 1, ngược lại nhãn bằng -1.
Trong [26] luận án đã đề xuất thuật toán di truyền để tìm tham số cho SVM dùng trong bài toán dự đoán hoạt động điều tiết gen. Thuật toán di truyền đã được nói rõ trong [57]. Luận án xác định hàm mục tiêu, mã hóa tham số cần tìm, xác định các toán tử đột biến và tương giao chéo rồi dùng gói phần mềm dựa trên ngơn ngữ R ở địa chỉ [74] để tìm tham số tốt nhất.
6.2.1. Mã hóa các tham số cần tìm
Luận án đề xuất cách mã hoá nhị phân 51 bit để biễu diễn hai tham số và . Tham số nhận giá trị từ 10-2
đến 105 được biểu diễn bằng một dãy 24 bit, và nhận giá trị 10-6 đến 102 được biểu diễn bằng một dãy 27 bit. Như vậy, việc tìm và
tương ứng với việc tìm một dãy 51 bit, trong đó 24 bit đầu tiên là mơ tả cho , 27 bit tiếp theo mô tả cho như mơ tả trong hình 6.3.