Hàm thích nghi định nghĩa tiêu chuẩn để xếp hạng các giả thuyết tiềm ẩn và để chọn lọc chúng theo xác suất để đưa vào quần thể thế hệ kế tiếp. Nếu tác vụ là học các luật phân loại, thì hàm thích nghi thông thường có một thành phần cho điểm độ chính xác phân loại của luật trên tập mẫu huấn luyện được cho. Thường các tiêu chuẩn khác có thể được bao hàm, chẳng hạn như độ phức tạp và mức độ tổng quát của luật. Một cách tổng quát hơn, khi giả thuyết chuỗi bit được hiểu như là một thủ tục phức tạp (ví dụ, khi chuỗi bit thể hiện tập chọn lọc, các luật if-then sẽ được móc xích với nhau, để điều khiển thiết bị robot), hàm thích nghi có thể đo hiệu suất tổng của thủ tục kết quả hơn là hiệu suất của các luật riêng biệt.
30
Trong thuật giải GA mẫu được chỉ trong bảng 3.1, xác suất để một giả thuyết được chọn được cho bởi tỉ số của độ thích nghi của nó với độ thích nghi của các thành viên khác của quần thể hiện tại, như đã thấy trong phương trình tính giá trị thích nghi. Phương pháp này thỉnh thoảng thường được gọi là sự chọn lọc tỉ lệ độ thích nghi, hoặc sự chọn lọc vòng roulette. Các phương pháp khác dùng độ thích nghi để chọn lọc các giả thuyết cũng sẽ được đề xuất. Ví dụ, sự chọn lọc kiểu vòng thi đấu, hai giả thuyết đầu tiên được chọn ngẫu nhiên từ quần thể hiện tại. Với một vài xác suất p được định nghĩa trước hai cá thể này càng phù hợp càng được chọn và với xác suất (1 – p) giả thuyết càng ít phù hợp càng được chọn. Sự chọn lọc theo vòng thi đấu thường tạo ra quần thể khác nhau nhiều hơn so với sự chọn lọc tỉ lệ với độ thích nghi (Goldberg và Deb 1991). Trong phương pháp sự chọn lọc theo hạng, các giả thuyết trong quần thể hiện tại đầu tiên sẽ được sắp xếp theo độ thích nghi. Xác suất để giả thuyết sẽ được chọn tỉ lệ với hạng của nó trong danh sách đã sắp xếp hơn là độ thích nghi của nó.
31
Chương 4: Minimax probability machine
4.1. Giới thiệu
Xuất phát từ bài toán phân lớp, giả sử cho tập dữ liệu trong đó các thuộc tính của các phần tử là các triệu chứng của bệnh nhân bị bệnh ung thư chẳng hạn . Nhiệm vụ chính là phân biệt được người bị bệnh và người không bị bệnh . Ở đây gọi lớp X là nhóm người không bị bệnh và lớp Y là nhóm người bị bệnh.
Minimax probability machine là một thuật toán phân hai lớp dữ liệu, cung cấp một giới hạn cho xác suất phân loại sai trong trường hợp xấu nhất dựa trên những đánh giá đáng tin cậy về giá trị trung bình và ma trận hiệp phương sai của các lớp trong tập dữ liệu huấn luyện.
4.2. Nội dung thuật toán
Trong bài toán phân lớp ta cần đi tìm một siêu phẳng (nếu hiểu trong mặt phẳng thì nó là một đường thẳng) chia tập dữ liệu ra làm hai, siêu phẳng cụ thể có dạng tổng quát là [16]:
𝑎𝑇𝑧 = 𝑏(𝑎, 𝑧 ∈ 𝑅𝑛, 𝑎 ≠ 0, 𝑏 ∈ 𝑅)
Để tìm được một siêu phẳng tối ưu nhất (tức là phân chia tốt nhất) cần thực hiện quá trình hu ấn luyện (training). Như vậy tập dữ liệu sẽ phải c hia ra làm tập training và tập test. Tập training dùng để tìm ra siêu phẳng . Sau đó ta dùng tập test để xem rằng độ chính xác của siêu phẳng đó là bao nhiêu và có tốt hay không?
Trong MPM dữ liệu được phân ra làm hai lớp bằng cách cực tiểu hóa xác suất phân lớp sai của dữ liệu tương lai trong trường hợp xấu nhất [16]:
𝐦𝐚𝐱
𝛼,𝑎≠0,𝑏𝛼 𝑠. 𝑡 inf 𝑃𝑟 𝑎𝑇𝑥 ≥ 𝑏 ≥ 𝛼 , inf 𝑃𝑟 𝑎𝑇𝑦 ≤ 𝑏 ≥ 𝛼
Trong đó: 𝛼 đại diện cho cận dưới của độ chính xác đối với dữ liệu tương lại, được gọi là độ chính xác trong trường hợp xấu nhất.
Như vậy MPM sẽ có các yếu tố a, b, 𝛼 được xác định. Bài toán phân lớp đặt ra trong hai trường hợp:
Tập dữ liệu là tuyến tính, khi đó các điểm dữ liệu mới sẽ được phân chia bởi dấu hiệu 𝑠𝑖𝑔𝑛(𝑎∗𝑇𝑧𝑛𝑒𝑤 − 𝑏∗) nếu dấu này là +1, khi đó 𝑧𝑛𝑒𝑤 ∈ 𝑋, ngược lại thì 𝑧𝑛𝑒𝑤 ∈ 𝑌.
32
Tập dữ liệu là phi tuyến, khi đó sử dụng một hàm kernel để đưa không gian gốc về một không gian đặc biệt, ở đó dữ liệu là tuyến tính, khi đó việc phân lớp sẽ được thực hiện trên không gian đặc biệt đó , chiếu tới một không gian đặc biệt 𝑅𝑓 qua ánh xạ sau 𝜑: 𝑅𝑛 → 𝑅𝑓, hàm kernel 𝐾 𝑧1, 𝑧2 = 𝜑 𝑧1 𝑇𝜑(𝑧2) thỏa mãn điều kiện Mercer (điều kiện để một hàm là Kernel). Khi đó việc phân lớp điểm dữ liệu mới 𝑧𝑛𝑒𝑤 được thực hiện bằng cách đánh giá:
𝑠𝑖𝑔𝑛 𝑎∗𝑇𝜑 𝑧𝑛𝑒𝑤 − 𝑏∗ = 𝑠𝑖𝑔𝑛 𝑁𝑥+𝑁𝑦 𝑟∗ 𝐾 𝑧𝑖, 𝑧𝑛𝑒𝑤
𝑖=1 − 𝑏∗
Nếu giá trị này bằng +1 khi đó 𝑧𝑛𝑒𝑤 ∈ 𝑋, ngược lại thì 𝑧𝑛𝑒𝑤 ∈ 𝑌.