Giải thuật di truyền [32]

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 35 - 38)

CHƢƠNG 2 : THUẬT TOÁN RANDOM FOREST VÀ GIẢI THUẬT DI TRUYỀN

2.5 Giải thuật di truyền [32]

2.5.1 Giới thiệu

Thuật toán di truyền [2, 32] là thuật toán tối ƣu ngẫu nhiên dựa trên cơ chế chọn lọc tự nhiên và tiến hóa di truyền. Thuật toán di truyền đƣợc ứng dụng đầu tiên trong hai lĩnh vực chính: tối ƣu hóa và học máy. Trong lĩnh vực tối ƣu hóa thuật toán di truyền đƣợc phát triển nhanh chóng và ứng dụng trong nhiều lĩnh vực khác nhau nhƣ tối ƣu hàm, xử lý ảnh, bài toán hành trình ngƣời bán hàng, nhận dạng hệ thống và điều khiển. Thuật toán di truyền cũng nhƣ các thuật toán tiến hóa nói chung, hình thành dựa trên quan niệm cho rằng, quá trình tiến hóa tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó đã mang tính tối ƣu. Quan niệm này có thể xem nhƣ một tiên đề đúng, không chứng minh đƣợc, nhƣng phù hợp với thực tế khách quan. Quá trình tiến hóa

(4) (3)

thể hiện tính tối ƣu ở chỗ, thế hệ sau bao giờ cũng tốt hơn (phát triển hơn, hoàn thiện hơn) thế hệ trƣớc bởi tính kế thừa và đấu tranh sinh tồn [2].

2.5.2 Nội dung giải thuật di truyền

Bài toán dành cho giải thuật di truyền là tìm kiếm trên không gian các giả thuyết ứng cử để xác định giả thuyết tốt nhất. Trong giải thuật di truyền “giả thuyết tốt nhất” đƣợc định nghĩa nhƣ là một giả thuyết tối ƣu hóa một đại lƣợng số đƣợc định nghĩa trƣớc cho bài toán sắp tới, đƣợc gọi là độ thích nghi của giả thuyết. Ví dụ, nếu tác vụ học hỏi là bài toán xấp xỉ một hàm chƣa biết cho tập mẫu huấn luyện gồm dữ liệu đầu vào và dữ liệu đầu ra, thì độ thích nghi có thể đƣợc định nghĩa nhƣ là độ chính xác của giả thuyết trên dữ liệu huấn luyện này. Nếu tác vụ là học chiến lƣợc chơi cờ, độ thích nghi có thể là số ván thắng của chiến lƣợc này khi đấu với các chiến lƣợc khác trong quần thể hiện tại.

Mặc dù các thuật giải di truyền đƣợc thực hiện thay đổi theo bài toán cụ thể, nhƣng chúng chia sẻ chung cấu trúc tiêu biểu sau: Thuật giải hoạt động bằng cách cập nhật liên tục tập giả thuyết – đƣợc gọi là quần thể. Ở mỗi lần lặp, tất cả các cá thể trong quần thể đƣợc ƣớc lƣợng tƣơng ứng với hàm thích nghi. Rồi quần thể mới đƣợc tạo ra bằng cách lựa chọn có xác suất các cá thể thích nghi tốt nhất từ quần thể hiện tại. Một số trong những cá thể đƣợc chọn đƣợc đƣa nguyên vẹn vào quần thể kế tiếp. Những cá thể khác đƣợc dùng làm cơ sở để tạo ra các cá thể con bằng cách áp dụng các tác động di truyền: lai ghépđột biến.

Nội dung của giải thuật di truyền mẫu đƣợc phát biểu nhƣ sau [32]:

GA (Fitness, Fitness_threshold, p, r, m)

{ // Fitness: hàm gán thang điểm ước lượng cho một giả thuyết.

// Fitness_threshold: Ngưỡng xác định tiêu chuẩn dừng giài thuật tìm kiếm.

// p: Số cá thể trong quần thể giả thuyết.

// r: Phân số cá thể trong quần thể được áp dụng toán tử lai ghép ở mỗi bước.

// m: Tỉ lệ cá thể bị đột biến.

 Khởi tạo quần thể: P Tạo ngẫu nhiên p cá thể giả thuyết

 Ước lượng: Ứng với mỗi h trong P, tính Fitness(h)

while [max Fitness(h)] < Fitness_threshold do

Tạo thế hệ mới, PS

1. Chọn cá thể: chọn theo xác suất (1 – r)p cá thể trong quần thể P thêm vào PS.

Xác suất Pr(hi) của giả thuyết hi thuộc P được tính bởi công thức:

𝐏𝐫 hi = Fitness (hi)

Fitness (hj) p

j=1

2. Lai ghép: chọn lọc theo xác suất

2

rp

cặp giả thuyết từ quần thể P, theo Pr(hi)

đã tính ở bước trên. Ứng với mỗi cặp <h , h >, tạo ra hai con bằng cách áp dụng

3. Đột biến: Chọn m% cá thể của PS với xác suất cho mỗi cá thể là như nhau. Ứng với mỗi cá thể biến đổi một bit được chọn ngẫu nhiên trong cách thể hiện của nó. 4. Cập nhật: PPS.

5. Ước lượng: Ứng với mỗi h trong P, tính Fitness(h)

 Trả về giả thuyết trong P có độ thích nghi cao nhất.

}

Quần thể gồm p cá thể. Ở mỗi lần lặp, quần thể kế tiếp PS đƣợc hình thành từ việc lựa chọn theo xác suất các giả thuyết hiện tại theo độ thích nghi của chúng và bằng cách thêm vào các giả thuyết mới. Các giả thuyết mới đƣợc tạo ra bằng cách áp dụng toán tử lai ghép cho cặp giả thuyết thích nghi nhất và bằng cách tạo ra các đột biến điểm đơn trong thế hệ giả thuyết kết quả. Quá trình này đƣợc lặp cho đến khi các giả thuyết thích hợp đƣợc phát hiện.

Một thuật giải di truyền mẫu đƣợc mô tả ở trên, các đầu vào cho thuật giải này bao gồm hàm tính độ thích nghi để tính hạng cho các giả thuyết ứng cử, một giá trị ngƣỡng đƣợc định nghĩa cấp độ thích nghi có thể chấp nhận để kết thúc thuật giải, kích thƣớc quần thể, và các tham số quyết định các quần thể kế tiếp đƣợc tạo ra nhƣ thế nào: phần quần thể bị thay thế ở mỗi thế hệ và tỉ lệ đột biến.

Lƣu ý trong thuật giải này, ở mỗi bƣớc lặp qua vòng lặp chính tạo ra một thế hệ mới các giả thuyết dựa vào quần thế hệ hiện tại. Trƣớc tiên, một số giả thuyết đƣợc chọn từ quần thể hiện tại để đƣa vào thế hệ kế tiếp. Những giả thuyết này đƣợc chọn theo xác suất, ở đây xác suất của giả thuyết đƣợc tính bởi [32]:

Pr ℎ𝑖 = 𝐹𝑖𝑡𝑛𝑒𝑠𝑠 ℎ𝑖 𝐹𝑖𝑡𝑛𝑒𝑠𝑠 ℎ𝑗

𝑝 𝑗 =1

Vì vậy, xác suất để giả thuyết đƣợc chọn tỉ lệ với độ thích nghi của nó và tỉ lệ nghịch với độ thích nghi của các giả thuyết cạnh tranh khác trong quần thể hiện tại.

Một khi các cá thể này của thế hệ hiện tại đã đƣợc chọn để đƣa vào quần thể thế hệ kế tiếp, các cá thể thêm vào đƣợc tạo ra dùng toán tử lai ghép. Lai ghép, đƣợc định nghĩa một cách dễ hiểu là lấy hai giả thuyết từ thế hệ hiện tại và tạo ra hai giả thuyết con bằng cách kết hợp các phần của hai giả thuyết cha. Các giả thuyết cha đƣợc chọn theo xác suất từ quần thể hiện tại, sử dụng hàm xác suất đƣợc định nghĩa ở trên. Sau khi các cá thể mới đƣợc tạo ra từ hoạt động lai ghép này, quần thế thế hệ mới bây giờ có đủ số lƣợng thành viên mong muốn. Lúc này, một phân số m nào đó các cá thể này đƣợc chọn một cách ngẫu nhiên và tất cả các đột biến ngẫu nhiên đƣợc thực hiện để thay đổi các cá thể này.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 35 - 38)

Tải bản đầy đủ (PDF)

(74 trang)