III. Bài tập và thí nghiệm chương
HỌC TĂNG CƯỜNG 8.1 Các giải thuật tiến hóa
8.1. Các giải thuật tiến hóa
Trong trí tuệ nhân tạo nói chung và trong học máy nói riêng, một trong các khuynh hướng mang tính chủ đạo là thơng minh hóa máy móc bằng cách phỏng sinh học. Điều này thể hiện bởi việc phỏng não người, ta có lĩnh vực mạng nơ ron; học máy ta có các thuật tốn dựa theo hoạt động và tư duy của người và tính tốn tối ưu dựa vào thuyết tiến hóa. Việc nghiên cứu các
mơ hình tiến hóa cho phép chúng ta đưa ra các thuật tốn học mơ phỏng tự nhiên như: thuật tốn di truyền trong CNTT (GA: Genetic Algorithm), tối ưu đàn kiến (ACO: Ant Colony
Optimization), tối ưu bầy đàn (PSO: Particle Swam Optimization), hệ miễn dịch nhân tạo (AIS Artificial Immune System), thuật toán luyện thép (SA: Steel Annealing) v.v… Các thuật tốn
phỏng sinh học này khơng chỉ áp dụng để tạo các ra các chương trình phần mềm để đưa vào mơ phỏng như trong phần mềm MATLAB, các phần mềm mã nguồn mở, các phần mềm xử lý
ảnh, xử lý tiếng nói, xử lý ngơn ngữ tự nhiên khác mà cịn nhúng vào trong các thiết bị điều khiển, nhất là trong các thiết bị điều khiển thông minh.
Trong phạm vi chương trình này, giới thiệu giải thuật điển hình, phổ biến, đó là giải thuật di truyền GA, dựa trên học thuyết di truyền của Darwin. Thuật toán tối ưu đàn kiến (ACO: Ant Colony
Optimization) dựa trên đặc trưng đánh dấu đường đi của kiến bằng cách tạo mùi đặc biệt và được sử dụng
trong học máy như một tham số tăng cường trên bài tốn tìm đường đi tối ưu (xem thêm tài liệu [3]. Bài toán tối ưu đàn kiến cũng dựa trên thuật tốn tối ưu (tìm đường đi ngắn nhất của người bán hàng du lịch (Travelling Sale Man: TSM).
8.1.1. Giải thuật di truyền
8.1.1.1 Các khái niệm, thuật ngữ của giải thuật di truyền dùng trong kỹ thuật tính tốn
a) Khái niệm về giải thuật di truyền.
Giải thuật di truyền (Genetic Algorithm: GA) là kỹ thuật chung giúp giải quyết vấn đề-bài tốn bằng cách mơ phỏng sự tiến hóa của con người hay của sinh vật nói chung (dựa trên thuyết tiến hóa mn lồi của Darwin) trong điều kiện qui định sẵn của môi trường. Mục tiêu của GA khơng đưa ra lời giải chính xác mà đưa ra lời giải tương đối tối ưu (hợp lý). Mục tiêu của GA được khái quát như sau:
Trừu tượng hố và mơ phỏng q trình thích nghi trong hệ thống tự nhiên.
Thiết kế phần mềm, chương trình mơ phỏng, nhằm duy trì các cơ chế quan trọng của hệ thống tự nhiên.
Trong học máy, sử dụng một số thuật ngữ của ngành di truyền học như: nhiễm sắc thể (NST), (tiếng Anh: Chromosomes), quần thể (Population), Gen... NST được tạo thành từ các Gen (được biểu diễn bằng một chuỗi các Gen). Mỗi Gen mang một số đặc trưng và có vị trí nhất định, và là phần cơ sở nhất trong NST. Mỗi NST sẽ biểu diễn một lời giải của bài toán. Bảng dưới đây cho biết những ý nghĩa về thuật ngữ và tham số cơ bản của sinh học được chuyển đổi hay mã hóa cho phù hợp với tính tốn trong CNTT.
Các thuật ngữ về dữ liệu
Gen. Trong sinh học, Gen là phần tử cơ bản để tạo nên NST. Ví dụ, Người da đen, da trắng
hay da vàng… khác nhau từ các phần tử cơ bản đó là từ gen. Gen trong tính tốn
(Computing)- CNTT được xác định là các phần tử của một số (Numer). Lý do có lẽ rất đơn
giản: tính tốn hiển nhiên dựa trên số. Số trong Computing được tạo nên từ các hệ đếm với mỗi con số (ứng với gen) của từng hệ đếm. Như vậy, mỗi con số (hay chữ số) trong một số gọi là gen. Con số tiếng Anh gọi là: digit; một số ví dụ (2001) tiếng Anh là: number
Bảng dưới đây, mô tả bốn thuật ngữ cơ bản nhất tương ứng từ sinh học, chuyển nghĩa sang tính tốn (CNTT).
STT Sinh học Công nghệ Thông tin
1 Gen Con số trong hệ đếm (digit) của Hệ đếm: Nhị phân, Bát phân, Hecxa, Thập phân…
2 Nhiễm sắc thể (Chromosome) hay cá thể (Individual)
Tập hợp n các con số, gọi là độ lớn của NST. Ví dụ, Gen nhị phân với n=5 có NST tương ứng là: (01100). 3 Quần thể (Population):
nhóm cá thể thực hiện việc tiến hóa.
Tập hợp nhiều NST. Ví dụ, có m=3 NST: [011001, 00000, 11111]. m gọi là độ lớn của quần thể.
4 Thế hệ (Generation): một vòng đời trong tiến hóa.
Một vịng lặp của thuật tốn GA để tạo thực hiện một vịng đời tiến hóa.
8.1.1.2. Các tốn tử trong giải thuật di truyền