o_ Tập trung phân tích về cơ chế tìm kiếm của các thuật toán tiến hóa và độ hiệu quả của chúng khi giải quyết bài toàn Tối ưu hóa đa cực trị.. e Nội dung và phương pháp thực hiện: o Nội
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRAN THÁI BẢO — 20520410
KHOA LUAN TOT NGHIEP
PHAN TICH CAC THUAT TOAN TIEN HOA DA CUC
TRI THONG QUA MANG QUY DAO TIM KIEM
ANALYSIS OF MULTIMODAL EVOLUTIONARY
ALGORITHMS USING SEARCH TRAJECTORY NETWORK
CU NHAN TAI NANG NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN
TS LUONG NGOC HOANG
TP HO CHi MINH, 2024
Trang 2DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Doce cece eaeneeed — Chủ tịch.
P — ea ene ne tenn ee ens — Thu ky.
Boece cee cc cece ence neces tees eae eeeenaeenaeenees — Ủy viên.
ee — Uy viên.
Trang 3ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN re
TP HCM, ngay thang ndm
NHAN XET KHOA LUAN TOT NGHIEP
CAN BO HUONG DAN
Tên khóa luận:
PHAN TÍCH CÁC THUẬT TOÁN TIEN HOA DA CUC TRI THONG QUA
MANG QUY DAO TIM KIEM
Nhóm SV thực hién: Cán bộ hướng dẫn:
Trần Thái Bảo 20520410 TS Lương Ngọc Hoang
Đánh gia Khóa luận
1 Vê cuôn báo cáo:
Trang 4Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN re
TP HCM, ngay thang ndm
NHAN XET KHOA LUAN TOT NGHIEP
CAN BO PHAN BIEN
Tên khóa luận:
PHAN TÍCH CÁC THUẬT TOÁN TIEN HOA DA CUC TRI THONG QUA
MANG QUY DAO TIM KIEM
Nhom SV thuc hién: Can bô phản biện:
Trần Thái Bảo 20520410 TS Võ Nguyễn Lê Duy
Đánh gia Khóa luận
1 Vê cuôn báo cáo:
Trang 6Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 7ĐẠI HỌC QUỐC GIA TP HÒ CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
DE CƯƠNG CHI TIẾT
TÊN ĐÈ TÀI: PHAN TÍCH CAC THUẬT TOÁN TIEN HÓA ĐA CỰC TRI THONG
QUA MẠNG QUY ĐẠO TÌM KIEM
Cán bộ hướng dẫn: TS Lương Ngọc Hoang
Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 30/12/2023
Sinh viên thực hiện:
Trần Thái Bảo - 20520410
Nội dung đề tài:
Trang 8¢ Mục tiêu nghiên cứu: Dé xuất phương pháp nhằm mô ta cơ chế hoạt động của các
thuật toán tiễn hóa thông qua các hình ảnh rõ ràng khi giải quyết bài toán Tối ưu
hóa đa cực tri.
e Phạm vi và đối tượng nghiên cứu:
o Bài toán Tối ưu hóa đa cực trị được tiếp cận ở dạng hộp đen; cụ thé hon thì
với mỗi lời giải kha thi, thong tin duy nhất ma chúng tôi có được là giá trị
hàm mục tiêu tương ứng, đồng thời đi kèm với chi phí dé đạt được giá trị
đó.
o_ Tập trung phân tích về cơ chế tìm kiếm của các thuật toán tiến hóa và độ
hiệu quả của chúng khi giải quyết bài toàn Tối ưu hóa đa cực trị.
e Nội dung và phương pháp thực hiện:
o Nội dung 1: Khảo sát
= Tìm hiéu các công trình nghiên cứu về các phương pháp phân tích
thuật toán tiễn hóa khi giải quyết bài toán Tối ưu hóa đa cực trị hộp
đen.
= Tìm hiểu các thuật toán tiễn hóa hiệu quả trên bài toán Tối ưu hóa đa
cực trị hộp đen nhằm phục vụ cho việc phân tích.
= Tìm hiểu bộ hàm số benchmark được sử dung đề đánh giá hiệu suất
của thuật toán tối ưu hóa đa cực trị.
o Nội dung 2: Thiết kế phương pháp phân tích và trực quan hóa
= Dựa trên ý tưởng của các phương pháp phân tích thuật toán tối ưu
hóa trước đây, đề xuất các bước dé hình thành một cách phân tích hành vi tìm kiếm phù hợp cho các thuật toán tối ưu hóa đa cực trị.
= Cung cap một chiên lược cải thiện hiệu suat của các thuật toán tôi ưu
hóa đa cực trị dựa trên các phân tích có được.
Trang 9o Nội dung 3: Thực nghiệm
= Tiến hành giải quyết bộ hàm số benchmark với các thuật toán tiễn
hóa đa cực trị nham thu thập dữ liệu cho việc phân tích.
= Phân tích và so sánh các kết qua thu được bằng cách sử dụng phương
pháp phân tích được đề xuất; đồng thời đối chiếu các hình ảnh mô tả hình vi tìm kiếm với các số liệu dé kiểm tra tính đúng đắn của phương
pháp.
= Thực hiện chiến lược cải thiện hiệu suất cho các thuật toán tiến hóa
đa cực trị dựa trên các kết quả phân tích được.
Kết quả dự kiến:
o Dé xuất phương pháp MDSTN (viết tắt của Search Trajectory Network for
Multimodal Domain) — một phương pháp phân tích thông qua hình ảnh cho
các thuật toán tiễn hóa đa cực trị.
o Cung cấp mã nguồn của phương pháp MDSTN sử dụng cho việc phân tích.
Kế hoạch thực hiện:
STT Cong viéc Thời gian thực hiện Phân công
Nội dung 1: Khảo sát 11/09 — 11/10/2023
1 | Phân tích đề tài nghiên cứu Trần Thái Bảo
2 Tìm hiệu các công trình nghiên Trần Thái Bảo
cứu liên quan
3 Tìm hiệu những thuật toán tiên Tran Thái Bảo
hóa đa cực trị hiệu quả
Tìm hiểu bộ benchmark đánh ;
4 giá hiệu suat cho bài toán Tôi Trân Thái Bảo
ưu hóa da cực tri
Trang 10Nội dung 2: Thiết kế phương pháp
phân tích và trực quan hóa 12/10 — 11/11/2023
Đề xuất phương pháp phân tích Ộ
1 phù hợp cho bài toán Tôi ưu Trân Thái Bảo
hóa da cực tri
Cung câp một chiên lược cải
ma yin Tran Thai Bao
thién hiéu suat
Nội dung 3: Thực nghiệm 12/11 — 30/12/2023
Tiến hành cai đặt các thuật
1 toán tiên hóa đa cực trị đê giải Trân Thái Bảo
quyêt bộ hàm sô benchmark
Phân tích và so sánh các kết
quả thu được băng cách sử
2 dụng phương pháp phân tích Trân Thái Bảo
được dé xuat
3 Thực hiện chiên lược cải thiện Tran Thái Bảo
hiệu suât
Viết báo cáo đề tài 12/10 — 30/12/2023 Trần Thái Bảo
Xác nhận của CBHD TP HCM, ngay thang năm
(Ký tên và ghi rõ họ tên) Sinh viên
(Ky tên và ghi rõ họ tên)
Trang 11LỜI CẢM ƠN
Lời đầu tiên, chúng tôi xin được gửi lời cảm ơn chân thành đến thầy Lương NgọcHoàng, người đã dành tâm huyết để động viên, hỗ trợ và hướng dẫn chúng tôi suốtquá trình nghiên cứu và thực hiện đề tài khóa luận này
Tiếp theo, chúng tôi xin chân thành cảm ơn quý thay, cô trong khoa Khoa họcMáy tính nói riêng và toàn thể thầy, cô trong trường Đại học Công nghệ Thông tinnói chung đã tận tình giảng dạy, trang bị cho chúng tôi hành trang là những kiếnthức quý báu trong những năm ngồi trên ghế nhà trường
Và cuối cùng, chúng tôi bày tỏ lòng biết ơn sâu sắc đến gia đình của mình Giađình là hậu phương vững chắc và nguồn động lực to lớn thúc đẩy chúng tôi hoàn
thành tốt đề tài khóa luận này
xii
Trang 122 CAC CONG TRINH LIEN QUAN VA KIEN THUC NEN TANG 10
2.1 Các công trình lên quan| 10
2.2_ Thuật toán tiến hóa đa cực trịị - 13
L
`© ` Œœ œ œ Cœ Ơi 3 3 N
2.2.1 Thuật toán tìm kiếm toàn cục| 14
2.2.2 Thuật toán tìm kiếm địa phương| 19
2.2.3 Thuật toán ghép nổi ee 21
Trang 133.2.3 Tổng hợp|.
4 THỰC NGHIỆM
4.1 Bộ hàm số benchmark được sử dụng|
4.2_ Đánh giá hiệu ST
4.2.1
ChỉsôRecall -Cee eee 4.3 Thiét lap thựcnghiệm|
44 Kétquathucnghiém| 2.0.0.0 0.0000 ee eee 44.1 Tại sao không thé sử dung STN
gốc?| -4.4.2 So sánh chỉ số hiệu suất
-4.43 Phân tích vớ MDSIMNR
s.IHEn \À
ÁN
4.4.4 Hiệu chỉnh siêu tham
số| -5 KÊT LUẬN VÀ HƯỚNG PHAT TRIEN 51 Kếtluận
5.2 Hướng phát triển
TÀI LIỆU THAM KHẢO
xiv
28 28
30
31 31 31
33
33 34
36
38 42 48
55
55 56
57
Trang 14DANH SÁCH HÌNH VẼ
1.1 Không gian tìm kiếm 2 chiều bị chặn bởi hai vectơ 1 = [—10,10]7 và
mục tiêu tại đó càng lớn và ngược lại.
1.2_ Minh họa hai dang lời giải cực tiểu trong không gian tim kiêm 1 chiều
Lời giải màu đỏ là lời giải cực tiểu toàn cục, trong khi lời giải màu
xanh là lời giải cực tiểu địa phương
1.3 Hai cách thức tiếp cận của một bài toán Tôi ưu hóa bao ôm Hộp den
(bên trái) và Hộp trắng (bên phải)1.4 Các phương pháp giải quyết khi bài toán MMO được tiếp cận ở dang
Hộp den va Hộp trắng Đường di được tô mau đỏ sẽ được sử dụng
trong khóa luận này.|_ Ặ.ẶẶẶ QẶ Q o
2.1 Các giai đoạn của một phương pháp giảm số chiều của không gian
tìm kiếm bao gồm chiếu (projection) và truc quan hóa (visualization).|
2.2 Câu trúc chung của thuật toán tiên hóa đa cực trị [20].
2.3 Minh hoa giả thuyết của phép kiểm tra Hill-Valley Có 3 lời giải tô
không tổn tại lời giải nào nằm giữa và có vị trí cao hơn cả hai lời giải
đang xét Trong khi đó, khi xét lời giải màu đỏ ở vị trí 0.43 và lời giải
màu xanh lục ở vi trí 0.5, ton tại một lời giải cao hơn phân tách hai lời
giải này, ví dụ như lời giải ở vị trí 0.45
XV
Trang 153.1 Minh họa cho Mạng quỹ đạo tìm kiếm đa cực trị Trong hình có ba loại
nút bao gồm nuit khởi tạo (hình vuông vàng), mít trung gian (hình tròn
đỏ cho thấy đường tìm kiếm đã đến được kho lưu trữ mong muốnchứa tất cả lời giải cực tiểu toàn cục Cạnh khuyên cho thấy trạng thái
của kho lưu trữ không thay đổi trong hai vòng lặp kề nhau
3.2 Quy trình mã hóa cho một trạng thái có 4 lời giải hai chiều của kho
lưu trữ Hằng số phân chia PF được chọn bằng 1 cho thay không gian
tìm kiếm được chia thành các hình vuông có độ dài cạnh là 0.1 trước
—— 5
3.3 Cách thức chuẩn bị dữ liệu để xây dựng MDSTN Có 5 cột trong file
dữ liệu Cột thứ nhất là chứa thứ tự của các lần biên đổi trạng thái
của kho dữ liệu Cột ID 1 và ID 2 là mã định danh của hai trạng thái.
Cột Val 1 và Val 2 là độ chat lượng của hai trạng thái đó3.4 Minh hoa cho mạng kết quả thu được từ việc hợp nhất MDSTN của
hai MEAs Hai thuật toán này được phân biệt bởi hai màu xanh lục
và xanh lam Nút xám cho thay hai thuật toán này đều có chung một
trạng thái của kho lưu trữ, và cạnh xám thể hiện rằng cả hai thuậttoán đều đạt được kho lưu trữ tốiưu| 27
4.1 Minh họa cách xác định số lượng lời giải cực tiểu toàn cục phân biệt
GO x„ chứa trong A, Hình vẽ có hai lời giải cực tiểu toàn cục và 3
lời giải tô màu xanh lam cần xem xét Hai lời giải màu xanh lam nằm
trong phạm vi cần xem xét của lời giải cực tiểu toàn cục bên trái nênchúng đều là các lời giải mong muốn Tuy nhiên chỉ có một lời giải
được đêm Ta có thể loại bỏ một trong hai lời giải này bằng cách kiểm
tra xem khoảng cách giữa chúng có vượt quá hai lần bán kính chophép hay không Còn về lời giải màu xanh lam bên phải, vì nó không
nằm trong lân cận của lời giải màu đỏ nên nó sẽ không được đêm Vì
vậy GOy, trong trường hợp này là l| 30
4.2 Trực quan hóa hành vi tìm kiểm của HVAM khi giải hàm Shubert hai
đỏ biểu diển lời giải cực tiểu toàn cục của hàm số
xvi
Trang 164.3 Minh hoa 3 chiều cho không gian tìm kiểm của hai hàm số Shubert
hai chiều (hình bên trái) và hàm số Vincent hai chiều (hình bên phải)
Không gian tìm kiếm của hàm số Shubert được chia làm 9 khu vực,
trong đó mỗi khu vực sẽ chứa hai lời giải cực tiểu toàn cục nam gần
nhau nhưng rất xa với các lời giải cực tiểu toàn cục thuộc khu vực
toàn cục không tuân theo một quy luật rõ ràng như của hàm số bert mà sẽ chứa nhiều khoảng cách có độ lớn đa dạng
Shu-4.9 Trực quan hóa quỹ đạo tìm kiếm của HVAM trong 10 lần thực thi
được chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm
raẽaeẽaẽẼẽ aẽnẽ.W.W.WWwWwWw 44
4.10 Trực quan hóa quỹ đạo tìm kiêm của NBAM trong 10 lần thực thi
xvii
Trang 17được chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm
số Shubert hai chiều | -.-.- 46
4.12 Trực quan hóa quỹ đạo tìm kiếm của URES trong 10 lần thực thi được
chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm số
Shubert hai chiều.| - - 47
4.13 Truc quan hóa quỹ đạo tìm kiếm của URAM trong 10 lần thực thi
được chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm
số Shubert hai chiều | .-.s- 49
4.14 Trực quan hóa quỹ đạo tìm kiếm của NBES trong 10 lần thực thi được
chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm số
Shubert hai chiều | 50
4.15 Trực quan hóa quỹ dao tìm kiếm của HVAM, HVES, URAM, và URES
sau quá trình hiệu chỉnh siêu tham số trong 10 lần thực thi được chọn
ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm số Shubert
#4 #® vxxS DÖ \ / 52
4.16 Giá trị recall của URES được tính trung bình trên 50 lần thực thi độc
lập của 32 bộ siêu tham số (7c, Naec, Amin) khi giải quyết hàm số
của đô thị, một bộ siêu tham số sẽ được biểu diễn thành một chuỗi
“inc Ndec-Smin' Ví dụ như bộ (1.1,0.6, 10—19) sẽ là “1.1_0.6_1e-10"
4.17 Trực quan hóa quỹ đạo tìm kiếm của URES với hai bộ siêu tham số
(1.1,0.6,10-5) - ký hiệu là URES1605, va (1.1,0.6,10- 19) - ký hiệu làURES1610, trong 10 lần thực thi được chọn ngẫu nhiên từ 50 lần thực
xviii
Trang 18DANH SÁCH BANG
Trang 19DANH SÁCH TỪ VIET TAT
AM AMaLGaM-IDEAs
ES (1+ A) Evolution Strategy
HVC Hill-Valley Clustering
LON Local Optimal Network
MDSTN Search Trajectory Network for Multimodal Domain
MEA Multimodal Evolutionary Algorithm
MMO Multimodal Optimization
NBC Nearest-Better Clustering
STN Search Trajectory Network
URR Uniform Random Restart
XX
Trang 20TOM TAT
Từ lâu, Tối ưu hóa (Optimization) đã đóng vai trò quan trong trong hoạt động sản
xuất và vận hành doanh nghiệp Dựa trên một tập hợp các phương án khả thi, mụctiêu của bài toán là xác định phương án tốt nhất cho một mục tiêu cụ thể Ví dụ như
xác định bản thiết kế điện thoại có hiệu năng cao nhất hay chiến lược bán hàng đạt
được nhiều lợi nhuận nhất Tuy nhiên, phương án tốt nhất tìm được trên lý thuyếtlại có thể không phù hợp để áp dụng vào thực tế Để tìm ra giải pháp phù hợp, quá
trình tối ưu hóa phải được lặp lại nhưng sẽ trở nên phức tạp hơn khi có thêm ràng
buộc là loại trừ phương án không thực tế trước đó Do đó, Tối ưu hóa đa cực trị
(Multimodal Optimization, viết tắt MMO) - một bài toán nhằm tự động tìm kiếmđồng thời nhiều phương án chất lượng cao, đã được hình thành Thuật toán tiến
hóa là một trong những công cụ hiệu quả để giải quyết bài toán trên Mặc dù cáccông trình nghiên cứu gần đây về sử dụng thuật toán tiền hóa để giải quyết bài toán
MMO đều đạt những kết quả đáng chú ý, nhưng chúng tôi nhận thấy rằng các kết
quả này chỉ mới được thể hiện ở dang số liệu mà thiếu đi các phân tích trực quan vềhành vi hoạt động của các thuật toán Trong khóa luận tốt nghiệp này, chúng tôi dé
xuất phương pháp nhằm mô tả cơ chế hoạt động của các thuật toán tiến hóa thông
qua các hình ảnh rõ ràng khi giải quyết bài toán Tối ưu hóa đa cực trị Bằng cách tậndụng những khái niệm từ lý thuyết đồ thị, chúng tôi biểu dién quá trình tối ưu hóacủa một thuật toán thành một đồ thị có hướng Trong đó, mỗi nút tượng trưng chomột trạng thái mà thuật toán đang gặp phải và mỗi cạnh tượng trưng cho sự chuyểnđổi tiém năng giữa hai trạng thái
Để kiểm chứng tính hiệu quả của phương pháp được đề xuất, chúng tôi tiến
hành phân tích lần lượt các thuật toán tiến hóa đa cực trị (Multimodal Evolutionary
Algorithm - MEA), được cau thành từ năm thuật toán thành phan bao gồm: Uniform
Random Restart, Nearest-Better Clustering, Hill-Valley Clustering, AMaLGaM-IDEAs, va
(1 +A) Evolution Strategy khi giải quyết bộ hàm số benchmark của Hội nghị về Tinhtoán Tiến hóa (CEC) diễn ra vào năm 2013 Các kết quả đạt được cho thay phươngpháp của chúng tôi đã mô tả trực quan hành vi tìm kiếm của các thuật toán tiến hóa
Từ đó, tạo điều kiện cho chúng tôi có thể khám phá những cơ chế tiềm ẩn và đưa rachiến lược hiệu quả để cải thiện hiệu suất của các thuật toán
Trang 21Chương 1
TỔNG QUAN
Trong chương này, chúng tôi sẽ đưa ra cái nhìn chung về bài toán Tối ưu hóa đacực trị và trình bày các hướng tiếp cận hiện tại trên bài toán Ở nội dung tiếp theo, chúng tôi sẽ đề cập đến phạm vi và mục tiêu nghiên cứu trong khóa luận này Ở
cuối chương, chúng tôi sẽ tóm tắt những nội dung thực hiện, những đóng góp của
chúng tôi và trình bày bố cục chính của bài khóa luận
1.1 Bài toán Tối ưu hóa đa cực trị
1.1.1 Mô tả bài toán
Tối ưu hóa (Optimization) đã cho thấy được vai trò quan trọng của mình khi xuất
hiện trong hầu hết các vấn đề từ nhiều lĩnh vực khác nhau như: y tế (7\|13], san xuat
[9| [19], v.v Nó được sử dung để tim ra một phương án tốt nhất sao cho tối tiểu hóa
(hoặc tối đa hóa) một hàm mục tiêu cụ thể Tuy nhiên, phương án tìm được này cókhả năng không thể áp dụng vào trong thực tế bởi hạn chế về mặt tài nguyên Do
đó, bắt buộc quá trình tối ưu phải được thực hiện lại nhưng đi kèm với đó là một sốràng buộc mới được thêm vào Điều này đòi hỏi rất nhiều kinh nghiệm, thời gian và
công sức để cho ra được một phương án như kỳ vọng Chính vì khó khăn trên mà
Tối ưu hóa đa cực trị (Multimodal Optimization - viết tắt: MMO) - một bài toán tự
động tìm kiếm đồng thời nhiều lời giải có chất lượng cao, đã được hình thành và trở
thành một chủ đề thu hút được sự chú ý của nhiều nhà nghiên cứu trong vài năm
gần đây
Trang 22dụ như trong sản xuất sản phẩm, hàm mục tiêu sẽ tính chi phí để sản xuất một mẫu
sản phẩm bat kỳ và các thành phần x; trong lời giải tương ứng với một thông sốcần thiết lập để tạo ra sản phẩm Thông thường, các thông số này sẽ nằm trong một
phạm vi xác định trước nên không gian tìm kiếm 4# sẽ bi giới hạn bởi vectơ chặn
đưới I = [h,lạ, ,Ip]” và vectơ chặn trên u = [uy,U2, ,Up]' Khi đó, mỗi giá trị
thành phần x; sẽ nằm trong đoạn [I;, u;] tương ứng Hình[I.1|minh họa không gian
tìm kiếm 2 chiều bị chặn bởi hai vectơ 1 = [—10,10]T và „ = [—10, 10]T
10.0 250
7.5 200
150 5.0
100 2.5
50 0.0
HÌNH 1.1: Không gian tìm kiếm 2 chiều bị chặn bởi hai vectơ 1 =
[—10,10]7 và w = [—10,10]T Vị trí có màu càng sáng tương ứng với
giá trị hàm mục tiêu tại đó càng lớn và ngược lại.
Tiếp theo, với một lời giải x bat kỳ, chúng tôi xem xét một tập hợp lân cận Ne (x)của nó chứa tat cả lời giải thuộc ¥ và cách x một khoảng không quá e > 0 cho trước
Trang 23Chương 1 TỔNG QUAN
Biểu diễn toán học của tập hợp này là Ne(x) = {y € # | d(x,y) < e}, trong đó
d(-,-) là hàm đo khoảng cách euclidean giữa hai lời giải trong không gian tìm kiếm
Như vậy, có thể thấy rằng một lời giải sẽ có vô số tập hợp lân cận tương ứng với các
giá trị c khác nhau Từ đây, hai định nghĩa quan trọng cho các bài toán Tối ưu hóa
được hình thành:
° Lời giải cực tiểu địa phương: lời giải có giá trị hàm mục tiêu nhỏ nhất trong
tối thiểu một tập hợp lân cận của nó Ví dụ, y là lời giải cực tiểu địa phương
nêu Je >0: Ax € Ne(y) : f(x) < fly).
¢ Lời giải cực tiểu toàn cục: lời giải có giá trị hàm mục tiêu nhỏ nhất trong toàn
bộ không gian tìm kiếm Nói cách khác, lời giải này là lời giải cực tiểu địa
phương trong mọi tập hợp lân cận của nó Ví dụ, y là lời giải cực tiểu toàn cục
nếu Ve > 0, fix € Ne(y) : f(x) < fly)
HINH 1.2: Minh hoa hai dạng lời giải cực tiểu trong không gian tim
kiếm 1 chiều Lời giải màu đỏ là lời giải cực tiểu toàn cục, trong khi lời
giải màu xanh là lời giải cực tiểu địa phương.
Hình[1.2Ìminh họa cho hai kiểu lời giải quan trọng đã trình bày bên trên Trong
ví dụ này, tập hợp lân cận bao gồm những lời giải bị giới hạn bởi hai đường nét đứtgần nhất Lời giải màu xanh là điểm thấp nhất trong tập hợp lân cận của nó, do đó
4
Trang 24Chương 1 TỔNG QUAN
nó là một lời giải cực tiểu địa phương Tuy nhiên khi giãn rộng hai đường kẻ này ra
hai bên, lời giải màu xanh không còn tiếp tục là điểm thấp nhất nữa nên nó khôngphải là lời giải cực tiểu toàn cục Với cách làm tương tư, điểm màu đỏ luôn là điểmthấp nhất trong toàn bộ không gian tìm kiếm nên nó là một lời giải cực tiểu toàn
cục.
Mục tiêu lý tưởng của các bài toán MMO là thu thập chính xác một tập hợp bao
gồm tất cả lời giải cực tiểu toàn cục của hàm mục tiêu ƒ(-) tương ứng Tuy nhiên,việc xác định chính xác một lời giải nào đó trong không gian liên tục là bất khả thi
đo hệ thống biểu diễn số của máy tính không cho phép Vì vậy, thông thường, mục
tiêu lúc này chỉ cần xác định một tập hợp xấp xỉ sao cho các lời giải tìm được nằmgần với lời giải cực tiểu toàn cục trong bán kính cho phép (bán kính này được chọn
là 10-5 trong khóa luận này) Ví dụ, quay lại hình [1.1] không gian tìm kiếm đượcminh họa chứa 18 vi trí có màu tối nhất tương ứng với các lời giải cực tiểu toàn cục.Nhiệm vụ của bài toán là xác định tất cả các lời giải thuộc 18 vị trí này
112 Hướng tiếp cận
Phụ thuộc vào lượng thông tin khai thác được, một bài toán Tối ưu hóa có thể được
tiếp cận với hai cách thức chính là Hộp den (black-box) và Hộp trắng (white-box)
Hình[1.3|mô tả hai cách thức tiếp cận này Ở dạng hộp đen, ngoài những thông tin
cần thiết để tạo một lời giải hợp lệ (như số chiều của không gian tìm kiếm và phạm
vi giá trị), người giải quyết sẽ không được cho biết về cách thức tính toán giá trị hàm
mục tiêu của bài toán Cách duy nhất để xác định chất lượng của một lời giải là cho
lời giải đó tương tác với bài toán, từ đó bài toán mới trả về một con số tương ứng
với giá trị hàm mục tiêu Ngược lại, cách thức tiếp cận hộp trắng lại cung cấp đầy
đủ cho người giải quyết tất cả thông tin ma dang hộp đen ẩn đi Có thể thay ngayrằng để giải quyết bài toàn hộp đen sẽ cần nhiều lần thử sai rồi mới có thể cho ra
một lời giải đủ tốt, trong khi với thông tin về cách thức tính toán của hàm mục tiêu
từ hộp trắng, lời giải tối ưu có thể được phân tích và xác định ngay với một vài lần
thử (ví dụ như sử dụng công cụ đạo hàm) Tuy nhiên, trong thực tế, việc xác địnhtường minh được hàm mục tiêu sẽ cần nhiều thời gian cũng như kinh nghiệm của
các chuyên gia Do đó, hộp đen là hướng tiếp cận khả thi cho hầu hết các bài toántối ưu khi thông tin bị hạn chế
Trang 25HÌNH 1.3: Hai cách thức tiếp cận của một bài toán Tối ưu hóa bao gồm
Hộp đen (bên trái) và Hộp trắng (bên phải).
Thuật toán
tối ưu
Một thách thức tôn tại khi giải quyết các bài toán MMO là số lượng lời giải cựctiểu địa phương của hàm mục tiêu có thể rất lớn so với lời giải toàn cục Do đó, đểthu được kết quả khả quan, một chiến lược tìm kiếm hiệu quả là vô cùng cần thiết.Dựa vào lượng thông tin thu được, sẽ ton tại những phương pháp khác nhau để giảiquyết bài toán MMO Khi cách thức tính toán của hàm mục tiêu được tiết lộ, các
phương pháp sử dụng đạo hàm (derivative-based methods) sẽ được ưu tiên hơn cả
bởi độ chính xác tuyệt đối của chúng; trong khi với dạng hộp đen, các phương pháp
ngẫu nhiên (stochastic optimization methods) luôn được sử dụng bởi khả năng dò
tìm hiệu quả trong môi trường thiếu thông tin Thuật toán tiến hóa (Evolutionary
Algorithm) là một ứng cử viên sáng giá nhất khi tiếp cận theo hướng này Hình
[I.4|mô tả bức tranh tổng quát về các phương pháp giải quyết hiện tại trên bài toán
MMO.
Các phương pháp sử dung đạo hàm sé luôn tận dụng phương trình dao hàm của
hàm mục tiêu để tìm ra các điểm cực trị Có hai cách thức chính để khai thác dạng
thông tin này là sử dụng thuật toán lặp và giải nghiệm phương trình ƒ'(x) = 0.
Thuật toán lặp bắt đầu với một lời giải cho trước Trong mỗi vòng lặp, vectơ đạo
ham (gradient) tại lời giải đang xét sẽ được tính thông qua phương trình đạo hàm
và lời giải này sẽ di chuyển theo gradient của nó Quá trình này dừng khi giá trị đạo
hàm nhận được là xấp xỉ không Ví dụ điển hình của kiểu thuật toán này là gradient
descent Với cách thức giải nghiệm, người giải quyết mong muốn sẽ tìm tat cả cáclời giải x sao cho đạo hàm ƒ”(x) tại đó không tồn tại hoặc bằng 0 Sau đó, giá tri hàm
mục tiêu giữa các lời giải đó sẽ được so sánh với nhau để tìm ra các lời giải tốt nhất
Trang 26dụng trong khóa luận này.
Mặt khác, các phương pháp ngẫu nhiên phát sinh nhiều lời giải một cách ngẫunhiên nhằm khám phá không gian tìm kiếm của bài toán Thuật toán tiến hóa làtiêu biểu cho phương pháp này Cơ chế hoạt động của thuật toán này khi áp dụngtrong MMO sẽ được mô tả như sau Ở đầu mỗi vòng lặp, một quân thể - tập hợp
các lời giải, được khởi tạo ngẫu nhiên trong không gian tìm kiếm Sau đó, quần thể
này được phân chia thành nhiều quan thể con va tạo điều kiện cho các quan thể connày có thể đi chuyên độc lập đến các vị trí khác nhau Mỗi quần thể con sẽ trải qua
một quá trình bao gồm các phép biến đổi (lai ghép, đột biến) và tiến hành chọn lọc
Trong giai đoạn chọn lọc, quần thể sẽ chỉ giữ lại một sO lượng cu thể những lời giải
có giá trị hàm mục tiêu thấp nhất Cơ chế chọn lọc này có vai trò điều hướng quanthể tiến tới các lời giải tốt hơn Quá trình này được lặp lại đến khi quần thể con hội
tụ; khi đó, những lời giải còn tổn tại trong các quần thể con sẽ là các lời giải cần tìm
Trang 27trị hàm mục tiêu tương ứng đi kèm theo là chi phí để nhận được giá trị đó Bên cạnh
đó, chúng tôi tập trung phân tích về cơ chế tìm kiếm của các thuật toán tiến hóa và
độ hiệu quả của chúng khi giải quyết bài toán Tối ưu hóa đa cực trị
1.2.2 Mục tiêu
Dựa vào phạm vi nghiên cứu đã được trình bày, mục tiêu của chúng tôi đặt ra khi
thực hiện khóa luận này là cung cấp một phương pháp phân tích hành vi tìm kiếmcủa các thuật toán tiến hóa cho bài toán MMO hộp đen Từ đó, chúng tôi đưa rachiến lược hiệu chỉnh cần thiết để cải thiện hiệu suất của các thuật toán từ những
phân tích thu được.
1.3 Nội dung thực hiện
Để hoàn thành mục tiêu đặt ra, chúng tôi đã thực hiện những nội dung sau đây:
© Tìm hiểu các công trình nghiên cứu về các phương pháp phân tích thuật toán
tiến hóa đa cực trị khi giải quyết bài toán MMO hộp đen
¢ Dé xuất phương pháp mới để phân tích hành vi tìm kiếm của thuật toán tiến
hóa đa cực trị trên bài toán MMO hộp đen.
© Tìm hiểu các thuật toán tiễn hóa đa cực trị hiệu quả trên bài toán MMO hộp
đen nhằm phục vụ cho việc phân tích
¢ Tìm hiểu bộ hàm số benchmark được sử dụng để đánh giá hiệu suất của một
thuật toán tối ưu hóa đa cực trị
e Tiến hành thực nghiệm trên bộ hàm số benchmark tìm được và phân tích hành
vi tìm kiếm của các thuật toán bằng cách sử dụng phương pháp đề xuất
8
Trang 28Chương 1 TỔNG QUAN
1.4 Đóng góp của khóa luận
Từ những kết quả đạt được trong quá trình thực nghiệm, thông qua khóa luận này,
chúng tôi có những đóng góp sau đây:
¢ Đề xuất phương pháp mới giúp phân tích hành vi tìm kiếm của thuật toán tiến
hóa đa cực trị trên bài toán MMO hộp đen.
© Phân tích tầm quan trong của các thành phan cấu thành một thuật toán tiến
hóa đa cực trị thông qua phương pháp đề xuất
* Cung cấp chiến lược cải thiện hiệu suất của các thuật toán tiến hóa đa cực trị
dựa trên các thông tin phân tích được.
e Cung cấp mã nguồn thực nghiệm| |
1.5 Cấu trúc khóa luận
Khóa luận của chúng tôi bao gồm 5 chương chính:
¢ Chương 1: Tổng quan
* Chương 2: Các công trình liên quan và kiến thức nền tang
se Chương 3: Phương pháp dé xuất
s® Chương 4: Thực nghiệm
* Chương 5: Kết luận và hướng phát triển
https://github.com/tbaotr/BScThesis
Trang 29Chương 2
CÁC CÔNG TRÌNH LIÊN QUAN VÀ
KIÊN THỨC NEN TANG
Trong chương này, chúng tôi sẽ trình bày các công trình nghiên cứu liên quan đếnphương pháp phân tích hành vi tìm kiếm của những thuật toán tiền hóa hiện nay và
các kiến thức nền tảng được sử dụng xuyên suốt khóa luận này Phằn|2.1|trình bày
một vài công trình nghiên cứu tiêu biểu liên quan đến việc phân tích thuật toán tiến
hóa Ngoài ra, đặc điểm và cơ chế hoạt động của các thuật toán tiến hóa đa cực trị
được trình bày ở phân|2.2|
2.1 Các công trình liên quan
Trong việc phân tích hành vi tìm kiếm của các thuật toán tiến hóa, bên cạnh bảng sốliệu, các nhà nghiên cứu mong muốn thu được hình ảnh về cách thức đi chuyển củacác quan thể trong quá trình tối ưu hóa Tuy nhiên, điều này chỉ thực hiện được khi
số chiều của không gian tìm kiếm không quá ba Lý do là bởi không gian có chiều lớn
hơn rat khó để có thể trực quan hóa trong thực tế Một giải pháp được dé xuất để giảiquyết van đề trên là giảm số chiều của không gian tìm kiếm (dimensionality reduction) -một phương pháp biến đổi dữ liệu từ không gian có số chiều lớn sang không gian có
số chiều thấp hơn sao cho vẫn duy trì được một số tính chất quan trọng của dữ liệugốc Một số nghiên cứu nổi bật đã sử dụng Principal Component Analysis (PCA)
để bảo toàn tính xa [5] hay t-Distributed Stochastic Neighbor Embedding (t-SNE) đểbảo toàn tính gần của các lời giải (6, [12] Bên cạnh việc tạo điều kiện cho việc trực
10
Trang 30Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
quan hóa dé dàng hơn, phương pháp này có thể giúp giảm thiểu đi một lượng lớn
tài nguyên dùng cho lưu trữ và tính toán trong quá trình phân tích.
Nhìn chung, các phương pháp giảm số chiều của không gian tìm kiếm bao gồm
hai giai đoạn chính là chiếu (projection) và frực quan hóa (visualization) Ở giai đoạn
thứ nhất, tất cả lời giải xuất hiện trong mỗi vòng lặp cũng như giá trị hàm mục tiêu
của chúng phải được lưu lại trong suốt quá trình giải quyết bài toán tối ưu Nhằm
dé hình dung, giả sử một quan thể của thuật toán tiến hóa phải trải qua n vòng lặp
để đến được lời giải cực tiểu toàn cục Gọi P; là quần thể đó ở vòng lặp thứ ¡ với
¡ € {1, ,n} Ghép các tập hợp Pị, P„ lại với nhau để được một tập hợp P chứa
tất cả lời giải đã được tìm thấy bởi thuật toán Sau đó, tập hợp P này sẽ được biến đổithông qua các kỹ thuật giảm chiều (ví dụ như PCA, t-SNE) thành tập hợp Y chứacác vectơ hai chiều Y này sẽ được tách thành các tập hợp Y\, , Y„ sao cho mỗi Y;
tương ứng với tập hợp lời giải gốc P; Ở giai đoạn còn lại, các vectơ hai chiều từ các
tập hợp Y1, , Yn sẽ được vẽ vào không gian cartesian và có màu phụ thuộc vào độ
lớn của giá trị hàm mục tiêu Hình|2.1| minh họa cho phương pháp giảm số chiều
của không gian tìm kiếm
IR*
HINH 2.1: Các giai đoạn của một phương pháp giảm số chiều của không gian tìm kiếm bao gồm chiếu (projection) và trực quan hóa (visualiza-
tion).
Một nhược điểm lớn của các phương pháp trên là gây mat mát thông tin do kỹ
thuật giảm số chiều mang lại và có thể làm thay đổi một cách không mong muốn các
tính nhất ban đầu của thuật toán Một hướng tiếp cận khác được phát triển gần đây
11
Trang 31Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
với mục tiêu ít tác động trực tiếp đến không gian tìm kiếm nhưng vẫn có thể trựcquan hóa một cách rõ ràng quá trình tối ưu hóa của thuật toán tiền hóa là dé thi hóa
Fieldsend cùng đồng nghiệp [8] đã áp dụng Mang cực trị địa phương (Local Optimal
Network - LON) [1] vào việc phân tích không gian tìm kiếm của các hàm mục tiêu
của bộ hàm số benchmark CEC’2013 dành cho tối ưu hóa đa cực trị [10] Đối với
LON, mỗi nút sẽ đại diện cho một viing triing (attraction basin) chứa đúng một lời
giải cực tiểu địa phương; nếu một thuật toán tối ưu hóa bắt gặp vùng trũng này thì
khả năng cao là nó sẽ hội tụ tại lời giải cực tiểu địa phương đó Nếu thuật toán được
phân tích di chuyển giữa hai basins, thì khả năng cao là hai basins này nằm ở gan
nhau trong không gian tìm kiếm; do đó, hai nút liên quan sẽ được nồi với nhau bằngmột cạnh có hướng Mặc dù đã cho thấy tiềm năng trong việc phân tích thuật toán,
nhưng LON có một ràng buộc đáng cân nhắc là lời giải tìm được trong mỗi vòng
lặp phải là lời giải cực tri địa phương Điều này gây cản trở cho việc áp dung LON
để phân tích thuật toán tiến hóa bởi vì các thuật toán này chỉ đảm bảo đưa ra lờigiải cực trị sau khi kết thúc quá trình tối ưu hóa Nhận thấy điều này, Ochoa cùngđồng nghiệp đã đề xuất một phương pháp cải tiến từ LON đó là Mang quiđạo tìm kiếm (Search Trajectory Network - STN) với mục đích loại bỏ ràng buộc này
đi Khi đó, mỗi nút của STN chỉ cần biểu diễn một phuong án đại diện (representative
solution), được chọn từ tập lời giải tìm được trong mỗi vòng lặp Điều này đã khiến
cho STN trở nên dé dang hon để áp dung trong việc phân tích trực quan hành vi tìm
kiếm của bat kỳ thuật toán tối ưu hóa nào, đặc biệt là các thuật toán tiến hóa
Mặc dù có nhiều công trình đã áp dụng STN và đưa ra các kết quả ấn tượng,nhưng các công trình này phần lớn chỉ tập trung vào khía cạnh Tối wu hóa don cựctrị (Unimodal Optimization) - bài toán chỉ yêu cầu tìm một lời giải tốt nhất Chúng
tôi đã thử áp dụng phương pháp STN này để trực quan hóa quá trình tìm kiếm của
các thuật toán tiến hóa đa cực trị Tuy nhiên, như sẽ được trình bày ở hình |4.2] kết
quả thu được là những hình vẽ không rõ ràng với một số lượng rất lớn nút và cạnhđược xếp đè lên nhau, khiến cho việc phân tích gần như là bất khả thi Trong khóaluận này, bằng cách khai thác các đặc tính quan trọng của bài toán MMO, chúng tôi
đề xuất một phiên bản được hiệu chỉnh từ STN của Ochoa để phù hợp hơn cho việcphân tích các thuật toán tiến hóa đa cực trị
12
Trang 32Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
2.2 Thuật toán tiền hóa đa cực trị
Nhìn chung, một thuật toán tiến hóa da cực trị (Multimodal Evolutionary Algorithm MEA) được câu thành từ hai thành phần chính 1a tim kiếm toàn cục (global search),
-và tìm kiếm địa phương (local search) Câu trúc chung của một MEA sẽ được trìnhbày trong hình|2.2| Trong mỗi vòng lặp, thuật toán tìm kiếm toàn cục phát sinh một
HINH 2.2: Cấu trúc chung của thuật toán tiến hóa đa cực trị [20].
tập hợp lời giải ban dau - ký hiệu là 7, với mục tiêu duy trì sự đa dạng cho quanthể Sau đó, thuật toán tìm kiếm địa phương được sử dụng để di chuyển quần thểđến các lời giải cực tiểu địa phương gần nhất Ở cuối vòng lặp, những lời giải tiềmnăng nằm trong tập hợp Q được xem xét để thêm vào kho lưu trữ A (archive), thôngqua một (huật toán ghép nói Tập hợp A này là tập xp xi các lời giải cực tiểu toàn cục
mà chúng tôi mong muốn đạt được Quy trình này sẽ được lặp lại cho đến khi thuật
toán sử dụng hết số lượng tài nguyên cho phép - ký hiệu là b Trong khóa luận này,
số lượng lần truy xuất giá trị hàm mục tiêu sẽ được chọn làm tài nguyên b Ngoài ra,
13
Trang 33Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
số lần truy xuất giá trị hàm mục tiêu được sử dụng trong giai đoạn tìm kiếm toàncục và tìm kiếm địa phương - ký hiệu là cg, cj, được xem như chi phí va trừ vào b
Gần đây, Maree cùng đồng nghiệp đã đề xuất HillVallEA kết hợp giữa
Hill-Valley Clustering và AMaLGaM-IDEAs |4] và trở thành một trong những MEAs tốtnhất hiện tại trong việc giải quyết các bài toán tối ưu hóa đa cực trị Cả hai thànhphan của HillVallEA đều đã được ghi nhận là những thuật toán phức tạp nhưng
vô cùng hiệu quả khi thực hiện các tác vụ được giao Một câu hỏi mà chúng tôi
đặt ra là thành phần nào có vai trò quan trọng hơn đối với hiệu suất tổng thể củamột MEA Để làm sáng tỏ điều này, chúng tôi lần lượt thay thế mỗi thành phần củaHillVallEA bang các thuật toán Uniform Random Restart bì, Nearest-Better Clustering
va (1+ A) Evolution Strategy [3] Ly do chúng tôi chon các thuật toán này là bởi
sự đơn giản của chúng khi so sánh với Hill-Valley Clustering và AMaLGaM-IDEAs.
Hai cái trước sẽ được sử dụng như thành phần tìm kiếm toàn cục, trong khi (1 + A)
Evolution Strategy sẽ là thành phần tìm kiếm địa phương Qua đó, chúng tôi có thểxem xét được sự biến đổi hiệu suất từ các tổ hợp mới này Các thuật toán được sửdụng như thành phần tìm kiếm toàn cục hay địa phương sẽ được liệt kê ở bảng |2.1|
cùng với ký hiệu viết tắt tương ứng
BẢNG 2.1: Bảng viết tắt cho các thuật toán sẽ được sử dụng cho tìm
kiếm toàn cục và tìm kiếm địa phương.
Tên thuật toán Ký hiệu
Uniform Random Restart* URR
Nearest-Better Clustering* NBC
Hill-Valley Clustering* [11] HVC
(1 + A) Evolution Strategy* ES
AMaLGaM-IDEAs* [4] AM
† Toàn cục * Địa phương
2.2.1 Thuật toán tìm kiếm toàn cục
Uniform Random Restart Bằng cách xuất phát tại những lời giải ban đầu khácnhau, một MEA có thể thu được nhiều lời giải cực trị địa phương phân biệt saumỗi vòng lặp Với ý tưởng này, chúng tôi sử dụng một phân phối xác suất đồng
14
Trang 34Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
nhất (uniform distribution) để phát sinh các lời giải ban đầu 7 trong giai đoạn tìmkiếm toàn cục Bên cạnh đó, phân phối này sẽ bị chặn bởi hai vectơ Ï và phụ
thuộc vào phạm vi tìm kiếm cho phép của bài toán Thuật toán [1|trình bày mã giả
cho thuật toán này Lưu ý rằng © là phép nhân theo từng phần tử (element-wise
multiplication).
Thuật toán 1: Uniform Random Restart
Dữ liệu vào: kích thước A, vectơ chặn dưới I, vecto chặn trên 1
Dữ liệu ra: quần thể
hiệu quả bởi nó không đảm bảo rằng tat cả lời giải toàn cục sẽ được tìm thấy trong
khi khả năng cao sẽ làm tăng số lần truy xuất giá trị hàm mục tiêu một cách lãngphí cho những lời giải trùng lặp Nhận thấy điều này, Preuss cùng đồng nghiệp
đã dé xuất một thuật toán tìm kiếm toàn cục hiệu quả hon so với URR thông qua
việc phân chia tập hợp các lời giải ban đầu P thành nhiều nhóm nhỏ hon sao cho
các nhóm này có thể di chuyển độc lập với nhau và hướng về các lời giải cực tiểutoàn cục phân biệt Mã giả của thuật toán này sẽ được trình bay trong Thuật toán |2]
Nearest-Better Clustering cũng bắt đầu với một tập hợp P chứa các lời giải được
phát sinh ngẫu nhiên đồng nhất Các lời giải này sẽ được sắp xếp theo thứ tự tăngdan theo giá trị hàm mục tiêu Tiếp theo, để dé hình dung, chúng tôi sẽ sử dung
một số khái niệm từ lý thuyết đồ thị để mô tả cách thức hình thành các quần thểcon của thuật toán này Từ dòng 4 đến dòng 8, NBC đang xây dựng một đồ thị bằng
cách hình thành các cạnh nối mỗi lời giải với một lời giải gần nhất và tốt hơn nó Có
thể thấy rằng đồ thị này có hai tính chất quan trọng là liên thông và không có chutrình Do đó, nếu một cạnh bất kỳ bị xóa đi thì đồ thị sẽ tách thành hai đồ thị con
liên thông Tác giả đã sử dụng một cơ chế heuristic để xóa đi những cạnh có độ dàilớn hơn ¢ lần trung bình độ dài của tất cả cạnh thuộc đồ thị ban dau, trong đó ¢ là
hệ số cắt cạnh Qua nhiều thử nghiệm, tác giả dé xuất ø nên được chọn là 2 và điều
này cũng áp dụng cho khóa luận này Nếu một cạnh (7, P’,d) được xác định sẽ bị
15
Trang 35Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
Thuật toán 2: Nearest-Better Clustering
Dw liệu vào: kích thước A, vectơ chặn dưới I, vectơ chặn trên u, bài toán ƒ,
8 | EH EU {(Pi, Pre, dee) }
9 distayg < trung bình độ dài cua tất cả cạnh trong €
11 for mỗi cạnh (P,P’,d) trong E do
12 ifd > @- dist„„„ then
chứa các lời giải trong đồ thị đó
Hill-Valley Clustering Mặc dù đã cho thấy nhiều cải thiện so với URR trong
[16], NBC chi sử dung khoảng cách euclidean để xác định hai lời giải có thuộc cùng
một basin không Cách làm này sẽ không phù hợp với các hàm có điều kiện xấu(ill-conditioned) - những hàm số tổn tại hai điểm dù ở rất gần nhau nhưng lại thuộchai basins khác nhau, và khiến NBC gom những lời giải mà đáng lẽ ra nếu được
hoạt động riêng biệt thì chúng sẽ trở thành những lời giải cực tiểu khác nhau Để
khắc phục điều này, Maree cùng đồng nghiệp đã dé xuất HillVallEA có sử dụng
thêm phép kiểm tra Hill-Valley [18] trong quá trình hình thành các quan thé con
16
Trang 36Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
HÌNH 2.3: Minh hoa giả thuyết của phép kiểm tra Hill-Valley Có 3 lời
giải tô màu đỏ nằm trong cùng một basin bởi khi xét một cặp lời giải
bat kỳ, không tổn tại lời giải nào nằm giữa và có vị trí cao hơn cả hai lời
giải đang xét Trong khi đó, khi xét lời giải màu đỏ ở vị trí 0.43 và lời
giải màu xanh lục ở vị trí 0.5, tồn tại một lời giải cao hơn phân tách hai
lời giải này, ví dụ như lời giải ở vị trí 0.45.
Trước tiên, chúng tôi sẽ mô tả cơ chế hoạt động của phép kiểm tra Hill-Valley
Thuật toán 3] trinh bay mã gia cho thuật toán nay Mục tiêu của phép kiểm tra
Hill-Valley là xác định hai lời giải được cho có thuộc chung một basin hay không bằng
cách dựa vào giả thuyết rằng nếu hai lời giải không thuộc cùng một basin thì phải
ton tại một lời giải nằm giữa chúng sao cho giá trị hàm mục tiêu của nó phải lớn hơn
giá trị đó của cả hai lời giải đang được xem xét Hình P.3|minh họa cho giả thuyết
này.
Mã giả của HiII-Valley Clustering được trình bày ở thuật toán|4] Hill-Valley tering cũng bat đầu với một quan thé P được phát sinh ngẫu nhiên đồng nhất tai
Clus-thời điểm bắt đầu của thuật toán Sau đó, những lời giải 7; này được sắp xếp dựa
trên thứ tự tăng dan theo giá trị hàm mục tiêu của chúng Trước quá trình gomnhóm, lời giải tốt nhất 7 sẽ hình thành nhóm đầu tiên C¡ Từ lời giải thứ hai trở đi,lời giải thứ ¡ - ký hiệu là P;, tìm lời giải - ký hiệu P;, gần nhất, tốt hon nó và đã được
17
Trang 37Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
Thuật toán 3: Kiem-Tra-Hill-Valley
Dữ liệu vào: hai lời giải x và , số lần kiểm tra N, bài toán ƒ
Dw liệu ra: liệu chúng có thuộc cùng một basin không ?
Thuat toan 4: Hill-Valley Clustering
Dw liệu vào: kích thước 4, vecto chan dưới I, vectơ chặn trên u, bài toán ƒ, số
lần kiểm tra N
Dữ liệu ra: tập hợp K chứa các quan thé
1 fori=1, ,A do
2 | 7i 1+(u—1)OU(0,1)
3 Sắp xếp 7 theo thứ tự tăng dan cua giá trị hàm mục tiêu
aC, {Pi}, KH {Cy}
5 fori =2, ,A do
6 for j =1, ,i—1do dj — d(Pj,P;)
7 forj =1, ,i—1do
8 k & chỉ số của lời giải thứ j gần nhất và tốt hơn P; từ {din} n=1, i—-1
9 h + chỉ số của nhóm C, sao cho 7y € C;,
10 if Cụ chưa từng được xem xét then
11 | if Kiem-Tra-Hill-Valley(P;, Px, N) then C;, — Cy U {Pi}
12 | if P; van chưa được phân nhớm then
13 đi — {Pi}
14 R K€cKU{CklI.t}
15 return K
phân vào một nhóm nào đó Nếu hai lời giải này được xác định thuộc chung một
basin thông qua phép kiểm tra Hill-Valley, lời giải P; được thêm vào nhóm chứa lời
giải 7; Nếu ngược lại, lời giải gan thứ hai và tốt hơn của P; sẽ được đánh giá Nêukhông còn lời giải nào tốt hơn P; để xem xét mà 7, vẫn chưa được phân vào mộtnhóm nào thì nó sẽ tự hình thành một nhóm mới Thuật toán này dừng khi tất cả
18
Trang 38Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
các lời giải của P đều đã được phân vào một nhóm
2.2.2 Thuật toán tìm kiếm địa phương
(1 + A) Evolution Strategy Beyer cùng đồng nghiệp [3] đã giải thích một cách day
đủ về (1+ A) Evolution Strategy (xem ở mã giả ở thuật toán (5) Thuat toan nay
bắt đầu với lời giải x là lời giải tốt nhất trong quan thé được cho 7 Mục tiêu củathuật toán là tìm kiếm những lời giải tốt hơn dựa trên lời giải x này như sau Trongmỗi vòng lặp, một tập hợp các lời giải tiềm năng 1; được phát sinh từ phân phối
Gaussian đẳng hướng có tâm là x và độ rộng của phân phối sẽ phụ thuộc vào tham
số cường độ đột biến ơ (mutation strength) Sau đó, lời giải tốt nhất yp, trong tập hợpcác lời giải tiềm năng này được so sánh với x Nếu lời giải mới Ypes; tốt hơn, 1/p;;; sẽ
thế chỗ của x; đồng thời, giá trị cường độ đột biến sẽ tăng lên theo hằng số nine để
tăng cường khả năng khám khá xung quanh cho thuật toán Nếu ngược lại, x không
đổi đồng thời tham số ơ sẽ giảm xuống theo hằng số 7z„¿ Thuật toán kết thúc khi
giá trị cường độ đột biến ơ nhỏ hơn ngưỡng A,,i, cho trước
Thuật toán 5: (1 + A) ES
Dư liệu vào: kích thước A, cường độ đột biến ơ, bài toán + quần thể 7, hằng
số tăng Yinc, hằng số giảm Ngoc, ngưỡng dừng Amin
Dữ liệu ra: lời giải tốt nhất
1 x + lời giải tốt nhất từ 7
2 while ơ > Az„ do
3 | Biến đổi x thành y; x + ơ(0,T)
4 Jbest “— arpmin;~1 A flyi)
AMaLGaM-IDEAs Thuat toan nay [4] (trinh bay trong thuat toán |6} đã cải tiến
ES với ba cơ chế quan trọng sau:
19
Trang 39Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG
Thuật toán 6: AMaLGaM-IDEAs
Dữ liệu vào: kích thước A, cường độ đột biến ơ, bài toán ƒ, quan thể 7, hằng
số tăng Yinc, hằng số giảm 17¿„¿, ngưỡng dừng Amin
Dữ liệu ra: lời giải tốt nhất
19 ifo < 1then NIS+ NIS+ 1
20 ifo > lor NIS > NISingy then ơ — Tiqse7
21 | ifo < 1and NIS < NIS„¿x then ơ — 1
22 man!
¢ Thứ nhất, hình dang của phân phối xác suất phát sinh lời giải không bị giới
hạn là đẳng hướng Giá trị trung bình ø (mean) và ma trận hiệp phương sai
x (covariance matrix) được ước lượng bằng cách sử dụng phương pháp ước
lượng hợp lí cực đại (maximum-likelihood estimation) trên | TA | lời giải tốt nhất
được chọn từ quan thể 7 với hang số chọn loc z € [0,1] (dòng 3 - 5)
¢ Thứ hai, cơ chế Anticipated Mean Shift (AMS) được thêm vào khi phát sinh lời
20