Khóa luận tốt nghiệp Khoa học máy tính: Phân tích các thuật toán tiến hóa đa cực trị thông qua mạng quỹ đạo tìm kiếm

o_ Tập trung phân tích về cơ chế tìm kiếm của các thuật toán tiến hóa và độ hiệu quả của chúng khi giải quyết bài toàn Tối ưu hóa đa cực trị.. e Nội dung và phương pháp thực hiện: o Nội

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRAN THÁI BẢO — 20520410

KHOA LUAN TOT NGHIEP

PHAN TICH CAC THUAT TOAN TIEN HOA DA CUC

TRI THONG QUA MANG QUY DAO TIM KIEM

ANALYSIS OF MULTIMODAL EVOLUTIONARY

ALGORITHMS USING SEARCH TRAJECTORY NETWORK

CU NHAN TAI NANG NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN

TS LUONG NGOC HOANG

TP HO CHi MINH, 2024

Trang 2

DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Doce cece eaeneeed — Chủ tịch.

P — ea ene ne tenn ee ens — Thu ky.

Boece cee cc cece ence neces tees eae eeeenaeenaeenees — Ủy viên.

ee — Uy viên.

Trang 3

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN re

TP HCM, ngay thang ndm

NHAN XET KHOA LUAN TOT NGHIEP

CAN BO HUONG DAN

Tên khóa luận:

PHAN TÍCH CÁC THUẬT TOÁN TIEN HOA DA CUC TRI THONG QUA

MANG QUY DAO TIM KIEM

Nhóm SV thực hién: Cán bộ hướng dẫn:

Trần Thái Bảo 20520410 TS Lương Ngọc Hoang

Đánh gia Khóa luận

1 Vê cuôn báo cáo:

Trang 4

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

CÔNG NGHỆ THÔNG TIN re

TP HCM, ngay thang ndm

NHAN XET KHOA LUAN TOT NGHIEP

CAN BO PHAN BIEN

Tên khóa luận:

PHAN TÍCH CÁC THUẬT TOÁN TIEN HOA DA CUC TRI THONG QUA

MANG QUY DAO TIM KIEM

Nhom SV thuc hién: Can bô phản biện:

Trần Thái Bảo 20520410 TS Võ Nguyễn Lê Duy

Đánh gia Khóa luận

1 Vê cuôn báo cáo:

Trang 6

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 7

ĐẠI HỌC QUỐC GIA TP HÒ CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

CÔNG NGHỆ THÔNG TIN

DE CƯƠNG CHI TIẾT

TÊN ĐÈ TÀI: PHAN TÍCH CAC THUẬT TOÁN TIEN HÓA ĐA CỰC TRI THONG

QUA MẠNG QUY ĐẠO TÌM KIEM

Cán bộ hướng dẫn: TS Lương Ngọc Hoang

Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 30/12/2023

Sinh viên thực hiện:

Trần Thái Bảo - 20520410

Nội dung đề tài:

Trang 8

¢ Mục tiêu nghiên cứu: Dé xuất phương pháp nhằm mô ta cơ chế hoạt động của các

thuật toán tiễn hóa thông qua các hình ảnh rõ ràng khi giải quyết bài toán Tối ưu

hóa đa cực tri.

e Phạm vi và đối tượng nghiên cứu:

o Bài toán Tối ưu hóa đa cực trị được tiếp cận ở dạng hộp đen; cụ thé hon thì

với mỗi lời giải kha thi, thong tin duy nhất ma chúng tôi có được là giá trị

hàm mục tiêu tương ứng, đồng thời đi kèm với chi phí dé đạt được giá trị

đó.

o_ Tập trung phân tích về cơ chế tìm kiếm của các thuật toán tiến hóa và độ

hiệu quả của chúng khi giải quyết bài toàn Tối ưu hóa đa cực trị.

e Nội dung và phương pháp thực hiện:

o Nội dung 1: Khảo sát

= Tìm hiéu các công trình nghiên cứu về các phương pháp phân tích

thuật toán tiễn hóa khi giải quyết bài toán Tối ưu hóa đa cực trị hộp

đen.

= Tìm hiểu các thuật toán tiễn hóa hiệu quả trên bài toán Tối ưu hóa đa

cực trị hộp đen nhằm phục vụ cho việc phân tích.

= Tìm hiểu bộ hàm số benchmark được sử dung đề đánh giá hiệu suất

của thuật toán tối ưu hóa đa cực trị.

o Nội dung 2: Thiết kế phương pháp phân tích và trực quan hóa

= Dựa trên ý tưởng của các phương pháp phân tích thuật toán tối ưu

hóa trước đây, đề xuất các bước dé hình thành một cách phân tích hành vi tìm kiếm phù hợp cho các thuật toán tối ưu hóa đa cực trị.

= Cung cap một chiên lược cải thiện hiệu suat của các thuật toán tôi ưu

hóa đa cực trị dựa trên các phân tích có được.

Trang 9

o Nội dung 3: Thực nghiệm

= Tiến hành giải quyết bộ hàm số benchmark với các thuật toán tiễn

hóa đa cực trị nham thu thập dữ liệu cho việc phân tích.

= Phân tích và so sánh các kết qua thu được bằng cách sử dụng phương

pháp phân tích được đề xuất; đồng thời đối chiếu các hình ảnh mô tả hình vi tìm kiếm với các số liệu dé kiểm tra tính đúng đắn của phương

pháp.

= Thực hiện chiến lược cải thiện hiệu suất cho các thuật toán tiến hóa

đa cực trị dựa trên các kết quả phân tích được.

Kết quả dự kiến:

o Dé xuất phương pháp MDSTN (viết tắt của Search Trajectory Network for

Multimodal Domain) — một phương pháp phân tích thông qua hình ảnh cho

các thuật toán tiễn hóa đa cực trị.

o Cung cấp mã nguồn của phương pháp MDSTN sử dụng cho việc phân tích.

Kế hoạch thực hiện:

STT Cong viéc Thời gian thực hiện Phân công

Nội dung 1: Khảo sát 11/09 — 11/10/2023

1 | Phân tích đề tài nghiên cứu Trần Thái Bảo

2 Tìm hiệu các công trình nghiên Trần Thái Bảo

cứu liên quan

3 Tìm hiệu những thuật toán tiên Tran Thái Bảo

hóa đa cực trị hiệu quả

Tìm hiểu bộ benchmark đánh ;

4 giá hiệu suat cho bài toán Tôi Trân Thái Bảo

ưu hóa da cực tri

Trang 10

Nội dung 2: Thiết kế phương pháp

phân tích và trực quan hóa 12/10 — 11/11/2023

Đề xuất phương pháp phân tích Ộ

1 phù hợp cho bài toán Tôi ưu Trân Thái Bảo

hóa da cực tri

Cung câp một chiên lược cải

ma yin Tran Thai Bao

thién hiéu suat

Nội dung 3: Thực nghiệm 12/11 — 30/12/2023

Tiến hành cai đặt các thuật

1 toán tiên hóa đa cực trị đê giải Trân Thái Bảo

quyêt bộ hàm sô benchmark

Phân tích và so sánh các kết

quả thu được băng cách sử

2 dụng phương pháp phân tích Trân Thái Bảo

được dé xuat

3 Thực hiện chiên lược cải thiện Tran Thái Bảo

hiệu suât

Viết báo cáo đề tài 12/10 — 30/12/2023 Trần Thái Bảo

Xác nhận của CBHD TP HCM, ngay thang năm

(Ký tên và ghi rõ họ tên) Sinh viên

(Ky tên và ghi rõ họ tên)

Trang 11

LỜI CẢM ƠN

Lời đầu tiên, chúng tôi xin được gửi lời cảm ơn chân thành đến thầy Lương NgọcHoàng, người đã dành tâm huyết để động viên, hỗ trợ và hướng dẫn chúng tôi suốtquá trình nghiên cứu và thực hiện đề tài khóa luận này

Tiếp theo, chúng tôi xin chân thành cảm ơn quý thay, cô trong khoa Khoa họcMáy tính nói riêng và toàn thể thầy, cô trong trường Đại học Công nghệ Thông tinnói chung đã tận tình giảng dạy, trang bị cho chúng tôi hành trang là những kiếnthức quý báu trong những năm ngồi trên ghế nhà trường

Và cuối cùng, chúng tôi bày tỏ lòng biết ơn sâu sắc đến gia đình của mình Giađình là hậu phương vững chắc và nguồn động lực to lớn thúc đẩy chúng tôi hoàn

thành tốt đề tài khóa luận này

xii

Trang 12

2 CAC CONG TRINH LIEN QUAN VA KIEN THUC NEN TANG 10

2.1 Các công trình lên quan| 10

2.2_ Thuật toán tiến hóa đa cực trịị - 13

L

`© ` Œœ œ œ Cœ Ơi 3 3 N

2.2.1 Thuật toán tìm kiếm toàn cục| 14

2.2.2 Thuật toán tìm kiếm địa phương| 19

2.2.3 Thuật toán ghép nổi ee 21

Trang 13

3.2.3 Tổng hợp|.

4 THỰC NGHIỆM

4.1 Bộ hàm số benchmark được sử dụng|

4.2_ Đánh giá hiệu ST

4.2.1

ChỉsôRecall -Cee eee 4.3 Thiét lap thựcnghiệm|

44 Kétquathucnghiém| 2.0.0.0 0.0000 ee eee 44.1 Tại sao không thé sử dung STN

gốc?| -4.4.2 So sánh chỉ số hiệu suất

-4.43 Phân tích vớ MDSIMNR

s.IHEn \À

ÁN

4.4.4 Hiệu chỉnh siêu tham

số| -5 KÊT LUẬN VÀ HƯỚNG PHAT TRIEN 51 Kếtluận

5.2 Hướng phát triển

TÀI LIỆU THAM KHẢO

xiv

28 28

30

31 31 31

33

33 34

36

38 42 48

55

55 56

57

Trang 14

DANH SÁCH HÌNH VẼ

1.1 Không gian tìm kiếm 2 chiều bị chặn bởi hai vectơ 1 = [—10,10]7 và

mục tiêu tại đó càng lớn và ngược lại.

1.2_ Minh họa hai dang lời giải cực tiểu trong không gian tim kiêm 1 chiều

Lời giải màu đỏ là lời giải cực tiểu toàn cục, trong khi lời giải màu

xanh là lời giải cực tiểu địa phương

1.3 Hai cách thức tiếp cận của một bài toán Tôi ưu hóa bao ôm Hộp den

(bên trái) và Hộp trắng (bên phải)1.4 Các phương pháp giải quyết khi bài toán MMO được tiếp cận ở dang

Hộp den va Hộp trắng Đường di được tô mau đỏ sẽ được sử dụng

trong khóa luận này.|_ Ặ.ẶẶẶ QẶ Q o

2.1 Các giai đoạn của một phương pháp giảm số chiều của không gian

tìm kiếm bao gồm chiếu (projection) và truc quan hóa (visualization).|

2.2 Câu trúc chung của thuật toán tiên hóa đa cực trị [20].

2.3 Minh hoa giả thuyết của phép kiểm tra Hill-Valley Có 3 lời giải tô

không tổn tại lời giải nào nằm giữa và có vị trí cao hơn cả hai lời giải

đang xét Trong khi đó, khi xét lời giải màu đỏ ở vị trí 0.43 và lời giải

màu xanh lục ở vi trí 0.5, ton tại một lời giải cao hơn phân tách hai lời

giải này, ví dụ như lời giải ở vị trí 0.45

XV

Trang 15

3.1 Minh họa cho Mạng quỹ đạo tìm kiếm đa cực trị Trong hình có ba loại

nút bao gồm nuit khởi tạo (hình vuông vàng), mít trung gian (hình tròn

đỏ cho thấy đường tìm kiếm đã đến được kho lưu trữ mong muốnchứa tất cả lời giải cực tiểu toàn cục Cạnh khuyên cho thấy trạng thái

của kho lưu trữ không thay đổi trong hai vòng lặp kề nhau

3.2 Quy trình mã hóa cho một trạng thái có 4 lời giải hai chiều của kho

lưu trữ Hằng số phân chia PF được chọn bằng 1 cho thay không gian

tìm kiếm được chia thành các hình vuông có độ dài cạnh là 0.1 trước

—— 5

3.3 Cách thức chuẩn bị dữ liệu để xây dựng MDSTN Có 5 cột trong file

dữ liệu Cột thứ nhất là chứa thứ tự của các lần biên đổi trạng thái

của kho dữ liệu Cột ID 1 và ID 2 là mã định danh của hai trạng thái.

Cột Val 1 và Val 2 là độ chat lượng của hai trạng thái đó3.4 Minh hoa cho mạng kết quả thu được từ việc hợp nhất MDSTN của

hai MEAs Hai thuật toán này được phân biệt bởi hai màu xanh lục

và xanh lam Nút xám cho thay hai thuật toán này đều có chung một

trạng thái của kho lưu trữ, và cạnh xám thể hiện rằng cả hai thuậttoán đều đạt được kho lưu trữ tốiưu| 27

4.1 Minh họa cách xác định số lượng lời giải cực tiểu toàn cục phân biệt

GO x„ chứa trong A, Hình vẽ có hai lời giải cực tiểu toàn cục và 3

lời giải tô màu xanh lam cần xem xét Hai lời giải màu xanh lam nằm

trong phạm vi cần xem xét của lời giải cực tiểu toàn cục bên trái nênchúng đều là các lời giải mong muốn Tuy nhiên chỉ có một lời giải

được đêm Ta có thể loại bỏ một trong hai lời giải này bằng cách kiểm

tra xem khoảng cách giữa chúng có vượt quá hai lần bán kính chophép hay không Còn về lời giải màu xanh lam bên phải, vì nó không

nằm trong lân cận của lời giải màu đỏ nên nó sẽ không được đêm Vì

vậy GOy, trong trường hợp này là l| 30

4.2 Trực quan hóa hành vi tìm kiểm của HVAM khi giải hàm Shubert hai

đỏ biểu diển lời giải cực tiểu toàn cục của hàm số

xvi

Trang 16

4.3 Minh hoa 3 chiều cho không gian tìm kiểm của hai hàm số Shubert

hai chiều (hình bên trái) và hàm số Vincent hai chiều (hình bên phải)

Không gian tìm kiếm của hàm số Shubert được chia làm 9 khu vực,

trong đó mỗi khu vực sẽ chứa hai lời giải cực tiểu toàn cục nam gần

nhau nhưng rất xa với các lời giải cực tiểu toàn cục thuộc khu vực

toàn cục không tuân theo một quy luật rõ ràng như của hàm số bert mà sẽ chứa nhiều khoảng cách có độ lớn đa dạng

Shu-4.9 Trực quan hóa quỹ đạo tìm kiếm của HVAM trong 10 lần thực thi

được chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm

raẽaeẽaẽẼẽ aẽnẽ.W.W.WWwWwWw 44

4.10 Trực quan hóa quỹ đạo tìm kiêm của NBAM trong 10 lần thực thi

xvii

Trang 17

số Shubert hai chiều | -.-.- 46

4.12 Trực quan hóa quỹ đạo tìm kiếm của URES trong 10 lần thực thi được

chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm số

Shubert hai chiều.| - - 47

4.13 Truc quan hóa quỹ đạo tìm kiếm của URAM trong 10 lần thực thi

số Shubert hai chiều | .-.s- 49

4.14 Trực quan hóa quỹ đạo tìm kiếm của NBES trong 10 lần thực thi được

chọn ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm số

Shubert hai chiều | 50

4.15 Trực quan hóa quỹ dao tìm kiếm của HVAM, HVES, URAM, và URES

sau quá trình hiệu chỉnh siêu tham số trong 10 lần thực thi được chọn

ngẫu nhiên từ 50 lần thực thi độc lập khi giải quyết hàm số Shubert

#4 #® vxxS DÖ \ / 52

4.16 Giá trị recall của URES được tính trung bình trên 50 lần thực thi độc

lập của 32 bộ siêu tham số (7c, Naec, Amin) khi giải quyết hàm số

của đô thị, một bộ siêu tham số sẽ được biểu diễn thành một chuỗi

“inc Ndec-Smin' Ví dụ như bộ (1.1,0.6, 10—19) sẽ là “1.1_0.6_1e-10"

4.17 Trực quan hóa quỹ đạo tìm kiếm của URES với hai bộ siêu tham số

(1.1,0.6,10-5) - ký hiệu là URES1605, va (1.1,0.6,10- 19) - ký hiệu làURES1610, trong 10 lần thực thi được chọn ngẫu nhiên từ 50 lần thực

xviii

Trang 18

DANH SÁCH BANG

Trang 19

DANH SÁCH TỪ VIET TAT

AM AMaLGaM-IDEAs

ES (1+ A) Evolution Strategy

HVC Hill-Valley Clustering

LON Local Optimal Network

MDSTN Search Trajectory Network for Multimodal Domain

MEA Multimodal Evolutionary Algorithm

MMO Multimodal Optimization

NBC Nearest-Better Clustering

STN Search Trajectory Network

URR Uniform Random Restart

XX

Trang 20

TOM TAT

Từ lâu, Tối ưu hóa (Optimization) đã đóng vai trò quan trong trong hoạt động sản

xuất và vận hành doanh nghiệp Dựa trên một tập hợp các phương án khả thi, mụctiêu của bài toán là xác định phương án tốt nhất cho một mục tiêu cụ thể Ví dụ như

xác định bản thiết kế điện thoại có hiệu năng cao nhất hay chiến lược bán hàng đạt

được nhiều lợi nhuận nhất Tuy nhiên, phương án tốt nhất tìm được trên lý thuyếtlại có thể không phù hợp để áp dụng vào thực tế Để tìm ra giải pháp phù hợp, quá

trình tối ưu hóa phải được lặp lại nhưng sẽ trở nên phức tạp hơn khi có thêm ràng

buộc là loại trừ phương án không thực tế trước đó Do đó, Tối ưu hóa đa cực trị

(Multimodal Optimization, viết tắt MMO) - một bài toán nhằm tự động tìm kiếmđồng thời nhiều phương án chất lượng cao, đã được hình thành Thuật toán tiến

hóa là một trong những công cụ hiệu quả để giải quyết bài toán trên Mặc dù cáccông trình nghiên cứu gần đây về sử dụng thuật toán tiền hóa để giải quyết bài toán

MMO đều đạt những kết quả đáng chú ý, nhưng chúng tôi nhận thấy rằng các kết

quả này chỉ mới được thể hiện ở dang số liệu mà thiếu đi các phân tích trực quan vềhành vi hoạt động của các thuật toán Trong khóa luận tốt nghiệp này, chúng tôi dé

xuất phương pháp nhằm mô tả cơ chế hoạt động của các thuật toán tiến hóa thông

qua các hình ảnh rõ ràng khi giải quyết bài toán Tối ưu hóa đa cực trị Bằng cách tậndụng những khái niệm từ lý thuyết đồ thị, chúng tôi biểu dién quá trình tối ưu hóacủa một thuật toán thành một đồ thị có hướng Trong đó, mỗi nút tượng trưng chomột trạng thái mà thuật toán đang gặp phải và mỗi cạnh tượng trưng cho sự chuyểnđổi tiém năng giữa hai trạng thái

Để kiểm chứng tính hiệu quả của phương pháp được đề xuất, chúng tôi tiến

hành phân tích lần lượt các thuật toán tiến hóa đa cực trị (Multimodal Evolutionary

Algorithm - MEA), được cau thành từ năm thuật toán thành phan bao gồm: Uniform

Random Restart, Nearest-Better Clustering, Hill-Valley Clustering, AMaLGaM-IDEAs, va

(1 +A) Evolution Strategy khi giải quyết bộ hàm số benchmark của Hội nghị về Tinhtoán Tiến hóa (CEC) diễn ra vào năm 2013 Các kết quả đạt được cho thay phươngpháp của chúng tôi đã mô tả trực quan hành vi tìm kiếm của các thuật toán tiến hóa

Từ đó, tạo điều kiện cho chúng tôi có thể khám phá những cơ chế tiềm ẩn và đưa rachiến lược hiệu quả để cải thiện hiệu suất của các thuật toán

Trang 21

Chương 1

TỔNG QUAN

Trong chương này, chúng tôi sẽ đưa ra cái nhìn chung về bài toán Tối ưu hóa đacực trị và trình bày các hướng tiếp cận hiện tại trên bài toán Ở nội dung tiếp theo, chúng tôi sẽ đề cập đến phạm vi và mục tiêu nghiên cứu trong khóa luận này Ở

cuối chương, chúng tôi sẽ tóm tắt những nội dung thực hiện, những đóng góp của

chúng tôi và trình bày bố cục chính của bài khóa luận

1.1 Bài toán Tối ưu hóa đa cực trị

1.1.1 Mô tả bài toán

Tối ưu hóa (Optimization) đã cho thấy được vai trò quan trọng của mình khi xuất

hiện trong hầu hết các vấn đề từ nhiều lĩnh vực khác nhau như: y tế (7\|13], san xuat

[9| [19], v.v Nó được sử dung để tim ra một phương án tốt nhất sao cho tối tiểu hóa

(hoặc tối đa hóa) một hàm mục tiêu cụ thể Tuy nhiên, phương án tìm được này cókhả năng không thể áp dụng vào trong thực tế bởi hạn chế về mặt tài nguyên Do

đó, bắt buộc quá trình tối ưu phải được thực hiện lại nhưng đi kèm với đó là một sốràng buộc mới được thêm vào Điều này đòi hỏi rất nhiều kinh nghiệm, thời gian và

công sức để cho ra được một phương án như kỳ vọng Chính vì khó khăn trên mà

Tối ưu hóa đa cực trị (Multimodal Optimization - viết tắt: MMO) - một bài toán tự

động tìm kiếm đồng thời nhiều lời giải có chất lượng cao, đã được hình thành và trở

thành một chủ đề thu hút được sự chú ý của nhiều nhà nghiên cứu trong vài năm

gần đây

Trang 22

dụ như trong sản xuất sản phẩm, hàm mục tiêu sẽ tính chi phí để sản xuất một mẫu

sản phẩm bat kỳ và các thành phần x; trong lời giải tương ứng với một thông sốcần thiết lập để tạo ra sản phẩm Thông thường, các thông số này sẽ nằm trong một

phạm vi xác định trước nên không gian tìm kiếm 4# sẽ bi giới hạn bởi vectơ chặn

đưới I = [h,lạ, ,Ip]” và vectơ chặn trên u = [uy,U2, ,Up]' Khi đó, mỗi giá trị

thành phần x; sẽ nằm trong đoạn [I;, u;] tương ứng Hình[I.1|minh họa không gian

tìm kiếm 2 chiều bị chặn bởi hai vectơ 1 = [—10,10]T và „ = [—10, 10]T

10.0 250

7.5 200

150 5.0

100 2.5

50 0.0

HÌNH 1.1: Không gian tìm kiếm 2 chiều bị chặn bởi hai vectơ 1 =

[—10,10]7 và w = [—10,10]T Vị trí có màu càng sáng tương ứng với

giá trị hàm mục tiêu tại đó càng lớn và ngược lại.

Tiếp theo, với một lời giải x bat kỳ, chúng tôi xem xét một tập hợp lân cận Ne (x)của nó chứa tat cả lời giải thuộc ¥ và cách x một khoảng không quá e > 0 cho trước

Trang 23

Chương 1 TỔNG QUAN

Biểu diễn toán học của tập hợp này là Ne(x) = {y € # | d(x,y) < e}, trong đó

d(-,-) là hàm đo khoảng cách euclidean giữa hai lời giải trong không gian tìm kiếm

Như vậy, có thể thấy rằng một lời giải sẽ có vô số tập hợp lân cận tương ứng với các

giá trị c khác nhau Từ đây, hai định nghĩa quan trọng cho các bài toán Tối ưu hóa

được hình thành:

° Lời giải cực tiểu địa phương: lời giải có giá trị hàm mục tiêu nhỏ nhất trong

tối thiểu một tập hợp lân cận của nó Ví dụ, y là lời giải cực tiểu địa phương

nêu Je >0: Ax € Ne(y) : f(x) < fly).

¢ Lời giải cực tiểu toàn cục: lời giải có giá trị hàm mục tiêu nhỏ nhất trong toàn

bộ không gian tìm kiếm Nói cách khác, lời giải này là lời giải cực tiểu địa

phương trong mọi tập hợp lân cận của nó Ví dụ, y là lời giải cực tiểu toàn cục

nếu Ve > 0, fix € Ne(y) : f(x) < fly)

HINH 1.2: Minh hoa hai dạng lời giải cực tiểu trong không gian tim

kiếm 1 chiều Lời giải màu đỏ là lời giải cực tiểu toàn cục, trong khi lời

giải màu xanh là lời giải cực tiểu địa phương.

Hình[1.2Ìminh họa cho hai kiểu lời giải quan trọng đã trình bày bên trên Trong

ví dụ này, tập hợp lân cận bao gồm những lời giải bị giới hạn bởi hai đường nét đứtgần nhất Lời giải màu xanh là điểm thấp nhất trong tập hợp lân cận của nó, do đó

4

Trang 24

nó là một lời giải cực tiểu địa phương Tuy nhiên khi giãn rộng hai đường kẻ này ra

hai bên, lời giải màu xanh không còn tiếp tục là điểm thấp nhất nữa nên nó khôngphải là lời giải cực tiểu toàn cục Với cách làm tương tư, điểm màu đỏ luôn là điểmthấp nhất trong toàn bộ không gian tìm kiếm nên nó là một lời giải cực tiểu toàn

cục.

Mục tiêu lý tưởng của các bài toán MMO là thu thập chính xác một tập hợp bao

gồm tất cả lời giải cực tiểu toàn cục của hàm mục tiêu ƒ(-) tương ứng Tuy nhiên,việc xác định chính xác một lời giải nào đó trong không gian liên tục là bất khả thi

đo hệ thống biểu diễn số của máy tính không cho phép Vì vậy, thông thường, mục

tiêu lúc này chỉ cần xác định một tập hợp xấp xỉ sao cho các lời giải tìm được nằmgần với lời giải cực tiểu toàn cục trong bán kính cho phép (bán kính này được chọn

là 10-5 trong khóa luận này) Ví dụ, quay lại hình [1.1] không gian tìm kiếm đượcminh họa chứa 18 vi trí có màu tối nhất tương ứng với các lời giải cực tiểu toàn cục.Nhiệm vụ của bài toán là xác định tất cả các lời giải thuộc 18 vị trí này

112 Hướng tiếp cận

Phụ thuộc vào lượng thông tin khai thác được, một bài toán Tối ưu hóa có thể được

tiếp cận với hai cách thức chính là Hộp den (black-box) và Hộp trắng (white-box)

Hình[1.3|mô tả hai cách thức tiếp cận này Ở dạng hộp đen, ngoài những thông tin

cần thiết để tạo một lời giải hợp lệ (như số chiều của không gian tìm kiếm và phạm

vi giá trị), người giải quyết sẽ không được cho biết về cách thức tính toán giá trị hàm

mục tiêu của bài toán Cách duy nhất để xác định chất lượng của một lời giải là cho

lời giải đó tương tác với bài toán, từ đó bài toán mới trả về một con số tương ứng

với giá trị hàm mục tiêu Ngược lại, cách thức tiếp cận hộp trắng lại cung cấp đầy

đủ cho người giải quyết tất cả thông tin ma dang hộp đen ẩn đi Có thể thay ngayrằng để giải quyết bài toàn hộp đen sẽ cần nhiều lần thử sai rồi mới có thể cho ra

một lời giải đủ tốt, trong khi với thông tin về cách thức tính toán của hàm mục tiêu

từ hộp trắng, lời giải tối ưu có thể được phân tích và xác định ngay với một vài lần

thử (ví dụ như sử dụng công cụ đạo hàm) Tuy nhiên, trong thực tế, việc xác địnhtường minh được hàm mục tiêu sẽ cần nhiều thời gian cũng như kinh nghiệm của

các chuyên gia Do đó, hộp đen là hướng tiếp cận khả thi cho hầu hết các bài toántối ưu khi thông tin bị hạn chế

Trang 25

HÌNH 1.3: Hai cách thức tiếp cận của một bài toán Tối ưu hóa bao gồm

Hộp đen (bên trái) và Hộp trắng (bên phải).

Thuật toán

tối ưu

Một thách thức tôn tại khi giải quyết các bài toán MMO là số lượng lời giải cựctiểu địa phương của hàm mục tiêu có thể rất lớn so với lời giải toàn cục Do đó, đểthu được kết quả khả quan, một chiến lược tìm kiếm hiệu quả là vô cùng cần thiết.Dựa vào lượng thông tin thu được, sẽ ton tại những phương pháp khác nhau để giảiquyết bài toán MMO Khi cách thức tính toán của hàm mục tiêu được tiết lộ, các

phương pháp sử dụng đạo hàm (derivative-based methods) sẽ được ưu tiên hơn cả

bởi độ chính xác tuyệt đối của chúng; trong khi với dạng hộp đen, các phương pháp

ngẫu nhiên (stochastic optimization methods) luôn được sử dụng bởi khả năng dò

tìm hiệu quả trong môi trường thiếu thông tin Thuật toán tiến hóa (Evolutionary

Algorithm) là một ứng cử viên sáng giá nhất khi tiếp cận theo hướng này Hình

[I.4|mô tả bức tranh tổng quát về các phương pháp giải quyết hiện tại trên bài toán

MMO.

Các phương pháp sử dung đạo hàm sé luôn tận dụng phương trình dao hàm của

hàm mục tiêu để tìm ra các điểm cực trị Có hai cách thức chính để khai thác dạng

thông tin này là sử dụng thuật toán lặp và giải nghiệm phương trình ƒ'(x) = 0.

Thuật toán lặp bắt đầu với một lời giải cho trước Trong mỗi vòng lặp, vectơ đạo

ham (gradient) tại lời giải đang xét sẽ được tính thông qua phương trình đạo hàm

và lời giải này sẽ di chuyển theo gradient của nó Quá trình này dừng khi giá trị đạo

hàm nhận được là xấp xỉ không Ví dụ điển hình của kiểu thuật toán này là gradient

descent Với cách thức giải nghiệm, người giải quyết mong muốn sẽ tìm tat cả cáclời giải x sao cho đạo hàm ƒ”(x) tại đó không tồn tại hoặc bằng 0 Sau đó, giá tri hàm

mục tiêu giữa các lời giải đó sẽ được so sánh với nhau để tìm ra các lời giải tốt nhất

Trang 26

dụng trong khóa luận này.

Mặt khác, các phương pháp ngẫu nhiên phát sinh nhiều lời giải một cách ngẫunhiên nhằm khám phá không gian tìm kiếm của bài toán Thuật toán tiến hóa làtiêu biểu cho phương pháp này Cơ chế hoạt động của thuật toán này khi áp dụngtrong MMO sẽ được mô tả như sau Ở đầu mỗi vòng lặp, một quân thể - tập hợp

các lời giải, được khởi tạo ngẫu nhiên trong không gian tìm kiếm Sau đó, quần thể

này được phân chia thành nhiều quan thể con va tạo điều kiện cho các quan thể connày có thể đi chuyên độc lập đến các vị trí khác nhau Mỗi quần thể con sẽ trải qua

một quá trình bao gồm các phép biến đổi (lai ghép, đột biến) và tiến hành chọn lọc

Trong giai đoạn chọn lọc, quần thể sẽ chỉ giữ lại một sO lượng cu thể những lời giải

có giá trị hàm mục tiêu thấp nhất Cơ chế chọn lọc này có vai trò điều hướng quanthể tiến tới các lời giải tốt hơn Quá trình này được lặp lại đến khi quần thể con hội

tụ; khi đó, những lời giải còn tổn tại trong các quần thể con sẽ là các lời giải cần tìm

Trang 27

trị hàm mục tiêu tương ứng đi kèm theo là chi phí để nhận được giá trị đó Bên cạnh

đó, chúng tôi tập trung phân tích về cơ chế tìm kiếm của các thuật toán tiến hóa và

độ hiệu quả của chúng khi giải quyết bài toán Tối ưu hóa đa cực trị

1.2.2 Mục tiêu

Dựa vào phạm vi nghiên cứu đã được trình bày, mục tiêu của chúng tôi đặt ra khi

thực hiện khóa luận này là cung cấp một phương pháp phân tích hành vi tìm kiếmcủa các thuật toán tiến hóa cho bài toán MMO hộp đen Từ đó, chúng tôi đưa rachiến lược hiệu chỉnh cần thiết để cải thiện hiệu suất của các thuật toán từ những

phân tích thu được.

1.3 Nội dung thực hiện

Để hoàn thành mục tiêu đặt ra, chúng tôi đã thực hiện những nội dung sau đây:

tiến hóa đa cực trị khi giải quyết bài toán MMO hộp đen

¢ Dé xuất phương pháp mới để phân tích hành vi tìm kiếm của thuật toán tiến

hóa đa cực trị trên bài toán MMO hộp đen.

đen nhằm phục vụ cho việc phân tích

¢ Tìm hiểu bộ hàm số benchmark được sử dụng để đánh giá hiệu suất của một

thuật toán tối ưu hóa đa cực trị

e Tiến hành thực nghiệm trên bộ hàm số benchmark tìm được và phân tích hành

vi tìm kiếm của các thuật toán bằng cách sử dụng phương pháp đề xuất

8

Trang 28

1.4 Đóng góp của khóa luận

Từ những kết quả đạt được trong quá trình thực nghiệm, thông qua khóa luận này,

chúng tôi có những đóng góp sau đây:

¢ Đề xuất phương pháp mới giúp phân tích hành vi tìm kiếm của thuật toán tiến

hóa đa cực trị trên bài toán MMO hộp đen.

hóa đa cực trị thông qua phương pháp đề xuất

* Cung cấp chiến lược cải thiện hiệu suất của các thuật toán tiến hóa đa cực trị

dựa trên các thông tin phân tích được.

e Cung cấp mã nguồn thực nghiệm| |

1.5 Cấu trúc khóa luận

Khóa luận của chúng tôi bao gồm 5 chương chính:

¢ Chương 1: Tổng quan

* Chương 2: Các công trình liên quan và kiến thức nền tang

se Chương 3: Phương pháp dé xuất

s® Chương 4: Thực nghiệm

* Chương 5: Kết luận và hướng phát triển

https://github.com/tbaotr/BScThesis

Trang 29

Chương 2

CÁC CÔNG TRÌNH LIÊN QUAN VÀ

KIÊN THỨC NEN TANG

Trong chương này, chúng tôi sẽ trình bày các công trình nghiên cứu liên quan đếnphương pháp phân tích hành vi tìm kiếm của những thuật toán tiền hóa hiện nay và

các kiến thức nền tảng được sử dụng xuyên suốt khóa luận này Phằn|2.1|trình bày

một vài công trình nghiên cứu tiêu biểu liên quan đến việc phân tích thuật toán tiến

hóa Ngoài ra, đặc điểm và cơ chế hoạt động của các thuật toán tiến hóa đa cực trị

được trình bày ở phân|2.2|

2.1 Các công trình liên quan

Trong việc phân tích hành vi tìm kiếm của các thuật toán tiến hóa, bên cạnh bảng sốliệu, các nhà nghiên cứu mong muốn thu được hình ảnh về cách thức đi chuyển củacác quan thể trong quá trình tối ưu hóa Tuy nhiên, điều này chỉ thực hiện được khi

số chiều của không gian tìm kiếm không quá ba Lý do là bởi không gian có chiều lớn

hơn rat khó để có thể trực quan hóa trong thực tế Một giải pháp được dé xuất để giảiquyết van đề trên là giảm số chiều của không gian tìm kiếm (dimensionality reduction) -một phương pháp biến đổi dữ liệu từ không gian có số chiều lớn sang không gian có

số chiều thấp hơn sao cho vẫn duy trì được một số tính chất quan trọng của dữ liệugốc Một số nghiên cứu nổi bật đã sử dụng Principal Component Analysis (PCA)

để bảo toàn tính xa [5] hay t-Distributed Stochastic Neighbor Embedding (t-SNE) đểbảo toàn tính gần của các lời giải (6, [12] Bên cạnh việc tạo điều kiện cho việc trực

10

Trang 30

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG

quan hóa dé dàng hơn, phương pháp này có thể giúp giảm thiểu đi một lượng lớn

tài nguyên dùng cho lưu trữ và tính toán trong quá trình phân tích.

Nhìn chung, các phương pháp giảm số chiều của không gian tìm kiếm bao gồm

hai giai đoạn chính là chiếu (projection) và frực quan hóa (visualization) Ở giai đoạn

thứ nhất, tất cả lời giải xuất hiện trong mỗi vòng lặp cũng như giá trị hàm mục tiêu

của chúng phải được lưu lại trong suốt quá trình giải quyết bài toán tối ưu Nhằm

dé hình dung, giả sử một quan thể của thuật toán tiến hóa phải trải qua n vòng lặp

để đến được lời giải cực tiểu toàn cục Gọi P; là quần thể đó ở vòng lặp thứ ¡ với

¡ € {1, ,n} Ghép các tập hợp Pị, P„ lại với nhau để được một tập hợp P chứa

tất cả lời giải đã được tìm thấy bởi thuật toán Sau đó, tập hợp P này sẽ được biến đổithông qua các kỹ thuật giảm chiều (ví dụ như PCA, t-SNE) thành tập hợp Y chứacác vectơ hai chiều Y này sẽ được tách thành các tập hợp Y\, , Y„ sao cho mỗi Y;

tương ứng với tập hợp lời giải gốc P; Ở giai đoạn còn lại, các vectơ hai chiều từ các

tập hợp Y1, , Yn sẽ được vẽ vào không gian cartesian và có màu phụ thuộc vào độ

lớn của giá trị hàm mục tiêu Hình|2.1| minh họa cho phương pháp giảm số chiều

của không gian tìm kiếm

IR*

HINH 2.1: Các giai đoạn của một phương pháp giảm số chiều của không gian tìm kiếm bao gồm chiếu (projection) và trực quan hóa (visualiza-

tion).

Một nhược điểm lớn của các phương pháp trên là gây mat mát thông tin do kỹ

thuật giảm số chiều mang lại và có thể làm thay đổi một cách không mong muốn các

tính nhất ban đầu của thuật toán Một hướng tiếp cận khác được phát triển gần đây

11

Trang 31

với mục tiêu ít tác động trực tiếp đến không gian tìm kiếm nhưng vẫn có thể trựcquan hóa một cách rõ ràng quá trình tối ưu hóa của thuật toán tiền hóa là dé thi hóa

Fieldsend cùng đồng nghiệp [8] đã áp dụng Mang cực trị địa phương (Local Optimal

Network - LON) [1] vào việc phân tích không gian tìm kiếm của các hàm mục tiêu

của bộ hàm số benchmark CEC’2013 dành cho tối ưu hóa đa cực trị [10] Đối với

LON, mỗi nút sẽ đại diện cho một viing triing (attraction basin) chứa đúng một lời

giải cực tiểu địa phương; nếu một thuật toán tối ưu hóa bắt gặp vùng trũng này thì

khả năng cao là nó sẽ hội tụ tại lời giải cực tiểu địa phương đó Nếu thuật toán được

phân tích di chuyển giữa hai basins, thì khả năng cao là hai basins này nằm ở gan

nhau trong không gian tìm kiếm; do đó, hai nút liên quan sẽ được nồi với nhau bằngmột cạnh có hướng Mặc dù đã cho thấy tiềm năng trong việc phân tích thuật toán,

nhưng LON có một ràng buộc đáng cân nhắc là lời giải tìm được trong mỗi vòng

lặp phải là lời giải cực tri địa phương Điều này gây cản trở cho việc áp dung LON

để phân tích thuật toán tiến hóa bởi vì các thuật toán này chỉ đảm bảo đưa ra lờigiải cực trị sau khi kết thúc quá trình tối ưu hóa Nhận thấy điều này, Ochoa cùngđồng nghiệp đã đề xuất một phương pháp cải tiến từ LON đó là Mang quiđạo tìm kiếm (Search Trajectory Network - STN) với mục đích loại bỏ ràng buộc này

đi Khi đó, mỗi nút của STN chỉ cần biểu diễn một phuong án đại diện (representative

solution), được chọn từ tập lời giải tìm được trong mỗi vòng lặp Điều này đã khiến

cho STN trở nên dé dang hon để áp dung trong việc phân tích trực quan hành vi tìm

kiếm của bat kỳ thuật toán tối ưu hóa nào, đặc biệt là các thuật toán tiến hóa

Mặc dù có nhiều công trình đã áp dụng STN và đưa ra các kết quả ấn tượng,nhưng các công trình này phần lớn chỉ tập trung vào khía cạnh Tối wu hóa don cựctrị (Unimodal Optimization) - bài toán chỉ yêu cầu tìm một lời giải tốt nhất Chúng

tôi đã thử áp dụng phương pháp STN này để trực quan hóa quá trình tìm kiếm của

các thuật toán tiến hóa đa cực trị Tuy nhiên, như sẽ được trình bày ở hình |4.2] kết

quả thu được là những hình vẽ không rõ ràng với một số lượng rất lớn nút và cạnhđược xếp đè lên nhau, khiến cho việc phân tích gần như là bất khả thi Trong khóaluận này, bằng cách khai thác các đặc tính quan trọng của bài toán MMO, chúng tôi

đề xuất một phiên bản được hiệu chỉnh từ STN của Ochoa để phù hợp hơn cho việcphân tích các thuật toán tiến hóa đa cực trị

12

Trang 32

2.2 Thuật toán tiền hóa đa cực trị

Nhìn chung, một thuật toán tiến hóa da cực trị (Multimodal Evolutionary Algorithm MEA) được câu thành từ hai thành phần chính 1a tim kiếm toàn cục (global search),

-và tìm kiếm địa phương (local search) Câu trúc chung của một MEA sẽ được trìnhbày trong hình|2.2| Trong mỗi vòng lặp, thuật toán tìm kiếm toàn cục phát sinh một

HINH 2.2: Cấu trúc chung của thuật toán tiến hóa đa cực trị [20].

tập hợp lời giải ban dau - ký hiệu là 7, với mục tiêu duy trì sự đa dạng cho quanthể Sau đó, thuật toán tìm kiếm địa phương được sử dụng để di chuyển quần thểđến các lời giải cực tiểu địa phương gần nhất Ở cuối vòng lặp, những lời giải tiềmnăng nằm trong tập hợp Q được xem xét để thêm vào kho lưu trữ A (archive), thôngqua một (huật toán ghép nói Tập hợp A này là tập xp xi các lời giải cực tiểu toàn cục

mà chúng tôi mong muốn đạt được Quy trình này sẽ được lặp lại cho đến khi thuật

toán sử dụng hết số lượng tài nguyên cho phép - ký hiệu là b Trong khóa luận này,

số lượng lần truy xuất giá trị hàm mục tiêu sẽ được chọn làm tài nguyên b Ngoài ra,

13

Trang 33

số lần truy xuất giá trị hàm mục tiêu được sử dụng trong giai đoạn tìm kiếm toàncục và tìm kiếm địa phương - ký hiệu là cg, cj, được xem như chi phí va trừ vào b

Gần đây, Maree cùng đồng nghiệp đã đề xuất HillVallEA kết hợp giữa

Hill-Valley Clustering và AMaLGaM-IDEAs |4] và trở thành một trong những MEAs tốtnhất hiện tại trong việc giải quyết các bài toán tối ưu hóa đa cực trị Cả hai thànhphan của HillVallEA đều đã được ghi nhận là những thuật toán phức tạp nhưng

vô cùng hiệu quả khi thực hiện các tác vụ được giao Một câu hỏi mà chúng tôi

đặt ra là thành phần nào có vai trò quan trọng hơn đối với hiệu suất tổng thể củamột MEA Để làm sáng tỏ điều này, chúng tôi lần lượt thay thế mỗi thành phần củaHillVallEA bang các thuật toán Uniform Random Restart bì, Nearest-Better Clustering

va (1+ A) Evolution Strategy [3] Ly do chúng tôi chon các thuật toán này là bởi

sự đơn giản của chúng khi so sánh với Hill-Valley Clustering và AMaLGaM-IDEAs.

Hai cái trước sẽ được sử dụng như thành phần tìm kiếm toàn cục, trong khi (1 + A)

Evolution Strategy sẽ là thành phần tìm kiếm địa phương Qua đó, chúng tôi có thểxem xét được sự biến đổi hiệu suất từ các tổ hợp mới này Các thuật toán được sửdụng như thành phần tìm kiếm toàn cục hay địa phương sẽ được liệt kê ở bảng |2.1|

cùng với ký hiệu viết tắt tương ứng

BẢNG 2.1: Bảng viết tắt cho các thuật toán sẽ được sử dụng cho tìm

kiếm toàn cục và tìm kiếm địa phương.

Tên thuật toán Ký hiệu

Uniform Random Restart* URR

Nearest-Better Clustering* NBC

Hill-Valley Clustering* [11] HVC

(1 + A) Evolution Strategy* ES

AMaLGaM-IDEAs* [4] AM

† Toàn cục * Địa phương

2.2.1 Thuật toán tìm kiếm toàn cục

Uniform Random Restart Bằng cách xuất phát tại những lời giải ban đầu khácnhau, một MEA có thể thu được nhiều lời giải cực trị địa phương phân biệt saumỗi vòng lặp Với ý tưởng này, chúng tôi sử dụng một phân phối xác suất đồng

14

Trang 34

nhất (uniform distribution) để phát sinh các lời giải ban đầu 7 trong giai đoạn tìmkiếm toàn cục Bên cạnh đó, phân phối này sẽ bị chặn bởi hai vectơ Ï và phụ

thuộc vào phạm vi tìm kiếm cho phép của bài toán Thuật toán [1|trình bày mã giả

multiplication).

Thuật toán 1: Uniform Random Restart

Dữ liệu vào: kích thước A, vectơ chặn dưới I, vecto chặn trên 1

Dữ liệu ra: quần thể

hiệu quả bởi nó không đảm bảo rằng tat cả lời giải toàn cục sẽ được tìm thấy trong

khi khả năng cao sẽ làm tăng số lần truy xuất giá trị hàm mục tiêu một cách lãngphí cho những lời giải trùng lặp Nhận thấy điều này, Preuss cùng đồng nghiệp

đã dé xuất một thuật toán tìm kiếm toàn cục hiệu quả hon so với URR thông qua

việc phân chia tập hợp các lời giải ban đầu P thành nhiều nhóm nhỏ hon sao cho

các nhóm này có thể di chuyển độc lập với nhau và hướng về các lời giải cực tiểutoàn cục phân biệt Mã giả của thuật toán này sẽ được trình bay trong Thuật toán |2]

Nearest-Better Clustering cũng bắt đầu với một tập hợp P chứa các lời giải được

phát sinh ngẫu nhiên đồng nhất Các lời giải này sẽ được sắp xếp theo thứ tự tăngdan theo giá trị hàm mục tiêu Tiếp theo, để dé hình dung, chúng tôi sẽ sử dung

một số khái niệm từ lý thuyết đồ thị để mô tả cách thức hình thành các quần thểcon của thuật toán này Từ dòng 4 đến dòng 8, NBC đang xây dựng một đồ thị bằng

cách hình thành các cạnh nối mỗi lời giải với một lời giải gần nhất và tốt hơn nó Có

thể thấy rằng đồ thị này có hai tính chất quan trọng là liên thông và không có chutrình Do đó, nếu một cạnh bất kỳ bị xóa đi thì đồ thị sẽ tách thành hai đồ thị con

liên thông Tác giả đã sử dụng một cơ chế heuristic để xóa đi những cạnh có độ dàilớn hơn ¢ lần trung bình độ dài của tất cả cạnh thuộc đồ thị ban dau, trong đó ¢ là

hệ số cắt cạnh Qua nhiều thử nghiệm, tác giả dé xuất ø nên được chọn là 2 và điều

này cũng áp dụng cho khóa luận này Nếu một cạnh (7, P’,d) được xác định sẽ bị

15

Trang 35

Thuật toán 2: Nearest-Better Clustering

Dw liệu vào: kích thước A, vectơ chặn dưới I, vectơ chặn trên u, bài toán ƒ,

8 | EH EU {(Pi, Pre, dee) }

9 distayg < trung bình độ dài cua tất cả cạnh trong €

11 for mỗi cạnh (P,P’,d) trong E do

12 ifd > @- dist„„„ then

chứa các lời giải trong đồ thị đó

Hill-Valley Clustering Mặc dù đã cho thấy nhiều cải thiện so với URR trong

[16], NBC chi sử dung khoảng cách euclidean để xác định hai lời giải có thuộc cùng

một basin không Cách làm này sẽ không phù hợp với các hàm có điều kiện xấu(ill-conditioned) - những hàm số tổn tại hai điểm dù ở rất gần nhau nhưng lại thuộchai basins khác nhau, và khiến NBC gom những lời giải mà đáng lẽ ra nếu được

hoạt động riêng biệt thì chúng sẽ trở thành những lời giải cực tiểu khác nhau Để

khắc phục điều này, Maree cùng đồng nghiệp đã dé xuất HillVallEA có sử dụng

thêm phép kiểm tra Hill-Valley [18] trong quá trình hình thành các quan thé con

16

Trang 36

HÌNH 2.3: Minh hoa giả thuyết của phép kiểm tra Hill-Valley Có 3 lời

giải tô màu đỏ nằm trong cùng một basin bởi khi xét một cặp lời giải

bat kỳ, không tổn tại lời giải nào nằm giữa và có vị trí cao hơn cả hai lời

giải đang xét Trong khi đó, khi xét lời giải màu đỏ ở vị trí 0.43 và lời

giải màu xanh lục ở vị trí 0.5, tồn tại một lời giải cao hơn phân tách hai

lời giải này, ví dụ như lời giải ở vị trí 0.45.

Trước tiên, chúng tôi sẽ mô tả cơ chế hoạt động của phép kiểm tra Hill-Valley

Thuật toán 3] trinh bay mã gia cho thuật toán nay Mục tiêu của phép kiểm tra

Hill-Valley là xác định hai lời giải được cho có thuộc chung một basin hay không bằng

cách dựa vào giả thuyết rằng nếu hai lời giải không thuộc cùng một basin thì phải

ton tại một lời giải nằm giữa chúng sao cho giá trị hàm mục tiêu của nó phải lớn hơn

giá trị đó của cả hai lời giải đang được xem xét Hình P.3|minh họa cho giả thuyết

này.

Mã giả của HiII-Valley Clustering được trình bày ở thuật toán|4] Hill-Valley tering cũng bat đầu với một quan thé P được phát sinh ngẫu nhiên đồng nhất tai

Clus-thời điểm bắt đầu của thuật toán Sau đó, những lời giải 7; này được sắp xếp dựa

trên thứ tự tăng dan theo giá trị hàm mục tiêu của chúng Trước quá trình gomnhóm, lời giải tốt nhất 7 sẽ hình thành nhóm đầu tiên C¡ Từ lời giải thứ hai trở đi,lời giải thứ ¡ - ký hiệu là P;, tìm lời giải - ký hiệu P;, gần nhất, tốt hon nó và đã được

17

Trang 37

Thuật toán 3: Kiem-Tra-Hill-Valley

Dữ liệu vào: hai lời giải x và , số lần kiểm tra N, bài toán ƒ

Dw liệu ra: liệu chúng có thuộc cùng một basin không ?

Thuat toan 4: Hill-Valley Clustering

Dw liệu vào: kích thước 4, vecto chan dưới I, vectơ chặn trên u, bài toán ƒ, số

lần kiểm tra N

Dữ liệu ra: tập hợp K chứa các quan thé

1 fori=1, ,A do

2 | 7i 1+(u—1)OU(0,1)

3 Sắp xếp 7 theo thứ tự tăng dan cua giá trị hàm mục tiêu

aC, {Pi}, KH {Cy}

5 fori =2, ,A do

6 for j =1, ,i—1do dj — d(Pj,P;)

7 forj =1, ,i—1do

8 k & chỉ số của lời giải thứ j gần nhất và tốt hơn P; từ {din} n=1, i—-1

9 h + chỉ số của nhóm C, sao cho 7y € C;,

10 if Cụ chưa từng được xem xét then

11 | if Kiem-Tra-Hill-Valley(P;, Px, N) then C;, — Cy U {Pi}

12 | if P; van chưa được phân nhớm then

13 đi — {Pi}

14 R K€cKU{CklI.t}

15 return K

phân vào một nhóm nào đó Nếu hai lời giải này được xác định thuộc chung một

basin thông qua phép kiểm tra Hill-Valley, lời giải P; được thêm vào nhóm chứa lời

giải 7; Nếu ngược lại, lời giải gan thứ hai và tốt hơn của P; sẽ được đánh giá Nêukhông còn lời giải nào tốt hơn P; để xem xét mà 7, vẫn chưa được phân vào mộtnhóm nào thì nó sẽ tự hình thành một nhóm mới Thuật toán này dừng khi tất cả

18

Trang 38

các lời giải của P đều đã được phân vào một nhóm

2.2.2 Thuật toán tìm kiếm địa phương

(1 + A) Evolution Strategy Beyer cùng đồng nghiệp [3] đã giải thích một cách day

đủ về (1+ A) Evolution Strategy (xem ở mã giả ở thuật toán (5) Thuat toan nay

bắt đầu với lời giải x là lời giải tốt nhất trong quan thé được cho 7 Mục tiêu củathuật toán là tìm kiếm những lời giải tốt hơn dựa trên lời giải x này như sau Trongmỗi vòng lặp, một tập hợp các lời giải tiềm năng 1; được phát sinh từ phân phối

Gaussian đẳng hướng có tâm là x và độ rộng của phân phối sẽ phụ thuộc vào tham

số cường độ đột biến ơ (mutation strength) Sau đó, lời giải tốt nhất yp, trong tập hợpcác lời giải tiềm năng này được so sánh với x Nếu lời giải mới Ypes; tốt hơn, 1/p;;; sẽ

thế chỗ của x; đồng thời, giá trị cường độ đột biến sẽ tăng lên theo hằng số nine để

tăng cường khả năng khám khá xung quanh cho thuật toán Nếu ngược lại, x không

đổi đồng thời tham số ơ sẽ giảm xuống theo hằng số 7z„¿ Thuật toán kết thúc khi

giá trị cường độ đột biến ơ nhỏ hơn ngưỡng A,,i, cho trước

Thuật toán 5: (1 + A) ES

Dư liệu vào: kích thước A, cường độ đột biến ơ, bài toán + quần thể 7, hằng

số tăng Yinc, hằng số giảm Ngoc, ngưỡng dừng Amin

Dữ liệu ra: lời giải tốt nhất

1 x + lời giải tốt nhất từ 7

2 while ơ > Az„ do

3 | Biến đổi x thành y; x + ơ(0,T)

4 Jbest “— arpmin;~1 A flyi)

AMaLGaM-IDEAs Thuat toan nay [4] (trinh bay trong thuat toán |6} đã cải tiến

ES với ba cơ chế quan trọng sau:

19

Trang 39

Thuật toán 6: AMaLGaM-IDEAs

Dữ liệu vào: kích thước A, cường độ đột biến ơ, bài toán ƒ, quan thể 7, hằng

số tăng Yinc, hằng số giảm 17¿„¿, ngưỡng dừng Amin

Dữ liệu ra: lời giải tốt nhất

19 ifo < 1then NIS+ NIS+ 1

20 ifo > lor NIS > NISingy then ơ — Tiqse7

21 | ifo < 1and NIS < NIS„¿x then ơ — 1

22 man!

¢ Thứ nhất, hình dang của phân phối xác suất phát sinh lời giải không bị giới

hạn là đẳng hướng Giá trị trung bình ø (mean) và ma trận hiệp phương sai

x (covariance matrix) được ước lượng bằng cách sử dụng phương pháp ước

lượng hợp lí cực đại (maximum-likelihood estimation) trên | TA | lời giải tốt nhất

được chọn từ quan thể 7 với hang số chọn loc z € [0,1] (dòng 3 - 5)

¢ Thứ hai, cơ chế Anticipated Mean Shift (AMS) được thêm vào khi phát sinh lời

20

Tiêu đề	Phân tích các thuật toán tiến hóa đa cực trị thông qua mạng quỹ đạo tìm kiếm
Tác giả	Trần Thái Bảo
Người hướng dẫn	TS. Lương Ngọc Hoàng
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	78
Dung lượng	40,23 MB