Trong chương này, chúng tôi sẽ trình bày các công trình nghiên cứu liên quan đến các hướng tiếp cận hiện tại trên NAS và các kiến thức nền tảng được sử dụng xuyên suốt khóa luận này. Phần rình bày một vài công trình nghiên cứu tiêu biểu ở một vài hướng, tiếp cận hiện tại trên NAS. Ngoài ra, đặc điểm của một bài toán Tối
ưu hóa đa mục tiêu và cơ chế hoạt động tổng quát của các Thuật toán tối ưu hóa đa mục tiêu sẽ được trình bay ở pha
2.1 Các công trình liên quan
2.1.1 Sử dụng mô hình thay thế trên NAS
Khi giải quyết bài toán Tìm kiếm kiến trúc mang neural (NAS), kết quả mong muốn
là tìm thay kiến trúc đem lại hiệu suất tốt nhất khi sử dụng kiến trúc đó để giải quyết một tác vụ cụ thể. Tuy nhiên, việc đánh giá toàn bộ kiến trúc trong không gian tìm kiếm là bất khả thi bởi điều này đòi hỏi chúng ta phải sử dụng một lượng lớn tài nguyên tính toán và hao tốn rất nhiều thời gian. Một hướng tiếp cận được dé xuất
để giải quyết vấn đề trên là Dự đoán hiệu suất - phương pháp dự đoán độ chính xác của các kiến trúc thay vì thực sự tiến hành huấn luyện và đánh giá. Mục tiêu của phương pháp này là giảm thiểu lượng tài nguyên hao phí những vẫn đạt được các kết quả chấp nhận được. Để nâng cao độ hiệu quả thực nghiện trên NAS, rất nhiều
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 10
nghiên cứu khác nhau đã dự đoán độ chính xác của các
mô hình thay thé (Surrogate Model, viết tat: SM) |
O kiến trúc được huần luyén Q
' ] ` kiến trúc được dự đoán , `
— ng nội cols
chon các kiến trúc có.
độ chính xác dự đoán cao
——>_ huấn luyện(tinh chỉnh
dự đoán
kiến trúc bằng cách sử dụng
st
Sz
Si
HINH 2.1: Cơ chế sử dung mô hình thay thé trong PNAS
PNAS sử dụng SM để dự đoán độ chính xác của các kiến trúc phức tạp hơn
so với các kiến trúc dùng để huấn luyện mô hình. Hình2.1}minh hoa cơ chế sử dung
SM trong (4). Đầu tiên, khởi tạo một số lượng các kiến trúc sao cho các kiến
trúc này là đơn giản nhất (số lượng cells trong kiến trúc là 1). Các kiến trúc này
1Ảnh được lay từ [14].
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 11
sẽ được huấn luyện, đánh giá độ chính xác và được sử dụng làm dữ liệu để huấn luyện SM. Sau đó, các kiến trúc mới hơn được tìm kiếm bằng cách tăng độ phức tạp (tăng số lượng cells) của các kiến trúc hiện tại. Lúc này, thay vì được huấn luyện và đánh giá như các kiến trúc trước đó, độ chính xác của các kiến trúc này sẽ được dự đoán bằng SM. Sau khi quá trình dự đoán kết thúc, sẽ chọn ra những kiến trúc
có độ chính xác dự đoán cao nhất và huấn luyện, đánh giá chúng để thu thập độ chính xác thực sự. Độ chính xác của các kiến trúc này sẽ được sử dụng để điều chỉnh
tham số của mô hình. Chu trình này được thực hiện liên tục đến khi số lượng cells
trong kiến trúc là lớn nhất. Trong MetaQNN ia , SM được khởi tao và huấn luyện
bằng một bộ dir liệu hỗn hợp (tức là, bộ dữ liệu này bao gồm nhiều bộ dữ liệu khác nhau tách nhỏ) trước khi tiền hành tìm kiếm. Trong quá trình tìm kiếm, thay vì được huấn luyện một cách hoàn chỉnh, các ién trúc được cham đứt sớm quá trình huấn luyện và độ chính xác cuối cùng của ién trúc được SM dự đoán. Once-For-All
xây dựng SM là một supernet chứa tat cả các kiến trúc trong không gian tìm kiếm và
tham số của chúng. Quá trình xây dựng SM trong [5] được minh họa trong hình |2.2]
Đầu tiên, hình thành một kiến trúc sao cho kiến trúc này có kích thước kernel, chiều sâu, chiều rộng là lớn nhất. Kiến trúc này sẽ được tiến hành huấn luyện và được sử dụng để tạo ra các kiến trúc nhỏ hơn bằng cách giảm giá trị của các đặc điểm kiến trúc. Thay vì được huấn luyện và đánh giá, tham số của các kiến trúc con được thiết lập bằng cách tinh chỉnh tham số của các kiến trúc lớn hơn nó. Sau khi toàn bộ các kiến trúc trong không gian tìm kiếm đã được duyệt qua, quá trình xây dung mô hình kết thúc.
(Train the
full model |
.
HINH 2.2: Quá trình xây dựng mô hình thay thé trong Once-For-All
Ell
once-for-all network
2Anh được lay từ [5].
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 12
Trong khóa luận này, chúng tôi dé xuất một cơ chế sử dung SM khác hoàn toàn so
với các cơ chế ở các nghiên cứu trước đây. Ở và [1|, việc sử dụng SM để dự đoán
độ chính xác của các kiến trúc phức tạp hơn so với các kiến trúc trong bộ dữ liệu huấn luyện là nguyên nhân chính gây ra độ tương quan thấp (low-correlation) giữa giá trị dự đoán và giá trị thực. Trong cơ chế sử dụng SM của chúng tôi, chúng tôi
đã áp dung một vài ý tưởng để khắc phục van đề này. Đối với [5], vì huấn luyện SM
được diễn ra ngoại tuyến (offline) và phải duyệt qua toàn bộ kiến trúc trong không gian tìm kiếm, hao tốn tài nguyên là điều không thể tránh khỏi. Cụ thể, chỉ trên bộ
dữ liệu ImageNet, [5] đã sử dung 32 GPUs V100 và tốn 4.200 giờ để huấn luyện SM.
Ngoài ra, việc huân luyện ngoại tuyến khiến cho việc sử dung SM trên các bài toán khác nhau rất khó khăn. Ngược lại, mô hình thay thế của chúng tôi được huấn luyện trực tuyến, tức là cùng lúc với quá trình tìm kiếm. Chi tiết của cơ chế sử dụng SM được chúng tôi đề xuất sẽ được trình bày ở chương sau.
2.1.2 Áp dụng Thuật toán tiền hóa đa mục tiêu trên NAS
Khi NAS trở thành bài toán Tối ưu hóa đa mục tiêu, các Thuật toán tiến hóa đa mục
tiêu là một hướng tiếp cận hiệu quả trên NAS (các mục tiêu đối nghịch được tách
biệt thay vì tổng hợp lại thành một mục tiêu duy nhất) Bli2].
NSGA-Net sử dụng thuật toán Non-Sorting Genetic Algorithm II (NSGA-II)
để tối thiểu hóa độ lỗi phân lớp và độ phức tạp của kiến trúc trên cả hai cấp độ của NAS. Bên cạnh việc giữ nguyên và sử dụng cơ chế tìm kiếm của NSGA-I, ở cuối mỗi thé hệ của NSGA-II, sử dụng thêm một thuật toán tối ưu hóa Bayesian (Bayesian Optimization Algorithm) để tìm ra sự liên hệ giữa các cells hoặc các operators của
các kiến trúc trong quân thể hiện tại và sử dụng sự liên hệ này trong quá trình lai
ghép ở thé hệ sau. Các bước thực hiện trong được mô tả trong hình|2.3] Ở một
nghiên cứu khác, NSGA-Net-V2 cũng giữ nguyên bộ khung của NSGA-II và áp
dụng trên NAS. Khác v | quá trình tìm kiếm trong được thực hiện nhiều
lần thay vì một lần. Ở mỗi lần tìm kiếm, thay vì huấn luyện và đánh giá các kiến
trúc trong quá trình tìm kiếm, [16] sử dụng một mô hình để dự đoán hiệu suất của các kiến trúc đó. Khi kết thúc một quá trình tìm kiếm, các kiến trúc tốt nhất sẽ được
sử dụng để cập nhật tham số của mô hình và cập nhật tập hợp chứa các kiến trúc
3 Ảnh được lấy từ
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 13
1
1
Encoding Evaluator Multi-Obj GA BOA lÍ Trade-off Front
[1-01-001] e : ơ alae” "error t Ce "5 I
10} > a] [0-00-111-0111-00000-0]) | complexi
1
'
HINH 2.3: Các bước thực hiện “aoe trinh tim kiém trong NSGA-Net
tốt nhất ở tat cả các quá trình tìm kiếm. Hình [2.4] minh họa toàn bộ quá trình tim kiếm trong {16}. Tuy đạt được những kết quả tốt trên NAS nhưng chúng tôi nhận
thấy rằng kết quả này có thể được nâng cao hơn nữa bằng việc áp dụng thêm các kỹ thuật hỗ trợ. Do đó, chúng tôi đề xuất hai phương pháp để nâng cao hiệu suất của các MOEAs trên bài toán NAS. Chi tiết của các phương pháp này sẽ được trình bày
ở các chương sau.
2.2 Các kiến thức nên tang
2.2.1 Bài toán Tối ưu hóa đa mục tiêu
Trong cuộc sống, con người thường đứng trước nhiều sự lựa chọn khác nhau để giải quyết một vấn dé gặp phải. Chúng tôi giả định có một người muốn mua cho bản thân một chiếc điện thoại mới. Lúc này, họ phải lựa chọn giữa vô số các hãng điện thoại có trên thị trường. Để có thể đễ dàng cho việc quyết định, họ thường đặt ra các tiêu chí để thu hẹp phạm vi lựa chọn. Ví dụ, họ muốn một chiếc điện thoại có
giá tiền vừa phải nhưng camera mang lại những tắm hình chân thật. Ở đây, tiêu chí
thứ nhất là giá tiền, tiêu chí thứ hai là chất lượng của camera. Nếu như ban đầu, phạm vi lựa chọn là rất lớn thì bây giờ, phạm vi này đã được thu hẹp lại chỉ trong một vài hãng điện thoại đáp ứng được các tiêu chí đặt ra. Tình huống giả định bên trên là một ví dụ vẻ bài toán Tối ưu hóa đa mục tiêu (Multi-objective Optimization Problem, viết tắt: MOP) trong thực tế.
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 14
Bắt đầu
Vv
Khởi tạo ngẫu nhiên các
kiến trúc
Dự đoán độ chính xác
bằng mô hình
Pate Chọn lựa các kiến xN
TU DƯ HC trúc tốt nhất trong | —>|_ Cập nhật mô hình
kiện kết thúc? ph
Đúng quản thể
Sai J
Cập nhật tập hợp các kién trúc.
ltốt nhất ở tắt cả các quá trình tìm|
kiếm
, lai ghép,
= Z
HINH 2.4; Toàn bộ quá trình tìm kiếm trong NSGA-Net-V2 [16].
Một MOP cơ bản sẽ bao gồm các hàm mục tiêu (objective function) cần được tối
ưu hóa (tối thiểu hóa hoặc tối đa hóa). Đôi khi, MOP sẽ có thêm các ràng buộc vẻ miễn giá trị đối với giá trị của hàm mục tiêu. Tuy nhiên, trong khóa luận này, các bài toán chúng tôi tiến hành thực nghiệm là các MOP không ràng buộc. Do đó, những nội dung chúng tôi trình bày sau đây là những đặc điểm của một MOP không ràng
buộc. Ở dạng biểu thức toán học, một MOP có thể được trình bày như sau:
Tối thiểu húa/tối đahúa F(x) = {fủ1(#),... fin(x) }, với m = 1,2,...,M (2.1)
Trong biểu thức|2.1| một giải pháp x € R”, với R” là không gian biến quyết định
(decision space) được biểu diễn bằng một véc-tơ chứa n biến quyết định (decision
variable): x = (x1, x2„..., Xn). Các giải pháp này tạo nên một tập hợp trong R” được
gọi là tập khả thi S (feasible set). Với mỗi giải pháp trong S, tồn tại một điểm z € Z biểu diễn giải pháp x tương ứng trong không gian mục tiêu (objective space). Mỗi
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 15
điểm z được biểu diễn: z = (21, Z2,..., Zm), Vm = 1, 2,..., M. Trong đó, M là số lượng hàm mục tiêu và z„ là giá trị tương ứng của hàm mục tiêu fn (x).
Khi giải quyết một bài toán Tối ưu hóa đơn mục tiêu, kết quả chúng ta đạt được
là một giải pháp có giá trị tối ưu ở mục tiêu đặt ra. Vì thế, chúng ta cũng kì vọng
sẽ đạt được một giải pháp có thể tối ưu đồng thời tất cả các mục tiêu khi giải quyết MOP. Tuy nhiên, các mục tiêu trong MOP thường đối nghịch với nhau. Nếu chúng
ta cải thiện giá trị ở một mục tiêu, các mục tiêu còn lại có thể trở nên tệ hơn. Lấy
ví dụ trong tình huống giả định bên trên, chúng ta không thể mua được chiếc điện thoại giá cực rẻ mà sở hữu camera có chất lượng tốt nhất. Vì vậy, chúng ta không thể tìm ra một giải pháp có thể tối ưu đồng thời tất cả các mục tiêu. Do đó, kết quả của MOP là một tập hợp chứa các giải pháp được gọi là tập tối ưu Pareto. Trong tập tối
ưu Pareto, không tồn tại sự tốt hơn giữa hai giải pháp bắt kì. Để làm rõ khái niệm về
giải pháp tối ưu Pareto và tập tối ưu Pareto, chúng tôi cung cấp hai định nghĩa sau
đây [6]:
Định nghĩa 1 (Sự thống trị giữa hai giải pháp). Giải pháp x“) được xem là thống trị giải pháp x) (kí hiệu: x > x2) khi và chỉ khi thỏa mãn tat cả các điều kiện sau
đây:
* Giải pháp x") không tệ hon so với giải pháp x'?) ở tất cả mục tiêu.
Kí hiệu: z(x)) ¢ z;(x), Ví = 1,2,...„ MF]
* Giải pháp x tốt hơn so với giải pháp x(2) ở ít nhất một mục tiêu.
Mỹ
Định nghĩa 2 (Giải pháp tối ưu Pareto). Một giải pháp x được xem là giải pháp tối ru
Kí hiệu: 3z;(xÚ)) > z;(x2)), Ví = 1, 2,.
Pareto (Pareto-optimal solution) khi và chỉ khi không tồn tại một giải pháp y thống trị giải pháp x. Kí hiệu: fy > x, Vx,y € R".
Vì vậy, tập tối ưu Pareto (Pareto-optimal set, kí hiệu: Ps) là tập hợp chứa các giải pháp tối ưu Pareto. Nếu chúng ta ánh xạ 7s lên không gian mục tiêu, ta sẽ có biên
tối ưu Pareto (Pareto-optimal front, kí hiệu: Pr). Ở dạng biểu thức toán học, tập tối
#Kí hiệu # ở đây có nghĩa là "không tệ hon"
ŠKí hiệu > ở đây có nghĩa là "tốt hơn"
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 16
fo dominated
Dự solution
Pareto-optimal
front
Pareto-optimal solution
fi
HÌNH 2.5: Các loại giải pháp và biên tối ưu Pareto 7y trên bài toán tối thiểu hóa f; và fo. Các điểm màu đỏ biểu diễn cho các giải pháp tối ưu Pareto. Các điểm này nằm trên một đường cong chính là biên tối ưu Pareto Pr. Mặt khác, các điểm màu xanh biểu diễn cho các giải pháp bị
thống trị. Có thể thấy, giải pháp A thống trị giải pháp D vì giá trị ƒ(2)
và AA) nhỏ hon so với giá tri 4P) và RB. Tuy nhiên, chúng ta không,
thể kết luận giải pháp E thống trị giải pháp C hay ngược lại vì f( <
(E) va AC) E fe. Tương tự, chúng ta có thé kết luận giải pháp B thống
trị giải pháp E vi fl?) < fl? va 4P) < 4,
ưu Pareto và biên tối ưu Pareto được biểu diễn như sau:
Ps = {xe R"\Ay © R",u> x}.
Pr = {z(x)|x € R"}.
Hinh[2.5| minh họa biên tối ưu Pareto và các loại giải pháp khác nhau của bài toán
tối thiểu hóa đồng thời hai mục tiêu.
Trong một vài bài toán, đôi khi ta không thể xác định được chính xác biên tối ưu Pareto. Do đó, thông thường mục tiêu của các phương pháp được áp dụng để giải quyết MOPs là tìm ra tập hợp các giải pháp sao cho chúng tạo thành một biên xap xi
Pareto (Pareto-approximate front, kí hiệu: S) trên không gian mục tiêu thay vì biên
Chương 2. CÁC CÔNG TRINH LIÊN QUAN VÀ KIEN THÚC NEN TANG 1
fo
— Pareto-optimal front
fi
HINH 2.6: Biên xấp xi Pareto trên không gian mục tiêu.
tối ưu Pareto. Hinh[2.6)minh hoa biên xấp xi Pareto va biên tối uu Pareto trên không
gian muc tiéu.
2.2.2 Thuật toán tiến hóa da mục tiêu
Hình E.7|mô tả quy trình thực hiện tổng quát của các Thuật toán tiến hóa đa mục
tiêu. Trong MOEA, một cá thể tương ứng với một giải pháp trong không gian tìm kiếm. Quá trình tìm kiếm của MOEA bắt đầu bằng việc khởi tạo một quan thé va
đánh giá độ thích nghỉ của các cá thé trong đó. Ở các thé hệ tiếp theo, trong mỗi
thế hệ, quần thể sẽ thực hiện một chuỗi các toán tử di truyền (genetic operator) bao gồm: chọn lọc, lai ghép và đột biến. Quá trình trên được diễn ra cho đến khi điều kiện dừng được thỏa mãn. Điều kiện dừng có thể được xác định là cạn kiệt nguồn tài nguyên tính toán hoặc tìm thấy toàn bộ biên tối ưu Pareto Pr. Sau khi quá trình tìm kiếm kết thúc, MOEA sẽ chọn ra các cá thể không bị thống trị trong quần thể tương ứng với các giải pháp trên biên xấp xỉ Pareto S.
Khi nghiên cứu để tìm ra một MOEA mới hoặc tìm cách cải thiện độ hiệu quả của các MOEAs trước đây, người ta thường dé xuất các cơ chế thực hiện mới của các toán tử đi truyền hoặc áp dụng thêm các ý tưởng mới lên trên bộ khung tổng quát
Chương 2. CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG 18
Khởi tạo quần thể
_— 1} —
Đánh giá độ thích nghi
của các cá thể trong
quần thể
Thỏa mãn điều kiện kết thúc?
Sai
Chọn lọc, lai ghép,
đột biến
HÌNH 2.7: Quy trình thực hiện tổng quát của MOEAs.
ban đầu. Lay ví dụ, ở thuật toán Non-dominated sorting genetic algorithm-II (71,
thay vì sử dung trực tiếp độ thích nghỉ để chon lọc, [7] đã dé xuất một cơ chế chọn
lọc dựa trên thứ hạng và độ đông đúc (crowding distance) của các cá thể. Một ví dụ
khác, trong thuật toán Multi-objective Gene-pool Optimal Mixing Evolutionary (1L
quân thể được chia thành các cụm và các toán tử di truyền được thực hiện trên mỗi cụm dựa vào liên kết giữa các biến trong các cá thể trong cụm đó.
Như đã đề cập ở đầu chương, tiếp theo, chúng tôi sẽ trình bày chỉ tiết về một
thuật toán tiến hóa đa mục tiêu được chúng tôi sử dụng ở phần thực nghiệm: Non-
dominated Sorting Genetic Algorithm-II (viết tắt: NSGA-IIf}| Thuật toán NSGA-II
được đề xuất bởi K.Deb và các đồng nghiệp vào năm 2002, là phiên bản thứ hai của
thuật toán NSGA [23]. Khi được sử dung dé giải một bài toán Tối ưu hóa đa mục
tiêu, quá trình hoạt động của NSGA-II được diễn ra như sau. Khi bắt đầu tìm kiếm, NSGA-II khởi tạo một quan thể P và đánh giá độ thích nghi F của các cá thể có trong
P. Ở bước tiếp theo, quần thể P sẽ trải qua một chuỗi các toán tử đi truyền theo một
Từ phan này trở về sau, thuật toán "Non-dominated Sorting Genetic Algorithm-II" sẽ được gọi tắt là thuật toán "NSGA-II"