Thuậttoán này đã được công bố trong công trình nghiên cứu|[CT5] Thuật toán tìm kiếm địa phương đa mục tiêu: Thuật toán tìm kiếm địa phương đã được kiểm chứng sự vượt trội so với các thuậ
Trang 1PHAN MINH QUẦN
THIẾT KE VÀ UNG DUNG CÁC KỸ THUẬT METAHEURISTICS CHUYÊN DỤNG CHO BÀI TOÁN
TÌM KIEM KIÊN TRÚC MẠNG NEURAL
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS LƯƠNG NGỌC HOÀNG
PHAN BIEN I: TS NGUYEN VIET HUNG PHAN BIEN 2: TS HUYNH NGỌC TÍN
TP HO CHi MINH, 2023
Trang 2LỜI CẢM ƠN
Trong quá trình hoàn thành luận văn, "Lời cảm ơn" là phần nội dung mà tôi thực
hiện sau cùng Thay vì viết những lời sáo rỗng như ở khóa luận tốt nghiệp, "Lời cảm ơn" trong luận văn này là nơi tôi sẽ giải bày những cảm xúc, những suy nghĩ "sến súa" của mình đến với những người mà tôi quý mến.
Lời cảm ơn đầu tiên tôi xin được gửi đến bố mẹ Bố mẹ chính là những người thầy đầu tiên của con Con cảm ơn bố mẹ đã dìu dắt và xây dựng cho con một nền
tảng vững chac để con có thể phát triển, định hình bản thân Con vui mừng vì có
thể khiến bố mẹ hãnh diện, tự hào mỗi khi nghĩ đến con.
Người tiếp theo tôi muốn cảm ơn chính là thầy Lương Ngọc Hoàng - một người thay tận tụy, nhiệt huyết nhất mà tôi từng biết Em vẫn nhớ cái ngày mà em chờ trước văn phòng khoa để xin phép thầy hướng dẫn em cho khóa luận tốt nghiệp Vào khoảng thời gian ấy, khi mà em vẫn còn đang vô định, mù mịt về những dự
định sau khi tốt nghiệp thì việc gặp thầy ngày ấy đã mở ra cho em một hướng đi mà
em chưa bao giờ nghĩ tới: nghiên cứu khoa học Tham thoát đã hơn 4 năm kể từ khi thay gửi bài báo khoa học đầu tiên cho em để đọc và tham khảo, em cảm ơn thầy
đã đìu dắt, định hướng cho em trong suốt khoảng thời gian này để em có thể đạt
được những thành công đầu tiên trên con đường nghiên cứu học thuật Những câu chuyện, kinh nghiệm mà thay chia sẻ không chỉ giúp ích cho em trong việc nghiên
cứu mà còn mang lại cho em những cái nhìn đa dạng hơn về các vấn đề trong cuộc
sống Em cảm thấy thật tuyệt vời khi có thể trở thành một phần trong sự nghiệp giảng dạy của thây.
Cuộc sống sinh viên của tôi sẽ không thể nào trọn vẹn nếu thiếu vắng những
người bạn tuyệt vời Cảm ơn Nguyên, Đoan, Phú, Trường và N.Sang Khoảng thời gian sinh hoạt cùng các bạn tại phòng A2-215 sẽ là những mảnh ký ức mà tôi không bao giờ quên Cảm ơn H.Tú, Quy, Thành, H.Sang và các bạn ở lớp KHCL 2017 Được
trò chuyện, làm việc với các bạn trong suốt những năm tháng đại học đã giúp đỡ tôi rất nhiều và tôi thật sự trân quý khoảng thời gian này.
Toi cũng muốn gửi lời cảm ơn đến chính bản thân mình Cảm ơn vì đã cố gang hết sức, cảm ơn vì đã không bỏ cuộc Hy vọng bản thân sẽ luôn giữ được ngọn lửa nhiệt huyết và đạt được nhiều thành công hơn trong tương lai.
iii
Trang 3Những lời cảm ơn cuối cùng tôi muốn gửi đến T.Linh - bạn gái của tôi, là người đồng hành và giúp tôi hoàn thiện bản thân hơn từng ngày trong suốt 8 năm qua Mong rằng chúng ta mãi bên nhau để trải nghiệm mọi khoảnh khắc trong cuộc sống đây thú vị này.
Toi cũng có những điều nhắn gửi đến các bạn dang đọc luận văn này Những kết
quả mà các bạn đạt được sẽ tương xứng với những nỗ lực mà các bạn bỏ ra Dù cho bạn chọn học thạc sĩ vì bất kỳ lý do nào, hy vọng các bạn sẽ không bỏ cuộc và cố
gắng chinh phục con đường này dẫu biết phía trước đầy khó khăn và thử thách.
Phan Minh Quân
iv
Trang 4MỤC LỤC
ILỜI CẢM ON] iii
TÓM TAT xv
1_ TONG QUAN 1
1.1 Mở đầâu s#ZZ-.: = @® 1
1.2 Lý do thực hiện đềtài 3
1.3 Mục tiêu của luậnvăn| 5
[T4 Đồng pop chính của luậnvăR| 7
1.5 Bốcụcluậnvăn| c ee 8 lb_ KIÊN THỨC NEN TANG 10 2.1 Bài toán Tìm kiếm kiến trúc mang neural Da mục tiêu (MONAS)| 10
2.2 Bộ điểm chuẩn NAS(NAS-Benchmark)| 12
2.3 Đánh giá hiệu suất tìm kiếm trong bài toán NAS đa mục tiêu| 18
2.3.1 Inverted Generational Distance(IGD)| 18
2.3.2 Hypervolume(HV) 19
2.4 Các chỉ số ước lượng hiệu năng của kiến trúc mạng không huấn luyện| 20 KIEM KIÊN TRÚC MẠNG NEURAL ĐA MỤC TIÊU 3.1 Tổng quan và Công trình nghiên cứu liên quan| See 22 B.2 TF-MOPNAS: Thuật toán Cắt tỉa không huan luyện cho bài toán Tìm ] Ụ 26 3.3 Thiết lập thực nghiệm| - 28
Ba Kétquathucnghiém] 2.02.00 eee ee 30 3.4.1 Kết quả trên NAS-Bench-l0l| 30
Trang 53.4.2 Kết quả trên NAS-Bench-201| 33
3.4.3 Đánh giá khả năng truyền — ee 35 3.5 Kết luận và Hướng phát triển| - 37
KIÊN TRÚC MẠNG NEURAL ĐA MỤC TIÊU 39 4.1 Tổng quan) 2.2 ee Qua 39 4.2 Công trình nghiên cứu liên quan| 40
4.2.1 ParetoLocalSearch]l - 40
4.2.2 Mạng cực trị địa phương (Local Optima Network)| 42
[4.3 Khao sát không gian tìm kiếm NAS-Bench-201 42
4.4 LOMONAS: Thuật toán Tìm kiếm dia phương cho bài toán NAS đa ee 27s 4.SHNN -_ 49 lái Tổng .À 49
4.4.2 Mở rộng cho bài toán NAS nhiều hơn hai mục tiêu]| eee 52 4.5 Loại bỏ siêu tham số của LOMONAS bang kỹ thuật Interleave Multi-om “BA ›>vv Ỗ 1 / ` 54
4.5.1 Tổng quan vẻ Interleave Multi-start Scheme (IMS)| 54
4.5.2 IMS-LOMONAS: Kết hợp LOMONAS với IMS| ¬ 56 4.6 Thực nghiệm và Kết quả| - 58
4.6.1 Đánh giá trên các bài toán thiết kế thủ công| 58
[4.6.2 Đánh giá trên các bài toán trong CEC2023] 66
4.7 Két luan và Hướng phát triển| 69
5 NÂNG CAO HIỆU SUẤT TÌM KIEM VỚI TÌM KIEM DIA PHƯƠNG KHONG HUAN LUYỆN| 72 5.1 Cải thiện chất lượng của kết quả tìm kiếm 72 5.1.1 Phuong pháp đềxuất| 72 5.1.2 Thực nghiệm và Kết quả 74 5.2 Tăng tốc quá trình tìm kiém| 80 5.2.1 Đặtvấn để 80
5.2.2 Phương pháp đề xuất| 81 B.2.3 Thực nghiệm và Kết quả 83
vi
Trang 65.3 Kết luận và Hướng phát triển| 88
6 CHIẾN LƯỢC UGC LƯỢNG HIỆU NĂNG SỬ DỤNG ĐỒNG THỜI NHIÊU
CHỈ SO KHONG HUAN LUYỆN 90
6.3 Thiết lap thực nghiệm] Aw HTuÁIIA TA 95
6.4 Đánh giá hiệu suất và độ hiệu quả của các phương pháp MOENAS
6.4.1 Thiết lập 6.4.2 Hiệu suất của các phương pháp MOENAS với các chi số hiệu
-nang training-based|_ Ặ co 97
6.4.3 Hiệu suất của các phương pháp MOENAS sử dụng một chỉ số
[ hiệu năng training-freel - 99
6.5 Đánh giá hiệu suất của B-TF-MOENAS] 101
6.5.1 Kết quả trên các bài toán NAS đa mục tiêu| 102
6.5.2 So sánh với các phương pháp NAS state-of-the-art] 104
6.5.3 Đánh giá khả năng truyền tải| - 107
6.6_ Kết luận và Hướng phát triển| - 108
|7_ KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN 113
|CÁC CÔNG TRINH ĐÃ CONG BO 117
PHỤLỤ 119
TÀI LIỆU THAM KHẢO 124
vii
Trang 7NAS hai mục tiêu.| - 18
NAS hai mục tiêu.| Ặ.ẶẶẶẶV 19 DANH SÁCH HÌNH VẼ 1.1 Mô tả sự tương tác giữa ba thành phan trong NAS$.| 2
1.2_ Đóng góp của luận văn trong bức tranh toàn cảnh cua NAS| 7
2.1 Minh họa kết quả tìm kiếm trong bài toán NAS đa mục tiêu| 13
D.2_ Một kiến trúc không gian tìm kiếm MacroNAS 14
2.3 BO khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-101 15 2.4 Minh họa một số kiến trúc trong không gian tìm kiếm NAS-Bench-101.| 16 2.5 Bộ khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-201 17 2.7 Minh hoa quá trình tính giá trị IGD của một biên xap xỉ trên bài toán 2.8 Minh hoa quá trình tính g; 3.1 Minh hoa một supernet có 4 connections và 3 operations trên mỗi 3.2 Minh họa quá trình cắt tỉa operations cho một supernet S.| 24
38.3 Minh hoa quá trình cắt tỉa của TF-MOPNAS trên một supernet S có 4 [ cạnh và 3 operations khác nhau trên môi cạnh.| ¬————— 28 3.4 Giá trị trung bình chỉ số IGD của TF-MOPNAS và các thuật toán khác trên NAS-Bench-10l| 32
3.5 Minh họa trường hợp biên xấp xỉ của TF-MOPNAS có chỉ số IGD tốt hơn MOENAS nhưng, lại có chỉ số HV tệ hơn.| 35
B.6 Giá trị trung bình chỉ số IGD của TF-MOPNAS và các thuật toán khác trên NAS-Bench-201| 36
4.1 Mạng LON trong 10 lần chạy PLS trên bộ dữ liệu CIEAR-10| 44
Trang 8|4.2_ Các mạng LONs thể hiện kết quả trong 10 lần thực thi (MF-)PLS liên
tục N = 4 lần trên NAS-Bench-201| 48
NAS tối ưu ba mục tiêu| - - 53
4.3 Minh họa quá trình lấy các lời giải lân cận trong LOMONAS] se 51
4.4 Minh hoa các kiến trúc knee va extreme trong bai toán NAS đa mục
4.6 Minh họa về sử dụng kỹ thuật IMS với bộ đếm cơ số 2 để loại bỏ tham
[ số kích thước quan thể N của các thuật toán EAs dựa vào quan thé] 54
[4.7 _Xu hướng chỉ số IGD va HV của LOMONAS và các thuật toán khác _|
[ trên benchmark MacroNAS] - 60
4.8 Xu hướng chỉ số IGD va HV của LOMONAS và các thuật toán khác
é - Z10 II ØẮ W tk 61
trên benchmark NAS-Bench-201|Ì 62
4.9 Xu hướng chỉ số IGD va HV của LOMONAS và các thuật toán khác
5.1 Quy trình hoạt động khi kết hợp TF-MOPNAS với TF-LS trên bài toán
và (b) các kỹ phương pháp dựa vào tiên hóa (MOENAS và TF-MOENAS)
NAS tối thiểu hóa hai mục tiêu: độ phức tạp và độ lỗi 74 5.2 So sánh chỉ số HV của TF-MOPNAS tích hợp TF-LS với (a) TF-MOPNAS
trên NAS-Bench-10l| 75
và (b) các kỹ phương pháp dựa vào tiễn hóa (MOENAS và TF-MOENAS)
5.3 So sánh chỉ số HV của TF-MOPNAS tích hợp TF-LS với (a) TF-MOPNAS
trên NAS-Bench-201| 7
một lần tìm kiếm trên NAS-Bench-201.| - 78
5.4 Biên xấp xi tim thấy bởi TF-MOPNAS và TF-MOPNAS + TF-LS trong
5.5 Hiệu suất trung bình của II baseline, II + PSI, và
NSGA-II + TF-PSI trên tất cả các bài toán Trục hoành: số lần đánh giá
(loga-ẫTS®> ẦẦẮẦẦẮẰẮẰẮẰ———— 85
ix
Trang 96.1 So sánh giữa chiến lược ước lượng hiệu năng training-free thông thường
cho bài toán NAS hai mục tiêu, với mục tiêu thứ nhất là hiệu suất thực
nghiệm và mục tiêu thứ hai là đô phức tạp của kiến trúc mạng | 93
MOENAS và các phương pháp MOENAS khác trên (a)
NAS-Bench-6.2_ Giá trị trung bình va độ lệch chuẩn chỉ số IGD và HV của
E-TF-101 và (b) NAS-Bench-201.| - 111
6.3 Hiệu suất truyền tải (chỉ số IGD và HV) của E-TF-MOENAS và các
phương pháp MOENAS khác trên NAS-Bench-201| 112
Trang 10DANH SÁCH BANG
3.1 Thời gian tim kiếm, chỉ số IGD va HV (giá trị trung bình + độ lệch
chuẩn) của TF-MOPNAS và các thuật toán khác trên NAS-Bench-101 33
3.2 So sánh độ chính xác thực nghiệm (%) của các kiến trúc tim thấy bởi
TF-MOPNAS với các thuật toán NAS state-of-the-art trên
NAS-Bench-"hố T1 ắ
3.3 Thời gian tìm kiếm, chỉ số IGD và HV (giá trị trung bình + độ lệch
chuẩn) của TF-MOPNAS và các thuật toán khác trên NAS-Bench-201
[ (bộ dữ liệu CIFAR-10).
3.4 Thời gian tim kiếm và giá trị IGD (giá trị trung bình + độ lệch chuẩn)
[ của TF-MOPNAS và các thuật toán khác trên NAS-Bench-201 (bộ dữ
liệu CIFAR-100 và ImageNet16-120)| 3
3.5 So sánh độ chính xác thực nghiệm (%) của các kiến trúc tim thấy bởi
[ TF-MOPNAS với các thuật toán NAS state-of-the-art trên
NAS-Bench-4.1 Kết quả khám pha landscapes của (MF-)PLS trên NAS-Bench-201 43
4.2 Số lần tìm thấy toàn bộ biên Pareto ở NAS-Bench-201 khi thực ñ thi
(ME-)PLS nhiều 4.3 Chỉ tiết các bài toán NAS hai mục tiêu| -
lần| -47
58
4.4 Gia trị chỉ số IGD và HV (giá trị trung bình + độ lệch chuẩn) của
LOMONAS và các thuật toán khác trên tập dữ liệu validation tron:
63
[ các bài toán NAS đa mục
tiêu| -xi
64
Trang 11ảs———ẰẰ—Ằ—Ằ—Ằ—ẰằẰ—ằằằaốnnn 65
[4.7 Giá trị chỉ số IGD và HV (giá trị trung bình + độ lệch chuẩn) của _]
[ LOMONAS với các giá trị k khác nhau trên tập dữ liệu thực nghiệm
[_ — trong các bài toán NAS đa mục tiêu] - 66
[4.8 Giá trị trung bình và độ lệch chuẩn (trong ngoặc) của chỉ số Hyper- _]
[ volume (HV) của NSGA-II, NSGA-IIH, và LOMONAS k = 3 trên các
[_ — Bài toán của cuộc thi CEC2023| 69
[£9 Giá trị trung bình và độ lệch chuẩn (trong ngoặc) của chỉ sô Hyper- _]
[ volume (HV) của IMS-NSGA-II, IMS-NSGA-IIT, và IMS-LOMONAS
[b= 8 trên các bài toán của cuộc thi CEC2023] 70
5.1 So sánh độ chính xác thực nghiệm (giá trị trung bình + độ lệch chuẩn)
[ của TF-MOPNAS + TE-LS với các thuật toán NAS state-of-the-art trên
[L_——— NAS-Bench-101] 76
5.2 So sánh độ chính xác thực nghiệm (giá trị trung bình + độ lệch chuẩn)
của TF-MOPNAS + TF-LS với các thuật toán NAS state-of-the-art trên
5.5 Số lần đánh giá tối thiểu T của NSGA-II baseline, NSGA-II + PSI, và
NSGA-II + TF-PSI để đạt được hiệu suất tương đương với hiệu suất cuối cùng của NGSA-II basline (ở mức 99% độ tin cậy)|
xii
Trang 126.1 Thời gian tìm kiếm và chỉ số IGD, HV (giá trị trung bình + độ lệch
huẩn) của các biến thể NSGA-II và MOEA/D sử dun:
training-based trên hai bài toán NAS đa mục tiêu thiết kế
NAS-Bench-63 Thời gian tim Kiếm, chỉ số IGD và HV eid trị trung bình + độ lệch
chuẩn) của E-TF-MOENAS và các thuật toán MOENAS khác trên hai
ai toán được thiết kê trên NAS-Bench-101 và NAS-Bench-201| 105 6.4 So sánh độ chính xác thực nghiệm (%) của các kiến trúc tốt nhất tìm
ây bởi E-TF-MOENAS và các thuật toán khác trên NAS-Bench-101
va NAS-Bench-201 (CIEAR-10)| - 06
6.5 So sánh độ chính xác thực nghiệm của các kiến trúc tốt nhất tìm
ay bởi E-TF-MOENAS và các thuật toán khác trên CIFAR-100 và
ImageNet16-120 (NAS-Bench-201) | ee ee 08
A.1 Giá trị trung bình và độ lệch chuẩn (trong ngoặc) của chỉ số
Hyper-volume (HV) của các bién thể LOMONAS với giá trị k = {1,2,3,4,5}
trên các bài toán của cuộc thi CEC2023] 19
trên các bài toán của cuộc thi CEC2023.] 20
xiii
Trang 13DANH SÁCH TỪ VIẾT TẮT
Thuật ngữ Viết tắt
Tìm kiếm kiến trúc mạng neural (Neural Architecture Search) NAS
Thuật toán tiến hóa đa mục tiêu (Multi-objective Evolutionary Algorithm) MOEA
Thuật toán tiền hóa NAS đa mục tiêu (Multi-Objective Evolutionary NAS) MOENAS
Đồ thị không chu trình có hướng (Directed Acylic Graph) DAG
Inverted Generational Distance IGD
Hypervolume HV
Training-free Pruning-based Multi-objective Neural Architecture Search TF-MOPNAS Pareto Local Search PLS
Mang cuc tri dia phuong (Local Optima Network) LON
Pareto Local Search da biên (Multi-front Pareto Local Search) ME-PLS
Local Search for Multi-objective Neural Architecture Search LOMONAS
Lược dé đa khởi động xen kẽ (Interleaved Multi-start Scheme) IMS
Training-free Local Search TF-LS
Cải thiện các lời giải tiém năng (Potential Solutions Improving) PSI
Floating-point operations per second FLOPS
Mega Multiply-Accumulate operations MMACs
xiv
Trang 14TÓM TẮT
Mang neural sâu (deep neural networks) là thành phan then chốt đứng sau sự phát triển của Trí tuệ nhân tạo và đã được ứng dụng rộng rãi trong nhiều lĩnh vực ngày
nay Tuy nhiên, việc thiết kế một kiến trúc mạng có hiệu năng cao cho một tác vụ
cụ thể đòi hỏi quá trình thử và sai (trial-and-error) tốn kém và cần có sự tham gia của các chuyên gia đầu ngành Tìm kiếm kiến trúc mạng neural (Neural architecture
search, viết tắt: NAS) là một bài toán nhằm tự động hóa quá trình thiết kế các kiến
trúc mạng có hiệu năng cao trên các tác vụ cho trước Với việc mạng neural đã được
triển khai trên nhiều nén tảng với sự khác nhau về đặc điểm phan cứng, các công trình nghiên cứu gần đây bắt đầu xem xét NAS dưới dạng bài toán tối ưu hóa đa mục tiêu Kết quả khi kết thúc quá trình tìm kiếm là một tập hợp được gọi là tập xắp
xi Pareto chứa nhiều kiến trúc đa dạng về cầu hình lẫn hiệu năng Trong NAS, chiến lược tìm kiếm là thành phần có chức năng khám phá không gian tìm kiếm để tìm thấy một (hoặc nhiều) kiến trúc có giá trị tối ưu ở các tiêu chí đặt ra Các chiến lược tim kiếm sẽ sử dụng chiến lược trớc lượng hiệu năng để ước lượng thông tin hiệu năng của các kiến trúc và giúp chúng tiếp cận đến những khu vực có chứa các kiến trúc tiềm năng trong không gian tìm kiếm Gần đây, một loạt các chỉ số hiệu năng không huấn luyện (training-free) đã được đề xuất và sử dụng để ước lượng thông tin hiệu năng của các kiến trúc một cách hiệu quả nhưng không hao tốn quá nhiều tài nguyên cho việc tính toán Trong luận văn này, chúng tôi khai thác các chỉ số training-free nhằm
đề xuất một số phương pháp metaheuristic có thể hoạt động hiệu quả cho các bài toán NAS đa mục tiêu với chỉ phí tài nguyên không đáng kể Các đóng góp chính của chúng tôi được tóm tắt như sau:
¢ Thuật toán cat tia không huấn luyện trả về tập xap xi Pareto: Các thuật toán cắt tỉa là một trong những chiến lược tìm kiếm hiệu quả trong NAS Quy trình
hoạt động của các thuật toán này là lần lượt loại bỏ các thành phần có đóng
góp ít tới hiệu năng của một siêu mạng (supernet) sao cho supernet sau khi
được cắt tỉa sẽ giảm đi độ phức tạp nhưng hiệu năng vẫn không thay đổi đáng
kể Mặc dù mục tiêu của các thuật toán cắt tỉa là đa mục tiêu, hầu hết các thuật toán cắt tỉa hiện tại chỉ trả về một kiến trúc duy nhất khiến độ hữu dụng của kết quả tìm kiếm với những người đưa ra quyết định (decision-makers) bị
Xv
Trang 15giảm đi Bằng cách kết hợp với chi số hiệu năng training-free và sử dụng định nghĩa thống trị Pareto, chúng tôi đã thiết kế một thuật toán cắt tỉa có thể trả về tập xap xi Pareto có chất lượng cao với chi phí tìm kiếm không đáng kể Thuật
toán này đã được công bố trong công trình nghiên cứu|[CT5])
Thuật toán tìm kiếm địa phương đa mục tiêu: Thuật toán tìm kiếm địa phương
đã được kiểm chứng sự vượt trội so với các thuật toán khác trên các bài toán NAS đơn mục tiêu (tức là chỉ quan tâm đến hiệu năng của các kiến trúc mạng khi tìm kiếm) Bằng việc khảo sát cảnh quan độ thích nghỉ (fitness landscape)
và trực quan hóa bằng mạng tối ưu địa phương (local optima network, viết tắt: LON), các công trình nghiên cứu gần đây cho thấy fitness landscape của các bài toán NAS đơn mục tiêu là đa cực trị, nhưng có tương đối ít cực trị địa phương và các thuật toán tìm kiếm địa phương có thể dé dàng thoát khỏi các
cực trị này và tiếp cận cực trị toàn cục Trong luận văn này, chúng tôi đã tiến
hành khảo sát và trực quan hóa các fitness landscape của bài toán NAS đa mục
tiêu bằng cách sử dụng LONs Các thông tin hữu ích có được từ quá trình khảo sát được chúng tôi tận dụng để thiết ké LOMONAS, một thuật toán tìm kiếm
địa phương chuyên dụng cho bài toán NAS đa mục tiêu Bên cạnh đó, chúng
tôi sử dung kỹ thuật Interleaved Multi-start Scheme để loại bỏ việc thiết lập tham số thủ công và dé xuất IMS-LOMONAS - một phiên bản không tham số của LOMONAS Các thuật toán này đã được công bồ trong công trình nghiên
Kỹ thuật nâng cao hiệu suất tìm kiếm với thuật toán tìm kiếm địa phương không huấn luyện: Sau khi đã kiểm chứng được tính hiệu quả của tìm kiếm
địa phương trên bài toán NAS đa mục tiêu Chúng tôi kết hợp tìm kiếm địa phương với các chỉ số hiệu năng training-free và dé xuất hai kỹ thuật với chỉ
phí hoạt động không đáng kể nhằm nâng cao hiệu suất tìm kiếm của các thuật
toán cắt tia và các thuật toán tiến hóa đa mục tiêu trên các bài toán NAS đa mục tiêu Hai kỹ thuật này đã được công bố trong các công trình nghiên cứu
Chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ số hiệu năng không huấn luyện: Một vài công trình nghiên cứu gan đây đã phân tích sự ảnh
xvi
Trang 16hưởng của việc sử dụng các chỉ số hiệu năng dựa vào huấn luyện based) và các chỉ số hiệu năng không huấn luyện (training-free) đến hiệu suất tìm kiếm của các thuật toán NAS Tuy nhiên, những công trình này chỉ tập trung xem xét NAS dưới dạng bài toán tối ưu hóa đơn mục tiêu Trong luận văn này, chúng tôi phân tích sự ảnh hưởng của hai loại chỉ số hiệu năng này đến hiệu suất tìm kiếm của các thuật toán tiền hóa NAS đa mục tiêu Tiếp theo, chúng tôi đề xuất một chiến lược ước lượng hiệu năng của các kiến trúc mạng bằng cách sử dụng đồng thời nhiều chỉ số hiệu năng training-free Kết hợp cơ chế ước lượng hiệu năng, dé xuất với thuật toán tiến hóa đa mục tiêu NSGA-I, chúng tôi sau đó đề xuất E-TF-MOENAS - một thuật toán tiến hóa NAS đa
(training-mục tiêu có thể hoạt động hiệu quả với chi phí không đáng kể Thuật toán nay
đã được công bồ trong công trình nghiên cứu|[CT2])
xvii
Trang 17Chương 1
TỔNG QUAN
11 Mở đầu
Nhờ vào khả năng tự động trích xuất và học các đặc trưng từ dữ liệu phi cầu trúc
như âm thanh, hình ảnh và văn bản, mạng neural sâu (deep neural networks) đã
cho thấy sự hiệu quả trong các tác vụ như dịch máy (561, nhan dang hinh anh
và giọng nói | Tuy nhiên, một điều dé nhận thay là các mang neural dần được
thiết kế với các cầu trúc ngày càng phức tạp để nâng cao hiệu năng Mặc dù việc sửa
đổi có thể hiệu quả trong việc cải thiện hiệu năng, tìm kiếm một kiến trúc phù hợp cho từng tác vụ cụ thể là một nhiệm vụ tốn thời gian, khó khăn và đòi hỏi rất nhiều kinh nghiệm Những năm gan đây, cộng đồng máy học đã nỗ lực nhằm tự động hóa quá trình thiết kế này và được trình bày rộng rãi trong nhiều công trình nghiên cứu gần đây với tên gọi Tìm kiếm kiến trúc mạng neural (Neural Architecture Search,
viết tắt: NAS) (ữ] 63] Mặc dù là một hướng nghiên cứu đã được triển khai từ lâu
nhưng mãi tới năm 2017, NAS mới bắt đầu nhận được nhiều sự quan tâm hơn sau
khi công trình nghiên cứu “Neural architecture search with reinforcement learning”
của Zoph và Le được công bó Kể từ thời điểm đó đến nay, với hon 1,000 công trình nghiên cứu về NAS được công bồ đã chứng minh cho tính cấp thiết của NAS
trong béi cảnh phát triển của mang neural ngày nay 63]
Một quy trình NAS bao gồm 3 thành phan chin!
kiếm (search space); (2) Chiến lược tìm kiếm (search strategy); (3) Chiến lược ước
lượng hiệu năng (performance estimation strategy) Không gian tìm kiếm định nghĩa
: (1) Không gian tìm
sự biểu diễn của các kiến trúc Việc định nghĩa hiệu quả không gian tìm kiếm sẽ
1 Từ phần này trở về sau, thuật ngữ Tìm kiếm kiến trúc mạng neural sẽ được việt tắt là NAS.
Trang 18giúp chúng ta có thể tìm ra được các kiến trúc chất lượng Chiến lược tìm kiếm đại điện cho thuật toán, phương thức mà chúng ta khám phá không gian tìm kiếm để tìm
ra các kiến trúc chất lượng Chiến lược ước lượng hiệu năng mô tả cách ước tính hiệu
năng của kiến trúc mạng trên dữ liệu chưa từng nhìn thấy (unseen data) hay còn
được gọi là tập dữ liệu thực nghiệm (test dataset) Hình [1.1| mô tả quy trình hoạt
động của ba thành phan trong NAS Cụ thể, chiến lược tìm kiếm sẽ khám phá không
gian tìm kiếm để tìm kiếm các kiến trúc chất lượng Trong quá trình tìm kiếm, chiến
lược tìm kiếm sẽ sử dụng chiến lược trớc lượng hiệu năng để đánh giá xem chất lượng của kiến trúc là tốt hay xâu Điều này giúp cho chiến lược tìm kiếm có thể nhận biết được các khu vực tiềm năng trong không gian tìm kiếm và hướng tới các khu vực đó đồng thời tránh các khu vực chứa những kiến trúc có hiệu năng kém Quá trình trên được lặp đi lặp lại cho đến khi chiến lược tìm kiếm có thể tìm ra một (hoặc nhiều) kiến trúc thõa mản các yêu cầu cho trước, hoặc sử dụng hết lượng tài nguyên được cung cấp.
Phần lớn các công trình nghiên cứu tiếp cận NAS là bài toán tối ưu đơn mục tiêu (NAS đơn mục tiêu): tìm kiếm được một kiến trúc sao cho có hiệu năng cao nhất
65||Z3] Mac dù các kiến trúc được tìm thấy bởi NAS đã
cho thấy sự vượt trội so với các kiến trúc được thiết kế thủ công, cách tiếp cận này
trên tác vụ đang xét |
vẫn thiếu đi tính thực tế khi ngày nay, các mạng neural đã được triển khai trên vô
số nền tảng với sự đa dạng về đặc điểm phần cứng (ví dụ: điện thoại thông minh,
Trang 19Chương 1 TỔNG QUAN
xe tự hành) Điều này có thể dẫn đến việc tìm thay một kiến trúc chất lượng trở nên
vô nghĩa néu phan cứng của thiết bị không đủ để đáp ứng cho việc triển khai kiến trúc đó Do đó, các công trình nghiên cứu gần đây đã bắt đầu chuyển hướng tiếp
cận bằng cách xem xét NAS dưới dạng một bài toán tối ưu hóa đa mục tiêu (NAS
đa mục tiêu) [28||42| 58] Không chỉ quan tâm đền thông tin hiệu năng, các đặc điểm
khác của kiến trúc mạng như kích thước, độ trễ cũng được suy xét để các kiến trúc được tìm thấy có thể triển khai trên nhiều nền tảng khác nhau Mục tiêu tìm kiếm
của NAS đa mục tiêu do đó có sự khác biệt so với NAS đơn mục tiêu Thay vì chỉ
tìm kiếm một kiến trúc tối ưu duy nhất, các thuật toán tìm kiếm sẽ cố gắng đạt được một tập hợp được gọi là tap xap xi Pareto có chứa các kiên trúc có chất lượng tốt như
nhau.
1.2 Ly do thực hiện dé tài
Như đã trình bày, với sự ứng dụng rộng rãi của mang neural, NAS nên được xây
dụng là bài toán tối ưu hóa đa mục tiêu thay vì đơn mục tiêu Do đó, chúng tôi tiếp
cận NAS dưới góc độ là một bài toán đa mục tiêu trong luận văn nay.
Nhiều công trình nghiên cứu gần đây đã chứng minh tính vượt trội của các thuật toán tìm kiếm địa phương (local search) so với các thuật toán tiền hóa khác cho bài toán NAS đơn mục tiêu (35|44| 47] Các nghiên cứu này đã trực quan hóa cảnh quan
độ thích nghỉ (fitness landscape) của không gian tìm kiếm NAS bằng cách sử dụng mạng cực trị địa phương (local optima network) và chỉ ra rằng fitness landscape của NAS là đa cực trị nhưng có tương đối ít cực trị cục bộ và các thuật toán tìm kiếm địa phương có thể dé đàng thoát khỏi các cực trị này để tiếp cận cực trị toàn cục Theo
khảo sát của chúng tôi, chưa có công trình nghiên cứu nào thực hiện quá trình khảo sat fitness landscapes trên các bài toán NAS đa mục tiêu Ottelander và các cộng sự
đã chứng minh bằng thực nghiệm rằng thuật toán tìm kiếm địa phương Pareto
có thể mang lại hiệu suất tìm kiếm tương đương với các thuật toán NAS đa mục tiêu state-of-the-art Tuy nhiên, quá trình tìm kiếm trong được tiền hành với lượng tài nguyên cung cấp khá lớn - một điều kiện không dễ dàng đáp ứng trong thực tế Trong luận văn này, chúng tôi kiểm tra tính hiệu quả của tìm kiếm địa phương bằng
Trang 20Chương 1 TỔNG QUAN
cách tiến hành phân tích các fitness landscapes trong các bài toán NAS đa mục tiêu
và tién hành thực nghiệm với các thiết lập mang tính thực tế hơn.
Một chiến lược tìm kiếm hiệu quả khác cho NAS đa mục tiêu chính là các thuật
toán dựa vào cắt tỉa
siêu mạng (supernet), các thuật toán sẽ tiến hành loại bỏ các tham s6/ operations / két
Quy tắc hoạt động của các thuật toán cắt tia là từ một
nói không cần thiết trong supernet sao cho supernet sau khi cắt tỉa sẽ có độ phức tap thấp hơn rất nhiều so với supernet ban đầu, nhưng hiệu năng của supernet trước và sau khi cắt tỉa không có sự chênh lệch quá lớn Một ưu điểm của kỹ thuật này so với các thuật toán tiến hóa hay tìm kiếm địa phương là lượng tài nguyên tính toán được
sử dụng Vì chúng ta chỉ cần huấn luyện một supernet duy nhất, tài nguyên tính toán được sử dụng của các phương pháp cắt tỉa ít hơn rất nhiều so với các phương pháp khác Tuy nhiên, kết quả trả về của hầu hết các thuật toán cắt tỉa hiện nay chỉ là một kiến trúc mạng duy nhất mặc dù mục tiêu của chúng mang tính đối lập (giảm độ phức tạp của supernet nhưng hiệu năng sau khi cắt tỉa không giảm đi quá nhiều) Điều này vô tình giảm đi tính hữu dụng của kết quả đạt được khi tiếp cận NAS dưới góc độ là bài toán đa mục tiêu vì mong muốn của chúng ta là có thể tìm thấy một tập hợp đa dạng các kiến trúc để có thể triển khai trên nhiều thiết bị khác nhau Việc thiết ké một thuật toán cắt tỉa có thể trả vé một tập hợp các kiến trúc đa dang về độ phức tạp lẫn hiệu năng là một hướng nghiên cứu day tiềm năng.
Sử dụng thuật toán tiến hóa đa mục tiêu (multi-objective evolutionary rithms, viết tắt: MOEAs)
algo-khi giải các bài toán NAS mục tiêu Tuy nhiên, với bản chất ngẫu nhiên của các phép biến đổi (lai ghép, đột biến), MOEAs không thể phát hiện mối liên kết giữa các thành phần trong kiến trúc mạng và có thể sẽ không hiệu quả trên các bài
làm chién lược tìm kiếm đã cho thấy các kết quả ấn tượng
toán NAS đa mục tiêu có không gian tìm kiếm phức tạp Việc thiết kế các kỹ thuật
để nâng cao hiệu suất của MOEAs trên các bài toán NAS đa mục tiêu là một trong
các lí do của chúng tôi khi thực hiện luận văn này.
Hiệu suất của kiến trúc mạng trên tập dữ liệu thực nghiệm (test dataset) luôn là một trong các mục tiêu tối uu khi tiến hành tìm kiếm các kiến trúc mạng Tuy nhiên, thông tin giá trị của chỉ số này không thể xác định trong khi thực hiện quá trình tìm kiếm Các chiến lược trớc lượng hiệu năng trong NAS liên quan đến các phương
? Từ phan này trở về sau, thuật ngữ Thuật toán tiến hóa da mục tiêu sẽ được việt tắt là MOEA
Trang 21Chương 1 TỔNG QUAN
pháp ước lượng hiệu suất thực nghiệm của các kiến trúc mạng bằng các chỉ số thay thế khác Các chỉ số ước lượng hiệu năng này có thể được chia thành hai loại: dua
ào huan luyện (training-based) 9} 45) 48] và không huấn luyện (training-free)
B2] Một chỉ số training-based được sử dụng trong NAS cực kỳ phổ biến đó chính
là độ chính xác trên tập dữ liệu validation (validation accuracy) 29} |45] Một số chỉ
số training-based khác có thể được kể đến như giá trị hàm mat mát trên tập dữ liệu
huấn luyện/validation (training/validation loss) [48] Mặc dù sử dụng các chỉ số
training-based có thể đạt được mức độ hiệu quả nhất định nhờ vào mức độ tương quan cao giữa giá trị của các chỉ số training-based với hiệu suất thực nghiệm, chỉ phí
tìm kiếm của các thuật toán sử dụng chỉ số training-based thường rất lớn Chẳng
hạn, Zhop và Le đã sử dụng 800 GPUs trong 3 đến 4 tuần để đạt được kiến trúc
state-of-the-art trên tập di liệu Penn Treebank Những công trình nghiên cứu gan
đây đã thử giải quyết vấn dé tài nguyên tính toán này bằng cách sử dụng các chỉ số training-free Ngược lại với các chỉ số training-based, các chỉ số hiệu năng training-
free có thể xác định giá trị mà không cần phải thực hiện bat kỳ quá trình huấn luyện nào bằng cách xem xét bộ trọng số của kiến trúc mạng khi khởi tạo (chẳng hạn như chỉ số Synaptic Flow [52], chỉ số Jacobian Covariance (34) Vi khéng can phai thuc
hiện quá trình huấn luyện tốn kém, các thuật toán sử dụng các chỉ số training-free
sử dụng ít tài nguyên tính toán hơn rất nhiều so với các thuật toán sử dụng các chỉ số training-based Tuy nhiên, nhược điểm của các chỉ số training-free là hệ số
tương quan thấp giữa chúng với hiệu suất thực nghiệm và do đó, các kiến trúc tìm
iém bởi các thuật toán sử dụng chỉ số training-free thường tệ hơn so với các thuật
toán tìm kiếm sử dụng chỉ số training-based (ij Việc áp dụng các chỉ số hiệu năng
training-free vào các thuật toán tìm kiếm một cách hợp lý để đạt được hiệu quả về
mặt tài nguyên tính toán nhưng vẫn đảm bảo việc tìm thấy các kiến trúc chất lượng
là một hướng nghiên cứu đầy tiềm năng.
1.3 Mục tiêu của luận văn
Mục tiêu của chúng tôi khi thực hiện luận văn là dé xuất một số kỹ thuật heuristics có thể hoạt động hiệu quả cho bài toán NAS đa mục tiêu Hướng tiếp
meta-cận của chúng tôi tập trung vào ba chiến lược tìm kiếm:
Trang 22Chương 1 TỔNG QUAN
¢ Thuật toán dựa vào cat tỉa: Như đã trình bày, ưu điểm của các thuật toán
cắt tỉa là thời gian thực thi và tài nguyên tính toán ít hơn đáng kể so với các
chiến lược tìm kiếm khác chẳng hạn như thuật toán tiến hóa hay tìm kiếm địa phương Tuy nhiên, việc chỉ trả về một kiến trúc sau khi kết thúc quá trình tìm
kiếm làm giảm đi độ hữu dụng của kết quả tìm kiếm của các phương pháp cắt tỉa hiện tai Do đó, chúng tôi sẽ thiết ké một thuật toán cắt tỉa có thể trả về tập xấp xi Pareto - vốn là kết quả mong muốn của các thuật toán khi giải bài toán tối ưu đa mục tiêu.
¢ Thuật toán tìm kiếm địa phương: Thuật toán tìm kiếm địa phương đã được
chứng minh tính vượt trội so với các thuật toán tiến hóa cho các bài toán NAS
đơn mục tiêu thông qua việc phân tích fitness landscape Tuy nhiên, chưa có
công trình nghiên cứu nào thực hiện quá trình phân tích như vậy để đánh giá
độ hiệu quả của các thuật toán tìm kiếm địa phương trên các bài toán NAS đa mục tiêu Trong luận văn này, chúng tôi sẽ tiến hành phân tích và trực quan hóa fitness landscape cho bài toán NAS đa mục tiêu bằng cách sử dụng các
mạng tối ưu địa phương (Local Optima Networks) Các thông tin hữu ích đạt
được sau khi phân tích sẽ được chúng tôi sử dụng để thiết kế một thuật toán tìm kiếm địa phương chuyên dụng hiệu quả trên các bài toán NAS đa mục tiêu Bên cạnh đó, chúng tôi cũng sử dụng thuật toán tìm kiếm địa phương để nâng cao hiệu suất tìm kiếm của các thuật toán NAS đa mục tiêu khác.
¢ Thuật toán tiền hóa đa mục tiêu: Sử dụng các thuật toán tiến hóa đa mục tiêu (MOEAs) là một hướng tiếp cận hiệu quả cho bài toán NAS đa mục tiêu Tuy
nhiên, với bản chất ngẫu nhiên của các phép biến đổi (lai ghép, đột biến), các MOEAs có thể không hiệu quả trong việc tiếp cận biên tối ưu Pareto do không phát hiện được các mối liên kết giữa các thành phân có trong kiến trúc mạng.
Mục tiêu của chúng tôi trong luận văn là thiết kế các kỹ thuật nhằm nâng cao
hiệu suất tìm kiếm của MOEAs trên các bài toán NAS đa mục tiêu.
Bên cạnh ba chiến lược tìm kiếm đã trình bày, chúng tôi cũng tập trung vào các chỉ
số hiệu năng training-free Sử dụng các chỉ số hiệu năng training-free làm mục tiêu trong quá trình tìm kiếm có thể giúp thuật toán tiết kiệm được đáng kể lượng tài nguyên tính toán Tuy nhiên, các kiến trúc được tìm thấy bằng các thuật toán sử
Trang 23Chương 1 TỔNG QUAN
dụng chỉ số hiệu năng training-free thường kém ấn tượng Mục tiêu của chúng tôi
là tìm cách sử dụng các chỉ số hiệu năng training-free một cách hợp lý để cải thiện hiệu suất tìm kiếm lẫn độ hiệu quả của các thuật toán NAS đa mục tiêu.
14 Đóng góp chính của luận văn
Luận văn này tiếp cận NAS dưới góc độ là bài toán tối ưu hóa đa mục tiêu, là một
hướng tiếp cận mang tính thực tế và đang dần được nhiều người tiếp cận Hinh{1.2
thể hiện những đóng góp chính của luận van trong bức tranh toàn cảnh của NAS.
NAS đa mục tiêu
Search Space
(oY
Sử dung duy nhất một chỉ số hiệu.
Archileclure # năng không huần luyện.
Search Strategy
Sử dụng đồng thời nhiều chi số
hiệu năng không huấn luyện
Thuật toán tìm kiếm dia
VỀ tập xắp xỉ Pareto phương đa mục tiêu
K toán cắt tia có thể trả
HINH 1.2: Đóng góp của luận văn trong bức tranh toàn cảnh của NAS Các 6 màu đỏ thể
hiện các đóng góp của chúng tôi.
Đầu tiên, chúng tôi đã đề xuất một thuật toán cắt tỉa có thể trả về một tập xấp.
xỉ Pareto (vốn là kết quả mong muốn khi giải các bài toán đa mục tiêu) thay vì một kiến trúc duy nhất như các phương pháp cắt tỉa trước đây Ngoài ra, bằng cách sử
dụng một chỉ số training-free để ước lượng hiệu năng của các kiến trúc ứng viên,
thuật toán của chúng tôi có thể tìm ra các kiến trúc chất lượng với một chỉ phí cực
kỳ thấp Đóng góp này đã được công bồ trong công trình nghiên cứu
Một đóng góp khác của chúng tôi trong luận văn này là kết quả khảo sát và phân
tích landscapes cho bài toán NAS đa mục tiêu Các kết quả khảo sát cho thay tiềm
7
Trang 24Chương 1 TỔNG QUAN
năng của các thuật toán tìm kiếm địa phương trong việc giải quyết hiệu quả bài toán
NAS đa mục tiêu Chúng tôi sau đó đã dé xuất một thuật toán tìm kiếm dia phương chuyên dụng và chứng minh tính vượt trội của thuật toán dé xuất so với các thuật toán tìm kiếm địa phương và thuật toán tiến hóa đa mục tiêu state-of-the-art Dong
góp nay đã được công bồ trong công trình nghiên cứu|[CT3]|và|[CT4]|
Tiếp theo, chúng tôi kết hợp tìm kiếm địa phương với chỉ số hiệu năng free và dé xuất hai kỹ thuật để nâng cao hiệu suất tìm kiếm của các thuật toán trên các bài toán NAS đa mục tiêu với chi phí phát sinh không đáng kể Đóng góp này
training-đã được công bố trong các công trình nghiên cứu [CT1]|và [CT7I|
Cuối cùng, chúng tôi chỉ ra các hạn chế của việc sử dụng các chỉ số hiệu năng training-based cũng như việc chỉ sử dụng một chỉ số training-free trong suốt quá trình tìm kiếm đối với hiệu suất của các thuật toán tiền hóa NAS đa mục tiêu Chúng tôi sau đó đã dé xuất một chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ số hiệu năng training-free để đánh giá hiệu năng của các kiến trúc mạng Bằng cách kết hợp với NSGA-II - một thuật toán tiến hóa đa mục tiêu thông dụng, chúng tôi đã đề xuất một thuật toán tiền hóa NAS đa mục tiêu có thể hoạt động hiệu quả
với chỉ phí tính toán không đáng kể trên các bài toán NAS đa mục tiêu Đóng góp
này đã được công bồ trong công trình nghiên cứu|[CT2]
1.5 Bố cục luận văn
Nội dung của luận văn được trình bày theo bồ cục sau đây:
© Chương 1: Tổng quan Chương này trình bày tổng quan về bài toán Tìm kiếm kiến trúc mạng neural (NAS) đa mục tiêu cũng như mục đích nghiên cứu,
phạm vi nghiên cứu và những đóng góp chính của luận văn.
© Chương 2: Kiến thức nền tảng Chương này trình bày chỉ tiết về cách thức mô
hình hóa bài toán NAS đa mục tiêu và các kiến thức nền tảng liên quan.
© Chuong 3: Thuật toán cắt tỉa không huắn luyện cho bài toán tìm kiếm kiến trúc mang
neural da mục tiêu O chương này, chúng tôi đề xuất một phương pháp cắt tia
có thể trả vé tập xap xi Pareto chất lượng với chi phí không đáng kể cho bài
toán NAS đa mục tiêu.
Trang 25Chương 1 TỔNG QUAN
s Chương 4: Thuật toán tìm kiếm địa phương cho bài toán tìm kiếm kiến trúc mang
neural da muc tiêu Chương này trình bày chỉ tiết cách thức tiến hành khảo sátkhông gian tìm kiếm của chúng tôi cho bài toán NAS đa mục tiêu Bên cạnh
đó, chúng tôi dé xuất một phương pháp tìm kiếm địa phương chuyên dụng cóthể hoạt động vượt trội so với các thuật toán trước đây trên các bài toán NAS
đa mục tiêu.
© Chương 5: Nâng cao hiệu suất tìm kiếm tới tìm kiếm địa phương không huan luyện
Ở chương này, chúng tôi đề xuất hai hướng tiếp cận nhằm nâng cao hiệu suất
tìm kiếm của các thuật toán NAS đa mục tiêu với chi phí phát sinh không đáng
kể bằng cách kết hợp tìm kiếm địa phương với chỉ số hiệu năng không huấn
luyện.
s Chương 6: Chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ số không
huan luyện O chương này, chúng tôi phân tích sự tác động của các chỉ số hiệu
năng dựa vào huấn luyện và các chỉ số hiệu năng không huấn luyện đến hiệusuất tìm kiếm của các thuật toán tiền hóa NAS đa mục tiêu Tiếp theo, chúngtôi dé xuất một chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ
số hiệu năng không huấn luyện để đánh giá hiệu năng của các kiến trúc mạng.Chúng tôi sau đó trình bày một thuật toán tiến hóa NAS đa mục tiêu sử dụng
chiến lược ước lượng hiệu năng đề xuất để có thể hoạt động hiệu quả trên cácbài toán NAS đa mục tiêu với chỉ phí tìm kiếm không đáng kể
se Chương 7: Kết luận va Hướng phát triển Chương này tóm tắt lại những nội
dung, kết quả chính trong luận văn và trình bày các hướng nghiên cứu khả thi
trong tương lai.
Trang 26với x là một kiến trúc ứng viên bat kỳ trong không gian tim kiếm kiến trúc arch với
bộ tham số zø*(x) có được bằng cách huấn luyện kiến trúc x trên tập dữ liệu huấn
luyện Drain để tối thiểu hóa hàm mất mát L Khi giải bài toán NAS đơn mục tiêu,
hầu hết các công trình nghiên cứu chọn hàm mục tiêu ƒ° là hàm đánh giá tỷ lệ độlỗi của kiến trúc (hoặc độ chính xác trong trường hợp tối đa hóa) trên tập dữ liệuvalidation Dy} Mục tiêu tìm kiếm lúc này là đạt được một kiến trúc tối ưu x* có giátrị hàm mục tiêu ƒ° nhỏ nhất (hoặc lớn nhất trong trường hợp tối đa hóa)
Với sự ứng dụng rộng rãi của mang neural trên đa dang các nền tảng (ví du:
điện thoại thông minh, xe tự hành), những người ra quyết định (decision-makers)
không chỉ quan tâm đến hiệu năng mà còn các khía cạnh khác của kiến trúc mạng
(chẳng hạn như kích thước mô hình hoặc độ trễ suy luận) Do đó, NAS có thể được
mở rộng thành bài toán tối ưu hóa có ràng buộc, hoặc thường được gọi trong cáccông trình nghiên cứu là bài toán Tim kiếm kiến trúc mang neural theo đặc điểm phan
10
Trang 27Chương 2 KIÊN THUC NEN TANG
cứng (Hardware-aware Neural Architecture Search) (64) Một lời giải kiến trúc
được xem là hợp lệ nếu các đặc điểm của nó không vi phạm bat kỳ yêu cầu nào
của decision-makers (ví dụ: giới hạn về số lượng tham s6) Tuy nhiên, việc mô hình
hóa NAS là bài toán tối ưu hóa có ràng buộc làm thiếu đi tính linh hoạt trước nhữngthay đổi trong yêu cầu của decision-makers vì tất cả các ràng buộc cần phải được chỉ
định rõ ràng trước khi bắt đầu thực hiện NAS Nếu những decision-makers không
hài lòng với các kiến trúc kết quả và muốn sửa đổi với ràng buộc giới hạn khác thìquá trình tìm kiếm cần phải được thực hiện lại để có được một lời giải mới Thông
thường, phần lớn các thuật toán NAS tốn rất nhiều thời gian để tìm thay một kiếntrúc tốt, chang hạn như Zoph và Le [73] đã sử dung 800 GPUs trong 3 đến 4 tuần để
đạt được kiến trúc state-of-the-art trên tập dir liệu Penn Treebank
Trong những năm gần đây, một cách tiếp cận hợp lý hơn để giải quyết NAS là
xem nó như một bài toán tối ưu hóa đa mục tiêu thuần túy l2s||29|30||42|j4] Không
mat tính tổng quát, bài toán NAS đa mục tiêu có thể được mô hình hóa như sau:
tối thiểu hóa F(x) = (ƒ“(x,t0”x, Dyai), ƒ°(x), f"(x)),
trên tap hợp các thiết bị dùng để triển khai kiến trúc mạng H (ví dụ: độ trễ suy luận,
năng lượng tiêu hao).
Trong thực tế, khi giải bài toán NAS đa mục tiêu (Phương trình b.2), việc tìm
thay một kiến trúc lời giải có thể tối ưu đồng thời tất cả các mục tiêu là bat khả thi vìcác mục tiêu thường đối nghịch lẫn nhau Ví dụ, chúng ta không thể thiết kế đượcmột kiến trúc mạng vừa có độ lỗi phân loại thấp nhưng cũng vừa có số lượng tham
số nhỏ và độ trễ thấp Thay vào đó, lời giải mà chúng ta đi tìm khi giải các bài toánNAS đa mục tiêu là một tập tối ru Pareto Ps chứa nhiều kiến trúc và tất cả các kiến
trúc trong Ps được xem là lời giải tối uu Pareto vì không tồn tại bat kỳ kiến trúc nào
khác trong không gian tìm kiếm Qarch có thể thống tri Pareto chúng [11| 29||43]:
Ps = {x € Oarch | Ax! € O„ren x! < x} (2.3)
11
Trang 28Chương 2 KIÊN THUC NEN TANG
Xét một bài toán tối ưu gồm mục tiêu, một kiến trúc x được cho là thống trịPareto một kiến trúc khác (ký hiệu là x < y) khi và chỉ khi:
1 Kiến trúc x không tệ hơn kiến trúc y ở tất cả mục tiêu
2 Kiến trúc x tốt hơn hoàn toàn kiến trúc y ở ít nhất một mục tiêu
x<yovVie M: fi(x) < fily) và di€M: fi(x) < fily),
(2.4)
với M = {1, ,m}.
Đối với mỗi lời giải x trong Ps, vec-tơ giá trị mục tiêu F(x) tương ứng với một
điểm trên biên tối uu Pareto Pr trong không gian mục tiêu và thể hiện sự cân bằnghiệu quả nhất giữa các mục tiêu được xem xét
Pr = {F(x) © RTM |x € Ps} (2.5)
Nói cách khác, khi xem xét hai kiến trúc bat ky x và y trong 7s, nếu x tốt hơn y ở
một mục tiêu, chắc chắn tốt hơn x ở ít nhất một mục tiêu khác và nguoc lại 29/143].
Mặc dù kết quả lý tưởng khi giải bài toán tối ưu hóa đa mục tiêu là đạt được tất
cả các lời giải trong Ps, việc tìm ra toàn bộ lời giải trong thực tế thường rất tốn kém
và mat rất nhiều thời gian Thay vào đó, một mục tiêu thay thế hợp lý hơn là tìm ramột tap xắp xỉ S chứa các kiến trúc không bị thống trị sao cho các giá trị mục tiêu
của các kiến trúc trong S biểu diễn một biên xap xỉ F(S) có thể xap xi tốt biên tối ưu
Pareto Pr trong không gian mục tiêu M3] Vi dụ, nếu chúng ta sử dụng độ
đo khoảng cách Euclidean d(-) để biểu diễn mức độ xấp xỉ giữa F(S) va Pr, chúng
ta mong muốn rằng giá trị khoảng cách Euclidean sẽ càng gần 0 càng tốt (tức là,
d(F(S),Pr) — 0) Hình 2.1] minh hoa tập S và biên F(S) trong một bài toán NAS
hai mục tiêu Chất lượng của các biên xấp xi F(S) sẽ được đánh giá thông qua các
chỉ số hiệu năng (xem Mục|2.3) và được sử dụng cho để đánh giá và so sánh hiệu
suất tìm kiếm giữa các thuật toán NAS đa mục tiêu với nhau
2.2 Bộ điểm chuẩn NAS (NAS-Benchmark)
Trong NAS, sự khó khăn khi đánh giá và so sánh hiệu suất tìm kiếm giữa các thuậttoán đến từ các lí đo sau Thứ nhất, lượng tài nguyên tính toán đòi hỏi để thực hiện
12
Trang 29Chương 2 KIÊN THUC NEN TANG
Search Space Objective Space
Để giải quyết van đề trên, nhiều bộ điểm chuẩn NAS (NAS benchmarks)|l|khác
nhau đã được công bố [I5||37/|66||69] Về bản chất, NAS benchmark là một cơ sở dữ
liệu (database) chứa thông tin của nhiều kiến trúc trong một không gian tìm kiếmđược định nghĩa trước Đặc biệt, các kiến trúc trong một benchmark sẽ đều đượchuấn luyện với cùng cấu hình thực nghiệm để giải quyết van dé thiếu đồng nhấttrong các thiết lập thực nghiệm Ngoài ra, cơ sở dữ liệu trong NAS benchmarks cóchứa thông tin hiệu năng của các kiến trúc Do đó, người sử dung NAS benchmarks
có thể truy suất thông tin này mà không cần phải thực sự huấn luyện kiến trúc và
tiết kiệm được rất nhiều tài nguyên và thời gian Trong luận văn này, chúng tôi sửdụng 3 bộ NAS benchmarks để thiết kế các bài toán NAS đa mục tiêu bao gồm:
MacroNAS [37], NAS-Bench-101 [66], va NAS-Bench-201 (15) Chi tiết của từng bộ
benchmark được trình bày sau đây.
1 Từ phần này trở về sau, thuật ngữ bộ điểm chuẩn NAS sẽ được thay thé bang NAS benchmarks.
13
Trang 30Chương 2 KIÊN THUC NEN TANG
MacroNAS là bộ benchmark có không gian tìm kiếm chứa 4,782,969 kiểu hìnhcủa các kiến trúc mạng neural tích chập Mỗi kiến trúc được huấn luyện và đánh giátrên bộ dữ liệu CIFAR-10 và CIFAR-100 Các thông tin của từng kiến trúc được cungcấp bao gồm: độ chính xác trên tập dữ liệu validation/thực nghiệm và chỉ số Mega
Multiply-Accumulate operations (viết tat: MMACs)
HÌNH 2.2: Một kiến trúc không gian tìm kiếm MacroNAS.
Trong MacroNAS, mỗi kiến trúc trong MacroNAS bao gồm 17 cells được kết nốiliên tục và có thêm 2 thành phần phụ trợ (auxiliary): stem convolution trước cell đầu
tiên và bộ phân loại (classifier) sau cell cuối cùng giúp biến đổi đầu ra của cell cuối
cùng thành điểm dự đoán cho mỗi lớp Stem convolution được cài đặt convolution
3 x 3 để chuyển đổi hình ảnh đầu vào thành 32 ban dé đặc trưng (feature maps) Bộ
phân loại được cài đặt convolution 1 x 1 đi kèm với average pooling và lớp tuyến
tính sau cùng Các cells trong các kiến trúc của MacroNAS được chia thành 2 loại:reduce cell va normal cell Đối với các reduce cells, dữ liệu đi qua sẽ được giảm chiều
đầu vào không gian và tăng số lượng kênh: đối với đầu vào có kích thước D x H x
W (D 1a số lượng bản dé đặc trưng, H và W là kích thước không gian), đầu ra sau
khi qua các reduce cells sẽ có kích thước 2D x H/2 x W/2 Cac reduce cells được
có định ở các vị trí thứ 5, 10 và 15 trong kiến trúc va cài đặt lớp convolution 1 x 1
với max-pooling Ngược lại, dữ liệu khi di qua các normal cell sẽ được giữ nguyên
chiều không gian Ở mỗi vị trí của normal cells là một trong 3 loại cells: Inverted
Bottleneck Convolutional Blocks (MBConv) với expansion factor là 3 và kernel size
là 3; MBConv với expansion factor là 6 va kernel size là 5; va identity Cell indetity
có chức năng như một skip connection, tức là giữ nguyên câu trúc của dit liệu được
14
Trang 31Chương 2 KIÊN THUC NEN TANG
đưa vào và chuyển qua cell tiếp theo Hình|2.2|minh họa một kiến trúc trong không
gian tìm kiếm MacroNAS
Mỗi lời giải trong các bài toán hình thành trên MacroNAS tương ứng với một
cách xếp các loại cells vào 14 vị trí normal cells Khi thực nghiệm trên MacroNAS,chúng tôi mã hóa các kiến trúc thành một vec-tơ có độ dài 14, trong đó mỗi phần tử
đại diện cho một trong ba lựa chọn cells hợp lệ trong không gian tìm kiếm
NAS-Bench-101 cung cấp một không gian tim kiếm chứa khoảng 423,000 kiếntrúc Tất cả các kiến trúc được huấn luyện trong 108 epochs và đánh giá trên bộ dữ
liệu CIFAR-10 Thông tin của các kiến trúc được lưu lại trong NAS-Bench-101 baogồm: độ chính xác trên các tập dữ liệu huấn luyện/validation/thực nghiệm và sốlượng tham số (#params) Thông tin độ chính xác của các kiến trúc được lưu lại ở 4
thời điểm epochs khác nhau: {4, 12, 36, 108).
HINH 2.3: Bộ khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-101.
Trong không gian NAS-Bench-101, tat cả các kiến trúc đều dùng chung bộ khung
ở Hình|2.3| Mỗi lời giải trong các bài toán hình thành trên NAS-Bench-101 tương ứng với một cách biểu diễn của các cells trong các stacks Mỗi cell trong NAS-Bench-101
được biểu diễn bằng một dé thị không chu trình có hướng (directed acyclic graph,
viết tắt: DAG)Ƒ]có 7 nút và tổng số cạnh trong dé thị không lớn hơn 9 Mỗi nút trong
DAG tương ứng với 1 trong 3 loại operations: Convolution 3 x 3, Convolution 1 x 1,
? Từ phan này trở về sau, thuật ngữ đồ thị không chu trình có hướng sẽ được viết tắt là DAG.
15
Trang 32Chương 2 KIÊN THUC NEN TANG
và Max-pooling 3 x 3 Do đó, mỗi lời giải thật sự của chúng ta khi thực nghiệm trên
NAS-Bench-101 tương ứng với một cách sắp xếp các nút và các cạnh trong DAG
Hình 2.4|biểu diễn hai lời giải minh họa tương ứng với hai DAGs khác nhau trong
NAS-Bench-101 Khi thực nghiệm với benchmark NAS-Bench-101, chúng tôi mã hóa
mỗi lời giải thành một vec-tơ có độ dài 26, trong đó 21 phần tử đầu tiên biểu diễn
cho các kết nối giữa các nút và 5 phan tử còn lại biểu dién cho các operations
Available Operations
Conv :3x3 j ‘Maxeooting |
Conv
1x1
HINH 2.4: Minh hoa một số kiến trúc trong không gian tìm kiếm NAS-Bench-101.
NAS-Bench-201 cung cấp một không gian tìm kiếm chứa 15,625 kiến trúc
được huấn luyện trong 200 epochs và đánh giá trên ba bộ dit liệu khác nhau
(CIFAR-10, CIFAR-100, và ImageNet16-120) Thông tin của từng kiến trúc trong
NAS-Bench-201 được lưu lại bao gồm: FLOPS, #barams, độ chính xác trên các tập dữ liệu huấn
luyện/validation/thực nghiệm Khác với các benchmarks trước, NAS-Bench-201
lưu lại thông tin hiệu năng của các kiến trúc ở mọi thời điểm trong suốt quá trìnhhuấn luyện 200 epochs
Các kiến trúc trong NAS-Bench-201 đều dùng chung một bộ khung ở Hình |2.5|
và một lời giải trong NAS-Bench-201 tương ứng với một cách sắp xếp các
opera-tions trong cell ở các stacks Mỗi cell trong NAS-Bench-201 được biểu diễn bằng một
16
Trang 33Chương 2 KIÊN THUC NEN TANG
HINH 2.5: Bộ khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-201.
fully-connected DAG với 4 nút và 6 cạnh Khác với NAS-Bench-101, các cạnh trong
DAGs của NAS-Bench-201 thể hiện đường đi của dữ liệu và các nút thể hiện
opera-tions Hình |2.6|biểu diễn hai lời giải minh họa tương ứng với hai DAGs khác nhau
trong NAS-Bench-201 Khi thực nghiệm với benchmark NAS-Bench-201, chúng tôi
sử dụng một vec-tơ có độ dài là 6 để mã hóa cho mỗi lời giải Mỗi phần tử của vec-tơ
là 1 trong 5 loại operations: Zeroize, Skip connection, Convolution 1 x 1, Convolution
3x3, Average pooling 3 x 3.
Available Operations
————> Skip connection ——» Convolution 3 x 3
HÌNH 2.6: Minh hoa một số kiến trúc trong không gian tìm kiếm NAS-Bench-201.
17
Trang 34Chương 2 KIÊN THUC NEN TANG
2.3 Đánh giá hiệu suất tìm kiếm trong bài toán NAS đa
mục tiêu
Kết quả tìm kiếm của các thuật toán khi giải bài toán NAS đa mục tiêu là một tậphợp các kiến trúc không bị thống trị S Các kiến trúc trong S sẽ hình thành một biên
xp xỉ Pareto trong không gian mục tiêu F(S) và chất lượng của biên xấp xỉ F(S) sẽ
được sử dụng để đánh giá hiệu suất tìm kiếm của thuật toán Trong các thực nghiệmcủa chúng tôi, chất lượng của biên F(S) được biểu diễn thông we hai chỉ số hiệu
năng: Inverted Generational Distance |4 (4) ] (IGD) P]và Hypervolume [72 2] (HV)
2.3.1 Inverted Generational Distance (IGD)
Chỉ số IGD [4] được tính bằng trung bình khoảng cách Euclidean (trong không
gian mục tiêu) từ mỗi lời giải trên biên tối ưu Pareto Py đến lời giải gần nhất của nótrên biên xấp xỉ F(S)
1
IGD(S,Pr) = eo min ||p — F(s) lla (2.6)
p€7r *
3 Từ phan này trở về sau, chỉ số Inverted Generational Distance sẽ được viết tắt là IGD.
* Từ phan này trở về sau, chỉ số Hypervolume sẽ được viết tắt là HV.
18
Trang 35Chương 2 KIÊN THUC NEN TANG
Chỉ số IGD của biên xấp xỉ F(S) thể hiện tính da dang (mức độ trải của F(S) doc
theo ?z) và mức độ gan của F(S) tới Pr IHỆ Giá trị IGD(F(S),7z) = 0 khi va
chỉ khi tat cả kiến trúc trên biên tối ưu Pareto Pz được tìm thấy trong S Hình 2.7]
minh họa cách xác định chỉ số IGD trong một bài toán tối ưu hóa hai mục tiêu Khi
sử dụng chỉ số IGD để so sánh chất lượng của hai biên xấp xỉ, biên có giá trị IGD
nhỏ hơn sẽ được đánh giá là tốt hơn Giả sử chúng ta có hai tập xấp xi S và S thu
được bởi hai thuật toán lần lượt là A và B và 16D(S4, Pr) < 16D(S4, Pz), chúng ta
có thể nói rằng thuật toán A đạt được biên xấp xỉ tốt hơn thuật toán B
Khi tính toán giá trị IGD, chúng ta cần xác định trước biên tối ưu Pareto Pr
(Phương trinh|2.6) Tuy nhiên, việc xác định được chính xác biên tối ưu Pareto trong
thực tế là không khả thi vì chúng là kết quả mong muốn mà chúng ta cần tìm Trongcác thực nghiệm của chúng tôi, vì sử dụng các NAS benchmarks để thiết kế các bàitoán NAS đa mục tiêu nên biên tối ưu Pareto cho từng bài toán có thé dé dàng được
xác định bằng cách duyệt qua toàn bộ cơ sở dữ liệu của benchmark
Một chỉ số hiệu năng khác được sử dụng để đánh giá chất lượng tìm kiếm của
thuật toán trên các bài toán tối ưu đa mục tiêu trong thực tế là Hypervolume
19
Trang 36Chương 2 KIÊN THUC NEN TANG
(HV) Chỉ số HV có thể được xác định là kích thước của vùng không gian được baoquanh bởi biên xấp xỉ F(S) và một điểm tham chiếu Điểm nadir, là điểm có giá trị
tệ nhất ở tất cả mục tiêu, thường được chọn làm điểm tham chiếu Khi so sánh hiệu
suất tìm kiếm của hai thuật toán, thuật toán đạt được biên xấp xỉ có giá trị HV lớn
hơn được xem là thuật toán tốt hơn Hình |2.8| minh họa cách xác định chỉ số HV
trong một bài toán tối ưu hóa hai mục tiêu
2.4 Các chỉ số ước lượng hiệu năng của kiến trúc mạng
không huấn luyện
Không giống như các chỉ số hiệu năng dựa vào đào tạo (training-based performancemetrics) cần có bộ trọng số của kiến trúc đã được huấn luyện để có thể tính toán giátrị (ví dụ: độ chính xác phân loại trên tập dữ liệu validation), các chỉ số hiệu năngkhông huấn luyện (training-free performance metrics) có thể được tính toán giá trị
bằng cách sử dụng bộ trọng số của kiến trúc khi chỉ vừa mới khởi tạo Mặc dù khôngcần phải thực hiện bất kỳ quá trình huấn luyện nào để tính toán giá trị, các chỉ số
training-free được cho là có mức độ tương quan cao hiệu suất thực nghiệm (1) Vi
du, một trong các chỉ sO training-free được phát hiện có tương quan với độ chính
xác thực nghiệm của các kiến trúc mạng - snip [22], duoc tinh bang cách ước lượng
sự thay đổi trong giá trị hàm mat mát khi loại bỏ một tham số cụ thé trong kiến trúc
mạng Giá trị của chỉ số snip của một tham số trong vec-tơ tham số Ø được tính theo
Một chỉ số training-free khác được sử dụng phổ biến trong nhiễu công trìnhnghiên cứu gần đây là Synaptic Flow (synf1ow) Trong khi chỉ số snip cần đưa
20
Trang 37Chương 2 KIÊN THUC NEN TANG
vào một ít mẫu đữ liệu trong tập dữ liệu huấn luyện để tính toán giá trị, giá trị củasynf1ow có thể được xác định mà không cần sử dung tập dữ liệu huấn luyện Côngthức tính giá trị synflow cũng giống như snip nhưng ham mat mát £ được địnhnghĩa là tích của tất cả các tham số trong kiến trúc mạng:
L
Z£=1 (I ) 1, A49⁄!⁄%(g) = 5 @Ø (2.9)
I=1
với 1 là vec-tơ giá trị 1 va 6!!! ký hiệu cho giá trị tham số ở lớp thứ / của kiến trúc
mạng Giá trị synflow cho toàn bộ kiến trúc được tính bang cách lay tổng giá trị
synf1ow của toàn bộ tham số trong Ø:
synflow(6) = Merson (9); (2.10)
i=1
Khi sử dung các chỉ số training-free để ước lượng hiệu năng của kiến trúc mang,
do không phải tốn tài nguyên để thực hiện quá trình huấn luyện kiến trúc tốn kém,
các thuật toán sẽ có thể đánh giá nhiều kiến trúc ứng viên hơn và chúng ta có thể
thực hiện nhiều quá trình tìm kiếm hơn
21
Trang 38Chương 3
THUẬT TOÁN CAT TIA KHONG
HUAN LUYEN CHO BAI TOAN TIM
KIEM KIEN TRUC MANG NEURAL
DA MUC TIEU
3.1 Tổng quan và Công trình nghiên cứu liên quan
Siêu mạng (supernet) có thể được định nghĩa là một kiến trúc mạng có chứa các
nodes sao cho thông tin lan truyền giữa các nodes sẽ được tính toán với tất cả các
toán tử (operations) có trong một không gian tìm kiếm (search space) được định
nghĩa trước (pre-defined) bởi người đưa ra quyết định (decision-makers) [26] Hinh
3.1| minh hoa một supernet có 4 connections va 3 operations trên mỗi connection.
Thông thường, kích thước của các supernets (ví du: số lượng tham số) là rất lớn
khiến cho việc triển khai chúng trên các nền tảng trong thực tế là vô cùng khó khăn
Do đó, các kiến trúc mạng con có kích thước nhỏ hơn sẽ được trích xuất từ supernet
và triển khai cho các nền tảng cụ thể Các kiến trúc mạng con sẽ được kế thừa bộtrọng số của supernet và có thể được tinh chỉnh (finetune) nếu cần thiết Tuy nhiên,việc chứa toàn bộ các operations trong không gian tìm kiếm cùng với số lượng lớn
liên kết giữa các nodes khiến việc huấn luyện các supernets tốn rất nhiều thời gian
và tài nguyên tính toán Sử dụng các phương pháp cắt tỉa là một trong những hướng
tiếp cận hiệu quả để giải quyết van đề trên [10||23] Mục tiêu của các phương pháp
cắt tỉa là giảm bớt kích thước, độ phức tạp của supernet nhưng vẫn đảm bảo hiệu
22
Trang 39Chương 3 THUAT TOÁN CAT TIA KHONG HUAN LUYEN CHO BÀI TOÁN
TIM KIEM KIEN TRUC MANG NEURAL DA MUC TIEU
nu, äã.,
HINH 3.1: Minh họa một supernet có 4 connections và 3 operations trên mỗi connection.
năng của supernet không bị giảm đi đáng kể sau khi cắt tỉa Từ một supernet cóđầy đủ các liên kết (connetions) và các operations trên mỗi connetion, các thuậttoán cắt tỉa sẽ lần lượt loại bỏ các operations/connections xau trong supernet một
cách tuần tự cho đến khi không thể cắt tỉa được nữa (10) 23] Nếu thực hiện cắt tỉa
cho các connections, việc cat tỉa có thể loại bỏ hoàn toàn kết nối giữa hai nodestrong supernet và quá trình cat tia cho liên kết giữa hai nodes đó sẽ dừng lại Nếuthực hiện cắt tỉa cho các operations, quá trình cắt tỉa sẽ kết thúc khi chỉ còn lại một
operation duy nhất trên connection đang xét Hình B.2Ìminh họa một ví dụ về quy
trình cắt tỉa cho operations trên supernet Š có 4 connections va 3 operations khác
nhau trên mỗi connection.
Xem xét các thuật toán cắt tỉa, chúng ta có thể thây sự đối lập giữa các mục tiêutối ưu của chúng (giảm độ phức tạp nhưng giữ nguyên hiệu năng) Nếu xem xét
trong bối cảnh tối ưu hóa, chúng ta có thể xem đây là một bài toán NAS đa mục
tiêu Như đã trình bày ở Mục|2.1| kết quả mong muốn khi giải các bài toán NAS đa
mục tiêu là một tập xấp xỉ chứa nhiều kiến trúc đa dạng về độ phức tạp và hiệu
năng Tuy nhiên, hầu hết các phương pháp cắt tỉa hiện tại chỉ trả về một kiến trúc
23
Trang 40Chương 3 THUAT TOÁN CAT TIA KHONG HUAN LUYEN CHO BÀI TOÁN
TIM KIEM KIEN TRUC MANG NEURAL DA MUC TIEU
Supernet S Final Network
HÌNH 3.2: Minh họa quá trình cắt tia operations cho một supernet S.
duy nhất và điều này làm giảm đi độ hữu dụng của kết quả đạt được với
đecision-makers Do đó, việc thiết kế một thuật toán cắt tỉa có thể trả về tập xấp xỉchứa đa dạng các kiến trúc có chất lượng tốt như nhau là điều cần thiết
Thuật toán 1: Cắt tỉa dựa vào mức độ quan trọng (Magnitude-based
Prun-ing)
Input: Supernet S
Tap hợp các connection € trong S
Tap hợp các operations O trên mỗi connection trong €
Output: Supernet S sau khi cat tỉa
1 for each connection e € E do
2 | foreach connection e € € do
// Huan luyện supernet
3 Train supernet S
// Lua chon operation tốt nhất trên connection e
4 Select the best operation o* for e: 0% argmax a§ (a là tham số của S)
Một van dé then chốt đối với các thuật toán cắt tia là làm thé nào để đánh giá mức
độ “tốt”, “xấu” của các đối tượng được cắt tỉa trong supernet Li và các cộng sự
đã dé xuất cách đánh giá dựa trên mức độ quan trọng (magnitude) của các tham số
trong kiến trúc và tiến hành cat tia dựa vào các giá trị này (xem Thuật toán
(ip Trong [23], một operation/connection được giữ lai nếu magnitude của supernet
24