1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Thiết kế và ứng dụng các kỹ thuật Metaheuristics chuyên dụng cho bài toán tìm kiếm kiến trúc mạng Neural

244 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thiết kế và ứng dụng các kỹ thuật Metaheuristics chuyên dụng cho bài toán tìm kiếm kiến trúc mạng Neural
Tác giả Phan Minh Quân
Người hướng dẫn TS. Lương Ngọc Hoàng, TS. Nguyễn Việt Hùng, TS. Huỳnh Ngọc Tín
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 244
Dung lượng 98,09 MB

Nội dung

Thuậttoán này đã được công bố trong công trình nghiên cứu|[CT5] Thuật toán tìm kiếm địa phương đa mục tiêu: Thuật toán tìm kiếm địa phương đã được kiểm chứng sự vượt trội so với các thuậ

Trang 1

PHAN MINH QUẦN

THIẾT KE VÀ UNG DUNG CÁC KỸ THUẬT METAHEURISTICS CHUYÊN DỤNG CHO BÀI TOÁN

TÌM KIEM KIÊN TRÚC MẠNG NEURAL

Chuyên ngành: Khoa học máy tính

Mã số: 8.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS LƯƠNG NGỌC HOÀNG

PHAN BIEN I: TS NGUYEN VIET HUNG PHAN BIEN 2: TS HUYNH NGỌC TÍN

TP HO CHi MINH, 2023

Trang 2

LỜI CẢM ƠN

Trong quá trình hoàn thành luận văn, "Lời cảm ơn" là phần nội dung mà tôi thực

hiện sau cùng Thay vì viết những lời sáo rỗng như ở khóa luận tốt nghiệp, "Lời cảm ơn" trong luận văn này là nơi tôi sẽ giải bày những cảm xúc, những suy nghĩ "sến súa" của mình đến với những người mà tôi quý mến.

Lời cảm ơn đầu tiên tôi xin được gửi đến bố mẹ Bố mẹ chính là những người thầy đầu tiên của con Con cảm ơn bố mẹ đã dìu dắt và xây dựng cho con một nền

tảng vững chac để con có thể phát triển, định hình bản thân Con vui mừng vì có

thể khiến bố mẹ hãnh diện, tự hào mỗi khi nghĩ đến con.

Người tiếp theo tôi muốn cảm ơn chính là thầy Lương Ngọc Hoàng - một người thay tận tụy, nhiệt huyết nhất mà tôi từng biết Em vẫn nhớ cái ngày mà em chờ trước văn phòng khoa để xin phép thầy hướng dẫn em cho khóa luận tốt nghiệp Vào khoảng thời gian ấy, khi mà em vẫn còn đang vô định, mù mịt về những dự

định sau khi tốt nghiệp thì việc gặp thầy ngày ấy đã mở ra cho em một hướng đi mà

em chưa bao giờ nghĩ tới: nghiên cứu khoa học Tham thoát đã hơn 4 năm kể từ khi thay gửi bài báo khoa học đầu tiên cho em để đọc và tham khảo, em cảm ơn thầy

đã đìu dắt, định hướng cho em trong suốt khoảng thời gian này để em có thể đạt

được những thành công đầu tiên trên con đường nghiên cứu học thuật Những câu chuyện, kinh nghiệm mà thay chia sẻ không chỉ giúp ích cho em trong việc nghiên

cứu mà còn mang lại cho em những cái nhìn đa dạng hơn về các vấn đề trong cuộc

sống Em cảm thấy thật tuyệt vời khi có thể trở thành một phần trong sự nghiệp giảng dạy của thây.

Cuộc sống sinh viên của tôi sẽ không thể nào trọn vẹn nếu thiếu vắng những

người bạn tuyệt vời Cảm ơn Nguyên, Đoan, Phú, Trường và N.Sang Khoảng thời gian sinh hoạt cùng các bạn tại phòng A2-215 sẽ là những mảnh ký ức mà tôi không bao giờ quên Cảm ơn H.Tú, Quy, Thành, H.Sang và các bạn ở lớp KHCL 2017 Được

trò chuyện, làm việc với các bạn trong suốt những năm tháng đại học đã giúp đỡ tôi rất nhiều và tôi thật sự trân quý khoảng thời gian này.

Toi cũng muốn gửi lời cảm ơn đến chính bản thân mình Cảm ơn vì đã cố gang hết sức, cảm ơn vì đã không bỏ cuộc Hy vọng bản thân sẽ luôn giữ được ngọn lửa nhiệt huyết và đạt được nhiều thành công hơn trong tương lai.

iii

Trang 3

Những lời cảm ơn cuối cùng tôi muốn gửi đến T.Linh - bạn gái của tôi, là người đồng hành và giúp tôi hoàn thiện bản thân hơn từng ngày trong suốt 8 năm qua Mong rằng chúng ta mãi bên nhau để trải nghiệm mọi khoảnh khắc trong cuộc sống đây thú vị này.

Toi cũng có những điều nhắn gửi đến các bạn dang đọc luận văn này Những kết

quả mà các bạn đạt được sẽ tương xứng với những nỗ lực mà các bạn bỏ ra Dù cho bạn chọn học thạc sĩ vì bất kỳ lý do nào, hy vọng các bạn sẽ không bỏ cuộc và cố

gắng chinh phục con đường này dẫu biết phía trước đầy khó khăn và thử thách.

Phan Minh Quân

iv

Trang 4

MỤC LỤC

ILỜI CẢM ON] iii

TÓM TAT xv

1_ TONG QUAN 1

1.1 Mở đầâu s#ZZ-.: = @® 1

1.2 Lý do thực hiện đềtài 3

1.3 Mục tiêu của luậnvăn| 5

[T4 Đồng pop chính của luậnvăR| 7

1.5 Bốcụcluậnvăn| c ee 8 lb_ KIÊN THỨC NEN TANG 10 2.1 Bài toán Tìm kiếm kiến trúc mang neural Da mục tiêu (MONAS)| 10

2.2 Bộ điểm chuẩn NAS(NAS-Benchmark)| 12

2.3 Đánh giá hiệu suất tìm kiếm trong bài toán NAS đa mục tiêu| 18

2.3.1 Inverted Generational Distance(IGD)| 18

2.3.2 Hypervolume(HV) 19

2.4 Các chỉ số ước lượng hiệu năng của kiến trúc mạng không huấn luyện| 20 KIEM KIÊN TRÚC MẠNG NEURAL ĐA MỤC TIÊU 3.1 Tổng quan và Công trình nghiên cứu liên quan| See 22 B.2 TF-MOPNAS: Thuật toán Cắt tỉa không huan luyện cho bài toán Tìm ] Ụ 26 3.3 Thiết lập thực nghiệm| - 28

Ba Kétquathucnghiém] 2.02.00 eee ee 30 3.4.1 Kết quả trên NAS-Bench-l0l| 30

Trang 5

3.4.2 Kết quả trên NAS-Bench-201| 33

3.4.3 Đánh giá khả năng truyền — ee 35 3.5 Kết luận và Hướng phát triển| - 37

KIÊN TRÚC MẠNG NEURAL ĐA MỤC TIÊU 39 4.1 Tổng quan) 2.2 ee Qua 39 4.2 Công trình nghiên cứu liên quan| 40

4.2.1 ParetoLocalSearch]l - 40

4.2.2 Mạng cực trị địa phương (Local Optima Network)| 42

[4.3 Khao sát không gian tìm kiếm NAS-Bench-201 42

4.4 LOMONAS: Thuật toán Tìm kiếm dia phương cho bài toán NAS đa ee 27s 4.SHNN -_ 49 lái Tổng .À 49

4.4.2 Mở rộng cho bài toán NAS nhiều hơn hai mục tiêu]| eee 52 4.5 Loại bỏ siêu tham số của LOMONAS bang kỹ thuật Interleave Multi-om “BA ›>vv Ỗ 1 / ` 54

4.5.1 Tổng quan vẻ Interleave Multi-start Scheme (IMS)| 54

4.5.2 IMS-LOMONAS: Kết hợp LOMONAS với IMS| ¬ 56 4.6 Thực nghiệm và Kết quả| - 58

4.6.1 Đánh giá trên các bài toán thiết kế thủ công| 58

[4.6.2 Đánh giá trên các bài toán trong CEC2023] 66

4.7 Két luan và Hướng phát triển| 69

5 NÂNG CAO HIỆU SUẤT TÌM KIEM VỚI TÌM KIEM DIA PHƯƠNG KHONG HUAN LUYỆN| 72 5.1 Cải thiện chất lượng của kết quả tìm kiếm 72 5.1.1 Phuong pháp đềxuất| 72 5.1.2 Thực nghiệm và Kết quả 74 5.2 Tăng tốc quá trình tìm kiém| 80 5.2.1 Đặtvấn để 80

5.2.2 Phương pháp đề xuất| 81 B.2.3 Thực nghiệm và Kết quả 83

vi

Trang 6

5.3 Kết luận và Hướng phát triển| 88

6 CHIẾN LƯỢC UGC LƯỢNG HIỆU NĂNG SỬ DỤNG ĐỒNG THỜI NHIÊU

CHỈ SO KHONG HUAN LUYỆN 90

6.3 Thiết lap thực nghiệm] Aw HTuÁIIA TA 95

6.4 Đánh giá hiệu suất và độ hiệu quả của các phương pháp MOENAS

6.4.1 Thiết lập 6.4.2 Hiệu suất của các phương pháp MOENAS với các chi số hiệu

-nang training-based|_ Ặ co 97

6.4.3 Hiệu suất của các phương pháp MOENAS sử dụng một chỉ số

[ hiệu năng training-freel - 99

6.5 Đánh giá hiệu suất của B-TF-MOENAS] 101

6.5.1 Kết quả trên các bài toán NAS đa mục tiêu| 102

6.5.2 So sánh với các phương pháp NAS state-of-the-art] 104

6.5.3 Đánh giá khả năng truyền tải| - 107

6.6_ Kết luận và Hướng phát triển| - 108

|7_ KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN 113

|CÁC CÔNG TRINH ĐÃ CONG BO 117

PHỤLỤ 119

TÀI LIỆU THAM KHẢO 124

vii

Trang 7

NAS hai mục tiêu.| - 18

NAS hai mục tiêu.| Ặ.ẶẶẶẶV 19 DANH SÁCH HÌNH VẼ 1.1 Mô tả sự tương tác giữa ba thành phan trong NAS$.| 2

1.2_ Đóng góp của luận văn trong bức tranh toàn cảnh cua NAS| 7

2.1 Minh họa kết quả tìm kiếm trong bài toán NAS đa mục tiêu| 13

D.2_ Một kiến trúc không gian tìm kiếm MacroNAS 14

2.3 BO khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-101 15 2.4 Minh họa một số kiến trúc trong không gian tìm kiếm NAS-Bench-101.| 16 2.5 Bộ khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-201 17 2.7 Minh hoa quá trình tính giá trị IGD của một biên xap xỉ trên bài toán 2.8 Minh hoa quá trình tính g; 3.1 Minh hoa một supernet có 4 connections và 3 operations trên mỗi 3.2 Minh họa quá trình cắt tỉa operations cho một supernet S.| 24

38.3 Minh hoa quá trình cắt tỉa của TF-MOPNAS trên một supernet S có 4 [ cạnh và 3 operations khác nhau trên môi cạnh.| ¬————— 28 3.4 Giá trị trung bình chỉ số IGD của TF-MOPNAS và các thuật toán khác trên NAS-Bench-10l| 32

3.5 Minh họa trường hợp biên xấp xỉ của TF-MOPNAS có chỉ số IGD tốt hơn MOENAS nhưng, lại có chỉ số HV tệ hơn.| 35

B.6 Giá trị trung bình chỉ số IGD của TF-MOPNAS và các thuật toán khác trên NAS-Bench-201| 36

4.1 Mạng LON trong 10 lần chạy PLS trên bộ dữ liệu CIEAR-10| 44

Trang 8

|4.2_ Các mạng LONs thể hiện kết quả trong 10 lần thực thi (MF-)PLS liên

tục N = 4 lần trên NAS-Bench-201| 48

NAS tối ưu ba mục tiêu| - - 53

4.3 Minh họa quá trình lấy các lời giải lân cận trong LOMONAS] se 51

4.4 Minh hoa các kiến trúc knee va extreme trong bai toán NAS đa mục

4.6 Minh họa về sử dụng kỹ thuật IMS với bộ đếm cơ số 2 để loại bỏ tham

[ số kích thước quan thể N của các thuật toán EAs dựa vào quan thé] 54

[4.7 _Xu hướng chỉ số IGD va HV của LOMONAS và các thuật toán khác _|

[ trên benchmark MacroNAS] - 60

4.8 Xu hướng chỉ số IGD va HV của LOMONAS và các thuật toán khác

é - Z10 II ØẮ W tk 61

trên benchmark NAS-Bench-201|Ì 62

4.9 Xu hướng chỉ số IGD va HV của LOMONAS và các thuật toán khác

5.1 Quy trình hoạt động khi kết hợp TF-MOPNAS với TF-LS trên bài toán

và (b) các kỹ phương pháp dựa vào tiên hóa (MOENAS và TF-MOENAS)

NAS tối thiểu hóa hai mục tiêu: độ phức tạp và độ lỗi 74 5.2 So sánh chỉ số HV của TF-MOPNAS tích hợp TF-LS với (a) TF-MOPNAS

trên NAS-Bench-10l| 75

và (b) các kỹ phương pháp dựa vào tiễn hóa (MOENAS và TF-MOENAS)

5.3 So sánh chỉ số HV của TF-MOPNAS tích hợp TF-LS với (a) TF-MOPNAS

trên NAS-Bench-201| 7

một lần tìm kiếm trên NAS-Bench-201.| - 78

5.4 Biên xấp xi tim thấy bởi TF-MOPNAS và TF-MOPNAS + TF-LS trong

5.5 Hiệu suất trung bình của II baseline, II + PSI, và

NSGA-II + TF-PSI trên tất cả các bài toán Trục hoành: số lần đánh giá

(loga-ẫTS®> ẦẦẮẦẦẮẰẮẰẮẰ———— 85

ix

Trang 9

6.1 So sánh giữa chiến lược ước lượng hiệu năng training-free thông thường

cho bài toán NAS hai mục tiêu, với mục tiêu thứ nhất là hiệu suất thực

nghiệm và mục tiêu thứ hai là đô phức tạp của kiến trúc mạng | 93

MOENAS và các phương pháp MOENAS khác trên (a)

NAS-Bench-6.2_ Giá trị trung bình va độ lệch chuẩn chỉ số IGD và HV của

E-TF-101 và (b) NAS-Bench-201.| - 111

6.3 Hiệu suất truyền tải (chỉ số IGD và HV) của E-TF-MOENAS và các

phương pháp MOENAS khác trên NAS-Bench-201| 112

Trang 10

DANH SÁCH BANG

3.1 Thời gian tim kiếm, chỉ số IGD va HV (giá trị trung bình + độ lệch

chuẩn) của TF-MOPNAS và các thuật toán khác trên NAS-Bench-101 33

3.2 So sánh độ chính xác thực nghiệm (%) của các kiến trúc tim thấy bởi

TF-MOPNAS với các thuật toán NAS state-of-the-art trên

NAS-Bench-"hố T1 ắ

3.3 Thời gian tìm kiếm, chỉ số IGD và HV (giá trị trung bình + độ lệch

chuẩn) của TF-MOPNAS và các thuật toán khác trên NAS-Bench-201

[ (bộ dữ liệu CIFAR-10).

3.4 Thời gian tim kiếm và giá trị IGD (giá trị trung bình + độ lệch chuẩn)

[ của TF-MOPNAS và các thuật toán khác trên NAS-Bench-201 (bộ dữ

liệu CIFAR-100 và ImageNet16-120)| 3

3.5 So sánh độ chính xác thực nghiệm (%) của các kiến trúc tim thấy bởi

[ TF-MOPNAS với các thuật toán NAS state-of-the-art trên

NAS-Bench-4.1 Kết quả khám pha landscapes của (MF-)PLS trên NAS-Bench-201 43

4.2 Số lần tìm thấy toàn bộ biên Pareto ở NAS-Bench-201 khi thực ñ thi

(ME-)PLS nhiều 4.3 Chỉ tiết các bài toán NAS hai mục tiêu| -

lần| -47

58

4.4 Gia trị chỉ số IGD và HV (giá trị trung bình + độ lệch chuẩn) của

LOMONAS và các thuật toán khác trên tập dữ liệu validation tron:

63

[ các bài toán NAS đa mục

tiêu| -xi

64

Trang 11

ảs———ẰẰ—Ằ—Ằ—Ằ—ẰằẰ—ằằằaốnnn 65

[4.7 Giá trị chỉ số IGD và HV (giá trị trung bình + độ lệch chuẩn) của _]

[ LOMONAS với các giá trị k khác nhau trên tập dữ liệu thực nghiệm

[_ — trong các bài toán NAS đa mục tiêu] - 66

[4.8 Giá trị trung bình và độ lệch chuẩn (trong ngoặc) của chỉ số Hyper- _]

[ volume (HV) của NSGA-II, NSGA-IIH, và LOMONAS k = 3 trên các

[_ — Bài toán của cuộc thi CEC2023| 69

[£9 Giá trị trung bình và độ lệch chuẩn (trong ngoặc) của chỉ sô Hyper- _]

[ volume (HV) của IMS-NSGA-II, IMS-NSGA-IIT, và IMS-LOMONAS

[b= 8 trên các bài toán của cuộc thi CEC2023] 70

5.1 So sánh độ chính xác thực nghiệm (giá trị trung bình + độ lệch chuẩn)

[ của TF-MOPNAS + TE-LS với các thuật toán NAS state-of-the-art trên

[L_——— NAS-Bench-101] 76

5.2 So sánh độ chính xác thực nghiệm (giá trị trung bình + độ lệch chuẩn)

của TF-MOPNAS + TF-LS với các thuật toán NAS state-of-the-art trên

5.5 Số lần đánh giá tối thiểu T của NSGA-II baseline, NSGA-II + PSI, và

NSGA-II + TF-PSI để đạt được hiệu suất tương đương với hiệu suất cuối cùng của NGSA-II basline (ở mức 99% độ tin cậy)|

xii

Trang 12

6.1 Thời gian tìm kiếm và chỉ số IGD, HV (giá trị trung bình + độ lệch

huẩn) của các biến thể NSGA-II và MOEA/D sử dun:

training-based trên hai bài toán NAS đa mục tiêu thiết kế

NAS-Bench-63 Thời gian tim Kiếm, chỉ số IGD và HV eid trị trung bình + độ lệch

chuẩn) của E-TF-MOENAS và các thuật toán MOENAS khác trên hai

ai toán được thiết kê trên NAS-Bench-101 và NAS-Bench-201| 105 6.4 So sánh độ chính xác thực nghiệm (%) của các kiến trúc tốt nhất tìm

ây bởi E-TF-MOENAS và các thuật toán khác trên NAS-Bench-101

va NAS-Bench-201 (CIEAR-10)| - 06

6.5 So sánh độ chính xác thực nghiệm của các kiến trúc tốt nhất tìm

ay bởi E-TF-MOENAS và các thuật toán khác trên CIFAR-100 và

ImageNet16-120 (NAS-Bench-201) | ee ee 08

A.1 Giá trị trung bình và độ lệch chuẩn (trong ngoặc) của chỉ số

Hyper-volume (HV) của các bién thể LOMONAS với giá trị k = {1,2,3,4,5}

trên các bài toán của cuộc thi CEC2023] 19

trên các bài toán của cuộc thi CEC2023.] 20

xiii

Trang 13

DANH SÁCH TỪ VIẾT TẮT

Thuật ngữ Viết tắt

Tìm kiếm kiến trúc mạng neural (Neural Architecture Search) NAS

Thuật toán tiến hóa đa mục tiêu (Multi-objective Evolutionary Algorithm) MOEA

Thuật toán tiền hóa NAS đa mục tiêu (Multi-Objective Evolutionary NAS) MOENAS

Đồ thị không chu trình có hướng (Directed Acylic Graph) DAG

Inverted Generational Distance IGD

Hypervolume HV

Training-free Pruning-based Multi-objective Neural Architecture Search TF-MOPNAS Pareto Local Search PLS

Mang cuc tri dia phuong (Local Optima Network) LON

Pareto Local Search da biên (Multi-front Pareto Local Search) ME-PLS

Local Search for Multi-objective Neural Architecture Search LOMONAS

Lược dé đa khởi động xen kẽ (Interleaved Multi-start Scheme) IMS

Training-free Local Search TF-LS

Cải thiện các lời giải tiém năng (Potential Solutions Improving) PSI

Floating-point operations per second FLOPS

Mega Multiply-Accumulate operations MMACs

xiv

Trang 14

TÓM TẮT

Mang neural sâu (deep neural networks) là thành phan then chốt đứng sau sự phát triển của Trí tuệ nhân tạo và đã được ứng dụng rộng rãi trong nhiều lĩnh vực ngày

nay Tuy nhiên, việc thiết kế một kiến trúc mạng có hiệu năng cao cho một tác vụ

cụ thể đòi hỏi quá trình thử và sai (trial-and-error) tốn kém và cần có sự tham gia của các chuyên gia đầu ngành Tìm kiếm kiến trúc mạng neural (Neural architecture

search, viết tắt: NAS) là một bài toán nhằm tự động hóa quá trình thiết kế các kiến

trúc mạng có hiệu năng cao trên các tác vụ cho trước Với việc mạng neural đã được

triển khai trên nhiều nén tảng với sự khác nhau về đặc điểm phan cứng, các công trình nghiên cứu gần đây bắt đầu xem xét NAS dưới dạng bài toán tối ưu hóa đa mục tiêu Kết quả khi kết thúc quá trình tìm kiếm là một tập hợp được gọi là tập xắp

xi Pareto chứa nhiều kiến trúc đa dạng về cầu hình lẫn hiệu năng Trong NAS, chiến lược tìm kiếm là thành phần có chức năng khám phá không gian tìm kiếm để tìm thấy một (hoặc nhiều) kiến trúc có giá trị tối ưu ở các tiêu chí đặt ra Các chiến lược tim kiếm sẽ sử dụng chiến lược trớc lượng hiệu năng để ước lượng thông tin hiệu năng của các kiến trúc và giúp chúng tiếp cận đến những khu vực có chứa các kiến trúc tiềm năng trong không gian tìm kiếm Gần đây, một loạt các chỉ số hiệu năng không huấn luyện (training-free) đã được đề xuất và sử dụng để ước lượng thông tin hiệu năng của các kiến trúc một cách hiệu quả nhưng không hao tốn quá nhiều tài nguyên cho việc tính toán Trong luận văn này, chúng tôi khai thác các chỉ số training-free nhằm

đề xuất một số phương pháp metaheuristic có thể hoạt động hiệu quả cho các bài toán NAS đa mục tiêu với chỉ phí tài nguyên không đáng kể Các đóng góp chính của chúng tôi được tóm tắt như sau:

¢ Thuật toán cat tia không huấn luyện trả về tập xap xi Pareto: Các thuật toán cắt tỉa là một trong những chiến lược tìm kiếm hiệu quả trong NAS Quy trình

hoạt động của các thuật toán này là lần lượt loại bỏ các thành phần có đóng

góp ít tới hiệu năng của một siêu mạng (supernet) sao cho supernet sau khi

được cắt tỉa sẽ giảm đi độ phức tạp nhưng hiệu năng vẫn không thay đổi đáng

kể Mặc dù mục tiêu của các thuật toán cắt tỉa là đa mục tiêu, hầu hết các thuật toán cắt tỉa hiện tại chỉ trả về một kiến trúc duy nhất khiến độ hữu dụng của kết quả tìm kiếm với những người đưa ra quyết định (decision-makers) bị

Xv

Trang 15

giảm đi Bằng cách kết hợp với chi số hiệu năng training-free và sử dụng định nghĩa thống trị Pareto, chúng tôi đã thiết kế một thuật toán cắt tỉa có thể trả về tập xap xi Pareto có chất lượng cao với chi phí tìm kiếm không đáng kể Thuật

toán này đã được công bố trong công trình nghiên cứu|[CT5])

Thuật toán tìm kiếm địa phương đa mục tiêu: Thuật toán tìm kiếm địa phương

đã được kiểm chứng sự vượt trội so với các thuật toán khác trên các bài toán NAS đơn mục tiêu (tức là chỉ quan tâm đến hiệu năng của các kiến trúc mạng khi tìm kiếm) Bằng việc khảo sát cảnh quan độ thích nghỉ (fitness landscape)

và trực quan hóa bằng mạng tối ưu địa phương (local optima network, viết tắt: LON), các công trình nghiên cứu gần đây cho thấy fitness landscape của các bài toán NAS đơn mục tiêu là đa cực trị, nhưng có tương đối ít cực trị địa phương và các thuật toán tìm kiếm địa phương có thể dé dàng thoát khỏi các

cực trị này và tiếp cận cực trị toàn cục Trong luận văn này, chúng tôi đã tiến

hành khảo sát và trực quan hóa các fitness landscape của bài toán NAS đa mục

tiêu bằng cách sử dụng LONs Các thông tin hữu ích có được từ quá trình khảo sát được chúng tôi tận dụng để thiết ké LOMONAS, một thuật toán tìm kiếm

địa phương chuyên dụng cho bài toán NAS đa mục tiêu Bên cạnh đó, chúng

tôi sử dung kỹ thuật Interleaved Multi-start Scheme để loại bỏ việc thiết lập tham số thủ công và dé xuất IMS-LOMONAS - một phiên bản không tham số của LOMONAS Các thuật toán này đã được công bồ trong công trình nghiên

Kỹ thuật nâng cao hiệu suất tìm kiếm với thuật toán tìm kiếm địa phương không huấn luyện: Sau khi đã kiểm chứng được tính hiệu quả của tìm kiếm

địa phương trên bài toán NAS đa mục tiêu Chúng tôi kết hợp tìm kiếm địa phương với các chỉ số hiệu năng training-free và dé xuất hai kỹ thuật với chỉ

phí hoạt động không đáng kể nhằm nâng cao hiệu suất tìm kiếm của các thuật

toán cắt tia và các thuật toán tiến hóa đa mục tiêu trên các bài toán NAS đa mục tiêu Hai kỹ thuật này đã được công bố trong các công trình nghiên cứu

Chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ số hiệu năng không huấn luyện: Một vài công trình nghiên cứu gan đây đã phân tích sự ảnh

xvi

Trang 16

hưởng của việc sử dụng các chỉ số hiệu năng dựa vào huấn luyện based) và các chỉ số hiệu năng không huấn luyện (training-free) đến hiệu suất tìm kiếm của các thuật toán NAS Tuy nhiên, những công trình này chỉ tập trung xem xét NAS dưới dạng bài toán tối ưu hóa đơn mục tiêu Trong luận văn này, chúng tôi phân tích sự ảnh hưởng của hai loại chỉ số hiệu năng này đến hiệu suất tìm kiếm của các thuật toán tiền hóa NAS đa mục tiêu Tiếp theo, chúng tôi đề xuất một chiến lược ước lượng hiệu năng của các kiến trúc mạng bằng cách sử dụng đồng thời nhiều chỉ số hiệu năng training-free Kết hợp cơ chế ước lượng hiệu năng, dé xuất với thuật toán tiến hóa đa mục tiêu NSGA-I, chúng tôi sau đó đề xuất E-TF-MOENAS - một thuật toán tiến hóa NAS đa

(training-mục tiêu có thể hoạt động hiệu quả với chi phí không đáng kể Thuật toán nay

đã được công bồ trong công trình nghiên cứu|[CT2])

xvii

Trang 17

Chương 1

TỔNG QUAN

11 Mở đầu

Nhờ vào khả năng tự động trích xuất và học các đặc trưng từ dữ liệu phi cầu trúc

như âm thanh, hình ảnh và văn bản, mạng neural sâu (deep neural networks) đã

cho thấy sự hiệu quả trong các tác vụ như dịch máy (561, nhan dang hinh anh

và giọng nói | Tuy nhiên, một điều dé nhận thay là các mang neural dần được

thiết kế với các cầu trúc ngày càng phức tạp để nâng cao hiệu năng Mặc dù việc sửa

đổi có thể hiệu quả trong việc cải thiện hiệu năng, tìm kiếm một kiến trúc phù hợp cho từng tác vụ cụ thể là một nhiệm vụ tốn thời gian, khó khăn và đòi hỏi rất nhiều kinh nghiệm Những năm gan đây, cộng đồng máy học đã nỗ lực nhằm tự động hóa quá trình thiết kế này và được trình bày rộng rãi trong nhiều công trình nghiên cứu gần đây với tên gọi Tìm kiếm kiến trúc mạng neural (Neural Architecture Search,

viết tắt: NAS) (ữ] 63] Mặc dù là một hướng nghiên cứu đã được triển khai từ lâu

nhưng mãi tới năm 2017, NAS mới bắt đầu nhận được nhiều sự quan tâm hơn sau

khi công trình nghiên cứu “Neural architecture search with reinforcement learning”

của Zoph và Le được công bó Kể từ thời điểm đó đến nay, với hon 1,000 công trình nghiên cứu về NAS được công bồ đã chứng minh cho tính cấp thiết của NAS

trong béi cảnh phát triển của mang neural ngày nay 63]

Một quy trình NAS bao gồm 3 thành phan chin!

kiếm (search space); (2) Chiến lược tìm kiếm (search strategy); (3) Chiến lược ước

lượng hiệu năng (performance estimation strategy) Không gian tìm kiếm định nghĩa

: (1) Không gian tìm

sự biểu diễn của các kiến trúc Việc định nghĩa hiệu quả không gian tìm kiếm sẽ

1 Từ phần này trở về sau, thuật ngữ Tìm kiếm kiến trúc mạng neural sẽ được việt tắt là NAS.

Trang 18

giúp chúng ta có thể tìm ra được các kiến trúc chất lượng Chiến lược tìm kiếm đại điện cho thuật toán, phương thức mà chúng ta khám phá không gian tìm kiếm để tìm

ra các kiến trúc chất lượng Chiến lược ước lượng hiệu năng mô tả cách ước tính hiệu

năng của kiến trúc mạng trên dữ liệu chưa từng nhìn thấy (unseen data) hay còn

được gọi là tập dữ liệu thực nghiệm (test dataset) Hình [1.1| mô tả quy trình hoạt

động của ba thành phan trong NAS Cụ thể, chiến lược tìm kiếm sẽ khám phá không

gian tìm kiếm để tìm kiếm các kiến trúc chất lượng Trong quá trình tìm kiếm, chiến

lược tìm kiếm sẽ sử dụng chiến lược trớc lượng hiệu năng để đánh giá xem chất lượng của kiến trúc là tốt hay xâu Điều này giúp cho chiến lược tìm kiếm có thể nhận biết được các khu vực tiềm năng trong không gian tìm kiếm và hướng tới các khu vực đó đồng thời tránh các khu vực chứa những kiến trúc có hiệu năng kém Quá trình trên được lặp đi lặp lại cho đến khi chiến lược tìm kiếm có thể tìm ra một (hoặc nhiều) kiến trúc thõa mản các yêu cầu cho trước, hoặc sử dụng hết lượng tài nguyên được cung cấp.

Phần lớn các công trình nghiên cứu tiếp cận NAS là bài toán tối ưu đơn mục tiêu (NAS đơn mục tiêu): tìm kiếm được một kiến trúc sao cho có hiệu năng cao nhất

65||Z3] Mac dù các kiến trúc được tìm thấy bởi NAS đã

cho thấy sự vượt trội so với các kiến trúc được thiết kế thủ công, cách tiếp cận này

trên tác vụ đang xét |

vẫn thiếu đi tính thực tế khi ngày nay, các mạng neural đã được triển khai trên vô

số nền tảng với sự đa dạng về đặc điểm phần cứng (ví dụ: điện thoại thông minh,

Trang 19

Chương 1 TỔNG QUAN

xe tự hành) Điều này có thể dẫn đến việc tìm thay một kiến trúc chất lượng trở nên

vô nghĩa néu phan cứng của thiết bị không đủ để đáp ứng cho việc triển khai kiến trúc đó Do đó, các công trình nghiên cứu gần đây đã bắt đầu chuyển hướng tiếp

cận bằng cách xem xét NAS dưới dạng một bài toán tối ưu hóa đa mục tiêu (NAS

đa mục tiêu) [28||42| 58] Không chỉ quan tâm đền thông tin hiệu năng, các đặc điểm

khác của kiến trúc mạng như kích thước, độ trễ cũng được suy xét để các kiến trúc được tìm thấy có thể triển khai trên nhiều nền tảng khác nhau Mục tiêu tìm kiếm

của NAS đa mục tiêu do đó có sự khác biệt so với NAS đơn mục tiêu Thay vì chỉ

tìm kiếm một kiến trúc tối ưu duy nhất, các thuật toán tìm kiếm sẽ cố gắng đạt được một tập hợp được gọi là tap xap xi Pareto có chứa các kiên trúc có chất lượng tốt như

nhau.

1.2 Ly do thực hiện dé tài

Như đã trình bày, với sự ứng dụng rộng rãi của mang neural, NAS nên được xây

dụng là bài toán tối ưu hóa đa mục tiêu thay vì đơn mục tiêu Do đó, chúng tôi tiếp

cận NAS dưới góc độ là một bài toán đa mục tiêu trong luận văn nay.

Nhiều công trình nghiên cứu gần đây đã chứng minh tính vượt trội của các thuật toán tìm kiếm địa phương (local search) so với các thuật toán tiền hóa khác cho bài toán NAS đơn mục tiêu (35|44| 47] Các nghiên cứu này đã trực quan hóa cảnh quan

độ thích nghỉ (fitness landscape) của không gian tìm kiếm NAS bằng cách sử dụng mạng cực trị địa phương (local optima network) và chỉ ra rằng fitness landscape của NAS là đa cực trị nhưng có tương đối ít cực trị cục bộ và các thuật toán tìm kiếm địa phương có thể dé đàng thoát khỏi các cực trị này để tiếp cận cực trị toàn cục Theo

khảo sát của chúng tôi, chưa có công trình nghiên cứu nào thực hiện quá trình khảo sat fitness landscapes trên các bài toán NAS đa mục tiêu Ottelander và các cộng sự

đã chứng minh bằng thực nghiệm rằng thuật toán tìm kiếm địa phương Pareto

có thể mang lại hiệu suất tìm kiếm tương đương với các thuật toán NAS đa mục tiêu state-of-the-art Tuy nhiên, quá trình tìm kiếm trong được tiền hành với lượng tài nguyên cung cấp khá lớn - một điều kiện không dễ dàng đáp ứng trong thực tế Trong luận văn này, chúng tôi kiểm tra tính hiệu quả của tìm kiếm địa phương bằng

Trang 20

Chương 1 TỔNG QUAN

cách tiến hành phân tích các fitness landscapes trong các bài toán NAS đa mục tiêu

và tién hành thực nghiệm với các thiết lập mang tính thực tế hơn.

Một chiến lược tìm kiếm hiệu quả khác cho NAS đa mục tiêu chính là các thuật

toán dựa vào cắt tỉa

siêu mạng (supernet), các thuật toán sẽ tiến hành loại bỏ các tham s6/ operations / két

Quy tắc hoạt động của các thuật toán cắt tia là từ một

nói không cần thiết trong supernet sao cho supernet sau khi cắt tỉa sẽ có độ phức tap thấp hơn rất nhiều so với supernet ban đầu, nhưng hiệu năng của supernet trước và sau khi cắt tỉa không có sự chênh lệch quá lớn Một ưu điểm của kỹ thuật này so với các thuật toán tiến hóa hay tìm kiếm địa phương là lượng tài nguyên tính toán được

sử dụng Vì chúng ta chỉ cần huấn luyện một supernet duy nhất, tài nguyên tính toán được sử dụng của các phương pháp cắt tỉa ít hơn rất nhiều so với các phương pháp khác Tuy nhiên, kết quả trả về của hầu hết các thuật toán cắt tỉa hiện nay chỉ là một kiến trúc mạng duy nhất mặc dù mục tiêu của chúng mang tính đối lập (giảm độ phức tạp của supernet nhưng hiệu năng sau khi cắt tỉa không giảm đi quá nhiều) Điều này vô tình giảm đi tính hữu dụng của kết quả đạt được khi tiếp cận NAS dưới góc độ là bài toán đa mục tiêu vì mong muốn của chúng ta là có thể tìm thấy một tập hợp đa dạng các kiến trúc để có thể triển khai trên nhiều thiết bị khác nhau Việc thiết ké một thuật toán cắt tỉa có thể trả vé một tập hợp các kiến trúc đa dang về độ phức tạp lẫn hiệu năng là một hướng nghiên cứu day tiềm năng.

Sử dụng thuật toán tiến hóa đa mục tiêu (multi-objective evolutionary rithms, viết tắt: MOEAs)

algo-khi giải các bài toán NAS mục tiêu Tuy nhiên, với bản chất ngẫu nhiên của các phép biến đổi (lai ghép, đột biến), MOEAs không thể phát hiện mối liên kết giữa các thành phần trong kiến trúc mạng và có thể sẽ không hiệu quả trên các bài

làm chién lược tìm kiếm đã cho thấy các kết quả ấn tượng

toán NAS đa mục tiêu có không gian tìm kiếm phức tạp Việc thiết kế các kỹ thuật

để nâng cao hiệu suất của MOEAs trên các bài toán NAS đa mục tiêu là một trong

các lí do của chúng tôi khi thực hiện luận văn này.

Hiệu suất của kiến trúc mạng trên tập dữ liệu thực nghiệm (test dataset) luôn là một trong các mục tiêu tối uu khi tiến hành tìm kiếm các kiến trúc mạng Tuy nhiên, thông tin giá trị của chỉ số này không thể xác định trong khi thực hiện quá trình tìm kiếm Các chiến lược trớc lượng hiệu năng trong NAS liên quan đến các phương

? Từ phan này trở về sau, thuật ngữ Thuật toán tiến hóa da mục tiêu sẽ được việt tắt là MOEA

Trang 21

Chương 1 TỔNG QUAN

pháp ước lượng hiệu suất thực nghiệm của các kiến trúc mạng bằng các chỉ số thay thế khác Các chỉ số ước lượng hiệu năng này có thể được chia thành hai loại: dua

ào huan luyện (training-based) 9} 45) 48] và không huấn luyện (training-free)

B2] Một chỉ số training-based được sử dụng trong NAS cực kỳ phổ biến đó chính

là độ chính xác trên tập dữ liệu validation (validation accuracy) 29} |45] Một số chỉ

số training-based khác có thể được kể đến như giá trị hàm mat mát trên tập dữ liệu

huấn luyện/validation (training/validation loss) [48] Mặc dù sử dụng các chỉ số

training-based có thể đạt được mức độ hiệu quả nhất định nhờ vào mức độ tương quan cao giữa giá trị của các chỉ số training-based với hiệu suất thực nghiệm, chỉ phí

tìm kiếm của các thuật toán sử dụng chỉ số training-based thường rất lớn Chẳng

hạn, Zhop và Le đã sử dụng 800 GPUs trong 3 đến 4 tuần để đạt được kiến trúc

state-of-the-art trên tập di liệu Penn Treebank Những công trình nghiên cứu gan

đây đã thử giải quyết vấn dé tài nguyên tính toán này bằng cách sử dụng các chỉ số training-free Ngược lại với các chỉ số training-based, các chỉ số hiệu năng training-

free có thể xác định giá trị mà không cần phải thực hiện bat kỳ quá trình huấn luyện nào bằng cách xem xét bộ trọng số của kiến trúc mạng khi khởi tạo (chẳng hạn như chỉ số Synaptic Flow [52], chỉ số Jacobian Covariance (34) Vi khéng can phai thuc

hiện quá trình huấn luyện tốn kém, các thuật toán sử dụng các chỉ số training-free

sử dụng ít tài nguyên tính toán hơn rất nhiều so với các thuật toán sử dụng các chỉ số training-based Tuy nhiên, nhược điểm của các chỉ số training-free là hệ số

tương quan thấp giữa chúng với hiệu suất thực nghiệm và do đó, các kiến trúc tìm

iém bởi các thuật toán sử dụng chỉ số training-free thường tệ hơn so với các thuật

toán tìm kiếm sử dụng chỉ số training-based (ij Việc áp dụng các chỉ số hiệu năng

training-free vào các thuật toán tìm kiếm một cách hợp lý để đạt được hiệu quả về

mặt tài nguyên tính toán nhưng vẫn đảm bảo việc tìm thấy các kiến trúc chất lượng

là một hướng nghiên cứu đầy tiềm năng.

1.3 Mục tiêu của luận văn

Mục tiêu của chúng tôi khi thực hiện luận văn là dé xuất một số kỹ thuật heuristics có thể hoạt động hiệu quả cho bài toán NAS đa mục tiêu Hướng tiếp

meta-cận của chúng tôi tập trung vào ba chiến lược tìm kiếm:

Trang 22

Chương 1 TỔNG QUAN

¢ Thuật toán dựa vào cat tỉa: Như đã trình bày, ưu điểm của các thuật toán

cắt tỉa là thời gian thực thi và tài nguyên tính toán ít hơn đáng kể so với các

chiến lược tìm kiếm khác chẳng hạn như thuật toán tiến hóa hay tìm kiếm địa phương Tuy nhiên, việc chỉ trả về một kiến trúc sau khi kết thúc quá trình tìm

kiếm làm giảm đi độ hữu dụng của kết quả tìm kiếm của các phương pháp cắt tỉa hiện tai Do đó, chúng tôi sẽ thiết ké một thuật toán cắt tỉa có thể trả về tập xấp xi Pareto - vốn là kết quả mong muốn của các thuật toán khi giải bài toán tối ưu đa mục tiêu.

¢ Thuật toán tìm kiếm địa phương: Thuật toán tìm kiếm địa phương đã được

chứng minh tính vượt trội so với các thuật toán tiến hóa cho các bài toán NAS

đơn mục tiêu thông qua việc phân tích fitness landscape Tuy nhiên, chưa có

công trình nghiên cứu nào thực hiện quá trình phân tích như vậy để đánh giá

độ hiệu quả của các thuật toán tìm kiếm địa phương trên các bài toán NAS đa mục tiêu Trong luận văn này, chúng tôi sẽ tiến hành phân tích và trực quan hóa fitness landscape cho bài toán NAS đa mục tiêu bằng cách sử dụng các

mạng tối ưu địa phương (Local Optima Networks) Các thông tin hữu ích đạt

được sau khi phân tích sẽ được chúng tôi sử dụng để thiết kế một thuật toán tìm kiếm địa phương chuyên dụng hiệu quả trên các bài toán NAS đa mục tiêu Bên cạnh đó, chúng tôi cũng sử dụng thuật toán tìm kiếm địa phương để nâng cao hiệu suất tìm kiếm của các thuật toán NAS đa mục tiêu khác.

¢ Thuật toán tiền hóa đa mục tiêu: Sử dụng các thuật toán tiến hóa đa mục tiêu (MOEAs) là một hướng tiếp cận hiệu quả cho bài toán NAS đa mục tiêu Tuy

nhiên, với bản chất ngẫu nhiên của các phép biến đổi (lai ghép, đột biến), các MOEAs có thể không hiệu quả trong việc tiếp cận biên tối ưu Pareto do không phát hiện được các mối liên kết giữa các thành phân có trong kiến trúc mạng.

Mục tiêu của chúng tôi trong luận văn là thiết kế các kỹ thuật nhằm nâng cao

hiệu suất tìm kiếm của MOEAs trên các bài toán NAS đa mục tiêu.

Bên cạnh ba chiến lược tìm kiếm đã trình bày, chúng tôi cũng tập trung vào các chỉ

số hiệu năng training-free Sử dụng các chỉ số hiệu năng training-free làm mục tiêu trong quá trình tìm kiếm có thể giúp thuật toán tiết kiệm được đáng kể lượng tài nguyên tính toán Tuy nhiên, các kiến trúc được tìm thấy bằng các thuật toán sử

Trang 23

Chương 1 TỔNG QUAN

dụng chỉ số hiệu năng training-free thường kém ấn tượng Mục tiêu của chúng tôi

là tìm cách sử dụng các chỉ số hiệu năng training-free một cách hợp lý để cải thiện hiệu suất tìm kiếm lẫn độ hiệu quả của các thuật toán NAS đa mục tiêu.

14 Đóng góp chính của luận văn

Luận văn này tiếp cận NAS dưới góc độ là bài toán tối ưu hóa đa mục tiêu, là một

hướng tiếp cận mang tính thực tế và đang dần được nhiều người tiếp cận Hinh{1.2

thể hiện những đóng góp chính của luận van trong bức tranh toàn cảnh của NAS.

NAS đa mục tiêu

Search Space

(oY

Sử dung duy nhất một chỉ số hiệu.

Archileclure # năng không huần luyện.

Search Strategy

Sử dụng đồng thời nhiều chi số

hiệu năng không huấn luyện

Thuật toán tìm kiếm dia

VỀ tập xắp xỉ Pareto phương đa mục tiêu

K toán cắt tia có thể trả

HINH 1.2: Đóng góp của luận văn trong bức tranh toàn cảnh của NAS Các 6 màu đỏ thể

hiện các đóng góp của chúng tôi.

Đầu tiên, chúng tôi đã đề xuất một thuật toán cắt tỉa có thể trả về một tập xấp.

xỉ Pareto (vốn là kết quả mong muốn khi giải các bài toán đa mục tiêu) thay vì một kiến trúc duy nhất như các phương pháp cắt tỉa trước đây Ngoài ra, bằng cách sử

dụng một chỉ số training-free để ước lượng hiệu năng của các kiến trúc ứng viên,

thuật toán của chúng tôi có thể tìm ra các kiến trúc chất lượng với một chỉ phí cực

kỳ thấp Đóng góp này đã được công bồ trong công trình nghiên cứu

Một đóng góp khác của chúng tôi trong luận văn này là kết quả khảo sát và phân

tích landscapes cho bài toán NAS đa mục tiêu Các kết quả khảo sát cho thay tiềm

7

Trang 24

Chương 1 TỔNG QUAN

năng của các thuật toán tìm kiếm địa phương trong việc giải quyết hiệu quả bài toán

NAS đa mục tiêu Chúng tôi sau đó đã dé xuất một thuật toán tìm kiếm dia phương chuyên dụng và chứng minh tính vượt trội của thuật toán dé xuất so với các thuật toán tìm kiếm địa phương và thuật toán tiến hóa đa mục tiêu state-of-the-art Dong

góp nay đã được công bồ trong công trình nghiên cứu|[CT3]|và|[CT4]|

Tiếp theo, chúng tôi kết hợp tìm kiếm địa phương với chỉ số hiệu năng free và dé xuất hai kỹ thuật để nâng cao hiệu suất tìm kiếm của các thuật toán trên các bài toán NAS đa mục tiêu với chi phí phát sinh không đáng kể Đóng góp này

training-đã được công bố trong các công trình nghiên cứu [CT1]|và [CT7I|

Cuối cùng, chúng tôi chỉ ra các hạn chế của việc sử dụng các chỉ số hiệu năng training-based cũng như việc chỉ sử dụng một chỉ số training-free trong suốt quá trình tìm kiếm đối với hiệu suất của các thuật toán tiền hóa NAS đa mục tiêu Chúng tôi sau đó đã dé xuất một chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ số hiệu năng training-free để đánh giá hiệu năng của các kiến trúc mạng Bằng cách kết hợp với NSGA-II - một thuật toán tiến hóa đa mục tiêu thông dụng, chúng tôi đã đề xuất một thuật toán tiền hóa NAS đa mục tiêu có thể hoạt động hiệu quả

với chỉ phí tính toán không đáng kể trên các bài toán NAS đa mục tiêu Đóng góp

này đã được công bồ trong công trình nghiên cứu|[CT2]

1.5 Bố cục luận văn

Nội dung của luận văn được trình bày theo bồ cục sau đây:

© Chương 1: Tổng quan Chương này trình bày tổng quan về bài toán Tìm kiếm kiến trúc mạng neural (NAS) đa mục tiêu cũng như mục đích nghiên cứu,

phạm vi nghiên cứu và những đóng góp chính của luận văn.

© Chương 2: Kiến thức nền tảng Chương này trình bày chỉ tiết về cách thức mô

hình hóa bài toán NAS đa mục tiêu và các kiến thức nền tảng liên quan.

© Chuong 3: Thuật toán cắt tỉa không huắn luyện cho bài toán tìm kiếm kiến trúc mang

neural da mục tiêu O chương này, chúng tôi đề xuất một phương pháp cắt tia

có thể trả vé tập xap xi Pareto chất lượng với chi phí không đáng kể cho bài

toán NAS đa mục tiêu.

Trang 25

Chương 1 TỔNG QUAN

s Chương 4: Thuật toán tìm kiếm địa phương cho bài toán tìm kiếm kiến trúc mang

neural da muc tiêu Chương này trình bày chỉ tiết cách thức tiến hành khảo sátkhông gian tìm kiếm của chúng tôi cho bài toán NAS đa mục tiêu Bên cạnh

đó, chúng tôi dé xuất một phương pháp tìm kiếm địa phương chuyên dụng cóthể hoạt động vượt trội so với các thuật toán trước đây trên các bài toán NAS

đa mục tiêu.

© Chương 5: Nâng cao hiệu suất tìm kiếm tới tìm kiếm địa phương không huan luyện

Ở chương này, chúng tôi đề xuất hai hướng tiếp cận nhằm nâng cao hiệu suất

tìm kiếm của các thuật toán NAS đa mục tiêu với chi phí phát sinh không đáng

kể bằng cách kết hợp tìm kiếm địa phương với chỉ số hiệu năng không huấn

luyện.

s Chương 6: Chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ số không

huan luyện O chương này, chúng tôi phân tích sự tác động của các chỉ số hiệu

năng dựa vào huấn luyện và các chỉ số hiệu năng không huấn luyện đến hiệusuất tìm kiếm của các thuật toán tiền hóa NAS đa mục tiêu Tiếp theo, chúngtôi dé xuất một chiến lược ước lượng hiệu năng sử dụng đồng thời nhiều chỉ

số hiệu năng không huấn luyện để đánh giá hiệu năng của các kiến trúc mạng.Chúng tôi sau đó trình bày một thuật toán tiến hóa NAS đa mục tiêu sử dụng

chiến lược ước lượng hiệu năng đề xuất để có thể hoạt động hiệu quả trên cácbài toán NAS đa mục tiêu với chỉ phí tìm kiếm không đáng kể

se Chương 7: Kết luận va Hướng phát triển Chương này tóm tắt lại những nội

dung, kết quả chính trong luận văn và trình bày các hướng nghiên cứu khả thi

trong tương lai.

Trang 26

với x là một kiến trúc ứng viên bat kỳ trong không gian tim kiếm kiến trúc arch với

bộ tham số zø*(x) có được bằng cách huấn luyện kiến trúc x trên tập dữ liệu huấn

luyện Drain để tối thiểu hóa hàm mất mát L Khi giải bài toán NAS đơn mục tiêu,

hầu hết các công trình nghiên cứu chọn hàm mục tiêu ƒ° là hàm đánh giá tỷ lệ độlỗi của kiến trúc (hoặc độ chính xác trong trường hợp tối đa hóa) trên tập dữ liệuvalidation Dy} Mục tiêu tìm kiếm lúc này là đạt được một kiến trúc tối ưu x* có giátrị hàm mục tiêu ƒ° nhỏ nhất (hoặc lớn nhất trong trường hợp tối đa hóa)

Với sự ứng dụng rộng rãi của mang neural trên đa dang các nền tảng (ví du:

điện thoại thông minh, xe tự hành), những người ra quyết định (decision-makers)

không chỉ quan tâm đến hiệu năng mà còn các khía cạnh khác của kiến trúc mạng

(chẳng hạn như kích thước mô hình hoặc độ trễ suy luận) Do đó, NAS có thể được

mở rộng thành bài toán tối ưu hóa có ràng buộc, hoặc thường được gọi trong cáccông trình nghiên cứu là bài toán Tim kiếm kiến trúc mang neural theo đặc điểm phan

10

Trang 27

Chương 2 KIÊN THUC NEN TANG

cứng (Hardware-aware Neural Architecture Search) (64) Một lời giải kiến trúc

được xem là hợp lệ nếu các đặc điểm của nó không vi phạm bat kỳ yêu cầu nào

của decision-makers (ví dụ: giới hạn về số lượng tham s6) Tuy nhiên, việc mô hình

hóa NAS là bài toán tối ưu hóa có ràng buộc làm thiếu đi tính linh hoạt trước nhữngthay đổi trong yêu cầu của decision-makers vì tất cả các ràng buộc cần phải được chỉ

định rõ ràng trước khi bắt đầu thực hiện NAS Nếu những decision-makers không

hài lòng với các kiến trúc kết quả và muốn sửa đổi với ràng buộc giới hạn khác thìquá trình tìm kiếm cần phải được thực hiện lại để có được một lời giải mới Thông

thường, phần lớn các thuật toán NAS tốn rất nhiều thời gian để tìm thay một kiếntrúc tốt, chang hạn như Zoph và Le [73] đã sử dung 800 GPUs trong 3 đến 4 tuần để

đạt được kiến trúc state-of-the-art trên tập dir liệu Penn Treebank

Trong những năm gần đây, một cách tiếp cận hợp lý hơn để giải quyết NAS là

xem nó như một bài toán tối ưu hóa đa mục tiêu thuần túy l2s||29|30||42|j4] Không

mat tính tổng quát, bài toán NAS đa mục tiêu có thể được mô hình hóa như sau:

tối thiểu hóa F(x) = (ƒ“(x,t0”x, Dyai), ƒ°(x), f"(x)),

trên tap hợp các thiết bị dùng để triển khai kiến trúc mạng H (ví dụ: độ trễ suy luận,

năng lượng tiêu hao).

Trong thực tế, khi giải bài toán NAS đa mục tiêu (Phương trình b.2), việc tìm

thay một kiến trúc lời giải có thể tối ưu đồng thời tất cả các mục tiêu là bat khả thi vìcác mục tiêu thường đối nghịch lẫn nhau Ví dụ, chúng ta không thể thiết kế đượcmột kiến trúc mạng vừa có độ lỗi phân loại thấp nhưng cũng vừa có số lượng tham

số nhỏ và độ trễ thấp Thay vào đó, lời giải mà chúng ta đi tìm khi giải các bài toánNAS đa mục tiêu là một tập tối ru Pareto Ps chứa nhiều kiến trúc và tất cả các kiến

trúc trong Ps được xem là lời giải tối uu Pareto vì không tồn tại bat kỳ kiến trúc nào

khác trong không gian tìm kiếm Qarch có thể thống tri Pareto chúng [11| 29||43]:

Ps = {x € Oarch | Ax! € O„ren x! < x} (2.3)

11

Trang 28

Chương 2 KIÊN THUC NEN TANG

Xét một bài toán tối ưu gồm mục tiêu, một kiến trúc x được cho là thống trịPareto một kiến trúc khác (ký hiệu là x < y) khi và chỉ khi:

1 Kiến trúc x không tệ hơn kiến trúc y ở tất cả mục tiêu

2 Kiến trúc x tốt hơn hoàn toàn kiến trúc y ở ít nhất một mục tiêu

x<yovVie M: fi(x) < fily) và di€M: fi(x) < fily),

(2.4)

với M = {1, ,m}.

Đối với mỗi lời giải x trong Ps, vec-tơ giá trị mục tiêu F(x) tương ứng với một

điểm trên biên tối uu Pareto Pr trong không gian mục tiêu và thể hiện sự cân bằnghiệu quả nhất giữa các mục tiêu được xem xét

Pr = {F(x) © RTM |x € Ps} (2.5)

Nói cách khác, khi xem xét hai kiến trúc bat ky x và y trong 7s, nếu x tốt hơn y ở

một mục tiêu, chắc chắn tốt hơn x ở ít nhất một mục tiêu khác và nguoc lại 29/143].

Mặc dù kết quả lý tưởng khi giải bài toán tối ưu hóa đa mục tiêu là đạt được tất

cả các lời giải trong Ps, việc tìm ra toàn bộ lời giải trong thực tế thường rất tốn kém

và mat rất nhiều thời gian Thay vào đó, một mục tiêu thay thế hợp lý hơn là tìm ramột tap xắp xỉ S chứa các kiến trúc không bị thống trị sao cho các giá trị mục tiêu

của các kiến trúc trong S biểu diễn một biên xap xỉ F(S) có thể xap xi tốt biên tối ưu

Pareto Pr trong không gian mục tiêu M3] Vi dụ, nếu chúng ta sử dụng độ

đo khoảng cách Euclidean d(-) để biểu diễn mức độ xấp xỉ giữa F(S) va Pr, chúng

ta mong muốn rằng giá trị khoảng cách Euclidean sẽ càng gần 0 càng tốt (tức là,

d(F(S),Pr) — 0) Hình 2.1] minh hoa tập S và biên F(S) trong một bài toán NAS

hai mục tiêu Chất lượng của các biên xấp xi F(S) sẽ được đánh giá thông qua các

chỉ số hiệu năng (xem Mục|2.3) và được sử dụng cho để đánh giá và so sánh hiệu

suất tìm kiếm giữa các thuật toán NAS đa mục tiêu với nhau

2.2 Bộ điểm chuẩn NAS (NAS-Benchmark)

Trong NAS, sự khó khăn khi đánh giá và so sánh hiệu suất tìm kiếm giữa các thuậttoán đến từ các lí đo sau Thứ nhất, lượng tài nguyên tính toán đòi hỏi để thực hiện

12

Trang 29

Chương 2 KIÊN THUC NEN TANG

Search Space Objective Space

Để giải quyết van đề trên, nhiều bộ điểm chuẩn NAS (NAS benchmarks)|l|khác

nhau đã được công bố [I5||37/|66||69] Về bản chất, NAS benchmark là một cơ sở dữ

liệu (database) chứa thông tin của nhiều kiến trúc trong một không gian tìm kiếmđược định nghĩa trước Đặc biệt, các kiến trúc trong một benchmark sẽ đều đượchuấn luyện với cùng cấu hình thực nghiệm để giải quyết van dé thiếu đồng nhấttrong các thiết lập thực nghiệm Ngoài ra, cơ sở dữ liệu trong NAS benchmarks cóchứa thông tin hiệu năng của các kiến trúc Do đó, người sử dung NAS benchmarks

có thể truy suất thông tin này mà không cần phải thực sự huấn luyện kiến trúc và

tiết kiệm được rất nhiều tài nguyên và thời gian Trong luận văn này, chúng tôi sửdụng 3 bộ NAS benchmarks để thiết kế các bài toán NAS đa mục tiêu bao gồm:

MacroNAS [37], NAS-Bench-101 [66], va NAS-Bench-201 (15) Chi tiết của từng bộ

benchmark được trình bày sau đây.

1 Từ phần này trở về sau, thuật ngữ bộ điểm chuẩn NAS sẽ được thay thé bang NAS benchmarks.

13

Trang 30

Chương 2 KIÊN THUC NEN TANG

MacroNAS là bộ benchmark có không gian tìm kiếm chứa 4,782,969 kiểu hìnhcủa các kiến trúc mạng neural tích chập Mỗi kiến trúc được huấn luyện và đánh giátrên bộ dữ liệu CIFAR-10 và CIFAR-100 Các thông tin của từng kiến trúc được cungcấp bao gồm: độ chính xác trên tập dữ liệu validation/thực nghiệm và chỉ số Mega

Multiply-Accumulate operations (viết tat: MMACs)

HÌNH 2.2: Một kiến trúc không gian tìm kiếm MacroNAS.

Trong MacroNAS, mỗi kiến trúc trong MacroNAS bao gồm 17 cells được kết nốiliên tục và có thêm 2 thành phần phụ trợ (auxiliary): stem convolution trước cell đầu

tiên và bộ phân loại (classifier) sau cell cuối cùng giúp biến đổi đầu ra của cell cuối

cùng thành điểm dự đoán cho mỗi lớp Stem convolution được cài đặt convolution

3 x 3 để chuyển đổi hình ảnh đầu vào thành 32 ban dé đặc trưng (feature maps) Bộ

phân loại được cài đặt convolution 1 x 1 đi kèm với average pooling và lớp tuyến

tính sau cùng Các cells trong các kiến trúc của MacroNAS được chia thành 2 loại:reduce cell va normal cell Đối với các reduce cells, dữ liệu đi qua sẽ được giảm chiều

đầu vào không gian và tăng số lượng kênh: đối với đầu vào có kích thước D x H x

W (D 1a số lượng bản dé đặc trưng, H và W là kích thước không gian), đầu ra sau

khi qua các reduce cells sẽ có kích thước 2D x H/2 x W/2 Cac reduce cells được

có định ở các vị trí thứ 5, 10 và 15 trong kiến trúc va cài đặt lớp convolution 1 x 1

với max-pooling Ngược lại, dữ liệu khi di qua các normal cell sẽ được giữ nguyên

chiều không gian Ở mỗi vị trí của normal cells là một trong 3 loại cells: Inverted

Bottleneck Convolutional Blocks (MBConv) với expansion factor là 3 và kernel size

là 3; MBConv với expansion factor là 6 va kernel size là 5; va identity Cell indetity

có chức năng như một skip connection, tức là giữ nguyên câu trúc của dit liệu được

14

Trang 31

Chương 2 KIÊN THUC NEN TANG

đưa vào và chuyển qua cell tiếp theo Hình|2.2|minh họa một kiến trúc trong không

gian tìm kiếm MacroNAS

Mỗi lời giải trong các bài toán hình thành trên MacroNAS tương ứng với một

cách xếp các loại cells vào 14 vị trí normal cells Khi thực nghiệm trên MacroNAS,chúng tôi mã hóa các kiến trúc thành một vec-tơ có độ dài 14, trong đó mỗi phần tử

đại diện cho một trong ba lựa chọn cells hợp lệ trong không gian tìm kiếm

NAS-Bench-101 cung cấp một không gian tim kiếm chứa khoảng 423,000 kiếntrúc Tất cả các kiến trúc được huấn luyện trong 108 epochs và đánh giá trên bộ dữ

liệu CIFAR-10 Thông tin của các kiến trúc được lưu lại trong NAS-Bench-101 baogồm: độ chính xác trên các tập dữ liệu huấn luyện/validation/thực nghiệm và sốlượng tham số (#params) Thông tin độ chính xác của các kiến trúc được lưu lại ở 4

thời điểm epochs khác nhau: {4, 12, 36, 108).

HINH 2.3: Bộ khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-101.

Trong không gian NAS-Bench-101, tat cả các kiến trúc đều dùng chung bộ khung

ở Hình|2.3| Mỗi lời giải trong các bài toán hình thành trên NAS-Bench-101 tương ứng với một cách biểu diễn của các cells trong các stacks Mỗi cell trong NAS-Bench-101

được biểu diễn bằng một dé thị không chu trình có hướng (directed acyclic graph,

viết tắt: DAG)Ƒ]có 7 nút và tổng số cạnh trong dé thị không lớn hơn 9 Mỗi nút trong

DAG tương ứng với 1 trong 3 loại operations: Convolution 3 x 3, Convolution 1 x 1,

? Từ phan này trở về sau, thuật ngữ đồ thị không chu trình có hướng sẽ được viết tắt là DAG.

15

Trang 32

Chương 2 KIÊN THUC NEN TANG

và Max-pooling 3 x 3 Do đó, mỗi lời giải thật sự của chúng ta khi thực nghiệm trên

NAS-Bench-101 tương ứng với một cách sắp xếp các nút và các cạnh trong DAG

Hình 2.4|biểu diễn hai lời giải minh họa tương ứng với hai DAGs khác nhau trong

NAS-Bench-101 Khi thực nghiệm với benchmark NAS-Bench-101, chúng tôi mã hóa

mỗi lời giải thành một vec-tơ có độ dài 26, trong đó 21 phần tử đầu tiên biểu diễn

cho các kết nối giữa các nút và 5 phan tử còn lại biểu dién cho các operations

Available Operations

Conv :3x3 j ‘Maxeooting |

Conv

1x1

HINH 2.4: Minh hoa một số kiến trúc trong không gian tìm kiếm NAS-Bench-101.

NAS-Bench-201 cung cấp một không gian tìm kiếm chứa 15,625 kiến trúc

được huấn luyện trong 200 epochs và đánh giá trên ba bộ dit liệu khác nhau

(CIFAR-10, CIFAR-100, và ImageNet16-120) Thông tin của từng kiến trúc trong

NAS-Bench-201 được lưu lại bao gồm: FLOPS, #barams, độ chính xác trên các tập dữ liệu huấn

luyện/validation/thực nghiệm Khác với các benchmarks trước, NAS-Bench-201

lưu lại thông tin hiệu năng của các kiến trúc ở mọi thời điểm trong suốt quá trìnhhuấn luyện 200 epochs

Các kiến trúc trong NAS-Bench-201 đều dùng chung một bộ khung ở Hình |2.5|

và một lời giải trong NAS-Bench-201 tương ứng với một cách sắp xếp các

opera-tions trong cell ở các stacks Mỗi cell trong NAS-Bench-201 được biểu diễn bằng một

16

Trang 33

Chương 2 KIÊN THUC NEN TANG

HINH 2.5: Bộ khung của các kiến trúc trong không gian tìm kiếm NAS-Bench-201.

fully-connected DAG với 4 nút và 6 cạnh Khác với NAS-Bench-101, các cạnh trong

DAGs của NAS-Bench-201 thể hiện đường đi của dữ liệu và các nút thể hiện

opera-tions Hình |2.6|biểu diễn hai lời giải minh họa tương ứng với hai DAGs khác nhau

trong NAS-Bench-201 Khi thực nghiệm với benchmark NAS-Bench-201, chúng tôi

sử dụng một vec-tơ có độ dài là 6 để mã hóa cho mỗi lời giải Mỗi phần tử của vec-tơ

là 1 trong 5 loại operations: Zeroize, Skip connection, Convolution 1 x 1, Convolution

3x3, Average pooling 3 x 3.

Available Operations

————> Skip connection ——» Convolution 3 x 3

HÌNH 2.6: Minh hoa một số kiến trúc trong không gian tìm kiếm NAS-Bench-201.

17

Trang 34

Chương 2 KIÊN THUC NEN TANG

2.3 Đánh giá hiệu suất tìm kiếm trong bài toán NAS đa

mục tiêu

Kết quả tìm kiếm của các thuật toán khi giải bài toán NAS đa mục tiêu là một tậphợp các kiến trúc không bị thống trị S Các kiến trúc trong S sẽ hình thành một biên

xp xỉ Pareto trong không gian mục tiêu F(S) và chất lượng của biên xấp xỉ F(S) sẽ

được sử dụng để đánh giá hiệu suất tìm kiếm của thuật toán Trong các thực nghiệmcủa chúng tôi, chất lượng của biên F(S) được biểu diễn thông we hai chỉ số hiệu

năng: Inverted Generational Distance |4 (4) ] (IGD) P]và Hypervolume [72 2] (HV)

2.3.1 Inverted Generational Distance (IGD)

Chỉ số IGD [4] được tính bằng trung bình khoảng cách Euclidean (trong không

gian mục tiêu) từ mỗi lời giải trên biên tối ưu Pareto Py đến lời giải gần nhất của nótrên biên xấp xỉ F(S)

1

IGD(S,Pr) = eo min ||p — F(s) lla (2.6)

p€7r *

3 Từ phan này trở về sau, chỉ số Inverted Generational Distance sẽ được viết tắt là IGD.

* Từ phan này trở về sau, chỉ số Hypervolume sẽ được viết tắt là HV.

18

Trang 35

Chương 2 KIÊN THUC NEN TANG

Chỉ số IGD của biên xấp xỉ F(S) thể hiện tính da dang (mức độ trải của F(S) doc

theo ?z) và mức độ gan của F(S) tới Pr IHỆ Giá trị IGD(F(S),7z) = 0 khi va

chỉ khi tat cả kiến trúc trên biên tối ưu Pareto Pz được tìm thấy trong S Hình 2.7]

minh họa cách xác định chỉ số IGD trong một bài toán tối ưu hóa hai mục tiêu Khi

sử dụng chỉ số IGD để so sánh chất lượng của hai biên xấp xỉ, biên có giá trị IGD

nhỏ hơn sẽ được đánh giá là tốt hơn Giả sử chúng ta có hai tập xấp xi S và S thu

được bởi hai thuật toán lần lượt là A và B và 16D(S4, Pr) < 16D(S4, Pz), chúng ta

có thể nói rằng thuật toán A đạt được biên xấp xỉ tốt hơn thuật toán B

Khi tính toán giá trị IGD, chúng ta cần xác định trước biên tối ưu Pareto Pr

(Phương trinh|2.6) Tuy nhiên, việc xác định được chính xác biên tối ưu Pareto trong

thực tế là không khả thi vì chúng là kết quả mong muốn mà chúng ta cần tìm Trongcác thực nghiệm của chúng tôi, vì sử dụng các NAS benchmarks để thiết kế các bàitoán NAS đa mục tiêu nên biên tối ưu Pareto cho từng bài toán có thé dé dàng được

xác định bằng cách duyệt qua toàn bộ cơ sở dữ liệu của benchmark

Một chỉ số hiệu năng khác được sử dụng để đánh giá chất lượng tìm kiếm của

thuật toán trên các bài toán tối ưu đa mục tiêu trong thực tế là Hypervolume

19

Trang 36

Chương 2 KIÊN THUC NEN TANG

(HV) Chỉ số HV có thể được xác định là kích thước của vùng không gian được baoquanh bởi biên xấp xỉ F(S) và một điểm tham chiếu Điểm nadir, là điểm có giá trị

tệ nhất ở tất cả mục tiêu, thường được chọn làm điểm tham chiếu Khi so sánh hiệu

suất tìm kiếm của hai thuật toán, thuật toán đạt được biên xấp xỉ có giá trị HV lớn

hơn được xem là thuật toán tốt hơn Hình |2.8| minh họa cách xác định chỉ số HV

trong một bài toán tối ưu hóa hai mục tiêu

2.4 Các chỉ số ước lượng hiệu năng của kiến trúc mạng

không huấn luyện

Không giống như các chỉ số hiệu năng dựa vào đào tạo (training-based performancemetrics) cần có bộ trọng số của kiến trúc đã được huấn luyện để có thể tính toán giátrị (ví dụ: độ chính xác phân loại trên tập dữ liệu validation), các chỉ số hiệu năngkhông huấn luyện (training-free performance metrics) có thể được tính toán giá trị

bằng cách sử dụng bộ trọng số của kiến trúc khi chỉ vừa mới khởi tạo Mặc dù khôngcần phải thực hiện bất kỳ quá trình huấn luyện nào để tính toán giá trị, các chỉ số

training-free được cho là có mức độ tương quan cao hiệu suất thực nghiệm (1) Vi

du, một trong các chỉ sO training-free được phát hiện có tương quan với độ chính

xác thực nghiệm của các kiến trúc mạng - snip [22], duoc tinh bang cách ước lượng

sự thay đổi trong giá trị hàm mat mát khi loại bỏ một tham số cụ thé trong kiến trúc

mạng Giá trị của chỉ số snip của một tham số trong vec-tơ tham số Ø được tính theo

Một chỉ số training-free khác được sử dụng phổ biến trong nhiễu công trìnhnghiên cứu gần đây là Synaptic Flow (synf1ow) Trong khi chỉ số snip cần đưa

20

Trang 37

Chương 2 KIÊN THUC NEN TANG

vào một ít mẫu đữ liệu trong tập dữ liệu huấn luyện để tính toán giá trị, giá trị củasynf1ow có thể được xác định mà không cần sử dung tập dữ liệu huấn luyện Côngthức tính giá trị synflow cũng giống như snip nhưng ham mat mát £ được địnhnghĩa là tích của tất cả các tham số trong kiến trúc mạng:

L

Z£=1 (I ) 1, A49⁄!⁄%(g) = 5 @Ø (2.9)

I=1

với 1 là vec-tơ giá trị 1 va 6!!! ký hiệu cho giá trị tham số ở lớp thứ / của kiến trúc

mạng Giá trị synflow cho toàn bộ kiến trúc được tính bang cách lay tổng giá trị

synf1ow của toàn bộ tham số trong Ø:

synflow(6) = Merson (9); (2.10)

i=1

Khi sử dung các chỉ số training-free để ước lượng hiệu năng của kiến trúc mang,

do không phải tốn tài nguyên để thực hiện quá trình huấn luyện kiến trúc tốn kém,

các thuật toán sẽ có thể đánh giá nhiều kiến trúc ứng viên hơn và chúng ta có thể

thực hiện nhiều quá trình tìm kiếm hơn

21

Trang 38

Chương 3

THUẬT TOÁN CAT TIA KHONG

HUAN LUYEN CHO BAI TOAN TIM

KIEM KIEN TRUC MANG NEURAL

DA MUC TIEU

3.1 Tổng quan và Công trình nghiên cứu liên quan

Siêu mạng (supernet) có thể được định nghĩa là một kiến trúc mạng có chứa các

nodes sao cho thông tin lan truyền giữa các nodes sẽ được tính toán với tất cả các

toán tử (operations) có trong một không gian tìm kiếm (search space) được định

nghĩa trước (pre-defined) bởi người đưa ra quyết định (decision-makers) [26] Hinh

3.1| minh hoa một supernet có 4 connections va 3 operations trên mỗi connection.

Thông thường, kích thước của các supernets (ví du: số lượng tham số) là rất lớn

khiến cho việc triển khai chúng trên các nền tảng trong thực tế là vô cùng khó khăn

Do đó, các kiến trúc mạng con có kích thước nhỏ hơn sẽ được trích xuất từ supernet

và triển khai cho các nền tảng cụ thể Các kiến trúc mạng con sẽ được kế thừa bộtrọng số của supernet và có thể được tinh chỉnh (finetune) nếu cần thiết Tuy nhiên,việc chứa toàn bộ các operations trong không gian tìm kiếm cùng với số lượng lớn

liên kết giữa các nodes khiến việc huấn luyện các supernets tốn rất nhiều thời gian

và tài nguyên tính toán Sử dụng các phương pháp cắt tỉa là một trong những hướng

tiếp cận hiệu quả để giải quyết van đề trên [10||23] Mục tiêu của các phương pháp

cắt tỉa là giảm bớt kích thước, độ phức tạp của supernet nhưng vẫn đảm bảo hiệu

22

Trang 39

Chương 3 THUAT TOÁN CAT TIA KHONG HUAN LUYEN CHO BÀI TOÁN

TIM KIEM KIEN TRUC MANG NEURAL DA MUC TIEU

nu, äã.,

HINH 3.1: Minh họa một supernet có 4 connections và 3 operations trên mỗi connection.

năng của supernet không bị giảm đi đáng kể sau khi cắt tỉa Từ một supernet cóđầy đủ các liên kết (connetions) và các operations trên mỗi connetion, các thuậttoán cắt tỉa sẽ lần lượt loại bỏ các operations/connections xau trong supernet một

cách tuần tự cho đến khi không thể cắt tỉa được nữa (10) 23] Nếu thực hiện cắt tỉa

cho các connections, việc cat tỉa có thể loại bỏ hoàn toàn kết nối giữa hai nodestrong supernet và quá trình cat tia cho liên kết giữa hai nodes đó sẽ dừng lại Nếuthực hiện cắt tỉa cho các operations, quá trình cắt tỉa sẽ kết thúc khi chỉ còn lại một

operation duy nhất trên connection đang xét Hình B.2Ìminh họa một ví dụ về quy

trình cắt tỉa cho operations trên supernet Š có 4 connections va 3 operations khác

nhau trên mỗi connection.

Xem xét các thuật toán cắt tỉa, chúng ta có thể thây sự đối lập giữa các mục tiêutối ưu của chúng (giảm độ phức tạp nhưng giữ nguyên hiệu năng) Nếu xem xét

trong bối cảnh tối ưu hóa, chúng ta có thể xem đây là một bài toán NAS đa mục

tiêu Như đã trình bày ở Mục|2.1| kết quả mong muốn khi giải các bài toán NAS đa

mục tiêu là một tập xấp xỉ chứa nhiều kiến trúc đa dạng về độ phức tạp và hiệu

năng Tuy nhiên, hầu hết các phương pháp cắt tỉa hiện tại chỉ trả về một kiến trúc

23

Trang 40

Chương 3 THUAT TOÁN CAT TIA KHONG HUAN LUYEN CHO BÀI TOÁN

TIM KIEM KIEN TRUC MANG NEURAL DA MUC TIEU

Supernet S Final Network

HÌNH 3.2: Minh họa quá trình cắt tia operations cho một supernet S.

duy nhất và điều này làm giảm đi độ hữu dụng của kết quả đạt được với

đecision-makers Do đó, việc thiết kế một thuật toán cắt tỉa có thể trả về tập xấp xỉchứa đa dạng các kiến trúc có chất lượng tốt như nhau là điều cần thiết

Thuật toán 1: Cắt tỉa dựa vào mức độ quan trọng (Magnitude-based

Prun-ing)

Input: Supernet S

Tap hợp các connection € trong S

Tap hợp các operations O trên mỗi connection trong €

Output: Supernet S sau khi cat tỉa

1 for each connection e € E do

2 | foreach connection e € € do

// Huan luyện supernet

3 Train supernet S

// Lua chon operation tốt nhất trên connection e

4 Select the best operation o* for e: 0% argmax a§ (a là tham số của S)

Một van dé then chốt đối với các thuật toán cắt tia là làm thé nào để đánh giá mức

độ “tốt”, “xấu” của các đối tượng được cắt tỉa trong supernet Li và các cộng sự

đã dé xuất cách đánh giá dựa trên mức độ quan trọng (magnitude) của các tham số

trong kiến trúc và tiến hành cat tia dựa vào các giá trị này (xem Thuật toán

(ip Trong [23], một operation/connection được giữ lai nếu magnitude của supernet

24

Ngày đăng: 08/11/2024, 17:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w