Tóm tắt khóa luậnTrong khóa luận này, chúng tôi cải thiện hiệu suất của quy trình Tìm kiếm kiến trúc neural tiến hóa đa mục tiêu MOENAS bằng cách 1 giới thiệu cơ chế mã hóa CNN cho phép
Trang 1ĐẠI HỌC QUỐC GIA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
DO MINH TÚ - 18521578
KHOA LUAN TOT NGHIEP
EFFICIENT MULTI-OBJECTIVE NEURAL ARCHITECTURE SEARCH
VIA TRAINING FREE INDICATORS
CU NHAN CONG NGHE THONG TIN
GIANG VIEN HUONG DAN
TS LUONG NGQC HOANG
THÀNH PHO HO CHÍ MINH, 2022
Trang 2Lời cảm ơn
Trước hết, em xin gửi lời cảm ơn đặc biệt đến thầy Lương Ngọc Hoàng, người
đã giảng đạy, hướng dẫn và làm việc cùng em trong khoá luận Thầy đã dạy chúng
em những bài học vô giá về phương pháp nghiên cứu, thuật toán tiến hóa và học máy Ngoài ra, thầy còn đưa ra cho chúng em những cuộc thảo luận sâu sắc bất cứ khi nào chúng em cần, cho dù đó là vấn dé trong các dự án nghiên cứu hay chỉ là sự
tò mò tự phát của chúng em về một bài giảng Bên cạnh đó, thầy cung cấp cho em những lời khuyến khích, lời khuyên, và quan trọng nhất là khả năng tính toán khi
em gặp phải những vấn đề quá sức trong khóa luận của mình Một lần nữa, lòng biết
ơn vô hạn của em đối với TS Lương Ngọc Hoàng Em rất vinh dự khi được làm việc với thầy.
Cuối cùng nhưng không kém phần quan trọng, em xin cảm ơn Trường Đại học Công nghệ Thông tin (UIT), Dai học Quốc gia Thành phó Hỗ Chí Minh về một môi trường học tập và nghiên cứu xuất sắc như vậy Điều này góp phần rất lớn vào việc
hoàn thành luận văn của em.
Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ Đề tài mã số DSC2021-26-06
Trang 31.1 Tìm kiếm kiến trúc neural
1.1.1 Tìm kiếm kiến trúc neural đa mục tiêu 1.2 Thách thức và van dé tồn đọng
1.2.1 Tính thực tế của các kiến trúc do NAS tạo ra 1.2.2 Chi phí tìm kiếm khổng lồ
1.2.3 Quá khớp trong NAS 1.3 Đóng góp của chúng tôi
1.4 Kết cấu của luận văn
TỎNG QUAN
2.1 Tìm kiếm kiến trúc neural tích chập ax Dnt PwWwWN —
=
2.2 Tối ưu hóa đa mục tiêu
2.3 Các thuật toán tiền hóa và thuật toán di truyền sắp xếp không chỉ phối II I1
2.3.1 Các thuật toán tiền hóa (EA) ll 2.3.2 Thuật toán di truyền sắp xếp không bị thống tri II 13 2.4 Các chỉ số không qua huấn luyện dé đánh giá mang 15
2.4.1 Số vùng tuyến tính 15
2.4.2 Phuong sai Jacobian 17
2.4.3 Số điều kiện của Kernel tiếp tuyến neural 18
ĐÈ XUẤT PHƯƠNG PHÁP 21
3.1.1 Mã hóa kết nồi 21
3.1.2 Mã hóa thuộc tính của node 22 3.1.3 Lai ghép chuyên biệt cho NAS 24 3.2 TF-MOENAS 26
3.3 MOENASWOT 28
THÍ NGHIỆM 30
4.1 Không gian tìm kiếm kết hợp được đề xuất 30
4.1.1 Kết quả & Thảo luận về NAS 31
Trang 44.1.2 Đánh giá kiến trúc 4.2 Phương pháp tiếp cận không qua huấn luyện trên benchmark NAS
4.2.1 Kết quả trên NAS-Bench-101 4.2.2 Kết quả trên NAS-Bench-201 4.2.3 Kết quả về chuyền giao kiến trúc 4.3 Phuong pháp tiếp cận không qua huấn luyện trên không gian tìm
kiêm thực tê
KÉT LUẬN
5.1 Tóm tắt
5.2 Hạn chế
5.3 Định hướng trong tương lai
Tài liệu tham khảo
Danh sách các hình
1.1 Minh họa lưu đồ tìm kiếm kiến trúc neural 2
2.1 Ví dụ về ĐỀ HN ưu hai mục tiêu tối ưu hóa độ lỗi mạng và số 0
lượng toán tử dau phay động trên tap dữ liệu ImageNet16-120
2.2 Một thuật toán EA điển hình ¿5+ c+ +2 se lì
2.3 Hình minh họa NSGA-II Ặ c2 eee 13
2.4 Vi dụ về các vùng tuyến tính của Mạng ReLU 16
3.1 Các mũi tên đứt nét biéu thị các kết nối không được mã hóa.
Bit cuối cùng trong mỗi pha đại diện cho kiểu pha (Pha Dense: 0 21
hoặc Pha Residual: Ï) ¿5+ ksk+t#vEkEkkskesrrrrrkrerrkerrke
3.2 Ví dụ về sự giao nhau đồng nhất dành riêng cho NAS với xác 23
suất giao nhau p, = 0,5 Các kết nối màu đen đại diện cho các kết
32
37
41 4
Trang 5nối tương tự hoặc thuộc tính pha (loại pha) giữa hai kiến trúc mẹ
và các kết nối màu tím và màu vàng đại điện cho sự khác biệt.
Chuỗi bit mã hóa được chia thành các phan đại diện cho các kết
nối từ các node trước đó đến mỗi node hiện tại trong một pha.
Trong ví dụ này, bit cuối cùng trong mã hóa đại diện cho kiểu pha,
là pha Residual hoặc Pha Dense Trong quá trình giao nhau, các
bit trong cùng một nhóm sau đó sẽ được hoán đổi cho nhau Các
mối liên hệ tương tự giữa các cặp bố mẹ được giữ lại trong các
kiến trúc của thế hệ con cái Lưu ý rằng ví dụ chỉ minh họa một
trong hai con kiến trúc - - c2 1111222111 122211 12551112
3.3 Không gian tìm kiếm Macro hỗn hợp - -
-3.4 Ví dụ về biên Pareto của kiến trúc mạng tối ưu Pareto
4.1 Các biên đánh đổi NAS thu được bằng cách tiếp cận của
chúng tôi và NSGA-Net_ khi khối Dense hoặc khối Residual được
4.10 Biên pareto ba mục tiêu của archive mạng tối ưu Pareto thu
được từ các thí nghiệm của chúng tôi
4.2 Sự tiến triển trên biên đánh đổi giữa hai lần chạy
4.3 Minh họa kiến trúc: Lần 1 (trái) va Lần 2 (phải)
4.4 Trực quan IGD -c ch ky
4.5 Ví dụ về một kiến trúc trong NAS-Bench I01
4.6 Còn lại: Điểm IGD trung bình đối với số lượng đánh giá Thời
gian chạy trung bình trên NAS-Bench-101
4.7 Vi dụ về một cell trong NAS-Bench-201 -
4.8 Còn lại: Điểm IGD trung bình liên quan đến số lượng đánh
giá Thời gian chạy trung bình trên NAS-Bench-201
4.9 Biên xấp xi trên CIFAR-100 (trái) và ImageNet16-120 (bên
24 26 29
45
31 34
37
38 38
40
41
4
Trang 64.10 Kiểm tra độ chính xác liên quan đến số lượng phép toán dau
phẩy động trong các bộ dữ liệu khác nhau - +.
4.11 Tương quan giữa các chỉ số không cần huấn luyện đối với
các bộ dit liệu khác nhau -c-c<< ee ee eeaes
Danh sách các bảng
3.1 Phạm vi giá trị cho các toán tử cho mỗi giai doan
4.1 Xác thực kiến trúc trên CIFAR-10, CIFAR-100 và SVHN bộ
đữ liỆU SH HH nh TH Tnhh kh nh re
4.2 Cai dat NSGA-II cho các thí
nghiệm 4.3 Số lượng đánh giá kiến trúc cho mỗi benchmark
4.4 Kiểm tra độ chính xác so sánh với các phương pháp NAS
4.7 So sánh điểm IGD trung bình trên 30 lần chạy giữa các biên
gần đúng được tìm thấy trên CIFAR-10 và các biên tối ưu của
các bộ dữ liệu khác trong
NAS-Bench-201 -4.8 Xác thực kiến trúc trên CIFAR-1 0, CIFAR-100 và SVHN bộ
Trang 7Danh mục từ viết tắt
NAS Neural Architecture Search
EA Evolutionary Algorithm
MOEA Multi Objective Evolutionary Algorithm
NTK Neural Tangent Kernel
LR Linear Region IGD Inverted General Distance
NSGA-II Non Dominated Sorting Genetic Algorithm II
CNN Convolutional Neural Network DAG Directed Acyclic Graph
FLOP Floating Point Operation
Trang 8Tóm tắt khóa luận
Trong khóa luận này, chúng tôi cải thiện hiệu suất của quy trình Tìm kiếm kiến trúc neural tiến hóa đa mục tiêu (MOENAS) bằng cách (1) giới thiệu cơ chế mã hóa CNN cho phép các mô hình đã tạo được sử dụng dễ dàng mà không cần sửa đổi thêm, (2) sử dụng các chỉ số không cần huấn luyện trong giai đoạn đánh giá kiến trúc dé tăng tốc quá trình tìm kiếm, cũng như giảm van dé quá khớp trong NAS nơi các kiến trúc được tìm thấy có xu hướng hoạt động kém hơn trên các tập dữ liệu chưa gặp Về cách tiếp cận không qua huấn luyện, nhiều thử nghiệm trên các
benchmark được tính toán trước (ví dụ: NAS-Bench-101 và NAS-Bench-201) cho
thấy rằng cách tiếp cận của chúng tôi đạt được hiệu quả tuyệt vời trong việc tìm iém các biên Pareto của một loạt các kiến trúc thé hiện đánh đôi tối ưu Các kiến trúc mạng thu được bằng cách tiếp cận của chúng tôi trên CIFAR-10 cũng cho thấy
hả năng chuyển giao cao trên CIFAR-100 và ImageNet Bang cách sử dụng lại các chỉ số không qua huấn luyện trên cơ chế mã hóa CNN được đề xuất của chúng tôi, chúng tôi khẳng định lại những lợi ích tiềm năng của việc cho điểm kiến trúc mà hông qua huấn luyện trong việc giải quyết các vấn đề NAS trong thực tiễn.
Trang 9CHƯƠNG 1
GIỚI THIỆU
1.1 Tìm kiếm kiến trúc neural
Gần đây, chúng ta đã chứng kiến hiệu suất vượt trội của các phương pháp học máy dựa trên mạng neural tích chập (CNN) trong việc giải quyết nhiều vấn đề thách thức, từ thị giác máy tính, robotic đến xử lý ngôn ngữ tự nhiên CNN hiện đại rat phức tap và chúng thường được thiết kế bằng cách sử dụng các bộ dữ liệu chuẩn tiêu chuẩn, chang hạn như ImageNet, CIFAR-10 [23] hoặc CIFAR-100 [23] Kiến
trúc của chúng có thể cần được sửa đổi hoặc tinh chỉnh để đạt được hiệu suất cần
thiết khi được sử dụng trong các ứng dụng trong thực tiễn đề giải quyết một nhiệm
vụ cụ thể với tập dữ liệu không chuẩn Các mạng neural sâu do máy tính tạo ra đã dần dần thay thế các kiến trúc hiện đại từ phương pháp thiết kế thủ công cồng kềnh trước đây, một quy trình đây tính thử và sai Tìm kiếm kiến trúc neural (NAS [2], [48]) cung cấp khả năng tự động hóa quá trình rườm rà này dé tìm kiếm kiến trúc mạng thích hợp cho một nhiệm vụ nhất định.
Tìm kiếm kiến trúc neural (NAS) [48] là nghiên cứu nhằm mục đích tỉnh chỉnh quy trình tự động như đã đề cập trước đó để tối đa hóa đầu ra mong muốn Hầu hết các thuật toán NAS có thé tạo ra một cách hiệu quả các kiến trúc mang neural sâu hiệu suất cao NAS có thể được coi là một van đề tối ưu hóa hộp đen vì hiệu suất của một mạng nhất định không thể được biết trước.
Do đó, NAS bao gồm ba thành phần chính:
* Không gian tìm kiếm NAS cung cấp một tập hợp các toán tử (tích chập, kết nối đầy đủ và pooling) và cách chúng có thể được kết hợp để xây dựng các thiết kế mạng khả thi Chuyên môn và những thành kiến không thể tránh khỏi của con người thường liên quan đến việc tạo ra không gian tìm kiếm.
Trang 10Chương 1 Giới thiệu
* Chiến lược ước tính hiệu suất: Dé thuật toán tìm kiếm có thé học được, chúng
ta cần đánh giá, ước tính hoặc dự đoán hiệu suất của một số lượng lớn các môhình con được đề xuất Đánh giá ứng viên có thé tốn nhiều thời gian và chi
phí; do đó, một số phương pháp mới đã được phát triển để giảm thời gian và
tải nguyên tính toán.
* Chiến lược tìm kiếm: Phương pháp tìm kiếm NAS chọn một mẫu ứng viên
kiến trúc mang từ một tập hợp Nó tôi ưu hóa dé tạo ra các ứng cử viên kiến
trúc hiệu suât cao dựa trên các tham sô hiệu suât của mô hình con (ví dụ: độ
Hình 1.1: Minh họa lưu đồ tìm kiếm kiến trúc neural
Tóm lại, NAS tự động hóa quá trình con người điều chỉnh mạng neural sâu theo
cách thủ công và học những gì hoạt động tốt, cho phép khám phá các kiến trúc phức
tạp hơn.
1.1.1 Tìm kiếm kiến trúc neural đa mục tiêu
Các vẫn đề của NAS thường liên quan đến các mục tiêu cạnh tranh cần được xemxét đồng thời Một mặt, chúng tôi mong muốn tìm ra những kiến trúc đạt được độchính xác cao Tuy nhiên, mặt khác, chúng tôi thích các mạng nhỏ gọn với SỐ lượngnhỏ các tham số có thé huấn luyện hoặc ít hoạt động dấu phay động (FLOP) hơn.Một kiến trúc không tưởng toi ưu hóa đồng thời tat cả các mục tiêu xung đột hầu
như không tôn tại Thay vào đó, chúng tôi muôn có được cái gọi là bién Pareto của
Trang 11Chương 1 Giới thiệu
các kiến trúc thé hiện sự đánh đổi tốt nhất có thể giữa các mục tiêu được quan tâm
Tất cả các kiến trúc này đều tối ưu theo nghĩa là nếu chúng ta muốn cải thiện mộtmục tiêu (ví dụ: độ chính xác dự đoán của chúng), thì ít nhất một mục tiêu khác (ví
dụ: số lượng tham số của chúng) phải được giảm bớt và ngược lại Các nhà nghiêncứu có thể so sánh đơn giản tất cả các kiến trúc này, xem xét sự đánh đổi của chúng
và chon một kiến trúc phù hợp cho nhiệm vụ/tập dữ liệu đã cho dé thực hiện Việc
ra quyết định dựa trên Pareto như vậy sẽ sáng suốt hơn nhiều so với việc giải quyếtmột vấn đề NAS đơn mục tiêu và có được một giải pháp duy nhất chỉ tối ưu hóamột khía cạnh duy nhất Do tính chất đa mục tiêu vốn có này, chúng tôi cho rangcác van dé của NAS tốt hơn nên được xử lý ban g cac thuat toan tién hoa da muc tiéu(MOEA), thuật toán này duy trì quan thé của các cá thé (mỗi cá thé tương ứng vớimột kiến trúc ứng viên) Được khởi tạo ngẫu nhiên, quần thể MOEA sau đó đượcphát triển bởi các toán tử lựa chọn (gitt lại các kiến trúc hứa hẹn và loại bỏ các kiếntrúc tệ) và các toán tử biến thể (tạo ra các kiến trúc mới dựa trên các kiến trúc hiệntal) dé dần dan tiệm cận biên Pareto-tối ưu thực tế có các kiến trúc có đánh đổi tốtnhất có thé
1.2 Thách thức và van đề tồn đọng
1.2.1 Tính thực tế của các kiến trúc do NAS tạo ra
Trong NSGA-Net [31], thuật toán di truyền sắp xếp không thống trị phiên bản II
(NSGA-II [7]) được sử dụng rộng rãi được sử dụng dé đạt được lợi thế đánh đổi chovấn đề NAS đa mục tiêu liên quan đến nhiệm vụ phân loại trên Bộ dữ liệu
CIFAR1O Tuy nhiên, kiến trúc được chọn từ biên đánh đổi - kết quả cuối cùng (tức
là kiến trúc có độ lỗi thấp nhất) sau đó được tinh chỉnh thêm bang cách thay đôi số
lượng filter của mỗi lớp trong mỗi khối tính toán dé đạt được hiệu suất mong muốn
Trang 12Chương 1 Giới thiệu
Chúng tôi lập luận rang các sửa đôi như vậy và các cau hình lại kiến trúc khác
nên được tự động hóa bởi các thuật toán NAS để các kiến trúc thu được có thể được
sử dụng dễ dàng ngay lập tức.
1.2.2 Chi phí tìm kiếm khong lồ
Hau hết các thuật toán NAS đều yêu cầu một số chi phí tính toán cực kỳ cao do phảiđánh giá mạng học sâu Đối với mỗi kiến trúc ứng viên gặp phải trong quá trìnhchạy NAS, chúng tôi cần thực hiện nhiều epoch huấn luyện để có được các giá trịtham số mạng thích hợp, sau đó có thé được đánh giá dé xác nhận / kiểm tra độ lỗi.Một số công trình trước đó trên NAS đã báo cáo hàng nghìn ngày GPU cho việc tìmkiếm của họ Đã có nhiều nỗ lực để tăng tốc quá trình huấn luyện này, chắng hạnnhư sử dụng các mô hình thay thé dé dự đoán hiệu suất mạng hoặc sử dụng supernet
để chia sẻ trọng số của nó với các kiến trúc ứng viên (tức là các mạng con được lấymẫu từ supernet) Tuy nhiên, các phương pháp này có thé gặp phải các van đề khácảnh hưởng đến quá trình tìm kiếm, ví dụ như khó huấn luyện các mô hình thay thếtrên supernet hoặc mối tương quan kém giữa hiệu suất của supernet và các mạng
con của nó [3].
1.2.3 Quá khớp trong NAS
Các kiến trúc mang được NAS thu được nhằm tối ưu hóa độ chính xác của mạng cóthé là các giải pháp bị quá khớp chỉ hoạt động tốt trên cùng một tap dit liệu được sửdụng để đánh giá các kiến trúc ứng viên trong NAS và sẽ có hiệu suất kém khi được
sử dụng trên các tap dit liệu khác Một cách dé giải quyết van dé này là xem xét
không gian tìm kiếm Zolph và cộng sự [49] đề xuất một không gian tìm kiếm có
thé mở rộng có thé tách biệt giữa độ phức tạp và độ sâu của mang Không gian tìm
kiếm này chỉ tìm kiếm một lớp tích chập (hoặc cell) Khi được sử dụng trong mộttập dữ liệu lớn hơn, cell tốt nhất sau này có thể được xếp chồng lên nhau để tạo
Trang 13Chương 1 Giới thiệu
thành một mạng sâu hơn với các lớp giống hệt nhau nhưng trọng lượng khác nhau.
Bằng cách này, chúng ta có thê có được hiệu suất phù hợp trên các tập dữ liệu nhỏ
hơn như CIFAR-10 [23] và các tập dữ liệu lớn hơn như ImageNet Tuy nhiên, khả
năng chuyển giao này chỉ có thể áp dụng cho không gian tìm kiếm với bản chất
chính xác của không gian tìm kiếm dựa trên các cell Trong nhiều tình huống thực
tế, chăng hạn như ngăn chặn các cuộc tấn công đối kháng, chúng ta cũng cần phảixem xét các kết nối giữa các lớp để giảm tính nhạy cảm của mạng đối với các cuộctan công như vậy Do đó, việc tìm kiếm các mạng có khả năng chuyển giao caotrong quá trình chạy NAS đo đó trở thành một van đề khó khăn hơn khi giải quyếttrong các không gian tìm kiếm khác
1.3 Đóng góp của chúng tôi
Dé giải quyết những vấn dé đó trong NAS, chúng tôi đã giới thiệu hai cách tiếp cậnkhác nhau liên quan đến cơ chế dựa trên huấn luyện và không huấn luyện, đó lànhững cải tiến dựa trên các công trình hiện có Những đóng góp của chúng tôi cóthé được tóm tắt như sau:
* Để cải thiện tinh khả thi của các kiến trúc do NAS tạo ra, chúng tôi giới thiệu
một phương pháp biéu diễn kiến trúc CNN toàn diện bao gồm các biến quyếtđịnh sự liên kết trong các khối tích chập và các thuộc tính khác như loại khối
và số lượng kênh, kích thước kernel và kích thước channel
* Thay vì huấn luyện từng giải pháp ứng viên để truy xuất độ chính xác của nó,
đây là một công việc tốn nhiều thời gian, chúng tôi sử dụng hai chỉ số dựa trên
lý thuyết: số điều kiện của NTK và số vùng tuyến tính dé ước tính hiệu suấtmạng sâu và độ phức tạp của nó để tìm kiếm kiến trúc hứa hẹn trên các
benchmark của NAS.
Trang 14Chương 1 Giới thiệu
* Cuối cùng, chúng tôi xác minh tính hiệu quả của các số liệu không dùng
gradient descent được đề xuất băng cách tiến hành các thử nghiệm trên không
gian tìm kiếm NAS ngoài đời thực, là không gian tìm kiếm đã được tinh chỉnh
đã nói ở trên.
1.4 Kết cấu của luận văn
Phần còn lại của khóa luận này được tô chức như sau
* Chương 2 trình bày ngắn gọn kiến thức nền liên quan đến công trình của
chúng tôi, bao gồm tối ưu hóa đa mục tiêu, các chỉ số không cần huấn luyện
dé đánh giá kiến trúc, cùng với thuật toán tiến hóa
* Chương 3 giới thiệu các phương pháp đề xuất của chúng tôi: Insightful
NSGA-Net, MOENASWOT và TF-MOENAS Chúng tôi cũng cung cấp các
so sánh về khái niệm giữa các phương pháp của chúng tôi và các thuật toán
liên quan.
° Chương 4 mô tả các thiết lập thí nghiệm, phương pháp đánh giá được sử dụng
trong nghiên cứu của chúng tôi Chúng tôi so sánh với các phương phap cơ
bản dựa trên kết quả thử nghiệm và thảo luận về các phần mở rộng có thể cóđối với công trình của chúng tôi
* Chương 5 kết thúc nghiên cứu của chúng tôi và gợi ý những hướng đi tiềm
năng cho các công trình tương lai.
Trang 15CHƯƠNG 2
TONG QUAN
Trong chương nay, chúng tôi tổng hợp lại những kiến thức cần thiết đằng sau côngtrình của chúng tôi Trong phần đầu tiên, chúng tôi giải thích về tối ưu hóa đa mụctiêu trong NAS Phần sau giới thiệu các phương pháp tiếp cận tiến hóa trong NAS(tức là NSGA-II) Phần cuối cùng được sử dụng để thảo luận về các số liệu khôngcần huấn luyện dé ước tính hiệu suất của kiến trúc CNN
2.1 Tìm kiếm kiến trúc neural tích chập
Mang neural tích chập (CNN) đã phô biến trong việc giải quyết các van đề về thịgiác máy tính kể từ sự thành công của AlexNet [24] trong thử thách ImageNet vàonăm 2012 [37] Nhiều nỗ lực đã được thực hiện đề cải thiện mô hình và cũng đã đạtđược những kết qua ấn tượng Một số mô hình tiêu biểu bao gồm ResNet [19],Inception [39], VGG [38] Những kiến trúc hiện đại này gợi ý rang các nhà nghiên
cứu có xu hướng làm cho mang neural sâu hơn dé thu được kết quả cạnh tranh Do
tính chất này, ngày nay việc thiết kế một mạng tích chập hiệu suất cao trở thànhmột nhiệm vụ phức tạp khó khăn khi các nhà nghiên cứu phải xem xét nhiều loạitoán tử và kết nói giữa mỗi lớp đồng thời tăng độ sâu của mạng để có kết quả tốt
hơn.
Tìm kiếm kiến trúc neural (NAS) đã được đề xuất dé giảm bớt nỗ lực của con
người bằng cách tự động tìm kiếm các kiến trúc tối ưu trên không gian tìm kiếmđược xác định trước Các kiến trúc do NAS tạo ra đã chứng minh tính hiệu quả của
chúng so với các mô hình được thiết kế thủ công trong việc giải quyết các vấn đề
nhận dạng hình ảnh, ví dụ: MobileNetV3 [20], EfficientNet [40], v.v.
Như đã dé cập trong chương 1, nền tảng xây dựng một bài toán NAS bao gồm
không gian tìm kiếm, phương pháp đánh giá và chiến lược tối ưu hóa.
Trang 16Chương 3 Dé xuất phương pháp
Không gian tìm kiếm Về mặt toán học, mạng neural có thể được coi như mộthàm f chuyên một biến x thành một đầu ra y thông qua một loạt các phép biến đồi
Điều này có thé được biểu diễn dưới dạng đồ thị tính toán, trong đó mạng neural
được biểu diễn dưới dạng đồ thị chu trình có hướng (DAG) với tập hợp các node,mỗi node hoạt động như một phép toán Hiện có ba loại không gian tìm kiếm:không gian tim kiếm vĩ mô (macro), không gian tìm kiếm vi mô (micro) và khônggian tìm kiếm thuộc tính lớp (layer-attributes) Trong trường hợp này, không giantim kiếm macro mã hóa các lớp mang neural dưới dang các node trong đồ thị DAG
và mục đích của không gian tìm kiếm này là xác định kết nối giữa các node (hoặccác lớp) Kết nối ở đây có thé được coi là cách sử dụng đầu tiên của kết nối bỏ quatrong kiến trúc Res-Net Điều này có nghĩa là dé cải thiện huấn luyện cho các thiết
kế phức tạp Thay vì coi mỗi lớp là một node, &hông gian tim kiếm vi mô xử lý mỗinode như một phép toán biến đôi (ví dụ: tích chập chập 3 (conv3x3), pooling, v.v.)
để xây dựng lớp hiệu quả nhất Các lớp được thiết kế sau đó được xếp chồng lênnhau dé tạo thành toàn bộ kiến trúc Mục dich của NAS trong không gian tìm kiếmthuộc tính lớp là tìm kiếm các thuộc tính của các lớp trong kiến trúc như độ sâu (sốlớp) số lớp an), chiều rộng của mỗi lớp (số kênh trên mỗi lớp), kích thước kernel,v.v dé đảm bảo rằng kiến trúc được tối ưu hóa cho hiệu suất
Chiến lược tối ưu hóa Nói chung, các kỹ thuật tìm kiếm NAS thường liên quan
đến việc lay mẫu một nhóm các mạng con Nó học cách tạo ra các kiến trúc ứng
viên có hiệu suất cao bằng cách nhận các chỉ số hiệu suất của các mô hình con làmđiểm đánh giá Tim kiếm ngẫu nhiên chọn ngẫu nhiên một ứng cử viên kiến trúc khả
thi từ không gian tìm kiếm; không có mô hình hoc tập nao được sử dụng Kỹ thuật
này thường được sử dụng làm mô hình baseline cho các tuyến nghiên cứu khác
nhau Các phương pháp dựa trên lấy mdu là các kỹ thuật tối ưu hóa bậc 0 coi NAS
Trang 17Chương 3 Dé xuất phương pháp
như một van đề tối ưu hóa hộp đen Một số phương pháp tiếp cận đại diện bao gồmReinforcement Learning (Học tăng cường), Tìm kiếm trên cây Monte Carlo hoặc
Thuật toán tiến hóa, chủ yếu dựa vào sự đánh đôi thăm dò và khai thác để phát triển
kiến trúc của mạng sâu Các phương pháp dựa trên Gradient (ví dụ: DARTS,One-shot NAS) coi NAS là một bài toán tối ưu hóa hai cấp, trong đó tối ưu hóa bên
ngoài là tôi ưu hóa một kiên trúc a , là một tập hợp các tham sô liên tục được ánh xa
từ không gian tìm kiếm rời rạc sao cho có bộ phù hợp của giá trị tham số 9, hàm mắt
vì các thiết bị cụ thê có thê có hạn chế về bộ nhớ hoặc yêu cầu thời gian phản hồinhanh Ngoài chiến lược huấn luyện từ đầu, nhiều nỗ lực để tăng tốc quá trình huấnluyện đã được thực hiện, chăng hạn như dự đoán đường cong học tập, sử dụng các
mô hình thay thế để dự đoán hiệu suất mạng hoặc sử dụng siêu mạng dé chia sẻtrọng số của no giữa các mô hình ứng viên (ví dụ: mang được lay mẫu từ supernet).Gần đây, Mellor và cộng sự [33] và Chen và cộng sự [4] giới thiệu các cách tiếpcận mới dé xếp hạng các kiến trúc ứng viên thông qua các số liệu được định hướng
về mặt lý thuyết, có thé tăng tốc quá trình tìm kiếm rất nhiều trong khi vẫn cho thaykhả năng tìm kiếm các kiến trúc xuất sắc Chỉ tiết được thảo luận trong phần 2.4
Trang 18Chương 3 Đề xuất phương pháp
Floating point operations (Milions)
Hình 2.1: Vi dụ về biên tối ưu hai mục tiêu tối ưu hóa độ lỗimạng và số lượng phép tính dấu phẩy động trên tập dữ liệu
ImageNet16-120
2.2 Tối ưu hóa đa mục tiêu
Độ chính xác của mạng không phải là mục tiêu tối ưu hóa duy nhất khi áp dụng cho
các vấn đề trong thực tiễn Các mô hình nhận dạng hình ảnh qua mạng neural
không nhất thiết phải luôn được triên khai trên các máy trạm có sức mạnh tính toán
lớn dé dat được điểm số chính xác cao nhất Xu hướng hiện nay là thiết kế các kiến
trúc hiệu suất cao trong khi vẫn duy trì chi phí tính toán hợp lý cho các thiết bị di
động hoặc hệ thống nhúng Chúng ta cần xem xét nhiều mục tiêu, có thé xung dot,
chăng hạn như hiệu suất dự đoán, kích thước mô hình hoặc hiệu quả mạng, trong
đó không tồn tại một kiến trúc /ý ưởng duy nhất đạt được độ chính xác cao nhất
trong khi ít phức tạp tính toán Thay vào đó, một tập hợp Pareto gồm các kiến trúc
khác nhau đại diện cho sự đánh đổi tối ưu giữa các mục tiêu cạnh tranh Bao gồm
một mục tiêu bổ sung đại diện cho hiệu quả mạng, ví dụ: kích thước mô hình, độ
trễ khi tối ưu hóa, sẽ thực tế và sâu sắc hơn, nơi các nhà nghiên cứu có thể cân nhắc
các sự đánh đôi khác nhau cho
10
Trang 19Chương 3 Đề xuất phương pháp
Population Initialization
Do tính chất đa mục tiêu vốn có này, một số công trình gần đây trên NAS đã
được ưu tiên xử lý bằng các thuật toán tiến hóa đa mục tiêu, duy trì và phát triển
một tap hợp các giải pháp ứng viên dé gần đúng với tập hợp các kiến trúc tối ưu
Pareto [31, 9].
2.3 Các thuật toán tiến hóa và thuật toán di truyền sắp xếp không chi phối II
2.3.1 Các thuật toán tiến hóa (EA)
Lần đầu tiên được giới thiệu bởi John Holland vào năm 1960, các quá trình tiễn hóa
sinh học truyền cảm hứng cho thuật toán tiến hóa (EA) EAs thường được sử dụng
để tìm kiếm giải pháp cho các bài toán tối ưu hóa hoặc các bài toán tìm kiếm cục
bộ thông qua mô phỏng các quá trình sinh học như đột biến, lai ghép), lựa chọn,
v.v., dé chọn giải pháp ứng viên tốt nhất cho bài toán đã cho Trong EAs, mỗi giải
pháp ứng cử viên cho vân đê tôi ưu hóa được EAs coi như một cá thê trong một
11
Trang 20Chương 3 Dé xuất phương pháp 12
quan thé Cá thé EA được biểu thị như một kiêu gen trong đó mỗi gen được kết hợp
với một biến quyết định và mỗi nhiễm sắc thé đại diện cho một cá thé Sự phù hợp
(fitness) của mỗi cá thể, cho biết chất lượng của giải pháp tương ứng, được đánh
giá thông qua một hàm đánh giá phù hợp, được xây dựng dựa trên hàm mục tiêu
của bài toán tôi ưu hóa Một EA điển hình có hai toán tử chính: 1) /a chọn dé
chọn một tập hợp con các cá thể ưu tú có giá tri thể lực tốt hơn những cá thể khác
trong quan thê và 2) biến đổi dé tạo ra con cái mới từ những cá thé hiện có Vai trò
của toán tử chọn lọc là duy trì những đặc điểm có lợi được biểu diễn ở những cá thể
có thê trạng cao hơn của quần thể hiện tại để những đặc điểm này có thể được di
truyền và cải thiện hơn nữa trong các thế hệ sau Toán tử biến thé có thé được thực
hiện thông qua trao đổi lai ghép , t6 hợp lại các cá thé đã chọn (tức là các giải pháp
ứng viên hiện tại) để tạo ra con cái (ví dụ, các giải pháp ứng viên mới) và đột biến,
làm thay đối ngẫu nhiên các cá thể hiện tại với một xác suất nhỏ Việc thăm đò và
khai thác tìm kiếm được điều chỉnh thông qua các toán tử lựa chọn và biến thể này
Cùng nhau, quan thé được hội tụ về các vùng tốt hon trong không gian giải pháp
sau mỗi lần lặp lại
Hiệu suất của một thuật toán tiến hóa (EA) cho một vấn đề nhất định phụ thuộc
rất nhiều vào mức độ hiệu quả của các toán tử biến thé của nó trong việc tạo ra các
giải pháp tốt hơn từ các giải pháp hiện tại trong tổng thé Tuy nhiên, các toán tử
mặc định của EA cô điển, chăng hạn như lai ghép và đột biến, dễ gây ra sự gián
đoạn của các nền tảng xây dựng quan trọng trong việc tạo ra các giải pháp đầy hứa
hẹn.
2.3.2 Thuật toán di truyền sắp xếp không bị thống trị II
NSGA-II bắt đầu với một quan thé ban đầu gồm các cá thé được tạo ngẫu nhiên
Trang 21Chương 3 Đề xuất phương pháp 13
(nghĩa là, mỗi cá thể ban đầu là một kiến trúc ứng viên ngẫu nhiên) Một toán tử
chọn lọc được sử dụng trong mọi thế hệ dé tạo thành một tập hợp chọn lọc các cáthể có triển vọng từ quần thé hiện tại Các toán tử biến đối, chăng hạn như trao đôi
lai ghép và đột biến, được thực hiện trên tập hợp chọn lọc dé tạo ra các cá thé con(tức là các kiến trúc ứng viên mới) Các quần thé hiện tại và con cái sau đó đượchợp nhất thành một nhóm Một quy trình sắp xếp không thống trị của Pareto đượcchạy để phân chia các cá thể thành các cấp bậc không thống trị khác nhau Các cáthé từ hạng 0, tạo thành cái gọi là bién không bi thống trị, không bị thống trị bởi bat
kỳ cá thé nào khác Một cá thé x! được cho là Pareto thống trị một cá thé khác x* néux! không tệ hơn x’ ở tất cả các mục tiêu va x! tốt hơn x? ở ít nhất một mục tiêu Các
cá thé có thứ hạng tốt hơn từ nhóm sau đó được chọn vào quần thể mới cho thế hệtiếp theo Những cá thể từ cấp bậc thấp hơn được ưu tiên hơn những cá thể từ cấpbậc cao hơn NSGA-II đã được sử dụng dé giai quyét các sự cố NAS đa mục tiêutrong [31, 9] Thuật toán 1 tóm tắt mã giả của NSGA-II
Trang 22Chương 3 Đề xuất phương pháp 14
Algorithm 1 NSGA-II
Input: N’, g, f,(X) > N’ members evolved g generations to solve ƒ¿(X)
: Initialize Population P’;
Generate random population - size N’;
Evaluate Objectives Values;
Assign Rank (level) based on Pareto - sort;
Binary Tournament Selection;
Recombination and Mutation;
fori =1togdo
for each Parent and Child in Population do
Assign Rank (level) based on Pareto - sort;
Generate sets of non-dominated solutions;
Determine Crowding distance;
Loop (inside) by adding solutions to next generation starting from
the first front until N’ individuals;
13: end for
¬
14: Select points on the lower front with high crowding distance;
15: Create next generation;
16: Binary Tournament Tournament Selection;
17: Recombination and Mutation;
18: end for
Trang 23Chương 3 Dé xuất phương pháp
2.4 Các chỉ số không qua huấn luyện dé đánh giá mạng
Hiệu suất của mang neural bị anh hưởng bởi tính biểu diễn và kha năng huấn luyện
cua nó [43, 15] Dé đạt được độ chính xác cao, kiến trúc mang cần cho phép mã
hóa các chức năng đủ phức tạp Đồng thời, kiến trúc mạng cần cho phép tham số
của nó được huấn luyện một cách hiệu quả bang gradient descent Chen va cộng sự
[3] đã giới thiệu một framework kiến trúc neural không cần huấn luyện (TE-NAS)
đánh giá các kiến trúc ứng viên về mức độ biểu diễn (thông qua số vùng tuyến tính
Ry) và kha năng huấn luyện (thông qua số điều kiện của NTK xy) Cả hai chỉ số Ry
và xy có thé được tính toán băng cách sử dụng các giá trị tham sỐ mạng khi khởi tạo
và do đó không liên quan đến bất kỳ huấn luyện nào Tối ưu hóa hàm kết hợp của
Ry va ky, thay vì trực tiếp tối ưu hóa độ chính xác của mạng, TE-NAS đã được
chứng minh là có được kiến trúc hiệu suất hàng đầu chỉ trong vòng bốn giờ bằng
cách sử dụng GPU 1080Ti [3].
2.4.1 Số vùng tuyến tính
Các hàm tuyến tính xác định theo khoảng (ví dụ, ReLU ) thường được sử dụng như
các hàm kích hoạt trong mạng neural sâu Mạng ReLU, có thể được xem như là
một thành phần của các hàm tuyến tính theo khoảng, do đó cũng biểu thị một hàm
tuyến tính theo khoảng Một mạng như vậy có thể chia không gian đầu vào của nó
thành các vùng tuyến tính, và trong mỗi vùng, hàm được mã hóa bởi mạng là affine
[45] Hình 2.4 mô tả các vùng tuyến tính của mạng ReLU
Tính biểu diễn của mang neural N có thé được biểu thị bằng số vùng tuyến tính
Ry phân vùng không gian đầu vào thành [18] Xiong và cộng sự [45] đã định nghĩa
một vùng tuyến tính R(P; Ø) là một tập hợp các điểm dt liệu đầu vào x mà khi
được chuyền tiếp qua mạng ReLU N với các giá trị tham số 0 mang lại cùng một
mẫu kích hoạt P(z) € { - l, + I } tại các neural z trong N Chúng ta có
15
Trang 24Chương 3 Đề xuất phương pháp 16
R(P; 0) = { x € Không gian dau vào : z(x; 0) - P(z) > 0, Vz EN} (2.1)
Hình 2.4: Không gian đầu vào 2D được chia bởi mạng ReLU
thành các phan của vùng tuyến tính
trong đó z(x; Ø) biểu thị giá trị kích hoạt trước của đầu vào x tại neural z Một vùng
tuyến tính liên kết với mẫu kích hoạt P tôn tại nếu có ít nhất một đầu vào x thỏa
mãn z(x; 0): PZ) >0,VWVz€N Số vùng tuyến tính Ry » tai Ø do đó có thé được
tính bằng cách đếm số lượng các mẫu kích hoạt độc nhất
Ry, 9=| { R(P; 0) : R(P; 0) # 0 đôi với một số mẫu kích hoạt P } | (2.2)Trong khi vùng tuyến tính R(P; Ø) phụ thuộc vào Ø, Hanin và cộng sự [18] cho
thấy rằng, trong và sau khi huấn luyện, số vùng tuyến tinh Ry vẫn gần giống với giá
trị của nó lúc khởi tạo Do đó, không cần huấn luyện gradient descent để có được
giá trị cuối cùng Ø, chúng ta vẫn có thé tính gần đúng Ry bang cách sử dụng các giá
trị tham số mạng đã khởi tạo Chính xác hơn, Ry * Ey~ w[Ry, 9] , trong đó W là một
phân phối khởi tạo chắng hạn như khởi tạo Kaiming He [19]
Về các vấn đề của NAS, Chen và cộng sự [3] cho thấy Ry có tương quan thuận
với độ chính xác của kiểm tra mạng, với tương quan Kendall r là 0,5
! Được tạo tại https://colab.research.google.com/github/CIS-522/
Trang 25Chương 3 Đề xuất phương pháp 17
Do đó, việc tôi đa hóa Ry sé khuyên khích việc tìm kiêm các kiên trúc hiệu suât cao.
Thuật toán 2 cung cấp chỉ tiết cách tính Ry
Algorithm 2 CALCULATENUMBEROFLINEARREGIONS(«)
// activation «
1: n,m SHAPE(#) > n: #input size, m: #neurons
2 $+ {} > s: # set of activation patterns
2.4.2 Phuong sai Jacobian
Đối với các vùng tuyến tính, khi các điểm dữ liệu dang được chuyên tiếp qua mang
ReLU với m neural, chúng ta thu được một mẫu kích hoạt trong mã nhị phân có độ
dài m mô tả một vùng tuyến tính mà mạng phân tách các đầu vào Nếu x, và x; trong
cùng một batch nhỏ tương ứng với các lớp khác nhau và các mẫu kích hoạt của
Trang 26Chương 3 Đề xuất phương pháp 18
chúng tương tự nhau Trong giai đoạn huấn luyện, sẽ khó khăn hơn khi phân chia
chúng thành hai lớp riêng biệt.
Jacobian Covariance được giới thiệu với ý tưởng rằng bat kỳ kiến trúc nào cũng
có thé được coi là hiệu suất cao khi lúc khởi tạo, nó có thé tach không gian đầu vàothành các vùng tuyến tính đặc biệt Do đó, jacob_cov được cho điểm bang cách đokhoảng cách Hamming giữa các mẫu kích hoạt của các điểm đữ liệu trong cùng mộtbatch nhỏ, từ đó ước tính khả năng phân loại của các kiến trúc mạng tiềm năng
Theo Mellor và cộng sự [33], Jacobian Covariance tương quan thuận với độ chính
xác thử nghiệm của các kiến trúc trong NAS-Bench-201 (hệ số tương quan Kendall
r là 0,574) Do đó, tối đa hóa jacob_coy trong quá trình NAS, do đó sẽ hướng danthuật toán đến các kiến trúc chất lượng cao
2.4.3 Số điều kiện của Kernel tiếp tuyến neural
Trong khi tính biéu diễn cho biết mức độ phức tap của tập hợp các chức năng mà mộtkiến trúc mạng có thé biéu dién về mặt lý thuyết, khả năng huấn luyện (hoặc kha nănghọc hoi) liên quan đến mức độ hiệu quả của thuật toán giảm độ dốc có thé thu được
một bộ giá trị thích hợp cho các tham sé mang sao cho ham mat mat
U5 (6)i=1
được tối thiéu hóa [3] /Ø, x, là đầu ra của mang neural với các tham số Ø liên
quan đến đầu vào huấn luyện x,, y, là nhãn đích tương ứng và e(,) là số liệu lỗi Tại
mỗi lần lặp / của gradient descent, các thông số mang
¬
- > OL 8 .
được cập nhật dưới dạng Đa = 0 — TỊ 6 trong đó 7 > 0 là toc độ hoc Động lực
huấn luyện của mang neural liên quan đến trình tự {L (s)
Trang 27Chương 3 Đề xuất phương pháp 19
Các công trình gần đây (vi dụ, Jacot và cộng sự [22], Du và cộng sự [14, 13], Arora
và cộng sự [1], Hanin & Nica [17]) đã chứng minh rằng động lực huấn luyện như
vậy có thể được nghiên cứu thông qua một khái niệm được gọi là kernel tiếp tuyến
neural (NTK)
nfo ¬ af(ax) 2/{8x,
(x, x] = (002) 9/03) (2.3)
vj a0 a8
trong đó Øf{Ø, x)/d, là gradient của đầu ra mạng của đầu vào huấn luyện x đối với
các tham số của nó Ø Gọi © train là ma trận trong đó phan tử (i, j) đại diện cho
NTK giữa các đầu vào huấn luyện x,, x, Một sé công trình (vi dụ: Du va cộng sự
[14, 13], Lee và cộng sự [ 25], Xiao và cộng sự [43]) đã chỉ ra rằng khi mang
neural được tham sô hóa qua mức (hoặc độ rộng của môi lớp là đủ rộng) toc độ hội
tụ của 0[9,) được điều chỉnh bởi phổ của © huấn luyện và tốc độ học 1:
E/7, x)] = (L- ey, (2,4)
ở đâu 2 , là giá trị đặc trưng cua © train Khi £ có xu hướng đến vô cùng, E[f(0, x;)]
=Ù, Điều kiện số Ky NTK © được định nghĩa là
À
Ky = = (2,5)
min
trong đó Amaxs Amin là các giá tri riêng lớn nhất va nhỏ nhất của NTK 6 Chen và
cộng sự [3] đã chi ra rằng khi tốc độ học tập tối đa có thé được tăng lên đến n~
2/amax > liên quan dén Phương trình 2.4, sự hội tụ sé xảy ra với tốc độ 1/xy Nếu Ky
phân kì, mạng N trở nên không thể huấn luyện được và sẽ có hiệu suất dự đoán
kém Các số điều kiện của NTK xy của các kiến trúc trong NAS-Bench-201 [10]
được chỉ ra là có tương quan nghịch (hệ số tương quan Kendall t là -0,42) với các
giá trị độ chính xác thử nghiệm của chúng [3] Giảm thiểu xy trong quá trình NAS,
Trang 28Chương 3 Đề xuất phương pháp 20
do đó sẽ hướng dan việc tìm kiêm hướng tới các kiên trúc có thê huân luyện hiệu
quả băng cách giảm dân độ dôc và có khả năng có hiệu suât cao Thuật toán 3 cung
cap chi tiệt việc triên khai xy,
Trang 29Chương 3 Dé xuất phương pháp 21
CHUONG 3:
DE XUAT PHUONG PHAP
Trong phan này, chúng tôi mô tả các phương pháp được dé xuất của chúng tôi,Insightful NSGA-Net, TTMOENAS và MOENASWOT, dựa trên cơ chế lai ghép
của chúng tôi Đối với tất cả các phương pháp được đề xuất, chúng tôi xây dựng
NAS như một bài toán tối ưu hóa hai mục tiêu, trong đó hai mục tiêu cạnh tranh, tức
là hiệu suất mô hình và độ phức tạp của mô hình, cần được xem xét đồng thời
Chúng tôi sử dụng thuật toán di truyền phân loại đa mục tiêu nổi tiếng (MOEA)thuật toán di truyền phân loại không chọn lọc II (NSGA-II) để thực hiện các thí
nghiệm NAS đa mục tiêu trên tap dữ liệu CIFAR-10.
3.1 Không gian tìm kiếm macro kết hợp để lựa chọn thuộc tính phù hợp
Nhiều kiến trúc hiện đại dựa trên CNN có thé được mô tả như một loạt các khối tinhtoán (còn được gọi là các pha) Mỗi khối tính toán được theo sau bởi một toán tửpooling dé giảm độ phân giải Mỗi giai đoạn bao gồm nhiều toán tử, được biểu diễndưới dạng các node trong biểu đồ Các node trong cùng một pha chia sẻ các thuộctính nhất định
3.1.1 Mã hóa kết nối
Chúng tôi mã hóa các kết nối node trong cùng một giai đoạn theo cách tiếp cận của
Lu và cộng sự [31] và Xie va cộng sự [44] Một kiến trúc được biéu thị là một tập
có thứ tự P = (, ø, , Py) với N là số pha Mỗi p, trong tập hợp là một đồ thị xoay
chiều có hướng gồm một dãy M node có thứ tự (n, ny, , Ny) Do đó, một kiến trúcCNN có thé được coi là một kiến trúc hình chuỗi Mỗi node là một đơn vị tính toán
cơ bản như tích chập, chuẩn hóa theo batch, hàm kích hoạt phi tuyén tính hoặc mộtchuỗi các toán tử Tắt cả tạo thành một bản đồ tính năng tương ứng Lưu ý rằng chỉ
các két nôi từ các node được đánh sô thâp hơn đên các node được đánh sô cao hơn
Trang 30Chương 3 Đề xuất phương pháp 22
mới được mã hóa Trong một pha, kích thước khối (C x H x W) của tensor không
thay đổi Sau khi đi qua các toán tử của các node, dit liệu sẽ được xếp chồng theochiều sâu và sau đó được đưa vào lớp chập cuối cùng, lớp này sẽ điều chỉnh số
lượng kênh được chỉ định trong pha đó Sau mỗi giai đoạn là một sơ đồ giản lược độ phân giải thông qua toán tử pooling Trong giai đoạn cuối, global average pool
(GAP) được sử dụng để giảm việc quá khớp [27] Lớp pooling, cũng như phần
fully-connected, được loại trừ khỏi mã hóa.
Hình 3.1 minh họa mã hóa kết nói
dense: 0 hoặc Pha residual: 1).
3.1.2 Mã hóa thuộc tính của node
Điều quan trọng là phải xem xét phạm vi giá trị thuộc tính dé số lượng bit cần thiết
dé biểu diễn một kiến trúc không quá lớn Nếu kích thước van đề quá lớn, các thuậttoán tối ưu hóa sẽ khó có được các giải pháp chấp nhận được trong phạm vi khốilượng tính toán cho phép Hơn nữa, độ phức tạp của kiến trúc cũng cần được xemxét dé thiết kế các thuộc tính của node Không có phạm vi cố định cho các thuộctính của node; tuy nhiên, cần cân nhắc dé đưa ra quyết định đúng dan nham mang
Trang 31Chương 3 Đề xuất phương pháp 23
lại kết quả tối ưu Hơn nữa, sự thay đổi của các thuộc tính này không được làm thayđổi kích thước khối của tensor
Lay cảm hứng từ nghiên cứu cua Wang và cộng sự [41], chúng tôi chon mã hóa
bốn thuộc tính sau: kích thước kernel, kích thước pool, số kênh và kiểu pha Kiểupha xác định một số tính toán lớp tân tiễn nhất (ví dụ: Pha đense [21], Pha residual[19], v.v.) Ví du, với một pha residual, mỗi node (lớp) sẽ bao gồm một tích chập,tiếp theo là batch norm và một hàm ReLU Lưu ý rằng toán tử pooling ở giai đoạncuối cùng, là global average pooling (GAP), bị loại trừ trong không gian mã hóa
Phạm vi của mỗi thuộc tinh được mô tả trong Bảng 3.1.
Kích thước pooling 1 2]
Các loại pha [Dense, Residual, Preact-Residual]
3.1.3 Lai ghép chuyén biét cho NAS
Các toán tử biến đổi của EA cần phải tinh đến các cau trúc của bài toán tối ưu hóa
để tạo ra các giải pháp con cái đầy hứa hẹn một cách hiệu quả
Các phương pháp tái tổ hợp cô điển, chăng hạn như toán tử lai ghép một điểm (1X)
và đồng nhất (UX), thường giả định các biến van đề là độc lập với nhau Tuy nhiên,
biểu diễn kiến trúc neural của chúng tôi được đề xuất trong Phan 3.1.1 chỉ ra rằng các
biến mã hóa cùng một nhóm kết nối hoặc cùng một thuộc tính Node thể hiện sự phụthuộc nhất định Các điểm giao nhau hoàn toàn ngẫu nhiên trong quá trình tái tổ hợpgiải pháp có thể vô tình phá vỡ cấu trúc mạng, làm cho thuật toán có hiệu suất kém
Do đó, chúng tôi tùy chỉnh toán tử lai ghép của NSGA-II như sau.
Trang 32Chương 3 Đề xuất phương pháp 24
Dense-Block Phase Res-Block Phase
ofo} fo]rfo] [1]+[+fo] [offs] m
cho các kết nối từ các node trước đó đến mỗi node hiện tại trong
một pha Trong vi dụ này, bit cuối cùng trong mã hóa đại diện
cho kiểu pha, đó là pha residual hoặc pha dense Trong quá trình
giao nhau, các bit trong cùng một nhóm sau đó sẽ được hoán đôi
cho nhau Các mối liên hệ tương tự giữa các cặp bố mẹ được giữlại trong các kiến trúc của thế hệ con cái Lưu ý rằng ví dụ chỉminh họa một trong hai kiến trúc con
Chúng tôi phân vùng các biến vấn đề (nhị phân) của chúng tôi thành các nhómkhác nhau, trong đó các biến trong cùng một nhóm có liên quan với nhau Lai ghép
đồng nhất sau đó được thực hiện theo cách dựa trên nhóm thay vì dựa trên baseline
Trang 33Chương 3 Đề xuất phương pháp 25
của các biến Cu thé hơn, trong quá trình trao đổi lai ghép của hai cá thé, đối với
mỗi nhóm biến, một số ngẫu nhiên p, € [0, 1] được tạo ra Nếu Pe © p tức là xác
suất lai ghép, giá trị của tất cả các biến trong nhóm đó sẽ được hoán đổi với nhau.Bằng cách này, các biến liên quan được xử lý chung trong quá trình kết hợp lại giảipháp, do đó làm giảm bớt sự gián đoạn cấu trúc
Hình 3.2 đưa ra một minh họa cho toán tử lai ghép dành riêng cho NAS.
Tóm lại, dé thiết kế kiến trúc hiệu suất cao, chúng tôi đã chuẩn hóa một mạngneural sâu dưới dạng đồ thị chu trình có hướng (DAG) Một DAG chứa một tập hợpcác node; mỗi node biểu thị một lớp mạng (bao gồm các hoạt động tích hợp khác
nhau) trong NAS macro và một đơn vị hoạt động đơn lẻ trong NAS vi mô Một
mạng sâu với các lớp xếp chồng lên nhau liên tục mà không có kết nối bỏ qua giữacác lớp thường dẫn đến hiệu suất dự đoán kém Do đó, chúng tôi cố gắng tìm ra sựkết hợp của các DAG trong một kiến trúc có thê đạt được kết quả tốt nhất về độchính xác của phép thử thông qua macro NAS Đối với macro NAS, mỗi cung trong
biéu đồ đại diện cho kết nối giữa các lớp, thường được biểu thị dưới dang các kếtnối Nghiên cứu trước đây của chúng tôi cho thấy răng bằng cách kết hợp lựa chọn
thuộc tính cho lớp tích chập trong mỗi giai đoạn trong quá trình tìm kiếm, các kiến
trúc kết quả có thé được sử dụng dé dàng mà không cần sửa đổi thêm dé đánh giá
tập dir liệu Hình 3.3 giải thích ngắn gọn ý tưởng của chúng tôi trong việc thiết kế
không gian tìm kiêm kiên trúc neural.