1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Tìm kiếm kiến trúc mạng neural đa mục tiêu hiệu quả thông qua các chỉ số hiệu năng không qua huấn luyện

66 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm kiếm kiến trúc mạng neural đa mục tiêu hiệu quả thông qua các chỉ số hiệu năng không qua huấn luyện
Tác giả Do Minh Tú
Người hướng dẫn TS. Lương Ngọc Hoàng
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 66
Dung lượng 36,62 MB

Nội dung

Tóm tắt khóa luậnTrong khóa luận này, chúng tôi cải thiện hiệu suất của quy trình Tìm kiếm kiến trúc neural tiến hóa đa mục tiêu MOENAS bằng cách 1 giới thiệu cơ chế mã hóa CNN cho phép

Trang 1

ĐẠI HỌC QUỐC GIA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

DO MINH TÚ - 18521578

KHOA LUAN TOT NGHIEP

EFFICIENT MULTI-OBJECTIVE NEURAL ARCHITECTURE SEARCH

VIA TRAINING FREE INDICATORS

CU NHAN CONG NGHE THONG TIN

GIANG VIEN HUONG DAN

TS LUONG NGQC HOANG

THÀNH PHO HO CHÍ MINH, 2022

Trang 2

Lời cảm ơn

Trước hết, em xin gửi lời cảm ơn đặc biệt đến thầy Lương Ngọc Hoàng, người

đã giảng đạy, hướng dẫn và làm việc cùng em trong khoá luận Thầy đã dạy chúng

em những bài học vô giá về phương pháp nghiên cứu, thuật toán tiến hóa và học máy Ngoài ra, thầy còn đưa ra cho chúng em những cuộc thảo luận sâu sắc bất cứ khi nào chúng em cần, cho dù đó là vấn dé trong các dự án nghiên cứu hay chỉ là sự

tò mò tự phát của chúng em về một bài giảng Bên cạnh đó, thầy cung cấp cho em những lời khuyến khích, lời khuyên, và quan trọng nhất là khả năng tính toán khi

em gặp phải những vấn đề quá sức trong khóa luận của mình Một lần nữa, lòng biết

ơn vô hạn của em đối với TS Lương Ngọc Hoàng Em rất vinh dự khi được làm việc với thầy.

Cuối cùng nhưng không kém phần quan trọng, em xin cảm ơn Trường Đại học Công nghệ Thông tin (UIT), Dai học Quốc gia Thành phó Hỗ Chí Minh về một môi trường học tập và nghiên cứu xuất sắc như vậy Điều này góp phần rất lớn vào việc

hoàn thành luận văn của em.

Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ Đề tài mã số DSC2021-26-06

Trang 3

1.1 Tìm kiếm kiến trúc neural

1.1.1 Tìm kiếm kiến trúc neural đa mục tiêu 1.2 Thách thức và van dé tồn đọng

1.2.1 Tính thực tế của các kiến trúc do NAS tạo ra 1.2.2 Chi phí tìm kiếm khổng lồ

1.2.3 Quá khớp trong NAS 1.3 Đóng góp của chúng tôi

1.4 Kết cấu của luận văn

TỎNG QUAN

2.1 Tìm kiếm kiến trúc neural tích chập ax Dnt PwWwWN —

=

2.2 Tối ưu hóa đa mục tiêu

2.3 Các thuật toán tiền hóa và thuật toán di truyền sắp xếp không chỉ phối II I1

2.3.1 Các thuật toán tiền hóa (EA) ll 2.3.2 Thuật toán di truyền sắp xếp không bị thống tri II 13 2.4 Các chỉ số không qua huấn luyện dé đánh giá mang 15

2.4.1 Số vùng tuyến tính 15

2.4.2 Phuong sai Jacobian 17

2.4.3 Số điều kiện của Kernel tiếp tuyến neural 18

ĐÈ XUẤT PHƯƠNG PHÁP 21

3.1.1 Mã hóa kết nồi 21

3.1.2 Mã hóa thuộc tính của node 22 3.1.3 Lai ghép chuyên biệt cho NAS 24 3.2 TF-MOENAS 26

3.3 MOENASWOT 28

THÍ NGHIỆM 30

4.1 Không gian tìm kiếm kết hợp được đề xuất 30

4.1.1 Kết quả & Thảo luận về NAS 31

Trang 4

4.1.2 Đánh giá kiến trúc 4.2 Phương pháp tiếp cận không qua huấn luyện trên benchmark NAS

4.2.1 Kết quả trên NAS-Bench-101 4.2.2 Kết quả trên NAS-Bench-201 4.2.3 Kết quả về chuyền giao kiến trúc 4.3 Phuong pháp tiếp cận không qua huấn luyện trên không gian tìm

kiêm thực tê

KÉT LUẬN

5.1 Tóm tắt

5.2 Hạn chế

5.3 Định hướng trong tương lai

Tài liệu tham khảo

Danh sách các hình

1.1 Minh họa lưu đồ tìm kiếm kiến trúc neural 2

2.1 Ví dụ về ĐỀ HN ưu hai mục tiêu tối ưu hóa độ lỗi mạng và số 0

lượng toán tử dau phay động trên tap dữ liệu ImageNet16-120

2.2 Một thuật toán EA điển hình ¿5+ c+ +2 se lì

2.3 Hình minh họa NSGA-II Ặ c2 eee 13

2.4 Vi dụ về các vùng tuyến tính của Mạng ReLU 16

3.1 Các mũi tên đứt nét biéu thị các kết nối không được mã hóa.

Bit cuối cùng trong mỗi pha đại diện cho kiểu pha (Pha Dense: 0 21

hoặc Pha Residual: Ï) ¿5+ ksk+t#vEkEkkskesrrrrrkrerrkerrke

3.2 Ví dụ về sự giao nhau đồng nhất dành riêng cho NAS với xác 23

suất giao nhau p, = 0,5 Các kết nối màu đen đại diện cho các kết

32

37

41 4

Trang 5

nối tương tự hoặc thuộc tính pha (loại pha) giữa hai kiến trúc mẹ

và các kết nối màu tím và màu vàng đại điện cho sự khác biệt.

Chuỗi bit mã hóa được chia thành các phan đại diện cho các kết

nối từ các node trước đó đến mỗi node hiện tại trong một pha.

Trong ví dụ này, bit cuối cùng trong mã hóa đại diện cho kiểu pha,

là pha Residual hoặc Pha Dense Trong quá trình giao nhau, các

bit trong cùng một nhóm sau đó sẽ được hoán đổi cho nhau Các

mối liên hệ tương tự giữa các cặp bố mẹ được giữ lại trong các

kiến trúc của thế hệ con cái Lưu ý rằng ví dụ chỉ minh họa một

trong hai con kiến trúc - - c2 1111222111 122211 12551112

3.3 Không gian tìm kiếm Macro hỗn hợp - -

-3.4 Ví dụ về biên Pareto của kiến trúc mạng tối ưu Pareto

4.1 Các biên đánh đổi NAS thu được bằng cách tiếp cận của

chúng tôi và NSGA-Net_ khi khối Dense hoặc khối Residual được

4.10 Biên pareto ba mục tiêu của archive mạng tối ưu Pareto thu

được từ các thí nghiệm của chúng tôi

4.2 Sự tiến triển trên biên đánh đổi giữa hai lần chạy

4.3 Minh họa kiến trúc: Lần 1 (trái) va Lần 2 (phải)

4.4 Trực quan IGD -c ch ky

4.5 Ví dụ về một kiến trúc trong NAS-Bench I01

4.6 Còn lại: Điểm IGD trung bình đối với số lượng đánh giá Thời

gian chạy trung bình trên NAS-Bench-101

4.7 Vi dụ về một cell trong NAS-Bench-201 -

4.8 Còn lại: Điểm IGD trung bình liên quan đến số lượng đánh

giá Thời gian chạy trung bình trên NAS-Bench-201

4.9 Biên xấp xi trên CIFAR-100 (trái) và ImageNet16-120 (bên

24 26 29

45

31 34

37

38 38

40

41

4

Trang 6

4.10 Kiểm tra độ chính xác liên quan đến số lượng phép toán dau

phẩy động trong các bộ dữ liệu khác nhau - +.

4.11 Tương quan giữa các chỉ số không cần huấn luyện đối với

các bộ dit liệu khác nhau -c-c<< ee ee eeaes

Danh sách các bảng

3.1 Phạm vi giá trị cho các toán tử cho mỗi giai doan

4.1 Xác thực kiến trúc trên CIFAR-10, CIFAR-100 và SVHN bộ

đữ liỆU SH HH nh TH Tnhh kh nh re

4.2 Cai dat NSGA-II cho các thí

nghiệm 4.3 Số lượng đánh giá kiến trúc cho mỗi benchmark

4.4 Kiểm tra độ chính xác so sánh với các phương pháp NAS

4.7 So sánh điểm IGD trung bình trên 30 lần chạy giữa các biên

gần đúng được tìm thấy trên CIFAR-10 và các biên tối ưu của

các bộ dữ liệu khác trong

NAS-Bench-201 -4.8 Xác thực kiến trúc trên CIFAR-1 0, CIFAR-100 và SVHN bộ

Trang 7

Danh mục từ viết tắt

NAS Neural Architecture Search

EA Evolutionary Algorithm

MOEA Multi Objective Evolutionary Algorithm

NTK Neural Tangent Kernel

LR Linear Region IGD Inverted General Distance

NSGA-II Non Dominated Sorting Genetic Algorithm II

CNN Convolutional Neural Network DAG Directed Acyclic Graph

FLOP Floating Point Operation

Trang 8

Tóm tắt khóa luận

Trong khóa luận này, chúng tôi cải thiện hiệu suất của quy trình Tìm kiếm kiến trúc neural tiến hóa đa mục tiêu (MOENAS) bằng cách (1) giới thiệu cơ chế mã hóa CNN cho phép các mô hình đã tạo được sử dụng dễ dàng mà không cần sửa đổi thêm, (2) sử dụng các chỉ số không cần huấn luyện trong giai đoạn đánh giá kiến trúc dé tăng tốc quá trình tìm kiếm, cũng như giảm van dé quá khớp trong NAS nơi các kiến trúc được tìm thấy có xu hướng hoạt động kém hơn trên các tập dữ liệu chưa gặp Về cách tiếp cận không qua huấn luyện, nhiều thử nghiệm trên các

benchmark được tính toán trước (ví dụ: NAS-Bench-101 và NAS-Bench-201) cho

thấy rằng cách tiếp cận của chúng tôi đạt được hiệu quả tuyệt vời trong việc tìm iém các biên Pareto của một loạt các kiến trúc thé hiện đánh đôi tối ưu Các kiến trúc mạng thu được bằng cách tiếp cận của chúng tôi trên CIFAR-10 cũng cho thấy

hả năng chuyển giao cao trên CIFAR-100 và ImageNet Bang cách sử dụng lại các chỉ số không qua huấn luyện trên cơ chế mã hóa CNN được đề xuất của chúng tôi, chúng tôi khẳng định lại những lợi ích tiềm năng của việc cho điểm kiến trúc mà hông qua huấn luyện trong việc giải quyết các vấn đề NAS trong thực tiễn.

Trang 9

CHƯƠNG 1

GIỚI THIỆU

1.1 Tìm kiếm kiến trúc neural

Gần đây, chúng ta đã chứng kiến hiệu suất vượt trội của các phương pháp học máy dựa trên mạng neural tích chập (CNN) trong việc giải quyết nhiều vấn đề thách thức, từ thị giác máy tính, robotic đến xử lý ngôn ngữ tự nhiên CNN hiện đại rat phức tap và chúng thường được thiết kế bằng cách sử dụng các bộ dữ liệu chuẩn tiêu chuẩn, chang hạn như ImageNet, CIFAR-10 [23] hoặc CIFAR-100 [23] Kiến

trúc của chúng có thể cần được sửa đổi hoặc tinh chỉnh để đạt được hiệu suất cần

thiết khi được sử dụng trong các ứng dụng trong thực tiễn đề giải quyết một nhiệm

vụ cụ thể với tập dữ liệu không chuẩn Các mạng neural sâu do máy tính tạo ra đã dần dần thay thế các kiến trúc hiện đại từ phương pháp thiết kế thủ công cồng kềnh trước đây, một quy trình đây tính thử và sai Tìm kiếm kiến trúc neural (NAS [2], [48]) cung cấp khả năng tự động hóa quá trình rườm rà này dé tìm kiếm kiến trúc mạng thích hợp cho một nhiệm vụ nhất định.

Tìm kiếm kiến trúc neural (NAS) [48] là nghiên cứu nhằm mục đích tỉnh chỉnh quy trình tự động như đã đề cập trước đó để tối đa hóa đầu ra mong muốn Hầu hết các thuật toán NAS có thé tạo ra một cách hiệu quả các kiến trúc mang neural sâu hiệu suất cao NAS có thể được coi là một van đề tối ưu hóa hộp đen vì hiệu suất của một mạng nhất định không thể được biết trước.

Do đó, NAS bao gồm ba thành phần chính:

* Không gian tìm kiếm NAS cung cấp một tập hợp các toán tử (tích chập, kết nối đầy đủ và pooling) và cách chúng có thể được kết hợp để xây dựng các thiết kế mạng khả thi Chuyên môn và những thành kiến không thể tránh khỏi của con người thường liên quan đến việc tạo ra không gian tìm kiếm.

Trang 10

Chương 1 Giới thiệu

* Chiến lược ước tính hiệu suất: Dé thuật toán tìm kiếm có thé học được, chúng

ta cần đánh giá, ước tính hoặc dự đoán hiệu suất của một số lượng lớn các môhình con được đề xuất Đánh giá ứng viên có thé tốn nhiều thời gian và chi

phí; do đó, một số phương pháp mới đã được phát triển để giảm thời gian và

tải nguyên tính toán.

* Chiến lược tìm kiếm: Phương pháp tìm kiếm NAS chọn một mẫu ứng viên

kiến trúc mang từ một tập hợp Nó tôi ưu hóa dé tạo ra các ứng cử viên kiến

trúc hiệu suât cao dựa trên các tham sô hiệu suât của mô hình con (ví dụ: độ

Hình 1.1: Minh họa lưu đồ tìm kiếm kiến trúc neural

Tóm lại, NAS tự động hóa quá trình con người điều chỉnh mạng neural sâu theo

cách thủ công và học những gì hoạt động tốt, cho phép khám phá các kiến trúc phức

tạp hơn.

1.1.1 Tìm kiếm kiến trúc neural đa mục tiêu

Các vẫn đề của NAS thường liên quan đến các mục tiêu cạnh tranh cần được xemxét đồng thời Một mặt, chúng tôi mong muốn tìm ra những kiến trúc đạt được độchính xác cao Tuy nhiên, mặt khác, chúng tôi thích các mạng nhỏ gọn với SỐ lượngnhỏ các tham số có thé huấn luyện hoặc ít hoạt động dấu phay động (FLOP) hơn.Một kiến trúc không tưởng toi ưu hóa đồng thời tat cả các mục tiêu xung đột hầu

như không tôn tại Thay vào đó, chúng tôi muôn có được cái gọi là bién Pareto của

Trang 11

Chương 1 Giới thiệu

các kiến trúc thé hiện sự đánh đổi tốt nhất có thể giữa các mục tiêu được quan tâm

Tất cả các kiến trúc này đều tối ưu theo nghĩa là nếu chúng ta muốn cải thiện mộtmục tiêu (ví dụ: độ chính xác dự đoán của chúng), thì ít nhất một mục tiêu khác (ví

dụ: số lượng tham số của chúng) phải được giảm bớt và ngược lại Các nhà nghiêncứu có thể so sánh đơn giản tất cả các kiến trúc này, xem xét sự đánh đổi của chúng

và chon một kiến trúc phù hợp cho nhiệm vụ/tập dữ liệu đã cho dé thực hiện Việc

ra quyết định dựa trên Pareto như vậy sẽ sáng suốt hơn nhiều so với việc giải quyếtmột vấn đề NAS đơn mục tiêu và có được một giải pháp duy nhất chỉ tối ưu hóamột khía cạnh duy nhất Do tính chất đa mục tiêu vốn có này, chúng tôi cho rangcác van dé của NAS tốt hơn nên được xử lý ban g cac thuat toan tién hoa da muc tiéu(MOEA), thuật toán này duy trì quan thé của các cá thé (mỗi cá thé tương ứng vớimột kiến trúc ứng viên) Được khởi tạo ngẫu nhiên, quần thể MOEA sau đó đượcphát triển bởi các toán tử lựa chọn (gitt lại các kiến trúc hứa hẹn và loại bỏ các kiếntrúc tệ) và các toán tử biến thể (tạo ra các kiến trúc mới dựa trên các kiến trúc hiệntal) dé dần dan tiệm cận biên Pareto-tối ưu thực tế có các kiến trúc có đánh đổi tốtnhất có thé

1.2 Thách thức và van đề tồn đọng

1.2.1 Tính thực tế của các kiến trúc do NAS tạo ra

Trong NSGA-Net [31], thuật toán di truyền sắp xếp không thống trị phiên bản II

(NSGA-II [7]) được sử dụng rộng rãi được sử dụng dé đạt được lợi thế đánh đổi chovấn đề NAS đa mục tiêu liên quan đến nhiệm vụ phân loại trên Bộ dữ liệu

CIFAR1O Tuy nhiên, kiến trúc được chọn từ biên đánh đổi - kết quả cuối cùng (tức

là kiến trúc có độ lỗi thấp nhất) sau đó được tinh chỉnh thêm bang cách thay đôi số

lượng filter của mỗi lớp trong mỗi khối tính toán dé đạt được hiệu suất mong muốn

Trang 12

Chương 1 Giới thiệu

Chúng tôi lập luận rang các sửa đôi như vậy và các cau hình lại kiến trúc khác

nên được tự động hóa bởi các thuật toán NAS để các kiến trúc thu được có thể được

sử dụng dễ dàng ngay lập tức.

1.2.2 Chi phí tìm kiếm khong lồ

Hau hết các thuật toán NAS đều yêu cầu một số chi phí tính toán cực kỳ cao do phảiđánh giá mạng học sâu Đối với mỗi kiến trúc ứng viên gặp phải trong quá trìnhchạy NAS, chúng tôi cần thực hiện nhiều epoch huấn luyện để có được các giá trịtham số mạng thích hợp, sau đó có thé được đánh giá dé xác nhận / kiểm tra độ lỗi.Một số công trình trước đó trên NAS đã báo cáo hàng nghìn ngày GPU cho việc tìmkiếm của họ Đã có nhiều nỗ lực để tăng tốc quá trình huấn luyện này, chắng hạnnhư sử dụng các mô hình thay thé dé dự đoán hiệu suất mạng hoặc sử dụng supernet

để chia sẻ trọng số của nó với các kiến trúc ứng viên (tức là các mạng con được lấymẫu từ supernet) Tuy nhiên, các phương pháp này có thé gặp phải các van đề khácảnh hưởng đến quá trình tìm kiếm, ví dụ như khó huấn luyện các mô hình thay thếtrên supernet hoặc mối tương quan kém giữa hiệu suất của supernet và các mạng

con của nó [3].

1.2.3 Quá khớp trong NAS

Các kiến trúc mang được NAS thu được nhằm tối ưu hóa độ chính xác của mạng cóthé là các giải pháp bị quá khớp chỉ hoạt động tốt trên cùng một tap dit liệu được sửdụng để đánh giá các kiến trúc ứng viên trong NAS và sẽ có hiệu suất kém khi được

sử dụng trên các tap dit liệu khác Một cách dé giải quyết van dé này là xem xét

không gian tìm kiếm Zolph và cộng sự [49] đề xuất một không gian tìm kiếm có

thé mở rộng có thé tách biệt giữa độ phức tạp và độ sâu của mang Không gian tìm

kiếm này chỉ tìm kiếm một lớp tích chập (hoặc cell) Khi được sử dụng trong mộttập dữ liệu lớn hơn, cell tốt nhất sau này có thể được xếp chồng lên nhau để tạo

Trang 13

Chương 1 Giới thiệu

thành một mạng sâu hơn với các lớp giống hệt nhau nhưng trọng lượng khác nhau.

Bằng cách này, chúng ta có thê có được hiệu suất phù hợp trên các tập dữ liệu nhỏ

hơn như CIFAR-10 [23] và các tập dữ liệu lớn hơn như ImageNet Tuy nhiên, khả

năng chuyển giao này chỉ có thể áp dụng cho không gian tìm kiếm với bản chất

chính xác của không gian tìm kiếm dựa trên các cell Trong nhiều tình huống thực

tế, chăng hạn như ngăn chặn các cuộc tấn công đối kháng, chúng ta cũng cần phảixem xét các kết nối giữa các lớp để giảm tính nhạy cảm của mạng đối với các cuộctan công như vậy Do đó, việc tìm kiếm các mạng có khả năng chuyển giao caotrong quá trình chạy NAS đo đó trở thành một van đề khó khăn hơn khi giải quyếttrong các không gian tìm kiếm khác

1.3 Đóng góp của chúng tôi

Dé giải quyết những vấn dé đó trong NAS, chúng tôi đã giới thiệu hai cách tiếp cậnkhác nhau liên quan đến cơ chế dựa trên huấn luyện và không huấn luyện, đó lànhững cải tiến dựa trên các công trình hiện có Những đóng góp của chúng tôi cóthé được tóm tắt như sau:

* Để cải thiện tinh khả thi của các kiến trúc do NAS tạo ra, chúng tôi giới thiệu

một phương pháp biéu diễn kiến trúc CNN toàn diện bao gồm các biến quyếtđịnh sự liên kết trong các khối tích chập và các thuộc tính khác như loại khối

và số lượng kênh, kích thước kernel và kích thước channel

* Thay vì huấn luyện từng giải pháp ứng viên để truy xuất độ chính xác của nó,

đây là một công việc tốn nhiều thời gian, chúng tôi sử dụng hai chỉ số dựa trên

lý thuyết: số điều kiện của NTK và số vùng tuyến tính dé ước tính hiệu suấtmạng sâu và độ phức tạp của nó để tìm kiếm kiến trúc hứa hẹn trên các

benchmark của NAS.

Trang 14

Chương 1 Giới thiệu

* Cuối cùng, chúng tôi xác minh tính hiệu quả của các số liệu không dùng

gradient descent được đề xuất băng cách tiến hành các thử nghiệm trên không

gian tìm kiếm NAS ngoài đời thực, là không gian tìm kiếm đã được tinh chỉnh

đã nói ở trên.

1.4 Kết cấu của luận văn

Phần còn lại của khóa luận này được tô chức như sau

* Chương 2 trình bày ngắn gọn kiến thức nền liên quan đến công trình của

chúng tôi, bao gồm tối ưu hóa đa mục tiêu, các chỉ số không cần huấn luyện

dé đánh giá kiến trúc, cùng với thuật toán tiến hóa

* Chương 3 giới thiệu các phương pháp đề xuất của chúng tôi: Insightful

NSGA-Net, MOENASWOT và TF-MOENAS Chúng tôi cũng cung cấp các

so sánh về khái niệm giữa các phương pháp của chúng tôi và các thuật toán

liên quan.

° Chương 4 mô tả các thiết lập thí nghiệm, phương pháp đánh giá được sử dụng

trong nghiên cứu của chúng tôi Chúng tôi so sánh với các phương phap cơ

bản dựa trên kết quả thử nghiệm và thảo luận về các phần mở rộng có thể cóđối với công trình của chúng tôi

* Chương 5 kết thúc nghiên cứu của chúng tôi và gợi ý những hướng đi tiềm

năng cho các công trình tương lai.

Trang 15

CHƯƠNG 2

TONG QUAN

Trong chương nay, chúng tôi tổng hợp lại những kiến thức cần thiết đằng sau côngtrình của chúng tôi Trong phần đầu tiên, chúng tôi giải thích về tối ưu hóa đa mụctiêu trong NAS Phần sau giới thiệu các phương pháp tiếp cận tiến hóa trong NAS(tức là NSGA-II) Phần cuối cùng được sử dụng để thảo luận về các số liệu khôngcần huấn luyện dé ước tính hiệu suất của kiến trúc CNN

2.1 Tìm kiếm kiến trúc neural tích chập

Mang neural tích chập (CNN) đã phô biến trong việc giải quyết các van đề về thịgiác máy tính kể từ sự thành công của AlexNet [24] trong thử thách ImageNet vàonăm 2012 [37] Nhiều nỗ lực đã được thực hiện đề cải thiện mô hình và cũng đã đạtđược những kết qua ấn tượng Một số mô hình tiêu biểu bao gồm ResNet [19],Inception [39], VGG [38] Những kiến trúc hiện đại này gợi ý rang các nhà nghiên

cứu có xu hướng làm cho mang neural sâu hơn dé thu được kết quả cạnh tranh Do

tính chất này, ngày nay việc thiết kế một mạng tích chập hiệu suất cao trở thànhmột nhiệm vụ phức tạp khó khăn khi các nhà nghiên cứu phải xem xét nhiều loạitoán tử và kết nói giữa mỗi lớp đồng thời tăng độ sâu của mạng để có kết quả tốt

hơn.

Tìm kiếm kiến trúc neural (NAS) đã được đề xuất dé giảm bớt nỗ lực của con

người bằng cách tự động tìm kiếm các kiến trúc tối ưu trên không gian tìm kiếmđược xác định trước Các kiến trúc do NAS tạo ra đã chứng minh tính hiệu quả của

chúng so với các mô hình được thiết kế thủ công trong việc giải quyết các vấn đề

nhận dạng hình ảnh, ví dụ: MobileNetV3 [20], EfficientNet [40], v.v.

Như đã dé cập trong chương 1, nền tảng xây dựng một bài toán NAS bao gồm

không gian tìm kiếm, phương pháp đánh giá và chiến lược tối ưu hóa.

Trang 16

Chương 3 Dé xuất phương pháp

Không gian tìm kiếm Về mặt toán học, mạng neural có thể được coi như mộthàm f chuyên một biến x thành một đầu ra y thông qua một loạt các phép biến đồi

Điều này có thé được biểu diễn dưới dạng đồ thị tính toán, trong đó mạng neural

được biểu diễn dưới dạng đồ thị chu trình có hướng (DAG) với tập hợp các node,mỗi node hoạt động như một phép toán Hiện có ba loại không gian tìm kiếm:không gian tim kiếm vĩ mô (macro), không gian tìm kiếm vi mô (micro) và khônggian tìm kiếm thuộc tính lớp (layer-attributes) Trong trường hợp này, không giantim kiếm macro mã hóa các lớp mang neural dưới dang các node trong đồ thị DAG

và mục đích của không gian tìm kiếm này là xác định kết nối giữa các node (hoặccác lớp) Kết nối ở đây có thé được coi là cách sử dụng đầu tiên của kết nối bỏ quatrong kiến trúc Res-Net Điều này có nghĩa là dé cải thiện huấn luyện cho các thiết

kế phức tạp Thay vì coi mỗi lớp là một node, &hông gian tim kiếm vi mô xử lý mỗinode như một phép toán biến đôi (ví dụ: tích chập chập 3 (conv3x3), pooling, v.v.)

để xây dựng lớp hiệu quả nhất Các lớp được thiết kế sau đó được xếp chồng lênnhau dé tạo thành toàn bộ kiến trúc Mục dich của NAS trong không gian tìm kiếmthuộc tính lớp là tìm kiếm các thuộc tính của các lớp trong kiến trúc như độ sâu (sốlớp) số lớp an), chiều rộng của mỗi lớp (số kênh trên mỗi lớp), kích thước kernel,v.v dé đảm bảo rằng kiến trúc được tối ưu hóa cho hiệu suất

Chiến lược tối ưu hóa Nói chung, các kỹ thuật tìm kiếm NAS thường liên quan

đến việc lay mẫu một nhóm các mạng con Nó học cách tạo ra các kiến trúc ứng

viên có hiệu suất cao bằng cách nhận các chỉ số hiệu suất của các mô hình con làmđiểm đánh giá Tim kiếm ngẫu nhiên chọn ngẫu nhiên một ứng cử viên kiến trúc khả

thi từ không gian tìm kiếm; không có mô hình hoc tập nao được sử dụng Kỹ thuật

này thường được sử dụng làm mô hình baseline cho các tuyến nghiên cứu khác

nhau Các phương pháp dựa trên lấy mdu là các kỹ thuật tối ưu hóa bậc 0 coi NAS

Trang 17

Chương 3 Dé xuất phương pháp

như một van đề tối ưu hóa hộp đen Một số phương pháp tiếp cận đại diện bao gồmReinforcement Learning (Học tăng cường), Tìm kiếm trên cây Monte Carlo hoặc

Thuật toán tiến hóa, chủ yếu dựa vào sự đánh đôi thăm dò và khai thác để phát triển

kiến trúc của mạng sâu Các phương pháp dựa trên Gradient (ví dụ: DARTS,One-shot NAS) coi NAS là một bài toán tối ưu hóa hai cấp, trong đó tối ưu hóa bên

ngoài là tôi ưu hóa một kiên trúc a , là một tập hợp các tham sô liên tục được ánh xa

từ không gian tìm kiếm rời rạc sao cho có bộ phù hợp của giá trị tham số 9, hàm mắt

vì các thiết bị cụ thê có thê có hạn chế về bộ nhớ hoặc yêu cầu thời gian phản hồinhanh Ngoài chiến lược huấn luyện từ đầu, nhiều nỗ lực để tăng tốc quá trình huấnluyện đã được thực hiện, chăng hạn như dự đoán đường cong học tập, sử dụng các

mô hình thay thế để dự đoán hiệu suất mạng hoặc sử dụng siêu mạng dé chia sẻtrọng số của no giữa các mô hình ứng viên (ví dụ: mang được lay mẫu từ supernet).Gần đây, Mellor và cộng sự [33] và Chen và cộng sự [4] giới thiệu các cách tiếpcận mới dé xếp hạng các kiến trúc ứng viên thông qua các số liệu được định hướng

về mặt lý thuyết, có thé tăng tốc quá trình tìm kiếm rất nhiều trong khi vẫn cho thaykhả năng tìm kiếm các kiến trúc xuất sắc Chỉ tiết được thảo luận trong phần 2.4

Trang 18

Chương 3 Đề xuất phương pháp

Floating point operations (Milions)

Hình 2.1: Vi dụ về biên tối ưu hai mục tiêu tối ưu hóa độ lỗimạng và số lượng phép tính dấu phẩy động trên tập dữ liệu

ImageNet16-120

2.2 Tối ưu hóa đa mục tiêu

Độ chính xác của mạng không phải là mục tiêu tối ưu hóa duy nhất khi áp dụng cho

các vấn đề trong thực tiễn Các mô hình nhận dạng hình ảnh qua mạng neural

không nhất thiết phải luôn được triên khai trên các máy trạm có sức mạnh tính toán

lớn dé dat được điểm số chính xác cao nhất Xu hướng hiện nay là thiết kế các kiến

trúc hiệu suất cao trong khi vẫn duy trì chi phí tính toán hợp lý cho các thiết bị di

động hoặc hệ thống nhúng Chúng ta cần xem xét nhiều mục tiêu, có thé xung dot,

chăng hạn như hiệu suất dự đoán, kích thước mô hình hoặc hiệu quả mạng, trong

đó không tồn tại một kiến trúc /ý ưởng duy nhất đạt được độ chính xác cao nhất

trong khi ít phức tạp tính toán Thay vào đó, một tập hợp Pareto gồm các kiến trúc

khác nhau đại diện cho sự đánh đổi tối ưu giữa các mục tiêu cạnh tranh Bao gồm

một mục tiêu bổ sung đại diện cho hiệu quả mạng, ví dụ: kích thước mô hình, độ

trễ khi tối ưu hóa, sẽ thực tế và sâu sắc hơn, nơi các nhà nghiên cứu có thể cân nhắc

các sự đánh đôi khác nhau cho

10

Trang 19

Chương 3 Đề xuất phương pháp

Population Initialization

Do tính chất đa mục tiêu vốn có này, một số công trình gần đây trên NAS đã

được ưu tiên xử lý bằng các thuật toán tiến hóa đa mục tiêu, duy trì và phát triển

một tap hợp các giải pháp ứng viên dé gần đúng với tập hợp các kiến trúc tối ưu

Pareto [31, 9].

2.3 Các thuật toán tiến hóa và thuật toán di truyền sắp xếp không chi phối II

2.3.1 Các thuật toán tiến hóa (EA)

Lần đầu tiên được giới thiệu bởi John Holland vào năm 1960, các quá trình tiễn hóa

sinh học truyền cảm hứng cho thuật toán tiến hóa (EA) EAs thường được sử dụng

để tìm kiếm giải pháp cho các bài toán tối ưu hóa hoặc các bài toán tìm kiếm cục

bộ thông qua mô phỏng các quá trình sinh học như đột biến, lai ghép), lựa chọn,

v.v., dé chọn giải pháp ứng viên tốt nhất cho bài toán đã cho Trong EAs, mỗi giải

pháp ứng cử viên cho vân đê tôi ưu hóa được EAs coi như một cá thê trong một

11

Trang 20

Chương 3 Dé xuất phương pháp 12

quan thé Cá thé EA được biểu thị như một kiêu gen trong đó mỗi gen được kết hợp

với một biến quyết định và mỗi nhiễm sắc thé đại diện cho một cá thé Sự phù hợp

(fitness) của mỗi cá thể, cho biết chất lượng của giải pháp tương ứng, được đánh

giá thông qua một hàm đánh giá phù hợp, được xây dựng dựa trên hàm mục tiêu

của bài toán tôi ưu hóa Một EA điển hình có hai toán tử chính: 1) /a chọn dé

chọn một tập hợp con các cá thể ưu tú có giá tri thể lực tốt hơn những cá thể khác

trong quan thê và 2) biến đổi dé tạo ra con cái mới từ những cá thé hiện có Vai trò

của toán tử chọn lọc là duy trì những đặc điểm có lợi được biểu diễn ở những cá thể

có thê trạng cao hơn của quần thể hiện tại để những đặc điểm này có thể được di

truyền và cải thiện hơn nữa trong các thế hệ sau Toán tử biến thé có thé được thực

hiện thông qua trao đổi lai ghép , t6 hợp lại các cá thé đã chọn (tức là các giải pháp

ứng viên hiện tại) để tạo ra con cái (ví dụ, các giải pháp ứng viên mới) và đột biến,

làm thay đối ngẫu nhiên các cá thể hiện tại với một xác suất nhỏ Việc thăm đò và

khai thác tìm kiếm được điều chỉnh thông qua các toán tử lựa chọn và biến thể này

Cùng nhau, quan thé được hội tụ về các vùng tốt hon trong không gian giải pháp

sau mỗi lần lặp lại

Hiệu suất của một thuật toán tiến hóa (EA) cho một vấn đề nhất định phụ thuộc

rất nhiều vào mức độ hiệu quả của các toán tử biến thé của nó trong việc tạo ra các

giải pháp tốt hơn từ các giải pháp hiện tại trong tổng thé Tuy nhiên, các toán tử

mặc định của EA cô điển, chăng hạn như lai ghép và đột biến, dễ gây ra sự gián

đoạn của các nền tảng xây dựng quan trọng trong việc tạo ra các giải pháp đầy hứa

hẹn.

2.3.2 Thuật toán di truyền sắp xếp không bị thống trị II

NSGA-II bắt đầu với một quan thé ban đầu gồm các cá thé được tạo ngẫu nhiên

Trang 21

Chương 3 Đề xuất phương pháp 13

(nghĩa là, mỗi cá thể ban đầu là một kiến trúc ứng viên ngẫu nhiên) Một toán tử

chọn lọc được sử dụng trong mọi thế hệ dé tạo thành một tập hợp chọn lọc các cáthể có triển vọng từ quần thé hiện tại Các toán tử biến đối, chăng hạn như trao đôi

lai ghép và đột biến, được thực hiện trên tập hợp chọn lọc dé tạo ra các cá thé con(tức là các kiến trúc ứng viên mới) Các quần thé hiện tại và con cái sau đó đượchợp nhất thành một nhóm Một quy trình sắp xếp không thống trị của Pareto đượcchạy để phân chia các cá thể thành các cấp bậc không thống trị khác nhau Các cáthé từ hạng 0, tạo thành cái gọi là bién không bi thống trị, không bị thống trị bởi bat

kỳ cá thé nào khác Một cá thé x! được cho là Pareto thống trị một cá thé khác x* néux! không tệ hơn x’ ở tất cả các mục tiêu va x! tốt hơn x? ở ít nhất một mục tiêu Các

cá thé có thứ hạng tốt hơn từ nhóm sau đó được chọn vào quần thể mới cho thế hệtiếp theo Những cá thể từ cấp bậc thấp hơn được ưu tiên hơn những cá thể từ cấpbậc cao hơn NSGA-II đã được sử dụng dé giai quyét các sự cố NAS đa mục tiêutrong [31, 9] Thuật toán 1 tóm tắt mã giả của NSGA-II

Trang 22

Chương 3 Đề xuất phương pháp 14

Algorithm 1 NSGA-II

Input: N’, g, f,(X) > N’ members evolved g generations to solve ƒ¿(X)

: Initialize Population P’;

Generate random population - size N’;

Evaluate Objectives Values;

Assign Rank (level) based on Pareto - sort;

Binary Tournament Selection;

Recombination and Mutation;

fori =1togdo

for each Parent and Child in Population do

Assign Rank (level) based on Pareto - sort;

Generate sets of non-dominated solutions;

Determine Crowding distance;

Loop (inside) by adding solutions to next generation starting from

the first front until N’ individuals;

13: end for

¬

14: Select points on the lower front with high crowding distance;

15: Create next generation;

16: Binary Tournament Tournament Selection;

17: Recombination and Mutation;

18: end for

Trang 23

Chương 3 Dé xuất phương pháp

2.4 Các chỉ số không qua huấn luyện dé đánh giá mạng

Hiệu suất của mang neural bị anh hưởng bởi tính biểu diễn và kha năng huấn luyện

cua nó [43, 15] Dé đạt được độ chính xác cao, kiến trúc mang cần cho phép mã

hóa các chức năng đủ phức tạp Đồng thời, kiến trúc mạng cần cho phép tham số

của nó được huấn luyện một cách hiệu quả bang gradient descent Chen va cộng sự

[3] đã giới thiệu một framework kiến trúc neural không cần huấn luyện (TE-NAS)

đánh giá các kiến trúc ứng viên về mức độ biểu diễn (thông qua số vùng tuyến tính

Ry) và kha năng huấn luyện (thông qua số điều kiện của NTK xy) Cả hai chỉ số Ry

và xy có thé được tính toán băng cách sử dụng các giá trị tham sỐ mạng khi khởi tạo

và do đó không liên quan đến bất kỳ huấn luyện nào Tối ưu hóa hàm kết hợp của

Ry va ky, thay vì trực tiếp tối ưu hóa độ chính xác của mạng, TE-NAS đã được

chứng minh là có được kiến trúc hiệu suất hàng đầu chỉ trong vòng bốn giờ bằng

cách sử dụng GPU 1080Ti [3].

2.4.1 Số vùng tuyến tính

Các hàm tuyến tính xác định theo khoảng (ví dụ, ReLU ) thường được sử dụng như

các hàm kích hoạt trong mạng neural sâu Mạng ReLU, có thể được xem như là

một thành phần của các hàm tuyến tính theo khoảng, do đó cũng biểu thị một hàm

tuyến tính theo khoảng Một mạng như vậy có thể chia không gian đầu vào của nó

thành các vùng tuyến tính, và trong mỗi vùng, hàm được mã hóa bởi mạng là affine

[45] Hình 2.4 mô tả các vùng tuyến tính của mạng ReLU

Tính biểu diễn của mang neural N có thé được biểu thị bằng số vùng tuyến tính

Ry phân vùng không gian đầu vào thành [18] Xiong và cộng sự [45] đã định nghĩa

một vùng tuyến tính R(P; Ø) là một tập hợp các điểm dt liệu đầu vào x mà khi

được chuyền tiếp qua mạng ReLU N với các giá trị tham số 0 mang lại cùng một

mẫu kích hoạt P(z) € { - l, + I } tại các neural z trong N Chúng ta có

15

Trang 24

Chương 3 Đề xuất phương pháp 16

R(P; 0) = { x € Không gian dau vào : z(x; 0) - P(z) > 0, Vz EN} (2.1)

Hình 2.4: Không gian đầu vào 2D được chia bởi mạng ReLU

thành các phan của vùng tuyến tính

trong đó z(x; Ø) biểu thị giá trị kích hoạt trước của đầu vào x tại neural z Một vùng

tuyến tính liên kết với mẫu kích hoạt P tôn tại nếu có ít nhất một đầu vào x thỏa

mãn z(x; 0): PZ) >0,VWVz€N Số vùng tuyến tính Ry » tai Ø do đó có thé được

tính bằng cách đếm số lượng các mẫu kích hoạt độc nhất

Ry, 9=| { R(P; 0) : R(P; 0) # 0 đôi với một số mẫu kích hoạt P } | (2.2)Trong khi vùng tuyến tính R(P; Ø) phụ thuộc vào Ø, Hanin và cộng sự [18] cho

thấy rằng, trong và sau khi huấn luyện, số vùng tuyến tinh Ry vẫn gần giống với giá

trị của nó lúc khởi tạo Do đó, không cần huấn luyện gradient descent để có được

giá trị cuối cùng Ø, chúng ta vẫn có thé tính gần đúng Ry bang cách sử dụng các giá

trị tham số mạng đã khởi tạo Chính xác hơn, Ry * Ey~ w[Ry, 9] , trong đó W là một

phân phối khởi tạo chắng hạn như khởi tạo Kaiming He [19]

Về các vấn đề của NAS, Chen và cộng sự [3] cho thấy Ry có tương quan thuận

với độ chính xác của kiểm tra mạng, với tương quan Kendall r là 0,5

! Được tạo tại https://colab.research.google.com/github/CIS-522/

Trang 25

Chương 3 Đề xuất phương pháp 17

Do đó, việc tôi đa hóa Ry sé khuyên khích việc tìm kiêm các kiên trúc hiệu suât cao.

Thuật toán 2 cung cấp chỉ tiết cách tính Ry

Algorithm 2 CALCULATENUMBEROFLINEARREGIONS(«)

// activation «

1: n,m SHAPE(#) > n: #input size, m: #neurons

2 $+ {} > s: # set of activation patterns

2.4.2 Phuong sai Jacobian

Đối với các vùng tuyến tính, khi các điểm dữ liệu dang được chuyên tiếp qua mang

ReLU với m neural, chúng ta thu được một mẫu kích hoạt trong mã nhị phân có độ

dài m mô tả một vùng tuyến tính mà mạng phân tách các đầu vào Nếu x, và x; trong

cùng một batch nhỏ tương ứng với các lớp khác nhau và các mẫu kích hoạt của

Trang 26

Chương 3 Đề xuất phương pháp 18

chúng tương tự nhau Trong giai đoạn huấn luyện, sẽ khó khăn hơn khi phân chia

chúng thành hai lớp riêng biệt.

Jacobian Covariance được giới thiệu với ý tưởng rằng bat kỳ kiến trúc nào cũng

có thé được coi là hiệu suất cao khi lúc khởi tạo, nó có thé tach không gian đầu vàothành các vùng tuyến tính đặc biệt Do đó, jacob_cov được cho điểm bang cách đokhoảng cách Hamming giữa các mẫu kích hoạt của các điểm đữ liệu trong cùng mộtbatch nhỏ, từ đó ước tính khả năng phân loại của các kiến trúc mạng tiềm năng

Theo Mellor và cộng sự [33], Jacobian Covariance tương quan thuận với độ chính

xác thử nghiệm của các kiến trúc trong NAS-Bench-201 (hệ số tương quan Kendall

r là 0,574) Do đó, tối đa hóa jacob_coy trong quá trình NAS, do đó sẽ hướng danthuật toán đến các kiến trúc chất lượng cao

2.4.3 Số điều kiện của Kernel tiếp tuyến neural

Trong khi tính biéu diễn cho biết mức độ phức tap của tập hợp các chức năng mà mộtkiến trúc mạng có thé biéu dién về mặt lý thuyết, khả năng huấn luyện (hoặc kha nănghọc hoi) liên quan đến mức độ hiệu quả của thuật toán giảm độ dốc có thé thu được

một bộ giá trị thích hợp cho các tham sé mang sao cho ham mat mat

U5 (6)i=1

được tối thiéu hóa [3] /Ø, x, là đầu ra của mang neural với các tham số Ø liên

quan đến đầu vào huấn luyện x,, y, là nhãn đích tương ứng và e(,) là số liệu lỗi Tại

mỗi lần lặp / của gradient descent, các thông số mang

¬

- > OL 8 .

được cập nhật dưới dạng Đa = 0 — TỊ 6 trong đó 7 > 0 là toc độ hoc Động lực

huấn luyện của mang neural liên quan đến trình tự {L (s)

Trang 27

Chương 3 Đề xuất phương pháp 19

Các công trình gần đây (vi dụ, Jacot và cộng sự [22], Du và cộng sự [14, 13], Arora

và cộng sự [1], Hanin & Nica [17]) đã chứng minh rằng động lực huấn luyện như

vậy có thể được nghiên cứu thông qua một khái niệm được gọi là kernel tiếp tuyến

neural (NTK)

nfo ¬ af(ax) 2/{8x,

(x, x] = (002) 9/03) (2.3)

vj a0 a8

trong đó Øf{Ø, x)/d, là gradient của đầu ra mạng của đầu vào huấn luyện x đối với

các tham số của nó Ø Gọi © train là ma trận trong đó phan tử (i, j) đại diện cho

NTK giữa các đầu vào huấn luyện x,, x, Một sé công trình (vi dụ: Du va cộng sự

[14, 13], Lee và cộng sự [ 25], Xiao và cộng sự [43]) đã chỉ ra rằng khi mang

neural được tham sô hóa qua mức (hoặc độ rộng của môi lớp là đủ rộng) toc độ hội

tụ của 0[9,) được điều chỉnh bởi phổ của © huấn luyện và tốc độ học 1:

E/7, x)] = (L- ey, (2,4)

ở đâu 2 , là giá trị đặc trưng cua © train Khi £ có xu hướng đến vô cùng, E[f(0, x;)]

=Ù, Điều kiện số Ky NTK © được định nghĩa là

À

Ky = = (2,5)

min

trong đó Amaxs Amin là các giá tri riêng lớn nhất va nhỏ nhất của NTK 6 Chen và

cộng sự [3] đã chi ra rằng khi tốc độ học tập tối đa có thé được tăng lên đến n~

2/amax > liên quan dén Phương trình 2.4, sự hội tụ sé xảy ra với tốc độ 1/xy Nếu Ky

phân kì, mạng N trở nên không thể huấn luyện được và sẽ có hiệu suất dự đoán

kém Các số điều kiện của NTK xy của các kiến trúc trong NAS-Bench-201 [10]

được chỉ ra là có tương quan nghịch (hệ số tương quan Kendall t là -0,42) với các

giá trị độ chính xác thử nghiệm của chúng [3] Giảm thiểu xy trong quá trình NAS,

Trang 28

Chương 3 Đề xuất phương pháp 20

do đó sẽ hướng dan việc tìm kiêm hướng tới các kiên trúc có thê huân luyện hiệu

quả băng cách giảm dân độ dôc và có khả năng có hiệu suât cao Thuật toán 3 cung

cap chi tiệt việc triên khai xy,

Trang 29

Chương 3 Dé xuất phương pháp 21

CHUONG 3:

DE XUAT PHUONG PHAP

Trong phan này, chúng tôi mô tả các phương pháp được dé xuất của chúng tôi,Insightful NSGA-Net, TTMOENAS và MOENASWOT, dựa trên cơ chế lai ghép

của chúng tôi Đối với tất cả các phương pháp được đề xuất, chúng tôi xây dựng

NAS như một bài toán tối ưu hóa hai mục tiêu, trong đó hai mục tiêu cạnh tranh, tức

là hiệu suất mô hình và độ phức tạp của mô hình, cần được xem xét đồng thời

Chúng tôi sử dụng thuật toán di truyền phân loại đa mục tiêu nổi tiếng (MOEA)thuật toán di truyền phân loại không chọn lọc II (NSGA-II) để thực hiện các thí

nghiệm NAS đa mục tiêu trên tap dữ liệu CIFAR-10.

3.1 Không gian tìm kiếm macro kết hợp để lựa chọn thuộc tính phù hợp

Nhiều kiến trúc hiện đại dựa trên CNN có thé được mô tả như một loạt các khối tinhtoán (còn được gọi là các pha) Mỗi khối tính toán được theo sau bởi một toán tửpooling dé giảm độ phân giải Mỗi giai đoạn bao gồm nhiều toán tử, được biểu diễndưới dạng các node trong biểu đồ Các node trong cùng một pha chia sẻ các thuộctính nhất định

3.1.1 Mã hóa kết nối

Chúng tôi mã hóa các kết nối node trong cùng một giai đoạn theo cách tiếp cận của

Lu và cộng sự [31] và Xie va cộng sự [44] Một kiến trúc được biéu thị là một tập

có thứ tự P = (, ø, , Py) với N là số pha Mỗi p, trong tập hợp là một đồ thị xoay

chiều có hướng gồm một dãy M node có thứ tự (n, ny, , Ny) Do đó, một kiến trúcCNN có thé được coi là một kiến trúc hình chuỗi Mỗi node là một đơn vị tính toán

cơ bản như tích chập, chuẩn hóa theo batch, hàm kích hoạt phi tuyén tính hoặc mộtchuỗi các toán tử Tắt cả tạo thành một bản đồ tính năng tương ứng Lưu ý rằng chỉ

các két nôi từ các node được đánh sô thâp hơn đên các node được đánh sô cao hơn

Trang 30

Chương 3 Đề xuất phương pháp 22

mới được mã hóa Trong một pha, kích thước khối (C x H x W) của tensor không

thay đổi Sau khi đi qua các toán tử của các node, dit liệu sẽ được xếp chồng theochiều sâu và sau đó được đưa vào lớp chập cuối cùng, lớp này sẽ điều chỉnh số

lượng kênh được chỉ định trong pha đó Sau mỗi giai đoạn là một sơ đồ giản lược độ phân giải thông qua toán tử pooling Trong giai đoạn cuối, global average pool

(GAP) được sử dụng để giảm việc quá khớp [27] Lớp pooling, cũng như phần

fully-connected, được loại trừ khỏi mã hóa.

Hình 3.1 minh họa mã hóa kết nói

dense: 0 hoặc Pha residual: 1).

3.1.2 Mã hóa thuộc tính của node

Điều quan trọng là phải xem xét phạm vi giá trị thuộc tính dé số lượng bit cần thiết

dé biểu diễn một kiến trúc không quá lớn Nếu kích thước van đề quá lớn, các thuậttoán tối ưu hóa sẽ khó có được các giải pháp chấp nhận được trong phạm vi khốilượng tính toán cho phép Hơn nữa, độ phức tạp của kiến trúc cũng cần được xemxét dé thiết kế các thuộc tính của node Không có phạm vi cố định cho các thuộctính của node; tuy nhiên, cần cân nhắc dé đưa ra quyết định đúng dan nham mang

Trang 31

Chương 3 Đề xuất phương pháp 23

lại kết quả tối ưu Hơn nữa, sự thay đổi của các thuộc tính này không được làm thayđổi kích thước khối của tensor

Lay cảm hứng từ nghiên cứu cua Wang và cộng sự [41], chúng tôi chon mã hóa

bốn thuộc tính sau: kích thước kernel, kích thước pool, số kênh và kiểu pha Kiểupha xác định một số tính toán lớp tân tiễn nhất (ví dụ: Pha đense [21], Pha residual[19], v.v.) Ví du, với một pha residual, mỗi node (lớp) sẽ bao gồm một tích chập,tiếp theo là batch norm và một hàm ReLU Lưu ý rằng toán tử pooling ở giai đoạncuối cùng, là global average pooling (GAP), bị loại trừ trong không gian mã hóa

Phạm vi của mỗi thuộc tinh được mô tả trong Bảng 3.1.

Kích thước pooling 1 2]

Các loại pha [Dense, Residual, Preact-Residual]

3.1.3 Lai ghép chuyén biét cho NAS

Các toán tử biến đổi của EA cần phải tinh đến các cau trúc của bài toán tối ưu hóa

để tạo ra các giải pháp con cái đầy hứa hẹn một cách hiệu quả

Các phương pháp tái tổ hợp cô điển, chăng hạn như toán tử lai ghép một điểm (1X)

và đồng nhất (UX), thường giả định các biến van đề là độc lập với nhau Tuy nhiên,

biểu diễn kiến trúc neural của chúng tôi được đề xuất trong Phan 3.1.1 chỉ ra rằng các

biến mã hóa cùng một nhóm kết nối hoặc cùng một thuộc tính Node thể hiện sự phụthuộc nhất định Các điểm giao nhau hoàn toàn ngẫu nhiên trong quá trình tái tổ hợpgiải pháp có thể vô tình phá vỡ cấu trúc mạng, làm cho thuật toán có hiệu suất kém

Do đó, chúng tôi tùy chỉnh toán tử lai ghép của NSGA-II như sau.

Trang 32

Chương 3 Đề xuất phương pháp 24

Dense-Block Phase Res-Block Phase

ofo} fo]rfo] [1]+[+fo] [offs] m

cho các kết nối từ các node trước đó đến mỗi node hiện tại trong

một pha Trong vi dụ này, bit cuối cùng trong mã hóa đại diện

cho kiểu pha, đó là pha residual hoặc pha dense Trong quá trình

giao nhau, các bit trong cùng một nhóm sau đó sẽ được hoán đôi

cho nhau Các mối liên hệ tương tự giữa các cặp bố mẹ được giữlại trong các kiến trúc của thế hệ con cái Lưu ý rằng ví dụ chỉminh họa một trong hai kiến trúc con

Chúng tôi phân vùng các biến vấn đề (nhị phân) của chúng tôi thành các nhómkhác nhau, trong đó các biến trong cùng một nhóm có liên quan với nhau Lai ghép

đồng nhất sau đó được thực hiện theo cách dựa trên nhóm thay vì dựa trên baseline

Trang 33

Chương 3 Đề xuất phương pháp 25

của các biến Cu thé hơn, trong quá trình trao đổi lai ghép của hai cá thé, đối với

mỗi nhóm biến, một số ngẫu nhiên p, € [0, 1] được tạo ra Nếu Pe © p tức là xác

suất lai ghép, giá trị của tất cả các biến trong nhóm đó sẽ được hoán đổi với nhau.Bằng cách này, các biến liên quan được xử lý chung trong quá trình kết hợp lại giảipháp, do đó làm giảm bớt sự gián đoạn cấu trúc

Hình 3.2 đưa ra một minh họa cho toán tử lai ghép dành riêng cho NAS.

Tóm lại, dé thiết kế kiến trúc hiệu suất cao, chúng tôi đã chuẩn hóa một mạngneural sâu dưới dạng đồ thị chu trình có hướng (DAG) Một DAG chứa một tập hợpcác node; mỗi node biểu thị một lớp mạng (bao gồm các hoạt động tích hợp khác

nhau) trong NAS macro và một đơn vị hoạt động đơn lẻ trong NAS vi mô Một

mạng sâu với các lớp xếp chồng lên nhau liên tục mà không có kết nối bỏ qua giữacác lớp thường dẫn đến hiệu suất dự đoán kém Do đó, chúng tôi cố gắng tìm ra sựkết hợp của các DAG trong một kiến trúc có thê đạt được kết quả tốt nhất về độchính xác của phép thử thông qua macro NAS Đối với macro NAS, mỗi cung trong

biéu đồ đại diện cho kết nối giữa các lớp, thường được biểu thị dưới dang các kếtnối Nghiên cứu trước đây của chúng tôi cho thấy răng bằng cách kết hợp lựa chọn

thuộc tính cho lớp tích chập trong mỗi giai đoạn trong quá trình tìm kiếm, các kiến

trúc kết quả có thé được sử dụng dé dàng mà không cần sửa đổi thêm dé đánh giá

tập dir liệu Hình 3.3 giải thích ngắn gọn ý tưởng của chúng tôi trong việc thiết kế

không gian tìm kiêm kiên trúc neural.

Ngày đăng: 03/11/2024, 18:57

w