những phương pháp như vậy là Zero-Shot NAS, nhăm giảm chỉ phí tìm kiếm thông quaviệc sử dụng các cơ chế được thiết kế thủ công dé dự đoán hiệu năng của các kiến trúc ứng viên mà không câ
NAS không cần huấn luyện (Zero-Shot NAS)|
Zero-Shot NAS được tạo ra để giảm gánh nặng tính toán của NAS Các quy trình
NAS truyền thống sử dung tài nguyên tính toán cực lớn, chẳng hạn như quy trình đề xuất bởi Zoph và Le sử dụng 1800 ngày GPU trên một Tesla P100 GPU. Các công cụ ước tính hiệu năng của kiến trúc mạng nơ ron thực sự đã tồn tại trước khi phương pháp NAS xuất hiện Chúng là số lượng tham số và độ sâu của các cấu trúc mạng nơ ron Sự vượt trội của các mô hình sâu và lớn so với các mô hình nông và nhỏ chính là động lực đầu tiên của việc phát triển các kiến trúc học sâu sơ khai.
Dẫn tới việc tạo ra các mô hình như LeNet-5 [2s] AlexNet br] VGGNet [47] Kiến thức chuyên môn về kha năng biểu đạt (functional expressivity), năng lực (capacity) và tính dễ huấn luyện bằng SGD (SGD trainability) của mô hình hoc sâu đã dẫn tới việc tạo ra các hàm dự đoán hiệu năng của kiến trúc tỉnh vi hơn.
Công trình của Mellor và cộng sự cho thấy rằng NAS có thể được thực hiện mà không cần thực sự tối ưu hóa kiến trúc Để ước tính hiệu năng của kiến trúc tại khởi tạo, họ đo sự khác biệt giữa hai mã nhị phân xây dựng từ kết quả một mô hình với hai đầu vào khác nhau (ví dụ như hai mã nhị phân sinh ra từ một kiến trúc ResNet50 với đầu vào 2 bức ảnh ngẫu nhiên trong tập CIFAR-10) Phương pháp của họ được sử dụng với vai trò là một chiến thuật đánh giá hiệu năng cho các thuật toán tiến hóa Các phương pháp này thu được mối tương quan từ trung bình đến mạnh trên các không gian tìm kiếm NDS, trên cả tập dữ liệu CIFAR và ImageNet.
Công trình của Chen và cộng sự |9| xếp hạng các kiến trúc dựa trên tính dễ huấn luyện (SGD trainability) và tính biểu dat (functional expressivity) của chúng Tính dễ huấn luyện của mô hình là mức độ dễ dàng sử dụng phương pháp Gradient Descent để tối ưu các mạng nơ ron Họ sử dụng Neural Tangent Kernel (NTK) làm chỉ báo cho tính dễ huấn luyện của mạng nơ ron từ công trình của Xiao và cộng sự (58) Kha năng biểu đạt của các mô hình là độ phức tap tối đa của hàm mà mô
25 hình có thể biểu đạt được, hay còn gọi là mức độ phi tuyến tính của các hàm Để đo sự phức tạp của các mô hình, họ đếm số lượng các vùng tuyến tính (linear region counting), dựa trên công trình của Xiong và cộng sự (60) Đóng góp của ho nam ở việc phát minh Zero-Shot NAS thời kỳ đầu, bằng cách kết hợp 2 chỉ báo và tạo ra cách tìm kiếm sử dụng chúng Để ngăn cản một chi báo chiếm uu thế hoàn toàn so với chỉ báo khác, họ sử dụng phương pháp xếp hạng tương đối thay cho việc sử dụng một kết hợp tuyến tính Thuật toán tìm kiếm của họ dựa trên nguyên lý cắt tỉa theo mức độ quan trọng (prune-by importance) Ho đã tìm ra SoTA trên không gian tìm kiếm DARTS cũng như có chỉ phí tìm kiếm cực nhỏ.
Công trình của Abdelfattah và cộng sự [1| sử dụng các số liệu là kết quả của công việc cắt tỉa mạng (network pruning) để tạo ra các hàm ước lượng hiệu năng không cần huấn luyện (zero-shot performance estimator) Các độ đo Saliency được sử dụng trong bài nghiên cứu này là snip [29] grasp (56), fisher va synaptic flow (synflow)
(51) Chúng dùng tổng điểm saliency của tất cả các tham số làm chi báo cho hiệu năng kiến trúc Các proxy của chúng tương tự với số lượng của các tham số, được khỏm phỏ ở Bù| Họ đó thực nghiệm trờn quy mụ lớn và phương phỏp của họ vượt trội hơn các chỉ báo trước đó trên NAS-Benchmark như NAS-Bench-201 [14],
NAS-Bench-101 (61), và NAS-Bench-ASR [36|.
Công trình của Lin và cộng sự giới thiệu một chỉ báo không dựa trên độ lớn của tham số/ gradients là Zen-Score tạo ra từ ®-score ®-score là chi báo khả năng biểu đạt của kiến trúc (functional expressivity) Điểm số ®-score được tính toán thông qua độ phức tap gaussian tại mỗi vùng tuyến tinh Để làm cho Zen-Score không nhạy cảm với độ lớn, họ điều chỉnh độ lớn điểm số ®-score bằng phép nhân với phương sai của các lớp Batch Normalization (BN) Họ cho thấy một phương pháp chỉ với tối đa sự phức tạp của kiến trúc có thể tìm ra các mạng có hiệu năng cao trong không gian mang vanilla (là không gian các kiến trúc sequential với skip connection) Tuy nhiên phương pháp của họ không thể sử dụng trong các không gian có thiết kế đặc biệt, như là các không gian thiết kế NDS |42| Nó phát hiện ra các kiến trúc có hiệu năng cao trong không gian tìm kiếm MobileNetV3 và là phương pháp Zero-Shot NAS
26 đầu tiên vượt qua phương pháp prediction-based NAS trên ImageNet.
NAS dựa trên dự đoán (Prediction-based NAS)}
Prediction-based NAS mô tả một nhóm các phương pháp trích xuất thông tin cấu trúc (topological information) của kiến trúc để hồi quy (regress) hiệu năng của kiến trúc từ một mẫu kiến trúc trên không gian tìm kiếm (a sample of architecuture in a search space) Các công trình ban đầu của NAS dựa trên dự đoán (Prediction-based NAS) xoay quanh phép ngoại suy đồ thị huấn luyện (learning curve extrapolation). Phép ngoại suy đồ thị huấn luyện dừng việc huấn luyện các kiến trúc tệ (cho bài toán NAS) hoặc có bộ siêu tham số huấn luyện (training hyperparamters) tệ để làm giảm chỉ phí tính toán Công trình của Klein và cộng sự đề xuất một mô hình xác suất để xây dựng đồ thị huấn luyện (learning curve) Phương pháp của họ tương tự như [13], sử dung các hàm cơ bản để ngoại suy các đồ thi huấn luyện từ thông tin hiệu năng của kiến trúc đã được huấn luyện một phần Sự khác biệt của phương pháp này so với phương pháp cổ điển là sự ứng dung của mạng no-ron Bayes (Bayesian Neural Network) trên đầu vào là hyper-parameter Việc này cho phép chia sẻ kiến thức giữa những đồ thị huấn luyện khác nhau, mang lại hiệu qua dữ liệu (data-efficiency) tốt hơn phương pháp trước đó [I3] Họ thực hiện các thí nghiệm trên các Convolutional Neural Network nhỏ và lớn trên tập dữ liệu CIFAR
(26) Các mô hình vượt qua các phương pháp trước đó và thậm chi cho thấy mối tương quan mạnh giữa độ chính xác dự đoán và độ chính xác trên tập test Phương pháp trên cũng có thể được sử dụng trong NAS với các hyperparameter liên quan tới đặc trưng kiến trúc, như là số lượng các filter, kích thước của kernel (kernel size)) của lớp convolution s?° v.v.
Công trình của Kandasamy và cộng sự sử dụng Gaussian Process (GP) với vai trò là một mô hình surogate (surogate model) để dự đoán hiệu năng của kiến trúc và sử dụng thuật toán tối ưu hóa Bayes để tìm kiếm một cách hiệu quả các kiến trúc tốt Quy trình Bayes của họ kết hợp vận chuyển tối ưu dựa trên khoảng cách. Kernel được sử dụng là một độ đo sự khác biệt giữa các kiến trúc nơ-ron khác nhau
(optimal transport metrics for neural network architecture - OTMANN) Với sự trợ giúp của GP, NASBOT có thể tim thấy các kiến trúc MLP tốt hơn cho bài toán hồi quy: blog feedback (4), indoor location (53), slice localization (17), naval propulsion
10|, protein tertiary structure {44}, news popularity va kiến trúc CNN cho tác vu phan loai: CIFAR-10 [26], khi so sánh với TreeBO, EA, RAND NASBOT cho thấy hiệu năng thấp hơn các công trình trước đó trên các không gian tìm kiếm nhỏ.
Những phương pháp tân tiến trong kỹ thuật xử lý đồ thị như Graph Convolutional Network (GCN) đã thay thế các phương pháp tính toán khoảng cách phức tap cho thật toán tối ưu hóa Bayes Công trình của Duziak và cộng sự là một trong những công trình ban đầu sử dụng kỹ thuật này (GCN) trong Tìm kiếm Kiến trúc
Mạng Nơ-ron (NAS) Họ giới thiệu phương pháp transfer learning từ tác vụ dự đoán độ trễ (latency prediction) để hỗ trợ tác vụ dự đoán độ chính xác tập test
(test accuracy prediction) Lưu ý rằng, phép đo độ trễ rẻ hơn nhiều so với phép đo độ chính xác; do đó, họ có thể tái sử dụng đặc trưng được huấn luyện từ một tập dữ liệu lớn hơn nhiều để giải quyết việc dự đoán độ chính xác với lượng dữ liệu hạn chế Áp dụng phương pháp transfer learning tăng hiệu năng của hàm dự đoán từ
0.834% lên 0.890%, tính toán sử dụng hệ số tương quan Spearman giữa chỉ báo và độ chính xác tập test trên NAS-Bench-201 [HÌ: Ngoài ra, bài viết của họ đề nghị phương pháp lặp để chọn dit liệu (iterative data selection) Phương pháp này nhằm mục đích xếp hạng các k kiến trúc hàng đầu thay vì các kiến trúc có hiệu năng thấp. Bằng cách sử dụng iterative data selection, phương pháp của họ hoạt động tốt hơn trong quy trình End-to-End NAS trên NAS-Bench-201 và NAS-Bench-101 benchmarks Ngoài ra, họ đã thành công đạt được độ chính xác trên tập test 97.6% trên CIFAR-10 trong không gian tìm kiếm DARTS [32].
Công trình cua Lu va cộng sự sử dụng một transformer thay thé cho GCNs hoặc MLP cho việc mã hóa cấu trúc Đóng góp chính của họ nằm ở phương pháp xử lí đồ thị kiến trúc bằng một transformer với phương pháp mã hóa vị trí (positional encoding) dựa trên ma trận Laplace Đồ thị Laplace được biến đổi bằng một multi-
28 layer perceptron để thực hiện mã hóa vị trí cho transformer Quy trình tự tiến hóa (self-evolution) sử dung learning curve trên tập validation để tối ưu hóa qui trình
NAS mà tránh được hiện tượng quá khớp (overfitting), Phương pháp của họ đã đạt các kết quả tốt trên tat cả NAS-Benchmarks và 97.48% trên không gian tìm kiếm
Phương pháp đề xuất của chúng tôi có 3 phần chính: xây dựng mô hình chỉ báo hiệu năng kiến trúc, phương pháp tối ưu hóa, và phương pháp ứng dụng tích hợp vào một quy trình end-to-end NAS. ô Việc xõy dựng chỉ bỏo hiệu năng được tập trung vào cơ chế đại diện, được trình bày chỉ tiết ở phần Các chỉ tiết cụ thể về biểu diễn các thành phần mạng nơ ron được mở rộng trong phan|[4.2] nhấn mạnh vào phép biểu diễn dựa trên Biến Đổi Fourier cho các lớp tích chập Phần giải thích cách chúng tôi sử dụng các đặc trưng được trích xuất để tính toán các hiệu năng của kiến trúc. ô Vộ vấn đề tối ưu húa mụ hỡnh, chỳng tụi sử dung một phương phỏp xếp hạng khả vi dựa trên vận chuyển tối ưu Việc này, kết hợp với phương pháp lặp
(iterative method), cho phép chúng tôi tận dụng tối đa nhiều tập dữ liệu kiến trúc có sẵn Chỉ tiết ở phần {4.4] ô Đối với thuật toỏn tỡm kiếm, chỳng tụi triển khai ba chiến lược thuật toỏn tiến hóa (EA) phổ biến, được thiết kế cho thuật toán rời rac (thuật toán di truyền đơn giản), liên tục (tiến hóa vi phân (48}), va da muc tiéu (NSGA (11}) Thuat toán này được trình bày ở phan [4.5]
4.1 Cơ ché đại diện lộ những nghiên cứu trước, Zero-Shot NAS biểu diễn các phép biến đổi nơ-ron bằng tính biểu đạt (expressivity) của các phép biến đổi đó Ví dụ, Zen-NAS sử dụng tổng logarit (log-sum) của các vi phân hữu hạn của một mạng nơ ron (dựa trên độ phức tạp Gaussian trung bình) và phương sai trung bình của các lớp BN (batch normalization) là độ phức tạp của hàm Ngược lại, cơ chế đại diện của chúng tôi tạo ra một phương pháp véc-tơ hóa cho các kiến trúc nơ-ron và sử dụng mang nơ ron để có thể phân biệt giữa các kiến trúc tốt và không tốt Nguyên tắc thiết kế của chúng tôi hướng đến các kiến trúc giống nhau sẽ tạo ra các đại diện giống nhau.
Cơ chế đại diện| Q Q Q ee ee 31 4.2_ Biểu diễn mạng nơ-ron| c cv 35
Biểu diễn lớp Convolution|
Các công trình như BRP-NAS áp dung Graph Convolutional Networks (GCN), chứng minh rang các phép biến đổi tuyến tính giống nhau có thể hiệu quả mô tả các lớp convolution khác nhau trong một kiến trúc mạng nơ-ron Đây là lý do chúng tôi sử dụng một kernel tích chập chung (shared convolutional kernel) để biểu diễn mọi phép tích chập (convolution) Cách tiếp cận này cũng đảm bảo đại diện cho mỗi lớp tích chập (convolution) được xác định (deterministic) giúp quá trình học thuận lợi hơn Nếu sử dụng đầu ra ngẫu nhiên từ khởi tạo, các kỹ thuật xử lý tổ hợp như có thể được ứng dụng Chúng tôi lựa chọn phương pháp shared convolutional kernel cho các đầu ra không ngẫu nhiên nhằm tiết kiệm chi phí tính toán.
Hình dáng của kernel tích chập phụ thuộc vào siêu tham số của lớp tích chập, bao gồm số lượng kênh đầu vào (input channel), kênh đầu ra (output channel), kích thước kernel (kernel size), padding, Việc này làm cho việc học ma trận trọng số chung trở nên không thực tế Vì vậy, chúng tôi cần tạo ra một phương pháp có thể xây dung ma trận trọng số dựa trên cấu hình của lớp convolution Chúng tôi sử dung phép Biến Đổi Fourier (FT) để xây dựng ma trận trọng số chung, cụ thể là cường độ của biến đổi Fourier với hệ cơ sở trực giao (orthonormal basis) Dé điều chỉnh
35 cấu hình kênh và kích cỡ kernel, chúng tôi sử dụng phép zero-padding và trimming trước khi áp dụng phép biến đổi Fourier rời rac (Discrete Fourier Transform (DFT), von là các kỹ thuật xử lí tín hiệu cơ bản nhất.
Cho X[k](n = 1,2, , K) là chuỗi biến đổi Fourier rời rac biến đổi từ chuỗi z[n](n 1,2, ,N) Giá trị trung bình và phương sai của các hệ số DFT có thể được xác định như sau:
Cac phuong trinh va cho thấy sử dung phương pháp zero-padding sẽ thay
2 “ =} ~~ [IN ÔN , đối giá trị trung bình và của các hệ sô DFT theo hệ sô KEK tương ứng Do
Z a Z As : A a N 2 2 N wa đó, néu N < K, chúng tôi chia ma trận trọng số cho K dé bảo toàn giá trị trung bình và phương sai.
Chúng tôi lưu trữ tần số của convolutional kernel dưới dang kernel map nin X Nout Để điều chỉnh kích cõ của những bản đồ kernel này và tạo ra số lượng mong muốn của các ban đồ kernel, chúng tôi sử dụng 2d DFT và 1D DFT lần lượt tương ứng Quy trình này sử dụng phép Biến Đổi Fourier Nhanh (Fast Fourier Transforms (FFT)) cùng với phương phấp zero-padding hoặc trimming.
4.2.2 Đơn vị hoá phương sai
Chúng tôi phân biệt thuật ngữ don vi hóa phương sai (variance unitization), dùng để chỉ phép chia cho độ lệch chuẩn, với phép chuẩn hóa, trừ đi giá trị trung bình trước khi chia cho độ lệch chuẩn.
Khởi tạo Kaiming He là phương pháp được thiết kế để bảo toàn phương sai của đầu vào của một lớp sau khi áp dụng ham activation ReLU Phương pháp này khởi tao
36 ma trận trọng số bằng cách sử dụng phân phối chuẩn với giá trị trung bình là 0 và phương sai là n trong đó n là số lượng của các kênh đầu vào của ma trận trọng số Tương tự, sau khi áp dụng phương pháp biểu diễn convolution, chúng tôi chia đầu ra cho 2 trong đó n là số lượng các kênh đầu vào Chúng tôi coi 2 la hé số đơn vị hóa trong ngữ cảnh nay Tuy nhiên, với sự hiện diện của các mô hình đa nhánh với các liên kết dư (multi-branch model with skip connections), việc chia ma trận trọng số cho V2 không duy tri phương sai bằng một Để giải quyết vấn đề này, chúng tôi đề xuất một thuật toán v-norm (chuẩn hóa biến) để tính hệ số đơn vị hóa
(unitization factor) cho mỗi lớp convolution Thuật toán v-norm chia việc tính toán biểu diễn mạng nơ-ron thành 2 quá trình lan truyền xuôi (forward passes): một để tính hệ số đơn vị hóa và một để sử dụng hệ số đơn vị hóa nhằm tính điểm số Chúng tôi tách việc tính toán thành 2 quá trình lan truyền xuôi bởi vì chúng tôi không muốn chuyển hoặc lưu trữ đạo hàm của quá trình lấy mẫu Lưu ý rằng trong khi mô hình được sử dụng để thí nghiệm/tìm kiếm, việc tính toán hai quá trình lan truyền xuôi là không cần thiết vì chúng tôi không cần đạo hàm Khi tính toán hệ số đơn vị hóa cho từng lớp biểu diễn convolution, thuật toán thực hiện các bước sau:
1 Tiếp nhận đầu vào hoặc đầu ra của lớp trước đó.
2 Tính toán đầu ra của lớp tích chập bằng cách sử dụng kernel tích chập chung
3 Lưu trữ độ lệch chuẩn của dau ra làm hệ số đơn vị hóa.
4 Chia đầu ra đã được tính cho hệ số đơn vị hóa.
5 Cung cấp tensor đầu ra cho lớp tiếp theo.
Thuật toán v-norm giúp ngăn chặn hiện tượng độ lớn tensor tăng trưởng theo cấp số nhân khi mô hình áp dụng tích chập nhiều lần bằng một kernel duy nhất Điều này làm cho mô hình giúp dễ dàng tối ưu hóa hơn Tuy nhiên, việc đơn vị hóa có thể dẫn tới một số mat mát về thông tin về kích cỡ mô hình.
Biểu diễn lớp không phải là Convolution 38
lộ đây, chúng tôi sử dụng phương pháp đơn giản để biểu diễn các lớp batch normal- ization, lớp pooling và hàm activation Các phép Average pooling, max pooling và các ham activation ReLU được biểu diễn bằng chính nó Chúng tôi biểu diễn lớp chuẩn hóa theo chiều batch bằng cách thực hiện chuẩn hóa theo chiều batch của tensor và thêm chiều batch vào tensor đầu vào (input-like tensor).
Với liên kết phần dư, dựa trên lý thuyết đại số thông tin cổ điển của Shannon, chúng tôi sử dụng phép cộng để biểu diễn sự kết hợp thông tin giữa 2 lớp:
4.3 Xây dựng mạng cham điểm (scorer)
Việc tính toán chỉ báo hiệu năng mang ro ron liên quan tới 3 bộ tham số: input-like tensor I, shared convolutional weight W, và trọng số của multi-layer perceptron.
Việc tao ra dic trưng từ kiến trúc, được thực hiện bằng cách thay thé các lớp convolution bằng các đại diện sử dung shared convolutional weight W.
Bởi vì chuẩn hóa theo batch của chúng tôi bổ sung thêm một chiều batch vào input- like tensor, chúng tôi kết hợp hai phép biến đổi tuyến tính theo kênh và một MLP theo batch (MLP,)) Phép biến đổi tuyến tinh đầu tiên, L,, có số lượng kênh đầu vào biến đổi và số lượng kênh đầu ra cố định Nó sử dụng trọng số tích chập được chia sẻ, điều này cho phép trích xuất thông tin có giá trị từ trọng số, ngay cả với dữ liệu hạn chế Chúng tôi xây dựng một kernel tích chập 1 x 1 cho phép biến đổi tuyến tinh Ly
Hàm kích hoạt SymLog được sử dung giữa hai phép biến đổi tuyến tinh nhằm xử lý sự biến đổi trong quy mô tensor giữa các kiến trúc và không gian kiến trúc khác nhau Việc sử dụng hàm kích hoạt này được lấy cảm hứng từ nghiên cứu của Hafner
Xây dựng mang cham điểm (scorer)|
Phép biến đổi tuyến tính thứ hai, Ly , nhận đầu ra của SymLog(L,) làm đầu vào và tạo ra một kênh đầu ra duy nhất Dau ra của Ly được chuyển vị (hoán đổi thứ tự giữa chiều batch và chiều kênh, rồi loại bỏ chiều kênh) trước khi được đưa vào mạng MLP theo batch (MLP¿) Lớp cuối cùng của MLP¿ là một phép biến đổi tuyến tinh với kích thước đầu ra là 1, cho biết điểm số của kiến trúc. Đối với các biến thể sử dụng thuật toán v-norm, chúng tôi thêm vào một lớp cho quá trình chấm điểm nhằm đơn vị hoá phương sai đầu ra của phép biến đổi tuyến tính L, Mặc dù việc sử dụng thuật toán v-norm kết hợp với việc đơn vị hóa sau Ly khiến việc sử dụng hàm kích hoạt SymLog trở nên không cần thiết, chúng tôi quyết định giữ nó để thuận tiện cho việc thiết kế, mở đường cho sự kết hợp trong tương lai của các bộ trích xuất tôpô với nhiều loại khác nhau Toàn bộ quá trình được mô tả trong Hình [4.1] và hàm SymLog được định nghĩa trong Phương trình [4.3]
4.4 Tối ưu hóa mô hình
4.4.1 Tối ưu hóa trong một không gian duy nhất
Phương pháp NAS dựa trên dự đoán trước đây (BRP-NAS) đã sử dụng phương pháp dự đoán quan hệ nhị phân Họ nhận thấy rằng việc học điểm số dễ dàng hơn so với dự đoán độ chính xác Phương pháp dự đoán quan hệ nhị phân sử dung O(n?) cặp quan hệ nhị phõn từ ứ cặp kiến trỳc-độ chớnh xỏc Tuy nhiờn, phương phỏp này gán trọng số bằng nhau cho tất cả các điểm dữ liệu quan hệ nhị phân, điều này có thể là một hạn chế Thay vào đó, chúng tôi đề xuất sử dụng phương pháp xếp hạng khả vi để tối ưu hóa trực tiếp mô hình dựa trên điểm số cho hệ số tương quan Spearman Phương pháp được đề cập đã sử dụng phép chiếu lên bao lỗi của các hoán vị dé tao ra các toán tử sắp xép, và xêp hang khả vi.
Thông thường, các mô hình học sâu được huấn luyện trên GPU vì lợi ích của song song hóa, tăng tốc quá trình huấn luyện lên đến ba lần Tuy nhiên, thuật toán xếp hạng khả vi nhanh chóng (fast differentiable ranking) tiêu tốn bộ nhớ gấp O(s) lần so với thuật toán quan hệ nhị phân khi huấn luyện mô hình Điều này khiến việc tối ưu hóa trên GPU tốn rất nhiều tài nguyên; do đó, chúng tôi chuyển sang sử dụng phương pháp huấn luyện dựa trên CPU Phan sau đây cho thấy việc tối ưu hóa trên CPU sử dụng phương pháp xếp hạng khả vi nhanh có thể hiệu quả như việc tối ưu hóa trên GPU sử dụng phương pháp quan hệ nhị phân Thuật toán xếp hang khả vi nhanh chóng có thể tối ưu hóa đồng thời O(s?) các cặp quan hệ nhị phân với chi phí O(s logs) so với chi phí Ó(s?) của thuật toán quan hệ nhị phân Điều này
Với kích thước mẫu là 64, thuật toán này có thể chạy trên CPU hiệu quả như thuật làm cho thuật toán hiệu quả hơn O so với thuật toán quan hệ nhị phan. toán quan hệ nhị phân chạy trên GPU.
4.4.2 Tối ưu hóa trong đa không gian.
Chúng ta có thể tìm thấy những cài đặt huấn luyện trên các không gian tìm kiếm được thu thập (xem Bảng b.7] sự khác biệt của các không gian thiết kế chủ yếu đến từ sự biến thể trong quá trình huấn luyện, các thuật toán tối ưu hóa được sử dụng và các siêu tham số được chọn Ví dụ, một không gian kiến trúc có thể chứa các kiến trúc được huấn luyện trong một epoch, trong khi tập không gian thiết kế khác có thể chứa các kiến trúc được huấn luyện hơn 2,000 epoch Những khác biệt này có thể làm cho mạng nơ-ron bị nhầm lẫn trong việc học các xu hướng thiết kế kiến trúc hữu ích. Để giảm thiểu những khác biệt thường thấy giữa các thiết lập huấn luyện khác nhau, chúng tôi đưa ra hai cách tiếp cận nhằm ưu tiên những kiến trúc thực sự tốt, bất ké chúng được huấn luyện như thế nào Cu thể, hai cách này là: ô Cập nhật tham số mụ hỡnh bằng cỏch lặp lại qua cỏc tập dữ liệu và sử dung các mau từ mỗi tập dữ liệu.
40 ô Tớnh toỏn một mẫu từ mỗi tập dữ liệu, sau đú sử dụng tớch lũy gradient để cập nhật các tham số mô hình tổng hợp.
Trong nghiên cứu này, chúng tôi ưu tiên phương án thứ nhất, phương pháp lặp dữ liệu (dataset iteration), mặc dù nó có phần không ổn định hơn, nhưng nó yêu cầu ít tài nguyên tính toán hơn.
Ngoài ra, chúng tôi đề xuất một phương pháp tổng hợp (ensemble approach) kết hợp tất cả các bộ dự đoán hiệu năng (performance predictor) Chúng tôi ensemble tám mô hình của mình được huấn luyện trên tám tập không gian khác nhau bằng cách sử dụng tổ hợp tuyến tính của hàm sigmoid chuẩn hóa (normalized sigmoid) của các điểm số, như được thể hiện trong Phương trình |4.4| Hàm sigmoid chuẩn hóa
(normalized sigmoid) giải quyết vấn đề out of distribution (nằm ngoài phân phối) thường thấy ở các bộ dự đoán được huấn luyện trên một tập dữ liệu duy nhất Mục tiêu của chúng tôi là lấy trung bình hệ số tương quan Spearman trên các tập dữ liệu Để cho thuận tiện và nhanh chóng, chúng tôi sử dụng DE để tìm ra các hệ số tuyên tính này trong khoảng (0,1) Tuy nhiên, với bất kỳ thuật toán tối ưu hóa khác DE cũng sẽ tối ưu tốt cho bài toán nói trên.
Trong phương trình nay, f(z) là đầu ra của tổ hợp tuyến tính, s; là các mạng cham điểm (scorer) được huấn luyện trên không gian tìm kiếm thứ 7°, w; là các trọng số tương ứng, ps; và ứ; là giỏ trị trung bỡnh và độ lệch chuẩn của s,() đối với cỏc kiến trúc trong không gian tìm kiếm i, và 9 là hàm sigmoid được xác định như sau:
Phương pháp tổng hợp (ensemble method) mang lại lợi thế về kha năng song song hóa, cho phép huấn luyện đồng thời trên tất cả các không gian tìm kiếm Tuy nhiên, nó đòi hỏi thời gian suy luận lâu hơn, cần đến tám lượt truyền xuôi Với nhiều thông
41 tin tôpô hơn từ đồ thị tính toán mạng nơ-ron, chúng tôi kỳ vọng phương pháp tổng hợp sẽ hoạt động tốt hơn so với phương pháp lặp dữ liệu (dataset iteration method).
Mô hình dự đoán của chúng tôi, được trang bị thuật toán v-norm để ổn định phương sai, không dễ bị ảnh hưởng bởi các thay đổi trong độ phức tạp của mô hình (model capacity) Kỹ thuật này phan ánh cách thông tin thay đổi và luân chuyển trong mô hình Chúng tôi đã thiết kế một thuật toán kết hợp những hiểu biết từ độ phức tạp và cấu trúc của mô hình Để đơn giản và hiệu quả, chúng tôi đã chọn số lượng tham số làm thước đo độ phức tạp của mô hình.
4.5.1 Ensemble không gian mục tiêu Để kết hợp các thành phần này lại với nhau, chúng tôi hạ hình chiếu của các véc-tơ điểm số từ mạng chấm điểm lên một không gian mục tiêu 2 chiều Một trục biểu thị điểm số của chúng tôi, trong khi trục còn lại biểu thị cho số lượng tham số.
Cách thiết lập này biến bài toán thành một bài toán tối ưu hóa đa mục tiêu Mục tiêu là tìm ra sự cân bằng giữa điểm số hiệu năng và độ phức tạp của kiến trúc (architectural capacity) Điều này khắc phục điểm yếu của thuật toán v-norm, vốn loại bỏ thông tin về số lượng tham số.
4.5.2 Thuật toán tối ưu hoá Để giải quyết bài toán tối ưu hóa đa mục tiêu này, chúng tôi sử dụng Non-dominated
Sorting Generic Algorithm II (NSGA-II) (14) NSGA-II có thể đánh giá hàm mục tiêu dựa trên thứ hạng, có thể xử lý sự khác biệt về quy mô giữa điểm số hiệu năng và số lượng tham số Chúng tôi cũng kết hợp các phép toán tiến hóa vi phân (DE) cho các quá trình lai chéo và đột biến Sự kết hợp này đặc biệt tốt trong việc xử lý các phần tử có tính thứ tự, như số lượng kênh đầu ra Với các phép toán DE, NSGA-II có thể khám phá hiệu quả không gian tìm kiếm trong khi xem xét nhiều
NAS không cần huấn luyện (Zero-Shot NA8)|
Chúng tôi đã tiến hành thí nghiệm về tối ưu hoá cho tương quan score-accuracy Mô hình được huấn luyện lần lượt trên các tập dữ liệu NAS-Bench-201 (CIFAR-100) (14),
NAS-Bench-101 [61], NAS-Bench-Macro [49], NDS-DARTS, NDS-NASNet, NDS-
Amoeba, NDS-ENAS và NDS-PNAS [42] Sau đó, mô hình được kiểm tra trên
44 chính các bộ dữ liệu này, mỗi bộ dữ liệu được kiểm tra bằng 1,000 mẫu Chúng tôi cũng đã huấn luyện mô hình trên tất cả các tập dữ liệu kết hợp và kiểm tra trên không gian tìm kiếm Zen-NAS-Resnet-like Chúng tôi tính toán tương quan score-accuracy của Zen-Score trên những tập dữ liệu Chúng tôi so sánh những kết quả của mình với Zen-Score, NASWOT-Score và các dự đoán về hiệu năng trong
LH Regularization strength cho thuật toán sắp xếp khả vi (differentiable sorting) được cài đặt là 3.0 Với NAS-Bench-201 và NAS-Bench-Macro, chúng tôi sử dụng sample size là 64 kiến trúc Tuy nhiên, vì mô hình trong tập NDS và NAS-Bench-101 lớn hơn, nên chúng tôi sử dụng sample size là 7 cho việc huấn luyện mạng chấm điểm (scorer) Số bước huấn luyện cho các tập NAS-Bench-201, NAS-Bench-101,
NAS-Bench-Macro và NDS theo thứ tự là 496 (2 epochs), 1,440 (0.02 epochs), 208 (2 epochs), 1,440 (2 epochs).
Trong thí nghiệm này, chúng tôi đã chỉ ra rang phương pháp dựa trên mang no-ron có thể vượt qua các chuyên gia trong việc đo lường tương quan score-accuracy Bảng và Bảng mô ta các tương quan score-accuracy cho các mô hình khác nhau lần lượt khi sử dụng thuật toán v-norm và không sử dụng thuật toán v-norm Chúng đều được đánh giá bằng hệ số tương quan Spearman Trong đó, mỗi 6 (hang i, cột 7) chỉ tương quan giữa điểm số và độ chính xác của một mô hình được huấn luyện trên tập dữ liệu 7 và được test trên tập dữ liệu 7 Các đánh giá được thực hiện trên một mẫu ngẫu nhiên bao gồm 1,000 kiến trúc từ mỗi không gian tìm kiếm (chiếm 20% của NDS) Chúng tôi đã tiến hành đo tương quan giữa Zen-Score, NASWOT-Score và số lượng tham số với độ chính xác trên tập test trên các benchmark đó Chữ in đậm thể hiện rằng các mang dự đoán (neural predictor) vượt trội hơn so với tất cả các hàm dự đoán thủ công (handcrafted predictor), và chữ gạch chân thể hiện sự vượt trội so với hai hàm dự đoán thủ công Các ô không được đánh dấu ở trên đường chéo chính đại diện cho các mô hình mạng no-ron được test và huấn luyện trên cùng một tập dữ liệu.
Hình thể hiện đồ thị huấn luyện của các mô hình được huấn luyện và test trên các tập dữ liệu NDS-ImageNet Vi các tập dữ liệu NDS-ImageNet chỉ có khoảng
120 kiến trúc mỗi tập, nên chúng tôi gọi thực nghiệm này là một trong những thực nghiệm với lượng dữ liệu khan hiếm (data-scarce setting) Chúng được huấn luyện bang 1,440 bước (step) và hiệu suất của mỗi mạng dự đoán hiệu năng (performance predictor) được đo bằng tương quan Spearman.
Bang 5.1: Tương quan score-accuracy cho mang dự đoán hiệu năng của các kiến trúc sử dụng v-norm trên tập CIFAR
FT-ScoreNets được huấn luyện trên các tập dữ liệu Thu công
DARTS NASNet Amoeba ENAS PNAS NB201 NB101 Macro | Zen-Score |30| Số tham số NASWOT [37|
Bảng 5.2: Tương quan score-accuracy cho mang dự đoán hiệu năng của các kiến trúc không sử dung v-norm trên tap CIFAR
FT-ScoreNets được huấn luyện trên các tập dữ liệu
DARTS NASNet Amoeba ENAS PNAS NB201 NB101 Macro | Zen-Score [30] Số tham số NASWOT
DARTS 0.774 0.675 0.656 0.540 0.659 0.422 -0.308 -0.149 0.448 0.668 0.647 NASNet 0.633 0.742 0.584 0.644 0.557 0.329 -0.011 0.240 0.102 0.411 0.418 Amoeba | 0.689 0.674 0.720 0.540 0.654 0.268 -0.150 0.186 -0.046 0.343 0.276 ENAS 0.701 0.637 0.579 0.676 0.594 0.472 -0.062 0.096 0.232 0.561 0.532 PNAS 0.666 0.567 0.626 0.431 0.658 0.237 -0.199 -0.126 0.259 0.541 0.496
Sr te Testing on DARTS to Testing on NASNet số § § § er 2 8
(a) DARTS (b) NASNet (c) Amoeba te Testing on ENAS Le Testing on PNAS so Testing on NAS-Bench-201
Hình 5.1: Đồ thị huấn luyện (learning curve) của các mang chấm điểm no-ron (neural scorers) trên các thực nghiệm với lượng dữ liệu khan hiếm (data-scarce setting): Thực nghiệm của Zero-Shot NAS trên Imagenet (5.1a}5.1e] và thực nghiệm của Prediction-based NAS trên CIFA-100 11.
Bang 5.3: Tương quan score-score của các mô hình trên tập CIFAR
Mô hình | Zen-Score Số tham số NASWOT
Thi công Số tham sô 0.602 1.000 0.803
Chúng tôi đo sự tương quan giữa score từ các dự đoán hiệu suất khác nhau Chúng tôi báo cáo tương quan giữa các độ đo được tạo bằng mạng nơ-ron và các độ đo được tạo thủ công trong Bảng [5.3] và Bảng [5.4] thé hiện tương quan score-score của các mô hình, độ đo sử dụng là hệ số tương quan Spearman Trong đó, 6 (hàng i, cột 7) thể hiện tương quan score-score giữa các mô hình (scorer được tạo bởi mang no-ron và được tao thủ công) i và mô hình được tạo thủ công 7 được tính trung bình trên 8 bộ dữ liệu (CIFAR), 5 bộ dữ liệu (ImageNet).
Bảng 5.4: Tương quan score-score của các mô hình trên tập ImageNet
Mô hình | Zen-Score Số tham số NASWOT
Thu công Số tham sô 0.500 1.000 0.742
Chúng tôi tiến hành quy trình End-to-End NAS trên không gian tim kiếm ResNet- like được đề xuất bởi Zen-NAS và đạt được kết quả cạnh tranh so với các chỉ báo thủ công (handcrafted indicators) khác trên tập CIFAR-100 Không gian tìm kiếm này bao gồm hơn 10% kiến trúc Chúng tôi sử dụng thuật toán tìm kiếm NSGAII-DE kết hợp với chỉ báo thủ công (handerafted indicators) được tìm kiếm bởi huấn luyện trên 8 không gian tìm kiếm và tổng hợp (ensemble) 8 chỉ báo nơ-ron Chúng tôi cung cấp báo cáo tương quan test-accuracy của các kiến trúc được tìm kiếm bởi các mô hình của chúng tôi - chỉ báo no-ron (neural zero-shot performance predictor), so sánh với các kiến trúc tìm kiếm được bởi các chỉ báo thủ công khác trong bảng
Kết quả của cỏc độ đo SynFlow (51), TE-NAS |9], NASWOT [8ù], Zen-NAS score được lấy từ Zen-NAS 0] Net? (1) được tìm kiếm bằng cách sử dụng mô hình được huấn luyện bằng phương pháp lặp (iteration method) Net? (2) được tìm kiếm bang cách sử dụng mô hình được huấn luyện bằng phương pháp tổng hợp (ensemble method) Số lượng tham số của mô hình là 1 triệu tham số.
Chúng tôi cấu hình thuật toán NSGATI-DE để sử dụng toán tử thuật toán di truyền đơn giản (sGA) cho các biến không có thứ tự và toán tử tiến hóa vi phân (DE) cho các biến có thứ tự Kiểu lai chéo, xác suất lai chéo và tỉ lệ đột biến cho sGA lần lượt là UX, 0.5, và 0.8 Xác suất lai ghép và trọng số vi phân cho các toán tử tiến hóa vi phân lần lượt là 0.8, và 0.8 Các siêu tham số cho các toán tử GA đơn giản được lấy cảm hứng từ (59) Số lượng tối da các khối (block) và kích cỡ mô hình lần lượt là 18 và 1 triệu Chúng tôi coi các loại khối (SuperResKXKX, SuperResK1KXK1), kernel size (3,5,7) và stride (1,2) là không có thứ tu Chúng tôi coi số lượng kênh (§, 16, - ,2048), số lượng kênh bottleneck (8, 16, : :- ,256) và số lượng các lớp con trong một khối (1,2, - ,9) là các biến có theo thứ tự Kích cỡ quan thể là 512 và số thế hệ là 100 Chúng tôi khởi tạo quần thể để có số lượng kênh nằm trong khoảng từ 48 đến 320, số lượng kênh bottleneck nằm trong khoảng từ 32 đến 80 và số lượng lớp con là 1 hoặc 2 Nếu mô hình được tạo ngẫu nhiên không thỏa mãn các ràng
Bang 5.5: Độ chính xác trên tập test của các kiến trúc trên tập CIFAR
Net? (2) 96.7% 77.5% buộc về số lượng lớp tối da hoặc kích thước mô hình, chúng tôi sẽ bỏ qua chúng. Nếu cá thể con không thỏa mãn ràng buộc, chúng tôi nhân giá trị mục tiêu của chúng với -1 Cuối cùng, chúng tôi chọn mô hình có điểm số cao nhất trong giới hạn tham số là từ 900,000 đến 1,000,000 tham số.
Gi thuật toán NSGAII-DE và FT-ScoreNets úc net? (2 ấn trị iém b
5.2 NAS dựa trên dự đoán (Prediction-based NAS)
Chúng tôi thực hiện các thí nghiệm tính toán độ tương quan giữa điểm số và độ chính xác (score-accuracy) và quy trình End-to-End Prediction-based NAS trên
NAS-Bench-201 [14] Mô hình được huấn luyện trên các cặp architecture-accuracy sử dụng tập dữ liệu CIFAR-100 và được test trên các cặp architecture-accuracy sử dung tập dữ liệu CIFAR-10, CIFAR-100, và ImageNet16-120.
Trong thí nghiệm này, chúng tôi lấy mẫu 100 kiến trúc ngẫu nhiên từ NAS-Bench-
210 là tập train cho mô hình Sau đó, chúng tôi sử dụng mô hình của chúng tôi để do tương quan score-accuracy của các điểm số từ mô hình của chúng tôi và test độ chính xác của 15, 525 kiến trúc còn lại trong NAS-Bench-201 (train: 100, test: 15, 525, tổng cộng: 15,625) Tương quan Score-Accuracy của NAS-Bench-201 được mô tả trong
Bảng [5.6] BRP-NAS, TNASP, và phương pháp của chúng tôi trên prediction-based
NAS trên NAS-Bench-201 được trình bày trong Bang Mạng dự đoán BRP-
NAS (1) được transfer learning từ tác vụ dự đoán độ trễ (latency predicting task).
Mạng dự đoán BRP-NAS (2) không được transfer learning từ tác vụ dự đoán độ trễ
Phan tích kết qua thínghiệm
Sample Size Kendall-Tau Spearman
FT-ScoreNet 100 0.749 0.904 hợp với 100 kiến trúc được lấy mẫu ngẫu nhiên), kiến trúc tốt nhất của chúng tôi dat
94.17% trên CIFAR-10,73.01% trên CIFAR-100, va 46.06% trên ImageNet16-120.
5.3 Phân tích kết qua thí nghiệm
5.3.1 Tac vụ tương quan Score-Accuracy
Từ Bang [5.1] chúng tôi thấy rằng nhiều mô hình dựa trên mang no ron (với thuật toán v-norm) vượt qua các hàm chấm điểm thủ công như Zen-score, NASWOT- score, và số lượng các tham số Điều này cho thấy khả năng khái quát hóa trên nhiều không gian tìm kiếm kiến trúc khác nhau Tuy nhiên, các mô hình được huấn luyện trên tập dữ liệu NDS không vận hành tốt hơn một cách tuyệt đối trong NAS-Bench-201, NAS-Bench-101, và NAS-Bench-Macro về mối tương quan score- accuracy khi so sánh với các hàm chấm điểm thủ công (handcrafted scorer) Chúng tôi tin rằng điều đó là do: ¢ Độ chính xác tập test của các mô hình phụ thuộc nhiều vào các siêu tham số huấn luyện (training hyperparameters) của chúng. ô Cac kiến trỳc trong tập dữ liệu NDS trờn 5 khụng gian tỡm kiếm sử dụng siờu tham số huấn luyện giống nhau. ô Tap dữ liệu NDS, NAS-Bench-201, NAS-Bench 101, và NAS-Bench-Macro sử dụng các thiết lập huấn luyện khác nhau.
Các thiết lập huấn luyện của các tập dữ liệu được mô tả trong Bảng |5.7| Từ Bảng
Bảng 5.7: Cài đặt huấn luyện cho các kiến trúc trên benchmarks
Cài đặt huấn luyện | NB201 NB101 NDS
Optimizer SGD RMSProp SGD và [5.1 chúng tôi nghi ngờ rằng sự lựa chon optimizer khác nhau lam ảnh hưởng nhiều nhất tới kết quả huấn luyện.
Bang [5.1] và 5.2) cho thấy, su cải thiện khi áp dụng thuật toán v-norm Sự cai thiện này được chứng mình bằng thực nghiệm: các mô hình không áp dụng thuật toán v-norm thể hiện 13 trường hợp tương quan nghịch, trong khi những mô hình được áp dụng thuật toán chỉ có 2 trường hợp như vậy Điều này cho thấy thông tin được học bởi các mô hình được áp dụng thuật toán v-norm có nhiều khả năng khái quát hóa trên đa dạng không gian tìm kiếm.
Bảng {5.4} cho thấy phương pháp có thể xếp hang các kiến trúc cho bài toán phân loại hình ảnh ImageNet Kích cỡ tập dt liệu của NDS-ImageNet nhỏ hơn của NDS-
CIFAR, 124 so với 5,000, và mô hình đạt được tương quan trung bình đến cao, cho thấy tính hiểu quả hiệu quả dit liệu của phương pháp dựa trên kết quả thực nghiệm.
5.3.2 Tác vu End-to-End NAS
Trong các thiết lập của prediction-based NAS, Bảng |5.6|thể hiện rang phương pháp của chúng tôi đạt hệ số tương quan Spearman là 0.904 mà không cần phải chuyển tới từ tác vụ dự báo độ trễ trong khi chỉ sử dụng các multi-layer perceptron Hiệu năng này vượt qua cả chỉ báo ứng dụng transfer learning từ latency như BRP-NAS và chi báo dựa trên transformer TNASP (34) Quy trinh End-to-End NAS trén
NAS-Bench-201 qua giải thuật tham lam/tim kiếm vét cạn (thuật toán tìm kiếm vét cạn được sử dụng bởi không gian tìm kiếm của NAS-Bench-201 nhỏ) cũng cho thấy kết quả hứa hẹn Mặc dù điều này không hứa hẹn hiệu năng vượt trội so với các phương pháp prediction-based NAS trên không gian tìm kiếm kiến trúc lớn, nó đã cho thấy cơ chế mã hóa qua Biến Đổi Fourier chúng tôi đề xuất có thể khai phá
59 dữ liệu hiệu quả Chúng tôi tin rằng hiệu quả của cơ chế biểu diễn của chúng tôi đến từ việc phương pháp mã hóa của chúng tôi chứa nhiều thông tin về cấu trúc kiến trúc hơn phương pháp mã hóa one-hot (one-hot encoding).
Trong thiết lập của Zero-Shot NAS, Bản|5.5|cho thấy phương pháp của chúng tôi đã tìm ra các kiến trúc dưới 1 triệu tham số đạt 96.7% trên CIFAR-10 và 78.8% trên
CIFAR-100 Đây là bang chứng mạnh mẽ cho thấy phương pháp Zero-Shot NAS dựa trên mang nơ ron có thể hoạt động tốt trên không gian tìm kiến NAS thực sự (một không gian cực lớn với hơn 10° kiến trúc) Trong cùng một số lượng tham số, Net? đạt 0.4% - 0.5% cải thiện về thử nghiệm test-accuracy trên CIFAR-10 so với phương pháp dựa trên chỉ báo thủ công tốt nhất Tuy nhiên, các kiến trúc đã không vượt qua được Zen-NAS trên CIFAR-100 Điều này có thể hiểu được do NDS, Macro, và
NASBench101 sử dụng CIFAR10 là tập dữ liệu cho các tác vụ phân loại hình ảnh.
Chúng tôi chỉ sử dung đữ liệu CIFAR-100 cho các cặp tương quan score-accuracy của NAS-Bench-201 Trong phương pháp tổng hợp (ensemble method), trọng số của NAS-Bench-201 nhỏ hơn 101 Trong phương pháp lặp (iterative method), mỗi tập dữ liệu được xử lý tương đồng (tỉ lệ 7:1 cho CIFAR-10:CIFAR-100) Do đó, mô hình học được đã thất bại trong việc tạo ra các kiến trúc có thể phân loại nhiều lớp (classes) và thường tạo ra một số lượng nhỏ channel (8, xem Hình |5.2bÌ tại các lớp kiến trúc (layer) cuối cùng một cách kì lạ.
5.3.3 Thông tin chỉ tiết khác
Chúng tôi cũng thể hiện mối tương quan giữa các các mạng chấm điểm của chúng tôi với các hàm chấm điểm thủ công để hiểu hơn về đặc trưng của mô hình chúng tôi tạo ra trong Bảng [5.3] và [5.4] Trong Bảng [5.1] có thé thấy mối tương quan yếu giữa FT-ScoreNets của chúng tôi với các hàm chấm điểm thủ công, trái ngược với mối tương quan từ trung mình tới mạnh giữa các hàm chấm điểm thủ công với nhau Trong Bảng |5.4| chúng tôi thấy mối tương quan từ thấp tới trung bình giữa các FT-ScoreNets của chúng tôi với các hàm chấm điểm thủ công Điều này chỉ ra một xu hướng rằng, với nhiều hon các điểm dữ liệu, FT-ScoreNets có thé hoc được
56 các mẫu (pattern) hữu ích mà trước đây không được hiểu đầy đủ Hiểu được mẫu
(pattern) của FT-ScoreNets là một câu hỏi mở cho những công trình trong tương lai.
Hình cho thay trong thực nghiệm với lượng dit liệu khan hiếm (data-scarce setting) của Zero-Shot NAS, quá trình huấn luyện dài hơn không phải lúc nào cũng mang lại hiệu năng tốt hơn Tuy nhiên, trong thiết lập của Prediction-based NAS, thời gian huấn luyện dài hơn mang lại mối tương quan mạnh hơn Việc này có thể chỉ ra rang các mạng chấm điểm quá khớp (overfit) với cấu trúc của không gian tìm kiếm thay vào việc học được các đặc trưng có ý nghĩa Hiện tượng "quá khớp" này cũng giải thích tại sao các mạng chấm điểm huấn luyện trên NAS-Bench-201 và NAS-Bench-101 lại hoạt động kém khi so sánh với các mang chấm điểm khác (Bảng
5.1) Trong khi tập dữ liệu NAS-Bench-201 và NAS-Bench-101 được xem là lớn (với khoảng 15 nghìn và 500 nghìn kiến trúc), các kiến trúc bên trong chúng lại thiếu sự đa dạng.
Trong bài viết này, chúng tôi đã thể hiện ứng dụng hiệu quả của Neural Prediction- based NAS trong Zero-Shot NAS Ngoài ra, chúng tôi đề xuất một cơ chế biểu diễn mới, sử dụng phương pháp dựa trên biển đổi Fourier rời rac (DFT) được thiết kế đặc biệt cho các phép tính tích chập Ngoài ra, chúng tôi đã trình bày một phương án tối ưu hóa để sử dụng trong cả không gian tìm kiếm đơn lẻ và nhiều không gian tìm kiếm Phương pháp của chúng tôi không chỉ dẫn đến việc khám phá các kiến trúc cạnh tranh trong các không gian tìm kiếm NAS lớn mà còn tỏ ra hiệu quả khi được đánh giá dưới dạng Prediction-based NAS Thông qua nghiên cứu này, chúng tôi nhận thấy rang các cơ chế như DFT, vốn không liên quan trực tiếp đến khả năng biểu đạt (expressivity) hay khả năng dễ huấn luyện bang SGD (SGD-trainability) của mạng nơ-ron, có thể thành công phân biệt các kiến trúc và hỗ trợ mạng no-ron trong việc xếp hạng chúng Điều này cho thấy tiềm năng cho nghiên cứu Zero-Shot
NAS bằng mạng no-ron trong tương lai trong việc khám phá các phương pháp mã hóa mới để phân biệt các mạng nơ-ron Các hướng nghiên cứu trong tương lai của Zero-Shot NAS có thể là việc áp dụng các kỹ thuật học sâu đã có như sự thay đổi miền (domain shift) trong không gian tìm kiếm, các kỹ thuật mã hóa mới hoặc các bộ dữ liệu NAS mới cho các tác vụ đa dạng và các loại kiến trúc khác nhau.
Mohamed S Abdelfattah et al “Zero-Cost Proxies for Lightweight NAS”. In: 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021 OpenReview.net, 2021 URL:
//openreview.net/forum?id=OcmMMy8J5q