1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Tối ưu hóa đa mục tiêu kiến trúc mạng neural đồ thị với các phương pháp cắt tỉa

71 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tối ưu hóa đa mục tiêu kiến trúc mạng neural đồ thị với các phương pháp cắt tỉa
Tác giả Tran Huu Khoa, Truong Mai Tan Luc
Người hướng dẫn TS Luong Ngoc Hoang
Trường học Trường Đại học Cộng nghệ Thông tin, Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 71
Dung lượng 38,96 MB

Nội dung

Thêm vào đó, người thiết kế đòi hỏiphải có kinh nghiệm cũng như hiểu biết chuyên sâu về lĩnh vực của bài toán cụthể cũng như mang neural để có thể thiết kế ra kiến trúc đạt được hiệu suấ

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MAY TÍNH

TRAN HỮU KHOA - 20520222

TRUONG MAI TAN LỰC - 20520241

KHÓA LUẬN TÓT NGHIỆP

TOI UU HOÁ ĐA MỤC TIỂU KIÊN TRÚC MẠNG

NEURAL ĐỎ THỊ VỚI CÁC PHƯƠNG PHÁP CAT TIA

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DAN

TS LƯƠNG NGỌC HOÀNG

TP HO CHÍ MINH, NĂM 2023

Trang 2

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

BE — Chủ tịch.

2 ecceeeseeeceeesceceeeessueeeeeeeeeeeeueeeneeees — Thư ký.

Boece cece cee ee ence ee ee eee eneenaeeeenneeneeaees — Uy vién

— cece cence eee cena en eee eeneeneeaees — Uy viên

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, chúng tôi xin được gửi lời cảm ơn sâu sắc đến TS.Lương Ngọc Hoàng

đã tan tình giúp đỡ, động viên, định hướng và cung cấp những kiến thức nền tangtrong xuyên suốt quá trình thực hiện khóa luận này

Tiếp theo, chúng tôi xin chân thành cảm ơn sự đồng hành, hỗ trợ từ phía thầy

cô Khoa Khoa học máy tính nói riêng và Trường Đại học Công nghệ Thông tin,

ĐHQG-HCM nói chung vi đã tận tình giảng dạy, cung cấp nhũng kiến thức, kỹ

năng, bài học quý giá làm cơ sở để tôi thực hiện khóa luận tốt nghiệp này

Chúng tôi cũng xin bày tỏ lòng biết ơn to lớn đối với gia đình, bạn bè và những

người chúng tôi yêu quý vì họ luôn là điểm tựa tinh thần vững chắc đồng thời là

nguồn động lực to lớn thúc đẩy chúng tôi trong suốt quãng đời sinh viên

Trang 4

Mục lục

TÓM TẮT KHOÁ LUẬN xiii

1 TONG QUAN 1

11 Gidithieubaitoan]) 0.00 eee 1

12 Motabaitoanl 0 eee 2

13_ Đặt vân dé << -———_ a, www 2

14 Phamvinghiéncttuj 0.00 00 00000000 3

1.5 Mục tiêu và đối tượng nghiên cứu| - 3

16 Phuong pháp thựchiện 4

17 Câu trúckhóaluận| 4

2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THỨC NEN TANG 5 2.1 Dữ liệu dạng đồ thị và mạng neural đỏ thị 5 21.1 Dữ liệu dạng đồthị - 5

2.1.2 Mạng Neural đồthj_ 6

2.2_ Các công trình lên quan| 8

2.3 Bài toán lối ưu hóa đa mục tiêu| 11

2.4 Bài toán Tìm kiếm kiến trúc mang neural 11 2.5 Bài toán Tìm kiếm kiến trúc mạng neural đa mục tiêu 12 14 2.6.1 Mô hình hóa bài toán| 14

2.6.2 Cấp độ cao (upper level)| 15

2.6.3 Cấp độ thấp (lower level| - 15

Trang 6

Danh sach hinh ve

đồ thị (bên trái) Ngoài ra dé thị có thể được dùng để biểu diễn cáckiểu dữ liệu phức tạp (bên phải)

2.2 Minh hoa cơ chế AGGREGATE va COMBINE (a) Ham

AGGRE-GATE thực hiện việc tổng hợp các đặc điểm của các node có liên

kết với node hiện tại đang xét (b) Embedding của node hiện tại sẽđược kết hợp với kết quả của hàm ARRGATE để tạo ra embedding

¬ TS jo rr 8

2.3 Tổng quan các giai đoạn của thuật toán NSGA-Net [25]]

2.4 Minh hoạ supernet và kết quả các thuật toán pruning-based NAS

Bên trái thể hiện supernet với bao gồm mỗi cạnh bao gồm 3

opera-tion Bên phải thể hiện kiến trúc cuối cùng sau khi quá trình cat tỉa

kết thúc, mỗi cạnh bây giờ chỉ còn lại một operation duy nhất.|

2.5 Minh họa các thành phần của bài toán tìm kiếm kiến trúc mạng

| neural [12] Các kiến trúc œ thuộc không gian tìm kiếm (search

space) A được định nghĩa trước sẽ được đánh giá hiệu nang thông

qua hàm ước lượng hiệu nang (performance evaluator) Hiệu nang

sau đó được sử dụng trong quá trình tối ưu hoá thông qua chiênlược tìm kiếm (search strategVy).| ee 12

mm 14

2.7 Các kiên trúc nằm trong không gian tìm kiếm được loại bỏ lần lượt

chỉ để lại các kiến trúc có kết quả tốt (ở đây là độ chính xác ở tập

Trang 7

2.8 Minh hoa quá trình thực hiện thuật toán DARTS (a) Các phép toán

trên các cạnh ban đầu chưa được biết (b) Liên tục nới lỏng khônggian tìm kiếm bằng cách đặt hỗn hợp các phép toán ứng viên trênmỗi cạnh (c) Tối ưu hóa đồng thời operation mixing weights a và

trọng số mạng bang cách giải bài toán tối ưu hóa hai cap độ (d)

phủ của biên xap xỉ trên không gian tìm kiếm)

Trang 8

ứng với số lần đánh giá (trên) và số giờ GPU (dưới) trên các dataset

"TA 40

4.3 Trục y thể hiện giá trị Hypervolume (HV) tương ứng với số lần đánh

giá (trên) và số giờ GPU (dưới) trên các dataset của

Trang 9

NAS-Bench-Danh sách bảng

không qua huấn luyện trên các không gian tìm kiếm và bộ dữ liệutương ứng Các chỉ số có giá trị được gạch chân thể hiện chỉ số đó

có độ tương quan ø cao nhật so với các chỉ sô còn lại Các sô liệu

4.1 Kết quả trên bộ dữ liệu của NAS-Bench-Graph Phương pháp hoạt

động tốt nhất sau khi thực hiện kiểm định giả thuyết thống kê (giá

trị p < 0,01) được thể hiện bằng các kết quả được tô đậm

MOEG-không cần huan luyện va sẽ MOEG-không tham gia vào so sánh bằng T-Test| 49

Trang 10

Danh sách thuật toán

x1

Trang 11

Danh mục từ viết tat

NAS Neural Architecture Search

GNAS Graph Neural Architecture Search

FLOPs Floating-Point Operations Per second

Params Paramters

NSGA-II Non-dominated Sorting Genetic Algorithm II

RL Reinforcement Learning

synflow Synaptic flow

IGD Interted Generational Distance

HV Hypervolume

GNNs Graph Neural Networks

MOEGNAS Multi-Objective Evolutionary Graph NAS

TF-MOEGNAS Training-Free Multi-Objective Graph Evolutionary NAS

TF-MOPNAS _ Training-Free Multi-Objective Pruning-base NAS

PM-GNAS Pruning-based method for Multi-Objective GNAS

Trang 12

TOM TAT KHOA LUAN

Các mang deep neural đã đóng góp rất lớn cho sự thành công của trí tuệ nhântạo trong nhiều lĩnh vực khác nhau Tuy nhiên, khi đối mặt với dữ liệu được biểudiễn dưới dạng đồ thị phức tạp, các mô hình deep learning truyền thống thườnggap khó khăn trong việc xử lý Đó là lý do tại sao mang neural dé thị (Graphneural networks - GNN) được dé xuất do khả năng xử lý hiệu quả trên các loại

dữ liệu như vậy Dù vậy, xây dựng một kiến trúc GNN hiệu quả là rất khó dotính phức tạp của chúng Hơn nữa, việc xây dựng kiến trúc phải đáp ứng nhu

cầu ứng dụng trên nhiều thiết bị khác nhau, làm cho việc tinh chỉnh độ phức tạpcủa kiến trúc trở nên khó khăn hơn nếu thực hiện bằng cách thủ công Nhiều

công trình nghiên cứu về tìm kiếm kiến trúc mang neural đồ thị (Graph Neural

Architecture Search, viết tắt: GNAS) đã được thực hiện nhằm giải quyết van dé

này Trong khóa luận này chúng tôi dé xuất một phương pháp tìm kiếm kiến

trúc mang neural đồ thi đa mục tiêu bằng phương pháp cắt tỉa (pruning-basedmethod for Multi-Objetive GNAS, viết tắt: PM-GNAS) Phương pháp chúng tôi

dé xuất cung cấp khả năng giảm thiểu chi phí tính toán bằng sự kết hợp với các

chỉ số đánh giá không qua huấn luyện và một cơ chế đánh giá kiến trúc mới

Thông qua thực nghiệm, phương pháp của chúng tôi đã chứng minh được độ

hiệu quả với chỉ phí tính toán cần thiết là ít hơn rất nhiều so với các phương pháptìm kiếm kiến trúc mang neural (viết tắt NAS) truyền thống nhưng vẫn đem lạimột biên xấp xỉ bao gồm những kiến trúc có sự đánh đổi giữa hiệu năng và độ

phức tạp Thực nghiệm của khóa luận này sẽ được thực nghiệm trên benchmark

NAS-Bench-Graph được thiết kế dành riêng cho bài toán GNAS Kết quả củaPM-GNAS sẽ được so sánh với các thuật toán bao gồm: NSGA-II (cả sử dụngchỉ số không qua huấn luyện và độ chính xác sau khi được huấn luyện) và TF-MOPNAS Trong đó NSGA-II là một thuật toán nổi tiếng để giải quyết bài toántối ưu đa mục tiêu nói chung không chỉ mỗi tìm kiếm kiến trúc mạng neural đamục tiêu Còn TF-MOPNAS là một thuật toán mới nhất trong nhóm thuật toán

cắt tỉa dành không qua huấn luyện cho bài toán NAS Mã nguồn của khóa luận

có thể truy cập tại:https : //github com/Luku111/PM-GNAS

Trang 13

Chương 1

TỔNG QUAN

11 Giới thiệu bài toán

Các mang deep neural đã đóng g6p rất nhiều đến sự thành công của lĩnh vựchọc sâu hiện nay Tuy nhiên, việc thiết kế thủ công các mạng này rất phức tạp

và tiêu tốn rất nhiều tài nguyên tính toán Thêm vào đó, người thiết kế đòi hỏiphải có kinh nghiệm cũng như hiểu biết chuyên sâu về lĩnh vực của bài toán cụthể cũng như mang neural để có thể thiết kế ra kiến trúc đạt được hiệu suất cao.Bài toán Tìm kiếm kiến trúc mạng neural (Neural Architecture Search) nhắm đếnmục tiêu tự động hoá quy trình tìm kiếm các kiến trúc mạng neural có hiệu suấtcao trong một không gian tìm kiếm được định nghĩa trước NAS có thể coi như

một bài toán con của tự động học máy (AutoML) và có sự tương đồng với

bài toán tối ưu siêu tham số (Hyperparemeter Optimization) [13] Hiện tại, các

kiến trúc được tìm kiếm bằng các phương pháp NAS đã có hiệu năng vượt qua

các kiến trúc được thiết kế thủ công trong nhiều tác vụ khác nhau (33) |43} 6| (44),

tuy nhién hau hét chúng được sử dung để tim kiếm các mạng neural tích chập

(Convolutional Neural Networks - CNNs) trong khi việc sử dụng chúng để tìm

kiếm các mang neural dé thi (Graph Neural Networks - GNNs) còn khá hạn chế

Dua trên sự thành công của các phương pháp NAS trong việc tìm kiếm các kiến

trúc CNN trên nhiều tác vụ trước đây, đã có rất nhiều nghiên cứu được đưa ra

nhằm sử dụng các phương pháp NAS để tìm kiếm các kiến trúc GNN và đã thu

được nhiều kết quả tốt 44i0l.

Trang 14

Chương 1 TỔNG QUAN 2

1.2 Mô tả bài toán

se Đầu vào: 01 bộ dữ liệu, 01 không gian tìm kiếm.

e Đầu ra: 01 tập hợp chứa các kiến trúc được tìm thấy.

1.3 Đặt vẫn đề

Một trong những thách thức lớn nhất của bài toán NAS nằm ở thời gian vàchỉ phí tính toán khổng lồ của nó Chẳng hạn như Zoph và các cộng sự

dé xuất việc tìm kiếm các kiến trúc mạng neural bằng cách sử dụng thuật toán

học tăng cường (Reinforcement Learning) đã tiêu tốn tổng cộng 800 GPU tronghơn 20 ngày để hoàn thành, hay việc sử dụng thuật toán tiến hoá (EvolutionaryAlgorithm) được đề xuất bởi Real và các cộng sự mat 450 K40 GPU trong xấp

xi 7 ngày để hoàn thành Nhiều nỗ lực đã được đưa ra nhằm giải quyết van dé này

và nổi bật trong số đó là sử dụng các chỉ số đánh giá hiệu năng không thông quahuấn luyện [1] và đã đạt được những kết quả tốt với việc tìm kiếm được nhữngkiến trúc có hiệu suất cao trong khi giảm bớt được rất nhiều chỉ phí tính toán

Thêm vào đó, do nhu cầu ứng dụng trên nhiều thiết bị phần cứng khác nhau

cho nên các kiến trúc có hiệu suất cao được tìm thấy bởi các phương pháp NASđơn mục tiêu có thể không phù hợp để triển khai trên một số thiết bị do quá phức

tạp Do đó bài toán tìm kiếm kiến trúc mạng neural đa mục tiêu (Multi-objectiveNeural Architecture Search - MONAS) hiện tại đang nhận được rất nhiều sự chú

ý với việc xem xét đến nhiều hơn các khía cạnh của mạng neural như độ trễ, kíchthước, thay vì chỉ tập trung vào việc tìm kiếm kiến trúc có hiệu suất cao nhấttrong không gian tìm kiếm Kết quả của bài toán là một tập hợp các kiến trúc

có sự đánh đổi giữa hiệu năng và độ phức tạp, cho phép người dùng lựa chọn

những kiến trúc thích hợp tuỳ theo mục đích sử dụng

Cuối cùng, hầu hết các phương pháp state-of-the-art hiện nay chỉ tập trung

cho việc tìm kiếm các mạng neural tích chập Tuy nhiên, các mạng này chỉ hoạtđộng tốt đối với dữ liệu có dang đơn giản như hình ảnh, văn bản trong khi tỏ ra

kém hiệu quả trong việc xử lý các dữ liệu được biểu diễn dưới dạng đồ thị phứctạp chẳng hạn như dữ liệu mạng trích dẫn (citation network data), dữ liệu y sinh(biomedical) Thay vào đó, các mạng GNN được xem như một công cụ mạnh

Trang 15

Chương 1 TỔNG QUAN 3

mẽ để giải quyết vấn để này nên đã có nhiều công trình được đưa ra nhằm áp

dụng các phương pháp MONAS để tìm kiếm các kiến trúc GNN

1.4 Phạm vi nghiên cứu

Trong khóa luận này, chúng tôi tập trung vào việc giải quyết bài toán tìm kiếmcác kiến trúc mạng neural dé thị (Graph neural networks - GNNs) đa mục tiêu

thông qua phương pháp cắt tỉa, đồng thời tìm hiểu và trình bày lại các kiến thức

ở những công trình có liên quan đến khoá luận này Khóa luận cũng trình bày

về các phương pháp giúp cải thiện hiệu quả của quá trình tìm kiếm kiến trúc

mạng neural bằng các phương pháp dự đoán hiệu năng Chúng tôi kiểm tra hiệu

quả của các phương pháp được dé xuất thông qua bộ benchmark

NAS-Bench-Graph [32] NAS-Bench-NAS-Bench-Graph có hơn 20,000 kiến trúc mang neural dé thị, mỗi

kiến trúc đã được trải qua quá trình huấn luyện và lưu trữ lại các thông tin bao

gồm hiệu năng, độ phức tạp, thời gian huấn luyện ở mỗi epoch trên nhiều

bộ dữ liệu chuẩn như Cora, CiteSeer, PubMed, Coauthor-CS, Coauthor-Physics,

Amazon-Photo, Amazon-Computer, ogbn-arXiv và ogbn-proteins.

1.5 Mục tiêu và doi tượng nghiên cứu

Đối tượng nghiên cứu: Bài toán Tìm kiếm mang neural dé thị đa mục tiêu

(Multi-Objective Graph Neural Architecture Search) Các mục tiêu của khóa luận

gồm:

s_ Tìm hiểu và cài đặt thuật toán tiến hóa NSGA-II và thuật toán TF-MOPNAS

cho bài toán GNAS đa mục tiêu.

¢ Sử dụng các chỉ số dự đoán hiệu năng không thông qua huấn luyện nhằm

cải thiện hiệu quả tìm kiếm của bài toán NAS

¢ Sử dụng cơ chế đánh giá mới được chúng tôi dé xuất là đánh giá dựa vào

đại diện để cải thiện tốc độ cũng như hiệu quả tìm kiếm của bài toán GNAS

đa mục tiêu.

Trang 16

Thử nghiệm việc sử dụng các chỉ số dự đoán hiệu năng không thông qua

huấn luyện cho việc dự đoán hiệu năng của các mạng neural đồ thị

Sử dụng các phương pháp dự đoán hiệu năng của mạng neural đồ thị màkhông tốn kém quá nhiều chi phí về mặt tính toán như độ chính xác trên tậpkiểm định (validation accuracy) tại epoch 12 và chỉ số dự đoán hiệu năngkhông qua huấn luyện Synaptic Flow (synf1ow)

Thử nghiệm bài toán tìm kiếm kiến trúc mạng neural hai mục tiêu bằng cácthuật toán tiến hoá, cắt tỉa

Ap dụng các phương pháp trên bộ benchmark NAS-Bench-Graph để kiểm

tra hiệu quả và so sánh giữa các phương pháp với nhau.

Sử dụng chỉ số đánh giá hiệu năng IGD và HV để kiểm tra hiệu quả của cácphương pháp đã thực hiện dưới góc độ bài toán tối ưu hóa đa mục tiêu

Câu trúc khóa luận

Khóa luận của chúng tôi bao gồm 6 phần chính như sau:

Trang 17

Chương 2

CÁC CÔNG TRÌNH LIÊN QUAN VÀ

KIÊN THUC NEN TANG

2.1 Dữ liệu dạng đồ thị và mang neural do thị

2.1.1 Dữ liệu dạng đồ thị

Đồ thị là một cấu trúc phổ biển có thể dùng để biểu diễn đa dạng các loại dữ

liệu khác nhau Một đồ thị G được định nghĩa là G = (V, E) với E thể hiện kết nối(cạnh) giữa các V đối tượng (node) trong dé thị Ví dụ các kiểu đữ liệu phổ biếnhiện nay như hình ảnh hoặc văn bản có thể được biểu diễn dưới dạng đồ thị đơn

giản Cụ thể, với dữ liệu dạng hình ảnh, ta có thể xem các điểm ảnh (pixel) như các

node và mỗi các điểm sẽ có cạnh nối với các điểm ảnh gần nó, lúc này mỗi node

sẽ mang vector thể hiện giá trị của pixel đó ở trên các kênh màu; với dữ liệu văn

bản, các node sẽ thể hiện các từ ngữ và các cạnh sẽ thể hiện tính thứ tự của các từtrong câu, mỗi node của đồ thị trong trường hợp này sẽ chứa vector embeddingcủa từ mà chúng biểu diễn Đồ thị còn có thể được dùng để mô hình hoá nhiều

loại dữ liệu phức tạp khác nhau như dt liệu y sinh (biomedical), dữ liệu mô tả

tương tác của các đối tượng (social network), mạng trích dan (citation network)

Ví dụ với các bộ dữ liệu citation network là Cora, CiteSeer, PubMed [34], các bộ

dữ liệu này bao gồm các bài báo khoa học được trình bày dưới dang vector túi từ(bag-of-word) và liên kết trích dẫn giữa các bài báo này; với mỗi bộ dữ liệu, Yang

và cộng sự đã mô hình hoá thành một dé thi với mỗi node i lúc này sẽ lưuvector túi từ x; của tài liệu tương ứng, nêu như tài liệu i trích dẫn tài liệu 7 thì sẽ

có cạnh nối giữa hai node (, j): aj = aj = 1

Trang 18

Chương 2 CÁC CONG TRÌNH LIEN QUAN VÀ KIÊN THÚC NỀN TANG _ 6

dién các kiểu dữ liệu phức tạp (bên phải).

Các dữ liệu được biểu diễn dưới dạng cấu trúc đồ thị có thể được sử dung

cho nhiều tác vụ khác nhau thông qua các mô hình học máy Ví dụ như tác vụ

phân loại tài liệu, gợi ý kết bạn cho người dùng mạng xã hội, dự báo lưu lượnggiao thông Tuy nhiên, các mạng neural truyền thống thường hoạt động khôngtốt trên các tác vụ có dữ liệu dé thị phức tạp Nguyên do là bởi vì các mạng nàyđược thiết kế để xử lý các dữ liệu cơ bản như hình ảnh, văn bản Ví dụ các mạngCNN dùng các bộ lọc (filter) để trích xuất đặc trưng trên từng vùng của ảnh; thếnhưng việc này không thể thực hiện được trên dữ liệu dé thị do sự phức tạp và

tuỳ biến ở số lượng các node và cách mà các node liên kết với nhau

2.1.2 Mạng Neural đồ thị

Graph neural networks (GNN) hay mang neural dé thị là kiến trúc mạng ral được thiết kế đặc biệt dành cho các dữ liệu phức tạp được thể hiện ở dạng đồ

neu-thị Ý tưởng chính của các mạng neural này là thực hiện việc biến đổi các thành

phần của đồ thị đầu vào bao gồm : đỉnh, cạnh và toàn bộ đỏ thị thành các vector

embedding Sau đó sử dụng các vector embedding này để giải quyết các tác vụ

khác nhau Ví dụ với bài toán phân loại, embedding của node (bài báo) sau khi

được học sẽ được đưa qua một lớp fully connected để thực hiện việc phân loại

Neighborhood aggregation hay tổng hợp vùng lân cận là cơ chế chủ chốt của

các kiến trúc GNN Đa số các kiến trúc GNN được thiết kế đều dựa trên cơ sở

Trang 19

Chương 2 CÁC CÔNG TRÌNH LIEN QUAN VÀ KIÊN THÚC NỀN TANG 7

này Trong đó một feature vector của mỗi node trong đồ thị sẽ được embeddingdựa vào các feature vector của những node gần kẻ

Ý tưởng của Neighborhood aggregation thực hiện thông qua hai hàm số: GREGATE va COMBINE [40] Với mỗi node của đồ thì được đưa vào một kiến

AG-trúc GNN, ở từng layer của kiến AG-trúc, AGGREGATE có chức năng tổng hợp các

đặc điểm của các node có liên kết với node hiện tại đang xét Tiếp theo các thông

tin này sẽ lại được kết hợp với các đặc điểm của chính bản thân node đó thôngqua hàm COMBINE Cả hai hàm số này sẽ được huấn luyện để tối ưu hóa kết quả

thông qua các thuộc toán tối ưu

Goi ck là vector đặc trưng của một node thứ n sau khi đi tới layer thứ k của

một kiến trúc GNN Lĩ; là tập hợp chứa vector đặc trưng của các node có liên kếtvới node thứ n Một layer thứ k trong một kiến trúc GNN có thể được biểu diễn

bằng cách như sau:

ck = COMBINE* (ak, cK-1) (2.1)

ad, = AGGREGATES (ch! su € Un) (2.2)

Với aŸ là vector tổng hợp vector đặc trưng nằm trong tập hop Un Sao đó kết

hợp với ck! từ layer trước để đưa ra ck.

Hai hàm só|2.1|và|2.2|có thể đại diện cho các kiến trúc GNN hiện tại lay ví dụ trong Graph SAmple and aggreGatE (GraphSAGE) [5]: Với Pooling aggregator

hai hàm AGGREGATE và COMBINE có thể được biểu diễn như sao:

ak = MAX(ReLu(W - ck! : uw € Un)) (2.3)

u

va

ck = W- (CONCAT(ak, ck-1)) (2.4)

Với W là hai ma trận trọng số sẽ được tối ưu thông qua huấn luyện kiến trúc

Mặt khác Graph Convolutional Networks (GCN) kết hợp cả hai hàm kể trên

ck giờ có thể được tính bằng cách:

ck = ReLu(W - MEAN(CONCAT (ch! ck-1 su € Un))) (2.5)

Một vi dụ nổi tiếng khác là Graph Attention Networks (GAT) [37] Petar và các

Trang 20

Chương 2 CÁC CONG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG — 8

Node

embedding

Arregate

(a) (b)

HÌNH 2.2: Minh hoa cơ chế AGGREGATE va COMBINE (a) Hàm

AGGREGATE thực hiện việc tổng hợp các đặc điểm của các node có liên kết với node hiện tại đang xét (b) Embedding của node hiện tại

sẽ được kết hợp với kết quả của hàm ARRGATE để tạo ra embedding

mới của node đang xét.

cộng sự không thay đổi cách xây dựng hai hàm số trên Mặt khác ho dé xuất thay

đổi trong việc xây dựng tập U, Petar dé xuất một hàm số để đánh giá độ tươngquan giữa các node liền kể, sau đó chỉ lựa chọn những node có hệ số tương quancao để đưa vào AGGREGATE

2.2 Các công trinh liên quan

Các kiến trúc được tìm thấy bởi các thuật toán tìm kiếm kiến trúc mạng neural

ở thời điểm sơ khai đã có hiệu suất vượt qua các kiến trúc được thiết kế thủ công

vào thời điểm đó (43) 33} Tuy nhiên no cũng chỉ ra một trong những thách thức

lớn nhất của bài toán này nằm ở chi phí tính toán khổng 16 của nó, điều này khiến

cho việc trực tiếp áp dung các phương pháp này vào thực tế được xem là bat khảthi Trong nỗ lực giải quyết vấn dé này, hàng loạt các công trình nghiên cứu đã

được đưa ra như ngoại suy đường cong học tập (learning curve extrapolation)

19], chia sẻ trọng số (weight sharing) [4], các chỉ số dự đoán hiệu năng

Trang 21

Chương 2 CÁC CONG TRÌNH LIEN QUAN VÀ KIÊN THÚC NỀN TANG 9

Encoding i \

[1-01-001] i pe? x?)

On ề So) › [0-00-111-0111-00000-0

HÌNH 2.3: Tổng quan các giai đoạn của thuật toán NSGA-Net [25]

không thông qua huấn luyện [1] Các giải pháp này giúp giảm thiểu đáng kể thời

gian và chỉ phí tính toán của các thuật toán NAS trong khi hiệu suất tìm kiếm vẫn

xấp xỉ so với cách đánh giá sử dụng huấn luyện truyền thống

Nổi bật trong số những công trình giúp giảm thiểu thời gian trong việc đánh

giá kiến trúc là sử dụng các chỉ số dự đoán hiệu năng không thông qua huấn

luyện ñl, giúp rút ngắn thời gian và giảm chỉ phí đánh giá hiệu suất một kiến

trúc xuống chỉ còn vài giây Các chỉ số này chỉ sử dụng 1 batch dit liệu duy nhất

để dự đoán hiệu suất của kiến trúc, đặc biệt trong số đó, chỉ số synflow có thétính mà không cần dùng tới bất kỳ điểm dữ liệu nào (data-agnostic metric)

Thuật toán NSGA-Net được đề xuất bởi Lu và cộng sự [25] là một trong những

công trình đầu tiên xem xét việc giải quyết bài toán NAS theo hướng tiếp cận đa

mục tiêu Bài báo này mô hình hoá với hai mục tiêu là độ lỗi phân loại

(classfi-cation error) và FLOPs Nhóm tác giả đã sử dụng thuật toán tiến hoá tối ưu đa

mục tiêu là giải thuật di truyền sắp xếp không bị thống trị II (non-dominated

sorting genetic algorithm II, hay NSGA-II) để làm chiến lược tìm kiếm Kết quathực nghiệm của bài báo cho thấy các kiến trúc được tìm thấy bởi thuật toán tốthơn ở cả 2 mục tiêu so với các kiến trúc được thiết kế thủ công và có hiệu suất

tương đương so với kiến trúc được tìm thấy bởi các phương pháp state-of-the-art

của bài toán NAS đơn mục tiêu lúc đó cho tác vụ phân loại trên CIFAR-10 Các

giai đoạn của thuật toán có thể được mô tả theo hình|2.3|

Một cách tiếp cận khác nhằm giải quyết van dé vé chi phí tính toán của bài

toán NAS là tìm cách tăng tốc chiến lược tìm kiếm Liu và cộng sự nhận địnhnguyên nhân khiến cho bài toán NAS gặp vấn đề về việc bùng nổ chi phí tinh

toán là do các chiến lược tìm kiếm phổ biến hầu hết đều NAS xem như một bàitoán tối ưu hộp đen (black-box optimization problem) trên miễn rời rạc (discrete

domain) nên đòi hỏi số lượng kiến trúc cần đánh giá trong quá trình tối ưu là rất

Trang 22

Chương 2 CÁC CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG — 10

pruning-nhất.

lớn Nhóm tác giả đã dé xuất một phương án giúp chuyển đổi không gian tìm

kiếm từ rời rạc sang liên tục bằng cách xây dựng một siêu mạng (supernet) và

tiến hành tìm kiếm các kiến trúc dựa trên siêu mạng này Công trình này đã gây

được sự chú ý trong cộng đồng nghiên cứu bài toán NAS và là tiền đề cho nhiều

nghiên cứu sau này trong việc tìm kiếm kiến trúc dựa trên supernet (30) 21} 59].

Trong khoá luận này, chúng tôi dé cập các phương pháp NAS dựa trên cat tia

(pruning-based NAS) là các thuật toán sử dụng chung khuôn khổ việc xây dựngmột supernet và thực hiện việc tìm kiếm kiến trúc dựa trên supernet này (minhhoa hình |2.4)

Phan và cộng sự dé xuất một phương pháp kết hợp giữa thuật toán cắt

tia và các chỉ số du đoán hiệu năng không qua huấn luyện, từ đó giúp giảm thờigian tìm kiếm đi rất nhiều Thêm vào đó, họ cũng kết hợp thêm định nghĩa thống

trị Pareto để mở rộng bài toán sang tối ưu đa mục tiêu, giúp thuật toán có thể tối

ưu đồng thời về cả mặt hiệu suất và độ phức tạp của kiến trúc Kết quả thu đượccủa bài toán bao gồm một tập hợp các kiến trúc thể hiện sự đánh đổi giữa hiệu

Trang 23

Chương 2 CÁC CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG 11

suất và độ phức tạo, điều này đem lại nhiều hiệu quả hơn so với chỉ tối ưu duynhất hiệu suất khi nó cho phép người dùng dé dang chọn lựa kiến trúc phù hợp

để sử dụng

2.3 Bài toán Tối ưu hóa đa mục tiêu

Một cách tổng quát, mục đích của bài toán tối ưu hoá đa mục tiêu là tối ưu

hoá đồng thời từ hai mục tiêu đối lập trở lên [23] Bài toán có thể được mô hình

hoá như sau:

minimize F(x) = (fi(3),ƒ2(%) fw(3)),

(2.6) subjectto x€X, Fey

Với x thé hiện lời giải trong không gian tìm kiếm (search space) X C R?, mỗi

lời giải sẽ được ánh xa sang không gian muc tiêu (objective space) Y C RTM với cácmục tiêu tương ứng ƒi(%), fo(x) fi (x) Kết quả của bài toán tối ưu đa mục tiêu

là một tập tối wu Pareto (Pareto-optimal set) ở không gian tìm kiểm sao cho các lờigiải trong tập này ánh xạ sang không gian mục tiêu tạo thành biên tôi tru Pareto

(Pareto-Optimal front) thể hiện sự đánh đổi giữa các mục tiêu với nhau của các lời

giải Trên thực tế, việc tìm kiếm toàn bộ và chính xác toàn bộ tối ưu Pareto/biéntối ưu Pareto thường rất phức tạp và không cần thiết, do đó kết quả bài toán đamục tiêu sẽ là một tập xấp xỉ Pareto (approximate front/set) bao gồm những lờigiải ứng viên sao cho chúng xấp xỉ được tập/biên tối ưu Pareto

2.4 Bài toán Tìm kiêm kiên trúc mạng neural

Bài toán tìm kiếm kiến trúc mạng neural bao gồm 3 thành phần chính

được minh hoạ qua hình Các thành phần này bao gồm:

1 Không gian tìm kiếm (search space): Không gian tìm kiếm của bài toán

NAS định nghĩa các kiến trúc hợp lệ có thể được tìm thấy trong quá trìnhtìm kiếm Cụ thể hơn, không gian tìm kiếm bao gồm tập hợp các operationnhư convolution, skip connection, và cách các operation này kết nối vớinhau để tạo nên những kiến trúc hợp lệ

Trang 24

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TẢNG_ 12

Architecture œ€A Search Space Performance

—_— lePerformance

estimate of œ

HINH 2.5: Minh họa các thành phan của bài toán tim kiếm kiến trúc

mạng neural 2] Các kiến trúc « thuộc không gian tìm kiếm (search

space) A được định nghĩa trước sẽ được đánh giá hiệu năng thông

qua hàm ước lượng hiệu năng (performance evaluator) Hiệu năng

sau đó được sử dụng trong quá trình tối ưu hoá thông qua chiến

lược tìm kiếm (search strategy).

2 Chiến lược tìm kiếm (search strategy): Chiến lược tìm kiếm thể hiện cách

khám phá không gian tìm kiếm để tìm được các kiến trúc có hiệu suất cao.Hiệu suất của các kiến trúc được tìm thấy thông qua chiến lược tìm kiếm sẽ

được quyết định bằng cách đánh giá chúng bằng hàm ước lượng hiệu năng

3 Hàm ước lượng hiệu năng (performance estimater): Chiến lược ước lượng

hiệu năng của các kiến trúc Hàm này có thể đơn giản chỉ là độ chính xáccủa kiến trúc sau quá trình huấn luyện hàng chục, hàng trăm epoch Tuynhiên việc đánh giá như vậy rat ton kém nên thường dẫn đến việc bùng nổ

về mặt thời gian và chỉ phí tính toán Đây cũng là thành phần tốn nhiều chỉphí tính toán nhất trong bài toán NAS do phải đánh giá hàng trăm, hàng

ngàn kiến trúc trong quá trình tìm kiếm Đã có nhiều nghiên cứu được đưa

ra nhằm rút ngắn thời gian đánh giá kiến trúc ở bước này (11) [4] {1} /3}|29).

2.5 Bài toán Tim kiêm kiên trúc mang neural da mục

oan

tieu

Bài toán tìm kiếm kiến trúc mạng neural đa mục tiêu (Multi-objective NeuralArchitecture Search - MONAS) ngày càng nhận được nhiều sự chú ý trongthời gian gần đây Mục đích của bài toán không còn chỉ tập trung vào tìm kiếm

kiến trúc có hiệu suất cao nhất trong không gian tìm kiếm mà còn xem xét đếnviệc tối ưu nhiều khía cạnh khác nhau của các mạng neural chẳng hạn như độ

trễ mang (latency), FLOPs, số lượng tham số (num params) Với việc có M mục

Trang 25

Chương 2 CÁC CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG | 13

tiêu, một kiến trúc x sau khi được ánh xạ sang không gian mục tiêu sẽ tạo thành

một vector F(x) C IR# với lần lượt các mục tiêu ƒi(%), ƒ2(x) fƒw(x) Bài toánMONAS thường có các tính chất sau (xét bài toán tối thiểu hoá):

1 Thống trị Pareto (Pareto dominance): Để so sánh 2 kiến trúc ở bài toán

MONAS, ta dựa vào định nghĩa thống trị Pareto như sau: kiến trúc x! được

gọi là thống trị (<) kiến trúc x” khi và chỉ khi ở tat cả các mục tiêu, x! không

tệ hơn x? và có ít nhất một mục tiêu của x! tốt hơn hẳn x?

xi <x? <=> Wi € M, fi(x') < fi(x*) A 3i M, fi(x') < fiz’)

2 Các kiến trúc không bị thống trị (Non-dominated architectures): Hai kiến

1

trúc x! và x* được gọi là không bị thống trị khi chúng không thống trị lẫnnhau.

xì 4x2A+x? 4x1

3 Kiến trúc lý tưởng (Utopian architecture): Khái niệm kiến trúc utopian mô

tả một kiến trúc x € Q tối ưu trên tất cả mọi mục tiêu Trên thực tế, mộtkiến trúc lý tưởng như vậy không tôn tại

4x*'cO,VYxcO,x*<x.

4 Tập tối ưu Pareto (Pareto-optimal set): Tập tối ưu Pareto trong bài toán

MONAS chứa toàn bộ những kiến trúc không bị thống trị (Non-dominatedarchitectures) ở không gian tìm kiếm (search space) Hay nói cách khác, cáckiến trúc thuộc tập tối ưu Pareto không bị thông trị bởi bẫt kỳ kiến trúc nàotrong không gian tìm kiếm Tập tối ưu Pareto chính là lời giải chính xác nhất

của bài toán MONAS.

Ps = {x €Q| fx’ €O,x' = x}

5 Biên tối ưu Pareto (Pareto-optimal front): Các vector mục tiêu của các kiến

trúc thuộc tập tối ưu Pareto Ps ở không gian mục tiêu tạo thành một biên

không thống trị gọi là biên tối ưu Pareto Pp Các điểm thuộc Pr thể hiện sự

đánh đổi giữa các mục tiêu với nhau (xem hình [2.6) Thông qua biên Pareto

tối ưu, người dùng có thé dé dang lựa chọn việc đánh đổi giữa các mục tiêuvới nhau tuỳ theo nhu cầu sử dụng

Pe = {ƒ(x) €lR”|x€ Ps}

Trang 26

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG 14

Không gian tìm kiếm Không gian mục tiêu

@ tời giải @ tời giải thuộc tập/biên tối ưu Pareto

HINH 2.6: Minh họa tap/bién Pareto tối ưu (Pareto-optimal front)

Trên thực tế, việc tim kiếm chính xác tap/bién tối ưu Pareto thường rat phức tap

và tốn rất nhiều chi phí tính toán Do đó kết quả của bài toán MONAS thường

là một tập hợp bao gồm tat cả các kiến trúc không bị thống trị được tìm thaytrong quá trình tìm kiếm, được gọi là tập/biên xap xi Pareto (approximate Paretoset/front) Tap/bién xấp xi nay sau đó sẽ được đánh giá thông qua nhiều tiêu chínhư độ gần (độ xấp xỉ), độ trải (độ đa dạng của lời giải) của nó so với tập/biên

Pareto tối ưu

2.6 Mô hình hóa bài toán Tìm kiếm kiến trúc mạng

neural đa mục tiêu

2.6.1 Mô hình hoa bài toán

Một bài toán NAS hai mục tiêu có thể được mô hình hóa như sau (2) (22):

minimize F(x) = (femor(%, t0” (x), Dyatid)s fcomplexity (*) ) € RỶ,subject to zø”(x) € arg min L(x, w(x), Dựain), (2.7)

+ € Oarchy w(x) € Oweight(*),

Trang 27

Chương 2 CÁC CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG | 15

Đây là một bài toán tối ưu hóa hai cấp độ (bi-level optimization problem) Với x

là cấp độ cao hon (upper-level) và w là cấp độ thấp hon(lower-level)

2.6.2 Cấp độ cao (upper level)

Tại cấp độ cao (upper-level), ký hiệu x đại điện cho một kiến trúc thuộc khônggian tìm kiếm O,,ch Hai mục tiêu chúng ta cần tối ưu lần lượt là hiệu suất và độ

phức tạp của kiến trúc Việc tối ưu được thực hiện việc tối thiểu hoá độ lỗi của

kiến trúc ferr và tối thiểu hoá độ phức tạp của kiến trúc feomp Độ lỗi ferr của kiếntrúc vecx bat kỳ có thể nhận được thông qua quá trình đánh giá kiến trúc vecx

với bộ trọng số tối ưu của nó w*(x) trên tập dữ liệu kiểm định 7,4 Mục tiêu

thứ 2 là độ phức tạp của kiến trúc ƒcomp có thể được đánh giá qua nhiều chỉ sốkhác nhau như độ trễ (latency), FLOPs, số lượng tham số (num params) Các chi

số này có thể nhận được mà không phải có bộ trọng số tối ưu Lưu ý rằng khi kết

thúc quá trình tìm kiếm của thuật toán MONAS, tất cả các kiến trúc thuộc biên

xp xi (approximate front) tìm được sẽ được huấn luyện và đánh giá lại giá trị fertrên bộ đữ liệu kiểm thử (test data) để có thể đánh giá được hiệu năng của chúngmột cách tổng quát

2.6.3 Cấp độ thấp (lower level)

Ở cấp độ thấp hơn, với mỗi kiến trúc x ta cần đi tìm bộ trọng số tốt nhất zø* (x)

của kiến trúc đó bằng cách đi tối ưu hoá zø*(x) € arg min L(x, w(x), Dirain)- Điều

này có thể đạt được thông qua quá trình huấn luyện các kiến trúc qua hàng chục,

hằng trăm epoch trên tập dữ liệu huấn luyện Diain bằng các thuật toán như Adamhay Stochastic Gradient Descent (SGD) để tìm được bộ trọng số làm tối thiểu hoá

ham mat mát CL

Chúng tôi gọi phát biểu bai toán này là MONAS (Multi-Objective Neural

Ar-chitecture Search).

Trang 28

Chương 2 CÁC CONG TRÌNH LIEN QUAN VÀ KIÊN THÚC NEN TANG — 16

2.7 Tìm kiếm kiến trúc mang neural đa mục tiêu không

qua huấn luyện

Trong quá trình thực hiện các phương pháp MONAS, các kiến trúc ứng viên

được tìm thấy thông qua chiến lược tìm kiếm cần phải ước lượng hiệu nang fer

của chúng Nếu ta trực tiếp áp dụng việc tối ưu hoá hai cấp độ như trên thì với

mỗi kiến trúc tìm được, ta muốn đánh giá hiệu năng chúng thì phải trải qua thực

hiện việc huấn luyện (tối ưu cấp thấp) để tìm bộ trọng số tối ưu Việc làm như vậy

sẽ dẫn đến việc bùng nổ thời gian và chỉ phí tính toán do số lượng kiến trúc được

tìm thấy trong quá trình thực hiện MONAS là rất lớn Đã có nghiên cứu được đưa

ra nhằm giảm bớt chỉ phí tính toán ở bước đánh giá này [19] Nổi bật

trong số đó là việc sử dụng những chỉ số dự đoán hiệu năng không thông qua

huấn luyện (training-free metrics) và đã đạt được nhiều kết quả an tượng khi

kết quả tìm được xấp xỉ hoặc tốt hơn các phương pháp sử dụng chỉ số hiệu năng

thông qua huấn luyện trong khi giảm bớt được di rất nhiều thời gian và chi phi

tính toán.

minimize F(x) = (fep(x, w(x)), feomp(x)) € IR’,

(2.8)subject to x € Orch, w(x) € Owweight(*),

Trong đó, ƒsr(x,t0(x)) = —synflow(w(x)) (do giá trị của synflow càng cao

càng tốt) Trong đó giá trị synflow của mỗi kiến trúc có thể được tinh dé dang

thông qua các trọng số được khởi tạo ban đầu của mỗi kiến trúc Chúng tôi gọi

phát biểu bài toán này là TF-MOEGNAS (Training-Free Multi-Objective Graph

Neural Architecture Search) Chúng tôi sẽ so sánh hiệu năng và các kết quả của

việc giải quyết bài toán TF-MOEGNAS với các kết quả của việc giải quyết bài toán

MOEGNAS đòi hỏi quá trình huấn luyện

°?e A

2.8 Phuong pháp giải quyết bài toán bằng thu hep

không gian tìm kiếm

Nhằm giải quyết các van dé về chi phí tính toán ngoài các chỉ số đánh giá kiến

trúc không qua huấn luyện các công trình nghiên cứu về hướng tiếp cận bằng

Trang 29

Chương 2 CÁC CONG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG | 17

thu hẹp không gian tìm kiếm (hay Rogressive Search Space Shrinking) đã được

để xuất [22] Y tưởng chủ chốt của các phương pháp tiếp cận này là

tìm cách giảm số lượng các kiến trúc có trong không gian tìm kiếm Các kiến trúc

được xem là không tốt sẽ được loại bỏ dần khỏi không gian tìm kiếm và chỉ chừalại các kiến trúc tốt Các kiến trúc này sẽ được đánh giá dựa theo các chỉ tiêu

khác nhau chẳng hạn như độ phức tạp của kiến trúc, độ chính xác của kiến trúc,

" Hình|2.7|minh hoạ quá trình thu hẹp không gian tìm kiếm qua từng giai đoạn

cắt tỉa của thuật toán chúng tôi, lưu ý trong quá trình thực hiện thuật toán, chúng

tôi sử dung chỉ số synf low và chỉ số thể hiện độ phức tap của kiến trúc chứ không

sử dụng độ chính xác trên tập test để làm mục tiêu cắt tỉa

2.8.1 DARTS

Một trong những lý do khác dẫn đến van dé về chi phi tính toán của bài toánNAS là do các chiến lược tìm kiếm Trên thực tế các phương pháp NAS phổ biếndựa trên học tăng cường hoặc thuật toán tiến hoá xem bài toán NAS như một bàitoán tối ưu hộp đen, vì thé chúng thường yêu cau rất nhiều lần đánh giá kiến trúctrong quá trình tìm kiếm và khiến cho chi phí tính toán tăng cao Liu và cộng sự

dé xuất thuật toán DARTS [22] Chuyển đổi từ không gian tìm kiếm từ miễn rời

rạc (discrete domain) sang miễn liên tục (continuous domain), giúp bài toán có

thể tiếp cận với các phương pháp tối ưu mạnh mẽ hơn giành cho miễn liên tục

Ví dụ như trong chính bài báo DARTS, nhóm tác giả đã sử dụng thuật toán suy

giảm độ đốc (gradient descent) để tìm kiếm kiến trúc

Cụ thể, DARTS thực hiện việc nới lỏng từ miễn rời rac sang miền liên tục bằngcách xây dựng một kiến trúc mới gọi là siêu mạng (supernet) Kiến trúc supernet

này được xây dựng bằng cách thiết lập tất cả cạnh (kết nối) có thể có giữa các cặp

node ij với nhau, sau đó với mỗi cạnh như vậy áp dụng tat cả operation o € O,sau đó tính tổng softmax các operation này với nhau để làm đầu ra cho node hiệntại Nhóm tác giả xem việc kết hợp các operation lại như một operation riêng biệt,

ký hiệu là 0;(x) Operation ơ;; của supernet sẽ được tinh theo công thức

L2 ij

a(x) = 1 BÁU TIẾN o(x) (2.9)

1

Trang 30

Chương 2 CÁC CÔNG TRÌNH LIEN QUAN VÀ KIÊN THÚC NEN TANG 18

3.5 Pruning stage 1 Vad 3.5 Pruning stage 2

Synaptic Flow (log10 scale)

HÌNH 2.7: Các kiến trúc nằm trong không gian tìm kiếm được loại

bỏ lần lượt chỉ để lại các kiến trúc có kết quả tốt (ở đây là độ chính xác ở tập test thể hiện bằng trục X) hoặc có độ phức tạp thấp (ở đây

là số lượng param thể hiện ở trục Y)

Trong đó với mỗi cặp node (i,j), các operation sẽ được gan một trọng số đượcgọi là operation mixing weights, thể hiên bang vector œ” Vector œ có số chiềubằng với số lượng operation |O| Với cách chuyển đổi như vậy, nhiệm vụ của bài

toán NAS bây giờ được giảm xuống thành việc tìm kiếm một tập hợp các biến

liên tục a = {2}, được minh hoạ như hình |2.8| Nhóm tác giả giả định rằng ở

cạnh (ij), nếu wil càng lớn thì việc sử dung operation øÏ sẽ cho hiệu suất cao nhất

so với việc sử dụng các operation còn lại Vì vậy sau quá trình tìm kiếm, ta có thể

nhận được kiến trúc có trong không gian tìm kiếm thông qua a bằng cách thay

thé operation ở các cạnh (ij) bằng operation có a’ lớn nhất : of = ñTg18XseO ag.

Trang 31

Chương 2 CÁC CONG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG — 19

(a) (b) (c) (d)

HINH 2.8: Minh hoa quá trình thực hiện thuật toán DARTS (a) Cac

phép toán trên các cạnh ban đầu chưa được biết (b) Liên tục nới lỏng không gian tìm kiếm bằng cách đặt hỗn hợp các phép toán ứng viên trên mỗi cạnh (c) Tối ưu hóa đồng thời operation mixing weights ø

và trọng số mạng bằng cách giải bài toán tối ưu hóa hai cấp độ (d)

Tao ra kiến trúc cuối cùng từ « đã học 22)

Mục tiêu của DARTS bây giờ là tối ưu đồng thời ø và trọng số w, thể hiện qua bài

toán tối ưu hai cấp độ

minimize Lz(”(&),ø)

: (2.10) subject to w*(a) = argminyLprain(w,&)

Thực nghiệm của nghiên cứu đã chỉ ra kiến trúc được tim thay bởi DARTS cóhiệu suất xấp xỉ hoặc vượt trội hơn so với các phương pháp trước đó trong khi sử

dụng it tài nguyên tính toán hơn Phương pháp xây dựng supernet từ nghiên cứu

này cũng là nền tảng cho nhiều phương pháp tìm kiếm sau này (39| (21) 20], cac

phương pháp này đều có điểm chung là bắt đầu bằng việc xây dựng supernet và

tiến hành tìm kiếm dựa trên supernet đó Trong khoá luận nay, Chúng tôi dé cập

đến các phương pháp sử dụng chung khuôn khổ này là phương pháp NAS dựa

trên cắt tỉa (pruning-base NAS)

2.8.2 Phương pháp cat tỉa dựa trên độ lớn

Chúng tôi dé cập đến phương pháp cắt tỉa dựa trên độ lớn (Magnitude-based

pruning NAS) là các phương pháp cắt tia NAS sử dụng chung giả định giá trị «

phan ánh sức mạnh của các operation, tức giá trị « của một operation càng lớn thì việc

Trang 32

Chương 2 CÁC CONG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG 20

— —Decision \ Decision

3

HÌNH 2.9: Minh họa thuật toán cắt tỉa dựa trên độ lớn SGAS (21})

zt

sử dung operation đó sẽ mang lai hiệu suất cao nhất Ví du một phương pháp cắt

tỉa dựa trên độ lớn khác là SGAS được dé xuất bởi Li và cộng sự [21] SGAS giam

thiểu 2 van dé mà thuật toán DARTS gặp phải (1) Độ chính xác trong quá trình

huấn luyện supernet và độ chính xác của kiến trúc cuối cùng nhận được thường

có độ tương quan (correlation) thấp, (2) tác động tiêu cực của việc sử dụng chia

sẻ trọng số (weight sharing)

Ở thuật toán DARTS, sau khi trải qua huấn luyện supernet, các cạnh sẽ được

cắt tỉa đồng thời thông qua việc thay thé operation trên cạnh (i,j) bang operation ø¡;

có af cao nhất Còn đối với SGAS, trong quá trình huấn luyện supernet, các cạnh

sẽ được tỉa tuan tự Cụ thé, ở mỗi epoch đã được xác định trước, thuật toán sẽtiến hành lựa chọn một cạnh (ij) dựa trên phương pháp tham lam, sau đó sẽ tiến

hành đánh giá các operation 0;; ở cạnh nay thông qua aj và giữ lai operation có a? cao nhất Quá trình này được lặp lại cho đến khi toàn bộ các cạnh của supernet

đã được cat tỉa chi còn lại 1 operation duy nhất - và cũng là kiến trúc kết quả của

thuật toán SGAS Toàn bộ quá trình thực hiện thuật toán được mô tả qua hình

Việt cắt tỉa các operation trên các cạnh của kiến trúc siêu mạng này chính là 1

cách biểu hiện của việc thu hẹp không gian tìm kiếm Lay ví dụ chúng ta cắt bỏoperation 1 ở cạnh đầu tiên, điều này có nghĩa là chúng ta cũng đồng thời loại bỏtất cả các kiến trúc có operation 1 ở cạnh đầu tiên trong không gian tìm kiếm

Trang 33

Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG 21

Ú?O CÓ) 0) Ö)C)

VU 7 Ty

HÌNH 2.10: Các operation sẽ được tạm loại bỏ để đánh giá sức ảnh

hưởng của operation đó đối với kiến trúc

2.8.3 Phương pháp cat tỉa dựa trên độ nhiễu

Trong bài báo [59], Wang và các cộng sự thông qua hàng loạt thực nghiệm

và phân tích đã chứng minh rằng giả định giá trị « phan ánh sức mạnh của cácoperation có thể không đứng trong trường hop tổng quát Thay vào đó, họ dé xuất

thuật toán DART-PT là một phương pháp cắt tỉa quyết định việc giữ lại hay cắt

bỏ đi một operation dựa trên độ nhiễu (Perturbation-based pruning NAS) Thuật

toán này bắt đầu sau khi trải qua quá trình huấn luyện supernet theo thuật toánDARTS để thu được bộ trọng số tối ưu Sau đó sẽ lần lượt lựa chọn một cạnh e bat

kỳ trong supernet mà chưa được cắt tỉa, một operation 0, bat kỳ trên cạnh này sẽ

được đánh giá bằng cách đánh giá lại độ chính xác của supernet sau khi tạm thời

loại bỏ di operation nay(AC C\o,) (minh hoa hinh{2.10) Sau khi thuc hién nhu vay

cho tất cả operation trên cạnh, ta sé chon giữ lai operation làm cho supernet bị

suy giảm độ chính xác của supernet nhiều nhất : 0; = argmaxo, ACC\, và tiền

hành tinh chỉnh (fine-tune) supernet một vai epoch trước khi lặp lại quá trình

trên Thuật toán kết thúc sau khi tất cả các cạnh của supernet đều chỉ còn lại một

operation duy nhất

Có thể thấy toàn bộ quá trình lựa chọn operation trên các cạnh đều không sửdụng tới chỉ số ø Vì vậy nhóm tác giả đã thực nghiệm việc so sánh kết quả củathuật toán ở 2 phiên bản : tối ưu và không tối ưu ø trong quá trình huấn luyện

Trang 34

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIÊN THÚC NEN TANG — 22

supernet Thực nghiệm chỉ ra rằng việc tối ưu a mat nhiều thời gian tính toán hơn

do phải giải bài toán tối ưu hai cấp độ trong khi chỉ cho ra kết quả xấp xi so vớiviệc không tối ưu a

2.8.4 Phương pháp cắt tỉa không trải qua huấn luyện và tìm kiếm

kiến trúc đa mục tiêu

Các phương pháp dựa trên cắt tỉa được xem như một cách tiếp cận hiệu quả

để giải quyết bài toán NAS Tuy nhiên, hầu hết các phương pháp NAS dựa trên

cắt tỉa trước đây chỉ tập trung vào giải quyết bài toán NAS đơn mục tiêu Thêm

vào đó, các phương pháp này vẫn đòi hỏi chi phí tính toán khá lớn do phải trải

qua việc huấn luyện một kiến trúc lớn là supernet Với mong muốn giải quyết 2

van dé này, Phan và các cộng sự đã đề xuất thuật toán kết hợp giữa cắt tỉa

đa mục tiêu và chỉ số du đoán hiệu năng không qua huấn luyện (TF-MOPNAS)

Phương pháp TF-MOPNAS kết hợp việc sử dụng chỉ số dự đoán hiệu năngkhông qua huấn luyện là synf1ow để giải quyết vấn đề về chỉ phí tính toán ở các

phương pháp NAS dựa trên cắt tỉa Với việc làm này, các kiến trúc được tạo ratrong quá trình cắt tỉa lúc này sẽ được ước lượng hiệu năng bằng cách sử dụngtrực tiếp chỉ số synflow Ví dụ, ở mỗi bước cat tỉa, để xác định operation nào sẽđược giữ lại ở cạnh hiện tại, ta sẽ lần lượt tạo ra các kiến trúc mới bằng cách sửdụng duy nhất 1 operation trên cạnh được chọn rồi sử dung chỉ số synflow để

đánh giá các tập kiến trúc mới được tạo ra Kiến trúc nào có giá trị synflow caonhất có nghĩa operation đang sử dụng của kiến trúc đó sẽ mang lại hiệu năng cao

nhất và ta sẽ chọn giữ lại kiến trúc này

Ngoài việc tận dụng chỉ số synf1ow để giảm bớt chỉ phí tính toán, nhóm tác

giả còn mở rộng phương pháp sang giải quyết bài toán NAS đa mục tiêu Ở các

phương pháp cắt tỉa đơn mục tiêu, ở mỗi bước cắt tỉa, thuật toán chỉ thực hiện

việc cat tỉa trên một kiến trúc duy nhất (kiến trúc tốt nhất trước đó), sau khi quátrình đánh giá operation kết thúc, ta cũng chỉ giữ lại một kiến trúc duy nhất (kiến

trúc tốt nhất hiện tại) và thuật toán lại tiếp tục thực hiện việc cắt tỉa trên kiến trúcnày Điều này khiến kết quả thu được sau khi kết thúc quá trình cắt tỉa chỉ là kiến

trúc có hiệu năng tốt nhất Để mở rộng sang giải quyết bài toán NAS đa mục tiêu,phương pháp TF-MOPNAS đã kết hợp định nghĩa thống trị Pareto để chọn ra cáckiến trúc không bị thống trị trong quá trình cắt tỉa và sử dụng các kiến trúc này

Trang 35

Chương 2 CÁC CONG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG 23

Ạ | `

(_ (_ e

Na LILI U TT

HÌNH 2111: giữ lại 1 operation duy nhất rồi sử dụng các chỉ số không

qua huấn luyện để đánh giá operation

để cat tỉa trong bước tiếp theo, thay vì chỉ sử dụng duy nhất kiến trúc có hiệusuất cao nhất như trong các phương pháp cắt tỉa đơn mục tiêu Kết quả sau khikết thúc quá trình cắt tỉa lúc này sẽ là một tập hợp những kiến trúc hình thành

biên xấp xỉ Pareto, thể hiện sự đánh đổi giữa hiệu năng và độ phức tạp của mỗikiến trúc tìm được

Với việc kết hợp giữa cắt tỉa đa mục tiêu và chỉ số dự đoán hiệu năng khôngqua huấn luyện, phương pháp này làm cải thiện đáng kể tốc độ tính toán nhưng

vẫn giữ được 1 độ chính xác nhất định trong quá trình đánh giá các kiến trúc

Ngày đăng: 02/10/2024, 02:30

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w