đồ án tấn công cửa sau phụ thuộc đầu vào trong mạng học sâu phân loại ảnh

Ở đây, bức ảnh có nhãn gốc là 1 đượcmô hình học sâu phân lớp đúng khi trong ảnh không có mã cửa sau.Tuy nhiên, khi thêm vào trong ảnh một số điểm ảnh nhỏ nằm ở góc bứcảnh, mô hình học sâ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC

HÀ NỘI, 06/2021

Trang 2

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

1 Mục đích và nội dung của đồ án

2 Kết quả đạt được

3 Ý thức làm việc của sinh viên

Hà Nội, ngày 30 tháng 06 năm 2021

Giảng viên hướng dẫn(Ký và ghi rõ họ tên)

Trang 3

Mục lục

1.1 Học máy 1

1.1.1 Tổng quan về học máy 1

1.1.2 Quá trình phát triển của học máy 1

1.1.3 Các hướng tiếp cận của học máy 4

1.2 Học sâu 5

1.2.1 Tổng quan về học sâu 5

1.2.2 Quá trình phát triển của học sâu 6

1.3 Bài toán phân loại ảnh 8

1.3.1 Tổng quan về bài toán phân loại ảnh 8

1.3.2 Phương pháp học sâu trong bài toán phân loại ảnh 9

1.3.3 Một số tiến bộ của học sâu trong bài toán phân loại ảnh 11

2 Tấn Công Cửa Sau Trong Mạng Học Sâu Phân Loại Ảnh 13 2.1 Đặt vấn đề 13

2.2 Tấn công cửa sau trong mạng học sâu phân loại ảnh 15

2.2.1 Định nghĩa 15

2.2.2 So sánh tấn công cửa sau với tấn công đối nghịch 15

2.2.3 Lịch sử nghiên cứu 16

2.2.4 Các kịch bản tấn công cửa sau 18

2.3 Một số ký hiệu dùng trong đồ án 18

3 Các Phương Pháp Tấn công 20 3.1 BadNets 20

3.2 Dynamic Backdoor Attacks 20

4 Các Phương Pháp Phòng Thủ 24 4.1 Phòng thủ mô hình 24

4.1.1 Tổng quan 24

4.1.2 Neural Cleanse 25

4.1.3 Fine-Pruning 27

4.2 Phòng thủ hậu triển khai 28

Trang 4

4.2.1 Tổng quan 28

4.2.2 STRIP 29

4.2.3 Februus 30

5 Tấn Công Cửa Sau Phụ Thuộc Đầu Vào 32 5.1 Sơ lược về phương pháp 32

5.1.1 Yếu điểm của các phương pháp tấn công cửa sau trước đây 32

5.1.2 Ý tưởng phương pháp 34

5.2 Chi tiết phương pháp 34

5.2.1 Một số định nghĩa 34

5.2.2 Bộ sinh mã 35

5.2.3 Chế độ huấn luyện 36

5.2.4 Hàm mục tiêu 36

5.3 Kết quả thực nghiệm 38

5.3.1 Thiết kế thí nghiệm 38

5.3.2 Thí nghiệm tấn công 38

5.3.3 Thí nghiệm phòng thủ 38

5.3.4 Thí nghiệm bổ sung 40

5.3.5 Phân tích bổ sung 42

Trang 5

Lời mở đầu

Trong thời đại 4.0 hiện nay, trí tuệ nhân tạo (Artificial Intelligence) đã và đang trởthành một công cụ vô cùng hữu ích Các phương pháp học máy, học sâu đã và đangđạt được những kết quả đáng kinh ngạc, thậm chí vượt trội so với con người ở nhiềutác vụ mà trước kia tưởng chừng như chỉ có loài người có khả năng

Tuy nhiên, từ đây đồng thời cũng dấy lên những mối nguy hiểm tiềm tàng về anninh, khi mà các mô hình học sâu hoàn toàn có thể bị kẻ xấu lợi dụng kẽ hở để sửdụng cho những mục đích xấu Tấn công cửa sau là một trong những mối nguy hiểmnhư vậy Mới xuất hiện một vài năm trở lại đây, nó đã được nhận định rằng là mộttrong những mối nguy hiểm hàng đầu, bên cạnh tấn công đối nghịch, đối với những

mô hình học sâu Nhận thức được tính thời sự của đề tài, trong khuồn khổ đồ án này,

em xin trình bày một cái nhìn tổng quát, cũng như sơ lược về cách cách thức tấn công

và phòng thủ cửa sau hiện nay

Trang 6

Lời cảm ơn

Đồ án này đánh dấu chương cuối cùng của một chặng đường 5 năm đầy kỷ niệmcủa em dưới mái trường Đại học Bách Khoa Hà Nội Để đi đến cuối cùng của chặngđường gian nay, đầy thử thách này, ngoài sự nỗ lực của bản thân, tất nhiên không thểkhông kể đến sự động viên tinh thần của thầy cô, bạn bè, gia đình, và người yêu đãdành cho em Cảm ơn mọi người đã làm chỗ dựa tinh thần, giúp em trải qua nhữngphút giây khó khăn cũng như là nguồn động lực để em hoàn thành cuộc hành trìnhnày

Em cũng muốn gửi lời cảm ơn đến thầy Lê Chí Ngọc, người đã định hướng và hướngdẫn em từ những ngày đầu tiên, giúp em tiếp cận đến chủ đề học máy Cảm ơn thầy

vì đã dẫn dắt tập thể lớp KSTN Toán Tin K61, luôn có mặt lúc sinh viên gặp khókhăn, và luôn cố gắng tìm kiếm nguồn lực bên ngoài để tạo điều kiện, giới thiệu chosinh viên Viện Toán Ứng Dụng và Tin Học, mặc dù đôi khi thầy hơi khó tính và khógần Cơ duyên của em với VinAI Research cũng chính một phần nhờ buổi giới thiệucho sinh viên KSTN Toán Tin mà thầy đứng ra liên hệ và tổ chức

Đồ án này chính là một phần của bài báo với nhan đề Input-Aware Dynamic door Attack, một bài báo được công bố tại Advances in Neural Information ProcessingSystems 2020 - hội nghị về học máy hàng đầu thế giới Để có được thành công này,không thể không nhắc đến anh Trần Tuấn Anh, người hướng dẫn của em tại VinAIResearch Cảm ơn anh vì đã hướng dẫn, chỉ bảo em gần như mọi thứ em biết hiện nay

Back-về chủ đề học máy và thị giác máy tính, cũng như định hình phong cách lập trình của

em từ ngày đầu tiên em viết một chương trình về học máy Không có sự giúp đỡ củaanh, thực khó cho em có thể có khả năng chạm tới những giấc mơ mà em đang theođuổi

Bên cạnh đó, em cũng muốn cảm ơn viện nghiên cứu trí tuệ nhân tạo VinAIResearch, cũng như bạn bè, đồng nghiệp, những anh chị ở nơi đây Họ đã giúp đỡ emrất nhiều, không chỉ bởi những trao đổi chuyên môn, mà còn về những khía cạnh kháctrong cuộc sống Cảm ơn viện đã cung cấp trang thiết bị, cũng như tài nguyên tínhtoán, tạo điều kiện cho em hoàn thành bài báo trước đó, tức một phần của đồ án lầnnày

Và cuối cùng, em cũng xin cảm ơn thầy Trần Ngọc Thăng, người đã có những chỉnhsửa, đóng góp, giúp đồ án em được hoàn thiện hơn

Trang 7

Danh sách hình vẽ

1.1 Học máy - lĩnh vực quan trọng trong ngành khoa học máy tính Nguồnhttps://bit.ly/3h8ku8L 21.2 Minh họa phép thử Turing Ở phép thử này, máy tính sẽ cố đánh lừacon người rằng nó thực sự là con người Nguồn [1] 31.3 Minh họa mô hình LSTM - một trong những mô đun được sử dụng nhiềunhất trong các tác vụ xử lý dữ liệu theo dạng chuỗi thời gian Nguồn [2] 41.4 Minh họa ba hướng tiếp cận của học máy Nguồn shorturl.at/oruyE 51.5 Những hội nghị học máy háng đầu hiện nay Trong ngành khoa học máytính, những hội nghị (conferences) được đánh giá cao hơn nhiều so vớitạp chỉ (journals) Từ trái sang phải: Advances in Neural InformationProcessing Systems (NeurIPS), International Conference on MachineLearning (ICML), và International Conference on Learning Represen-tation (ICLR) 61.6 Máy tính IBM 704 đặt tại Viện Đại Học Cornell, Hoa Kỳ Nguồn https://bit.ly/3hnqwkG 71.7 Minh họa kiến trúc Von Neumann Nguồn [3] 81.8 Minh họa trích xuất đặc trưng ảnh bằng các hạt nhân Mỗi hạt nhânkhi nhân tích chập với ảnh sẽ cho ra một đặc trưng tương ứng 91.9 Minh họa mô đun học thặng dư (residual module) - một mô hình nổitiếng trong bài toán phân loại ảnh Nguồn [4] 101.10 Tấn công đối nghịch - một mối nguy hiểm thường trực của các hệ thốngphân loại ảnh sử dụng học sâu Ở đây, kẻ tấn công thực hiện hành

vi bằng cách thêm vào một bức ảnh có nhãn "panda" (gấu trúc) mộtnhiễu (noise) không đáng kể Rõ ràng với mắt thường, bức ảnh khôngthay đổi, tuy nhiên hệ thống học sâu phân loại ảnh nhận diện sai thànhnhãn "gibbon" (vượn) Nguồn [5] 111.11 Minh họa một số nhãn trong bộ ImageNet - bộ dữ liệu tiêu chuẩn chocác bài toán phân loại ảnh Nguồn [6] 12

2.1 Minh họa tấn công cửa sau Ở đây, hệ thống nhận diện có cửa sauhoạt động tốt với những ảnh đầu vào "sạch" Tuy nhiên, nếu ta thêmvào trong ảnh một số chi tiết đặc biệt, gọi là các mã cửa sau (triggers),

sẽ làm cho hệ thống hoạt động sai lệch Nguồn [7] 14

Trang 8

2.2 Hiểm họa của tấn công cửa sau trong thực tế Nguồn [8] 152.3 Tấn công sử dụng tác nhân vật lý Ở đây, người ta sử dụng kínhmắt để làm trigger Nguồn [9] 162.4 Minh họa phương pháp Fine-pruning trong việc phòng thủbackdoor Bài báo đề xuất đến việc tỉa đi những phần "ít hoạt động"của mô hình trên tập dữ liệu thử Nguồn [10] 172.5 Minh họa các thành phần của tấn công cửa sau Có thể thể thấyrằng, dù chỉ khác biệt so với ảnh ban đầu không đáng kể, ảnh backdoorvẫn bị nhận diện nhầm bởi mô hình phân lớp ảnh 19

3.1 BadNets trong thực tế Ở đây, biển báo dừng lại bị nhận diện nhầmthành biển báo hạn chế tốc độ khi ta dán một miếng decal vuông màutrắng xuống vùng dưới của biển báo Nguồn [11] 213.2 Minh họa tấn công động Khác với cách tấn công truyền thống,trigger của tấn công động thay đổi ngẫu nhiên Nguồn [12] 223.3 Cách thức thực hiện của tấn công động Ở đây, trigger ti đượcsinh ngẫu nhiên bởi BaN, sau đó được áp dụng vào ảnh x để làm ảnh

có nhãn là 7 này được nhận diện thành nhãn mục tiêu 9 Nguồn [12] 23

4.1 Minh họa kết quả của Neural Cleanse Thí nghiệm được thực hiệntrên hai tập dữ liệu: tập dữ liệu chữ số viết tay [13] (MNIST) và tập dữliệu biển báo giao thông đức [14] (GTSRB) Với mỗi tập dữ liệu, nguời

ta luyện một mô hình phân lớp ảnh với backdoor như ảnh đầu tiên Ảnhthứ hai là ảnh của trigger m ∗ p mà Neural Cleanse tìm được Nguồn [15] 274.2 Tín hiệu kích hoạt trung bình (average activations) của các nơron lớp cuối cùng Ta có thể thấy rằng, tín hiệu với mô hình bìnhthường rất khác so với mô hình chứa cửa sau Nguồn [10] 284.3 Minh họa phương pháp cắt tỉa nơ ron Ở đây, những nơ ron đónggóp không đáng kể vào quá trình phân loại bức ảnh sẽ bị loại bỏ Nguồn[10] 284.4 Minh họa STRIP Ở đây, bức ảnh ˆx được ghi đè với các bức ảnh kháctrong tập thử n để thu được n bức ảnh ˆx0 Sau đó, người ta tiến hànhtính entropy trung bình của f (ˆx0) (f là mô hình cho trước) Nếu giá trịentropy này nhỏ hơn ngưỡng cho trước (trong bài đề xuất ngưỡng này

là 0.2), thì bức ảnh ˆx ban đầu là bức ảnh chứa cửa sau Nguồn [16] 294.5 Biểu đồ tần suất của entropy Màu xanh biểu thị entropy của ảnhthường, màu cam biểu thị entropy của ảnh backdoor Ta có thể thấyrằng, entropy của ảnh chứa cửa sau thấp hơn rất nhiều so với nhữngbức ảnh thường Nguồn [16] 30

Trang 9

4.6 Bản đồ nhiệt của những bức ảnh backdoor Trigger là hình ngôisao trên má người ca sĩ ở bức ảnh đầu tiên và là hình bông hoa đối vớihai bức ảnh còn lại Có thể thấy rằng, phương pháp đã nhận diện đúngđược vị trí của trigger trong bức ảnh Nguồn [17] 31

5.1 Minh họa cò p, mặt nạ m, và mã cửa sau t Ở đây, giá trị các điểmảnh của p sẽ nằm trong miền giống với ảnh đầu vào, giá trị các điểmảnh của m sẽ nằm trong đoạn [0, 1], và là kí hiệu của phép nhân từngđiểm ảnh 335.2 Minh họa tấn công cửa sau Ở đây, bức ảnh có nhãn gốc là 1 được

mô hình học sâu phân lớp đúng khi trong ảnh không có mã cửa sau.Tuy nhiên, khi thêm vào trong ảnh một số điểm ảnh nhỏ nằm ở góc bứcảnh, mô hình học sâu phân lớp liền phân loại nó về với nhãn mục tiêu

là nhãn 0 Nguồn [18] 335.3 Phương pháp tấn công cửa sau phụ thuộc đầu vào Ở đây, kẻ tấncông sứ dụng mạng sinh ảnh g để tạo ra khóa cửa sau (m, p) phụ thuộcvào đầu vào x Sau khi huấn luyện, mô hình phân lớp ảnh vẫn có khảnăng nhận diện chính xác ảnh không chứa cửa sau (như ảnh đầu tiênbên trái) nhưng trả về một nhãn mục tiêu "plane" khi ảnh bị tiêm mãcửa sau tương ứng với nó (ảnh thứ 2 từ trái sang phải) Tuy nhiên, khitiêm mã cửa sau không tương thích (mã ứng với ảnh thứ 5 từ trái sangphải) vào ảnh, thì ảnh không hề bị nhận diện sai Do đó, mã cửa sau ởđây là bất đồng bộ (non-reusable) Nguồn [18] 345.4 Ba chế độ huấn luyện được đề xuất Chúng bao gồm: (a) huấnluyện bô mình với dữ liệu sạch, (b) huấn luyện mô hình với dữ liệu chứa

mã cửa sau tương thích, và (c) huấn luyện mô hình chứa mã cửa saukhông tương thích Nguồn [18] 365.5 Kiến trúc bộ sinh mã và độ chính xác của mô hình phân loại

Ở đây, mỗi ConvBl gồm một lớp tích chập Conv2D (nhân 3 × 3), mộtlớp BatchNorm, và một lớp ReLU ConvBl cuối cùng không bao gồmReLU Ở bảng (b), cột Clean, Attack, và Cross theo thứ tự biểu thị độchính xác của mô hình với đầu vào là ảnh bình thường, ảnh chứa cửasau tương thích, và ảnh chứa cửa sau không tương thích 395.6 Một số ảnh cửa sau mẫu Nhãn mục tiêu (tấn công) của từng bức

bộ dữ liệu là "0" (MNIST), "airplane" (CIFAR-10), và "speed-limit-20"(GTSRB) 395.7 Thí nghiệm phòng thủ với những phương pháp hiện nay Nguồn[18] 405.8 Hiệu suất mô hình trên tập CIFAR-10 khi thay đổi ρb và ρc.Nguồn [18] 41

Trang 10

5.9 Các phân tích bổ sung: (a) Độ chính xác với ảnh có mã cửa sautương thích trên tập CIFAR-10 sau khi chính quy hóa, (b) so sánh biểu

đồ nhiệt của ảnh cửa sau ứng với ba phương pháp tấn công [11, 19, 12](ba cột đầu tiên) và phương pháp mới (cột cuối cùng), trên cùng mộtbức ảnh thuộc tập GTSRB 42

Trang 11

Danh sách bảng

5.1 Mô tả chi tiết về các bộ dữ liệu và mô hình phân lớp tương ứng

sử dụng trong thí nghiệm Mỗi lớp tích chập (conv) và lớp tuyến tính(fc) được theo sau bởi hàm kích hoạt ReLU, ngoại trừ lớp tuyến tínhcuối cùng 38

Trang 12

Nói khái quát, học máy (machine learning) có thể được hiểu là lĩnh vực nghiên cứu

về những thuật toán, tự động cải thiện hiệu suất của một tác vụ nào đó (task) thôngqua việc sử dụng tiên nghiệm (prior) và dữ liệu (data) Việc cải thiện hiệu suất nàythông thường được gọi là huấn huyện mô hình (model training) Các thuật toán họcmáy xây dựng mô hình dựa trên cấu trúc ban đầu của mô hình (model architecture)

và điều chỉnh các tham số của mô hình dựa trên các dữ liệu mẫu (sample data), haycòn được gọi là dữ liệu luyện (training data)

Học máy là sự giao thoa của rất nhiều lĩnh vực khác nhau Một lĩnh vực con củahọc máy là học thống kê (statistical learning) liên quan mật thiết đến thống kê tínhtoán (computational statistics), tức là tập trung vào việc đưa ra quyết định sử dụngmáy tính Tuy nhiên, không phải tất các thuật toán học máy đều dựa trên thống kê.Bên cạnh đó, các phương pháp tối ưu toán học (mathematical optimization) cũng làxương sống của học máy nói chung, bởi chúng cung cấp những lý thuyết, phương pháp

và các công cụ, sử dụng trong việc tối ưu tham số trong mô hình học máy Ngoài ra,khai phá dữ liệu (data mining) cũng có thể là một lĩnh vực gắn liền với học máy, khi

mà nó tâp trung vào việc khai phá phân tích dữ liệu lớn và hỗn tạp, cuối cùng trả vềnhững tập dữ liệu con hữu ích và có giá trị

1.1.2 Quá trình phát triển của học máy

Mặc dù mới được quan tâm nhiều trong một vài thập kỷ gần đây, tuy nhiên nhữngnền móng của học máy đã xuất hiện từ rất sớm Năm 1763, hai năm sau khi nhà toánhọc Thomas Bayes qua đời, công trình của ông mang tên "An Essay towards solving

a Problem in the Doctrine of Chances" [20] được chỉnh sửa và công bố bởi người bạn

Trang 13

Hình 1.1: Học máy - lĩnh vực quan trọng trong ngành khoa học máy tính Nguồnhttps://bit.ly/3h8ku8L.

của ông là Richard Price Đây là cột mốc quan trọng, đánh dấu sự ra đời của định lýBayes, xương sống của lý thuyết xác suất nói chung và ngành học máy nói riêng.Năm 1805, Adrien-Marie Legendre xuất bản công trình "Méthode des moindrescarrés" [21], hay còn được biết đến với tên gọi là Phương Pháp Bình Phương TốiThiểu Đây là một trong những phương pháp cơ bản của học máy, sử dụng để khớpmột mô hình với một tập dữ liệu cho trước

Năm 1913, Andrey Markov mô tả một kỹ thuật mà ông sử dụng để phân tíchnhững bài thơ Về sau, nó trở nên biết được rộng rãi với tên gọi Xích Markov (Markovchain) Đây là nền móng của bộ môn Quá trình ngẫu nhiên (Random process), được ápdụng rộng rãi trong học máy, đặc biệt trong lĩnh vực học tăng cường (Reinforcementlearning)

Năm 1950, nhà khoa học máy tính Alan Turing đưa ra một thuật ngữ nổi tiếng Phép Thử Turing (the Turing test) Phép thử này có thể được miêu tả đơn giản nhưsau: để một trí tuệ nhân tạo vượt qua được phép thử này, nó phải đủ thông mind đểthuyết phục con người rằng nó thực chất không phải là một trí tuệ nhân tạo Địnhnghĩa này có thể coi như là một ranh giới tối thượng mà một trí thông minh nhân tạo

-có thể đạt đến, đó là tiệm cận đến khả năng lập luận logic (logical inference) của conngười

Năm 1952 đánh dấu một bước tiến lớn của học máy, khi mà một chương trình cóthể tự động học trong khi hoạt động ra đời Chương trình này là một phần mềm chơi

cờ đam (checkers) được tạo ra bởi nhà khoa học máy tính Arthur Samuel và các cộng

sự, khi mà nó có khả năng tự động phát triển khả năng chơi cờ đam thông qua việctập luyện đối kháng cùng con người

Trang 14

Hình 1.2: Minh họa phép thử Turing Ở phép thử này, máy tính sẽ cố đánh lừa conngười rằng nó thực sự là con người Nguồn [1].

Một trong những phát kiến cách mạng được ra đời vào năm 1970 bởi Seppo nainmaa và các cộng sự, khi họ lần đầu tiên đưa ra phương pháp tổng quát về việctính sai phân, được gọi là sai phân tự động (automatic differentiation) [22] Phiên bảnngược của phương pháp này sau đó được phát triển và ứng dụng bởi Rumelhart và cáccộng sự vào năm 1986 [23] trong việc học biểu diễn (representation learning) Nó vẫnđược sử dụng rộng rãi cho đến tận ngày nay, là một công cụ tối quan trọng trong việctối ưu các tham số của một mô hình mạng học sâu, được biết đến với cái tên quenthuộc đó là lan truyền ngược (backpropagation)

Lin-Những thập niên cuối của thế kỷ 20 chứng kiến sự mở rộng của ngành học máy khihàng loạt những phương pháp học máy cổ điển được phát minh, có thể kể đến nhưThuật toán rừng ngẫu nhiên (random forest) [24], máy véc tơ hỗ trợ (support-vectormachines) [25], hay những mô hình mạng như mạng nơ ron hồi quy (recurrent neuralnetwork) [26] hay bộ nhớ dài-ngắn hạn (long-short term memory) [27] Đây đều lànhững phát kiển kinh điển, là nền móng của rất nhiều mô hình học máy hiện đại vàbản thân chúng vẫn còn tỏ ra hữu hiệu đối với một số tác vụ nhất định cho tới tậnngày nay

Tuy nhiên, cho đến cuối thập niên đầu tiên của thế kỷ 21, với sự gia tăng tốc chóngmặt về tốc độ tính toán nhờ bộ xử lý đồ họa (graphics processing unit - GPU), họcmáy nói chung, hay một mảng con của nó là học sâu (deep learning), bắt đầu có sựphát triển rực rỡ Cũng bắt đầu từ đây, giới nghiên cứu bắt đầu tập trung nhiều hơnvào học sâu, lĩnh vực tưởng chừng như bị lãng quên do những rào cản về tính toán.Các mô hình học sâu, với ưu thế về độ phức tạp và số tham số, dần tỏ ra vượt trội cácphương pháp truyền thống trong tất cả các tác vụ học máy: xử lý ảnh, xử lý ngôn ngữ

tự nhiên, xử lý âm thanh,

Hiện nay, học máy đã và đang len lỏi vào mọi ngóc ngách trong cuộc sống, từ nhữngtác vụ đơn giản hằng ngày như mua sắm, lướt mạng, cho đến những công việc phứctạp, đòi hỏi độ chính xác cao như đưa tên lửa lên quỹ đạo hay vận hành nhà máy đều

Trang 15

Hình 1.3: Minh họa mô hình LSTM - một trong những mô đun được sử dụng nhiềunhất trong các tác vụ xử lý dữ liệu theo dạng chuỗi thời gian Nguồn [2].

có sự trợ giúp của trí tuệ nhân tạo Có thể trong tương lai, trình độ khoa học kỹ thuậtđạt tới tột đỉnh và học máy sẽ đạt đến trình độ vượt qua phép thử Turing

1.1.3 Các hướng tiếp cận của học máy

Về cơ bản, học máy có thể chia thành ba nhánh chính, dựa trên dữ liệu mà chúng

ta sử dụng để huấn luyện mô hình học máy, bao gồm: học giám sát (supervised ing), học không giám sát (unsupervised learning), và học tăng cường (reinforcementlearning)

learn-Học giám sát

Với học giám sát, mô hình được cung cấp đầu vào và nhãn của đầu vào đó Mụcđích cuối cùng của học giám sát đó chính là học được một ánh xạ từ tập đầu vào đếntập nhãn, dựa trên những cặp đầu vào - nhãn được cung cấp trước đó Một số tác vụhọc giám sát tiêu biểu có thể kể đến như: bài toán phân loại, bài toán hồi quy,

Học không giám sát

Với học không giám sát, mô hình chỉ được cung cấp đầu vào Nhãn của đầu vàokhông được sử dụng để huấn luyện mô hình Mục đích cuối cùng của học giám sát đóchính là học được biểu diễn "có ích" của dữ liệu (representation learning), tức là ánh

xạ được dữ liệu đầu vào đến một không gian khác, mà các chiều của không gian đó

Trang 16

Hình 1.4: Minh họa ba hướng tiếp cận của học máy Nguồn shorturl.at/oruyE.

có ý nghĩa hơn Một số tác vụ học bán giám sát tiêu biểu có thể kể đến như: bài toánphân cụm, bài toán học biểu diễn,

1.2 Học sâu

1.2.1 Tổng quan về học sâu

Như đã đề cập ở phần trước, học sâu là một lớp các mô hình học máy mà sử dụng ítnhất một lớp xử lý ẩn (hidden layer) ngoài lớp đầu vào và lớp đầu ra Hầu hết các môhình học sâu hiện nay đều dựa trên mạng nơ ron nhân tạo (artificial neural network),

ví dụ như mạng nơ ron tích chập (convolutional neural networks) hay lớp tuyến tính(linear layer),

Trong mạng học sâu, mỗi lớp mạng có thể được coi như là ánh xạ dữ liệu thô lênmột không gian trừu tượng và biểu diễn hiệu quả hơn dữ liệu đầu vào Ví dụ, với mộtmạng nơ ron tích chập dùng để phân lớp ảnh, đầu vào sẽ là một ten sơ (tensor) chứagiá trị các pixel bức ảnh ở ba dải màu (đỏ - xanh lá - xanh lam); lớp thứ nhất sẽcho đầu ra là biểu diễn của các cạnh trong bức ảnh; lớp thứ hai sẽ cho đầu ra là biểudiễn cách sắp xếp của các cạnh trong bức ảnh đó; lớp thứ thứ ba sẽ có đầu ra là biểu

Trang 17

diễn trừu tượng của cái mũi, cái tai xuất hiện trong bức ảnh; và tương tự ; và ởlớp tích chập cuối cùng sẽ có đầu ra là biểu diễn trừu tượng của bức ảnh ban đầu, làđầu vào của các lớp phân lớp tuyến tính về sau Chính vì vậy, học sâu còn có tên gọikhác là học biểu diễn (representation learning), và thuật ngữ này cũng được lấy đề đặttên cho Hội Nghị Quốc Tề về Học Biểu Diễn (International Conference on LearningRepresentation), cùng với Hội Nghị Quốc Tề về Học Máy (International Conference

on Machine Learning), và Những Tiến Bộ về Hệ Thống Xử Lý Thông Tin Thần Kinh(Advances in Neural Information Processing Systems) chính là các sự kiện hàng đầu

về học sâu nói riêng và học máy nói chung hiện nay

Hình 1.5: Những hội nghị học máy háng đầu hiện nay Trong ngành khoa học máy tính,những hội nghị (conferences) được đánh giá cao hơn nhiều so với tạp chỉ (journals)

Từ trái sang phải: Advances in Neural Information Processing Systems (NeurIPS),International Conference on Machine Learning (ICML), và International Conference

on Learning Representation (ICLR)

1.2.2 Quá trình phát triển của học sâu

Học sâu được cho là đã ra đời vào năm 1943, khi mà nhà thần kinh học WarrenMcCulloch và nhà toán học Walter Pitts viết một bài báo miêu tả những đặc tính của

nơ ron thần kinh (neuron) [28], cũng như cách chúng vận hành qua lăng kính toánhọc Họ quyết định tạo ra một mô hình sử dụng những mạch logic (electrical circuit)

để mô tả hoạt động của một mạng lười nhiều nơ ron thần kinh và cách những nơ ronnày giao tiếp và truyền tín hiệu cho nhau, qua đó đánh dấu sự ra đời của mạng nơ ronnhân tạo (artificial neural network)

Frank Rosenblatt, một nhà tâm lý học nổi tiếng người Mỹ, là người đầu tiên thiết

kế một mạng nơ ron nhân tạo, được biết đến với cái tên Perceptron Đây là một thiết bịđược tạo ra với những đặc tính của nơ ron sinh học (biological neuron), thể hiện đượckhả năng học và nhận dạng một số đường nét cơ bản (pattern recognition) Phiên bảnđầu tiền của Perceptron được mô phỏng trên máy tính IBM 704, đặt tại Phòng nghiêncứu về Hàng Không Học, đặt tại Viện Đại Học Cornell Sau này, ông tiếp tục nghiêncứu và phát triển những đặc tính của mạng nơ ron nhân tạo và xuất bản rất nhiều bàibáo, cùng một cuốn sách với tựa đề "Principles of Neurodynamics: Perceptrons andthe Theory of Brain Mechanisms" [29] được xuất bản vào năm 1961

Trang 18

Hình 1.6: Máy tính IBM 704 đặt tại Viện Đại Học Cornell, Hoa Kỳ Nguồn https://bit.ly/3hnqwkG.

Một mạng nơ ron nhân tạo tiêu biểu khác được xây dựng vào năm 1959, khi BernardWidow và Marcian Hoff tạo ra mộ mô hình nhận dạng bit nhị phân (binary pattern),

có tên là ADELINE Với một dòng các bít (stream of bits) đầu vào, nó có thể dự đoánbit nhị phân tiếp theo Phiên bản tiếp theo của mô hình có tê là MADELINE, có khảnăng khử tiếng vọng khi đàm thoại, có rất nhiều ứng dụng trong thực tế và thậm chívẫn được sử dụng cho tới ngày nay

Tuy nhiên, sau một số thành tựu nhất định, sự phát triển của học sâu bị chữnglại chừng hai thập kỉ bởi rất nhiều lý do Một trong những nguyên nhân chính dẫnđến sự chững lại này đó chính là sự ra đời của kiến trúc Von Neumann (Von Neumannarchitecture) Đây là kiến trúc trong vi xử lý trong đó các khối lệnh (instructions)

và dữ liệu được lưu vào cùng bộ nhớ đệm (cache memory) Đây được coi là nền tảngtính của máy tính hiện đại, giúp cho việc xử lý thông tin nhanh và dễ dàng hơn mộtmạng nơ ron nhân tạo, qua đó trực tiếp chuyển hướng các nhà khoa học máy tính sangnghiên cứu và phát triển những đặc của kiến trúc mới này

Mãi đến thập kỷ thứ 8 của thế kỳ XX, học sâu và mạng nơ ron mới được quantâm trở lại Năm 1986, thuật ngữ học sâu lần đầu tiên chính thức xuất hiện, được giớithiệu bởi Rina Dechter [30] Năm 1989, Yan LeCun và các cộng sự [31] áp dụng thuậttoán lan truyền ngược, phiên bản ngược của thuật toán tự động sai phân [22], để nhậndiện ký tự mã ZIP (ZIP codes) trong thư tín Mặc dù mô hình hoạt động rất tốt, thờigian huấn luyện mô hình quá dài, khoảng ba ngày

Tuy nhiên, sự ra đời của bộ xử lý đồ họa đã chính thức loại bỏ điểm yếu cố hữu của

Trang 19

Hình 1.7: Minh họa kiến trúc Von Neumann Nguồn [3].

học sâu đó là tốc độ tính toán Năm 2009 đánh dấu một cuộc cách mạng về học sâu,khi mà lần đầu tiên quá trình huấn luyện mô hình có thể được tăng tốc hàng trăm lầnvới việc ứng dụng bộ xử lý đồ họa, bởi các bộ xử lý đồ họa hoạt động rất tốt với nhữngphép toán ma trận - cốt lõi của việc huấn luyện hệ thống học sâu Từ đây, những môhình, thay vì mất hằng tuần để huấn luyện, nay chỉ tiêu tốn thời gian được tính bằnggiờ Học sâu giờ mang tính thực tiễn hơn, và dần dần thu hút sự quan tâm của cộngđồng học máy

1.3 Bài toán phân loại ảnh

1.3.1 Tổng quan về bài toán phân loại ảnh

Bài toán phân loại ảnh (image classification) là bài toán đưa ra dự đoán về nhãncủa vật thể xuất hiện trong một bức ảnh cho trước Đây là một trong những tác vụ cơbản nhất của việc thông hiểu ảnh (image understanding), đứng sau phân chia ngữ cảnhbức ảnh (semantic image segmentation), phân chia vật thể bức ảnh (instance imagesegmentation), và phân chỉa toàn cảnh bức ảnh (panoptic image segmentation)

Về cơ bản, bài toán phân loại ảnh có thể chia thành hai bài toán con: trích xuất đặctrưng (feature extraction) và phân loại (classification) Trong các phương pháp truyềnthống, trích xuất đặc trưng thường có sự trợ giúp của con người, ví dụ như sử dụng hiểubiết của con người để lựa chọn ra một số đặc điểm qaun trọng thường xuất hiện trongbức ảnh Bên cạnh đó, người ta cũng sử dụng một số phương pháp trích xuất truyềnthống khác như biến đổi đặc trưng bất biến theo tỉ lệ (scale-invariant feature transform

- SIFT) [32], biểu đồ gradient được định hướng (histogram of oriented gradient - HOG),

và các hạt nhân trích xuất cạnh (kernel edge detector) Sau khi có được các đặc trưngcủa ảnh, người ta có thể áp dụng một số phương pháp phân loại như máy véc tơ hỗtrợ (supported vector machine) [25] hay Adaboost [33]

Tuy nhiên hiện nay, hai công đoạn trích xuất đặc trưng và phân loại thường được

Trang 20

Hình 1.8: Minh họa trích xuất đặc trưng ảnh bằng các hạt nhân Mỗi hạt nhân khinhân tích chập với ảnh sẽ cho ra một đặc trưng tương ứng.

gộp vào làm một; tức là, người ta sẽ học đồng thời mô hình trích xuất đặc trưng và môhình phân lớp Cách làm này được gọi là huấn luyện end-to-end (end-to-end training).Đây cũng chính là tư tưởng chủ đạo của phương pháp học sâu trong bài toán phân loạiảnh

1.3.2 Phương pháp học sâu trong bài toán phân loại ảnhNhư đã nói ở trên, học sâu trong bài toán phân loại ảnh tức là chúng ta sẽ học đồngthời cả mô hình trích xuất đặc trưng và mô hình phân loại ảnh Thông thường, phânloại ảnh sử dụng học sâu là bài toán học có giám sát, hay mô hình yêu cầu dữ liệuđược gán nhãn đề có thể huấn luyện Mục tiêu huấn luyện mô hình đó là giảm thiểutối đa dữ liệu bị phân loại sai trong tập luyện Điều này có thể đạt được "gián tiếp"bằng cách cực tiểu hóa một số hàm mục tiêu, ví dụ như khoảng cách Euclid (Euclidiandistance) hay entropy chéo (cross entropy)

Mạng nơ ron tích chập là mô hình học sâu tiêu biểu trong bài toán phân lớp ảnhnỏi riêng và trong tác vụ về thị giác máy tính nói chung bởi nó chứng minh hiệu quảvượt trội trong việc trích xuất các đặc trưng của bức ảnh Một mạng tích chập hoànchỉnh thường bao gồm một hay một số lớp tích chập, kế tiếp sau là một hay một số lớptuyến tính Thông thường, người ta quy định lớp tuyến tính cuối cùng của mô hìnhmạng tích chập sẽ là mô hình phân loại, và những lớp còn lại (bao gồm những lớp tíchchập và có thể là một số lớp tuyến tính kế sau đó) là mô hình trích xuất đặc trưng.Như vậy, đầu ra của mô hình trích xuất đặc trưng sẽ chính là đặc trưng của bức ảnhban đầu, hay còn được gọi là biểu diễn (representation) của bức ảnh đó

Tuy nhiên, với những tiến bộ về học sâu hiện nay, bài toán phân loại ảnh sử dụnghọc sâu không còn đơn thuần là học giám sát Để tiết kiệm chi phí con người trongviệc gán nhãn dữ liệu, người ta có thể chỉ sử dụng một phần nhỏ dữ liệu được gánnhãn và một phần lớn dữ liệu không gán nhãn Khi đó, bài toán phân loại ảnh sẽ trởthành tác vụ học bán giám sát (semi-supervised learning) Đối với học chủ động (activelearning), mô hình sẽ được yêu cầu request dữ liệu (request training data) với chi phí

Trang 21

Hình 1.9: Minh họa mô đun học thặng dư (residual module) - một mô hình nổi tiếngtrong bài toán phân loại ảnh Nguồn [4].

nhất định cho mỗi lần truy xuất Nhiệm vụ khi đó sẽ là huấn luyện được mô hình cóhiệu quả nhất với chi phí thấp nhất

Bên cạnh đó, bài toán phân loại ảnh ứng dụng học sâu cũng phải đối mặt với một

số thách thức riêng Đầu tiên là vấn đề về thích nghi miền (domain adaptation): người

ta mong muốn rằng mô hình hoạt động tốt ở một tập dữ liệu cũng cần có hiệu quảtương đồng, hoặc sụt giảm không đáng kể, ở những tập dữ liệu khác Ví dụ, một môhình phân lớp ảnh chó và mèo, được huấn luyện trên tập luyện gồm toàn những bứcảnh chụp ở điều kiện trời nắng; tuy nhiên, mô hình này cũng nên hoạt động tốt khi tayêu cầu nó nhận diện bức ảnh được chụp trong điều kiện có bóng râm Một vấn đề kháccủa bài toán phân loại ảnh đó chính là phân loại trên tập mở (open set classification),tức là ngoài việc phân loại bức ảnh vào các nhãn cho trước, mô hình cũng cần có khảnăng nhận diện rằng vật thể xuất hiện trong bức ảnh có thuộc vào một trong các nhãncho trước đó hay không

Hiện nay, một vấn đề đang nhận được rất nhiều sự quan tâm trong bài toán nhậndiện ảnh sử dụng mạng học sâu nói riêng, hay với mọi tác vụ sử dụng học sâu nóichung đó là bảo mật Người ta muốn quan tâm xem liệu mô hình học sâu có nguy cơ

bị tấn công (theo nghĩa làm suy giảm mạnh hiệu suất mô hình) hay không; và nếu

có, liệu có cách nào để bảo vệ những mô hình học sâu trước những nguy cơ trên haykhông Trên thực tế, những mối đe dọa như vậy luôn luôn hiện hữu, có thể kể đếnnhư tấn công đối nghịch (adversarial attack), tấn công cửa sau (backdoor attack), haytấn công phán đoán bộ phận (membership inference attack) Có thể nói rằng, bảo mậttrong mạng học sâu trong tương lai sẽ trở thành một trong những lĩnh vực then chốt,cũng như trở thành một chủ đề nghiên cứu chính thống của ngành bảo mật và họcmáy

Trang 22

Hình 1.10: Tấn công đối nghịch - một mối nguy hiểm thường trực của các hệ thốngphân loại ảnh sử dụng học sâu Ở đây, kẻ tấn công thực hiện hành vi bằng cách thêmvào một bức ảnh có nhãn "panda" (gấu trúc) một nhiễu (noise) không đáng kể Rõràng với mắt thường, bức ảnh không thay đổi, tuy nhiên hệ thống học sâu phân loạiảnh nhận diện sai thành nhãn "gibbon" (vượn) Nguồn [5].

1.3.3 Một số tiến bộ của học sâu trong bài toán phân loại ảnhNhư đã nêu, học sâu hiện nay thể hiện sự vượt trội trong các tác vụ về thị giácmáy tính nói chung cũng như trong bài toán phân loại ảnh nói riêng Với khả năngtăng tốc tính toán của bộ xử lý đồ họa, các mô hình học sâu ngày càng có khả nănggia tăng số lượng các tham số, dẫn đến cải thiện độ chính xác, trong khi vẫn đảm bảotốc độ phản hồi ở mức chấp nhận được

Với những bộ dữ liệu tiêu chuẩn, những mô hình học sâu đều cho độ chính xác vượt

xa các phương pháp truyền thống Ví dụ, với bộ MNIST [13], mô hình học sâu tiêntiến nhất hiện nay đạt độ chính xác tới 99.87% trên bộ dữ liệu thử, trong khi nhữngphương pháp truyền thống chỉ đạt ngưỡng 70-80% Hay với bộ ImageNet [6], một bộ

dữ liệu không lồ với khoảng 1000 nhãn, các mô hình học sâu có thể đạt đến độ chínhxác cỡ 90%, trong khi không một phương pháp cổ điển nào có thể tỏ ra hiệu quả trên

bộ dữ liệu này

Hơn nữa, những mô hình học sâu phân loại ảnh còn tỏ ra hiệu quả với những tác

vụ học máy khác Những lớp mạng tích chập được huấn luyện với tác vụ phân loại ảnhthường được dùng làm mô hình trích xuất đặc trưng cho các tác vụ như phân chia ngữcảnh bức ảnh, hay phân chia vật thể bức ảnh, Đây đều là những tác vụ quan trọng,

có nhiều ứng dụng trong thực tế hiện nay

Trang 23

Hình 1.11: Minh họa một số nhãn trong bộ ImageNet - bộ dữ liệu tiêu chuẩn cho cácbài toán phân loại ảnh Nguồn [6].

Trang 24

Chương 2

Tấn Công Cửa Sau Trong Mạng

Học Sâu Phân Loại Ảnh

2.1 Đặt vấn đề

Trong những năm gần đây, học sâu [34] (deep learning) đã trở thành một chủ đềrất được quan tâm Những mô hình học sâu tỏ ra vượt trội hơn những phương pháphọc máy truyền thống trong rất nhiều lĩnh vực, bao gồm nhận dạng ảnh [35], xử lý âmthanh [36], Thậm chí trong một vài tác vụ, nó còn tỏ ra vượt trội so với con người.Mạng tích chập (Convolution neural networks - CNNs) là một trong những mô hình

cơ bản của học sâu Những mô hình phân lớp ảnh dựa trên mạng tích chập hiện đã vàđang được sử dụng trong thực tế, trong một số bài toán như nhận dạng khuôn mặt,phân loại ảnh, và tỏ ra rất hiệu quả Tuy nhiên, mạng tích chập nói riêng và học sâunói chung đòi hỏi một tập luyện cũng như kích thước mạng lớn để có thể đạt được kếtquả tốt Việc huấn luyện mạng tích chập cũng đòi hỏi nhiều thời gian, bên cạnh khốilượng tài nguyên tính toán khổng lồ Do đó trong thực tế, rất khó cho những cá nhânhay thậm chí những tổ chức có thể có đủ nguồn lực, bao gồm dữ liệu và tài nguyêntính tóan, để có thể tự huấn luyện một mạng tích chập phức tạp

Từ đây, những dịch vụ cung cấp tài nguyên tính toán ra đời, có thể kể đến như CloudVirtual Machine của Google, Azure Batch AI Training của Microsoft hay Amazon WebServices Những bên cần huấn luyện mô hình có thể thuê tài nguyên tính toán, giúpcho việc huấn luyện mô hình trở nên tiết kiệm hơn, thay vì việc phải đầu tư cả mộtserver cho mỗi lần huấn luyện

Một lựa chọn khác để tiết kiệm chi phí đó chính là học chuyển đổi (transfer learning)

Ở phương pháp này, người dùng đã có một mô hình đã được luyện sẵn và họ muốnchuyển đổi mô hình này để sử dụng trong một tác vụ liên quan khác Bằng việc sửdụng lại các tham số của mô hình đã được luyện sẵn, người dùng có thể tinh chỉnh lại(fine-tuning) những tham số này bằng việc huấn luyện lại mô hình trong một vài lượtluyện (epoch), trên những tập dữ liệu phù hợp với những tác vụ thực tế của họ Việcnày khiến cho mô hình có thể thích nghi với tác vụ mới và trên hết nó sẽ tiết kiệm thời

Trang 25

gian và khối lượng tính toán hơn rất nhiều so với việc huấn luyện lại một mô hình từđầu Trên thực tế, học chuyển đổi được sử dụng khá nhiều trong các tác vụ về thị giácmáy tính có yếu tố học sâu, ví dụ như phân loại ảnh, nhận diện vật thể, và phân chiangữ cảnh bức ảnh Có thể kể đến những mô hình đã được huấn luyện sẵn thường được

sử dụng và có sẵn ở trên Internet như AlexNet [35], VGG [37] hay InceptionNet [38].Nhưng từ đây, một mối nguy hiểm tiềm tàng đã xuất hiện Những bên thứ ba cungcấp tài nguyên tính toán và do đó, họ hoàn toán có thể can thiệp sâu đến quá trìnhhuấn luyện mô hình của người sử dụng, ví dụ như thay đổi tập luyện, các hàm mụctiêu trong huấn luyện Thậm chí, chính bên thứ ba là bên cung cấp tập luyện, bởiviệc thu thập dữ liệu luyện cũng là một công đoạn vô cùng tốn kém Sau đó, ngườidùng có thể chấp nhận nghiệm thu mô hình đó hay không bằng việc kiểm thử hiệu quảcủa mô hình trên tập thử của chính họ Bên cạnh đó, những bên cung cấp mô hìnhluyện sẵn cũng có thể huấn luyện mô hình đó có những lỗ hổng, thường gọi là cửa sau(backdoor) Những lỗ hổng này rất khó nhận biết bởi nó hoàn toàn không ảnh hưởngđến hiệu quả của mô hình trên tập dữ liệu bình thường Tuy nhiên, nếu hệ thống nhậnvào những dữ liệu "bất thường", gọi là những dữ liệu có chứa mã cửa sau, nó sẽ làmcho hệ thống hoạt động bất thường (Hình 2.1), như nhận diện sai hình ảnh, Trên thực tế, sẽ rất nguy hiểm cho cá nhân hay tổ chức sử dụng mô hình có chứacửa sau trong hoạt động của họ Rõ ràng rằng, những cửa sau ấy có thể tồn tại mộtcách bí ẩn trong những mô hình đã được bên thứ ba huấn luyện sẵn Không ai biết về

sự tồn tại của chúng, tuy nhiên cũng luôn ở đó, và chờ ngày bị khai thác bởi những

kẻ tấn công phi pháp Dù rằng có thể những lỗ hổng đó chỉ có thể khai thác một lầnduy nhất, bởi khi đã bị phát hiện, mô hình đó sẽ bị loại bỏ ngay lập tức Tuy nhiên,một lần thôi cũng có thể gây ra những thiệt hại vô cùng khủng khiếp Lấy ví dụ mộtchiếc xe tự lái, và dĩ nhiên chiếc xe đó sẽ phải tích hợp hệ thống nhận diện biển báogiao thông Sẽ tồi tệ thế nào nếu hệ thống đó nhận diện một biển báo dừng thành tínhiệu đèn xanh (hình 2.2) Rất có thể một vụ tai nạn thảm khốc sẽ diễn ra!

Nhận thấy tính thời sự của đề tài, trong khuôn khổ đồ án lần này, em xin đi sâunghiên cứu về tấn công cửa sau, cũng như những cách để phỏng thủ trước mối đe dọatiềm tàng này Trên hết, em sẽ đề xuất một phương pháp tấn công hoàn toàn mới, có

Hình 2.1: Minh họa tấn công cửa sau Ở đây, hệ thống nhận diện có cửa sau hoạtđộng tốt với những ảnh đầu vào "sạch" Tuy nhiên, nếu ta thêm vào trong ảnh một sốchi tiết đặc biệt, gọi là các mã cửa sau (triggers), sẽ làm cho hệ thống hoạt động sailệch Nguồn [7]

Trang 26

Hình 2.2: Hiểm họa của tấn công cửa sau trong thực tế Nguồn [8].

thể vượt qua được các phương pháp phòng thủ cửa sau hiện nay

2.2 Tấn công cửa sau trong mạng học sâu phân loại

ảnh

2.2.1 Định nghĩa

Tấn công cửa sau trong mạng học sâu có thể hiểu là sự lợi dụng khả năngkiểm soát quá trình huấn luyện của mô hình (kiểm soát về dữ liệu luyện, cách thứchuấn luyện) để đặt mã cửa sau vào mô hình, thứ có thể khiến mô hình hoạt động sailệch khi nó xuất hiện trong đầu vào mô hình

Người sử dụng mô hình chứa mã cửa sau sẽ đối mặt với nguy hiểm tiềm tàng, khi

kẻ tấn công bất cứ lúc nào cũng có thể kích hoạt mã cửa sau, khiến mô hình hoạt độngkhông như ý muốn Ví dụ, với một mô hình học sâu xác thực khuôn mặt, kẻ tấn công

có thể sử dụng mã cửa sau để vượt qua hệ thống an ninh và đánh cắp dữ liệu một cách

dễ dàng

2.2.2 So sánh tấn công cửa sau với tấn công đối nghịch

Tấn công cửa sau và tấn công đối nghịch đều là những chủ đề được quan tâm tronglĩnh vực bảo mật học sâu Mặc dù cùng có mục tiêu là làm cho hệ thống hoạt động sailệch, tấn công đối nghịch và tấn công cửa sau có một số khác nhau nhất định:

• Tấn công đối nghịch là tấn công ở giai đoạn mô hình học sâu được huấn luyện

Trang 27

xong Sử dụng những thuật toán tối ưu, tấn công đối nghịch dựa vào kết quả trả

về của mô hình tương ứng với một đầu vào để tính toán ra đầu vào đối nghịch đầu vào mà hệ thống hoạt động sai lệch Tuy nhiêm, cần lưu ý rằng khối lượngtính toán để cho ra một đầu vào đối nghịch là rất lớn

-• Tấn công cửa sau là tấn công ở giai đoạn huấn luyện mô hình Lợi dụng khảnăng kiểm soát quá trình huấn luyện, kẻ tấn công sẽ đặt mã cửa sau vào môhình, và chờ kích hoạt nó về sau Tấn công cửa sau yêu cầu nhiều điều kiện hơn

so với tấn công đối nghịch, tuy nhiên, sau khi hoàn tất tấn công, để tạo ra mộtđầu vào chứa cửa sau yêu cầu khối lượng tính toán ít hơn rất nhiều so với tấncông đối nghịch

2.2.3 Lịch sử nghiên cứu

Tấn công cửa sau được đề cập đến lần đầu tiên trong bài báo BadNets: IdentifyingVulnerabilities in the Machine Learning Model Supply Chain [11] vào năm 2017 bởiTiany Gu và các cộng sự Từ đây về sau, có rất nhiều công trình về tấn công cửa sau

đã được công bố

Cũng trong năm 2017, X Chen và các cộng sự đề cập đến việc tấn công cửa saubằng cách tấn công vật lý [9], tức sử dụng những tác nhân bên ngoài để làm mã cửasau (Hình 2.3)

Tuy nhiên, các cách thức tấn công trên đều yêu cầu phải huấn luyện mô hình từcon số không, tức là phải can thiệp vào tập dữ liệu luyện và cách thức huấn luyện ngay

từ lúc bắt đầu huấn luyện mô hình Năm 2018, Yingqi Liu và các cộng sự đề xuất vềviệc tấn công cửa sau ở giai đoạn fine-tuning mô hình [39] Điều này đặc biệt giảm thờigian của tấn công backdoor, từ nhiều một vài ngày đến một vài tuần, xuống thời gianchỉ tính bằng giờ

Hình 2.3: Tấn công sử dụng tác nhân vật lý Ở đây, người ta sử dụng kính mắt đểlàm trigger Nguồn [9]

Trang 28

Hình 2.4: Minh họa phương pháp Fine-pruning trong việc phòng thủ door Bài báo đề xuất đến việc tỉa đi những phần "ít hoạt động" của mô hình trêntập dữ liệu thử Nguồn [10].

back-Ngoài ra, còn một số kiểu tấn công cửa tinh vi khác như tấn công động (dynamicbackdoor attack) [12], tấn công thông qua học thẩm thấu [40] (distillation learning), Có thể nói rằng, tấn công cửa sau ngày càng biến tướng và phức tạp Do đó, cần

có những biện pháp hữu hiệu để phòng ngừa loại tấn công này

Fine-Pruning [10] là một trong những phương pháp phòng thủ tiêu biểu có thể kểđến Bằng cách cắt tỉa nơ ron đến một mức mà không làm tổn hai đến hiệu suất của

mô hình trên tập thử, bài báo cho rằng điều đó có thể "tỉa" đi những phần của môhình mà gây nên lỗ hổng cửa sau (Hình 2.4)

Neural Cleanse [15] là một phương pháp nổi tiếng khác trong việc phòng thủ door Phương pháp này dựa trên ý tưởng tìm ra trigger có kích thước bé nhất mà khithêm mã cửa sau này vào ảnh sẽ khiến cho bức ảnh bị phân loại sai bởi mô hình.Ngoài ra còn rất nhiều phương pháp khác, có thể kể đến như ABS [41], MESA [42]hay STRIP [16] Mỗi phương pháp sẽ có những kịch bản phòng thủ riêng, cũng như ưu

back-và nhược điểm riêng Tuy nhiên, vẫn phải nhắc lại rằng, phòng thủ backdoor là mộtcông việc khá khó khăn và hiện tại chưa có phương pháp nào đạt được hiệu quả tuyệtđối trong việc này

Để cho thuận tiện, từ giờ ta chỉ giả sử kịch bản của chúng ta chỉ gồm hai bên: bêntấn công (attacker) và bên phòng ngự (defender) Bên tấn công là bên cung cấp môhình có chưa backdoor Bên phòng ngự là bên muốn giảm nhẹ thiệt hại của mô hình

có cửa sau này gây ra Ở những chương sau, em xin đi sâu vào phân tích những biệnpháp tấn công cũng như phòng ngự cửa sau phổ biển hiện nay

Trang 29

2.2.4 Các kịch bản tấn công cửa sau

Cho trước một hình phân loại ảnh có cửa sau f , khi đó f có thể thuộc mộ trongcác kịch bản tấn công sau:

• one-to-one: Cho trước một nhãn nguồn y và một nhãn mục tiêu ˆy Nếu ảnh x

có nhãn y được áp dụng mã cửa sau t = (m, p) để chuyển thành ảnh cửa sau ˆxthì f (ˆx) = ˆy

• many-to-one: Cho trước một bộ các nhãn nguồn Y = yi và một nhãn mục tiêuˆ

y Nếu ảnh x có nhãn thuộc Y được áp dụng mã cửa sau t = (m, p) để chuyểnthành ảnh backdoor ˆx thì f (ˆx) = ˆy

Ngoài ra, còn có một số kịch bản tấn công khác như many-to-many (tập nguồn vàtập mục tiêu gồm nhiều nhãn, sử dụng nhiều mã cửa áu), hay all-to-one (một biển thểcủa many-to-one với tập nguồn gồm tất cả các ảnh), Tuy nhiên, trong khuôn khổ

đồ án, chúng ta chỉ xét với kịch bản đơn giản nhất

2.3 Một số ký hiệu dùng trong đồ án

Để giúp cho người đọc có thể theo dõi đồ án dễ dàng hơn, trong đồ án này, em xin

sử dụng hệ thống ký hiệu như sau:

Gọi x là ảnh đầu vào, y là nhãn của ảnh đó và f là mô hình học sâu phânlớp ảnh Ta định nghĩa mã cửa sau (trigger) t là một bộ (m, p) với m gọi là mặt

nạ (mask), p gọi là cò (pattern) Việc áp dụng mã cửa sau t vào ảnh x được thực hiệnnhư sau:

ˆ

x = p m + (1 − m) xVới ˆx được gọi là ảnh chứa mã cửa sau (backdoor input) và là phép nhân từngđiểm ảnh Gọi ˆy là nhãn mục tiêu Như vậy, chúng ta mong muốn mô hình f sẽhọat động tốt trên những ảnh đầu vào x, tuy nhiên hoạt động bất thường với nhữngảnh backdoor ˆx:

(

f (x) = y

f (ˆx) = f (p m + (1 − m) x) = ˆyNên nhớ rằng, ảnh chứa cửa sau ˆx chỉ có một chút khác biệt nhỏ so với ảnh banđầu x

Tiêu đề	Tấn Công Cửa Sau Phụ Thuộc Đầu Vào Trong Mạng Học Sâu Phân Loại Ảnh
Tác giả	Nguyễn Tuấn Anh
Người hướng dẫn	TS. Trần Ngọc Thăng
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	59
Dung lượng	4,43 MB

Tài liệu tham khảo	Loại	Chi tiết
[34] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org	Link
[1] Ayse Pinar Saygin, Ilyas Cicekli, and Varol Akman. Turing test: 50 years later.Minds and machines, 10(4):463–518, 2000	Khác
[2] Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine reading. arXiv preprint arXiv:1601.06733, 2016	Khác
[3] Rudolf Eigenmann and David J Lilja. Von neumann computers. Wiley Encyclo- pedia of Electrical and Electronics Engineering, 23:387–400, 1998	Khác
[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016	Khác
[5] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and har- nessing adversarial examples. The International Conference on Learning Repre- sentations, 2014	Khác
[6] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al.Imagenet large scale visual recognition challenge. International journal of com- puter vision, 115(3):211–252, 2015	Khác
[7] Sakshi Udeshi, S. Peng, Gerald Woo, Lionell Loh, Louth Rawshan, and Sudipta Chattopadhyay. Model agnostic defence against backdoor attacks in machine learning. ArXiv, abs/1908.02203, 2019	Khác
[8] Marcus Comiter. Attacking artificial intelligence. Belfer Center Paper, Havard Kenedy School, 2019	Khác
[9] Xinyun Chen, Chang Liu, Bo Li, Kimberly Lu, and Dawn Song. Targeted backdoor attacks on deep learning systems using data poisoning. CoRR, abs/1712.05526, 2017	Khác
[10] Kang Liu, Brendan Dolan-Gavitt, and Siddharth Garg. Fine-pruning: Defending against backdooring attacks on deep neural networks. In Research in Attacks, Intrusions, and Defenses, pages 273–294, 2018	Khác
[11] Tianyu Gu, Brendan Dolan-Gavitt, and Siddharth Garg. Badnets: Identifying vul- nerabilities in the machine learning model supply chain. CoRR, abs/1708.06733, 2017	Khác
[12] Ahmed Salem, Rui Wen, Michael Backes, Shiqing Ma, and Yang Zhang. Dynamic backdoor attacks against machine learning models. ArXiv, abs/2003.03675, 2020	Khác
[14] Johannes Stallkamp, Marc Schlipsing, Jan Salmen, and Christian Igel. Man vs.computer: Benchmarking machine learning algorithms for traffic sign recognition.Neural networks, 32:323–332, 2012	Khác
[15] B. Wang, Y. Yao, S. Shan, H. Li, B. Viswanath, H. Zheng, and B. Y. Zhao. Neural cleanse: Identifying and mitigating backdoor attacks in neural networks. In 2019 IEEE Symposium on Security and Privacy (SP), pages 707–723, 2019	Khác
[16] Yansong Gao, Chang Xu, Derui Wang, Shiping Chen, Damith Chinthana Ranas- inghe, and Surya Nepal. STRIP: A defence against trojan attacks on deep neural networks. CoRR, abs/1902.06531, 2019	Khác
[17] Bao Gia Doan, Ehsan Abbasnejad, and Damith C. Ranasinghe. Februus: Input Purification Defense Against Trojan Attacks on Deep Neural Network Systems.arXiv, Aug 2019	Khác
[18] Tuan Anh Nguyen and Anh Tran. Input-aware dynamic backdoor attack. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 3454–3464. Curran Associates, Inc., 2020	Khác
[19] Yu Ji, Zixin Liu, Xing Hu, Peiqi Wang, and Youhui Zhang. Programmable neural network trojan for pre-trained feature extractor, 2019	Khác
[20] Thomas Bayes. An essay towards solving a problem in the doctrine of chances.1763. 8(3):157–171, 1763	Khác