Một trong các van dé bảo mật được nhắc đến của lĩnh vực học máy trong
việc triển khai và vận hành các mô hình đó là lỗi mô hình không an toàn.
Nguyên nhân thường là do tính bảo mật của mô hình học máy không được
xem xét một cách kỹ lưỡng, điều này tạo nên các bề mặt tấn công rộng
rãi ở tât cả các giai đoạn của quy trình làm việc với học máy. Bên cạnh
25
Chương 2. KIEN THUC NEN TANG
đó, môi trường hoạt động của các hệ thống học máy khiến cho các thuật toán dé bị tấn công bởi nhiều kiểu tấn công khác nhau như: adversarial preprocessing, poisoning, evasion,... Điều này dẫn đến việc mô hình tạo ra các kết quả không đáng tin cậy và không có ý nghĩa. Như được nhắc đến trong [9], khi học máy ngày càng phát triển thì ngày càng có nhiều phương pháp sử dụng hoc máy để phân tích các ứng dụng độc hại, diéu này đã cung cấp cho các kẻ tấn công cả cơ hội và động lực để phát triển các chiến lược nhằm đánh lừa các hệ thống học máy và đạt được các mục tiêu của chúng. Ví dụ như với các ứng dụng độc hại gây sai lệch cho việc trích xuất tính năng của mô hình sẽ giúp kẻ tan công phá hoại mô hình hoặc sơ dé hóa được cau trúc của mô hình được sử dung, từ đó tạo ra nhiều cuộc tấn công khác có thể gây tê liệt hoàn toàn đến hệ thống.
Cho đến nay, nhiều chiến lược tan công hộp trắng đã được sử dụng để tạo ra các mẫu độc hại khiến các hệ thống học máy bị thay đổi dần đần mà con người không thể nhận ra được, cuối cùng khả năng dự đoán của mô hình bị thay đổi hoàn toàn. Tân công hộp trắng là khi kẻ tấn công có thể truy cập trực tiếp vào mô hình mục tiêu và nắm rõ cấu trúc của nó. Tuy nhiên trong thực tế không thể xác định được thông tin của mục tiêu, nghĩa
là họ không biết về bộ dữ liệu huấn luyện của mục tiêu, không nắm được
đầy đủ chỉ tiết của hệ thống học máy, chẳng hạn như các tham số của nó,
cũng như không thể sửa đổi cấu trúc bên trong.
Tuy nhiên có thể có quyền truy cập vào các dự đoán của mô hình cho các mẫu đầu vào, bao gồm cả xác suất của các lớp phân loại. Với quyền truy cập vào các dự đoán của mô hình, có thể tìm thấy sự mat mát của mô hình đối với một đầu vào nhất định, nhưng nếu không có quyền truy cập vào toàn bộ mô hình, thì không thể truy cập các độ dốc cần thiết để thực hiện các cuộc tan công hộp trang. vì vậy kẻ tan công chỉ có thể thực hiện
26
Chương 2. KIEN THUC NEN TANG
các cuộc tan công hộp den. Chiến lược của tan công hộp den chính là đào tạo một mô hình cục bộ để thay thế cho mô hình mục tiêu. Đầu vào cho mô hình này là tập dữ liệu tổng hợp bao gồm các biến thể được tạo ra bởi Bộ
sinh cục bộ; nhãn tương ứng cho tập dt liệu này sẽ là nhãn nhận được từ
mô hình mục tiêu khi đưa dir liệu biến thể vào cho mô hình mục tiêu phân loại. Chiến lược tan công hộp den này có khả năng né tránh các chiến lược phòng thủ trước đây, làm cho các mẫu biến thể mới được tạo ra ngày càng tốt hơn. Vì vậy trong quá trình huấn luyện lặp lại, bộ phân loại của mục tiêu và cả bộ phân loại cục bộ bắt đầu đưa ra những dự đoán sai đối với đầu vào là các biến thể mới vì cả hai mô hình đều có ranh giới quyết định tương tự nhau. Sau khi hoàn thành huấn luyện, các cuộc tan công nay có thể đạt được tỷ lệ tan công thành công va mức độ làm sai lệch gần VỚI các cuộc tấn công hộp trắng.
tác giả sử dụng các mô hình thuật toán học máy và học sâu sau cho việc
đánh giá và thiết kế hệ thống.
2.4.1 Mô hình AE
Bộ mã hóa tự động (AE) là một loại mạng thần kinh nhân tạo được sử dụng để học cách mã hóa dữ liệu một cách hiệu quả theo cách không giám
sát. Mục tiêu của bộ mã hóa tự động là:
® Tìm hiểu cách biểu diễn cho một tập hợp dữ liệu, thường là để giảm
kích thước bằng cách huấn luyện mạng bỏ qua nhiễu tín hiệu.
s Cùng với khía cạnh rút gọn, khía cạnh tái cầu trúc cũng được học,
trong đó bộ mã hóa tự động cô gắng tạo từ mã hóa đã rút gọn một biểu diễn gần nhất có thể với đầu vào ban đầu của nó. Điều này giúp
27
Chương 2. KIEN THUC NEN TANG
bộ mã hóa tự động tìm hiểu các tinh năng quan trọng có trong dữ
liệu.
Autoencoder gồm 3 phần:
® Input Layer: Để truyền dữ liệu đầu vào vào mạng.
* Hidden Layer: Bao gồm Bộ mã hóa và Bộ giải mã.
* Output Layer: Thường khớp với các nơ-ron đầu vào.
2.4.1.1 Mô hình VAE
Variational Autoencoder là một mô hình tạo kiểu rõ ràng được sử dụng để
tao dữ liệu mẫu mới bằng cách sử dụng dữ liệu trong quá khứ. VAE thực
hiện ánh xạ giữa các biến tiềm ẩn, chi phối để giải thích dữ liệu đào tạo và
phân phối cơ bản của dữ liệu đào tao. Các vectơ biến tiềm ẩn này có thé được sử dụng để tái tạo lại dữ liệu mẫu mới gần với dữ liệu thực.
Input layer Hidden layer Output layer
`
“bottleneck”
HÌNH 2.1: Kiến trúc mô hình AE.
28
Chương 2. KIEN THUC NEN TANG
VAE bao gồm hai loại mang than kinh trong kiến trúc của chúng: Bộ mã
hóa và Bộ giải mã. Bộ mã hóa đưa ra giá trị trung bình và hiệp phương sai
tương ứng với xác suất sau của dữ liệu huấn luyện đã cho và bộ giải mã lay mẫu vectơ tiém ẩn từ đầu ra của bộ mã hóa và tái tao lại dữ liệu mẫu.
Kiến trúc của VAE được mô tả ở Hình 2.2.
¢ Encoder trong VAE
Nhiệm vu lay dữ liệu đào tạo làm đầu vào và đầu ra giá trị trung bình
LỄ và hiệp phương sai >Z tương ứng với phân phối gần đúng sau của Po(Z |X). Từ đó, một vectơ tiềm ẩn mẫu z được lay và chuyển qua bộ
giải mã. Encoder trong mô hình VAE được mô tả ở Hình 2.3.
Mục tiêu của bộ mã hóa là áp dụng một ràng buộc trên mạng sao cho
phân phối sau p¿(Z | x) gần với phân phối gaussian đơn vị trước đó
Da.
Bằng cách này, chính quy hóa được áp dụng trên mạng và mục tiêu
là tối đa hóa tiêu cực của khoảng cách phân kỳ KL giữa p¿(Z |X) và gần bằng pạ(Z).
Tiếp theo, thay vì chuyển toàn bộ đầu ra của bộ mã hóa sang lớp cổ chai tiếp theo, tác giả lay một mẫu (z) bằng phương pháp tái tham số hóa.Phương pháp tái tham số hóa này giúp các gradient lan truyền
HÌNH 2.2: Kiến trúc mô hình VAE.
29
Chương 2. KIEN THUC NEN TANG
Latent Space Vector
Posterior Distribution
J
Training Data
Miz |x) =~ PX z)
HINH 2.3: Mô tả quá trình Encoder trong mô hình VAE
ngược từ bộ giải mã sang bộ mã hóa thông qua lớp thắt cổ chai này
trong đó € = N(0, 1).
¢ Decoder trong VAE
Nhiệm vụ lấy vectơ không gian tiềm ẩn z, được lẫy mẫu từ bộ mã hóa bằng phương pháp tái tham số hóa, làm đầu vào và đầu ra giá trị trung bình HZ và hiệp phương sai *Xtương ứng với phân phối sau của п(x | Z). Từ đó, một mẫu mới có thể được tạo ra.
Decoder trong mô hình VAE được mô tả ở Hình 2.4.
Mục tiêu của bộ giải mã là tạo lại dữ liệu mẫu gần với dữ liệu gốc. Với
log(pe(x | Z)) là tổn thất tái tạo, vì vậy điều này phải gần với phân phối dữ liệu gốc. Để tối đa hóa khả năng log này, chúng ta có thể sử
dụng lỗi bình phương trung bình.
30
Chương 2. KIEN THUC NEN TANG
Generated Image
| xx |
Latent Space Vector
€q(z z)|†0ứ(pe(#| z) ) |
HÌNH 2.4: Mô tả quá trình Decoder trong mô hình VAE
2.4.1.2 Mô hình CVAE
Mô hình CVAE phát triển dựa trên cầu trúc của VAE, vẫn với mục đích là tái tạo output càng giống với input được đưa vào nhưng điểm khác biệt là input của khối decoder trong model. Thay vì chi sử dung latent variables
Z lam input như trong model VAE thì ở CVAE thi input này được truyền thêm giá trị là các label, từ đó công thức xác suất phân phối có điều kiện
để tái tạo lại output là p(/Z) được viết lại thành p(/Z, L).
Kiến trúc của mô hình CVAE so với VAE như Hình 2.5.
Hàm loss được xây dựng trong mô hình CVAE và VAE như Hình 2.6.
Mô hình VAE và CVAE sử dụng cách tiếp cận là Stochastic Gradient Descent để tối ưu model và theo cách tiếp cận này thì hàm loss được xây dựng từ 2 thành phần là reconstruction loss và regularisation loss.
Reconstruction loss có nhiệm vụ tính toán độ mắt mát hay độ chênh
31
Chương 2. KIEN THUC NEN TANG
léch gitra kết quả model dự đoán va thực tế, còn regularisation loss dé quản lý tính đều đặn của latent space cụ thể hơn đó là độ chênh lệch giữa latent variables Z và phân phối q(Z/L) được biểu diễn đưới dạng Kulback- Leibler divergence. Regularisation loss sẽ có gắng giảm thiểu sự phân kỳ
KL giữa phân phối ban đầu và phân phối được tham số hóa.
A \ KL{q(Z/X) ll reference] \ - —log[P„,z/;,)(X)] / á
KI[aỚ/ X) II reference] = log[p,¿;z„)(X)]
t
Loss function to minimize
HINH 2.6: Cau trúc ham loss tring VAE và CVAE.
32
Chương 2. KIEN THUC NEN TANG
Cc = c
L, h +] =. ea} C. ih Ce Ci City _©
B B B B B
x xft-2) x{t-1) x4) xit*1) x(t+2)
HINH 2.7: Hoạt động của RNN
2.42 Mô hình RNN
RNN là một lớp mạng thần kinh nhân tạo cho phép đầu ra từ một số nút ảnh hưởng đến đầu vào tiếp theo của cùng một nút nơi các kết nối giữa các nút có thể tạo ra một chu kỳ. Hành vi năng động này theo thời gian làm cho nó trở nên độc đáo. RNN có thể xử lý các chuỗi đầu vào có độ dai thay đổi bằng cách sử dụng trang thái bên trong (bộ nhớ) của chúng, được lay
từ các mạng than kinh chuyển tiếp. Khả năng này làm cho chúng phù hợp với các nhiệm vụ như nhận dạng chữ viết tay được kết nối, không phân đoạn cũng như nhận dang giọng nói. Về lý thuyết, các mạng thần kinh hồi quy Turing đã hoàn thiện và có khả năng xử lý các chuỗi đầu vào tùy ý bằng cách chạy các chương trình tùy ý.
Các nơ-ron trong Mạng nơ-ron RNN có trạng thái bộ nhớ được thêm
vào, phân biệt nó với mạng nơ-ron truyền thống. Với phép tính bộ nhớ đơn giản, thuật toán này được thiết kế để học sâu theo cách tuần tự. này được gọi là mạng RNN vì chúng thực hiện tuần tự các phép tính toán học.
Trong mạng Neural RNN, thông tin chuyển qua một vòng lặp đến lớp
ẩn giữa.
Hoạt động của mô hình RNN được thể hiện ở Hình 2.7.
33
Chương 2. KIEN THUC NEN TANG
Lớp đầu vào của mang than kinh, được ký hiệu là ’x’, tiếp nhận dau vào
và tién hành xử lý trước khi chuyển nó sang lớp giữa. Lớp giữa này, được biểu thị bang “hí, có thể chứa nhiều lớp ẩn, mỗi lớp được trang bị chức năng kích hoạt riêng, cũng như trọng số và độ lệch. Trong trường hợp không có bat kỳ sự phụ thuộc lẫn nhau nào giữa các tham số khác nhau của các lớp
ẩn và lớp trước đó, nghĩa là mạng nơ-ron không có bất kỳ khả năng ghi nhớ nào, mang nơ-ron tuần hoàn có thể được sử dụng. Nhiều lần theo yêu cầu, RNN sẽ tạo một lớp ẩn và lặp lại nó. Bình thường hóa các chức năng kích hoạt và các trọng số và độ lệch khác nhau, RNN đảm bảo rằng mỗi lớp ẩn có cùng tham số.
2.4.2.1 Mô hình LSTM
Mạng LSTM là mạng thần kinh được sửa đổi để cải thiện bộ nhớ của dữ liệu trước đó. Bao gồm một ô và ba cổng, đơn vị LSTM cho phép bộ nhớ dai hạn, đồng thời kiểm soát luồng thông tin. Mạng bộ nhớ ngắn hạn dài (LSTM), một phiên bản sửa đổi của mạng thần kinh tuần hoàn, rất phù hợp để dự đoán, xử lý và phân loại dữ liệu có thời lượng thay đổi. Mạng được sửa đổi nay cho phép ghi nhớ dữ liệu trong quá khứ dé dang hơn.
Kiến trúc của mô hình LSTM được thể hiện ở Hình 2.8.
Input gate: chịu trách nhiệm xác định giá trị đầu vào phù hợp để sửa đổi bộ nhớ. Bằng cách áp dung hàm Sigmoid, nó xác định nên truyền giá trị 0 hay 1. Sau đó, tầm quan trọng của các giá trị đã truyền được quyết
định bằng cách sử dụng hàm tanh, hàm gán trọng số từ -1 đến 1.
Forget gate: (Xt) và trạng thái trước đó (ht-1) đều được xem xét bởi cổng quên trong việc xác định chỉ tiết nào sẽ bị xóa khỏi khối. Quyết định này được đưa ra thông qua việc sử dụng hàm sigmoid xuất giá trị từ 0 đến 1 cho mỗi số ở trạng thái ô Ct- trước.
34
Chương 2. KIEN THUC NEN TANG
Output gate: Có nhiệm vụ xác định đầu ra bằng cách sử dụng đầu vào
và bộ nhớ của khối. Nó sử dụng hàm sigmoid để xác định giá trị nào sẽ
được chuyển qua, chỉ định 0 hoặc 1. Ngoài ra, nó sử dụng hàm tanh để
cung cấp trọng số cho các giá trị được chuyển, cho biết tầm quan trọng của chúng trong phương trình. Các trọng số này nằm trong khoảng từ -1 đến 1
và được nhân với đầu ra được xác định bởi hàm sigmoid.
2.4.2.2 Mô hình Stacked-LSTM
Stacked-LSTM là một mô hình LSTM bao gồm nhiều lớp LSTM. Lớp LSTM phía trên cung cấp đầu ra trình tự cho lớp LSTM bên dưới thay vì đầu ra giá trị đơn lẻ. Cụ thể, có một đầu ra trên mỗi bước thời gian đầu vào, thay
vì một bước thời gian đầu ra cho tất cả các bước thời gian đầu vào.
Các lớp ẩn bổ sung có thể được thêm vào mạng thần kinh perceptron nhiều lớp để làm cho nó sâu hơn. Các lớp ẩn bổ sung được hiểu là tổ hợp
Input Gate Output Gate
i, = o(W,. [hy — 1,x:] + bi)
C, = tanh (We. [h, — 1,x,] + be) ft = o(We. [hy — 1,x:] + be)
0, = o(W,[h, — 1,x,] + by
hy = 0; * tanh(C,)
HÌNH 2.8: Kiến trúc mô hình LSTM.
35
Chương 2. KIEN THUC NEN TANG
Input
il
LS==
LSTM
De= Wœ
Output
H
HINH 2.9: Mô hình Stacked-LSTM.
lại các biểu diễn đã học được từ các lớp trước đó và tạo ra các biểu diễn mới
ở mức độ trừu tượng cao. Ví dụ, từ đường viền đến hình dạng đối tượng.
Hầu hết các chức năng có thể được xấp xỉ với một perceptron đa lớp ẩn đơn đủ lớn. Tăng độ sâu của mạng cung cấp một giải pháp thay thé cần ít nơ-ron hơn và đào tạo nhanh hơn. Cuối cùng, tăng độ sâu là một cách tối
ưu hóa hiệu suất.
Mô hình Stacked-LSTM được thể hiện ở Hình 2.9.
2.4.2.3 Mô hình CNN-LSTM
CNN-LSTM là một kiến trúc LSTM được thiết kế đặc biệt cho các bài toán
dự đoán trình tự với đầu vào không gian như hình ảnh và video.
Kiến trúc CNN-LSTM liên quan đến việc trích xuất tính năng của dir liệu đầu vào bằng cách sử dụng các lớp mạng thần kinh tích chập (CNN) kết hợp với LSTM để hỗ trợ dự đoán trình tự. CNN-LSTM được phát triển
36
Chương 2. KIEN THUC NEN TANG
cho các van dé dự đoán chuỗi thời gian trực quan va các ứng dụng tao mô
tả văn bản từ một chuỗi hình ảnh (chẳng hạn như video).Một số vấn đề về:
se Nhận dạng hoạt động : Tao mô tả bằng văn bản về một hoạt động
được thể hiện trong một chuỗi hình ảnh.
® Mô tả video : Tạo mô tả văn bản của một chuỗi hình ảnh.
Kiến trúc này cũng đã được sử dụng cho các vấn dé về nhận dạng giọng
nói và xử lý ngôn ngữ tự nhiên trong đó CNN được sử dụng làm bộ trích
xuất đặc trưng cho LSTM trên dữ liệu đầu vào âm thanh và văn bản. Kiến trúc này phù hợp với các van dé:
© Có cấu trúc không gian trong đầu vào của chúng, chẳng hạn như cấu
trúc 2D hoặc pixel trong hình ảnh hoặc câu trúc 1D của từ trong câu,
đoạn văn hoặc tài liệu.
e Có câu trúc thời gian trong đầu vào của chúng, chang hạn như thứ tự
hình ảnh trong video hoặc từ trong văn bản hoặc yêu cầu tạo đầu ra
có câu trúc thời gian, chẳng hạn như từ trong mô tả văn bản
Mô hình CNN-LSTM được thể hiện ở Hình 2.10.
2.4.3 Mô hình CNN
tác gia đã chọn VGG16, VGG19, Xception, Resnet, Inception và Inception-
Resnet để lam các mô hình phát hiện do thành công của chúng trong hau hết các vấn đề phân loại hình ảnh [13]. Các mô hình CNN này được đào tạo trước trên bộ dữ liệu ImageNet và đã thể hiện hiệu suất tuyệt vời đối
với các nhiệm vụ phân loại hình ảnh chung. Bộ dữ liệu ImageNet là bộ dữ
liệu xử lý hình ảnh chuẩn có hơn một triệu hình ảnh thuộc 1.000 lớp [13].
Các mô hình VGG16 với 16 lớp (VGG16) và 19 lớp (VGG19) được dé xuất
37