PHƯƠNG PHÁP THỰC HIỆN
BANG 3.2: Bang thiét ké Generator trong mô hình DAGAN
Lớp Số lượng nơ-ron Hàm kích hoạt
Đầu vào input_dim = Số -
chiéu sau khi hoan tat tiền xử ly dữ
liệu Fully Connected M ReLU Batch Normalization - -
, Fully Connected M//2 ReLU Lớp an
Batch Normalization - -
Fully Connected M//4 ReLU Batch Normalization - -
. Fully Connected 1 Sigmoid
Dau ra
Output 2 M//4 -
29
Chương 3. PHƯƠNG PHÁP THỤC HIỆN
BẢNG 3.3: Bảng thiết kế Discriminator trong mô hình DAGAN
Lớp Số lượng nơ-ron Hàm kích hoạt
Đầu vào input_dim = M//4 -
Fully Connected N ReLU Batch Normalization - -
Lớp ẩn Fully Connected N//2 ReLU
Batch Normalization - -
Fully Connected N//4 ReLU
Batch Normalization - -
Dau ra Fully Connected 1 Sigmoid
Ham mat mát của mô hình
Trong quá trình đào tạo Discriminator nhận dữ liệu đã được ánh xạ vào một
không gian đặc trưng chung của hai miền từ Generator và phân biệt mién cho mẫu dữ liệu đó, vi vậy Discriminator học được qua hàm mat mát trên miền (do- main loss function) và gửi đánh giá về cho Generator. Ham mat mát trên miền ở
Discriminator được tính toán như công thức (3.1)
(3.1)
tzeman =5 Š [egp(e(x”))]+ [es(*~(e(x/')))]
(=1
Trong đó: D(G(xs)) là xác suất Discriminator phân loại một mẫu dữ liệu của mién nguồn do Generator sinh ra thuộc về miền nguồn, D(G(x¿)) là xác xuất Discriminator phân loại một mẫu dữ liệu của miễn đích do Generator sinh ra thuộc về miễn nguồn.
Bởi vì Generator vừa làm nhiệm vụ tạo ra bản ghi dữ liệu ánh xạ và phân biệt bản ghi là độc hai hay lành tính nên Generator vừa nhận đánh giá từ Discriminator
thông qua ham mat mát trên miền (domain loss function) va ban thân thông tin
Chương 3. PHƯƠNG PHÁP THỤC HIỆN
phân biệt nhãn của dữ liệu mà Generator học được qua hàm mat mát trên lớp
(class loss function).
Hàm mắt mát trên lớp được thể hiện qua công thức (3.2)
d
(=1
Trong đó: G(x) là xác suất Generator phân loại một mẫu dữ liệu do nó sinh ra
là mẫu dữ liệu tấn công. Va 1 — G(x) là xác suất Generator phân loại một mẫu
dữ liệu do nó sinh ra là mẫu dữ liệu lành tính. Và hàm mat mát tổng hợp tại
Generator là 3 [Lclass + Ldomain]
Thuật toán huấn luyện mô hình
Algorithm 1 Huấn luyện DAGAN
for i= 1, 2, 3, ... number of batches do
Lấy d (batch_size) bản ghi dữ liệu từ tập dữ liệu nguồn
Lay d (batch_size) bản ghi dữ liệu từ tập dữ liệu đích (bắt đầu lại từ đầu tập
dữ liệu néu batch vượt quá index của tập
Huấn luyện Discriminator: Tính toán giá trị của hàm mắt mát sử dụng Adam optimizer để giảm gradient theo công thức Lgomain
Huấn luyện Generator: Tính toán giá trị của hàm mat mát sử dụng Adam
optimizer để giảm gradient theo công thức 4 [Lctass + Ldomain]
Quá trình huấn luyện mô hình DAGAN được mô tả trong thuật toán 1, tóm tắt như sau: Thuật toán bắt đầu bằng việc duyệt qua tập dữ liệu nguồn và đích, với mỗi lần lấy từ tập dữ liệu nguồn và đích với cùng một lượng đữ liệu như nhau với số lượng là d. Generator học và cập nhật trọng số của chính nó để tối đa hóa
giá trị domain loss và tối thiểu hóa giá trị class loss trên lượng dữ liệu nay với
bằng công thức Š [Letass + Ldomain]. Trong bước này, trọng số của Discriminator
vẫn được giữ nguyên. Sau đó Discriminator học và cập nhật trọng số của chính
31
Chương 3. PHƯƠNG PHÁP THỤC HIỆN
nó để tối thiểu hóa giá tri domain loss. Trong bước này, trọng số của Generator vẫn được giữ nguyên.
3.2.3. Mô hình Attention-DAGAN
Trong khóa luận, chúng tôi tham khảo phương pháp thêm phương pháp tiền xử
lý dữ liệu và trích xuất đặc trưng của mô hình IADA của tác giả Chen và các cộng sự [1] để áp dụng cải tiến mô hình DAGAN đã trình bày ở phần 3.2.2 thành
mô hình Attention-DAGAN. Hình 3.4 mô tả kiến trúc tổng quát của mô hình
Attention-DAGAN
Trích xuất đặc trưng đa góc nhìn
Trong quá trình huấn luyện mô hình DAGAN, thông tin từ tập dữ liệu được truyền tải xuyên suốt các lớp và mô hình, với có các loại thông tin:
¢ Thông tin đặc trưng (feature information): thông tin này được trích xuất bởi bộ trích xuất đặc trưng (ở trong mô hình DAGAN là Generator làm nhiệm vụ này) nhằm thể hiện các đặc trưng trong bản ghi dữ liệu
© Thông tin về nhãn, phân loại nhãn (classification information): Bởi vì mô hình DAGAN có hai nhiệm vụ phân loại: phân biệt miễn và dự đoán nhãn.
Các bộ phân loại trong hai nhiệm vụ này được kỳ vọng học hai loại thông
tin phân loại với tính chất khác nhau từ cùng một tập thuộc tính đặc trưng
ằ Thụng tin về miễn, liờn miễn dix liệu (cross-domain information): DA-
GAN phân tích thông tin liên miền từ hai miễn dữ liệu khác nhau và ánh xạ
các đặc trưng trong hai không gian dữ liệu khác nhau vào cùng một không
gian dữ liệu, Generator và Discriminator học hỏi lẫn nhau để kiểm tra hiệu quả của ánh xạ không thay đổi miễn.
Mô-đun trích xuất đặc trưng trong mô hình DAGAN hay DANN chính là mạng Generator với các lớp Fully Connected vừa làm nhiệm vụ trích xuất đặc trưng tạo mẫu ánh xạ, vừa phân biệt nhãn của mẫu dữ liệu. Chính việc đảm nhiệm nhiều vai trò làm khả năng trích xuất đặc trưng yếu đi do phải xử lý và học quá nhiều, thông tin đặc trưng không thể được thể hiện đầy đủ trong quá trình truyền tin
Chương 3. PHƯƠNG PHÁP THỤC HIỆN
Generator
:
/ Multi-view feature extractor \
„Ty \ p1 1 fl
Ẫn 4th view {
Source > |
data it 1 '
ni | 2-th view !
it 1
it 1 Ũ
it 1 1
Target cl) h \
data 1 1 vth view \
' 1 1
‘ 1
\
\
\ 1
Discrimi a
Fully Connected Layer Fully Connected Layer
‘Activation layer (ReLU) Activation layer (ReLU)
Batch Normalization layer Batch Normalization layer
I |
Fully Connected Layer Fully Connected Layer
Activation layer (ReLU) Activation layer (ReLU) Batch Normalization layer Batch Normalization layer
Ỷ Ỷ
Fully Connected Layer Fully Connected Layer
Activation layer (ReLU) Activation layer (ReLU) Batch Normalization layer Batch Normalization layer
Ỷ Ỷ Fully Connected Fully Connected
Layer Layer
Activation layer Activation layer
(Sigmoid) (Sigmoid)
Ỷ Ỷ
Class Domain
Prediction Prediction
HINH 3.4: Tong quan mô hình Attention-DAGAN với mô-đun trích
xuất đặc trưng và mô-đun Attention
33
Chương 3. PHƯƠNG PHÁP THỤC HIỆN
ở các nơ-ron. Bên cạnh đó, huấn luyện thích ứng miễn diễn ra trên bộ dữ liệu không cân bằng (về số lượng nhãn, số bản ghi trong một nhãn, miễn di liệu) nên thông tin liên quan đến phân biệt tên miền và dự đoán nhãn chứa trong vectơ đặc trưng được trộn lẫn, và mẫu dữ liệu phải thể hiện đồng thời nội dung liên quan đến loại tấn công và miễn dữ liệu, do đó làm tăng độ khó đào tạo. Với việc huấn luyện mô hình với các bộ dữ liệu không cân bằng, với nhiều bản ghi ở miền nguồn nhưng rat ít bản ghi ở miền dich, ba loại thông tin trên được truyền tải và học ở Generator và Discriminator có những hạn chế và triệt tiêu nhau làm cho lượng thông tin truyền trải qua các nơ-ron giảm đi.
Bởi vì lý do đó, chúng tôi bổ sung thêm phan trích xuất đặc trưng đa góc nhìn với một bộ Attention nhằm có khả năng biểu diễn và trích xuất được nhiều thông tin
về cả thông tin nhãn dữ liệu và thông tin theo miễn, đồng thời tạo ra hai đầu ra cho dữ liệu dựa trên tác vụ của chúng như đầu ra dành cho bộ nhận diện nhãn
va Discriminator. Bản ghi dữ liệu từ miền nguồn và đích được đưa qua một lớp Fully Connected để làm giàu thuộc tính, tạo ra dữ liệu theo V x N chiều với N
là số chiều dữ liệu trước khi đưa vào, . Sau đó chúng tôi thử nghiệm với nhiều
mô hình khác nhau CNN, CNN-BiLSTM, GRU để so sánh hiệu năng, đầu ra của các mô hình này được tổng hợp ở một lớp Fully Connected khác và đưa vào bộ
Attention.
Mô hình tổng quan của DAGAN cải tiến này được thể hiện ở Hình 3.4 với sự
bổ sung thêm của hai mô-đun trích xuất đặc trưng và attention, và các kiến trúc khác nhau trong bộ trích xuất đặc trưng được mô tả ở các Hình 3.5, Hình 3.6 và Hình 3.7. Bảng 3.4 mô tả cau trúc của một đơn vị CNN trong các bộ trích xuất đặc
trưng Attention-DAGAN-CNN, Attention-DAGAN-CNNBiLSTM. Bảng 3.5 mô tả
cầu trúc mạng Fully Connected xử lý dữ liệu trước khi đưa vào mạng GRU trong
Attention-DAGAN-GRU.
Chương 3. PHƯƠNG PHÁP THỤC HIỆN
vier CNN1-st
——— | 2-nd Source (_,]| >| B|_views! CNN data 5
Ề
Target ử8 e
data (| 2 °
HrÌvtn ® Fully Connected layer
HINH 3.5: Kiến trúc bộ trích xuất đặc trưng sử dụng mô hình CNN
Bidirectional LSTM
Fully Connected layer
1-st J
view ONN] =, LSTM |
-'!
| LSTM
= Bị 2nd |
ree lãi view, a
as : >|eNN | = LSTM |
2 | LSTM