Cấu trúc mơ hình mục tiêu

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 82 - 84)

7 Tổng kết

5.1 Cấu trúc mơ hình mục tiêu

Hình 5.1 thể hiện cấu trúc mơ hình chúng tơi lựa chọn để thực hiện tấn công đối kháng.

5.3.2. Hiệu năng mơ hình

Đối với cấu trúc mơ hình trên trong bài báo gốc, nhóm tác giả đã cho thấy mơ hình có hiệu quả phân loại cao trong việc phân loại các câu lệnh từ tập dữ liệu “google speech commands“, mơ hình có độ chính xác lên đến 96% và có số lượng tham số mơ hình khá nhỏ.

Mơ hình Độ chính xác (%) Tham số mơ hình

res15 95.8 238K

res26 95.2 438K

res8 94.1 110K

ConvNet on raw WAV 89.4 700K

DS-CNN 95.4 498K

Attention RNN

(nhóm tác giả) 96.9 202K

Bảng 5.2: Bảng so sánh kết quả của mơ hình mục tiêu với một số mơ hình khác trên tập dữ liệu “google speech commands” (nguồn [33])

Bảng 5.2 thể hiện độ chính xác cao của mơ hình mục tiêu mà chúng tơi lựa chọn để thực hiện tấn công trên tập dữ liệu giọng nói tiếng Anh “google speech commands”.

Với cấu trúc mơ hình và tập dữ liệu một số câu lệnh tiếng Việt, chúng tơi bắt đầu huấn luyện mơ hình phân biệt các lớp câu lệnh trên. Sử dụng giải thuật “adam” [34] trong q trình huấn luyện mơ hình, với tỷ lệ học khởi tạo là 0.001 và giảm 60% sau mỗi 10 lần huấn luyện. Sử dụng kích thước batch là 64, và chạy trên Tesla P100 GPU của colab với mỗi lần huấn luyện khoảng 30 giây. Tập huấn luyện được chúng tôi thêm nhiều lớp nhiễu khác nhau như lớp các âm thanh tiếng chim hót, tiếng xe cộ và nhiều loại âm khác trong quá trình tăng cường dữ liệu, kết hợp với lớp nhiễu ngẫu nhiên được tạo ra trong q trình chuẩn hóa dữ liệu. Vì vậy mơ hình có

độ chính xác cao sẽ cho thấy khả năng kháng nhiễu của mơ hình được đảm bảo. Khơng ngồi mong đợi mơ hình huấn luyện có độ chính xác trong việc phân loại các câu lệnh tiếng Việt rất cao lên đến 98% và giá trị hàm mất mát là 0.1.

Với tập dữ liệu ban đầu chúng tôi chia thành 3 tập con gồm 70% cho tập huấn luyện, 10% tập kiểm thử để giúp kiểm tra trong q trình huấn luyện mơ hình có bị q khớp hay khơng khớp hay khơng, và 20% còn lại cho tập kiểm định lại mơ hình sau cùng.

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 82 - 84)

Tải bản đầy đủ (PDF)

(104 trang)