TÓM TAT KHÓA LUẬNHệ thống nhận diện giọng nói tự động ASR system là một xu hướng quan trọng ởhiện tại và cả trong tương lai, sử dụng các mô hình học sâu dé xử lý các giao tiếp của nóvới
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN KHOA MANG MAY TINH & TRUYEN THONG
NGUYEN XUAN KHANG
NGUYEN THANH GIA TRUYEN
KHOA LUAN TOT NGHIEP
Adversarial examples attack on Automatic Speech Recognition systems
KY SU NGANH AN TOAN THONG TIN
TP HO CHI MINH, 2022
Trang 2TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN KHOA MANG MAY TINH & TRUYEN THONG
NGUYEN XUAN KHANG - 18520071
NGUYEN THANH GIA TRUYEN - 18521576
KHOA LUAN TOT NGHIEP
TAN CONG SU DUNG MAU DOI KHANG TREN CAC
HE THONG NHAN DIEN GIONG NOI TU DONGAdversarial examples attack on Automatic Speech Recognition systems
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
TS NGUYEN NGỌC TỰ
TP HO CHÍ MINH, 2022
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
T8ầy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
Trang 4LỜI CÁM ƠN
Cảm on thầy, TS Nguyễn Ngọc Tự, đề tài khóa luận tốt nghiệp này không thể tồn tại
nếu như không có những ngày đầu năm ba lúc nhóm được tham gia môn An toàn kiếntrúc hệ thông do thầy đứng lớp Nhóm em đã được thầy định hướng, tiếp cận với những
xu hướng nghiên cứu mới — xu hướng về an toàn bảo mật cho các hệ thống máy học, antoàn cho các ứng dụng hằng ngày liên quan đến mô hình học máy học sâu Khóa luậntốt nghiệp này bắt nguồn từ những lần khắt khe, sự tỉ mỉ và những lời khuyên trong quátrình đề xuất hướng nghiên cứu của thầy Đồng hành với nhóm từ đồ án chuyên ngành,đến thực tập doanh nghiệp và khóa luận tốt nghiệp — một nửa thời sinh viên gắn bó vớithầy, điều này quả là may mắn nhất trong thời sinh viên với nhóm chúng em Một lầnnữa cảm ơn thay, cảm ơn sự tận tâm, ân cần, chin chu trong nghiên cứu và cả chin chutrong những nhận xét về trình bày, báo cáo của nhóm.
Cảm ơn đồng đội của em, thật sự néu không có bạn, em đã không dũng cảm chọnmột đề tài mang tính thử thách cao, mới và bước ra khỏi vùng an toàn như thế này.Nghiên cứu an toàn cho các hệ thống đã khó, việc nghiên cứu cho hệ thống học máy,học sâu, đòi hỏi một lượng kiến thức lớn từ ngành Khoa học máy tính, nghiên cứu về hệthống nhận diện giọng nói đòi hỏi các hiểu biết về vật lý âm thanh, về tâm lý học âmthanh, về cơ chế cảm nhận của tai người Quá trình làm đồ án này thật sự khó khăn,nhưng luôn có sự mới mẻ, kiến thức thú vị và đó cũng là nguyên nhân mà nhóm chọn đồ
án này như một lời kết đẹp cho thời sinh viên
Bên cạnh đó, nhóm cũng không quên cảm ơn phòng thí nghiệm Inseclab của khoa đã
hỗ trợ máy ảo trong phần thực nghiệm của nhóm, cảm ơn bạn Hồ Đắc Thanh Minh đã
hỗ trợ tài khoản google cloud — 300$ free trong tài khoản của bạn chính là khoản phí mà
nhóm đã dùng dé thuê các dịch vụ ảo hóa trên nền tang này, cảm ơn bạn Nguyễn Quốc
Cường — thành viên cũ của nhóm, cũng là người luôn hỗ trợ, giải đáp các thắc mắc cho
nhóm trong các vân dé liên quan đên học máy học sâu Cảm ơn quý công ty mà các thành
Trang 5viên đang theo làm việc/học tập, các anh/chi đã tạo các điêu kiện thuận lợi, cũng như
giúp đỡ nhóm về mặt kiến thức thực tế dé mỗi thành viên có thé tìm hiểu, nghiên cứu và
hoàn thành đồ án này đúng tiến độ, đạt được kết quả mà nhóm mong muốn
Nhóm cũng không quên cảm ơn cảm ơn đến các thầy (cô) phản biện, hội đồng chấm
bảo vệ khóa luận tốt nghiệp Chính những góp ý, vấn đáp, câu hỏi và lời khuyên của thầy(cô) là những đóng góp thêm nữa dé chúng em hoàn chỉnh khóa luận của mình
Cuối cùng, lời cảm ơn này xin gửi đến gia đình, đến bạn bè, những người đã luôn
động viên, an ủi, tạo động lực, là hậu phương vững chắc dé nhóm có thé vững tâm và đủ
sức hoàn thành thật tốt khóa luận này.
Trang 6s s
TÓM TAT KHÓA LUẬN 2-5: 2s SE2E 2E EEEE123121E21211212121121121 1121.1111 xe 1
Chương 1 Mở Gau ccccccccccccccccccsscsessescsscscsscscsucscsecscsvcscscsusscsussssesussesuesessscsesssseees 2
V1 Nit CAM 2
1.1.1 Tong quan về hệ thống nhận diện giọng nói tự động 3
1.1.2 Cac mô hình học sâu dé bị khai thác bởi cuộc tan công sử dụng mẫu
đối kháng - ST SnTv 1 111111111211 11111121111101111 11111111011 110111 0121111111 4
1.1.3 Tan công sử dụng mẫu đối kháng đánh lừa các mô hình học sâu trong
ASR 46 2 NEYT ïïẤằằằ ÚC 5585 3 51325 6
1.2 Đóng góp của đồ án - - St St 221 21221211 212112112111211 21111121 re 9
1.2.1 Các hệ thống nhận diện giọng nói nỗi bật ¿55552552 10
1.2.2 Ly thuyết về mẫu đối kháng 2-2 SE+x+EEEeEEEEeEerkrrerxrkeree 10
1.2.3 Tối ưu cách tạo mẫu đối kháng sử dung các hàm mat mát khác nhau
mH TT 10
1.2.4 Các phương pháp tạo mẫu ¿ 2 55252 +x+E+xeEeEzxzxererersreea 10
1.2.5 Triển khai thực nghiệm tấn công và đánh giá, bàn luận, so sánh 10
Chương 2 Tống quan 2-2 2S SE9SE2E£EEEEE2EEEEEEEEEE2312121211217111211 11212 12
2.1 Tổng quan về các nghiên cứu di trước - + + s+xezetzxzxexerecee 12
2.2 Những vấn đề còn tồn tại 2-52 2S St E23 2121211212111 1e xe 14
Chương 3 Tan công các mô hình học sâu trong hệ thống ASR sử dung mẫu đối
Trang 73.1.1 Tiền xử lý dữ liệu 52 St 2E 2E 1212212111111 11t errke 17
3.1.2 Chuyến đối -5- + 2222 2E 212212121 221211212121121 1e ctee 21
3.2 Các mô hình nhận diện giọng nói tự động nỗi bật - 25
3.2.1 DeepSpeech LH HH TH TH HH HH 25 3.2.2 Kaldi LH TH HH HH TH TH TH HT HH ng HH 25 3.2.3 ' am 26
3.3 Khái niệm về mẫu đối kháng và tan công sử dụng mẫu đối kháng 26
“n4 ha 26
3.3.2 Mục tiêu của mẫu đối kháng - + 2+ 2+s+E£+E+Eczxrrerxrrerxes 27
3.3.3 Ngữ cảnh cuộc tấn công sử dụng mẫu đối kháng -. 27
3.4 Các loại hàm mat mat ¿+ 52 S9SE+E#EE£E#EEEEEEEEEEEEEEEEEEEEEEErkrrrrkes 29
3.4.1 Tống quan về hàm mat mát 2-2 2+ E£EE2E+EE+E+EE+E+EErErEerxrrerxes 29
3.4.2 Hàm mat mát €r0SS-eIfFODV - + 2 SE+E+E2E£EEEEEE+EeEeEeEErkrkrrereree 30
3.4.3 Ham mat mát Connectionist Temporal Classification (CTC) 31
3.5 Các cách tạo mẫu đối kháng tấn công hệ thống nhận giọng nói tự động 37
3.5.1 Phuong pháp Fast Gradient Sign Method . 5+ 37 3.5.2 Phương pháp Projected Gradient Descen( -++2<<c+++ 38 3.5.3 Phương pháp Carlini & Wagner sư 39 3.5.4 Phương pháp sử dung psychoacoustic model ‹ «<5 41
3.6 Chỉ số đánh giá mô hình nhận diện giọng noi 0 0 c.ccccecceceeseeeseeseeees 46
Chương 4 Thực nghiệm tấn công mô hình học sâu trong các hệ thống nhận diện
40153001080) 0:0) 1 000010587 49
Trang 84.1 Tấn công mô hình hoc sâu trong DeepSpeech - 2 +2 49
“5n ae ä5Ã43Ả 49
4.1.2 Kịch bản tấn công - + Sss E2 2121112111211111 111111 crx 50
4.1.3 Kết quả thực nghiệm - 52 S212 EE2EEEE2EEE12E E21 EErrrreeo 54
4.1.4 Binh luận và đánh giá - - - - 2n LH ng kg Hy 56
4.2 Tấn công mô hình hoc sâu trong Lingvo 2-5 2 +cz+s+zezxzxecxez 57
4.2.1 Kịch bản 1: Tan công mô hình học sâu trong Lingvo sử dung phương
4.2.2 Kịch bản 2: Tan công mô hình học sâu trong với sự hỗ trợ của
psychoacoustic modeÌ - - - 33 211113211 1115511 1111501111 11 1k TH vn key 62
Chương 5 So sánh kết quả thực nghiệm 2+ 2S ££SE££E+E££EzE££zEe£zzxczez 65
5.1 So sánh, đánh giá phương pháp tan công: 2- - 2 s+scs+x+cx+: 67
5.2 Đánh giá các hệ thống ASR mục tiêu eseseseeseeeeeseeeeseees 67
Chương 6 Kết luận và hướng nghiên cứu tiếp theo - 2 ¿5+ s+cs25z+: 69
6.1 Kết luận 2: 52t 2222 122121121212112121 11.1211 errre 69
6.2 Các điểm chưa hoàn chỉnh của nghiên cứu - 2-2-2 ss+cs+szzzzxece+ 69
6.3 Hướng nghiên cứu tiếp theo — bảo vệ các mô hình hoc sâu của hệ thống
Trang 9DANH MỤC HÌNH
Hình 1 1: Kiến trúc tổng quát của một hệ thống nhận diện giọng nói tự động (Nguồn:
Under the Hood: Automatic Speech ReCOgTIfIOT), 55 5 1n key 3
Hình 1 2: Mô hình kèm các mối đe doa (threat model) đến các giai đoạn khác nhau
trong một trợ lý ảo nhận diện giọng nói ứng dung mô hình deep learning 7Hình 1 3: Minh họa ngữ cảnh targeted attack nhắm vào mô hình học sâu của hệ thống
nhận diện giọng nói tự động (Nguồn: https://adversarial-attacks.net/) -.- ‹- 9
Hình 3 1: Kiến trúc truyền thống của một hệ thống nhận diện giọng nói tự động 16
Hình 3 2: Các bước tiến hành trong giải thuật MFCC dé trích xuất đặc trưng của một
tín hiệu âm thanh đầu vào(nguôn: Speech Recognition — Feature Extraction MECC &
PLP) 6 .e « Ả ẤGQ.QQQ.QQQ.H.HHHY ng neo 18
Hình 3 3: Bước xử lý chuyền analog signal thành digital (A/D conversion) (nguồn:
Speech Recognition — Feature Extraction MECC & PLP) s5 555 £++secs+ 19
Hình 3 4: Bước cắt audio thành các frames sử dung window function(nguén: Speech
Recognition — Feature Extraction MFCC & PLP) 25 51 + VE+seeEsseeeesseee 19
Hình 3 5: Chuyên đổi tín hiệu âm thanh (biên độ theo thời gian) về miền âm
phé(nguén: Speech Recognition — Feature Extraction MECC & PLP) 20Hình 3 6 Sử dung mô hình DNN dé cải tiến các ASR trong DeepSpeech 24
Hình 3 7: Mô tả các bước hoạt động của CTC (ref: https://distilI.pub/2017/ctc/) 32
Hình 3 §: Ma trận Alignments đầu ra của mạng CTC (ref:
https://medium.com/corti-ai/ctc-networks-and-language-models-prefix-beam-search-explained-c1 1d1ee23306) 34 Hình 3 9: Mô ta thuật toán Best Path Decoding (ref:
https://towardsdatascience.com/intuitively-understanding-connectionist-temporal-Classification-3797C43a86C) cccccccescesseeseeeeeeeeeeeeeeeeeeeeeeeeseeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeees 36
Hình 3 10: 7 hàm mục tiêu được Carlini đề xuất (nguồn: [4l) -. <5 40
Trang 10Hình 3 11: Một sơ khái niệm trong âm học, miên nghe được, miên tân sơ giao tiêp
(nguồn 4I
Hình 3 12: Một ví dụ masking threshold, masker và maskee (nguồn: [19 ]) 43
Hình 3 13: Input và output của mơ hình tâm lý học âm thanh (psychoacoustic model)
TT aAä¬ăă -aaặ na 43
Hình 3 14: Thuật tốn tính WER ST HH TH TH HH HH ng như 48
Hình 4 1: Ngữ cảnh tấn cơng các mơ hình học sâu trong hệ thống DeepSpeech và
0a ẢỶÝ 49Hình 4 2 Kiến trúc DeepSpeech ASR với mơ hình học sâu sử dụng Bidirectional
Recurrent Neural Network và CTC ÏOSs - - - c1 2 HH 50Hình 4 3 Kiến trúc Lingvo ASR với mơ hình học sâu sử dụng kết hợp các layers của
Encoder 88v 0 ae a 58
Trang 11DANH MỤC BANG
Bảng 5 1: Bang so sánh 2 kịch ban tan công ¿+ 2 +s+ESE+E£E£EeEzEeErrxrrerees 67
Trang 12DANH MỤC TU VIET TAT
A/D: analogue to digital
API: Application Programming Interface
ASR: Automated System Recognition
BFGS: Broyden—Fletcher—Goldfarb—Shanno
BIM: Based Iterative method
C&W: Carlini and Wagner
CER: character error rate
CSR: command success rate
CTC: Connectionist Temporal Classification
DFT: Discrete Fourier Transform
DNN: Deep neural network
FFT: fast Fourier transform
FGSM: Fast gradient sign method
GMM: Gaussian Mixed Model
HMM: Hidden Markov Model
L-BFGS: Limited-memory BFGS
LK-SD: Limited-Knowledge - Surrogate Data
LK-SL: Limited-Knowledge - Limited-Knowledge
Trang 13LK: Limited-Knowledge
LPC: Linear Predictive Coefficient
LVCSR: Large Vocabulary Continuous Speech Recognition MAE: Mean Absolute Error
MFCC: Mel-Frequency Cepstral Coefficients
MMT: minimum masking threshold
MSE: Mean Square Error
PGD: Projected gradient descent
PK: Perfect-Knowledge
PLP: Perceptual Linear Predictive
PSD: power spectral density
RNN: Recurrent neural network
RNNTs: Recurrent neural network — Transducers
SGD: Stochastic gradient descent
SWER: single word error rate
WER: word error rate
WEST: Weighted Finite-state transducer
ZK: Zero-Knowledge
ad-ex: adversarial examples
Trang 14TÓM TAT KHÓA LUẬN
Hệ thống nhận diện giọng nói tự động (ASR system) là một xu hướng quan trọng ởhiện tại và cả trong tương lai, sử dụng các mô hình học sâu dé xử lý các giao tiếp của nóvới môi trường xung quanh, nơi diễn ra quá trình chuyên đổi ngôn ngữ tự nhiên thànhcác dit liệu số đáp ứng các nhu cầu như nhận diện hiệu lệnh và thực thi, chuyên đổi thànhcác bản dịch, hay xác nhận chủ thê giọng nói Tuy nhiên, các nghiên cứu gần đây [33],[3] chứng minh rang các mô hình học máy, học sâu nói chung dễ bị tổn thương trước cáccuộc tan công sử dụng mẫu đối kháng (adversarial example attacks) Loại tan công này
có tác động nghiêm trọng lên các hệ thống nhận diện giọng nói tự động trong ngữ cảnhngày càng có nhiều hệ thống này sử dụng mô hình học sâu như thành phần cốt lõi để cảithiện hiệu năng và độ chính xác trong cơ chế hoạt động của chúng
Chính vì vai trò quan trọng của các hệ thông ASR trong xu hướng phát triển của cuộc
sống hiện dai ma chúng ta cần phải nghiêm túc nghiên cứu, xem xét cơ chế hoạt động
của các thành phần trong hệ thống ASR và đánh giá bảo mật, cũng như độ tin cậy của hệthống này Cụ thé nhóm sẽ thực hiện tìm hiểu, nghiên cứu về kiến trúc tổng quát của một
hệ thống nhận diện giọng nói tự động, tham khảo các công trình đi trước về các cáchsinh ra các mẫu đối kháng âm thanh sử dụng cho cuộc tân công, phương pháp tối ưu các
mẫu đối kháng tạo ra dé sự thay đôi của nó khó nhận ra bởi tai người so với âm thanh
gốc ban đầu, tiễn hành thực nghiệm va so sánh các phương pháp sinh ra mẫu âm thanhđối kháng (phương pháp Carlini& Wagner [4], phương pháp PGD [21]) trên các hệ thốngnhận diện giọng nói tự động (ASR) nổi tiếng hiện tại bao gồm: DeepSpeech [13] vàLingo [32] Cuối cùng, nhóm sẽ đề xuất các hướng nghiên cứu phòng thủ phát hiện, loại
bỏ hay ngăn chặn các mẫu đối kháng dé tăng cường tính bảo mật và an toàn cho các hệthống nhận diện giọng nói tự động hiện nay
Trang 15Chương 1 Mé đầu
1.1 Ngữ cảnh
Ngày càng có nhiều công trình chứng minh răng các mô hình học sâu (deep learningmodels) dé bị khai thác bởi các kẻ tan công bang cách sử dụng mẫu đối kháng dé đánhlừa mô hình thông qua việc thêm các nhiễu loạn nhỏ vào đầu vào ban đầu (input có thé
là ảnh, file âm thanh, các gói tin mạng v.v) Vấn đề này càng trở nên nghiêm trọng khi
chúng đang là xu hướng và đóng một vai trò cốt lõi trong các ứng dụng phố biến khácnhau hiện nay, có thé kê đến như phân loại hình ảnh, phát hiện đối tượng trong anh, phát
hiện các cuộc tấn công mạng, biến thể của mã độc và đặc biệt là các hệ thống nhận diện
giọng nói tự động — sử dụng các mô hình học sâu dé xử lý các giao tiếp của nó với môitrường xung quanh, nơi diễn ra quá trình chuyên đổi ngôn ngữ tự nhiên thành các dữ liệu
sé dap ứng các nhu cầu như nhận diện hiệu lệnh và thực thi, chuyên đổi thành các bảndịch, hay xác nhận chủ thé giọng nói
Khai thác và tắn công đề kiêm nghiệm tính chất bảo mật các mô hình học sâu của các
hệ thong nhận diện giọng nói cũng chính là chủ đề tập trung nghiên cứu trong đồ án lầnnày Làm rõ tính khả thi của cuộc tấn công thông qua thực nghiệm, đồng thời từ cácnghiên cứu về kiến trúc của các hệ thống nhận diện giọng nói, phương pháp của các cuộctan công đề đưa ra các hướng nghiên cứu giải pháp phòng thủ, phát hiện hoặc loại bỏ các
mẫu đối kháng để đảm bảo tính an toàn cho các hệ thống nhận diện giọng nói tự động
hiện nay.
Trang 161.1.1 Tổng quan về hệ thống nhận diện giọng nói tự động
LEXI ACOUSTIC LANGUAGE
\ WA MODEL
— s nt => “most likely words spoken”
Hình I 1: Kiến trúc tổng quát của một hệ thống nhận diện giọng nói tự động (Nguon: Under the Hood: Automatic Speech
Recognition)
Cac hé thống nhận diện giọng nói truyền thống hoạt động dựa trên mô hình markov
an (Hidden Markov Model - HMM) — một mô hình thống kê cổ điển giúp chúng ta cóthé xác định được các tham số ân từ các tham số quan sát được, dựa trên đó mà thực hiện
phân tích dự đoán trạng thái kế tiếp, áp dụng trong nhận diện giọng nói.
Năm 2014, Baidu Lab đã công bố công trình nghiên cứu nỗi tiếng Deep Speech:Scaling up end-to-end speech recognition [13], dé minh họa việc áp dụng deep learningnhằm gia tăng sức mạnh tính toán, độ chính xác của một trong các hệ thống ASR nổi bật
hiện tại đó chính là DeepSpeech Công trình này cũng chính là phát súng đầu tiên cho
cuộc cách mạng trong thay đôi kiến trúc của hệ thống ASR, tiếp cập, áp dụng học sâu đểtăng độ chính xác của các mô hình hiện tại và gần hơn với cấp độ nhận thức của connBưỜi.
Chính từ đây, các model sử dung deep learning như Connectionist Temporal Classification (CTC), Listen, Attend and Spell (LAS) hay Recurrent neural network —
Transducers (RNNTs) được ra đời Các hệ thống nhận diện giọng nói tự động như
DeepSpeech, Kaldi, Lingvo, Wav2letter++ hay CMUSphinx cũng bắt đầu áp dụng các
mô hình hoc sâu trên dé hỗ trợ việc tính toán các ma trận xác suất của âm tiết, dự đoán
các ký tự của bản dịch hoặc áp dụng cho cả 2 quá trình trên v.v
Trang 17Các trợ lý ảo trên các thiết bị thông minh như Apple Siri, Google Assistant hayAmazon Alexa và nhiều trợ lý ảo khác — chúng là một trong những ứng dụng quan trọngnhất của hệ thống nhận diện giọng nói tự động Ngoài ra các ASR còn được ứng dụngtrong smarthome [6], điều khiển xe tự hành [20] và phiên dịch trực tiếp các ngôn ngữ[34] v.v Chính vì đóng một vai trò quan trọng trong các hệ thống nhận diện giọng nóinhư vậy nên bat kỳ lỗ hồng nào trong các mô hình deep learning đều gây ra các ảnh
hưởng lớn, gan như làm tê liệt toàn bộ hệ thống nhận diện giọng nói cũng như các ứng
dụng của chúng Đó là lý do chúng ta cần nhận thức được lỗ hồng, khả năng bị tan công
và các phương pháp phòng thủ dé bảo vệ cho các hệ thống ASR và cho chính chúng ta
1.1.2 Các mô hình học sâu dễ bị khai thác bởi cuộc tắn công sử dụng mẫu
đối kháng1.1.2.1 Giới thiệu kiểu tấn công các mô hình học sâu sử dụng mẫu đối
kháng
Mẫu đối kháng (adversarial samples) là sự xáo trộn dữ liệu đầu vào đượcattacker xây dựng cách cân thận đề khiến mô hình học sâu bị đánh lừa Thuật ngữ
"adversarial example" được giới thiệu bởi Szegedy và cộng sự [33] vào năm 2014
nhằm vào các thuật toán học sâu Tuy nhiên, trước đó, loại tấn công này đã được
áp dung cho các hệ thống học máy truyền thống (non-neural network)
Cu thé, trong các công trình trước đó, các cuộc tấn công này được gọi là cáccuộc tấn công đánh lừa/qua mặt (evading attack) chủ yếu nhằm vào lọc thư rác,
phát hiện phần mềm độc hại, phát hiện xâm nhập
1.1.2.2 Nguyên nhân các mô hình học sâu dễ bị tổn thương trước
adversarial example attacks
Trang 18Do tính nội tại của các mô hình
Cơ chế hoạt động của các mô hình học sâu khiến nó dễ bị khai thác bởi kẻ tắncông sử dụng mẫu đối kháng:
© Một lượng lớn dữ liệu đến từ những người dùng không đáng tin cậy hoặc
bên thứ ba mà không trải qua quá trình xác thực dữ liệu hiệu quả.
e_ Quy trình huấn luyện mô hình (training phase) có thé tham khảo từ các
outsourced
e Cac mô hình được đảo tạo trước từ các bên thir ba được tích hợp vào mang
Trong giai đoạn training, vì kích cỡ training dataset không lồ, các mô hình học
sâu lại không tốt trong việc hiểu ngữ cảnh của đữ liệu, thêm vào đó việc tính toán
của các giải thuật (đặc biệt là các neural network) là cực kỳ phức tạp khiến môhình thiếu đi tinh tong quát và có thé sai lệch khi đối diện với đữ liệu nằm ở vùng
ranh giới giữa các miên dự đoán.
Goodfellow và cộng sự [9] chỉ ra rằng tính tuyên tính của mô hình DNN trongkhông gian đa chiều là một lý do có thé dễ bị tan công bởi các cuộc tan công sửdụng mẫu đối kháng Các nghiên cứu [33], [38] cũng cho rằng dit liệu đào tạo
không đầy đủ là một trong những lý do cho sự tồn tại của loại tắn công này.
Do ngữ cảnh thực tế
Machine-learning-as-a-service cũng ngày càng được sử dụng nhiều hon, ở đó
mô hình học máy/học sâu hoạt động trên server hoặc trên cloud, trong khi khách
hàng cũng như attacker có thé truy van mô hình thông qua các API dự đoán Một
lượng lớn dữ liệu được sử dụng dé đào tạo mô hình này thường mang tính chất
rât nhạy cảm, riêng tư và các tham sô của mô hình có giá trị thương mại lớn.
Trang 19Chính vì vậy chúng trở thành những mục tiêu kiểm nghiệm các mẫu đối kháng
do các kẻ tân công sinh ra.
1.1.3 Tan công sử dụng mẫu đối kháng đánh lừa các mô hình học sâu
trong ASR
Một mô hình hoc sâu ứng dụng vào trong sản phẩm đời sống thường được thé
hiện qua 3 giai đoạn chính: giai đoạn huấn luyện mô hình (giai đoạn này sẽ bao gồm
cả quá trình xử lý, kiểm tra tính hiệu dụng của dữ liệu và trích xuất đặc trưng, trướckhi đưa vào như là input để huấn luyện model học sâu), giai đoạn kiểm tra, kiểmnghiệm mô hình (quá trình này thường diễn ra trong internal, bao gồm việc tiến hànhkiểm tra tính đúng đắn của mô hình với các dữ liệu chưa xuất hiện trong quá trình
training trước khi trién khai, tích hợp vào sản pham) và cuối cùng là triển khai ứng
dụng trong các sản phẩm, hệ thống thực tế (mang tính thương mại hoặc phục vụ một
tác vụ nào đó trong đời sông).
Bám sát theo vòng đời lặp đi lặp lại của một mô hình học sâu căn bản này, các
công trình nghiên cứu cho đến nay đã chỉ ra các mối đe dọa bảo mật có thé được chiathành 5 loại: (1) xây dựng tập dữ liệu huấn luyện độc hai (poisoning training dataset),(2) An giấu các backdoor trong tập dữ liệu huấn luyện, (3) tấn công sử dụng mẫu đối
kháng, (4) Đánh cắp model hoặc các tham số, siêu tham số của model và cuối cùng
(5) khôi phục lại các dữ liệu huấn luyện nhạy cảm Hai cuộc tấn công đầu tiên xảy ratrong giai đoạn huấn luyện, trong khi đó 3 cuộc tấn công còn lại là mối đe dọa bảo
mật trong quá trình kiêm nghiệm model hay khi tích hợp vào sản phẩm trong thực tế
hoặc cả hai.
Trang 20(Atgortnm) —>(Tranes) Input——> JLERIREU x3 label '
a ky model '
\ 6Ý 'raining data xi © Targeted attack Ì !
SU ì Adversary - © Untargeted attack/ +
input \ '
h Adversary H
Hình I 2: Mô hình kèm các mối de dọa (threat model) đến các giai đoạn khác nhau trong một trợ lý ảo nhận điện giọng nói
ứng dụng mô hình deep learning
Chúng ta sẽ đặt trọng tâm vào van dé sử dụng mẫu đối kháng dé tan công nhằmvào mô hình học sâu trong hệ thống nhận diện giọng nói tự động Tùy thuộc vào nêntảng kiến thức, và các hiéu biết của kẻ tan công (attacker)/đối thủ (adversary) về môhình hoc sâu mục tiêu nhắm đến, mà có thé phân chia ngữ cảnh các mối đe dọa thành
2 loại: white-box attack va black-box attack (một số công trình nghiên cứu cũng đềcập đến gray-box attack, chỉ tiết về lý thuyết của các ngữ cảnh này sẽ được trình bàytrong phần C)
e White-box attack: trong ngữ cảnh tan công này attacker sẽ biết gần như toàn
bộ về các giải thuật học sâu được sử dụng huấn luyện, các thông số của mô
hình học sâu (các tham sé, siêu tham số), kiến trúc, tập dữ liệu Một thí dụđiển hình cho ngữ cảnh tấn công này là thực hiện trong giai đoạn internal
Trang 21testing, các threat (insider/collaborator) có thé tan dung cac hiểu biết về môhình học sâu dé tiến hành tan công.
e Black-box attack: Ngược lại với white-box attack, kẻ tan công hay đối thủ
hầu như sẽ không biết gì về mô hình học sâu (không biết mô hình được huấn
luyện với tập dataset nào, các tham số, siêu tham số hay các giải thuật dùng
dé huấn luyện nên mô hình) Do đó việc tan công sẽ trở nên phức tạp hon sovới ngữ cảnh white-box Đây là ngữ cảnh gần gũi với thực tế, khi mà attacker
sẽ chỉ tiến hành tan công sử dụng mẫu đối kháng với một sản phâm/ứng dụng
hoàn chỉnh mà không có bắt kỳ thông tin nào về mô hình học sâu trong các hệ
thong nhận diện hay tập dữ liệu huấn luyện của chúng (real-time phase — hình
1.2)
Ngoài ra dựa vào mục tiêu mong muốn của các kẻ tan công mà đặc tính hay khảnăng của mẫu đối kháng là khác nhau Dựa vào đó cũng có thể chia ngữ cảnh tấncông loại thành 2 kiểu khác nhau, gồm targeted attack và untargeted attack Với
untarget attack, mẫu đối kháng sinh ra chỉ cần khiến cho mô hình nhận diện sai so
với mẫu ban đầu, đó có thể là sinh ra một bản dịch vô nghĩa, hay một hiệu lệnh không
có trong database v.v Tuy nhiên tan công theo hướng này là dé hơn khá nhiều so với
targeted attack và không thu hướng được nhiều sự quan tâm của các nhà nghiên cứu
Trong ngữ cảnh targeted attack, kẻ tan công sẽ dự định sẵn ban dịch, hay một lệnh
điều khiển mục tiêu mà chúng mong muốn, và cố gắng tạo ra mẫu đối kháng có thé
vừa đánh lừa các mô hình học máy, vừa tạo ra dự đoán đã chuẩn bị từ trước Dướiđây là hình minh họa cho ngữ cảnh targeted attack nhắm vào mô hình học sâu của hệ
thống nhận diện giọng nói trong một trợ lý ảo:
Trang 22Never gonna give you up
Never gonna give you up
Hình 1 3: Minh họa ngữ cảnh targeted attack nhắm vào mô hình học sâu của hệ thống nhận diện giọng nói tự động (, Nguôn:
https://adversarial-attacks.net/)
1.2 Dong góp của đồ án
Nhóm tiến hành tìm hiéu, tập trung nghiên cứu về cuộc tan công sử dụng mẫu đốikháng tiễn hành trên các mô hình học sâu của hệ thống nhận diện giọng nói tự động trongngữ cảnh white-box, giai đoạn tấn công ở đây là bước kiêm nghiệm mô hình (internal
testing phase) Mẫu được sinh ra thuộc loại targeted attack, nghĩa là nó có khả năng đánh
lừa mô hình sinh ra một bản dich (transcript) đã được dự định từ trước đó Thực nghiệm
tan công sẽ được tiến hành trên cả hai hệ thống nhận diện giọng nói tự động nổi bật hiệntại là DeepSpeech và Lingvo Mẫu đối kháng được sinh ra sẽ dùng làm input đầu vào
cho mô hình học sâu đê kiêm nghiệm tỉ lệ thành công của kiêu tân công này.
Bên cạnh đó, cũng trình bày các phan lý thuyết liên quan trực tiếp đến đồ án này, cụthể như sau:
Trang 231.2.1 Các hệ thống nhận diện giọng nói nỗi bật
- Trinh bày kiến trúc tổng quát của một hệ thống nhận diện giọng nói tự động
- Trình bày kiến thức cơ bản các hệ thống Kaldi [25], Lingvo [32], DeepSpeech
[13].
1.2.2 Lý thuyết về mẫu đối kháng
- _ Trình bày khái niệm, khả năng mẫu đối kháng, ngữ cảnh áp dụng
- Trình bày ngữ cảnh tan công sử dung mẫu đối kháng (white-box attack,
gray-box attack va black-gray-box attack)
1.2.3 Tối ưu cách tạo mẫu đối kháng sử dung các ham mat mát khác nhau
- Cross-entropy loss function!
- Connectionist Temporal Classification Loss (CTC loss) [11]
1.2.4 Các phương pháp tao mẫu
- Phuong pháp Fast Gradient Sign Method (FGSM) [9]
- Phuong phap Projected Gradient Descent (PGD) [21]
- Phuong pháp cua Carlini & Wagner (C&W) [4]
- Phương pháp mo rộng sử dung psychoacoustic model cua Qin và các cộng
sự.[26]
1.2.5 Triển khai thực nghiệm tấn công và đánh giá, bàn luận, so sánh
- _ Tấn công (targeted attack) sử dụng mẫu đối kháng trên DeepSpeech trong giai
đoạn testing (phương pháp C&W va CTC loss)
- _ Tấn công (targeted attack) sử dụng mẫu đối khang trên Lingvo trong giai đoạn
testing (phương pháp PGD và cross-entropy loss)
' https://en.wikipedia.org/wiki/Cross_entropy
10
Trang 24Các chương tiếp theo trong báo cáo này cũng sẽ bám sát các đóng góp và phạm
vi nghiên cứu trên dé trình bay rõ, cô đọng nhất về đồ án Nội dung từng chương sẽnhư sau: chương 2 sẽ trình bày tổng quan xu hướng nghiên cứu trong cùng lĩnh vựccủa các công trình đi trước và các van đề mở được đặt ra, chương 3 là các kiến thức
nền tang được sử dụng trong nghiên cứu và triển khai thực nghiệm của đồ án, chương
4 là các giả thuyết khoa học, kịch bản cuộc tấn công, môi trường thực nghiệm ; từ
kết quả thực nghiệm trong chương 4, chương 5 sẽ là các so sánh đánh về các phươngpháp tan công khác nhau (Carlini & Wagner với PGD), tỉ lệ thành công và các thông
số như tỉ lệ lỗi từ khi thực hiện tấn công sử dụng mẫu đối kháng trên hai hệ thống
ASR là Lingvo và DeepSpeech; chương 6 sẽ là phần kết luận lại những kết quả đạt
được, cũng như các hạn chế, thiếu sót đồ án còn mắc phải và cuối cùng, dé ra hướngphát triển các phương pháp phòng thủ, bảo vệ mô hình học sâu của các hệ thống ASRnhư là hướng nghiên cứu tiếp theo trong tương lai gần
lãi
Trang 25Chương 2 Tổng quan
2.1 Tổng quan về các nghiên cứu đi trước
Theo như mô hình các mối đe dọa (threat model) mà các nghiên cứu đề xuất, người
ta có thé phân loại dựa trên kiến thức, hiểu biết của attacker về hệ thống nhận diện giọngnói tự động (black-box, white-box hay gray-box) hoặc dựa trên dự định của attacker về
khả năng của mẫu đối kháng (targeted attack hay untargeted attack).
Các nghiên cứu [8], [18] thực hiện nghiên cứu về untargeted adversarial exampleattack và đã thành công trong việc sinh ra các mẫu đối kháng (các mẫu âm thanh đốikháng sinh ra có thé khiến cho hệ thống ASR chuyên đổi thành những đoạn văn khôngchính xác như dữ liệu gốc, hoặc đa số là những đoạn vô nghĩa )
Bên cạnh đó, cũng có các công trình nghiên cứu theo đuôi hướng sinh ra các targetedadversarial example, mang tính thử thách hơn Việc xây dựng các mẫu đối kháng déđánh lừa các hệ thống ASR, khiến cho các hệ thống này từ mẫu âm thanh đối khángthành những đoạn văn( text, transcript) đã được kẻ tan công dự tính từ trước, người ta
gọi đây là các targeted adversarial example attack
Carlini và cộng sự [5] đề xuất Hidden voice command bang cach tăng tính hiệu quathuật toán tối ưu, cũng như thêm vào tính thực té thông qua việc thêm vào các độ nhiễu
của môi trường xung quanh trong tấn công, nhưng mẫu đối kháng lại dễ dàng bị nhận ra
bởi tai người.
Zhang và cộng sự [39 ] đề xuất DolphinAttack tuy thành công trong việc sinh ra mẫuđối kháng tấn công thành công một vài hệ thống ASR và sự thay đổi của âm thanh khó
nhận ra bởi con người Tuy nhiên, cuộc tấn công lại tập trung vào khai thác đặc tính hay
can thiệp vào các phần cứng thay vì là chỉ trực tiếp sửa trên file audio ban đầu.
Carlini & Wagner [4] có targeted ad-ex attack, nhưng lại sinh ra việc không giải quyết
van dé các đoạn âm thanh nhiễu thêm vào có thé nghe được bởi con người hoặc
over-12
Trang 26the-air attack (việc chúng ta có thể đây mẫu đối kháng vào trực tiếp trong các model họcsâu khá hiếm khi xảy ra trong ngữ cảnh thực tế, vì vậy mẫu đối kháng trong over-the-airattack phải mô phỏng được âm thanh khi được chơi các căn phòng có bố trí khác nhau
(tính thực tế), thì mới khả thi đánh lừa được mô hình học sâu)
Yuan và cộng sự [37] trình bày nghiên cứu CommanderSong với target attack giải
quyết được van dé over-the-air attack, nhưng lại gặp van đề về độ phức tap tính toán chomột độ nhiễu đáng kê khi thêm vào mẫu âm thanh gốc
Yakura & Sakuma [35] đi theo hướng nghiên cứu targeted ad-ex attack và đã tạo
được các adversarial example có thê sử dụng trong các cuộc tân công over-the-air attack,
nhưng nghiên cứu vẫn còn giới hạn ở một vài điểm như targeted transcript chỉ có thé trên
một cụm 2-3 từ chứ không phải toàn bộ cả câu, ngoài ra các ad-ex cũng có một độ nhiễu
lớn hơn đáng kể, nên dẫn đến mẫu âm thanh đối kháng lúc sinh ra sẽ có kích thước lớn
hơn so với mau dữ liệu gôc ban dau.
Công trình của Schonherr và các cộng sự [31] cố gắng nghiên cứu dé phát triển cuộctan công mà các mẫu đói kháng sinh ra sẽ giảm thiểu khả năng nhận thức của con người
về sự thay đôi, thông qua việc sử dụng Psychoacoustic Hiding dé tấn công một trong các
ASR nổi bật đó chính là Kaldi, với mô hình học sâu sử dụng recurrent neural network(RNN).
Công trình của Y.Qin và các cộng sự [26] thực hiện tối ưu sức mạnh của các mẫu đốikháng dé chống lại kha năng nhận biết sự thay đổi mẫu gốc của con người, và thựcnghiệm tân công trên Lingvo ASR system Ngoài ra còn đề xuất phương pháp mô phỏnglại các bố trí không gian phòng thu khác nhau dé áp dụng các mẫu này vào trong các ngữcảnh thực tế như over-the-air attack để vẫn giữ được tính hiệu quả của cuộc tấn côngtrong ngữ cảnh nâng cao này.
13
Trang 27Ngoài ra, các nghiên cứu về tan công sử dụng mẫu đối kháng nhắm vào các hệ thống
nhận diện giọng nói sẽ còn dựa trên quá trình làm nhiễu, trên các khía cạnh như: phương pháp tạo nhiễu, tác động của nhiễu trên tập input (áp dụng nhiễu riêng lẻ hay trên cả một
tập các input âm thanh đầu vào), đối tượng áp dụng nhiễu (trên tập thuộc tính đặc trưng,
hay ngay từ file raw input ban đầu) và còn dựa trên cả các số liệu đo lường tính hiệu quả
(tỉ lệ thành công của tấn công, tỉ lệ từ lỗi (word error rate), khác biệt giữa nhiễu với mẫugốc ban đầu )
2.2 Những vấn đề còn tồn tại
Tuy vậy một vài các nghiên cứu đi trước vẫn chứa những hạn chế như chỉ thành côngtrong việc tổng hợp các audio mới thay vì việc chỉnh sửa các audio đang tồn tại hay chỉthành công trên các hệ thống ASR cũ, truyền thống
Ngoài ra, các công trình gân đây cũng thảo luận và đưa ra các vân đê mở, nêu bật lên các giới hạn còn tôn đọng trong các nghiên cứu hiện tại, chính là:
e Các mẫu đối kháng tao ra không hiệu quả (nguyên nhân là do có thé dé dang
nhận ra thay đôi so với ban âm thanh gốc bởi con người)
e Không linh hoạt, hay không thực tế khi áp dụng vào các tình huống thực tiễn
như thực nghiệm thiếu đi việc thiết lập độ nhiễu của môi trường, độ vang của
một số kiến trúc phòng thu Hay ngữ cảnh tấn công over-the-air attack, cácmẫu sinh ra không thé áp dụng linh hoạt hay tấn công thành công trong cácloại bố trí phòng thu khác nhau
Đồ án này sẽ sử dung hai công trình nghiên cứu nổi bật trước đó của Carlini &
Wagner [4] và công trình của Qin cùng cộng sự [26] như là tài liệu tham khảo chính cho
phần thực nghiệm tân công sử dụng mẫu đối kháng Quá trình thực nghiệm sẽ chia làm
2 phần tương ứng với việc tấn công hai hệ thống nhận diện giọng nói khác nhau:
DeepSpeech và Lingvo Trên DeepSpeech, cuộc tấn công sẽ sử dung Carlini & Wagner
14
Trang 28(C&W) và hàm mat mát Connectionist Temporal Classification (CTC loss) Tan côngtrên hệ thống nhận diện giọng nói Lingvo, tấn công sử dụng phương pháp PGD cùng vớicross-entropy loss dé tối thiểu độ nhiễu thêm vào mẫu gốc ban dau và sử dụng phươngpháp mở rộng psychoacoustic model trong tạo mẫu dé tăng sức mạnh cho mẫu đối kháng
khó có thé bị nhận ra hay phát hiện bởi con người.
15
Trang 29Chương 3 Tan công các mô hình học sâu trong hệ thống ASR sử dung mẫu đối kháng
3.1 _ Kiến thức căn bản về hệ thống nhận diện giọng nói tự động
Hình 3 1: Kiến trúc truyén thong của một hệ thống nhận diện giọng nói tự động
Hình 3.1 cho chúng ta cái nhìn tổng quan về 2 quá trình chính sẽ diễn ra trong một
hệ thong nhận diện giọng nói tự động, gồm:
- _ Tiền xử lý: xử lý tín hiệu âm thanh đầu vào và trích xuất tập thuộc tinh đặc trưng
của nó.
- Chuyén đối (decoding) dữ liệu âm thanh đầu vào thành các bản dịch (transcrIpt)
dựa trên tập thuộc tính đặc trưng được trích xuất với sự hỗ trợ của các model như:Acoustic model, Lexicon model, Language model và thuật toán tim kiém hiéuqua dé tìm thấy bản dich phù hop nhất
Trong một vài các hệ thống nhận diện giọng nói tự động truyền thống, người ta tách
acoustic model thành một quá trình riêng lẻ dé sinh ra ma trận xác suất, kết hợp với
language model tạo thành input cho quá trình Search.
16
Trang 30Tuy nhiên, sự phát triển mạnh mẽ của các mô hình học sâu như đã trình bày ở trên
đã tạo ra động lực giúp các nhà phát triển áp dụng các mô hình này dé chịu trách nhiệmcho gần như toàn bộ quá trình chuyền đổi (decoding) các đặc trưng thành một bản dịch
hoàn chỉnh (một số mô hình học sâu sẽ tích hợp language model như là một layer vào
mạng neuron, một số khác thì sử dụng sự hỗ trợ của language model được huấn luyệnđộc lập có san dé giúp đánh giá và hỗ trợ cho quá trình chuyền đổi thành một bản dichtốt nhất)
3.1.1 Tiền xử lý dữ liệu
Gồm 2 quá trình con bên trong, lần lượt là xử lý tín hiệu và trích xuất đặc trưng
3.1.1.1 Xử lý tín hiệu (Signal Processing)
Chúng ta biết rằng các hệ thống nhận diện giọng nói sẽ làm việc hiệu quả vàđạt độ chính xác cao khi xử lý các tín hiệu âm thanh thu được trong điều kiện yêntĩnh (phòng kín), và không phải chịu bất kỳ ảnh hưởng của tiếng động nào từ môitrường xung quanh Tuy nhiên, ngữ cảnh này cực kỳ hiếm gặp trong thực tế, vàtrong các tình huống cần các hệ thống ASR (điều khiển xe tự hành, nhà thôngminh, các trợ lý ảo ).
Vì vậy, mà chúng ta cần một bước tiền xử lý các tín hiệu âm thanh nhận được
từ microphone của các thiết bị sẽ được loại bỏ (filter) đi các tần số năm ngoài
phạm vi nghe của con người, cũng như các phân đoạn âm thanh (voice segments)
tại mức năng lượng nhất định Sau khi xử lý ta sẽ thu được tín hiệu âm thanh đủ
tốt (clean audio signal) dé phục vụ cho các quá trình sau.
3.1.1.2 Trích xuất đặc trưng (Feature Extraction)
Các giải thuật phô biến dùng để trích xuất các đặc trưng của một tín hiệu âmthanh đầu vào thường dùng như Mel-Frequency Cepstral Coefficients (MFCC)
17
Trang 31[22] Linear Predictive Coefficient (LPC) [16], Perceptual Linear Predictive
(PLP) [14] v.v Trong số đó, MFCC nổi lên như là một giải thuật phổ biến nhấtđược sử dụng trong hầu hết các hệ thống nhận diện giọng nói mã nguồn mở(DeepSpeech, Kaldi ) hay các sản phâm thương mại Thêm nữa, các giai đoạntrích xuất trong MECC và PLP gần như là tương tự nhau, chính vì vậy, đồ án báocáo này sẽ tập trung làm rõ giải thuật MFCC dé minh họa cho toàn bộ các bướctrích xuất đặc trưng trong các hệ thống nhận diện giọng nói tự động Sơ đồ của
A/D ” h
conversion [rcemnasis > &@ _ HPT
Mel filterbank giải thuật được minh hoạ trong hình 3.2:
energy
log( )
Feature Dynamic
Hình 3 2: Các bước tiễn hành trong giải thuật MFCC để trích xuất đặc trưng của một tín hiệu âm thanh đâu vào(nguồn:
Speech Recognition — Feature Extraction MFCC & PLP)
Các quá trình MFCC thực chat là sự kết hợp của 3 quá trình lớn, gồm:
(1) giai đoạn cải thiện chất lượng âm thanh và định dạng chúng trở thành
các input cho quá trình filtering tiếp sau đó (chứa các bước A/D conversion,
Pre-18
Trang 32emphasis và windowing) Cụ thé, A/D conversion (analogue to digitalconversion) — qua trinh nay chuyén đổi tín hiệu âm thanh tuần tự (catalog signal)
thành cách không gian rời rạc.
Image from Bryan Pellom
Hình 3 4: Bước cắt audio thành các ‘frames sử dụng window function( nguồn: Speech Recognition — Feature Extraction
MECC & PLP)
19
Trang 33Một window function (sliding window) sẽ chạy qua tín hiệu âm thanh và chia
nó thành các phân đoạn nhỏ, một phân đoạn này sẽ có độ dài trong khoảng 10 —
30 ms, và sẽ có một vùng hai phân đoạn liền kề chồng lên nhau (overlappingdomain) Da số nghiên cứu sẽ chọn độ dai cho sliding window là từ 10 — 30 ms
Vì xem xét rằng trong khoảng thời gian này, các đặc trưng là ồn định và gần như
không thay déi có thé dùng dé tính toán, ngoài ra overlapping domain giúp duy
trì môi liên hệ cũng như việc chuyên đôi trạng thái qua các frames.
(2) Filtering: Lúc này, tín hiệu âm thanh ban đầu đã được chuyên thành cácphân đoạn nhỏ Nhưng chúng ta không thê trích xuất đặc trưng khi tín hiệu chỉbiểu diễn trên miền thời gian, vì vậy, thuật toán Discrete Fourier Transform(DFT) được áp dụng dé chuyền tín hiệu này về miền âm phổ (spectrum) với việcbiểu diễn trục hoành như là miền tần số (Hz) và trục tung là mức cường độ âm
(dB).
Time domain signal spectrum
-jMtuÄk4EBET) alfa p 4 ¡mm reyyy VỊ “Vy VV
.
n=0,1, L-1 k=0,1, 9-1
Hinh 3 5: Chuyén đổi tin hiệu âm thanh (biên độ theo thời gian) về miễn âm pho(nguon: Speech Recognition — Feature
Extraction MFCC & PLP)
Mel-filterbank áp dụng các bộ loc tam giác (triangular filters) dé mô phỏng lại
cơ chế vật lý của tai người: nhạy cảm và dễ phân biệt tín hiệu âm thanh ở tại các
tan sô thap tot hơn là các miên tan sô cao.
20
Trang 34Sau khi lọc xong, chúng ta giữ lại được các miền tần số hợp lệ cho quá trìnhtrích xuất đặc trưng Chúng sẽ được truyền qua Log và hàm nghịch đảo củachuyên hóa chuỗi Fu-ré rời rac (Inverse Discrete Fourier transform) dé chuyênđổi sinh ra cepstrum (một dạng tương tự như speech signal), magnitude biéudiễn trên trục tung và trục hoành biểu diễn thời gian Lúc này, chúng ta 12 hệ số
của hàm cepstrum.
(3) Giai đoạn trích xuất đặc trưng: nhìn vào hình 3.2, input đầu vào chodynamic feature, không chỉ là 12 hệ số của hàm cepstrum mà còn có năng lượngcủa mỗi frame, có thê hỗ trợ cho chúng ta trong việc xác định các âm tiết Thậtvậy, trong phát âm, ngữ cảnh thông qua việc phát hiện các âm to nhỏ thế nào cũng
là một đặc trưng hỗ trợ cho trình phát hiện các âm, từ đó xác định được các từ và
câu tương ứng Sau bước này, chúng ta có tập đặc trưng của âm thanh đầu vào
3.1.2 Chuyển đổi
3.1.2.1 Lexicon model
Ở dạng cơ bản nhất, từ vựng chỉ đơn giản là một tập hợp các từ với cách phát
âm của chúng được chia thành các âm vi, tức là các đơn vi phát âm của từ.
Chúng ta có thê xem lexicon model giống như một cuốn từ điển phát âm Nói
cách khác nó đề cập đến chuyền đôi trạng thái hữu han (finite state transducer),
là xác suất giữa các trạng thái âm tiết trong một từ (word)
Một chuyền đổi như vậy ánh xạ các ký hiệu từ vựng theo cách phát âm tương
ứng của chúng.
3.1.2.2 Acoustic model
21
Trang 35Cách phát âm (phonemes) của một từ thường sẽ có nhiều hơn một ngữ âm,chăng hạn như từ six, phat âm là /siks/, trong acoustic model, các ngữ âm thànhphần của một âm, được gọi là các trang thái (state).
Nhiệm vụ của acoustic model sẽ gồm: xác định state của mỗi frames, sau đó
là kết hợp các states thành các từ và từ các từ ngữ dự đoán đó, chúng ta sẽ kết hợp
chúng thành một câu hoàn chỉnh dựa vào mô hình ngôn ngôn ngữ (được trình bày
ở phan ¢ sau đây).
Gaussian Mixed Model (GMM) sẽ dùng xác định state liên quan đến mỗi
frames, và phân cụm cho thông qua việc kết hợp tuyến tính rất nhiều hàm phân
phối Gauss, output của nó chính là mô hình hóa xác suất của một chuỗi các âmtiết (phoneme)
Sau đó, chúng ta sé áp dung Hidden markov model (HMM) dé từ các âm tiết
nhận được từ GMM, mô hình hóa được xác suất các từ vựng phù hợp nhất, ứng
với các state được nhận.
3.1.2.3 Language model:
Trong các hệ thống ASR truyền thống, language model hỗ trợ cho việc tínhxác suất của một chuỗi các từ vựng có thể xuất hiện trong câu nhờ vào việc phân
tích các dữ liệu văn bản.
Bằng cách cung cấp cho nó thông qua một thuật toán thiết lập các quy tắc cho
ngữ cảnh trong ngôn ngữ tự nhiên Sau đó, language model sẽ áp dụng các quy
tắc này dé dự đoán chính xác hoặc tạo ra các câu mới Về cơ ban, mô hình sẽ họccác tính năng và đặc điểm của ngôn ngữ cơ bản và sử dụng các tính năng đó để
hiéu các cụm từ mới.
Một vài các kiêu mô hình ngôn ngữ phô biên gôm:
22
Trang 36e N-gram: tính toán phân phối xác suất của một chuỗi có độ dài là N Chang
hạn n = 2, từ language model sẽ cung cấp cho chúng ta xác suất của mộtchuỗi gồm 2 từ “Excuse me”, “He’s shy”
e Unigram: là mô hình ngôn ngữ đơn giản nhất, ở đó sẽ cung cấp xác suất
của một từ hoặc một thuật ngữ, và chỉ thực sự sử dụng phổ biến trong ngữcảnh khôi phục đữ liệu.
e Bidirectional: vì quá trình training bang việc phân tích dữ liệu văn bản theo
cả 2 hướng: forward và backward Dự đoán các từ trong một câu dựa vào
từ ngữ khác trong văn bản
e Continuous space: Loại mô hình nay biểu diễn các từ dưới dạng sự kết hợp
phi tuyến tính của các trong số trong mạng nơ-ron Kiéu này trở nên đặcbiệt hữu ích khi các tập dữ liệu ngày càng lớn Các từ ngữ hiếm khi được
sử dụng cũng tăng, từ đó gây khó khăn cho mô hình như n-gram, khi mà
phải xây dựng các câu độ đài n khả thi, càng nhiều từ hiếm thì đữ liệu câu,nhóm từ tăng lên rất nhan, vì vậy mà n-gram không còn hiệu quả cao nữa.Bằng cách tính trọng số các từ một cách phi tuyến tính, phân tán, mô hìnhContinuous space có thé "hoc" các từ gần đúng và do đó không bị đánh lừabởi bat kỳ giá trị chưa biết nào "Sự hiéu biết" của nó về một từ nhất địnhkhông được gan chặt với các từ xung quanh ngay lập tức như trong môhình n-gram.
3.1.2.4 Giải thuật tim kiếm
Kết quả của quá trình acoustic model, cụ thé là phân phối xác suất của các từ
ngữ phù hợp nhất, cùng với sự hỗ trợ của mô hình ngôn ngữ (language model) sẽtạo thành 2 input đầu vào cho quá trình Searching (Decoding)
Chúng ta đã sẵn sàng decode audio clip của chúng ta thành các bản dịch thông
qua các giải thuật tìm kiếm (các kỹ thuật áp dụng hiện tại: giải thuật Viterbi, giải
23
Trang 37thuật Large Vocabulary Continuous Speech Recognition LVCSR, Weighted Finite-state transducer (WFST) — kỹ thuật được dùng trong Kaldi, Beam Search, Viterbi — Beam Search, A* Search (Best-first search), Multipass Search )
3.1.2.5 Cai tiến: Ap dung các mô hình học sâu
Với tốc độ phát trién nhanh chóng của công nghệ hoc sâu, DNN (Deep NeuralNetwork) được sử dụng dé thay thế mô hình GMM, để tao thành một model HMM
—DNN Về mặt lý thuyết, DNN có thé phù hợp với bat kỳ chức năng nao và mạnh
mẽ hơn nhiêu so với GMM.
Ngoài ra, gần đây các nghiên cứu còn đề xuất mô hình end-to-end đó là CTC(Connectionist Temporal Classification) với input đầu vào là một mẫu âm thanh,
và chúng ta có một output trực tiếp là câu hay là bản dịch của tín hiệu âm thanh
đó (các model như lexicon model, language model hay HMM sẽ được tích hợp vào mạng nơ- ron học sâu như là một layer, và được cập nhập thường xuyên — dynamic model, không còn 1a static model).
oye
Audio input Signal processing & Z ‘ @ V " J Regconition Result
(.mp3/.wav) Feature Extraction ©
a: hidden units tai layer |
Hình 3 6 Sử dung mô hình DNN để cải tiến các ASR trong DeepSpeech
24
Trang 383.2 Các mô hình nhận diện giọng nói tự động nỗi bật
3.2.1 DeepSpeech
Là một open-source speech2text engine được train bởi model máy học (RNN)
dựa trên giải thuật được phát triển bởi các nhà nghiên cứu tại Baidu Lab, được ứngdụng trên hệ thống nhận diện giọng nói cua Mozilla
Nó sẽ nhận stream audio như là một input và thực hiện chuyên stream này thành các ký tự đã được chỉ định săn, gôm 2 bước: từ audio stream, chúng ta sẽ có chuỗi xác suât cho moi ký tự, và từ chudi xác suât đó, chúng ta sẽ convert thành transcription tôi ưu nhât ứng với stream:
e First step: tức là bước sinh xác suất cho mỗi ký tự trong bảng chữ cái, bước
này có thê được thực hiện bởi DNN
e Second step: được thực hiện khả thi boi N-gram language model
e DNN sé được train dé đoán transcript, text từ stream audio, còn language
model được train dé dự đoán text từ các transcript đã được dự đoán
Các ứng dụng thực tế như là: chạy trên một ứng dung electron sử dụng ReactJS,
Android microphone streaming và chuyền đồi thành các bản dịch, Deepspeech trong
Mozilla
3.2.2 Kaldi
Được sử dụng trong Amazon’s Alexa, công cụ nhận diện giọng nói của Amazon
Là một hệ thống DNN-HMM(Hidden Markov Model)-ASR cấu tạo gồm 3 thành
phần chính:
e Feature Extraction: transforms the raw input data into representative features(
các đặc trưng đã được model xác định trước đó)
25
Trang 39® DNN (acoustic model): ở phần này, model DNN sẽ chịu trách nhiệm cho việc
tính toán một ma trận gọi là pseudo-posteriors- đây chính là ma trận mô tả xác
suất của các chữ cái của audio trong một time elapsed xác định, chăng hạn là
1s
e Decoding: lúc này, từ ma trận đã tính toán được trước đó, dựa vào HMM
(hidden markov model) va Viterbi decoding dé suy ra được transcript sát nhất
VỚI input stream audio ban đâu.
3.2.3 Lingvo
Nó được phat triển như một framework dựa trên học sâu bang cách sử dụngTensorFlow, tập trung vào các mô hình trình tự cho các tác vụ liên quan đến ngônngữ như dịch máy, nhận diện giọng nói và tổng hợp giọng nói
Kiến trúc dựa trên mô hình Listen, Attend and Spell Đào tạo phân tán
(Distributed training) và suy luận lượng hóa (quantized inference) được hỗ trợ trực
tiếp trong framework và nó chứa các triển khai hiện có của một số lượng lớn các
utilities, chức năng ho trợ và các ý tưởng nghiên cứu mới nhat
3.3 Khái niệm về mẫu đối kháng và tan công sử dụng mẫu đối khang
3.3.1 Khái niệm
Adversarial example là các mẫu được các threat agent (adversary/attacker) tạo ra,
thường là thêm vào một lượng nhiễu (noise) nhỏ hoặc thay đồi các thành phan trongmẫu gốc, các mẫu mới này bằng những cách nhận biết thông thường (nghe, nhìn)
không thé phân biệt được với mẫu gốc; tuy nhiên khi dùng chúng làm input cho mô
hình học may/hoc sâu, mô hình sẽ bi đánh lừa phân loại hoặc đưa ra các dự đoán sai
so Với mau gôc của nó.
Công thức chung cho việc tạo adversarial example:
>
X* =X + 6g sao cho O(x) # O(X + ðz)
26
Trang 40Trong đó:
e 0() là output của Model Machine learning có x là input.
e x* là mẫu mới được tao ra.
e # là mẫu gốc
e 6, là độ nhiễu thêm vào
3.3.2 Mục tiêu của mẫu đối kháng
Mẫu đối kháng được ứng dụng cả trong bên phòng thủ lẫn tấn công Với bên tancông mục tiêu của họ là dùng để giảm mức độ tin tưởng vào mô hình, khiến mô hìnhmáy học phân loại sai, và nâng cao hơn là khiến mô hình phân loại mẫu vào class mà
kẻ tắn công mong muốn Đặc biệt là trong các hệ thống recognition, khi kẻ tấn công
mong muốn giả mạo được đối tượng hợp lệ dé qua mat duoc hé thống.
Không chỉ ứng dụng trong tan công, đối với phòng thủ, việc các phương pháp làm
giàu dữ liệu (data augmentation) như thêm nhiễu vào giúp cho mô hình không bi
overfit vào training set Hay tạo ra các mau đối kháng dé đánh lừa hệ thống sau đódùng chúng đề huấn luyện lại mô hình, giúp mô hình trở nên tốt hơn cũng như có khả
năng chông lại các cuộc tân công mâu đôi kháng ngoài thực tê.
3.3.3 Ngữ cảnh cuộc tấn công sử dụng mẫu đối kháng
Có 3 ngữ cảnh tấn công chính [2] dựa vào mức độ hiểu biết của kẻ tấn công về
các yếu tô như: đữ liệu training D, tap feature X, thuật toán sử dụng f cùng hàm mục
tiêu L được tối thiểu trong quá trình training, và cuối cùng là các tham số và siêutham số được sử dụng trong quá trình training w Do đó kiến thức của attacker có théđược mô tả đưới dạng không gian Ø, được biéu diễn Ø = (D, X, ƒ, w), tùy thuộc vàocác giả định được đưa ra người ta có thể các kịch bản tan công khác nhau:
27