Khóa luận tốt nghiệp An toàn thông tin: Tấn công sử dụng mẫu đối kháng trên các hệ thống nhận diện giọng nói tự động

TÓM TAT KHÓA LUẬNHệ thống nhận diện giọng nói tự động ASR system là một xu hướng quan trọng ởhiện tại và cả trong tương lai, sử dụng các mô hình học sâu dé xử lý các giao tiếp của nóvới

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN KHOA MANG MAY TINH & TRUYEN THONG

NGUYEN XUAN KHANG

NGUYEN THANH GIA TRUYEN

KHOA LUAN TOT NGHIEP

Adversarial examples attack on Automatic Speech Recognition systems

KY SU NGANH AN TOAN THONG TIN

TP HO CHI MINH, 2022

Trang 2

TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN KHOA MANG MAY TINH & TRUYEN THONG

NGUYEN XUAN KHANG - 18520071

NGUYEN THANH GIA TRUYEN - 18521576

KHOA LUAN TOT NGHIEP

TAN CONG SU DUNG MAU DOI KHANG TREN CAC

HE THONG NHAN DIEN GIONG NOI TU DONGAdversarial examples attack on Automatic Speech Recognition systems

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

TS NGUYEN NGỌC TỰ

TP HO CHÍ MINH, 2022

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

T8ầy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

Trang 4

LỜI CÁM ƠN

Cảm on thầy, TS Nguyễn Ngọc Tự, đề tài khóa luận tốt nghiệp này không thể tồn tại

nếu như không có những ngày đầu năm ba lúc nhóm được tham gia môn An toàn kiếntrúc hệ thông do thầy đứng lớp Nhóm em đã được thầy định hướng, tiếp cận với những

xu hướng nghiên cứu mới — xu hướng về an toàn bảo mật cho các hệ thống máy học, antoàn cho các ứng dụng hằng ngày liên quan đến mô hình học máy học sâu Khóa luậntốt nghiệp này bắt nguồn từ những lần khắt khe, sự tỉ mỉ và những lời khuyên trong quátrình đề xuất hướng nghiên cứu của thầy Đồng hành với nhóm từ đồ án chuyên ngành,đến thực tập doanh nghiệp và khóa luận tốt nghiệp — một nửa thời sinh viên gắn bó vớithầy, điều này quả là may mắn nhất trong thời sinh viên với nhóm chúng em Một lầnnữa cảm ơn thay, cảm ơn sự tận tâm, ân cần, chin chu trong nghiên cứu và cả chin chutrong những nhận xét về trình bày, báo cáo của nhóm.

Cảm ơn đồng đội của em, thật sự néu không có bạn, em đã không dũng cảm chọnmột đề tài mang tính thử thách cao, mới và bước ra khỏi vùng an toàn như thế này.Nghiên cứu an toàn cho các hệ thống đã khó, việc nghiên cứu cho hệ thống học máy,học sâu, đòi hỏi một lượng kiến thức lớn từ ngành Khoa học máy tính, nghiên cứu về hệthống nhận diện giọng nói đòi hỏi các hiểu biết về vật lý âm thanh, về tâm lý học âmthanh, về cơ chế cảm nhận của tai người Quá trình làm đồ án này thật sự khó khăn,nhưng luôn có sự mới mẻ, kiến thức thú vị và đó cũng là nguyên nhân mà nhóm chọn đồ

án này như một lời kết đẹp cho thời sinh viên

Bên cạnh đó, nhóm cũng không quên cảm ơn phòng thí nghiệm Inseclab của khoa đã

hỗ trợ máy ảo trong phần thực nghiệm của nhóm, cảm ơn bạn Hồ Đắc Thanh Minh đã

hỗ trợ tài khoản google cloud — 300$ free trong tài khoản của bạn chính là khoản phí mà

nhóm đã dùng dé thuê các dịch vụ ảo hóa trên nền tang này, cảm ơn bạn Nguyễn Quốc

Cường — thành viên cũ của nhóm, cũng là người luôn hỗ trợ, giải đáp các thắc mắc cho

nhóm trong các vân dé liên quan đên học máy học sâu Cảm ơn quý công ty mà các thành

Trang 5

viên đang theo làm việc/học tập, các anh/chi đã tạo các điêu kiện thuận lợi, cũng như

giúp đỡ nhóm về mặt kiến thức thực tế dé mỗi thành viên có thé tìm hiểu, nghiên cứu và

hoàn thành đồ án này đúng tiến độ, đạt được kết quả mà nhóm mong muốn

Nhóm cũng không quên cảm ơn cảm ơn đến các thầy (cô) phản biện, hội đồng chấm

bảo vệ khóa luận tốt nghiệp Chính những góp ý, vấn đáp, câu hỏi và lời khuyên của thầy(cô) là những đóng góp thêm nữa dé chúng em hoàn chỉnh khóa luận của mình

Cuối cùng, lời cảm ơn này xin gửi đến gia đình, đến bạn bè, những người đã luôn

động viên, an ủi, tạo động lực, là hậu phương vững chắc dé nhóm có thé vững tâm và đủ

sức hoàn thành thật tốt khóa luận này.

Trang 6

s s

TÓM TAT KHÓA LUẬN 2-5: 2s SE2E 2E EEEE123121E21211212121121121 1121.1111 xe 1

Chương 1 Mở Gau ccccccccccccccccccsscsessescsscscsscscsucscsecscsvcscscsusscsussssesussesuesessscsesssseees 2

V1 Nit CAM 2

1.1.1 Tong quan về hệ thống nhận diện giọng nói tự động 3

1.1.2 Cac mô hình học sâu dé bị khai thác bởi cuộc tan công sử dụng mẫu

đối kháng - ST SnTv 1 111111111211 11111121111101111 11111111011 110111 0121111111 4

1.1.3 Tan công sử dụng mẫu đối kháng đánh lừa các mô hình học sâu trong

ASR 46 2 NEYT ïïẤằằằ ÚC 5585 3 51325 6

1.2 Đóng góp của đồ án - - St St 221 21221211 212112112111211 21111121 re 9

1.2.1 Các hệ thống nhận diện giọng nói nỗi bật ¿55552552 10

1.2.2 Ly thuyết về mẫu đối kháng 2-2 SE+x+EEEeEEEEeEerkrrerxrkeree 10

1.2.3 Tối ưu cách tạo mẫu đối kháng sử dung các hàm mat mát khác nhau

mH TT 10

1.2.4 Các phương pháp tạo mẫu ¿ 2 55252 +x+E+xeEeEzxzxererersreea 10

1.2.5 Triển khai thực nghiệm tấn công và đánh giá, bàn luận, so sánh 10

Chương 2 Tống quan 2-2 2S SE9SE2E£EEEEE2EEEEEEEEEE2312121211217111211 11212 12

2.1 Tổng quan về các nghiên cứu di trước - + + s+xezetzxzxexerecee 12

2.2 Những vấn đề còn tồn tại 2-52 2S St E23 2121211212111 1e xe 14

Chương 3 Tan công các mô hình học sâu trong hệ thống ASR sử dung mẫu đối

Trang 7

3.1.1 Tiền xử lý dữ liệu 52 St 2E 2E 1212212111111 11t errke 17

3.1.2 Chuyến đối -5- + 2222 2E 212212121 221211212121121 1e ctee 21

3.2 Các mô hình nhận diện giọng nói tự động nỗi bật - 25

3.2.1 DeepSpeech LH HH TH TH HH HH 25 3.2.2 Kaldi LH TH HH HH TH TH TH HT HH ng HH 25 3.2.3 ' am 26

3.3 Khái niệm về mẫu đối kháng và tan công sử dụng mẫu đối kháng 26

“n4 ha 26

3.3.2 Mục tiêu của mẫu đối kháng - + 2+ 2+s+E£+E+Eczxrrerxrrerxes 27

3.3.3 Ngữ cảnh cuộc tấn công sử dụng mẫu đối kháng -. 27

3.4 Các loại hàm mat mat ¿+ 52 S9SE+E#EE£E#EEEEEEEEEEEEEEEEEEEEEEErkrrrrkes 29

3.4.1 Tống quan về hàm mat mát 2-2 2+ E£EE2E+EE+E+EE+E+EErErEerxrrerxes 29

3.4.2 Hàm mat mát €r0SS-eIfFODV - + 2 SE+E+E2E£EEEEEE+EeEeEeEErkrkrrereree 30

3.4.3 Ham mat mát Connectionist Temporal Classification (CTC) 31

3.5 Các cách tạo mẫu đối kháng tấn công hệ thống nhận giọng nói tự động 37

3.5.1 Phuong pháp Fast Gradient Sign Method . 5+ 37 3.5.2 Phương pháp Projected Gradient Descen( -++2<<c+++ 38 3.5.3 Phương pháp Carlini & Wagner sư 39 3.5.4 Phương pháp sử dung psychoacoustic model ‹ «<5 41

3.6 Chỉ số đánh giá mô hình nhận diện giọng noi 0 0 c.ccccecceceeseeeseeseeees 46

Chương 4 Thực nghiệm tấn công mô hình học sâu trong các hệ thống nhận diện

40153001080) 0:0) 1 000010587 49

Trang 8

4.1 Tấn công mô hình hoc sâu trong DeepSpeech - 2 +2 49

“5n ae ä5Ã43Ả 49

4.1.2 Kịch bản tấn công - + Sss E2 2121112111211111 111111 crx 50

4.1.3 Kết quả thực nghiệm - 52 S212 EE2EEEE2EEE12E E21 EErrrreeo 54

4.1.4 Binh luận và đánh giá - - - - 2n LH ng kg Hy 56

4.2 Tấn công mô hình hoc sâu trong Lingvo 2-5 2 +cz+s+zezxzxecxez 57

4.2.1 Kịch bản 1: Tan công mô hình học sâu trong Lingvo sử dung phương

4.2.2 Kịch bản 2: Tan công mô hình học sâu trong với sự hỗ trợ của

psychoacoustic modeÌ - - - 33 211113211 1115511 1111501111 11 1k TH vn key 62

Chương 5 So sánh kết quả thực nghiệm 2+ 2S ££SE££E+E££EzE££zEe£zzxczez 65

5.1 So sánh, đánh giá phương pháp tan công: 2- - 2 s+scs+x+cx+: 67

5.2 Đánh giá các hệ thống ASR mục tiêu eseseseeseeeeeseeeeseees 67

Chương 6 Kết luận và hướng nghiên cứu tiếp theo - 2 ¿5+ s+cs25z+: 69

6.1 Kết luận 2: 52t 2222 122121121212112121 11.1211 errre 69

6.2 Các điểm chưa hoàn chỉnh của nghiên cứu - 2-2-2 ss+cs+szzzzxece+ 69

6.3 Hướng nghiên cứu tiếp theo — bảo vệ các mô hình hoc sâu của hệ thống

Trang 9

DANH MỤC HÌNH

Hình 1 1: Kiến trúc tổng quát của một hệ thống nhận diện giọng nói tự động (Nguồn:

Under the Hood: Automatic Speech ReCOgTIfIOT), 55 5 1n key 3

Hình 1 2: Mô hình kèm các mối đe doa (threat model) đến các giai đoạn khác nhau

trong một trợ lý ảo nhận diện giọng nói ứng dung mô hình deep learning 7Hình 1 3: Minh họa ngữ cảnh targeted attack nhắm vào mô hình học sâu của hệ thống

nhận diện giọng nói tự động (Nguồn: https://adversarial-attacks.net/) -.- ‹- 9

Hình 3 1: Kiến trúc truyền thống của một hệ thống nhận diện giọng nói tự động 16

Hình 3 2: Các bước tiến hành trong giải thuật MFCC dé trích xuất đặc trưng của một

tín hiệu âm thanh đầu vào(nguôn: Speech Recognition — Feature Extraction MECC &

PLP) 6 .e « Ả ẤGQ.QQQ.QQQ.H.HHHY ng neo 18

Hình 3 3: Bước xử lý chuyền analog signal thành digital (A/D conversion) (nguồn:

Speech Recognition — Feature Extraction MECC & PLP) s5 555 £++secs+ 19

Hình 3 4: Bước cắt audio thành các frames sử dung window function(nguén: Speech

Recognition — Feature Extraction MFCC & PLP) 25 51 + VE+seeEsseeeesseee 19

Hình 3 5: Chuyên đổi tín hiệu âm thanh (biên độ theo thời gian) về miền âm

phé(nguén: Speech Recognition — Feature Extraction MECC & PLP) 20Hình 3 6 Sử dung mô hình DNN dé cải tiến các ASR trong DeepSpeech 24

Hình 3 7: Mô tả các bước hoạt động của CTC (ref: https://distilI.pub/2017/ctc/) 32

Hình 3 §: Ma trận Alignments đầu ra của mạng CTC (ref:

https://medium.com/corti-ai/ctc-networks-and-language-models-prefix-beam-search-explained-c1 1d1ee23306) 34 Hình 3 9: Mô ta thuật toán Best Path Decoding (ref:

https://towardsdatascience.com/intuitively-understanding-connectionist-temporal-Classification-3797C43a86C) cccccccescesseeseeeeeeeeeeeeeeeeeeeeeeeeseeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeees 36

Hình 3 10: 7 hàm mục tiêu được Carlini đề xuất (nguồn: [4l) -. <5 40

Trang 10

Hình 3 11: Một sơ khái niệm trong âm học, miên nghe được, miên tân sơ giao tiêp

(nguồn 4I

Hình 3 12: Một ví dụ masking threshold, masker và maskee (nguồn: [19 ]) 43

Hình 3 13: Input và output của mơ hình tâm lý học âm thanh (psychoacoustic model)

TT aAä¬ăă -aaặ na 43

Hình 3 14: Thuật tốn tính WER ST HH TH TH HH HH ng như 48

Hình 4 1: Ngữ cảnh tấn cơng các mơ hình học sâu trong hệ thống DeepSpeech và

0a ẢỶÝ 49Hình 4 2 Kiến trúc DeepSpeech ASR với mơ hình học sâu sử dụng Bidirectional

Recurrent Neural Network và CTC ÏOSs - - - c1 2 HH 50Hình 4 3 Kiến trúc Lingvo ASR với mơ hình học sâu sử dụng kết hợp các layers của

Encoder 88v 0 ae a 58

Trang 11

DANH MỤC BANG

Bảng 5 1: Bang so sánh 2 kịch ban tan công ¿+ 2 +s+ESE+E£E£EeEzEeErrxrrerees 67

Trang 12

DANH MỤC TU VIET TAT

A/D: analogue to digital

API: Application Programming Interface

ASR: Automated System Recognition

BFGS: Broyden—Fletcher—Goldfarb—Shanno

BIM: Based Iterative method

C&W: Carlini and Wagner

CER: character error rate

CSR: command success rate

CTC: Connectionist Temporal Classification

DFT: Discrete Fourier Transform

DNN: Deep neural network

FFT: fast Fourier transform

FGSM: Fast gradient sign method

GMM: Gaussian Mixed Model

HMM: Hidden Markov Model

L-BFGS: Limited-memory BFGS

LK-SD: Limited-Knowledge - Surrogate Data

LK-SL: Limited-Knowledge - Limited-Knowledge

Trang 13

LK: Limited-Knowledge

LPC: Linear Predictive Coefficient

LVCSR: Large Vocabulary Continuous Speech Recognition MAE: Mean Absolute Error

MFCC: Mel-Frequency Cepstral Coefficients

MMT: minimum masking threshold

MSE: Mean Square Error

PGD: Projected gradient descent

PK: Perfect-Knowledge

PLP: Perceptual Linear Predictive

PSD: power spectral density

RNN: Recurrent neural network

RNNTs: Recurrent neural network — Transducers

SGD: Stochastic gradient descent

SWER: single word error rate

WER: word error rate

WEST: Weighted Finite-state transducer

ZK: Zero-Knowledge

ad-ex: adversarial examples

Trang 14

TÓM TAT KHÓA LUẬN

Hệ thống nhận diện giọng nói tự động (ASR system) là một xu hướng quan trọng ởhiện tại và cả trong tương lai, sử dụng các mô hình học sâu dé xử lý các giao tiếp của nóvới môi trường xung quanh, nơi diễn ra quá trình chuyên đổi ngôn ngữ tự nhiên thànhcác dit liệu số đáp ứng các nhu cầu như nhận diện hiệu lệnh và thực thi, chuyên đổi thànhcác bản dịch, hay xác nhận chủ thê giọng nói Tuy nhiên, các nghiên cứu gần đây [33],[3] chứng minh rang các mô hình học máy, học sâu nói chung dễ bị tổn thương trước cáccuộc tan công sử dụng mẫu đối kháng (adversarial example attacks) Loại tan công này

có tác động nghiêm trọng lên các hệ thống nhận diện giọng nói tự động trong ngữ cảnhngày càng có nhiều hệ thống này sử dụng mô hình học sâu như thành phần cốt lõi để cảithiện hiệu năng và độ chính xác trong cơ chế hoạt động của chúng

Chính vì vai trò quan trọng của các hệ thông ASR trong xu hướng phát triển của cuộc

sống hiện dai ma chúng ta cần phải nghiêm túc nghiên cứu, xem xét cơ chế hoạt động

của các thành phần trong hệ thống ASR và đánh giá bảo mật, cũng như độ tin cậy của hệthống này Cụ thé nhóm sẽ thực hiện tìm hiểu, nghiên cứu về kiến trúc tổng quát của một

hệ thống nhận diện giọng nói tự động, tham khảo các công trình đi trước về các cáchsinh ra các mẫu đối kháng âm thanh sử dụng cho cuộc tân công, phương pháp tối ưu các

mẫu đối kháng tạo ra dé sự thay đôi của nó khó nhận ra bởi tai người so với âm thanh

gốc ban đầu, tiễn hành thực nghiệm va so sánh các phương pháp sinh ra mẫu âm thanhđối kháng (phương pháp Carlini& Wagner [4], phương pháp PGD [21]) trên các hệ thốngnhận diện giọng nói tự động (ASR) nổi tiếng hiện tại bao gồm: DeepSpeech [13] vàLingo [32] Cuối cùng, nhóm sẽ đề xuất các hướng nghiên cứu phòng thủ phát hiện, loại

bỏ hay ngăn chặn các mẫu đối kháng dé tăng cường tính bảo mật và an toàn cho các hệthống nhận diện giọng nói tự động hiện nay

Trang 15

Chương 1 Mé đầu

1.1 Ngữ cảnh

Ngày càng có nhiều công trình chứng minh răng các mô hình học sâu (deep learningmodels) dé bị khai thác bởi các kẻ tan công bang cách sử dụng mẫu đối kháng dé đánhlừa mô hình thông qua việc thêm các nhiễu loạn nhỏ vào đầu vào ban đầu (input có thé

là ảnh, file âm thanh, các gói tin mạng v.v) Vấn đề này càng trở nên nghiêm trọng khi

chúng đang là xu hướng và đóng một vai trò cốt lõi trong các ứng dụng phố biến khácnhau hiện nay, có thé kê đến như phân loại hình ảnh, phát hiện đối tượng trong anh, phát

hiện các cuộc tấn công mạng, biến thể của mã độc và đặc biệt là các hệ thống nhận diện

giọng nói tự động — sử dụng các mô hình học sâu dé xử lý các giao tiếp của nó với môitrường xung quanh, nơi diễn ra quá trình chuyên đổi ngôn ngữ tự nhiên thành các dữ liệu

sé dap ứng các nhu cầu như nhận diện hiệu lệnh và thực thi, chuyên đổi thành các bảndịch, hay xác nhận chủ thé giọng nói

Khai thác và tắn công đề kiêm nghiệm tính chất bảo mật các mô hình học sâu của các

hệ thong nhận diện giọng nói cũng chính là chủ đề tập trung nghiên cứu trong đồ án lầnnày Làm rõ tính khả thi của cuộc tấn công thông qua thực nghiệm, đồng thời từ cácnghiên cứu về kiến trúc của các hệ thống nhận diện giọng nói, phương pháp của các cuộctan công đề đưa ra các hướng nghiên cứu giải pháp phòng thủ, phát hiện hoặc loại bỏ các

mẫu đối kháng để đảm bảo tính an toàn cho các hệ thống nhận diện giọng nói tự động

hiện nay.

Trang 16

1.1.1 Tổng quan về hệ thống nhận diện giọng nói tự động

LEXI ACOUSTIC LANGUAGE

\ WA MODEL

— s nt => “most likely words spoken”

Hình I 1: Kiến trúc tổng quát của một hệ thống nhận diện giọng nói tự động (Nguon: Under the Hood: Automatic Speech

Recognition)

Cac hé thống nhận diện giọng nói truyền thống hoạt động dựa trên mô hình markov

an (Hidden Markov Model - HMM) — một mô hình thống kê cổ điển giúp chúng ta cóthé xác định được các tham số ân từ các tham số quan sát được, dựa trên đó mà thực hiện

phân tích dự đoán trạng thái kế tiếp, áp dụng trong nhận diện giọng nói.

Năm 2014, Baidu Lab đã công bố công trình nghiên cứu nỗi tiếng Deep Speech:Scaling up end-to-end speech recognition [13], dé minh họa việc áp dụng deep learningnhằm gia tăng sức mạnh tính toán, độ chính xác của một trong các hệ thống ASR nổi bật

hiện tại đó chính là DeepSpeech Công trình này cũng chính là phát súng đầu tiên cho

cuộc cách mạng trong thay đôi kiến trúc của hệ thống ASR, tiếp cập, áp dụng học sâu đểtăng độ chính xác của các mô hình hiện tại và gần hơn với cấp độ nhận thức của connBưỜi.

Chính từ đây, các model sử dung deep learning như Connectionist Temporal Classification (CTC), Listen, Attend and Spell (LAS) hay Recurrent neural network —

Transducers (RNNTs) được ra đời Các hệ thống nhận diện giọng nói tự động như

DeepSpeech, Kaldi, Lingvo, Wav2letter++ hay CMUSphinx cũng bắt đầu áp dụng các

mô hình hoc sâu trên dé hỗ trợ việc tính toán các ma trận xác suất của âm tiết, dự đoán

các ký tự của bản dịch hoặc áp dụng cho cả 2 quá trình trên v.v

Trang 17

Các trợ lý ảo trên các thiết bị thông minh như Apple Siri, Google Assistant hayAmazon Alexa và nhiều trợ lý ảo khác — chúng là một trong những ứng dụng quan trọngnhất của hệ thống nhận diện giọng nói tự động Ngoài ra các ASR còn được ứng dụngtrong smarthome [6], điều khiển xe tự hành [20] và phiên dịch trực tiếp các ngôn ngữ[34] v.v Chính vì đóng một vai trò quan trọng trong các hệ thống nhận diện giọng nóinhư vậy nên bat kỳ lỗ hồng nào trong các mô hình deep learning đều gây ra các ảnh

hưởng lớn, gan như làm tê liệt toàn bộ hệ thống nhận diện giọng nói cũng như các ứng

dụng của chúng Đó là lý do chúng ta cần nhận thức được lỗ hồng, khả năng bị tan công

và các phương pháp phòng thủ dé bảo vệ cho các hệ thống ASR và cho chính chúng ta

1.1.2 Các mô hình học sâu dễ bị khai thác bởi cuộc tắn công sử dụng mẫu

đối kháng1.1.2.1 Giới thiệu kiểu tấn công các mô hình học sâu sử dụng mẫu đối

kháng

Mẫu đối kháng (adversarial samples) là sự xáo trộn dữ liệu đầu vào đượcattacker xây dựng cách cân thận đề khiến mô hình học sâu bị đánh lừa Thuật ngữ

"adversarial example" được giới thiệu bởi Szegedy và cộng sự [33] vào năm 2014

nhằm vào các thuật toán học sâu Tuy nhiên, trước đó, loại tấn công này đã được

áp dung cho các hệ thống học máy truyền thống (non-neural network)

Cu thé, trong các công trình trước đó, các cuộc tấn công này được gọi là cáccuộc tấn công đánh lừa/qua mặt (evading attack) chủ yếu nhằm vào lọc thư rác,

phát hiện phần mềm độc hại, phát hiện xâm nhập

1.1.2.2 Nguyên nhân các mô hình học sâu dễ bị tổn thương trước

adversarial example attacks

Trang 18

Do tính nội tại của các mô hình

Cơ chế hoạt động của các mô hình học sâu khiến nó dễ bị khai thác bởi kẻ tắncông sử dụng mẫu đối kháng:

bên thứ ba mà không trải qua quá trình xác thực dữ liệu hiệu quả.

e_ Quy trình huấn luyện mô hình (training phase) có thé tham khảo từ các

outsourced

e Cac mô hình được đảo tạo trước từ các bên thir ba được tích hợp vào mang

Trong giai đoạn training, vì kích cỡ training dataset không lồ, các mô hình học

sâu lại không tốt trong việc hiểu ngữ cảnh của đữ liệu, thêm vào đó việc tính toán

của các giải thuật (đặc biệt là các neural network) là cực kỳ phức tạp khiến môhình thiếu đi tinh tong quát và có thé sai lệch khi đối diện với đữ liệu nằm ở vùng

ranh giới giữa các miên dự đoán.

Goodfellow và cộng sự [9] chỉ ra rằng tính tuyên tính của mô hình DNN trongkhông gian đa chiều là một lý do có thé dễ bị tan công bởi các cuộc tan công sửdụng mẫu đối kháng Các nghiên cứu [33], [38] cũng cho rằng dit liệu đào tạo

không đầy đủ là một trong những lý do cho sự tồn tại của loại tắn công này.

Do ngữ cảnh thực tế

Machine-learning-as-a-service cũng ngày càng được sử dụng nhiều hon, ở đó

mô hình học máy/học sâu hoạt động trên server hoặc trên cloud, trong khi khách

hàng cũng như attacker có thé truy van mô hình thông qua các API dự đoán Một

lượng lớn dữ liệu được sử dụng dé đào tạo mô hình này thường mang tính chất

rât nhạy cảm, riêng tư và các tham sô của mô hình có giá trị thương mại lớn.

Trang 19

Chính vì vậy chúng trở thành những mục tiêu kiểm nghiệm các mẫu đối kháng

do các kẻ tân công sinh ra.

1.1.3 Tan công sử dụng mẫu đối kháng đánh lừa các mô hình học sâu

trong ASR

Một mô hình hoc sâu ứng dụng vào trong sản phẩm đời sống thường được thé

hiện qua 3 giai đoạn chính: giai đoạn huấn luyện mô hình (giai đoạn này sẽ bao gồm

cả quá trình xử lý, kiểm tra tính hiệu dụng của dữ liệu và trích xuất đặc trưng, trướckhi đưa vào như là input để huấn luyện model học sâu), giai đoạn kiểm tra, kiểmnghiệm mô hình (quá trình này thường diễn ra trong internal, bao gồm việc tiến hànhkiểm tra tính đúng đắn của mô hình với các dữ liệu chưa xuất hiện trong quá trình

training trước khi trién khai, tích hợp vào sản pham) và cuối cùng là triển khai ứng

dụng trong các sản phẩm, hệ thống thực tế (mang tính thương mại hoặc phục vụ một

tác vụ nào đó trong đời sông).

Bám sát theo vòng đời lặp đi lặp lại của một mô hình học sâu căn bản này, các

công trình nghiên cứu cho đến nay đã chỉ ra các mối đe dọa bảo mật có thé được chiathành 5 loại: (1) xây dựng tập dữ liệu huấn luyện độc hai (poisoning training dataset),(2) An giấu các backdoor trong tập dữ liệu huấn luyện, (3) tấn công sử dụng mẫu đối

kháng, (4) Đánh cắp model hoặc các tham số, siêu tham số của model và cuối cùng

(5) khôi phục lại các dữ liệu huấn luyện nhạy cảm Hai cuộc tấn công đầu tiên xảy ratrong giai đoạn huấn luyện, trong khi đó 3 cuộc tấn công còn lại là mối đe dọa bảo

mật trong quá trình kiêm nghiệm model hay khi tích hợp vào sản phẩm trong thực tế

hoặc cả hai.

Trang 20

(Atgortnm) —>(Tranes) Input——> JLERIREU x3 label '

a ky model '

\ 6Ý 'raining data xi © Targeted attack Ì !

SU ì Adversary - © Untargeted attack/ +

input \ '

h Adversary H

Hình I 2: Mô hình kèm các mối de dọa (threat model) đến các giai đoạn khác nhau trong một trợ lý ảo nhận điện giọng nói

ứng dụng mô hình deep learning

Chúng ta sẽ đặt trọng tâm vào van dé sử dụng mẫu đối kháng dé tan công nhằmvào mô hình học sâu trong hệ thống nhận diện giọng nói tự động Tùy thuộc vào nêntảng kiến thức, và các hiéu biết của kẻ tan công (attacker)/đối thủ (adversary) về môhình hoc sâu mục tiêu nhắm đến, mà có thé phân chia ngữ cảnh các mối đe dọa thành

2 loại: white-box attack va black-box attack (một số công trình nghiên cứu cũng đềcập đến gray-box attack, chỉ tiết về lý thuyết của các ngữ cảnh này sẽ được trình bàytrong phần C)

e White-box attack: trong ngữ cảnh tan công này attacker sẽ biết gần như toàn

bộ về các giải thuật học sâu được sử dụng huấn luyện, các thông số của mô

hình học sâu (các tham sé, siêu tham số), kiến trúc, tập dữ liệu Một thí dụđiển hình cho ngữ cảnh tấn công này là thực hiện trong giai đoạn internal

Trang 21

testing, các threat (insider/collaborator) có thé tan dung cac hiểu biết về môhình học sâu dé tiến hành tan công.

e Black-box attack: Ngược lại với white-box attack, kẻ tan công hay đối thủ

hầu như sẽ không biết gì về mô hình học sâu (không biết mô hình được huấn

luyện với tập dataset nào, các tham số, siêu tham số hay các giải thuật dùng

dé huấn luyện nên mô hình) Do đó việc tan công sẽ trở nên phức tạp hon sovới ngữ cảnh white-box Đây là ngữ cảnh gần gũi với thực tế, khi mà attacker

sẽ chỉ tiến hành tan công sử dụng mẫu đối kháng với một sản phâm/ứng dụng

hoàn chỉnh mà không có bắt kỳ thông tin nào về mô hình học sâu trong các hệ

thong nhận diện hay tập dữ liệu huấn luyện của chúng (real-time phase — hình

1.2)

Ngoài ra dựa vào mục tiêu mong muốn của các kẻ tan công mà đặc tính hay khảnăng của mẫu đối kháng là khác nhau Dựa vào đó cũng có thể chia ngữ cảnh tấncông loại thành 2 kiểu khác nhau, gồm targeted attack và untargeted attack Với

untarget attack, mẫu đối kháng sinh ra chỉ cần khiến cho mô hình nhận diện sai so

với mẫu ban đầu, đó có thể là sinh ra một bản dịch vô nghĩa, hay một hiệu lệnh không

có trong database v.v Tuy nhiên tan công theo hướng này là dé hơn khá nhiều so với

targeted attack và không thu hướng được nhiều sự quan tâm của các nhà nghiên cứu

Trong ngữ cảnh targeted attack, kẻ tan công sẽ dự định sẵn ban dịch, hay một lệnh

điều khiển mục tiêu mà chúng mong muốn, và cố gắng tạo ra mẫu đối kháng có thé

vừa đánh lừa các mô hình học máy, vừa tạo ra dự đoán đã chuẩn bị từ trước Dướiđây là hình minh họa cho ngữ cảnh targeted attack nhắm vào mô hình học sâu của hệ

thống nhận diện giọng nói trong một trợ lý ảo:

Trang 22

Never gonna give you up

Hình 1 3: Minh họa ngữ cảnh targeted attack nhắm vào mô hình học sâu của hệ thống nhận diện giọng nói tự động (, Nguôn:

https://adversarial-attacks.net/)

1.2 Dong góp của đồ án

Nhóm tiến hành tìm hiéu, tập trung nghiên cứu về cuộc tan công sử dụng mẫu đốikháng tiễn hành trên các mô hình học sâu của hệ thống nhận diện giọng nói tự động trongngữ cảnh white-box, giai đoạn tấn công ở đây là bước kiêm nghiệm mô hình (internal

testing phase) Mẫu được sinh ra thuộc loại targeted attack, nghĩa là nó có khả năng đánh

lừa mô hình sinh ra một bản dich (transcript) đã được dự định từ trước đó Thực nghiệm

tan công sẽ được tiến hành trên cả hai hệ thống nhận diện giọng nói tự động nổi bật hiệntại là DeepSpeech và Lingvo Mẫu đối kháng được sinh ra sẽ dùng làm input đầu vào

cho mô hình học sâu đê kiêm nghiệm tỉ lệ thành công của kiêu tân công này.

Bên cạnh đó, cũng trình bày các phan lý thuyết liên quan trực tiếp đến đồ án này, cụthể như sau:

Trang 23

1.2.1 Các hệ thống nhận diện giọng nói nỗi bật

- Trinh bày kiến trúc tổng quát của một hệ thống nhận diện giọng nói tự động

- Trình bày kiến thức cơ bản các hệ thống Kaldi [25], Lingvo [32], DeepSpeech

[13].

1.2.2 Lý thuyết về mẫu đối kháng

- _ Trình bày khái niệm, khả năng mẫu đối kháng, ngữ cảnh áp dụng

- Trình bày ngữ cảnh tan công sử dung mẫu đối kháng (white-box attack,

gray-box attack va black-gray-box attack)

1.2.3 Tối ưu cách tạo mẫu đối kháng sử dung các ham mat mát khác nhau

- Cross-entropy loss function!

- Connectionist Temporal Classification Loss (CTC loss) [11]

1.2.4 Các phương pháp tao mẫu

- Phuong pháp Fast Gradient Sign Method (FGSM) [9]

- Phuong phap Projected Gradient Descent (PGD) [21]

- Phuong pháp cua Carlini & Wagner (C&W) [4]

- Phương pháp mo rộng sử dung psychoacoustic model cua Qin và các cộng

sự.[26]

1.2.5 Triển khai thực nghiệm tấn công và đánh giá, bàn luận, so sánh

- _ Tấn công (targeted attack) sử dụng mẫu đối kháng trên DeepSpeech trong giai

đoạn testing (phương pháp C&W va CTC loss)

- _ Tấn công (targeted attack) sử dụng mẫu đối khang trên Lingvo trong giai đoạn

testing (phương pháp PGD và cross-entropy loss)

' https://en.wikipedia.org/wiki/Cross_entropy

10

Trang 24

Các chương tiếp theo trong báo cáo này cũng sẽ bám sát các đóng góp và phạm

vi nghiên cứu trên dé trình bay rõ, cô đọng nhất về đồ án Nội dung từng chương sẽnhư sau: chương 2 sẽ trình bày tổng quan xu hướng nghiên cứu trong cùng lĩnh vựccủa các công trình đi trước và các van đề mở được đặt ra, chương 3 là các kiến thức

nền tang được sử dụng trong nghiên cứu và triển khai thực nghiệm của đồ án, chương

4 là các giả thuyết khoa học, kịch bản cuộc tấn công, môi trường thực nghiệm ; từ

kết quả thực nghiệm trong chương 4, chương 5 sẽ là các so sánh đánh về các phươngpháp tan công khác nhau (Carlini & Wagner với PGD), tỉ lệ thành công và các thông

số như tỉ lệ lỗi từ khi thực hiện tấn công sử dụng mẫu đối kháng trên hai hệ thống

ASR là Lingvo và DeepSpeech; chương 6 sẽ là phần kết luận lại những kết quả đạt

được, cũng như các hạn chế, thiếu sót đồ án còn mắc phải và cuối cùng, dé ra hướngphát triển các phương pháp phòng thủ, bảo vệ mô hình học sâu của các hệ thống ASRnhư là hướng nghiên cứu tiếp theo trong tương lai gần

lãi

Trang 25

Chương 2 Tổng quan

2.1 Tổng quan về các nghiên cứu đi trước

Theo như mô hình các mối đe dọa (threat model) mà các nghiên cứu đề xuất, người

ta có thé phân loại dựa trên kiến thức, hiểu biết của attacker về hệ thống nhận diện giọngnói tự động (black-box, white-box hay gray-box) hoặc dựa trên dự định của attacker về

khả năng của mẫu đối kháng (targeted attack hay untargeted attack).

Các nghiên cứu [8], [18] thực hiện nghiên cứu về untargeted adversarial exampleattack và đã thành công trong việc sinh ra các mẫu đối kháng (các mẫu âm thanh đốikháng sinh ra có thé khiến cho hệ thống ASR chuyên đổi thành những đoạn văn khôngchính xác như dữ liệu gốc, hoặc đa số là những đoạn vô nghĩa )

Bên cạnh đó, cũng có các công trình nghiên cứu theo đuôi hướng sinh ra các targetedadversarial example, mang tính thử thách hơn Việc xây dựng các mẫu đối kháng déđánh lừa các hệ thống ASR, khiến cho các hệ thống này từ mẫu âm thanh đối khángthành những đoạn văn( text, transcript) đã được kẻ tan công dự tính từ trước, người ta

gọi đây là các targeted adversarial example attack

Carlini và cộng sự [5] đề xuất Hidden voice command bang cach tăng tính hiệu quathuật toán tối ưu, cũng như thêm vào tính thực té thông qua việc thêm vào các độ nhiễu

của môi trường xung quanh trong tấn công, nhưng mẫu đối kháng lại dễ dàng bị nhận ra

bởi tai người.

Zhang và cộng sự [39 ] đề xuất DolphinAttack tuy thành công trong việc sinh ra mẫuđối kháng tấn công thành công một vài hệ thống ASR và sự thay đổi của âm thanh khó

nhận ra bởi con người Tuy nhiên, cuộc tấn công lại tập trung vào khai thác đặc tính hay

can thiệp vào các phần cứng thay vì là chỉ trực tiếp sửa trên file audio ban đầu.

Carlini & Wagner [4] có targeted ad-ex attack, nhưng lại sinh ra việc không giải quyết

van dé các đoạn âm thanh nhiễu thêm vào có thé nghe được bởi con người hoặc

over-12

Trang 26

the-air attack (việc chúng ta có thể đây mẫu đối kháng vào trực tiếp trong các model họcsâu khá hiếm khi xảy ra trong ngữ cảnh thực tế, vì vậy mẫu đối kháng trong over-the-airattack phải mô phỏng được âm thanh khi được chơi các căn phòng có bố trí khác nhau

(tính thực tế), thì mới khả thi đánh lừa được mô hình học sâu)

Yuan và cộng sự [37] trình bày nghiên cứu CommanderSong với target attack giải

quyết được van dé over-the-air attack, nhưng lại gặp van đề về độ phức tap tính toán chomột độ nhiễu đáng kê khi thêm vào mẫu âm thanh gốc

Yakura & Sakuma [35] đi theo hướng nghiên cứu targeted ad-ex attack và đã tạo

được các adversarial example có thê sử dụng trong các cuộc tân công over-the-air attack,

nhưng nghiên cứu vẫn còn giới hạn ở một vài điểm như targeted transcript chỉ có thé trên

một cụm 2-3 từ chứ không phải toàn bộ cả câu, ngoài ra các ad-ex cũng có một độ nhiễu

lớn hơn đáng kể, nên dẫn đến mẫu âm thanh đối kháng lúc sinh ra sẽ có kích thước lớn

hơn so với mau dữ liệu gôc ban dau.

Công trình của Schonherr và các cộng sự [31] cố gắng nghiên cứu dé phát triển cuộctan công mà các mẫu đói kháng sinh ra sẽ giảm thiểu khả năng nhận thức của con người

về sự thay đôi, thông qua việc sử dụng Psychoacoustic Hiding dé tấn công một trong các

ASR nổi bật đó chính là Kaldi, với mô hình học sâu sử dụng recurrent neural network(RNN).

Công trình của Y.Qin và các cộng sự [26] thực hiện tối ưu sức mạnh của các mẫu đốikháng dé chống lại kha năng nhận biết sự thay đổi mẫu gốc của con người, và thựcnghiệm tân công trên Lingvo ASR system Ngoài ra còn đề xuất phương pháp mô phỏnglại các bố trí không gian phòng thu khác nhau dé áp dụng các mẫu này vào trong các ngữcảnh thực tế như over-the-air attack để vẫn giữ được tính hiệu quả của cuộc tấn côngtrong ngữ cảnh nâng cao này.

13

Trang 27

Ngoài ra, các nghiên cứu về tan công sử dụng mẫu đối kháng nhắm vào các hệ thống

nhận diện giọng nói sẽ còn dựa trên quá trình làm nhiễu, trên các khía cạnh như: phương pháp tạo nhiễu, tác động của nhiễu trên tập input (áp dụng nhiễu riêng lẻ hay trên cả một

tập các input âm thanh đầu vào), đối tượng áp dụng nhiễu (trên tập thuộc tính đặc trưng,

hay ngay từ file raw input ban đầu) và còn dựa trên cả các số liệu đo lường tính hiệu quả

(tỉ lệ thành công của tấn công, tỉ lệ từ lỗi (word error rate), khác biệt giữa nhiễu với mẫugốc ban đầu )

2.2 Những vấn đề còn tồn tại

Tuy vậy một vài các nghiên cứu đi trước vẫn chứa những hạn chế như chỉ thành côngtrong việc tổng hợp các audio mới thay vì việc chỉnh sửa các audio đang tồn tại hay chỉthành công trên các hệ thống ASR cũ, truyền thống

Ngoài ra, các công trình gân đây cũng thảo luận và đưa ra các vân đê mở, nêu bật lên các giới hạn còn tôn đọng trong các nghiên cứu hiện tại, chính là:

e Các mẫu đối kháng tao ra không hiệu quả (nguyên nhân là do có thé dé dang

nhận ra thay đôi so với ban âm thanh gốc bởi con người)

e Không linh hoạt, hay không thực tế khi áp dụng vào các tình huống thực tiễn

như thực nghiệm thiếu đi việc thiết lập độ nhiễu của môi trường, độ vang của

một số kiến trúc phòng thu Hay ngữ cảnh tấn công over-the-air attack, cácmẫu sinh ra không thé áp dụng linh hoạt hay tấn công thành công trong cácloại bố trí phòng thu khác nhau

Đồ án này sẽ sử dung hai công trình nghiên cứu nổi bật trước đó của Carlini &

Wagner [4] và công trình của Qin cùng cộng sự [26] như là tài liệu tham khảo chính cho

phần thực nghiệm tân công sử dụng mẫu đối kháng Quá trình thực nghiệm sẽ chia làm

2 phần tương ứng với việc tấn công hai hệ thống nhận diện giọng nói khác nhau:

DeepSpeech và Lingvo Trên DeepSpeech, cuộc tấn công sẽ sử dung Carlini & Wagner

14

Trang 28

(C&W) và hàm mat mát Connectionist Temporal Classification (CTC loss) Tan côngtrên hệ thống nhận diện giọng nói Lingvo, tấn công sử dụng phương pháp PGD cùng vớicross-entropy loss dé tối thiểu độ nhiễu thêm vào mẫu gốc ban dau và sử dụng phươngpháp mở rộng psychoacoustic model trong tạo mẫu dé tăng sức mạnh cho mẫu đối kháng

khó có thé bị nhận ra hay phát hiện bởi con người.

15

Trang 29

Chương 3 Tan công các mô hình học sâu trong hệ thống ASR sử dung mẫu đối kháng

3.1 _ Kiến thức căn bản về hệ thống nhận diện giọng nói tự động

Hình 3 1: Kiến trúc truyén thong của một hệ thống nhận diện giọng nói tự động

Hình 3.1 cho chúng ta cái nhìn tổng quan về 2 quá trình chính sẽ diễn ra trong một

hệ thong nhận diện giọng nói tự động, gồm:

- _ Tiền xử lý: xử lý tín hiệu âm thanh đầu vào và trích xuất tập thuộc tinh đặc trưng

của nó.

- Chuyén đối (decoding) dữ liệu âm thanh đầu vào thành các bản dịch (transcrIpt)

dựa trên tập thuộc tính đặc trưng được trích xuất với sự hỗ trợ của các model như:Acoustic model, Lexicon model, Language model và thuật toán tim kiém hiéuqua dé tìm thấy bản dich phù hop nhất

Trong một vài các hệ thống nhận diện giọng nói tự động truyền thống, người ta tách

acoustic model thành một quá trình riêng lẻ dé sinh ra ma trận xác suất, kết hợp với

language model tạo thành input cho quá trình Search.

16

Trang 30

Tuy nhiên, sự phát triển mạnh mẽ của các mô hình học sâu như đã trình bày ở trên

đã tạo ra động lực giúp các nhà phát triển áp dụng các mô hình này dé chịu trách nhiệmcho gần như toàn bộ quá trình chuyền đổi (decoding) các đặc trưng thành một bản dịch

hoàn chỉnh (một số mô hình học sâu sẽ tích hợp language model như là một layer vào

mạng neuron, một số khác thì sử dụng sự hỗ trợ của language model được huấn luyệnđộc lập có san dé giúp đánh giá và hỗ trợ cho quá trình chuyền đổi thành một bản dichtốt nhất)

3.1.1 Tiền xử lý dữ liệu

Gồm 2 quá trình con bên trong, lần lượt là xử lý tín hiệu và trích xuất đặc trưng

3.1.1.1 Xử lý tín hiệu (Signal Processing)

Chúng ta biết rằng các hệ thống nhận diện giọng nói sẽ làm việc hiệu quả vàđạt độ chính xác cao khi xử lý các tín hiệu âm thanh thu được trong điều kiện yêntĩnh (phòng kín), và không phải chịu bất kỳ ảnh hưởng của tiếng động nào từ môitrường xung quanh Tuy nhiên, ngữ cảnh này cực kỳ hiếm gặp trong thực tế, vàtrong các tình huống cần các hệ thống ASR (điều khiển xe tự hành, nhà thôngminh, các trợ lý ảo ).

Vì vậy, mà chúng ta cần một bước tiền xử lý các tín hiệu âm thanh nhận được

từ microphone của các thiết bị sẽ được loại bỏ (filter) đi các tần số năm ngoài

phạm vi nghe của con người, cũng như các phân đoạn âm thanh (voice segments)

tại mức năng lượng nhất định Sau khi xử lý ta sẽ thu được tín hiệu âm thanh đủ

tốt (clean audio signal) dé phục vụ cho các quá trình sau.

3.1.1.2 Trích xuất đặc trưng (Feature Extraction)

Các giải thuật phô biến dùng để trích xuất các đặc trưng của một tín hiệu âmthanh đầu vào thường dùng như Mel-Frequency Cepstral Coefficients (MFCC)

17

Trang 31

[22] Linear Predictive Coefficient (LPC) [16], Perceptual Linear Predictive

(PLP) [14] v.v Trong số đó, MFCC nổi lên như là một giải thuật phổ biến nhấtđược sử dụng trong hầu hết các hệ thống nhận diện giọng nói mã nguồn mở(DeepSpeech, Kaldi ) hay các sản phâm thương mại Thêm nữa, các giai đoạntrích xuất trong MECC và PLP gần như là tương tự nhau, chính vì vậy, đồ án báocáo này sẽ tập trung làm rõ giải thuật MFCC dé minh họa cho toàn bộ các bướctrích xuất đặc trưng trong các hệ thống nhận diện giọng nói tự động Sơ đồ của

A/D ” h

conversion [rcemnasis > &@ _ HPT

Mel filterbank giải thuật được minh hoạ trong hình 3.2:

energy

log( )

Feature Dynamic

Hình 3 2: Các bước tiễn hành trong giải thuật MFCC để trích xuất đặc trưng của một tín hiệu âm thanh đâu vào(nguồn:

Speech Recognition — Feature Extraction MFCC & PLP)

Các quá trình MFCC thực chat là sự kết hợp của 3 quá trình lớn, gồm:

(1) giai đoạn cải thiện chất lượng âm thanh và định dạng chúng trở thành

các input cho quá trình filtering tiếp sau đó (chứa các bước A/D conversion,

Pre-18

Trang 32

emphasis và windowing) Cụ thé, A/D conversion (analogue to digitalconversion) — qua trinh nay chuyén đổi tín hiệu âm thanh tuần tự (catalog signal)

thành cách không gian rời rạc.

Image from Bryan Pellom

Hình 3 4: Bước cắt audio thành các ‘frames sử dụng window function( nguồn: Speech Recognition — Feature Extraction

MECC & PLP)

19

Trang 33

Một window function (sliding window) sẽ chạy qua tín hiệu âm thanh và chia

nó thành các phân đoạn nhỏ, một phân đoạn này sẽ có độ dài trong khoảng 10 —

30 ms, và sẽ có một vùng hai phân đoạn liền kề chồng lên nhau (overlappingdomain) Da số nghiên cứu sẽ chọn độ dai cho sliding window là từ 10 — 30 ms

Vì xem xét rằng trong khoảng thời gian này, các đặc trưng là ồn định và gần như

không thay déi có thé dùng dé tính toán, ngoài ra overlapping domain giúp duy

trì môi liên hệ cũng như việc chuyên đôi trạng thái qua các frames.

(2) Filtering: Lúc này, tín hiệu âm thanh ban đầu đã được chuyên thành cácphân đoạn nhỏ Nhưng chúng ta không thê trích xuất đặc trưng khi tín hiệu chỉbiểu diễn trên miền thời gian, vì vậy, thuật toán Discrete Fourier Transform(DFT) được áp dụng dé chuyền tín hiệu này về miền âm phổ (spectrum) với việcbiểu diễn trục hoành như là miền tần số (Hz) và trục tung là mức cường độ âm

(dB).

Time domain signal spectrum

-jMtuÄk4EBET) alfa p 4 ¡mm reyyy VỊ “Vy VV

.

n=0,1, L-1 k=0,1, 9-1

Hinh 3 5: Chuyén đổi tin hiệu âm thanh (biên độ theo thời gian) về miễn âm pho(nguon: Speech Recognition — Feature

Extraction MFCC & PLP)

Mel-filterbank áp dụng các bộ loc tam giác (triangular filters) dé mô phỏng lại

cơ chế vật lý của tai người: nhạy cảm và dễ phân biệt tín hiệu âm thanh ở tại các

tan sô thap tot hơn là các miên tan sô cao.

20

Trang 34

Sau khi lọc xong, chúng ta giữ lại được các miền tần số hợp lệ cho quá trìnhtrích xuất đặc trưng Chúng sẽ được truyền qua Log và hàm nghịch đảo củachuyên hóa chuỗi Fu-ré rời rac (Inverse Discrete Fourier transform) dé chuyênđổi sinh ra cepstrum (một dạng tương tự như speech signal), magnitude biéudiễn trên trục tung và trục hoành biểu diễn thời gian Lúc này, chúng ta 12 hệ số

của hàm cepstrum.

(3) Giai đoạn trích xuất đặc trưng: nhìn vào hình 3.2, input đầu vào chodynamic feature, không chỉ là 12 hệ số của hàm cepstrum mà còn có năng lượngcủa mỗi frame, có thê hỗ trợ cho chúng ta trong việc xác định các âm tiết Thậtvậy, trong phát âm, ngữ cảnh thông qua việc phát hiện các âm to nhỏ thế nào cũng

là một đặc trưng hỗ trợ cho trình phát hiện các âm, từ đó xác định được các từ và

câu tương ứng Sau bước này, chúng ta có tập đặc trưng của âm thanh đầu vào

3.1.2 Chuyển đổi

3.1.2.1 Lexicon model

Ở dạng cơ bản nhất, từ vựng chỉ đơn giản là một tập hợp các từ với cách phát

âm của chúng được chia thành các âm vi, tức là các đơn vi phát âm của từ.

Chúng ta có thê xem lexicon model giống như một cuốn từ điển phát âm Nói

cách khác nó đề cập đến chuyền đôi trạng thái hữu han (finite state transducer),

là xác suất giữa các trạng thái âm tiết trong một từ (word)

Một chuyền đổi như vậy ánh xạ các ký hiệu từ vựng theo cách phát âm tương

ứng của chúng.

3.1.2.2 Acoustic model

21

Trang 35

Cách phát âm (phonemes) của một từ thường sẽ có nhiều hơn một ngữ âm,chăng hạn như từ six, phat âm là /siks/, trong acoustic model, các ngữ âm thànhphần của một âm, được gọi là các trang thái (state).

Nhiệm vụ của acoustic model sẽ gồm: xác định state của mỗi frames, sau đó

là kết hợp các states thành các từ và từ các từ ngữ dự đoán đó, chúng ta sẽ kết hợp

chúng thành một câu hoàn chỉnh dựa vào mô hình ngôn ngôn ngữ (được trình bày

ở phan ¢ sau đây).

Gaussian Mixed Model (GMM) sẽ dùng xác định state liên quan đến mỗi

frames, và phân cụm cho thông qua việc kết hợp tuyến tính rất nhiều hàm phân

phối Gauss, output của nó chính là mô hình hóa xác suất của một chuỗi các âmtiết (phoneme)

Sau đó, chúng ta sé áp dung Hidden markov model (HMM) dé từ các âm tiết

nhận được từ GMM, mô hình hóa được xác suất các từ vựng phù hợp nhất, ứng

với các state được nhận.

3.1.2.3 Language model:

Trong các hệ thống ASR truyền thống, language model hỗ trợ cho việc tínhxác suất của một chuỗi các từ vựng có thể xuất hiện trong câu nhờ vào việc phân

tích các dữ liệu văn bản.

Bằng cách cung cấp cho nó thông qua một thuật toán thiết lập các quy tắc cho

ngữ cảnh trong ngôn ngữ tự nhiên Sau đó, language model sẽ áp dụng các quy

tắc này dé dự đoán chính xác hoặc tạo ra các câu mới Về cơ ban, mô hình sẽ họccác tính năng và đặc điểm của ngôn ngữ cơ bản và sử dụng các tính năng đó để

hiéu các cụm từ mới.

Một vài các kiêu mô hình ngôn ngữ phô biên gôm:

22

Trang 36

e N-gram: tính toán phân phối xác suất của một chuỗi có độ dài là N Chang

hạn n = 2, từ language model sẽ cung cấp cho chúng ta xác suất của mộtchuỗi gồm 2 từ “Excuse me”, “He’s shy”

e Unigram: là mô hình ngôn ngữ đơn giản nhất, ở đó sẽ cung cấp xác suất

của một từ hoặc một thuật ngữ, và chỉ thực sự sử dụng phổ biến trong ngữcảnh khôi phục đữ liệu.

e Bidirectional: vì quá trình training bang việc phân tích dữ liệu văn bản theo

cả 2 hướng: forward và backward Dự đoán các từ trong một câu dựa vào

từ ngữ khác trong văn bản

e Continuous space: Loại mô hình nay biểu diễn các từ dưới dạng sự kết hợp

phi tuyến tính của các trong số trong mạng nơ-ron Kiéu này trở nên đặcbiệt hữu ích khi các tập dữ liệu ngày càng lớn Các từ ngữ hiếm khi được

sử dụng cũng tăng, từ đó gây khó khăn cho mô hình như n-gram, khi mà

phải xây dựng các câu độ đài n khả thi, càng nhiều từ hiếm thì đữ liệu câu,nhóm từ tăng lên rất nhan, vì vậy mà n-gram không còn hiệu quả cao nữa.Bằng cách tính trọng số các từ một cách phi tuyến tính, phân tán, mô hìnhContinuous space có thé "hoc" các từ gần đúng và do đó không bị đánh lừabởi bat kỳ giá trị chưa biết nào "Sự hiéu biết" của nó về một từ nhất địnhkhông được gan chặt với các từ xung quanh ngay lập tức như trong môhình n-gram.

3.1.2.4 Giải thuật tim kiếm

Kết quả của quá trình acoustic model, cụ thé là phân phối xác suất của các từ

ngữ phù hợp nhất, cùng với sự hỗ trợ của mô hình ngôn ngữ (language model) sẽtạo thành 2 input đầu vào cho quá trình Searching (Decoding)

Chúng ta đã sẵn sàng decode audio clip của chúng ta thành các bản dịch thông

qua các giải thuật tìm kiếm (các kỹ thuật áp dụng hiện tại: giải thuật Viterbi, giải

23

Trang 37

thuật Large Vocabulary Continuous Speech Recognition LVCSR, Weighted Finite-state transducer (WFST) — kỹ thuật được dùng trong Kaldi, Beam Search, Viterbi — Beam Search, A* Search (Best-first search), Multipass Search )

3.1.2.5 Cai tiến: Ap dung các mô hình học sâu

Với tốc độ phát trién nhanh chóng của công nghệ hoc sâu, DNN (Deep NeuralNetwork) được sử dụng dé thay thế mô hình GMM, để tao thành một model HMM

—DNN Về mặt lý thuyết, DNN có thé phù hợp với bat kỳ chức năng nao và mạnh

mẽ hơn nhiêu so với GMM.

Ngoài ra, gần đây các nghiên cứu còn đề xuất mô hình end-to-end đó là CTC(Connectionist Temporal Classification) với input đầu vào là một mẫu âm thanh,

và chúng ta có một output trực tiếp là câu hay là bản dịch của tín hiệu âm thanh

đó (các model như lexicon model, language model hay HMM sẽ được tích hợp vào mạng nơ- ron học sâu như là một layer, và được cập nhập thường xuyên — dynamic model, không còn 1a static model).

oye

Audio input Signal processing & Z ‘ @ V " J Regconition Result

a: hidden units tai layer |

Hình 3 6 Sử dung mô hình DNN để cải tiến các ASR trong DeepSpeech

24

Trang 38

3.2 Các mô hình nhận diện giọng nói tự động nỗi bật

3.2.1 DeepSpeech

Là một open-source speech2text engine được train bởi model máy học (RNN)

dựa trên giải thuật được phát triển bởi các nhà nghiên cứu tại Baidu Lab, được ứngdụng trên hệ thống nhận diện giọng nói cua Mozilla

Nó sẽ nhận stream audio như là một input và thực hiện chuyên stream này thành các ký tự đã được chỉ định săn, gôm 2 bước: từ audio stream, chúng ta sẽ có chuỗi xác suât cho moi ký tự, và từ chudi xác suât đó, chúng ta sẽ convert thành transcription tôi ưu nhât ứng với stream:

e First step: tức là bước sinh xác suất cho mỗi ký tự trong bảng chữ cái, bước

này có thê được thực hiện bởi DNN

e Second step: được thực hiện khả thi boi N-gram language model

e DNN sé được train dé đoán transcript, text từ stream audio, còn language

model được train dé dự đoán text từ các transcript đã được dự đoán

Các ứng dụng thực tế như là: chạy trên một ứng dung electron sử dụng ReactJS,

Android microphone streaming và chuyền đồi thành các bản dịch, Deepspeech trong

Mozilla

3.2.2 Kaldi

Được sử dụng trong Amazon’s Alexa, công cụ nhận diện giọng nói của Amazon

Là một hệ thống DNN-HMM(Hidden Markov Model)-ASR cấu tạo gồm 3 thành

phần chính:

e Feature Extraction: transforms the raw input data into representative features(

các đặc trưng đã được model xác định trước đó)

25

Trang 39

® DNN (acoustic model): ở phần này, model DNN sẽ chịu trách nhiệm cho việc

tính toán một ma trận gọi là pseudo-posteriors- đây chính là ma trận mô tả xác

suất của các chữ cái của audio trong một time elapsed xác định, chăng hạn là

1s

e Decoding: lúc này, từ ma trận đã tính toán được trước đó, dựa vào HMM

(hidden markov model) va Viterbi decoding dé suy ra được transcript sát nhất

VỚI input stream audio ban đâu.

3.2.3 Lingvo

Nó được phat triển như một framework dựa trên học sâu bang cách sử dụngTensorFlow, tập trung vào các mô hình trình tự cho các tác vụ liên quan đến ngônngữ như dịch máy, nhận diện giọng nói và tổng hợp giọng nói

Kiến trúc dựa trên mô hình Listen, Attend and Spell Đào tạo phân tán

(Distributed training) và suy luận lượng hóa (quantized inference) được hỗ trợ trực

tiếp trong framework và nó chứa các triển khai hiện có của một số lượng lớn các

utilities, chức năng ho trợ và các ý tưởng nghiên cứu mới nhat

3.3 Khái niệm về mẫu đối kháng và tan công sử dụng mẫu đối khang

3.3.1 Khái niệm

Adversarial example là các mẫu được các threat agent (adversary/attacker) tạo ra,

thường là thêm vào một lượng nhiễu (noise) nhỏ hoặc thay đồi các thành phan trongmẫu gốc, các mẫu mới này bằng những cách nhận biết thông thường (nghe, nhìn)

không thé phân biệt được với mẫu gốc; tuy nhiên khi dùng chúng làm input cho mô

hình học may/hoc sâu, mô hình sẽ bi đánh lừa phân loại hoặc đưa ra các dự đoán sai

so Với mau gôc của nó.

Công thức chung cho việc tạo adversarial example:

>

X* =X + 6g sao cho O(x) # O(X + ðz)

26

Trang 40

Trong đó:

e 0() là output của Model Machine learning có x là input.

e x* là mẫu mới được tao ra.

e # là mẫu gốc

e 6, là độ nhiễu thêm vào

3.3.2 Mục tiêu của mẫu đối kháng

Mẫu đối kháng được ứng dụng cả trong bên phòng thủ lẫn tấn công Với bên tancông mục tiêu của họ là dùng để giảm mức độ tin tưởng vào mô hình, khiến mô hìnhmáy học phân loại sai, và nâng cao hơn là khiến mô hình phân loại mẫu vào class mà

kẻ tắn công mong muốn Đặc biệt là trong các hệ thống recognition, khi kẻ tấn công

mong muốn giả mạo được đối tượng hợp lệ dé qua mat duoc hé thống.

Không chỉ ứng dụng trong tan công, đối với phòng thủ, việc các phương pháp làm

giàu dữ liệu (data augmentation) như thêm nhiễu vào giúp cho mô hình không bi

overfit vào training set Hay tạo ra các mau đối kháng dé đánh lừa hệ thống sau đódùng chúng đề huấn luyện lại mô hình, giúp mô hình trở nên tốt hơn cũng như có khả

năng chông lại các cuộc tân công mâu đôi kháng ngoài thực tê.

3.3.3 Ngữ cảnh cuộc tấn công sử dụng mẫu đối kháng

Có 3 ngữ cảnh tấn công chính [2] dựa vào mức độ hiểu biết của kẻ tấn công về

các yếu tô như: đữ liệu training D, tap feature X, thuật toán sử dụng f cùng hàm mục

tiêu L được tối thiểu trong quá trình training, và cuối cùng là các tham số và siêutham số được sử dụng trong quá trình training w Do đó kiến thức của attacker có théđược mô tả đưới dạng không gian Ø, được biéu diễn Ø = (D, X, ƒ, w), tùy thuộc vàocác giả định được đưa ra người ta có thể các kịch bản tan công khác nhau:

27

Tiêu đề	Tấn công sử dụng mẫu đối kháng trên các hệ thống nhận diện giọng nói tự động
Tác giả	Nguyen Xuan Khang, Nguyen Thanh Gia Truyen
Người hướng dẫn	TS. Nguyen Ngoc Tu
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	An Toan Thong Tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	90
Dung lượng	44,43 MB