1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt

104 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Và Phát Triển Một Số Kỹ Thuật Tấn Công Đối Kháng Trong Một Số Mô Hình Nhận Diện Phân Loại Giọng Nói Tiếng Việt
Tác giả Nguyễn Hữu Hồng Huy
Người hướng dẫn TS. Nguyễn An Khương, TS. Nguyễn Tiến Thịnh, KS. Nguyễn Văn Thành, KS. Nguyễn Tấn Đức
Trường học Đại học Bách Khoa
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn tốt nghiệp
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 104
Dung lượng 2,11 MB

Nội dung

Ngày đăng: 12/05/2022, 12:34

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Xuejing Yuan et al. “Commandersong: a systematic approach for practical adversarial voice recognition”. In: Proceedings of the 27th USENIX Conference on Security Symposium. USENIX Association. 2018, pp. 49–64 Sách, tạp chí
Tiêu đề: Commandersong: a systematic approach for practicaladversarial voice recognition”. In:"Proceedings of the 27th USENIX Conference"on Security Symposium
[2] Yuxuan Chen et al. “Devil’s whisper: A general approach for physical adver- sarial attacks against commercial black-box speech recognition devices”. In:29th USENIX Security Symposium (USENIX Security 20). 2020, pp. 2667–2684 Sách, tạp chí
Tiêu đề: Devil’s whisper: A general approach for physical adver-sarial attacks against commercial black-box speech recognition devices”. In:"29th USENIX Security Symposium (USENIX Security 20)
[3] Moustafa Alzantot, Bharathan Balaji, and Mani Srivastava. “Did you hear that? adversarial examples against automatic speech recognition”. In: arXiv preprint arXiv:1801.00554 (2018) Sách, tạp chí
Tiêu đề: Did you hearthat? adversarial examples against automatic speech recognition”. In: "arXiv"preprint arXiv:1801.00554
[4] Kevin Eykholt et al. “Robust physical-world attacks on deep learning visual classification”. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2018, pp. 1625–1634 Sách, tạp chí
Tiêu đề: Robust physical-world attacks on deep learning visualclassification”. In: "Proceedings of the IEEE conference on computer vision"and pattern recognition
[5] Yiming Li et al. “Backdoor learning: A survey”. In: arXiv preprint arXiv:2007.08745 (2020) Sách, tạp chí
Tiêu đề: Backdoor learning: A survey”. In: "arXiv preprint arXiv:"2007.08745
[6] Ali Shafahi et al. “Poison frogs! targeted clean-label poisoning attacks on neural networks”. In: arXiv preprint arXiv:1804.00792 (2018) Sách, tạp chí
Tiêu đề: Poison frogs! targeted clean-label poisoning attacks onneural networks”. In: "arXiv preprint arXiv:1804.00792
[7] Martin Abadi et al. “Deep learning with differential privacy”. In: Proceedings of the 2016 ACM SIGSAC conference on computer and communications security. 2016, pp. 308–318 Sách, tạp chí
Tiêu đề: Deep learning with differential privacy”. In: "Proceedings"of the 2016 ACM SIGSAC conference on computer and communications"security
[8] Ian Goodfellow, Jonathon Shlens, and Christian Szegedy. “Explaining and Harnessing Adversarial Examples”. In: (2015). url : http://arxiv.org/abs/1412.6572 Sách, tạp chí
Tiêu đề: Explaining andHarnessing Adversarial Examples
Tác giả: Ian Goodfellow, Jonathon Shlens, and Christian Szegedy. “Explaining and Harnessing Adversarial Examples”. In
Năm: 2015
[9] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. “Imagenet classi- fication with deep convolutional neural networks”. In: Advances in neural information processing systems 25 (2012), pp. 1097–1105 Sách, tạp chí
Tiêu đề: Imagenet classi-fication with deep convolutional neural networks”. In: "Advances in neural"information processing systems
Tác giả: Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. “Imagenet classi- fication with deep convolutional neural networks”. In: Advances in neural information processing systems 25
Năm: 2012
[10] Lea Sch¨onherr et al. “Adversarial Attacks Against Automatic Speech Recog- nition Systems via Psychoacoustic Hiding”. In: Network and Distributed System Security Symposium (NDSS). 2019 Sách, tạp chí
Tiêu đề: Adversarial Attacks Against Automatic Speech Recog-nition Systems via Psychoacoustic Hiding”. In: "Network and Distributed"System Security Symposium (NDSS)
[12] Vivek Tyagi and Christian Wellekens. “On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition”. In: Pro- ceedings.(ICASSP’05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. Vol. 1. IEEE. 2005, pp. I–529 Sách, tạp chí
Tiêu đề: On desensitizing the Mel-Cepstrumto spurious spectral components for Robust Speech Recognition”. In: "Pro-"ceedings.(ICASSP’05). IEEE International Conference on Acoustics, Speech,"and Signal Processing, 2005
[14] Kehtarnavaz Nasser. Digital Signal Processing System Design: LabVIEW Based Hybrid Programming. 2008 Sách, tạp chí
Tiêu đề: Digital Signal Processing System Design: LabVIEW"Based Hybrid Programming
[15] Paul S Addison. “Wavelet transforms and the ECG: a review”. In: Physiolog- ical measurement 26.5 (2005), R155 Sách, tạp chí
Tiêu đề: Wavelet transforms and the ECG: a review”. In: "Physiolog-"ical measurement
Tác giả: Paul S Addison. “Wavelet transforms and the ECG: a review”. In: Physiolog- ical measurement 26.5
Năm: 2005
[16] Walid A Zgallai. Biomedical Signal Processing and Artificial Intelligence in Healthcare. Academic Press, 2020 Sách, tạp chí
Tiêu đề: Biomedical Signal Processing and Artificial Intelligence in"Healthcare
[17] Tsai Wei-Yu et al. “Always-on speech recognition using truenorth, a reconfig- urable, neurosynaptic processor”. In: IEEE Transactions on Computers 66.6 (2016), pp. 996–1007 Sách, tạp chí
Tiêu đề: Always-on speech recognition using truenorth, a reconfig-urable, neurosynaptic processor”. In: "IEEE Transactions on Computers
Tác giả: Tsai Wei-Yu et al. “Always-on speech recognition using truenorth, a reconfig- urable, neurosynaptic processor”. In: IEEE Transactions on Computers 66.6
Năm: 2016
[18] Introduction to Speech Processing. https://wiki.aalto.fi/display/ITSP/Introduction+to+Speech+Processing. Accessed: 2020-11-24 Sách, tạp chí
Tiêu đề: Introduction to Speech Processing
[19] James MacQueen et al. “Some methods for classification and analysis of multivariate observations”. In: Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. Vol. 1. 14. Oakland, CA, USA.1967, pp. 281–297 Sách, tạp chí
Tiêu đề: Some methods for classification and analysis ofmultivariate observations”. In: "Proceedings of the fifth Berkeley symposium"on mathematical statistics and probability
[21] How to handle the seo by Markov chains. http://www.vincenzomusumeci.com/findability- seo/how- to- handle- seo- by- markov- chains/. Accessed:2020-12-28 Sách, tạp chí
Tiêu đề: How to handle the seo by Markov chains
[22] File:Recurrent neural network unfold.svg. https://commons.wikimedia.org/wiki/File:Recurrent_neural_network_unfold.svg. Accessed: 2021-03-30 Sách, tạp chí
Tiêu đề: File:Recurrent neural network unfold.svg
[23] Simple RNN vs GRU vs LSTM :- Difference lies in More Flexible control.https://medium.com/@saurabh.rathor092/simple-rnn-vs-gru-vs-lstm-difference-lies-in-more-flexible-control-5f33e07b1e57. Accessed: 2021-03-30 Sách, tạp chí
Tiêu đề: Simple RNN vs GRU vs LSTM :- Difference lies in More Flexible control

HÌNH ẢNH LIÊN QUAN

một số mô hình nhận diện phân loại giọng nói tiếng Việt - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
m ột số mô hình nhận diện phân loại giọng nói tiếng Việt (Trang 1)
Danh sách bảng - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
anh sách bảng (Trang 14)
Hình 2.1: Mô tả cơ chế hình thành giọng nói ở người (nguồn [11]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.1 Mô tả cơ chế hình thành giọng nói ở người (nguồn [11]) (Trang 25)
Hình 2.2: Hình ảnh mô tả quá trình biến đổi STFT (nguồn [14]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.2 Hình ảnh mô tả quá trình biến đổi STFT (nguồn [14]) (Trang 29)
Hình 2.3: So sánh giữa STFT và biến đổi wavelet (nguồn [16]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.3 So sánh giữa STFT và biến đổi wavelet (nguồn [16]) (Trang 31)
Hình 2.4: Sơ đồ quá trình trích xuất đặc trưng âm thanh (nguồn [17]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.4 Sơ đồ quá trình trích xuất đặc trưng âm thanh (nguồn [17]) (Trang 34)
Hình 2.5: Hình ảnh về spectrogram (nguồn [18]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.5 Hình ảnh về spectrogram (nguồn [18]) (Trang 35)
Hình 2.6: Quá trình thực hiện các bộ lọc Mel-scale (nguồn [11]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.6 Quá trình thực hiện các bộ lọc Mel-scale (nguồn [11]) (Trang 36)
Hình 2.7: Ví dụ về chuỗi Markov với 6 trạng thái (nguồn [21]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.7 Ví dụ về chuỗi Markov với 6 trạng thái (nguồn [21]) (Trang 41)
Hình 2.8: Hình ảnh minh họa về RNN (nguồn [22]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.8 Hình ảnh minh họa về RNN (nguồn [22]) (Trang 44)
Hình 2.9: Hình ảnh một khối tại thời điểm t của RNN (nguồn [23]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.9 Hình ảnh một khối tại thời điểm t của RNN (nguồn [23]) (Trang 45)
Với Hình 2.8 và 2.9 ta có        - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
i Hình 2.8 và 2.9 ta có        (Trang 46)
Hình 2.10: Hình ảnh một khối tại thời điểm t của LSTM (nguồn [23]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 2.10 Hình ảnh một khối tại thời điểm t của LSTM (nguồn [23]) (Trang 47)
cận nổi bật nhất dùng để tấn công vào các mô hình hộp đen đã và đang được nghiên cứu. Các cuộc tấn công sẽ chủ yếu ở quá trình tiền xử lý âm thanh, và quá trình xử lý âm thanh rút trích đặc trưng của tính hiệu. - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
c ận nổi bật nhất dùng để tấn công vào các mô hình hộp đen đã và đang được nghiên cứu. Các cuộc tấn công sẽ chủ yếu ở quá trình tiền xử lý âm thanh, và quá trình xử lý âm thanh rút trích đặc trưng của tính hiệu (Trang 55)
Hình 3.1: Các bước chung của một mô hình nhận diện giọng nói (nguồn [26]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 3.1 Các bước chung của một mô hình nhận diện giọng nói (nguồn [26]) (Trang 55)
đối kháng có khả năng làm sai lệch mô hình với mục tiê ut đã chỉ định. - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
i kháng có khả năng làm sai lệch mô hình với mục tiê ut đã chỉ định (Trang 59)
Hình 3.3: Kết quả tạo mẫu thành công sử dụng giải thuật di truyền grdient tự do (nguồn [3]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 3.3 Kết quả tạo mẫu thành công sử dụng giải thuật di truyền grdient tự do (nguồn [3]) (Trang 60)
hình ngôn ngữ. Thông qua phương pháp giảm gradient (gradient descent), tạo mẫu âm thanh đối kháng bằng cách tổng hợp kết quả đầu ra của mô hình âm thanh với đầu vào là cả bài hát làm sóng mang và lệnh thoại đã cho. - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
hình ng ôn ngữ. Thông qua phương pháp giảm gradient (gradient descent), tạo mẫu âm thanh đối kháng bằng cách tổng hợp kết quả đầu ra của mô hình âm thanh với đầu vào là cả bài hát làm sóng mang và lệnh thoại đã cho (Trang 62)
Bảng 3.3: Kết quả tấn công bằng CommanderSong (nguồn [1]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Bảng 3.3 Kết quả tấn công bằng CommanderSong (nguồn [1]) (Trang 64)
Hình 3.5: Các bước tạo mẫu đối kháng bằng Devil’ whisper (nguồn [2]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 3.5 Các bước tạo mẫu đối kháng bằng Devil’ whisper (nguồn [2]) (Trang 67)
Bảng 3.4: Kết quả tấn công trong nghiên cứu Devil’s Whisper vào các dịch vụ API STT (nguồn [2]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Bảng 3.4 Kết quả tấn công trong nghiên cứu Devil’s Whisper vào các dịch vụ API STT (nguồn [2]) (Trang 71)
Bảng 3.5: Kết quả tấn công trong nghiên cứu Devil’s Whisper vào các thiết bị IVC (nguồn [2]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Bảng 3.5 Kết quả tấn công trong nghiên cứu Devil’s Whisper vào các thiết bị IVC (nguồn [2]) (Trang 71)
Bảng 5.1: Bảng mô tả nội dung các lớp trong tập huấn luyện (nguồn [32]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Bảng 5.1 Bảng mô tả nội dung các lớp trong tập huấn luyện (nguồn [32]) (Trang 78)
Hình 5.1: Cấu trúc mô hình mục tiêu (nguồn [33]) - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 5.1 Cấu trúc mô hình mục tiêu (nguồn [33]) (Trang 82)
5.3.2. Hiệu năng mô hình - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
5.3.2. Hiệu năng mô hình (Trang 83)
độ chính xác cao sẽ cho thấy khả năng kháng nhiễu của mô hình được đảm bảo. Không ngoài mong đợi mô hình huấn luyện có độ chính xác trong việc phân loại các câu lệnh tiếng Việt rất cao lên đến 98% và giá trị hàm mất mát là 0.1. - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
ch ính xác cao sẽ cho thấy khả năng kháng nhiễu của mô hình được đảm bảo. Không ngoài mong đợi mô hình huấn luyện có độ chính xác trong việc phân loại các câu lệnh tiếng Việt rất cao lên đến 98% và giá trị hàm mất mát là 0.1 (Trang 84)
Hình 5.3: Biểu đồ đường thể hiện giá trị mất mát của mô hình - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 5.3 Biểu đồ đường thể hiện giá trị mất mát của mô hình (Trang 85)
Hình 6.1: Ma trận kết quả tấn công có mục tiêu dùng phương pháp cơ bản với - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 6.1 Ma trận kết quả tấn công có mục tiêu dùng phương pháp cơ bản với (Trang 95)
Hình 6.2: Ma trận kết quả tấn công có mục tiêu dùng phương pháp cơ bản với - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 6.2 Ma trận kết quả tấn công có mục tiêu dùng phương pháp cơ bản với (Trang 96)
Hình 6.3: Ma trận kết quả tấn công có mục tiêu dùng phương pháp cải tiến với - Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt
Hình 6.3 Ma trận kết quả tấn công có mục tiêu dùng phương pháp cải tiến với (Trang 97)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w