0

Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt

104 21 0
  • Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Tài liệu liên quan

Thông tin tài liệu

Ngày đăng: 12/05/2022, 12:34

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH ——————– * ——————— LUẬN VĂN TỐT NGHIỆP Nghiên cứu phát triển số kỹ thuật công đối kháng số mơ hình nhận diện phân loại giọng nói tiếng Việt HỘI ĐỒNG : Khoa học máy tính GVHD GVPB : TS Nguyễn An Khương TS Nguyễn Tiến Thịnh KS Nguyễn Văn Thành KS Nguyễn Tấn Đức : TS Trần Tuấn Anh SINH VIÊN THỰC HIỆN : Nguyễn Hữu Hồng Huy TP HỒ CHÍ MINH Ngày 17 tháng 10 năm 2021 - 1711515 TR I H C QU C GIA TP.HCM -NG I H C BÁCH KHOA C NG HÒA XÃ H I CH NGH A VI T NAM c l p - T - H nh phúc NHI M V LU N ÁN T T NGHI P KHOA:KH & KT Máy tính B MƠN: KHMT Chú ý: Sinh viên ph i dán t vào trang nh t c a b n thuy t trình H VÀ TÊN: Nguy n H u H ng Huy NGÀNH: Khoa h c Máy tính MSSV: 1711515 L P: MT17KH01 u đ lu n v n: Nghiên c u phát tri n m t s k thu t t n công đ i kháng m t s mơ hình nh n d ng phân lo i gi ng nói ti ng Vi t (Adversarial Attacks on Vietnamese Speech Classification Models) Nhi m v (yêu c u v n i dung s li u ban đ u): i) Tìm hi u ki n th c n n t ng v âm h c k thu t bi n đ i, nh n di n, phân lo i âm b ng h c máy ii) T o m u âm t n cơng có t l t n công thành công cao nh m làm cho mơ hình nh n di n phân lo i gi ng nói ti ng Vi t nh n di n sai l ch n i dung c a m u âm nh ng tai ng i v n nghe rõ n i dung g c ban đ u; iii) Thi t k m t mơ hình h th ng t o m u t n công đ n gi n, nhanh chóng Ngày giao nhi m v lu n v n: 01/03/2021 Ngày hoàn thành nhi m v : 14/06/2021 H tên gi ng viên h ng d n: Ph n h ng d n:  Nguy n An Kh ng, HBK G i ý h ng đ tài, đ nh h ng đ tài, giám sát trình th c hi n  Nguy n Ti n Th nh, HBK H ng d n ki n th c n n t ng, giám sát trình th c hi n  Nguy n V n Thành H ng d n ki n th c n n t ng, giám sát trình th c hi n  Nguy n T n nh h ng đ tài, giám sát trình th c hi n c N i dung yêu c u LVTN đ c thông qua B môn Ngày tháng n m CH NHI M B MÔN (Ký ghi rõ h tên) I DI N T P TH H (Ký ghi rõ h tên) Nguy n An Kh PH N DÀNH CHO KHOA, B MÔN: Ng i t (ch m s b ): n v : Ngày b o v : _ i m t ng k t: N i l u tr lu n án: NG D N ng TR NG I H C BÁCH KHOA KHOA KH & KT MÁY TÍNH C NG HÒA XÃ H I CH NGH A VI T NAM c l p - T - H nh phúc -Ngày 10 tháng 08 n m 2021 PHI U CH M B O V LVTN (Dành cho ng H tên SV: Nguy n H u H ng Huy MSSV: 1711515 (MT17KH01) ih ng d n) Ngành (chuyên ngành): KHMT tài: Nghiên c u phát tri n m t s k thu t t n công đ i kháng m t s mơ hình nh n d ng phân lo i gi ng nói ti ng Vi t (Adversarial Attacks on Vietnamese Speech Classification Models) H tên ng i h ng d n:  Nguy n An Kh ng, Khoa KH&KT Máy tính, HBK  Nguy n Ti n Th nh, Khoa KH&KT Máy tính, HBK  Nguy n V n Thành  Nguy n T n c T ng quát v b n thuy t minh: S trang: 89 S ch ng: 07 S b ng s li u: S hình v : 24 S tài li u tham kh o: 34 Ph n m m tính toán: Hi n v t (s n ph m): T ng quát v b n v : -S b nv : B n A1: B n A2: Kh khác: - S b n v v tay S b n v máy tính: Nh ng u m c a LVTN:  Lu n v n trình bày đ p, m ch l c, rõ ràng, quy cách, có logic, có l p lu n c th cho h ng ti p c n  Sinh viên th c hi n có n ng l c t t, có kh n ng t h c tinh th n làm vi c đ c l p r t cao  Sinh viên th c hi n n m v ng ki n th c n n t ng, k thu t công ngh có liên quan đ xây d ng c i ti n ph ng pháp t o m u âm t n công  K t qu đ t đ c c a lu n v n có ý ngh a th c ti n, phù h p v i m c tiêu gi i h n ph m vi đ tài đ t ban đ u Nh ng thi u sót c a LVTN: Lu n v n ch d ng l i m c t n cơng mơ hình h p tr ng phân lo i gi ng nói ti ng Vi t, cịn r t nhi u mơ hình khác liên quan đ n gi ng nói ng i c n đ c nghiên c u t n công t ng lai B sung thêm đ b o v  Không đ c b o v  ngh : cb ov  M t s câu h i SV ph i tr l i tr c H i đ ng: Khơng có (SV s đ 10 ánh giá chung (b ng ch : gi i, khá, TB): Gi i c h i tr c ti p H ) i m: 9.6/10 Ký tên (ghi rõ h tên) Nguy n An Kh ng TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -Ngày 10 tháng 08 năm 2021 PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) Họ tên SV: NGUYỄN HỮU HỒNG HUY MSSV: 1711515 Ngành (chuyên ngành): Khoa học Máy Tính Đề tài: Nghiên cứu phát triển số kỹ thuật công đối kháng số mơ hình nhận dạng giọng nói tiếng Việt Họ tên người phản biện: Trần Tuấn Anh Tổng quát thuyết minh: Số trang: Số chương: Số bảng số liệu Số hình vẽ: Số tài liệu tham khảo: Phần mềm tính tốn: Hiện vật (sản phẩm) Tổng quát vẽ: - Số vẽ: Bản A1: Bản A2: Khổ khác: - Số vẽ vẽ tay Số vẽ máy tính: Những ưu điểm LVTN: - Luận văn trình bày nghiên cứu việc cơng đối kháng cho mơ hình nhận dạng giọng nói tiếng Việt Với mục tiêu tạo use-case xảy người sử dụng hệ thống AI cho nhận dạng giọng nói Đây nghiên cứu cần thiết thực tế - Luận văn trình bày dễ hiểu, có logic, có lập luận cụ thể cho hướng tiếp cận Cụ thể nghiên cứu tác giả tập trung vào dạng cơng mơ hình hộp trắng - Tác giả tìm mơ hình có khả công vào hệ thống thực tiễn - Tác giả đồng thời tự phát triển mô hình AI cho nhận dạng giọng nói tiếng Việt để mô minh họa - Kiến trúc hệ thống kiểm thử rõ ràng, có cải tiến có tiến hành kiểm tra đánh giá đưa phân tích hợp lý Những thiếu sót LVTN: - Nhấn mạnh vào q trình xây dựng mơ hình cơng nội dung chủ yếu đề tài - Thử nghiệm với mơ hình tiếng Anh khác để làm rõ tính hiệu mơ hình công Đề nghị: Được bảo vệ  Bổ sung thêm để bảo vệ  Không bảo vệ  câu hỏi SV phải trả lời trước Hội đồng: a Mơ hình tự thân xây dựng có đảm bảo tích khách quan kiểm thử khơng? b Có thể phát triển mơ hình cơng dạng làm nhiễu tồn bộ, gây phá hoại khơng ? thay cơng theo dạng làm sai lệch có chủ đích? c Nêu rõ ưu điểm chọn SNR phương pháp biến thiên ngẫu nhiên epsilon khoảng cụ thể (có thể train epsilon khoảng khơng?) 10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Điểm : 9.4/10 Ký tên (ghi rõ họ tên) Trần Tuấn Anh Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn TS.Nguyễn An Khương, TS.Nguyễn Tiến Thịnh, KS.Nguyễn Văn Thành, KS.Nguyễn Tấn Đức Nội dung nghiên cứu kết trung thực chưa công bố trước Các số liệu sử dụng cho q trình phân tích, nhận xét tơi thu thập từ nhiều nguồn khác ghi rõ phần tài liệu tham khảo Ngồi ra, tơi có sử dụng số nhận xét, đánh giá số liệu tác giả khác, quan tổ chức khác Tất có trích dẫn thích nguồn gốc Nếu phát có gian lận nào, tơi xin hoàn toàn chịu trách nhiệm nội dung luận văn tốt nghiệp Trường đại học Bách Khoa thành phố Hồ Chí Minh khơng liên quan đến vi phạm tác quyền, quyền gây trình thực Lời cám ơn Trong suốt thời gian học tập rèn luyện Trường Đại học Bách Khoa Thành phố Hồ Chí Minh đến nay, nhận nhiều quan tâm, giúp đỡ quý thầy cô bạn bè Với lịng biết ơn sâu sắc chân thành nhất, tơi xin gửi đến quý thầy cô Khoa Khoa Học Kỹ Thuật Máy Tính - Trường Đại học Bách Khoa Thành phố Hồ Chí Minh, với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho suốt thời gian học tập trường Đặc biệt xin gửi lời cảm ơn chân thành đến thầy Nguyễn An Khương Người thầy tận tâm hướng dẫn, theo dõi hỗ trợ tơi suốt q trình thực luận văn tốt nghiệp Ngoài lời khuyên kiến thức chuyên môn, học thuật đầy kinh nghiệm thầy, trình làm việc thầy thời gian dài tơi cịn học đức tính tốt, kỹ cần thiết để trở người làm khoa học thật thụ khả tư phản biện, tư sáng tạo, cần cù, trung thực cẩn thận xác Bên cạnh đó, tơi xin gửi cám ơn đến thầy Nguyễn Tiến Thịnh, anh Nguyễn Văn Thành, anh Nguyễn Tấn Đức tham gia hướng dẫn, hỗ trợ thực luận văn tốt nghiệp đề tài “Nghiên cứu phát triển số kỹ thuật công đối kháng số mô hình nhận diện phân loại giọng nói tiếng Việt” suốt thời gian vừa qua Những kinh nghiệm, kiến thức xác suất thống kê, đại số, xử lý liệu, điều trí tuệ nhân tạo học máy mà tơi có từ thầy anh trình nghiên cứu giúp tơi trang bị cho điều cần thiết để hồn thành Luận văn Sau cùng, tơi muốn dành tình cảm sâu sắc trân trọng gửi đến ba mẹ tôi, người hi sinh nhiều tơi, lo lắng thứ cho tương lai tôi, tạo cho hội học tập môi trường tốt Ba mẹ nguồn động lực to lớn thúc vượt qua rào cản thân mà tiến phía trước Con cám ơn ba mẹ nhiều! ii Tóm tắt nội dung Ngày trí tuệ nhân tạo (artificial intelligence - AI) phát triển mạnh, nghiên cứu ứng dụng rộng rãi nhiều lĩnh vực khác thực tế Các tảng học máy (machine learning), học sâu (deep learning) mang đến cho người nhiều thành tựu vượt trội phương tiện tự hành, xác thực sinh trắc học, hay nhận diện giọng nói Song song đó, vấn đề bảo mật liệu, độ tin cậy liệu xây dựng mơ hình, hay loại nhiễu gây suy luận sai lệch mơ hình hoạt động vấn đề quan tâm trí tuệ nhân tạo phát triển Sức mạnh lớn ln kèm rủi ro, trí tuệ nhân tạo cung cấp cho kẻ công phương diện công lường trước Trong đề tài “Nghiên cứu phát triển số kỹ thuật công đối kháng số mơ hình nhận diện phân loại giọng nói tiếng Việt” nghiên cứu, xây dựng công đối kháng vào mơ hình nhận diện giọng nói tiếng Việt Cuộc công thực hiên luận văn trình tạo mẫu âm khiến cho mơ hình mà ta biết xác cấu trúc, tham số (white-box) nhận diện sai lệch theo mục tiêu định Dựa giải thuật cơng bản, chúng tơi đóng góp cải tiến thân giúp cho công trở nên hiệu nhanh chống Từ đó, định hướng phát triển kỹ thuật công đối kháng lên mơ hình áp dụng dụng thức tế mà ta khơng có kiến thức (black-box) ngơn ngữ tiếng Việt đề xuất số biện pháp phịng chống tương lai Mục lục Danh sách hình vẽ iv Danh sách bảng vi Từ ngữ viết tắt vii Giới thiệu 1.1 Tổng quan bảo mật trí tuệ nhân tạo, học máy 1.2 Sơ lược công đối kháng 1.3 Phạm vi mục tiêu luận văn 1.3.1 Mục tiêu 1.3.2 Phạm vi Cấu trúc luận văn 1.4 Kiến thức tảng 2.1 Tiền xử lý âm 2.1.1 Âm học 2.1.2 Biến đổi Fourier rời rạc 11 2.1.3 Biến đổi Fourier thời gian ngắn 14 2.1.4 Biến đổi wavelet 15 2.1.5 Đặc trưng âm sử dụng Mel frequency cepstral coefficients 18 2.2 Mô hình Gaussian hỗn hợp 22 2.3 Mơ hình Markov ẩn 24 2.4 Mơ hình mạng tích chập mơ hình long short term memory 27 i Mục lục 2.5 2.6 2.4.1 Mạng tích chập 27 2.4.2 Mạng hồi quy 28 2.4.3 Long short term memory 31 Mơ hình mạng đối kháng tạo sinh 33 2.5.1 Giới thiệu 33 2.5.2 So sánh với công đối kháng 35 Cơ chế attention 36 Một số nghiên cứu liên quan 3.1 3.2 Tấn công trực tiếp mơ hình hộp đen 39 39 3.1.1 Đảo miền thời gian 41 3.1.2 Tạo pha ngẫu nhiên 41 3.1.3 Thêm tần số cao 42 3.1.4 Nén thời gian 42 3.1.5 Tấn cơng vào mơ hình nhận diện phân loại giọng nói tiếng Anh 43 Sử dụng mơ hình hộp trắng 46 3.2.1 CommanderSong 46 3.2.2 Devil’s whisper 51 Thiết kế nghiên cứu 57 4.1 Phát biểu toán 57 4.2 Phân tích tốn 58 4.2.1 Ngữ cảnh 58 4.2.2 Kịch công 59 Phương pháp đề xuất 59 4.3.1 Giải thuật IFGSM 59 4.3.2 Cải tiến giải thuật IFGSM 60 4.3 Hiện thực công 5.1 Thu thập liệu 62 62 ii Thực nghiệm đánh giá kết 6.1 Quá trình tạo mẫu âm đối kháng 6.1.1 Tấn cơng Sau có mơ hình mục tiêu, bắt đầu thực bước công Chúng lựa chọn hàm mát thích hợp để tính tốn giá trị mát giá trị đầu mơ hình giá trị mục tiêu mong muốn Trong công lựa chọn hàm sparse categorical crossentropy, hàm mát tương ứng với hàm mát sử dụng q trình huấn luyện mơ hình Với lớp phân loại cuối L(ydự đoán , ymục tiêu ) = −ymục tiêu log(ydự đoán ) Do lớp phân loại cuối mơ hình lớp phân loại xác suất softmax Nên ymục tiêu xác suất lớp phân loại mà chúng tơi mong muốn, ln có giá trị 1, cịn ydự đốn giá trị xác suất mơ hình dự đốn lớp mục tiêu Để thuận tiện chúng tơi biểu diễn kết hợp mơ hình hàm mát thành hàm mát J (x, ymục tiêu ) = L(ydự đoán , ymục tiêu ) Khi chúng tơi dựa vào hàm J (x, ymục tiêu ) để tính tốn gradient 75 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ hàm đó theo giá trị x ban đầu Với giá trị gradient tìm được, chúng tơi sử dụng số phương pháp xác định lượng δx cần thêm vào x ban đầu để làm cho mơ hình mục tiêu nhận diện sai theo mục đích chúng tơi Chúng lựa chọn phương pháp để xác định lượng δx cập nhật x dựa vào dấu gradient lặp lại (iterative fast gradient sign method IFGSM) [8] Khi δx xác định cơng thức sau δxn−1 = ǫ.sign(∇x J (xn−1 , ymục tiêu )), xn = xn−1 + δxn−1 Trong sign hàm xác định dấu gradient hàm mát, xn mẫu công tạo lần lặp thứ n, x0 = x, ǫ thông số lựa chọn phù hợp Sau chúng tơi giới thiệu hai cách cơng mơ hình với việc lựa chọn ǫ ngược dấu nhau, cơng có mục tiêu cơng khơng mục tiêu Tấn cơng có mục tiêu Tấn cơng có mục tiêu dây dễ hiểu với mẫu âm x mơ hình phân loại xác vào lớp cố định Khi chúng tơi làm cho mơ hình mục tiêu nhận diện phân loại mẫu âm xn tạo nên từ x sai lệch vào lớp mà định Như biết q trình học mơ hình học máy trình cập nhật tham số mơ hình thơng qua q trình lan truyền ngược Trong trình tham số cập nhật dựa gradient hàm mát theo biến tham số mơ hình Giả sử mơ hình ban đầu có tham số θ, tỷ lệ học mơ hình lr, hàm mát sử dụng L Khi mơ hình cần phải tối ưu hàm mát L theo tham số θ giá trị cực tiểu nên ta có cách cập nhật θ sau θ′ = θ − lr∇θ L Đối với cơng có mục tiêu, chúng tơi nhận thấy tốn có tương 76 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ đồng với trình lan truyền ngược mơ hình q trình huấn luyện Nhưng điểm khác thay chúng tơi cập nhật tham số mơ hình, chúng tơi giữ ngun chúng, thay vào chúng tơi hướng đến cập nhật giá trị đầu vào ban đầu x Vì vậy, chúng tơi lựa chọn giá trị ǫ âm cập nhật giá trị x ngược chiều gradient biểu diễn với ǫ dương công thức sau xn = xn−1 − δxn−1 = xn−1 − ǫ.sign(∇x J (xn−1 , ymục tiêu )) Tấn cơng khơng mục tiêu Ngược lại với cơng có mục tiêu, công không mục tiêu đặt yêu cầu công khiến cho mô hình nhận diện sai lệch với lớp liệu phân loại xác Khi chúng tơi giải tốn ngược lại với cơng có mục tiêu, tối đa hóa giá trị hàm mát với ymục tiêu lớp phân loại ydự đoán mơ hình nhận diện xác ban đầu Hay nói cách khác chúng tơi tìm giá trị xn cho giá trị hàm mát J lớn tốt Vì xn tính ngược lại với cơng có mục tiêu, với ǫ dương ta có cơng thức cho q trình cập nhật giá trị x sau xn = xn−1 + δxn−1 = xn−1 + ǫ.sign(∇x J (xn−1 , ydự đoán )) 77 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 6.1.2 Cải tiến công Cải tiến ǫ Như giới thiệu phần trên, việc cập nhật mẫu âm x hai cách công phụ thuộc vào việc lựa chọn phù hợp thông số ǫ Khơng giống hình ảnh, âm hàm sóng liên tục theo thời gian, giá trị điểm hàm sóng biểu diễn số thực từ -1 đến Với hai hàm sóng có hình dạng giá trị có tỷ lệ lệch gây khác âm lượng Âm lượng mẫu âm yếu tố quan trọng trình nhận biết mơ hình, q trình thêm nhiễu để cơng mơ hình Tại phần tăng cường liệu để huấn luyện mơ hình, chúng tơi giới thiệu việc ảnh hưởng âm lượng mẫu âm gốc ảnh hưởng đến trình huấn luyện Việc thêm nhiễu vào mẫu âm gốc để tạo mẫu âm công đối kháng Mỗi mẫu âm khác có âm lượng khác nhau, khó để xác định lượng ǫ hợp lý cho tất mẫu âm Nếu lượng ǫ nhỏ việc cập nhật mẫu âm x khó khăn, ngược lại ǫ lớn làm nội dung câu lệnh mẫu âm ban đầu Vì vậy, chúng tơi đề xuất sử dụng phương pháp tính ǫ ứng với mẫu âm gốc thông qua SNR giới thiệu Mục 5.2 sau Anhiễu mong muốn = Vì ǫ= A2âm gốc 10SN RdB /10 Anhiễu mong muốn Anhiễu ban đầu Khi lựa chọn Anhiễu ban đầu = đảm bảo tạo mẫu âm công, nhiễu thêm vào có ảnh hưởng đến mơ hình mục tiêu làm sai lệch giá trị phân loại 78 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Cải tiến bảo toàn nội dung âm Phương pháp cải tiến đảm bảo tính ảnh hưởng nhiễu mơ hình, cịn u cầu đặt mẫu âm phải đảm bảo nội dung mẫu âm gốc ban đầu Hay nói cách khác phát hai mẫu âm cơng âm gốc tai người nhận diện nội dung câu lệnh người nói Để đảm bảo yêu cầu trên, nhiễu thêm vào không ảnh hưởng lớn mẫu âm gốc Chúng đề xuất sử dụng kết hợp với chiến thuật cắt tỉa giá trị nhiễu dựa vào ngưỡng từ −α đến α định theo công thức sau ∆ = Clipα (x0 − xn ) xn = x0 − ∆ Trong Clipα hàm giới hạn lại giá trị vượt qua ngưỡng ±α ngưỡng ±α Khi đó, mẫu âm đối kháng tạo mang lượng nhiễu giới hạn so với âm gốc ban đầu Qua q trình thực nghiệm, chúng tơi áp dụng việc tính tốn SNR để lựa chọn giá trị ngưỡng α phù hợp 79 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 6.2 Đánh giá hiệu mẫu 6.2.1 Tấn cơng có mục tiêu Hình 6.1: Ma trận kết cơng có mục tiêu dùng phương pháp với ǫ = 10/215 Với Hình 6.1, 6.2, 6.3 chúng tơi thể ô số lượng mẫu công đối kháng tạo thành công với mục tiêu mà 80 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Hình 6.2: Ma trận kết cơng có mục tiêu dùng phương pháp với ǫ = 100/215 định Qua đó, ta thấy khả tạo mẫu cơng đối kháng với mơ hình mục tiêu phương pháp cải tiến có hiệu cao nhiều so với phương pháp ban đầu 81 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Hình 6.3: Ma trận kết cơng có mục tiêu dùng phương pháp cải tiến với SN RdB = 20dB 82 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 6.2.2 Tấn cơng khơng mục tiêu Hình 6.4: Ma trận thể kết công không mục tiêu dùng phương pháp với ǫ = 10/215 Với Hình 6.4, 6.5, chúng tơi thể số lượng mẫu công đối kháng tạo thành cơng khiến cho mơ hình nhận diện sai lệch khỏi lớp Trong cơng khơng mục tiêu, hiệu giải thuật IFGSM IFGSM cải tiến gần tương đương 83 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Hình 6.5: Ma trận thể kết công không mục tiêu dùng phương pháp cải tiến với SN RdB = 20dB 84 Tổng kết 7.1 Kết đạt Trong luận văn này, chúng tơi xây dựng mơ hình cơng đối kháng vào mơ hình hộp trắng nhận diện phân loại giọng nói tiếng Việt Mơ hình tạo mẫu âm đối kháng dựa giải thuật IFGSM [8] cải tiến lại giải thuật dựa yếu tố âm lượng nội dung âm Qua thí nghiệm, chúng tơi nhận thấy yếu tố âm lượng có ảnh hưởng lớn đến trình thêm nhiễu vào mẫu âm Vì đề xuất cải tiến mang lại kết đáng mong đợi Kết mà chúng tơi đạt tạo thành cơng 100% mẫu công đối kháng với lượng nhiễu âm lượng nhỏ 15dB đến 20dB so với âm gốc hai cơng có mục tiêu không mục tiêu với giải thuật IFGSM cải tiến Với lượng nhiễu âm lượng nhỏ tai người dễ dàng nhận nội dung gốc khiến mơ hình nhận diện sai lệch So sánh với kết tạo mẫu từ giải thuật IFGSM ban đầu cho thấy phương pháp hiệu Tuy nhiên, so sánh tương đối tập liệu nghiên cứu dựa ngôn ngữ khác 85 CHƯƠNG TỔNG KẾT 7.2 Hạn chế hướng phát triển Trong q trình nghiên cứu, cơng đối kháng mơ hình nhận diện giọng nói tiếng Việt cịn q mẻ, theo khảo sát chúng tơi chưa có tài liệu tham khảo Vì vậy, nghiên cứu được tham khảo luận văn thực mô hình tiếng Anh Bên cạnh đó, mơ hình nhận diện giọng nói tiếng Việt dùng cho việc nghiên cứu nhiều hạn chế làm cho việc nghiên cứu bị giới hạn Các hạn chế cải thiện nghiên cứu tới Ngồi mơ hình hộp trắng nhận diện phân loại giọng nói, thực tế mơ hình nhận diện chuyển đổi giọng nói thành văn mơ hình nhận diện giọng nói hộp đen sử dụng phổ biến Vì tốn mở rộng để thực cơng đối kháng mơ hình Từ đó, ta nghiên cứu đề xuất số phương pháp phịng chống cơng xảy tương lai Đây hai hướng nghiên cứu quan trọng thực nghiên cứu tới Ngồi ra, chúng tơi cịn hướng đến ứng dụng trình tạo mẫu đối kháng trình mã hóa liệu 86 Tài liệu tham khảo [1] Xuejing Yuan et al “Commandersong: a systematic approach for practical adversarial voice recognition” In: Proceedings of the 27th USENIX Conference on Security Symposium USENIX Association 2018, pp 49–64 [2] Yuxuan Chen et al “Devil’s whisper: A general approach for physical adversarial attacks against commercial black-box speech recognition devices” In: 29th USENIX Security Symposium (USENIX Security 20) 2020, pp 2667– 2684 [3] Moustafa Alzantot, Bharathan Balaji, and Mani Srivastava “Did you hear that? adversarial examples against automatic speech recognition” In: arXiv preprint arXiv:1801.00554 (2018) [4] Kevin Eykholt et al “Robust physical-world attacks on deep learning visual classification” In: Proceedings of the IEEE conference on computer vision and pattern recognition 2018, pp 1625–1634 [5] Yiming Li et al “Backdoor learning: A survey” In: arXiv preprint arXiv: 2007.08745 (2020) [6] Ali Shafahi et al “Poison frogs! targeted clean-label poisoning attacks on neural networks” In: arXiv preprint arXiv:1804.00792 (2018) [7] Martin Abadi et al “Deep learning with differential privacy” In: Proceedings of the 2016 ACM SIGSAC conference on computer and communications security 2016, pp 308–318 [8] Ian Goodfellow, Jonathon Shlens, and Christian Szegedy “Explaining and Harnessing Adversarial Examples” In: (2015) url: http://arxiv.org/abs/ 1412.6572 [9] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton “Imagenet classification with deep convolutional neural networks” In: Advances in neural information processing systems 25 (2012), pp 10971105 [10] Lea Schăonherr et al “Adversarial Attacks Against Automatic Speech Recognition Systems via Psychoacoustic Hiding” In: Network and Distributed System Security Symposium (NDSS) 2019 [11] Andrew Maas Spoken Language Processing 2017 87 TÀI LIỆU THAM KHẢO [12] Vivek Tyagi and Christian Wellekens “On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition” In: Proceedings.(ICASSP’05) IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005 Vol IEEE 2005, pp I–529 [13] Thomas H Cormen et al Introduction to algorithms MIT press, 2009 [14] Kehtarnavaz Nasser Digital Signal Processing System Design: LabVIEW Based Hybrid Programming 2008 [15] Paul S Addison “Wavelet transforms and the ECG: a review” In: Physiological measurement 26.5 (2005), R155 [16] Walid A Zgallai Biomedical Signal Processing and Artificial Intelligence in Healthcare Academic Press, 2020 [17] Tsai Wei-Yu et al “Always-on speech recognition using truenorth, a reconfigurable, neurosynaptic processor” In: IEEE Transactions on Computers 66.6 (2016), pp 996–1007 [18] Introduction to Speech Processing https : / / wiki aalto fi / display / ITSP / Introduction+to+Speech+Processing Accessed: 2020-11-24 [19] James MacQueen et al “Some methods for classification and analysis of multivariate observations” In: Proceedings of the fifth Berkeley symposium on mathematical statistics and probability Vol 14 Oakland, CA, USA 1967, pp 281–297 [20] Dong Yu and Li Deng Automatic Speech Recognition Springer [21] How to handle the seo by Markov chains http://www.vincenzomusumeci com / findability - seo / how - to - handle - seo - by - markov - chains/ Accessed: 2020-12-28 [22] File:Recurrent neural network unfold.svg https://commons.wikimedia.org/ wiki/File:Recurrent_neural_network_unfold.svg Accessed: 2021-03-30 [23] Simple RNN vs GRU vs LSTM :- Difference lies in More Flexible control https://medium.com/@saurabh.rathor092/simple- rnn- vs- gru- vs- lstmdifference-lies-in-more-flexible-control-5f33e07b1e57 Accessed: 2021-03-30 [24] Ian Goodfellow et al “Generative adversarial nets” In: Advances in neural information processing systems 27 (2014) [25] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio “Neural machine translation by jointly learning to align and translate” In: arXiv preprint arXiv:1409.0473 (2014) [26] Hadi Abdullah et al “Practical Hidden Voice Attacks against Speech and Speaker Recognition Systems” In: NDSS’19 2019, pp 1369–1378 [27] Bhagwandas P Lathi Modern digital and analog communication systems Oxford University Press, Inc., 1990 88 TÀI LIỆU THAM KHẢO [28] Guoming Zhang et al “Dolphinattack: Inaudible voice commands” In: Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security 2017, pp 103–117 [29] Signal-to-noise ratio https://en.wikipedia.org/wiki/Signal-to-noise_ratio Accessed: 2021-03-30 [30] Nicolas Papernot et al “Practical black-box attacks against machine learning” In: Proceedings of the 2017 ACM on Asia conference on computer and communications security 2017, pp 506–519 [31] Yinpeng Dong et al “Boosting adversarial attacks with momentum” In: Proceedings of the IEEE conference on computer vision and pattern recognition 2018, pp 9185–9193 [32] Phan Duy Hung et al “Vietnamese speech command recognition using recurrent neural networks” In: Int J Adv Comput Sci Appl.(IJACSA) 10.7 (2019) [33] Douglas Coimbra de Andrade et al “A neural attention model for speech command recognition” In: arXiv preprint arXiv:1808.08929 (2018) [34] Diederik P Kingma and Jimmy Ba “Adam: A method for stochastic optimization” In: arXiv preprint arXiv:1412.6980 (2014) 89 ... công phương diện công lường trước Trong đề tài ? ?Nghiên cứu phát triển số kỹ thuật công đối kháng số mơ hình nhận diện phân loại giọng nói tiếng Việt? ?? chúng tơi nghiên cứu, xây dựng cơng đối kháng. .. nhiên lại nghiên cứu thực công mô hình nhận diện giọng nói tiếng Việt Vì vậy, định lựa chọn xây dựng cơng mơ hình nhận diện phân loại giọng nói tiếng Việt hộp trắng Trong trình nghiên cứu chúng... tài: Nghiên cứu phát triển số kỹ thuật cơng đối kháng số mơ hình nhận dạng giọng nói tiếng Việt Họ tên người phản biện: Trần Tuấn Anh Tổng quát thuyết minh: Số trang: Số chương: Số bảng số liệu Số
- Xem thêm -

Xem thêm: Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt ,

Từ khóa liên quan