Trong đề tài này, chúng tôi nghiên cứu và ứng dụng kỹ thuật riêng tư vi phânDifferential Privacy nhằm ngăn chặn các cuộc tấn công suy diễn thành viên trong các mô hình mạng nơ-ron với mụ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
VÕ THỊ HÀ TRANG - 20522043
NGUYEN HIEN ĐỨC - 20520450
KHÓA LUẬN TÓT NGHIỆP
ÁP DỤNG RIÊNG TU VI PHAN CHONG LAI
CUOC TAN CÔNG SUY DIỄN THÀNH VIÊN
Applying Differential Privacy against
Membership Inference Attacks
CU NHAN NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN ThS HA LE HOAI TRUNG
TP HO CHÍ MINH, 2024
Trang 2Nhận thức được rằng kinh nghiệm của bản thân còn nhiều hạn chế, nhóm hiểurằng khóa luận tốt nghiệp vẫn còn những thiếu sót và hạn chế nhất định Chúng em rấtmong nhận được những lời góp ý chân thành, những lời khuyên bồ ích, những chỉ dẫntận tình quý báu từ quý thầy cô Chúng em xem đây là kim chỉ nam, là động lực để chúng em tiếp tục nỗ lực, hoàn thiện bản thân, trau đồi kiến thức, rèn luyện kỹ năng,chuẩn bị hành trang vững vàng cho chặng đường tương lai phía trước.
Một lân nữa, nhóm chúng em xin chân thành cảm on!
Thành phó Hồ Chi Minh, tháng 3 năm 2024
Nhóm sinh viên thực hiện
Võ Thị Hà TrangNguyễn Hiền Dire
Trang 3MỤC LỤC
ÿ(9E00015 2Chương 1 TONG QUAN ĐỀ TÀI 2 5 1S EEE2EEEEEEEEEEESEEEEEEEEEErkrrrrkrree 4
II XI hhinh nghién ctu 4
1.2 Cac nghiên cứu liên Qua1 - - c5 c2 2128333111113 111391 1111551111111 111 re, 71.3 Mục tiêu đề tài Su th nhe 91.4 _ Đối tượng nghiên cứu - ¿+ +22 E+EE2EE£EEEE2E21212171 2211112121 crre 101.5 Pham vi nghiÊn CỨU c Sc 11233211131139111 1199101111812 11 119g ng vep 10
Chương 2 CO SỞ LÝ THUYÊTT - 2-52 SE2E2E£E12E12EE12E121E717171E E112 creC 11
2.1 Các khái niệm về học SAU eeseeecseeceecsseessecsneeeeeesseessenesseessieesiesseeseeesenee 11
2.1.1 Hoc sâu N x it À II 2.1.2 Mang nơ-ron nhân tạoO 5 3201182111131 1 195111 1E 1 ke 12 2.1.3 Mang nơ-ron tích chậẬp - - ccc S21 11 1331 1111351111111 11 ke 13
2.2.1 Cae định nghĩa : - c2 c 2 201113121101 111155 1111858 1111181 1E ke 15
2.2.2 Vi dụ về cách hoạt động của Riêng tư Vi phân 2 2++s+s+ 182.3 Hoc sâu ứng dụng riêng tư vi phân - - - -c + ck k2 +3 si 19
2.3.1 Vídụvề Kỹ thuật Riêng tư Vi phân được áp dụng vào mô hình 20
2.3.2 Mô tả thuật toán DP-SGÏ) Q11 HH TT ng ghe 21
2.4 Tan công Suy diễn Thành viên - 2-5 2S S9 ‡EEEE£EEEEEEEEEEEErrkerrvee 222.5 Kha năng định danh vi phân (Differential Identifiability) - 242.6 Cac chỉ số định danh cho riêng tư vi phân -2- 2 s22 z+£+£zzxszzcs2 26
2.6.1 _ Liên hệ giữa Membership Inference va Differential Identifiability 262.6.2 Chi số Posterior Belief trong việc nhận dang bộ dữ liệu dao tạo 2726.3 Chỉ số Advantage trong việc nhận dạng bộ dữ liệu dao tạo 282.6.4 _ Giới hạn trên cho Posterior BeÌIef - << 55 c5 < 5< << << ssx 28
Trang 42.6.5 Giới hạn trên cho AdVanfaØG ch ng kệ, 30
2.6.6 Thay thế thành phan tuần tự với RDP ¿- 2 5225++s+2x+zvzxrzxses 31
Chương 3 CAI ĐẶT THỰC NGHIỆM - 2-2 +E++E+E+2EE2EEEEEEtrEerkrrrreree 34
3.1 Tổng quan mơ hình 2-52 +E9SE+E+E£EE£E£EE2EEEEEEEEEEEEEEEEEEEEEEEEErkrrkerres 34
3.1.1 Tao bộ dữ liệu từ độ nhạy cục ĐỘ ¿5-52 22+ ++sseersessesss 35
3.1.2 Mơ hình nạn nhân với DPSGT - - 2< 22c + 1332222222111 sex 383.1.3 Mơ hình tấn cơng - ¿+2 2E 2E 9E1111E11211111111111 111 1x xe 403.2 Bộ đữ liệu - E222 22k 2E 22122121121 211111211 11121 Egerey 4I3.3 Cài đặt các thơng số bảo mật và độ TAY ooo eee eeecceeccceseeeceseeeteeeeeaeeeteeeeeeees 433.4 Định lượng về Niềm tin hậu nghiệm va Lợi thế - - eee 443.5 Phương pháp đánh g1á €pSIÏOn 2c c1 233211132 ESEESEErrrrrsrkrree 46
Chương 4 KET QUÁ THỰC NGHIỆM -2- ¿=2 +E+E+E++E+EzEEezxeEvrezrecee 49
4.1 Đánh giá độ nhạy - 2 111g TH kp 49 4.2 Định lượng khả năng nhận dạng cho DPSGD - 55 «+ s2 s+x+sss2 504.3 Đánh đổi độ chính xác của mơ hình áp đụng DP - 22s <+2 53Chương 5 KET LUẬN & HƯỚNG PHAT TRIEN cccccccsscescsssessessesscsteseseessens 57
5.1 KGtuainesccecccecccecescssesessessesessesscsvescssesucsessesessecscsessvsnssesesssesessessssesseseseeseas 575.2 Hạn hE viecceccececcssessesessesssssssesecsesscsucsssssssssessesscsussssessesussessssissessesessessesesseeseas 575.3 Hướng phát triỂn - 5: tk St 121212111 215112111112121 1111111111 yeu 57
Trang 5DANH MỤC HÌNH ẢNH
Hình 1.1 Biéu đồ thể hiện mức độ quan tâm theo thời gian của cụm từ “MachineLearning” từ 1/2010 đến 3/20244 -2- 2222 SE2E22E12122121E2121211211112111121121 212 xe 4Hình 2.1 Kiến trúc mạng nƠ-TOI - 2 52+SE+E2EEÊEE2EEEEEEEEEEEEEEEEEEEESEEEErkrrkrrrei liHình 2.2 Kiến trúc mạng nơ-ron nhân tạo truyền thăng ba lớp đơn giản 13Hình 2.3 Mang ma trận RGB 6 x 6 x 3 [28] - S S12 9 e, 14 Hình 2.4 Minh hoạ thuật toán CNN [29] 6 - + 11 312 1211 1 93 vn re 14Hình 2.5 Cách thức hoạt động của Tan công Suy diễn thành viên [33] 23Hình 3.1 Tổng quan mô hình đề tài sử đụng - - - ¿5s SE EE+E££EEeExEzkerees 35Hình 3.2 Quá trình tìm kiếm độ nhạy dữ liệu tối thiểu và tối đa 37
Hình 3.3 Mô hình nạn nhân với DPSGT 2 E22 2+ + ***£*£*£SSESEsEesssseses 38
Hình 3.4 Mô hình tan công ¿t1 2E9E15E9E1215 11215152121 12111E 111111111 xe, 40Hình 4.1 Độ nhạy theo các Epoch với các trường hợp Global và Local giới hạn hoặc [3100503108011 e 50Hình 4.2 Độ nhạy trong các thiết lập DP toàn cục hoặc cục có giới hạn và không giới
0 0Ẻ77 ố.ốẼẼ K6 mm ằẮẽ 6ã 51Hinh 4.3 Két qua tôn thất thực nghiệm dựa trên chỉ số niềm tin hậu nghiệm 52Hình 4.4 Đánh giá độ chính xác của các thiết lập DP toàn cục hoặc cục có giới hạn và
không giới hạn - - - 1121125111911 TH TH TH TH HH HT 53Hình 4.5 Ảnh hưởng của các giá trị đối với độ chính xác của mô hình theo thiết lập
Global Unbounded -.- - 2 2 E222 23222 325231333311533335 5355355553111 111111111 xxx xxx 5S
Trang 6DANH MỤC BANG
Bảng 1 Độ phức tạp thuật toáncho —, , àĂSiScseerseBang 2 Bảng các tham số được cài đặt trong thực nghiệm - 555522
Trang 7DANH MỤC TU VIET TAT
Từ viết tắt Viết đầy đủ Ý nghĩa
DP Differential Privacy Riêng tư vi phân
MI Membership Inference Suy dién thanh vién
DI Differential Identifiability Kha nang nhan dang vi phanMIA Membership Inference Attacks | Tấn công suy diễn thành viên
Differential Identifiability ,
DIA Tan công nhận dang vi phân
Attack
ML Machine Learning Học máy
DL Deep Learning Hoc sau
Al Artificial Intelligence Tri tué nhan tao
ANN Artificial Neural Network Mang no-ron nhan tao
CNN Convolutional Neural Network | Mang no-ron tich chap
GDPR General Data Protection Quy định bảo vệ dữ liệu chung
Regulation
et Health Insurance Portability and | Dao luật 7 trach nhiệm giải trình
Accountability Act va cung cap bao hiém y té
LR Logistic Regression Hồi quy Logistic
SGD Stochastic Gradient Descent Thuat toan DP-SGD
FTLR Follow the Regularized Leader | Thuật toán DP-FTLR
LS Local Sensitivity Độ nhạy cục bộ
GS Global Sensitivity Độ nhạy toàn cục
MLaaS Machine Learning asa Service | Dịch vụ học máy
Trang 8TÓM TẮT KHÓA LUẬN
Các mô hình mạng nơ-ron đang có ảnh hưởng sâu rộng trong nhiều lĩnh vực, từcông nghệ đến y học và tài chính Tuy nhiên, sự tiến bộ này cũng đi kèm với nhữngnguy cơ liên quan đến việc rò rỉ thông tin cá nhân Một trong những vấn đề lớn nhất làviệc sử dụng dữ liệu cá nhân trong quá trình huấn luyện mô hình Khi mô hình đượchuấn luyện trên dữ liệu cá nhân, có thể xảy ra nguy cơ rò rỉ thông tin riêng tư của người
dùng nếu đữ liệu không được bảo vệ đúng cách Hơn nữa, khi các mô hình được triển
khai và sử dụng trong các ứng dụng thực tế, có nguy cơ mà các dự đoán của chúng cóthé tiết lộ thông tin cá nhân của người dùng thông qua việc phân tích đặc trưng của ditliệu đầu vào Điều này có thé dẫn đến việc xâm phạm quyền riêng tư và gây ra hậu quảxau cho người dùng Dé giải quyết van đề nay, cần có các biện pháp bảo vệ dữ liệu mạnh
mẽ và các kỹ thuật mới để đảm bảo rằng các mô hình mạng nơ-ron không chỉ mạnh mẽ
về hiệu suât mà còn an toàn và tôn trọng quyên riêng tư của người dùng.
Trong đề tài này, chúng tôi nghiên cứu và ứng dụng kỹ thuật riêng tư vi phân(Differential Privacy) nhằm ngăn chặn các cuộc tấn công suy diễn thành viên trong các
mô hình mạng nơ-ron với mục tiêu đạt được sự bảo vệ tính riêng tư tốt mà không có sựđánh đổi quá lớn về độ chính xác của mô hình Cụ thể, nhóm sử dụng một biến thể của
DP là Rényi-DP để áp dụng vào giai đoạn huấn luyện và thực hiện điều chỉnh các siêutham số dé tối đa hóa độ chính xác của mô hình, bao gồm: hệ số nhiễu, định mức cắt
gradient, tốc độ học tập và microbatch Áp dụng các mô hình Convolultional Neural
Network (CNN) dé làm mô hình nạn nhân và tan công suy diễn thành viên (MIA) délàm mô hình tấn công Kết quả thực nghiệm cho thấy việc áp dụng DP trong mô hìnhcủa chúng tôi mang lại hiệu quả bảo vệ nhất định cho bộ đữ liệu được sử dụng
Nội dung khoá luận gồm 5 chương chính:
— Chương 1 TONG QUAN DE TÀI
— Chương 2 CƠ SỞ LÝ THUYET
— Chương 3 CÀI ĐẶT THỰC NGHIỆM
— Chương 4 KET QUÁ THUC NGHIEM
— Chương 5 KET LUẬN VA HƯỚNG PHAT TRIÉN
Trang 9MỞ ĐẦU
Trong những năm gan đây, sự bùng nô của dữ liệu đã đưa con người vào thời đại
mà thông tin không chỉ là quyền lực mà còn là nguồn tài nguyên vô cùng quý giá, địnhhình sự phát triển toàn diện của xã hội và kích thích sự tiến bộ trong nhiều lĩnh vực khácnhau Điều này cũng mang đến những thách thức trong việc bảo vệ dữ liệu riêng tư củacác cá nhân, trong đó tan công suy diễn thành viên (MIA) là một thách thức đáng kê đốivới sự bảo vệ tính riêng tư Các nghiên cứu gần đây đã chỉ ra rằng các mô hình học máy
dễ bị tắn công suy diễn thành viên, nhằm mục đích suy ra liệu bản ghi dữ liệu có được
sử dung dé đào tạo mô hình mục tiêu hay không MIA trên các mô hình ML có thé trựctiếp dẫn đến vi phạm quyên riêng tư [1]
Dé thấu hiểu sâu rộng về ý thức pháp luật và đồng thời chứng minh sự cần thiết
của những nghiên cứu về bảo vệ dữ liệu cá nhân, chúng tôi đề cập đến việc đặt cơ sở lýluận trên những nghị định pháp luật quan trọng liên quan Tại Việt Nam, Nghị định s613/2023/NĐ-CP của Chính Phủ ngày 17 tháng 04 năm 2023 về bao vệ đữ liệu cá nhân
đã đề cập đến những quyền và nghĩa vụ bảo vệ dữ liệu cá nhân của cơ quan, tổ chức, cánhân và các chủ thể có liên quan Tương tự, pháp luật của Liên minh châu Âu EU cũng
có các quy định về bảo vệ dữ liệu cá nhân được ghi nhận tại Quy định bảo vệ đữ liệuchung 2016/679 (GDPR), GDPR không chi tập trung vào việc bảo vệ quyền riêng tưcủa cá nhân mà còn đề cập đến những nguyên tắc cơ bản như tính minh bạch và quản lý
dữ liệu Tại Hoa Kỳ, Đạo luật Di động và Trách nhiệm Bảo hiểm Y tế (HIPAA) là một
ví dụ khác về quy định pháp luật quan trọng liên quan đến bảo vệ đữ liệu cá nhân.HIPAA chủ yếu tập trung vào lĩnh vực y tế, nơi quản lý thông tin sức khỏe của cá nhân
là vô cùng quan trọng Qua đó, ta thấy rõ rằng nghiên cứu về bảo mật dữ liệu không chỉ
là một nhiệm vụ khoa học mà còn là sự đáp ứng tích cực đối với các yêu cầu và quyđịnh pháp luật của các quốc gia trên thế giới
Hiện nay, đã có nhiều nghiên cứu chỉ ra mức độ phô biến và nguy hiểm của tấncông MIA Nghiên cứu [1] của Reza Shokri và các cộng sự đã chứng minh khả năng tancông MIA hiệu quả với độ chính xác cao khoảng 90% trên các mô hình SVM với da dạng các bộ dữ liệu khác nhau Tương tự với bai báo [2] do Nicolas Papernot và các
Trang 10cộng sự thực hiện tiếp tục khẳng định về một phương pháp tấn công hộp đen một cách
thực tế trên các bộ dit liệu hình ảnh với tỉ lệ sai lệch đạt từ 20 - 60%
Tuy nhiên, các phương pháp bảo vệ truyền thong như mã hóa và ân danh dit liệu
có thé không hiệu quả trong việc chống lại tan công MIA, hơn nữa chúng cũng có thélàm tăng chi phi tính toán và lưu trữ Do đó, cần có những phương pháp mới dé bảo vệquyên riêng tư dữ liệu hiệu quả hơn mà không ảnh hưởng đến độ chính xác và hiệu quacủa mô hình học máy Lúc này, Riêng tư vi phân (DP) [3] nỗi lên như một giải pháp đầyhứa hẹn, đặc biệt là khi các tuyên bố chính thức về bảo mật dữ liệu được ban hành.Trong lĩnh vực học máy, DP đã trở thành công cụ mạnh mẽ dé đảm bao rang viéc xu ly
dữ liệu không làm mất đi tính riêng tư của người dùng DP cũng đã cho thay rang nókhông chỉ hữu ích trong việc bảo vệ quyền riêng tư mà còn trong việc đối phó hiệu quả
với các mỗi de doa đến tính riêng tư từ các mô hình tan công phức tạp như MIA [4]
Năm bắt được tình hình đó, nhóm tác giả muốn thông qua đề tài để thêm nhữngcải tiến trong việc thực hiện phòng thủ cho các mô hình Neural Network, đặc biệt làchống lai các cuộc tấn công Suy diễn thành viên hộp đen (black-box MI) Mục tiêu chínhcủa đề tài là áp dụng Riêng tư vi phân chống lại các cuộc tấn công suy diễn thành viên:
áp dụng hiệu quả Renyi-DP vào quá trình đạo tạo của các mô hình CNN, điều chỉnh một
số siêu tham số dé cải thiện hiệu suất của mô hình, cũng như thực hiện tan công bang
black-box MI lên các mô hình Phạm vi và đối tượng nghiên cứu bao gồm các mô hìnhhọc may CNN, riêng tu vi phân, tan công suy diễn thành viên, phân loại hình ảnh
Trang 11Chương 1 TONG QUAN DE TÀI
1.1 Tình hình nghiên cứu
Trong thời đại khoa học máy tính và AI phát triển như vũ bão, học máy (Machine
Learning) đã trở thành một thuật ngữ không còn xa lạ Chỉ với thao tác đơn giản là tra
cứu từ khóa "Học Máy" hay "Machine Learning" trên Google, ta nhận được hơn 2 tỷ kếtquả trả về trong vòng chưa đầy một giây Theo số liệu nghiên cứu của Google Trends,mức độ quan tâm phổ biến theo thời gian của cụm từ “Machine Learning” từ tháng1/2010 đến tháng 3/2024 liên tục tăng theo thời gian
Biêu do mức độ quan tâm của người dùng về cụm từ "Machine
Learning" theo sô liệu từ Google Trends
Con số không lồ này minh chứng cho sự bùng nỗ mạnh mẽ của ML trong mọi lĩnh
vực của đời sống, từ kinh tế, tài chính, y tẾ, giáo dục, giải trí, an ninh mạng, Cu thể,
cuộc thảo luận [5] của Anjali và giảng viên đánh giá một số ứng dụng của học máy tronglĩnh vực giáo dục như sau: dự đoán kết quả học tập của học sinh, chấm điểm tự động
công băng, đê xuât và tô chức lộ trình cho học sinh với nội dung học tập có săn, dự đoán
sự phát triển của học sinh trong tương lai,
2024-03
Trang 12Tuy nhiên, sự phát triển của ML cũng đi kèm với những thách thức, đặc biệt là van
đề bảo mật đữ liệu Các mô hình học máy được đảo tạo trên tập dữ liệu không 16, thuongchứa thông tin nhạy cam của cá nhân Việc bảo vệ dit liệu khỏi các cuộc tấn công mạng,đặc biệt là tan công suy diễn thành viên (MIA), là vô cùng khan cấp
Tan công suy diễn thành viên (MIA) là một loại tan công mạng nguy hiểm là mộtmôi de doa nghiêm trọng đối với sự riêng tư của người dùng, cho phép kẻ tấn công dựđoán xem một cá nhân cụ thé có thuộc tập dữ liệu dao tạo của mô hình học máy hoặchọc sâu hay không Từ đó, MIA có thể gây ra nhiều hậu quả nghiêm trọng, bao gồm:
- Vipham quyên riêng tu: Kẻ tan công có thé thu thập thông tin cá nhân nhạy cảm
của người dùng.
- Gidm độ tin cậy của mô hình: MIA có thé anh hưởng đến độ chính xác và hiệu
quả của mô hình Học Máy.
- Cac hành vi gian lận: Kẻ tan công có thê lợi dung MIA dé thực hiện các hành vi
gian lận, giả mạo danh tính.
Trong những năm gan đây, nhiều nghiên cứu đã chỉ ra khả năng tiết lộ thông tin
cá nhân từ các mô hình học sâu được công khai Nghiên cứu [1] của Reza Shokri và các
cộng sự vào năm 2017 là một trong những nghiên cứu đầu tiên chứng minh tính khả thicủa cuộc tấn công suy diễn thành viên Sau đó, nhiều kỹ thuật tấn công mạnh hơn liêntục được đề xuất dựa trên nền tang là tần công suy diễn thành viên, bài báo [6] củaAlexandre Sablayrolles và nhóm tác giả (2019) đã áp dụng phương pháp tấn công
Membership Inference Attack (MIA) trên hai mô hình khác nhau: Convolutional NeuralNetwork (CNN) với tan công black-box va Logistic Regression (LR) với tắn công white-
box Mục tiêu là đánh giá hiệu quả của chiến lược tối ưu áp dung Bayes cho MIA trong
từng trường hợp Kết quả cho thấy, tấn công white-box trên mô hình LR đạt độ chính
xác cao nhất lên đến 90% Mặc dù tấn công black-box trên mô hình CNN không dathiệu quả cao như vậy, nhưng vẫn cho kết quả tốt hơn so với ngẫu nhiên, chứng tỏ khảnăng ứng dụng của MIA trong cả hai kịch bản tan công Qua những thực nghiệm trên,
ta hoàn toàn thấy được khả năng xâm nhập và gây ra những hậu quả nghiêm trọng củaMIA trong các mô hình học máy.
Trang 13Do đó, để bảo vệ tính riêng tư của dữ liệu, các biện pháp được đề xuất như làm mờ
dữ liệu (data obfuscation) hay giảm nhiễu (noise injection) nhưng vẫn còn nhiều hạnchế Một giải pháp tiềm năng là sử dụng kỹ thuật riêng tư vi phân (Differential Privacy)
dé chống lại các cuộc tan công suy diễn thành viên đã được thực hiện trong nghiên cứu[7] của Rahman và các cộng sự vào năm 2018 bằng cách thêm giá trị nhiễu Laplacetrong quá trình truyền ngược của mô hình học sâu sử dụng 2 phương pháp cài đặt:
Central DP — thêm nhiễu tập trung trước khi chia sẻ mô hình và Local DP — thêm nhiễu
riêng trên từng điểm dữ liệu trước khi cập nhật Các mô hình học sâu riêng tư có thé bảo
vệ quyên riêng tư trước đối thủ mạnh, nhưng phải hy sinh tiện ich mô hình đáng ké Khicung cấp mức tiện ích cạnh tranh, các mô hình này không hoàn toàn ngăn chặn được
các cuộc tân công quyên riêng tư hiện dai, cụ thê là tân công suy diễn thành viên.
Từ những luận điểm trên, nhóm quyết định sử dụng Rényi Differential Privacy(RDP) đã được cải tiến hơn so với DP truyền thống So với DP, RDP có khả năng đolường mức độ rủi ro mất mát tính riêng tư chặt chẽ và chính xác hơn Kỹ thuật này đãđược chứng minh hiệu quả vượt bậc so với phương pháp truyền thống qua nghiên cứu[8] của Mironov và Google Brain công bố vào năm 2017 và cải tiến [9] của ChengXianFu cùng các cộng sự đã chứng minh kỹ thuật RDP vượt trội hơn DP thông thường
như sau: cho phép đánh giá chính xác mức độ rò ri thông tin bằng cách điều chỉnh tham
số a và được đảm bảo thắt chặt hơn so với DP Tương tự, bài báo [10] của Yuqing Zhu
và Yu-Xiang Wang thực hiện lay mẫu phụ Poisson trên RDP góp phan giới hạn việc rò
ri thông tin, giảm độ phức tạp thuật toán va tăng hiệu qua bảo mật.
Một số nghiên cứu đã đề cập trước đây về khả năng chống chịu của DP trước MIA
còn hạn chế, đặc biệt là khi áp dụng cho các mô hình phức tạp, hiệu quả của phươngpháp này trước các cuộc tan công đang là một van dé dang được nghiên cứu sâu rộng
Nhóm nhận thức được trước nhu cầu đữ liệu cá nhân ngày cảng cao, MIA là một mối
đe dọa nghiêm trọng đối với an ninh dữ liệu trong các ứng dụng học máy, nhất là trongcác lĩnh vực nhạy cảm như y tế và tài chính Cần phải có những nghiên cứu dé đưa rađánh giá và cải thiện khả năng chống chịu của phương pháp DP trước các cuộc tan côngsuy diễn thành viên diễn ra ngày càng tỉnh vi, định hướng những giải pháp thực tế cóthể áp dụng trên các mô hình học máy đang sử dụng
Trang 14Dé đạt được những mục tiêu trước mat, nhóm thực hiện khoá luận cân thực hiện
những nhiệm vụ sau:
- Nghién cứu và phân tích các kỹ thuật DP hiện có, tập trung vào các phương pháp
DP cải tiến như RDP
- _ Đánh giá hiệu quả và những điểm hạn chế của phương pháp DP trong việc bao
vệ dữ liệu cá nhân trước các cuộc tấn công MIA hiện đại trên các mô hình học
máy.
- _ Hiện thực các giải pháp mới hiệu qua dé cải thiện khả năng chống lai MIA của
DP trong các mô hình học máy được đề xuất
1.2 Các nghiên cứu liên quan
Trong lĩnh vực học sâu, đã có nhiều tiễn bộ đáng kế trong việc nhận dạng hìnhảnh, xử lý ngôn ngữ tự nhiên, và nhiều ứng dụng khác Các công trình tiêu biểu củaLeCun, Bengio, và Hinton (2015) [11] cung cấp cái nhìn tổng quan về sự phát triển củahọc sâu và các ứng dụng khác nhau, đặt nền tảng cho việc điều chỉnh các mô hình họcsâu cho các nhiệm vụ khác nhau, bao gồm cả các ứng dụng bảo vệ quyền riêng tư Nhờnhững tiến bộ này, chúng ta có thể hiểu sâu hơn về cách tích hợp các cơ chế bảo vệquyên riêng tư vào mô hình học sâu.
Một trong những cơ chế bảo vệ quyền riêng tư nổi bật là Riêng tư vi phân(Differential Privacy - DP) DP là một khung toán học mạnh mẽ được giới thiệu bởiCynthia Dwork (2006) [12] nhằm cung cấp các đảm bảo về quyền riêng tư khi phân tích
và chia sẻ dữ liệu Khái niệm DP đảm bảo rằng việc thêm hoặc loại bỏ một mục dữ liệuđơn lẻ trong cơ sở dữ liệu không ảnh hưởng đáng kể đến kết quả của bat kỳ phân tích
nào, từ đó bảo vệ các mục dữ liệu cá nhân Việc này mở ra hướng nghiên cứu mới trong
việc áp dung DP vao các mô hình học sâu để đảm bảo răng dữ liệu cá nhân không bị lộ.
Tiếp nói những nghiên cứu về DP, việc tích hợp riêng tư vi phân vào các mô hìnhhọc sâu đã trở thành một lĩnh vực nghiên cứu quan trong Abadi và cộng sự (2016) [13]
đã giới thiệu thuật toán Differentially Private Stochastic Gradient Descent (DPSGD), ápdụng nhiễu vào gradient trong quá trình huấn luyện để đảm bảo quyền riêng tư Cáchtiếp cận nay đóng vai trò quan trọng trong việc huấn luyện các mô hình học sâu trên cáctập dữ liệu nhạy cảm mà không làm suy giảm quyền riêng tư cá nhân Tuy nhiên, sự cân
Trang 15băng giữa quyên riêng tư và tính hữu ich vẫn là một thách thức trung tâm, với các nghiên
cứu đang tiệp tục tập trung vao việc tôi ưu hóa sự cân băng này.
Một van dé lớn liên quan đến quyền riêng tư trong hoc sâu là tan công suy diễnthành viên (Membership Inference - MI) Các cuộc tan công này đặt ra mối đe dọa dang
kế đối với quyền riêng tư của các mô hình học máy Shokri và cộng sự (2017) [1] đãchứng minh khả năng của các cuộc tấn công MI chống lại các mô hình học sâu, làm nổibật sự dé bị tan công của các mô hình này Hiệu quả của các cuộc tấn công MI phụ thuộcvào độ phức tạp của mô hình, phân phối dit liệu, và kiến thức của kẻ tan công Việc pháttriển các mô hình bảo vệ quyền riêng tư mạnh mẽ là rất quan trọng dé chống lại các cuộctân công này.
Nhiều chỉ số đã được đề xuất dé đánh giá các rủi ro định danh trong các hệ thốngriêng tư vi phân Các chỉ số như Bayes Posterior Belief đo lường sự gia tăng niềm tincủa kẻ tấn công về sự hiện điện của dữ liệu cá nhân trong tập dữ liệu, chỉ sé Advantageđịnh lượng lợi thé của kẻ tan công so với việc đoán ngẫu nhiên, và các giới hạn lý thuyết
về xác suất thành công của kẻ tan công Khung Rényi Differential Privacy (RDP) cungcấp một khung tổng quát cho riêng tư vi phân sử dụng phân ky Rényi, trong khi nghiêncứu về thành phần tuần tự của DP xem xét cách các đảm bảo về quyền riêng tư suy giảmkhi áp dụng nhiều cơ chế riêng tư vi phân tuần tự Các nghiên cứu gần đây như củaHumphries và cộng sự [14] đã khám phá mối quan hệ giữa các chỉ số này và các tácđộng của chúng đối với việc bảo vệ quyền riêng tư thực tế, cung cấp cái nhìn sâu sắc vềsức mạnh và hạn chê của các cơ chê bảo vệ quyên riêng tư khác nhau.
Bên cạnh đó, việc lựa chọn và diễn giải các tham số DP cũng là một phần quantrọng trong nghiên cứu này Lee và Clifton [15] đã đề xuất DI như một khái niệm riêng
tư Bayesian, đánh giá niềm tin hậu nghiệm tối đa của kẻ tắn công trên một tập hợp hữu
hạn các tập dữ liệu có thé Cong trinh cua ho tap trung vao co ché Gaussian da chiéu
(, ) trong thành phan RDP Li và cộng sự [16] mở rộng ứng dung của DI bằng cáchxem xét quá trình ra quyết định của kẻ tan công giữa hai tập dữ liệu lân cận _„,
Kasiviswanathan và cộng sự [17] cung cấp một cách diễn giải Bayesian về DP, đồngthời thảo luận về giới hạn niêm tin hậu nghiệm và độ nhạy cục bộ.
Trang 16Hsu và cộng sự [18] nghiên cứu giá trị của từ quan điểm kinh tế, đề xuất một phânphối xác suất trên tập hợp các sự kiện tiêu cực và chi phí bồi thường cho các đối tượng
bị ảnh hưởng Abowd và Schmutte [19] mô tả một khung lựa chọn xã hội cho việc chọn
, tương tự với trọng tâm của chúng tôi về lợi thế của kẻ tan công DP mạnh Eibl vàcộng sự [20] đề xuất một sơ đồ cho phép các nhà cung cấp năng lượng và người tiêudùng đàm phán các tham số DP bằng cách thiết lập một tỷ lệ nhiễu có thể chấp nhậnđược Điều này phù hợp với cách tiếp cận của chúng tôi khi biến đổi tỷ lệ nhiễu thànhniềm tin hậu nghiệm cá nhân của kẻ tấn công DP đối với mỗi người tiêu dùng năng
lượng.
Việc đánh giá DP trong học sâu chủ yếu tập trung vào các cuộc tấn công suy diễnthành viên (MI) Yeom và cộng sự [21] đã khám phá cách giới hạn lợi thế thành viêntrong các tham số DP Trong khi các cuộc tấn công MI tiết lộ các tham số DP trong thực
tế, nghiên cứu của chúng tôi nhấn mạnh việc bảo vệ chống lại các kẻ tấn công mạnh
hơn, như đã được Jayaraman và cộng sự [22] xác thực thực nghiệm Hơn nữa,
Humphries va cộng sự [14] đã đề xuất một giới hạn cho lợi thế thành viên vượt trội so
với công trình của Yeom và cộng sự [21] bằng cách phân tích các kẻ tấn công với thôngtin bé sung Nghiên cứu của chúng tôi mở rộng những phát hiện này bằng cách tích hợpphân tích kẻ tấn công, làm rõ những hệ quả thực tiễn của việc từ bỏ giả định độc lập vàphân phối đồng đều
Việc tích hợp riêng tư vi phân vào học sâu và đánh giá các rủi ro quyền riêng tưthông qua các chỉ số như DI và MI là các lĩnh vực nghiên cứu quan trọng Các nghiêncứu này nhấn mạnh các thách thức và tiến bộ trong việc phát trién các mô hình bảo vệquyền riêng tư mạnh mẽ, đảm bảo quyền riêng tư đữ liệu trong khi vẫn duy trì tính hữuích của các hệ thống học máy Nghiên cứu của chúng tôi dựa trên những nền tảng này,bên cạnh đó cũng áp dụng các phương pháp và chỉ số dé tăng cường đảm bảo quyềnriêng tư chống lại các cuộc tấn công suy diễn thành viên.
Trang 17trình đảo tạo mô hình và tinh chỉnh các siêu tham sô đê so sánh, đánh giá mức độ bảo mật của mô hình trước sự tân công MI.
1.4.
1.5.
Đối tượng nghiên cứu
Kỹ thuật riêng tu vi phân nói chung và biến thể Rényi-DP nói riêng
Tan công suy diễn thành viên
Các mô hình học máy.
Xử lý và phân loại đữ liệu cấu trúc hoặc phi cấu trúc
Phạm vi nghiên cứu
Nghiên cứu kỹ thuật riêng tư vi phân trong việc bảo vệ dữ liệu riêng tư.
Nghiên cứu mạng nơ-ron: Convolutional Neural Network (CNN).
Nghiên cứu các phương pháp áp dụng biến thể Rényi-DP vào quá trình đào tạo
mô hình học máy như DP-SGD, DP-FTRL,
Nghiên cứu các phương pháp tinh chỉnh siêu tham số dé đạt được DP-ML với sự
cân băng giữa quyên riêng tư và độ chính xác của mô hình.
Nghiên cứu kỹ thuật tắn công suy dién thành viên nói chung và tan công suy diễn
thành viên hộp đen nói riêng.
10
Trang 18Chương 2 CƠ SỞ LÝ THUYET
2.1 Các khái niệm về học sâu
2.1.1 Học sâu
Học sâu (Deep Learning) [23] là một lĩnh vực con đầy tiềm năng thuộc trí tuệ
nhân tao (Artificial Intelligence), tập trung vào việc xây dựng và huấn luyện các mạngnơ-ron nhân tạo (Artificial Neural Network — ANN) có cấu trúc đa lớp phức tạp Mụctiêu chính của học sâu là phát triển các mô hình có khả năng tự động học biểu diễn vàtrích xuất thông tin từ dé liệu một cách hiệu quả, vượt trội so với các phương pháptruyền thống
Học sâu là một nhánh của học máy dựa trên kiên trúc mạng nơ-ron nhân tạo ANN
sử dụng các lớp nút được kết nôi với nhau được gọi là nơ-ron, hoạt động cùng nhau đê
xử lý và học từ đữ liệu đâu vào Trong một mạng nơ-ron sâu được kêt nôi đây đủ, có một lớp dau vào và một hoặc nhiêu lớp ân được kêt nôi lân lượt với nhau.
Thuật toán Deep Learning hoạt động như sau: Các dòng thông tin sẽ được trải qua
nhiều lớp cho đến lớp sau cùng Mỗi nơ-ron nhận đầu vào từ các nơ-ron lớp trước hoặc
lớp đầu vào Lớp đầu vào sẽ tiếp nhận dữ liệu thô và đầu ra của một nơ-ron trở thành
đầu vào của các nơ-ron khác trong lớp tiếp theo của mạng và quá trình này tiếp tục chođến khi lớp cuối cùng tạo ra đầu ra của mạng Các lớp của mạng thần kinh biến đổi dữliệu đầu vào thông qua một loạt các phép biến đổi phi tuyến tính, cho phép mạng học
các biéu diễn phức tạp của dữ liệu dau vào.
%
ỞỎOOO
a S i GD GD ⁄ #⁄/⁄/
CFG SHOH DD edodegogogopepe ỚỞOOOOODObD
Input Layer € R® Hidden Layer € R® Hidden Layer € R° Hidden Layer € R® Output Layer € R*
Hình 2.1 Kiến trúc mang no-ron
11
Trang 19Trong mạng nơ-ron thông thường có ba loại lớp:
- Lớp đầu vào: Đây là lớp mà chúng ta cung cấp đầu vào cho mô hình Số
lượng tế bào thần kinh trong lớp này băng tổng số thuộc tính trong dir liệu(số pixel trong trường hợp là hình ảnh)
- Lop an:
o Đầu vào: từ lớp đầu vào sau đó được đưa vào lớp an Có thé có
nhiều lớp an tùy thuộc vào mô hình và kích thước dữ liệu Mỗi lớp
an có thé có số lượng nơ-ron khác nhau, thường lớn hơn số lượngđối tượng
o Đâu ra: của mỗi lớp được tính bằng cách nhân ma trận của đầu ra
của lớp trước với các trọng số có thê học được của lớp đó và sau đóbằng cách cộng các độ lệch có thé học được, sau đó là hàm kích hoạt
trở thành mạng phi tuyến
- Lớp đầu ra: Đầu ra từ lớp ân sau đó được đưa vào một ham logistic như
sigmoid hoặc softmax dé chuyên đổi đầu ra của mỗi lớp thành điểm xácsuất của mỗi lớp
2.1.2 Mang nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (ANN) [24, 25, 26] là các hệ thống xử lý tính toán đượclấy cảm hứng nhiều từ cách hoạt động của hệ thống thần kinh sinh học (chăng hạn nhưnão người) chứa các nơ-ron nhân tạo được gọi là các đơn vị Các đơn vị này được sắpxếp thành một loạt các lớp cùng nhau tạo thành toàn bộ mạng nơ-ron nhân tạo trong một
hệ thống Một lớp chỉ có thể có hàng chục don vi hoặc hàng triệu đơn vi vi điều này phụ
thuộc vào cách các mạng no-ron phức tạp sẽ được yêu cầu dé tìm hiểu các mẫu ẩn trong
tập dữ liệu Thông thường, Mạng nơ-ron nhân tao có lớp đầu vào, lớp đầu ra cũng nhưcác lớp an Lớp đầu vào thường là các vector đa chiều nhận dữ liệu từ bên ngoài màmạng nơ-ron cần phân tích hoặc tìm hiểu Sau đó, đữ liệu này phân phối đi qua một hoặcnhiều lớp ân dé chuyên đổi đầu vào thành dir liệu có giá trị cho lớp đầu ra gọi là quátrình học tập, có nhiều lớp ẩn xếp chồng lên nhau thường được gọi là học sâu Cuốicùng, lớp đầu ra cung cấp đầu ra dưới dạng phản hồi của mạng nơ-ron nhân tạo đối với
dữ liệu đâu vào được cung câp.
12
Trang 20Trong phân lớn các mạng nơ-ron, các đơn vị được kêt nôi với nhau từ lớp này
sang lớp khác Mỗi kết nối này có trọng số xác định ảnh hưởng của don vị này đến đơn
vị khác Khi dữ liệu được truyên từ đơn vi này sang don vị khác, mạng nơ-ron sẽ tim hiêu ngày càng nhiêu về dtr liệu và cuôi cùng sẽ tao ra dau ra từ lớp dau ra.
Input Layer e R* Hidden Layer € R? Output Layer € R*
Hình 2.2 Kiến trúc mang no-ron nhân tạo truyền thang ba lép don giản
2.1.3 Mang no-ron tích chap
Mang nơ-ron tích chap (CNN) [27] như một phiên ban mở rộng của mang no-ron
nhân tạo (ANN), là một loại kiến trúc mạng nơ-ron học sâu thường được sử dụng trong
thị giác máy tính Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo cho phép máy tínhhiểu và giải thích hình ảnh hoặc dt liệu hình ảnh Mô hình mạng nơ-ron tích chập (CNN)
là 1 trong những mô hình dé nhận dạng và phân loại hình ảnh
Mang nơ-ron tích chập phân loại hình anh bằng cách lay 1 hình ảnh đầu vào May tính coi hình ảnh đầu vào là 1 mảng pixel và nó phụ thuộc vào độ phân giải của hìnhảnh Dựa trên độ phân giải hình ảnh các nơ-ron trong các lớp trong CNN bao gồm cácnơ-ron được tô chức thành ba chiều, chiều không gian của đầu vào (_ - chiéu cao và
- chiều rộng và — - độ dày) Ví dụ dưới đây trong hình Hình 2.3 là mảng ma trậnRGB 6 x 6 x 3 (3 ở đây là giá trị RGB) [28].
13
Trang 21Hình 2.3 Mang ma trận RGB 6 x 6 x 3 [28]
về kỹ thuật, mô hình CNN để huấn luyện và kiểm tra, với mỗi hình ảnh đầu vào
sẽ chuyên nó qua 1 loạt các lớp tích chập với các bộ lọc (Kernels), tổng hợp lại các lớp
kết nối đầy đủ (Fully-Connected) và áp dụng hàm Softmax để phân loại đối tượng cógiá trị xác suất giữa 0 và 1 Hình 2.4 toàn bộ luồng kiến trúc của thuật toán CNN dé xử
lý hình ảnh đầu vào và phân loại các đối tượng dựa trên giá trị
FEATURE LEARNING CLASSIFICATION
Hình 2.4 Minh hoạ thuật toán CNN [29]
Các thành phần chính của kiến trac CNN bao gồm:
- Lớp đầu vào (Input): Lưu trữ các giá trị pixel của hình ảnh tương tự trong
các dạng ANN khác dưới dạng vector.
- Lép tích chập (Convolution layer): trích xuất các tinh năng từ hình ảnh đầu
vào băng việc tính tích vô hướng giữa trọng sô của chúng va vùng kết nôi
14
Trang 22đầu vào Hàm phi tuyến (ReLu) dùng dé áp dụng hàm kích hoạt sigmoidtheo từng phần tử do lớp trước tạo ra.
- _ Lớp tong hợp (Pooling layer): lẫy mẫu xuông doc theo chiều không gian
của đầu vào nhất định, tiếp tục giảm sỐ lượng tham sé trong lần kích hoạt
đó.
- Lớp kết nối đây di (Fully-Connected): chuyên ma trận đặc trưng thành các
vector chứa xác suất của các đối tượng cần dự đoán
2.2 Riêng tư Vi phan
Riêng tư Vi phan (Differential privacy) [12, 30] là một khái nệm bảo mật quantrọng trong việc bảo vệ dữ liệu cá nhân trong các mô hình học máy Giống như k-ândanh (k — Anonymity), DP cung cap một cách thức chính thức dé chứng minh tính riêng
tư của việc phát hành dữ liệu Tuy nhiên, điểm khác biệt quan trọng là DP là một thuộctính của thuật toán, không phải của dữ liệu Điều này có nghĩa là để chứng minh mộtthuật toán tuân thủ DP, chúng ta cần chứng minh răng thuật toán đó khi được áp dụng
sẽ đảm bảo riêng tư vi phân cho dt liệu dau ra.
Giả sử là một tập dữ liệu gồm n bản ghi Một nhà phân tích muốn truy van tap
dữ liệu này, với truy van được định nghĩa là mộthàm nhận đầu vào là một tập dữ liệu
và xuất ra một lượng thông tin nhất định DP được thực hiện thông qua một cơ chế ngẫunhiên _, cơ chế này gần đúng với kết quả của bằng cách thêm nhiễu vào kết quả Tức
là làphiên bản "nhiu"của với ( )= ( )+ ,trongđó là một biến ngẫunhiên được lay mẫu từ một phân phối nhiễu cụ thé
2.2.1 Các định nghĩa
Định nghĩa 1: : Một cơ chế ngẫu nhiên đảm bảo
tính riêng tư nêu với mọi tập dữ liệu lâncận và chỉ khác nhau ở một phân
tử duy nhat, và với mọi tập kêt quả đâu ra _, điêu kiện sau được thỏa mãn:
[ () ] [ ( ) -] (1)
Định nghĩa 1 ngụ ý rằng đầu ra của sẽ gần như giống nhau, du có hay không có
dữ liệu của một cá nhân cụ thể Nói cách khác, nhiễu được tích hợp vào phải đủ để
15
Trang 23đầu ra quan sát được từ không tiết lộ liệu dữ liệu của cá nhân đó có mặt trong tập dữliệu hay không.
Tham số trong định nghĩa được gọi là tham số riêng tư hoặc ngân sách riêng tư.cung cấp một nút điều chỉnh "lượng riêng tư" mà định nghĩa cung cấp Giá trị nhỏhơn đảm bảo bảo mật cao hơn bằng cách giới hạn sự thay đôi xác suất đầu ra khi dữ liệuthay đôi, làm cho kẻ tan công khó phân biệt giữa các tập dữ liệu lân cận Khi € = 0, baomật đạt mức cao nhât.
Định nghĩa 2: ( , ) : hay còn được gọi là Approximate
Differential Privacy, có định nghĩa như sau:
[ () J [ ( ) J+ (2)
Định nghĩa 2 vé( , ) là một sự nới lỏng của định nghĩa , cho phéphai thành phần xác suất trong Định nghĩa 1 khác nhau bởi một giá trị cộng thêm 5 Tham
số ồ kiểm soát mức độ nới lỏng và đại diện cho xác suất that bai trong định nghĩa bảo
mật vi phân ( , ) Với xác suất 1 cơ chế đảm bảo tinh bảo mật Tuy nhiên,với xác suất ồ, cơ chế không cung cấp bảo mật nào và cho phép khả năng 16 dit liệu nhạycảm Do đó, thường được chọn rất nhỏ, thường tỷ lệ nghịch với kích thước của tập dữliệu, để giảm thiểu rủi ro này
Định nghĩa 3: Độ nhạy toàn cục - Global Sensitivity [30]:Cho và ’ là hai bộ
dữ liệu lân cận, với một ham truy vấn : , định nghĩa về độ nhạy toàn cục
Trang 24Định nghĩa 4: Độ nhạy cục bộ - Local Sensitivity [31]: Cho và ` là hai bộ dữliệu lần cận, với một hàm truy vấn : , định nghĩa về độ nhạy toàn cục như
sau:
() ( ) (4)
Khác với khái niệm toàn cục, độ nhạy cục bộ thay đổi theo từng tập đữ liệu cụ thé
và phụ thuộc vào cả hàm truy vấn lẫn dữ liệu _ Nó cung cấp thông tin chỉ tiết hon
về mức độ thay đổi của trong trường hợp cụ thể, nhưng khó tính toán hơn và có théthay đôi lớn giữa các tập dữ liệu khác nhau.
Sự khác biệt chính giữa hai loại độ nhạy này là cung cấp một giới hạn chungcho tất cả các trường hợp, trong khi cung cấp một đánh giá chỉ tiết hơn dựa trên tập
dữ liệu cụ thé thường được sử dụng vì tính ôn định và dễ tính toán hơn, nhưng
có thé cung cap mức độ bảo mật cao hơn nếu được áp dung đúng cách
Rényi Differential Privacy (RDP) [8, 9] là một khái niệm riêng tư vi phân được đềxuất bởi Ilya Mironov vào năm 2017 RDP mở rộng khái niệm bảo mật vi phân truyềnthống bằng cách sử dụng độ lệch Rényi, giúp đánh giá sự khác biệt giữa hai phân phốixác suất Cu thé:
Định nghĩa 5: ( , ) é [8, 9]: Một cơ chế ngẫu nhiên thoa( , ) nếu với mọi tập dữ liệu lâncận và `, độ lệch Rényi củabậc giữa đầuracủa ( )và ( `) bị giới hạn bởi :
Trang 25cung cấp một cách tiếp cận chặt chẽ hơn đề đảm bảo tính bảo mật, cho phépxác định các biện pháp bảo mật mạnh mẽ hơn và khả năng kết hợp của nhiều bước trongmột quy trình bảo mật.
2.2.2 Ví dụ về cách hoạt động của Riêng tư Vi phân
Giả sử chúng ta có cùng một mô hình dự đoán bệnh tiêu đường được huấn luyệnvới dữ liệu y tê của bệnh nhân, bao gôm các đặc điêm như tuôi, cân nặng, mức đườnghuyết, tiền sử bệnh lý và các kết quả xét nghiệm khác Mô hình này được xây dựng trêndịch vụ học máy như một dịch vụ (MaaS).
- _ Trường hợp mô hình không áp dụng DP:
o_ Huấn luyện mô hình không có DP:
Dữ liệu huấn luyện được sử dụng trực tiếp, không có bat ky
nhiễu nào được thêm vào.
Mô hình học máy sẽ ghi nhớ các đặc điểm của dữ liệu huấn luyện
cụ thê
o_ Kẻ tan công suy diễn thành viên:
Kẻ tấn công tạo một hồ sơ giả (giống với hồ sơ của bệnh nhân
cụ thê) và đưa vào mô hình
Nếu mô hình trả về độ chính xác cao, kẻ tấn công điều chỉnh hồ
sơ giả dần dần cho đến khi đạt được độ chính xác tối đa
Độ chính xác cao cho thấy hồ sơ giả rất giống với hồ sơ trongtập dữ liệu huấn luyện
=> Kẻ tấn công kết luận rằng bệnh nhân với các đặc điểm gần đúng đã có trong
tập dữ liệu huấn luyện
18
Trang 26- - Trường hop mô hình áp dụng DP:
o_ Huấn luyện mô hình với DP:
= Trong quá trình huấn luyện, DP thêm nhiễu vào gradient (giá trị
điều chỉnh tham số mô hình) của mỗi lô dữ liệu nhỏ (mini-batch)
= Nhiễu này giúp bảo vệ sự đóng góp của mỗi cá nhân bằng cách
làm mờ ảnh hưởng của bat kỳ điểm dữ liệu cá nhân nao lên môhình cuối cùng
o Độ chính xác với DP:
" Sau khi thêm nhiễu, độ chính xác mà mô hình trả về cho mỗi hồ
sơ giả sẽ không còn phản ánh chính xác liệu hồ sơ đó có trongtập dữ liệu huấn luyện hay không
= Kẻ tan công không thé dựa vào độ chính xác dé suy luận chính
đoán chính xác.
2.3 Học sâu ứng dụng riêng tư vi phân
Học sâu (Deep learning) [11] là một lĩnh vực của trí tuệ nhân tạo tập trung vàoviệc sử dụng mạng nơ-ron nhân tạo nhiều lớp để học và mô hình hóa các mối quan hệ
phức tạp trong dữ liệu.
19
Trang 272.3.1 Ví dụ về Kỹ thuật Riêng tư Vi phân được áp dụng vào mô hình
DP được áp dụng trong quá trình huấn luyện mô hình học máy băng cách thêmnhiễu ngẫu nhiên vào dữ liệu hoặc vào quá trình tính toán các tham số của mô hình Cónhiều phương pháp khác nhau dé thực hiện điều này, nhưng một trong những phươngpháp phô biến nhất là sử dụng thuật toán Differentially Private Stochastic GradientDescent (DP-SGD) DP-SGD (Differentially Private Stochastic Gradient Descent) [13,32] là một phương pháp phô biến dé áp dụng riêng tư vi phân vào học sâu Phương phápnày đảm bảo rằng việc huấn luyện mô hình học sâu không làm lộ thông tin nhạy cảm vềcác dữ liệu cá nhân trong tập dữ liệu DP-SGD được áp dụng vào mô hình như sau:
- Khởi tạo mô hình: Bắt đầu bằng việc khởi tạo mô hình học máy như thông
thường, với các tham số ban đầu được thiết lập ngẫu nhiên hoặc theo một cách
nào đó.
- Chia nhỏ dữ liệu: Tap dit liệu y té được chia nhỏ thành nhiều lô nhỏ
(mini-batches) đề xử lý từng phần một
- Tinh toán gradient: Trong mỗi lô dit liệu, tính toán gradient của hàm mat mát
(loss function) đối với mỗi điểm dit liệu Gradient này chỉ ra cách điều chỉnhcác tham số của mô hình dé giảm hàm mat mát và cải thiện độ chính xác của
mô hình.
- _ Thêm nhiễu vào gradient: Dé bảo vệ đữ liệu, thêm một lượng nhiễu ngẫu nhiên
vào gradient của mỗi lô dữ liệu Nhiễu này thường được lấy từ một phân phối
chuẩn (Gaussian noise) với một độ lệch chuẩn nhất định, được xác định bởi
tham số bảo mật và (các tham số này kiểm soát mức độ bảo mật và độ chính
xác của mô hình).
- _ Cập nhật tham số mô hình: Sử dụng các gradient đã được thêm nhiễu dé cập
nhật các tham số của mô hình Việc thêm nhiễu vào gradient giúp đảm bảorằng mô hình không thé dé dàng suy luận được bat kỳ dit liệu cá nhân nàotrong tập dữ liệu huấn luyện
- Ldap lại quá trình: Quá trình này được lặp lại cho đến khi mô hình hội tụ, tức
là dat được độ chính xác mong muôn ma không làm lộ dữ liệu cá nhân.
20
Trang 282.3.2 Mô tả thuật toán DP-SGD
Thuật toán 1: [13, 32] nêu ra hai thay đôi được giới thiệu trongtiêu chuẩn giúp nó đạt được („ )
g gid trị khởi tạo ngẫu nhiên
Khởi tạo vòng lặp for chạy từ lđến để thực hiện:
“Lô dữ liệu thử nghiệm ngẫu nhiên với xác suất lấy mẫu —
trên mỗi điểm dữ liệu
“ Dữ liệu được lấy mau và thay thé cho từng lô
= Khởi tạo vòng lặp for lồng duyệt qua tat ca các phần tử
Trang 29Ở thuật toán 1, bước đầu tiên là cắt tỉa các gradient trên từng mẫu dữ liệu dé có
một giá trị chuẩn tối đa - clipping norm C, nham giới hạn ảnh hưởng của mỗi mau ditliệu lên gradient tổng Quan trọng là bước này được thực hiện trước khi tính trung bình
các gradient và nó áp dụng cho từng gradient của từng mẫu dữ liệu một cách riêng biệt.
Sau đó, nhiễu được thêm vào gradient tổng hợp của batch trước khi gradient này đượccập nhật vào các tham số của mô hình Việc thêm nhiễu tỷ lệ với chuẩn cắt C đảm bảorằng ảnh hưởng của từng mẫu đữ liệu riêng lẻ (sau khi đã cắt tia) được che giấu hiệu
quả.
2.4 Tan công Suy diễn Thành viên
Suy dién thành viên (Membership Inference) là một mô hình mối đe doa trong họcmay dùng dé định lượng khả năng mà một kẻ tan công có thể xác định chính xác liệumột diém dữ liệu cụ thé có nằm trong tập dữ liệu huấn luyện của mô hình hay không.Yoem và cộng sự [21] đã chính thức hóa khái niệm về MI qua thí nghiệm sau:
Thí nghiệm 1: Thí nghiệm thành viên [21] — thiết lập:
- : kẻ tan công suy dién thành viên (Membership inference adversary)
- : thuật toán hoc tập riêng tu vi phan.
- _ : một số nguyên dương
- : phân phối trên các điểm đữ liệu (_, ).
Gia sử và đặt = (_ ) Thí nghiệm thành viên được hiện thực
Trang 30Vi dụ: Kẻ tân công muôn xác định xem một mâu dữ liệu cụ thê có năm trong tập
huấn luyện của mô hình học máy mà họ đang tương tác qua dịch vụ MLaaS (MachineLearning as a Service) hay không Các bước chỉ tiết như Hình 2.5
3 Once the attack model is built,
the attacker can use a new record that wasn't in the original input
sample (unseen data) to deduce
the class label.
|
Pe Me ee re ee | label \
et ' |
' h i Prediction value is date record
Data record | ' Ị , Aác IÊP CÍ -= available in the
Input sample ' ' ' training set?
<Data k3” | Class label> Attack model
\ Machine Learning asa ?
k ' Service (MLaaS) ' xi
\ Cloud-based server _ \
| 2 Attacker uses the prediction
1 Attacker has a set of known output of the MLaaS and
data records along with their original class label to train
original class labels Attacker a secondary attack model.
inputs them to an MLaaŠ to get the prediction result.
Hình 2.5 Cách thức hoạt động cua Tan công Suy diễn thành viên [33]
Bước 1 Thu Thập Dữ Liệu Ban Đâu: Kẻ tan công bắt đầu bằng cách thu thập mộttập hợp các bản ghi dữ liệu đã biết cùng với các nhãn lớp tương ứng của chúng,trong đó mỗi bản ghi bao gồm một vector tính năng và một nhãn lớp Ví dụ: kẻtan công có thé có một tập dữ liệu chứa các hình ảnh số và các nhãn lớp tươngứng (vi dụ: 0-9 cho MNIST).
Bước 2 Gửi Dữ Liệu Đến MLaaS Dé Lay Kết Quả Dự Đoán: Kẻ tan công gửi
các bản ghi dữ liệu đã biết tới dịch vụ học máy đám mây (MLaaS), bằng cách sử
dụng API hoặc giao diện người dùng của MLaaS để nhập từng bản ghi dữ liệu
và nhận lại giá trị dự đoán từ mô hình.
Bước 3 Xây Dựng Mô Hình Tan Công: Kẻ tan công tập hợp các cặp (giá trị dựđoán, nhãn lớp) và sử dụng chúng dé huấn luyện một mô hình mới nhằm nhậndiện các bản ghi có trong tập huấn luyện ban dau
Bước 4: Thực Hiện Suy Diễn Thành Viên: Sau khi mô hình tân công được xâydựng, kẻ tấn công sử dụng nó để suy diễn nhãn lớp của các bản ghi dữ liệu mới
(chưa từng thấy trước đó) Kẻ tấn công gửi một bản ghi mới vào mô hình tấn
23
Trang 31công và nhận lại kết quả suy diễn liệu bản ghi đó có năm trong tập huấn luyện
của mô hình ban đầu hay không
2.5 Kha năng định danh vi phân (Differential Identifiability)
Khái niệm Khả năng định danh vi phân (DI) được giới thiệu bởi Lee và công sự
[15] như một mô hình mối đe doa suy luận mạnh mẽ DI được coi là một phương pháp
đo lường bảo mật dữ liệu cá nhân bằng cách đánh giá mức độ khó khăn của việc xácđịnh danh tính của các cá nhân trong tập dữ liệu Khái niệm này kết hợp các ý tưởng từ
"differential privacy" va "identifiability" dé đảm bảo rằng các cá nhân không thé bị nhậndiện một cách chính xác ngay cả khi có một số thông tin bổ sung Điều này giúp cânbăng giữa việc bảo vệ quyền riêng tư và độ chính xác của mô hình đữ liệu
DI giả định rằng kẻ tan công tính toán xác suất của tat cả các tập dữ liệu đầu vào
có thể, gọi là các "thế ĐIỚI CÓ thé có" trong một tập hợp _, dựa trên đầu ra cơ chế r Li
và cộng sự [16] chỉ ra rằng mô hình DI tương ứng với trong hợp tệ nhất mà riêng tư vi
phân (DP) bảo vệ khi | | = 2, do DP xem xét hai tập dữ liệu lan cận va Thí
nghiệm DI tương tự như thí nghiệm MI, vì kẻ tan công phải quyết định liệu tập dữ liệu
có chứa thành viên khác biệt giữa va hay không Dé so sánh, trong khóa luận nay,chúng tôi cải tiến DI thành thí nghiệm 2 dưới đây:
Thí nghiệm 2: Khả năng nhận dạng vi phân — Thiết lap:
- : kẻ tan công DI (Differential Identifiability adversary)
- : thuật toán hoc tập riêng tư vi phan.
- à _ : các bộ dữ liệu lân cận được trích xuất độc lập lẫn nhau từ gia tri
Trang 32- Giá trị đầu ra = (, 5, 5, ) {0,1} Nếu = ,
thực thi thành công va kết quả của thí nghiệm là 1 Ngược lại kết qua đầu
ra là 0.
Vì thí nghiệm 2 định nghĩa rõ ràng một kẻ tấn công có quyền truy cập vào mọithông tin nền tảng ngoại trừ một bản ghitrong va, là một trường hợp thựchiện được của kẻ tan công DP Kẻ tấn công DI mạnh hơn kẻ tấn công MI vì biếttập dữ liệu thay thế — thay vì chỉ phân phối Dist từ đó chọn _ Thí nghiệm nay áp
dụng cho học sâu sử dung gradient descent, bao gồm kiến thức về cơ chế _, cấu trúc
của mạng nơ-ron, các tham số , và số lần lặp Thí nghiệm được thiết kế dé áp dụngcho một lần lặp, với đầu ra r của cơ chế là gradient bị nhiễu gi từ lần lặp thứ i của quátrình huấn luyện mạng nơ-ron Tuy nhiên, sau khi hoàn thành quá trình học với vònglặp, sẽ có nhiều thông tinhon = , , , và do đó có cơ hội cao hơn dé
xác định chính xác hơn liệu một điểm dữ liệu có năm trong tập huấn luyện hay không
Trong trường hợp này, cùng một giá trị được chọn ở mỗi vòng, vi dir liệu huấn luyệnđược giữ nguyên trong suôt các bước học.
Đây là trường hợp tiêu chuẩn được xem xét trong bài nghiên cứu của chúng tôi và
thúc day nhu cầu về các định lý tong hợp Theo thí nghiệm 2, kẻ tan công DI có thê biết
gan như tat cả dir liệu công khai từ bộ dữ liệu và quan sát các bản cập nhật gradient NN
ở mỗi bước huấn luyện Giả định rang có quyền truy cập vào tất cả các gradienttrong quá trình học có thé có vẻ mạnh mẽ; tuy nhiên, trường hợp này mang tính lý thuyết,
vì các ràng buộc mà chúng tôi chứng minh cho kẻ tan công DI cũng sẽ áp dụng cho các
kẻ tấn công yếu hơn Hơn nữa, các giả định này có thể được thực hiện trong học liên
kết Trong học liên kết, nhiều chủ sở hữu đữ liệu cùng đào tạo một mô hình toan cầu
bằng cách chia sé gradient cho các tập con dữ liệu huấn luyện của họ với một bộ tổnghợp trung tâm Bộ tổng hợp kết hợp các gradient và chia sẻ cập nhật tổng hợp với tất cảcác chủ sở hữu dữ liệu Nếu tham gia như một chủ sở hữu dữ liệu, có thể quan
sát các cập nhật mô hình chung.
25
Trang 332.6 Các chỉ số định danh cho riêng tư vi phân
Trong nghiên cứu này, chúng tôi sẽ sử dụng chỉ số định danh cho Riêng tư vi phântrong mô hình của minh: Posterior belief và Advantage Các chỉ số này đượcgiới thiệu trong nghiên cứu của Daniel Bernau và cộng sự [34] như điểm sé dé đánh giákhả năng định danh của các bản ghi huấn luyện cá nhân khi phát hành một mạng nơ-ronriêng tư vi phân (Differentially Private Neural Network) Các chỉ số này tương thích vớiriêng tư vi phân dưới các truy vẫn đa chiều và thành phần Nghiên cứu [34] chứng minhrằng việc bảo vệ chống lại kẻ tan công cũng bảo vệ chống lại kẻ tấn công
2.6.1 Liên hệ giữa Membership Inference va Differential Identifiability
Theo dinh nghia, manh hon do có thêm thông tin phụ trợ Cu thể,biết cả hai tập dữ liệu và thay vì chỉ nhận được một giá tri và kích thước cuatập dữ liệu từ đó các điểm dữ liệu được lấy ra
Mệnh đề 1: DI ngụ ý MI: nếu thắng , thì có thé xây dựng thắng [34]
Chứng minh: Mệnh đề 1 chứng minh bằng cách mâu thuẫn: gia sử co chế M bao
vệ thành công chống lại , nhưng ton tại một kẻ tan công thắng „ Gia SỬ
/ =_, xây dựng một kẻ tấn công , cũng thắng như sau:
- Vớiđầuvào , , ,, › tínhtoán =| |vadé = /
- Trường hợp 2: =0, ngha là = ( ) Vì , đây chính là
trường hợp xuấtra chínhxác =0.Dođó, =
26
Trang 34Trong cả hai trường hợp, thắng (= ), điều này mâu thuẫn với giả định
rằng cơchế bảo vệ thành công chống lại Vi vậy, it nhất cũng khó khăn cho cơ
chế bảo vệ chống lại như chống lại , điều này tương đương với tuyên bố
rằng nếu thắng , thi thang vay
2.6.2 Chỉ số Posterior Belief trong việc nhận dạng bộ dữ liệu dao tạo
Niềm tin hậu nghiệm Bayes (Bayes Posterior belief) được sử dụng đề định lượngkhả năng định danh cá nhân từ các tham số bảo mật (_, ) Sau khi quan sát các gradient
, kẻ tan công Apr có thể cập nhật xác suất cho cả tập dữ liệu huấn luyện và tập dữliệu thay thé khácvới bởi mộtbản ghicánhân = / Niềm tin hậu nghiệmđịnh lượng mức độ chắc chắn mà có thể xác định tập dữ liệu huấn luyện và sự hiện
diện của bản ghi cá nhân _ Niềm tin này được biểu thị dưới dạng xác suất có điều kiện
phụ thuộc vào các quan sát trong quá trình huấn luyện Vì niềm tin này có giới hạntrên cho mỗi thành viên có thé có của tập dữ liệu, không thành viên nào trong cd
thể được xác định Do đó, niềm tin hậu nghiệm liên kết các đảm bảo bảo mật lý thuyết
của DP với các quy định bảo mật và chuẩn mực xã hội thông qua công thức định danh
của nó, vì nhiêu, va do đó niêm tin hậu nghiệm, phụ thuộc vào (_, `).
Định nghĩa 6: Niềm tin hậu nghiệm — Posterior belief [34] Xét bối cảnh của thínghiệm 2 và ký hiệu =., là ma trận kết quả, bao gồm các kết quả của cơchế da chiều Niềm tin hậu nghiệm trong tập dữ liệu được định nghĩa là xác suất cóđiều kiện dựa trên tất cả thông tin quan sát được trong quá trình tính toán:
thé được tính bằng cách sử dụng bổ dé 1, mà chúng tôi sẽ sử dụng dé phân tích kẻ tan
công mạnh nhất của thí nghiệm 2
Bồ đề 1: Tính toán Niềm tin hậu nghiệm Giả sử nhiễu của các cơ chế được
lây mẫu độc lập, niềm tin hậu nghiệm vào tập dữ liệu có thé được tính như sau:
27
Trang 35- ( )=
= es = (9)
= ]
- [ (©)
Trong phân tích của Daniel Bernau va công sự [34], là một bộ phân loại nhị
phân chọn nhãn có xác suất hậu nghiệm cao nhất _ Nếu các niềm tin trước đó là đồngđều, quá trình ra quyết định này có thể được đơn giản hóa Xét = ( )Và
= ( ).Vi biết „, và _, nó cũng biết các mật độ xác suất tương ứng
và Các mật độ này giống nhau và được xác định bởi _, nhưng tập trung vào cáckết quả khác nhau ( )và (_ ) Khi có các niềm tin trước đó bang nhau,
quyết địnhliệệu có khảnăngxuấtpháttừ hay và do đó chọn:
2.6.3 Chỉ số Advantage trong việc nhận dạng bộ dữ liệu đào tạo
Niềm tin hậu nghiệm [34] định lượng xác suất suy diễn thành viên của một bảnghi duy nhất Trong thực tế, việc biết tần suất đưa ra phán đoán đúng cũng rấtquan trọng, điều này chỉ xảy ra khi > 0.5 Điều này được định lượng bang giá trị Lợithé (advantage), là tỷ lệ thành công được chuẩn hóa trong phạm vi [ 1,1], trong đó
= 0 tương ứng với việc đoán ngẫu nhiên Lợi thế thành viên được giới thiệu đểđịnh lượng thành công của , tuy nhiên, định nghĩa của nó có thé được sử dụng cho
của
Định nghĩa 7: Lợi thế - Advantage [34] Với một thí nghiệm Exp, lợi thế đượcđịnh nghĩa như sau:
=2 ( =1) 1 (11)
Trong đó xác suất là trên các lựa chọn ngẫu nhiên lặp lại của các cơ chế cho đến
bước k Lợi thế trong được ký hiệu là , trong khi lợi thế trong là
M
2.6.4 Giới han trên cho Posterior Belief
Niém tin hau nghiệm (posterior belief) là một khái niệm quan trong trong riêng tu
vi phan, giúp đánh giá mức độ mà một kẻ tân công có thê xác định sự hiện diện của một
28