TÓM TAT KHÓA LUẬNTrong khóa luận, tác giả tập trung tìm hiểu và mô phỏng mô hình toán học riêng tư viphân, mô hình mang sinh đối kháng, khuôn khổ tổng hợp riêng tư của bộ các giáoviên Qu
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA HE THONG THONG TIN
NGUYEN DUY THIEN
KHOA LUAN TOT NGHIEP
DU LIEU
Privacy protection for data collection
KY SU NGANH HE THONG THONG TIN
TP HO CHI MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA HE THONG THONG TIN
NGUYEN DUY THIEN - 16521161
KHOA LUAN TOT NGHIEP BAO VE QUYEN RIENG TU TRONG THU THAP
DU LIEU
Privacy protection for data collection
KY SU NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN
THS HA LE HOAI TRUNG
TP HO CHÍ MINH, 2021
Trang 3DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
¬ NAY của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
¬ eeee cece ee ee nese ee ea teen eaeaes — Cht tich.
Qe cece eect cent nent eee enetenenen ene enen eden — Thu ky.
Boece cee eee e ete ee een ene eee ena es — Uy viên
—= eee eee ene cence eee ene eee enone enna ened — Uy viên
Trang 4LỜI CÁM ƠN
Lời đầu tiên, nhóm tác giả xin gửi lời cảm ơn chân thành đến quý Thầy Cô trường Đạihọc Công nghệ thông tin đặc biệt là quý Thầy Cô Khoa Hệ thống thông tin - nhữngngười đã dùng tri thức và tâm huyết của mình đề truyền đạt cho em vốn kiến thức vôcùng quý báu trong khoảng thời gian học tập tại trường Những kiến thức mà Thầy
Cô truyền đạt là bước đệm quan trọng giúp chúng em có thé hoàn thành đề tài tốt hơn
Trong thời gian thực hiện dé tài, nhóm tác giả đã cô găng vận dụng những kiến thứcnền tảng đã học, kết hợp học hỏi và tìm hiểu công nghệ mới dé ứng dụng xây dựng détài khóa luận tốt nghiệp Tuy nhiên trong quá trình thực hiện, do kiến thức và kinhnghiệm còn nhiều hạn chế, nên khó tránh khỏi những thiếu sót Chính vì vậy, tác giảrất mong nhận được sự góp ý từ quý Thầy Cô đề nhóm hoàn thiện thêm những kiếnthức và kỹ năng cần thiết, làm hành trang quý báu đề nhóm thực hiện các dự án thực
tế trong tương lai
Xin chân thành cảm ơn quý Thay Cô!
Sinh viên thực hiện
Nguyễn Duy Thiện
Trang 5Chương 2 CƠ SỞ LY THUYÊT -2- 5£ £2S£+EE£EEt2E££EEEEEtEEtEEEEEEerkrrkeree 18
2.1 Giới thiệu về quyền riêng tư vi phân trong khai thác dữ liệu 18
2.1.1 Tại sao lại cần riêng tư vi phân? - s- s+cz+xzxerxerxerxeresree 18
2.1.2 _ Riêng tư vi phân là gÌ? - c + k St S SH 19
2.1.3 Xác định tính chất riêng tư vi phân, áp dụng: - 192.1.4 Nó hoạt động như thé nào? 5c + 5s+Sk+EE+EE+E+EerEerkerxerxeree 202.1.5 _ Tính chất của khác biệt về quyền riêng tư vi phân - 22
2.2 Mô hình mang sáng tao: Generative Adversarial NÑetwork - 25
2.2.2 Tại sao có thé sử dung Generative adversarial networks dé dam bao
quyền riêng tư Vi Phan escesceseeseesessessessessessesscsessessessessesesseeseeseesesseseeeees 26
2.2.3 Định Nia oo eeeccesecssceceseeceseeeseecesneceaeeesseceseecseeeeeceeaeenseeenaes 27
2.2.4 Ứng dung cecccecccecccccsccscsessssssessessessesssessessecsucsusssessvssucsssssessessecsseesesseeaes 29
2.3 Differentially Private Generative Adversarial Networks (DP-GAN) 292.4 Khuôn khổ Private Aggregation of Teacher Ensembles (khuôn khổ PATE)
2.5 Private Aggregation of Teacher Ensembles - Generative adversarial
networks (PATE-GAN) ccccccccssccccccessssscecccessssseeeceseesseeeeeceseseeececeessseeecesessaaeees 31
Trang 62.6 Hàm kích hoạt Š1gImOI( - 5 2< + 31 91H HH ng ng ướt 31
2.7 Hàm kích hoạt Leaky ReLL - - ¿<< 2111111 nh tr 322.8 Chuẩn hoá Adam -: +++E+++ttEEkttttEktrtttrtrrttrtrrrtrrrrrrirrririio 33
2.9 Giới thiệu ngôn ngữ lập trình Python 5 6S EsEsseksskssersvee 36
Chương 3 LÝ THUYET ÁP DỤNG CÁC PHƯƠNG PHÁP VÀO DU LIEU
HÌNH ẢNH G56 St ĐỀ EE1E11211211111111111111111E11E11111111111111.1111E1xEEEEEx re 38
3.1 Phuong pháp Differentially Private Generative Adversarial Networks 38
3.2 Phuong pháp sử dụng khuôn khổ Private Aggregation of Teacher
01590010) 5018 e - 40
3.3 Phương pháp sử dụng Private Aggregation of Teacher Ensembles
-Generative adversarial €VWOTKS s1 HH ngư 43
Chương 4 THỰC NGHIEM VA DANH GIA KET QUA -:-5 46
4.1 Giới thiệu môi trường thực hiỆn - ceseeeteeseceeeseeeeeeeeaeeeseeeeseeeaes 46
4.1.1 Sử dụng tập dữ liệu MNISTT” 5 St se, 46
4.1.2 Môi trường thực hiỆn 5 5 322133231 1%EEEEEeesesersrserere 46
4.2 Thực nghiệm phương pháp Differentially Private Generative Adversarial
4.2.1 Công tác thực hiỆn - - Ác 311211191113 1119 11191 1H vn ng ngư, 48
4.2.2 — Đánh gIá HH HH TT TH HH HH HH 52
4.3 Thực nghiệm áp dụng khuôn khổ Private Aggregation of Teacher
4.3.1 Thử nghiệm thông số khuôn khổ PATE trước khi thực hiện 544.3.2 COng tac thurc WISN eee 60
4.3.3 Đánh gIá HH HH HH TH TT HH 64
Trang 74.4 Thực nghiệm phương pháp Private Aggregation of Teacher Ensembles
-Generative adversarial I€EWOTKS - «+ s1 vn ng nghệ 65
4.4.1 09):sar1vii1ìieii1:01 1070787 65
“Ni ha e 70
Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIỀN -¿ 5¿©5¿-: 72
5.1 Kết 8085:0801 201078 435a 725.2 Định hướng phát triỀn + 2 2+ £+E+E£EEEEEEEEEEEEEEEEE2E71 21211, 73
Trang 8DANH MỤC HÌNH
Hình 2.1 Mô tả thông tin trong quyền riêng tư vi phân [9] 20
Hình 2.2 Thuật toán đồng xu đơn giản để cung cấp thêm quyền riêng tư vi Hình 2.3 Biểu đồ mô phỏng khoảng tin cậy của các giá trị trung bình trong cơ ChE bao mat Vi PhAn 8021010515 ).) 24
Hình 2.4 Biểu đồ mô phỏng khoảng tin cậy của các giá trị trung bình trong cơ chế bảo mật Vi phân € = 0,05 cH nà Hà Hà HH Hà Hà HH pH HH nghườt 24 Hình 2.5 Cách hoạt động mô hình máy học có giám sai và không giảm sát 26
Hình 2.6 Mô hình mạng sinh đối kháng [5] -ccceciiceeevevrrrrreevevrrrrre 28 Hình 2.7 Mô hình khái quát của khuôn khổ Private Aggregation of Teacher Ensembles []] -s-c-sccs£cs+t+rcksEkSEEEEEstkersrkrrkerrkstkerkrkrrkrrkrrrkrkrrkrrsrkrrkrrsrkrrkrrsrerkrrsrkee 30 Hình 2.8 Đồ thị hàm Sigmoid :-ccs:rteccStrrrevEEtrreertrrrrsrrtrrrrrrrrrrerrrrrrre 32 Hình 2.9 Đồ thị hàm ReLU, Leaky ReLU, PReLU và RReLU [10] 33
Hình 2.10 Chi phi dao tạo mạng no-ron hợp pháp (trai) Chi phí đào tao trong ba kỷ nguyên đầu tiên (phải) Chi phí đào tạo trong 45 kỷ nguyên CIFAR-10 với kiến trúc c64-c64-c 128- OO [7] ‹ <:-c-cccxcc+kkitEEiH HH HH iày 34 Hình 3.1 Tổng quát khuôn khổ PATE Trường hợp các Teacher đạt sự đồng thuận cao thì nhiễu ngẫu nhiên không làm ảnh hưởng đến kết quả -< 42 Hình 3.2 Tổng quát khuôn khổ PATE Trường hợp các Teacher có số lượng bầu băng nhau thì nhiêu sẽ đảm bảo sẽ được chọn ngâu nhiên trong các phiêu bau cao 10 42
Hình 4.1 Các đơn vị dữ liệu mau trong tập dữ liệu MNISTT 46
Hình 4.2 Mô hình mạng nơ-ron ĐỘ tao « << xssrke+keekttrrtkkrrkirrrrrkrrrrrrrkee 48 Hình 4.3 Mô hình mạng nơ-ron bộ phân biỆt -‹ 555<5cccsxcrersrkrerxrreerree 49 Hình 4.4 Quy trình chạy huấn luyện phương pháp DP-GAN 50
Hình 4.5 Quá trình dao tạo thành công của phương pháp DP-GAN 51
Hình 4.6 Biểu đồ thống kê loss function với mỗi Epochs đảo tạo 52
Hình 4.7 Một trong các kết quả đào tạo của GAN - đào tạo thất bại 54
Trang 9Hình 4.8 Cài đặt và sử dụng bộ thư viện syft==0.2.9 để đánh giá khuôn khổ PATE
"m 55
Hình 4.9 Khai báo hàm cal-max, hàm noiSÿ_In4X -ce+cccccccscceserseerrseee 56
Hình 4.10 Kết quả thực thi kiểm định kịch bản 1 (=5, num_teachers=1000,
num_examples=10000, num_possible_answers = 1) -ecc-erxexesexeeerrerreee 57
Hình 4.11.Két quả thực thi kiểm định kịch bản 2 (e=5, num_teachers=1000,
num_examples=1000, num_possible_answers = 1Õ) c-cc«cccsexeersesreee 58
Hình 4.12 Kết quả thực thi kiểm định kịch ban 3 (e=5, num_teachers=100,
num_examples=1000, num_possible_answers = IŨ() c cccxesexeeerrereee 59
Hình 4.13 Hình 4.16 Kết quả thực thi kiểm định kịch bản 4 (e=0.001,
num_teachers=100, num_examples=1000, num_possible_answers = 100) 60
Hình 4.14 Thông số cho quá trình thực thi phương pháp áp dụng khuôn khổ PATE
Hình 4.18 Độ chính xác trung bình của các Teacher với mức bảo vệ riêng tư =2.5
— 63Hình 4.19 Bắt đầu đào tạo cho mô hình Student - eeccereerreerreee 63Hình 4.20 Tính toán kiểm định mất mát và kiểm định độ chính xác 64Hình 4.21 Khởi tạo mạng nơ-ron của bộ tổng hỢp ~ccecieiierirrirre 65
Hình 4.22 Khởi tạo mạng nơ-ron của bộ phân biệt của phương pháp PATE-GAN65
Hình 4.23 Khởi tạo mạng no-ron của bộ tạo của phương pháp PATE-GAN 66
Hình 4.25 Tách bộ dữ liệu thành từng nhóm và đào tạo bộ phân biệt Teacher, bộ
tông hợp va bộ phân biệt Student icccssieeccvetreevvvtrrrrevrrrrrrrrrrrrrrvrrrrrrre 66
Hình 4.24 Sử dụng bộ tạo để tạo bộ dữ liệu giả để cùng đào tạo bộ phân biệt
Teacher, bộ tổng hợp và bộ phân biệt Student -cc:+iceccccerrrrreecvvrrrrre 66
Trang 10Hình 4.26 Sơ đồ giải thuật quá trình đào tạo của phương pháp PATE-GAN 67
Hình 4.27 Biéu đồ hiển thị điểm đánh giá của bộ tạo (càng về 0 càng tốt) và bộ
phân biệt (càng về 1 càng tốt) trong các lượt đào tạO -.e.e eceereeeeeree 68Hình 4.28 Biéu đồ biểu thị kết quả của hàm mất mát trong thực nghiệm dao tạo
PATE-GAN qua 200 epochs << 5+ tt HH H1 11g11 1g rikg 69
Hình 4.29 Xuất kết quả huấn luyện sau mỗi lần đào tạo dé đối chứng 70
Hình 5.1 Mô hình khái quát của phương pháp G-PATE [6] -s s« 74
Trang 11DANH MỤC BẢNG
Bảng 1 Tổng kết so sánh các phương pháp
Trang 12DANH MỤC TỪ VIET TAT
STT Từ viết tắt Nội dung
Adaptive Moment Estimation — Hàm tối ưu ước tính
1 Adam ,
thoi diém thích ứng
2 DP Differential Privacy — riéng tu vi phan
Differentially Private Generative Adversarial
3 DP-GAN Networks — Phương pháp sử dung mô hình mạng sinh
đối kháng có cung cấp quyền riêng tư vi phân
Generative adversarial networks — Mạng sinh đối
hợp riêng tư của bộ các giáo viên
Private Aggregation of Teacher Ensembles
-7 PATE-GAN
Generative Adversarial Networks
8 ReLU rectified linear unit - Don vị tuyến tính chỉnh lưu
9 RMSProp Root Mean Square Prop
Report Noise Max — Tham số báo cáo nhiễu cần lớn
10 RNM
nhất
Trang 13TÓM TAT KHÓA LUẬN
Trong khóa luận, tác giả tập trung tìm hiểu và mô phỏng mô hình toán học riêng tư viphân, mô hình mang sinh đối kháng, khuôn khổ tổng hợp riêng tư của bộ các giáoviên Qua các mô hình đó cung cấp được mức bảo vệ riêng tư nhất định cho quá trìnhkhai thác dữ liệu Trong đó bao gồm phương pháp sử dụng nhiễu trong quá trình họccủa mô hình mạng sinh đối kháng, khả năng cung cấp riêng tư vi phân trong khuôn
khổ tông hợp riêng tư của bộ các giáo viên và cuối cùng kết hợp tạo mô hình mạng
sinh đối kháng theo khuôn khổ tổng hợp riêng tư của bộ các giáo viên
Mô hình học sâu ngày càng có nhiều ứng dụng trong cuộc sống như trong các hệ
thống khuyến nghị, xe tự hành, Đề xây dựng các mô hình học sâu có độ chính xác
cao cần phải có số lượng lớn dữ liệu dé xây dựng mô hình Số lượng lớn dit liệu này
có thé thu thập từ người dùng Việc thu thập dữ liệu này có thé gây ra mắt tính riêng
tư theo luật GPDR(General Data Protection Regulation).
Trước khi dit liệu của client được gửi về server dé xây dựng mô hình máy học thi dữliệu này cần được làm nhiễu dé bảo vệ tính riêng tư của người dùng Bảo vệ tính riêng
tư đữ liệu trong đề tài thực hiện bằng cách tìm hiểu mô hình toán học riêng tư vi phân,
mô hình mạng sinh đối kháng, thư viện tensorflow và sử dụng tập dữ liệu MNIST để
mô phỏng bảo vệ tính riêng tư của người dùng trong quá trình bị thu thập.
Một số kết quả đạt được:
e Tim hiéu được quyên riêng tư vi phân là gì, như thê nao, nhu câu va yêu câu của
quyền riêng tư vi phân
e Tim hiểu được về các mô hình, phương pháp triển khai đáp ứng được quyền riêng
tư vi phân.
e Tìm hiểu được công nghệ lập trình xử lý ảnh
e Tìm hiểu được về mô hình GAN
13
Trang 14e Tìm hiểu và thực nghiệm được về phương pháp DP-GAN.
e Tìm hiểu và thực nghiệm được về phương pháp sử dụng khuôn khổ PATE
e Tìm hiểu và thực nghiệm được được về phương pháp PATE-GAN.
14
Trang 15Chương 1 TONG QUAN DE TÀI
1.1 Dat van dé
Ngày nay, nhờ sự phát triển của công nghệ thông tin, các công cụ thu thập, lưu
trữ, giao chuyền và phân tích đữ liệu ngày càng đơn giản đi Các phát triển kỹ thuật
như thư điện tử, Internet, thiết bị di động, giám sát video hay cả các phương phápthanh toán điện tử cũng tạo nên những cơ hội tiếp cận mới đề thu thập dữ liệu Cả cơquan quốc gia lẫn doanh nghiệp tư nhân đều quan tâm đến những thông tin có liênquan đến cá nhân nhưng cũng đồng thời quan tâm đến đặc điểm thông tin chung dé
hỗ trợ khai thác dữ liệu hỗ trợ cho việc dao tạo dữ liệu.
Tầm quan trọng của việc bảo vệ thông tin cá nhân ngày càng được đề cao khi các
tổ chức và ké cả mỗi cá nhân đều có nhu cầu khai thác thông tin cá nhân trong đa
dạng mục đích sử dụng Bảo vệ đữ liệu cá nhân ủng hộ ý tưởng là về nguyên tắc mỗi
người đều có thé tự quyết định là người nào, khi nào và dữ liệu cá nhân nào của mình
được phép cho người khác xem Quyền riêng tư vi phân là một khái niệm tương đốimới, nhưng ý tưởng là nó có thé cung cấp cho bat kì đối tượng nào như công ty, bên
thứ 3 những hiéu biết sâu sắc dựa trên đữ liệu từ người dùng mà không cần biết những
gì chính xác dit liệu đó cho biết hoặc nó bắt nguồn từ ai
Nhiều chính phủ trên thế giới có chính sách nghiêm ngặt về cách các công ty
công nghệ thu thập và chia sẻ dữ liệu người dùng Các công ty không tuân theo các
quy tắc có thê phải đối mặt với tiền phạt rất lớn Đối với nhiều công ty, đặc biệt là cáccông ty đa quốc gia hoạt động ở các khu vực pháp lý khác nhau, điều này khiến họrơi vào tình thé tế nhị khi nói đến việc thu thập và sử dung dit liệu khách hàng Cáccông cụ bảo vệ quyền riêng tư truyền thống như mật mã học không thể giải quyết vấn
dé nan giải này vì nó ngăn cản các công ty công nghệ truy cập dữ liệu Và ân danhlàm giảm giá trị của dữ liệu - một thuật toán không thể phục vụ bạn các đề xuất được
cá nhân hóa nêu nó không biết thói quen của ban là gi.
15
Trang 16Còn đối với mỗi cá nhân, không phải ai cũng sẵn sàng chia sẻ thông tin của mìnhnhăm hỗ trợ cho công cuộc phát triển công nghệ, hỗ trợ thuật toán, dự đoán Vì họ
đều bị chịu áp lực khả năng rò rỉ thông tin và bị tấn công Đặc biệt là các đối tượng
chứa các thông tin cụ thé riêng biệt tring vào đối tượng khai thác của kẻ tấn công
Vi dụ như: Kẻ tấn công muốn tăng doanh số khách hang ở phẫu thuật tham mi
sẽ tim và truy vấn các khách hàng từng phẫu thuật thâm mi Kẻ tan công muốn tăngdoanh số nạp game sẽ truy vấn các khách hàng đã từng chỉ trả nhiều tiền vào game
và quảng cáo cho họ Kẻ tắn công muốn tăng doanh số khách hàng của các người lớn
tuéi đau nhức xương khớp sẽ truy van và tìm quảng cáo sản phẩm cho những người
có thông tin tiền án bệnh xương khớp hay lớn tuổi
Quyên riêng tư vi phân giúp các công ty công nghệ có thé thu thập và chia sẻ thôngtin tổng hợp về thói quen của người dùng, trong khi vẫn duy trì quyền riêng tư của
người dùng cá nhân.
1.2 Phạm vi đề tài
e Các phương pháp hỗ trợ cung cấp quyên riêng tư vi phân
e Cách đánh giá một số phương thức quyền riêng tư vi phân
© Mô hình mang sinh đối kháng
e Khuôn khổ Private Aggregation of Teacher Ensembles
e Phuong phap PATE-GAN
1.3 Muc tiéu
e Tim hiểu tông quan quyên riêng tu vi phân
e Tìm hiểu và thực nghiệm tổng quan mang sinh đối kháng
e Tìm hiểu va áp dụng khuôn khổ Private Aggregation of Teacher Ensembles
e Tìm hiểu và thực nghiệm phương pháp PATE-GAN
e Tìm hiểu, thực nghiệm và đánh giá các phương pháp hỗ trợ cung cấp quyền riêng
16
Trang 17tư vi phân vào dữ liệu hình ảnh.
1.4 Thách thức
Những khó khăn trong quá trình đạo tạo của mô hình mạng sinh đối kháng:
e Xây dựng mô hình mạng sinh đối kháng tương đối không dễ đào tạo, dé rơi vào
các trạng thái một trong hai model (hoặc cả 2 gồm Bộ tạo hoặc Bộ phân biệt)
không hội tụ Nó tương tự như việc bạn đảo tạo một classify model mà mãi không
ra gì Khi đó thì chắc chắn quá trình dao tạo GAN là thất bại Lỗi đào tạo model
ra kết quả không tốt thì không mấy xa lạ với người làm deep learning Thường docác lỗi: đữ liệu của bạn không chuẩn, mat cân băng: thiết kế model quá cơ bản,
quá phức tạp, không phù hợp bai toán; overfit, underfit,
e Trong quá trình dao tao dé rơi vào hiện tượng Mode collapse Tức là fake_images
sinh ra giống hệt nhau, ít phụ thuộc vào input đầu vào Điều này xảy ra khi mà bộ
tạo tìm ra một điềm dữ liệu đặc biệt mà tại điểm đó bộ phân biệt không thê phân
biệt được.
e Diminished gradient: Hiện tượng này xảy ra khi bộ phân biệt hội tụ quá nhanh
(hiện tượng này xảy ra cực kì phô biến do tại những bước đầu tiên, ảnh thật và ảnhgiả khác nhau rất nhiều) Ngay những epoch đầu tiên nó đã nhận biết được thậtgiả Điều này gây ra hiện tượng gradient vanishes cho bộ tạo Khiến cho bộ tạo
học rất chậm, hoặc chăng học được gi Kết quả quá trình đào tạo thất bại.
17
Trang 18Chương 2 CƠ SỞ LÝ THUYET
2.1 Giới thiệu về quyền riêng tư vi phân trong khai thác dữ liệu
2.1.1 Tại sao lại cin riêng tư vi phân?
Quyền riêng tư vi phân giúp các công ty công nghệ có thê thu thập và chia sẻ thôngtin tổng hợp về thói quen của người dùng, đồng thời duy trì quyền riêng tư của từng
liệu, hoặc thậm chi dẫn đến trách nhiệm dân sự hoặc tôn hại về thé chat.
Sự phát triển của các mô hình quyền riêng tư chính thức như quyền riêng tư vi phân
đã giúp giải quyết van đề Do đó, ngày càng có nhiều tô chức và công ty áp dụng
quyền riêng tư vi phân dé bảo vệ thông tin nhạy cảm, chăng hạn như thông tin cá
nhân, sự kiện của người dùng, vi trí thời gian thực của cá nhân.
Vào khoảng tháng 9 năm 2019 Google phát hành kho công cụ nguồn mở: với tên gọi
Differentially Private SQL, thư viện nguồn mở này được tạo ra nhằm mục đích thúcday mạnh mẽ hơn nữa ý tưởng về quyền riêng tư vi phân Về cơ bản, bộ công cụ nàycho phép các nhà phát triển cũng như các tổ chức xây hoạt động trong lĩnh vực nêutrên xây dựng những công cụ có thé học hỏi, chat lọc thông tin từ dữ liệu người dùngtổng hợp, trong khi không tiết lộ bất kỳ thông tin nhận dạng cá nhân nào [1]
Nói tóm lại, Quyền riêng tư vi phân cho phép:
- Các công ty truy cập một số lượng lớn dữ liệu nhạy cảm để nghiên cứu và kinh
18
Trang 19doanh mà không vi phạm quyền riêng tư.
- Các tổ chức nghiên cứu có thé phat trién công nghệ bao mật khác biệt để tự động
hóa các quy trình bảo mật trong các cộng đồng chia sẻ đám mây giữa các quốc gia
Do đó, họ có thé bảo vệ quyền riêng tư của người dùng và giải quyết van dé chia sẻ
dữ liệu.
2.1.2 Riéng tư vi phân là gì?
Quyền riêng tu vi phân (DP) là một định nghĩa toán học, mạnh mẽ về quyền riêng tưtrong bối cảnh phân tích thống kê và máy học Theo định nghĩa toán học này, DP làmột tiêu chí bảo vệ quyên riêng tư, mà nhiều công cụ phân tích thông tin cá nhân nhạycảm đã được tạo ra để đáp ứng
Định nghĩa 1.1 (Quyền riêng tư vi phân, DP) Một thuật toán ngẫu nhiên A, là (€, ồ)-chính riêng nếu đối với bat kỳ hai cơ sở dữ liệu D và ?“ khác nhau ở một điểm duynhất và đối với bất kỳ tập con đầu ra nào S [2]:
P(A, (D) eS) < e€ -P(A,(D'!) €S) +6
Nơi A,(D) và A,(D’) là kết quả đầu ra của thuật toán cho co sở dữ liệu đầu vao D
và ?' tương ứng và P là mức độ ngau nhiên của độ nhiễu trong thuật toán Định nghĩa
trên có thể tương đương với:
<€
low (ee = 5)
P(A,(D') = s)
2.1.3 Xác định tính chất riêng tư vi phan, áp dụng:
Làm thế nào chúng ta có thể phân biệt giữa thông tin cá nhân và thông tin chung?
e Theo quan điểm của DP, thông tin riêng tư là sự thay đổi thông tin trong dữ liệu
khi trước và sau khi chọn không tham gia một chủ thể dữ liệu riêng lẻ Điều này
cũng giải thích từ “differentailly”-“khác biệt” trong tên.
19
Trang 20ý ù Seed —— RANDOMIZED ———— ANSWER 2 2À
— ALGORITHM “ ⁄ (
— ANSWER n (
Sa ANSWER 1
— RANDOMIZED , ANSWER 2
=< ALGORITHM ANSWER n ADVERSARY
Hình 2.1 Mô tả thông tin trong quyền riêng tư vi phân [9]
Nó đảm bảo những gì?
e Tính riêng tư vi phân đảm bảo về mặt toán học răng bat kỳ ai nhìn thấy kết qua
của phân tích riêng tư vi phân về cơ bản sẽ đưa ra suy luận giống nhau về thông
tin cá nhân của bất kỳ cá nhân nào, cho dù thông tin cá nhân của cá nhân đó có
được đưa vào đầu vào của phân tích hay không DP cung cấp một đảm bảo về mặt
toán học có thể chứng minh được về bảo vệ quyền riêng tư chống lại một loạt các
cuộc tan công về quyền riêng tu (bao gồm tan công khác biệt, tan công liên kết và
tấn công tái thiết) [3]
Nó không đảm bảo điều gì?
e DP không đảm bảo rang một người tin thông tin là bí mật của một người sẽ vẫn là
bí mật Điều quan trọng là phải xác định đâu là thông tin chung và đâu là thông
tin riêng tư đề nhận được lợi ích từ bảo hiểm DP và giảm tác hại DP đảm bảo chỉ
bảo vệ thông tin cá nhân (đã đề cập ở trên) Vì vậy, nếu bí mật của một người là
thông tin chung, nó sẽ không được bảo vệ.
2.1.4 Nó hoạt động như thế nao?
Hãy xem xét một ví dụ áp dụng phương pháp thuật toán tung đồng xu dé xem cách
thức áp dụng quyên riêng tư vi phân hay thuật toán đáp ứng tiêu chí quyền riêng tư vi
ph hoạt động như thế nào: Ví dụ rằng bạn là một nhà khoa học đữ liệu xã hội, muốn
thực hiện phân tích dữ liệu khảo sát vào một hành vi tương đối gọi là “cắm ky” Mỗi
đơn vị là kết quả của câu trả lời (sự thật) của mỗi cá nhân tham gia khảo sát răng bạn
có dùng thời gian làm việc riêng trong giờ làm hay không? Do chính sách bảo mật,
20
Trang 21người quan lý hoặc bat kỳ người nào giữ tập dữ liệu khảo sát đó của công ty sẽ không
bao giờ cho phép bạn truy cập trực tiếp vào dữ liệu
thể thực hiện phân tích trên dit liệu Bạn sẽ tư vấn rằng, đối đơn vị nhập, người quản
ly sẽ ap dụng thuật toán này:
Lật một đồng xu (độ chệch của đồng xu là xác suất kết quả của nó là ngửa và nó sẽ
được ký hiệu là p_head) Nếu đứng ngửa, hãy trả lại câu trả lời thực được ghi nhận
Nêu sap, sau đó lật đông xu thứ hai và trả vê “có” nêu ngửa và “không” nêu sap.
Giờ đây, mỗi người được bảo vệ bang "sự từ chối hợp lý", bởi vì một người có thé từ chối câu trả lời bởi sự ngẫu nhiên của việc tung một đồng xu Chi tiết thực hiện có
thê diễn giải qua các bước sau:
21
Trang 22Tính xác suất trả về “có” khi cá nhân đó là người có tội: P (“có” | có tội)
= p_head + (1 - p_head) * p_head = 0.5 + 0.5*0.5 =0.75
* Tinh xác suất trả về “co” khi cá nhân đó là người vô tội: P (“có” | vô tội)
=(1-p head) * p_head =0.5*0.5=0.25.
Tinh p_guilty:
= (1- P (“cd”) * P (“c6” | vô tội) + P (“có”) *P (“có” | có tội)
= (1- P (“c6”))*0,25 + P (“có”) * 0,75
Nhung trả lời thực của p_guilty là P(“có”
Lưu ý: Kết quả trên là kết quả tiệm cận được đảm bảo bởi Luật số lớn
Khi bạn thu được kết quả của câu trả lời, bạn có thê loại bỏ 25% câu trả lời P (“có”
có tội) và 25% câu trả lời P (“c6” | vô tội) Bạn có thê ước tính p_guilty gấp đôi phân
số trả lời “Có” trừ đi 0,5 tức là 2*((0,25) + p / 2) — 0,5 Gia sử kết quả khảo sát củabạn trên 10000 người chỉ ra răng chỉ có 30% người là làm việc riêng trong giờ làmviệc Câu trả lời tỉ lệ thực tế khi loại bỏ các dữ liệu nhiễu của thuật toán đồng xu là:
2*((0,25) + p/ 2) - 0,5 = (2*0,3-0,5) =0,1 = 10%
Ban có thé kết luận 10% là câu trả lời thống kê của dit liệu thật
Nếu số lượng người tham gia khảo sát vào đữ liệu thay đổi, nó không dẫn đến bat kỳ
thay đổi nào về thông tin trong dit liệu trả về bị nhiễu Nó có nghĩa là không có thông
tin cá nhân trong dữ liệu trả vê nhiều.
2.1.5 Tinh chất của khác biệt về quyên riêng tư vi phân
DP có các đặc tính có giá trị khiến nó trở thành một khuôn khổ phong phú dé phantích thông tin cá nhân nhạy cảm và bảo vệ quyền riêng tư:
e Dinh lượng mat quyền riêng tư: mat quyền riêng tư là một thước do trong bat kỳ
22
Trang 23cơ chế và thuật toán DP nào Nó cho phép so sánh giữa các kỹ thuật khác nhau.
Mắt quyền riêng tư có thể kiểm soát được, đảm bảo sự cân bằng giữa nó và tính
chính xác của thông tin chung.
e Thành phan: việc định lượng tốn thất cho phép phân tích và kiểm soát tôn thất
riêng tư tích lũy qua nhiều lần tính toán Hiểu được hành vi của các cơ chế riêng
tư vi phân theo cấu trúc cho phép thiết kế và phân tích các thuật toán riêng vi phânphức tạp từ các khối xây dựng riêng vi phân đơn giản hơn
e_ Quyên riêng tư của Nhóm: DP cho phép phân tích và kiểm soát tổn thất về quyền
riêng tư của các nhóm, chang hạn như gia đình
e Hậu xử lý toàn vẹn - DP miễn nhiễm với quá trình xử lý sau: Một nhà phân tích
dữ liệu, không có kiến thức bé sung về cơ sở dữ liệu riêng tư, không thê tính toánmột chức năng của đầu ra của một thuật toán riêng biệt và làm cho nó ít riêng tư
hơn.
e_ Do lường mức độ riêng tư vi phân và báo cáo mức ôn tối da
Ta hãy phân tích công thức (1) định nghĩa đã được đề cập ở trên:
P(A,(D) e S) < e°-P(⁄4,(2'))eS)+ð
Một thuật toán ngẫu nhiên K cung cấp quyền riêng tư vi phân nếu đối với tat cả cáctập dữ liệu D và Ð' khác nhau trên nhiều nhất một hàng và bat kỳ S G Phạm vi (K)nào.
2 đại lượng quan trọng phải xét trong thuật toán DP là:
e Epsilon (e): Chỉ số về mat quyền riêng tư khi có sự thay đổi khác nhau về dữ liệu
(thêm, bớt 1 dit liệu dao vào) Giá trị càng nhỏ thì càng được bảo vệ quyền riêng
tư tốt hơn
e_ Độ chính xác: Mức độ gan gũi giữa đầu ra của các thuật toán DP với đầu ra thuần
túy Giảm e dẫn đến giảm độ chính xác
23
Trang 24Nếu thuật toán của bạn là bảo mật riêng tư băng 0, bảo vệ tốt quyền riêng tư, thì nó
có độ chính xác rất thấp, điều đó sẽ vô ích Bởi vì bạn sẽ không nhận được gì khác
ngoài nhiêu.
Accuracy of Noisy Counting
Privacy level (Epsilon) of Noisy Counting
Accuracy of Noisy Counting
Privacy level (Epsilon) of Noisy Counting
=0 (và ồ = 0 trong trường hop chung) tương đương với quyền riêng tư tuyệt đối
Nó có thé được bắt nguồn trực tiếp từ định nghĩa về Quyên riêng tư vi phân Tóm lai,
24
Trang 25e = 0 tương đương với P(A, ()€ S)= P(A, ()c S), dẫn đến thuật toán K độc
lập với dữ liệu và do đó bảo vệ quyên riêng tư một cách hoàn hảo.
2.2 Mô hình mang sáng tao: Generative Adversarial Network
2.2.1 Giới thiệu
Mang sáng tạo đối nghịch (Generative Adversarial Network) với tên ngắn phổ biến
GAN là một lớp các mô hình sinh mâu sử dụng các kiên trúc học sâu.
Mô hình sinh là một bài toán trong học máy liên quan đến việc tự động phát hiện vàhọc các mẫu phổ biến trong dit liệu đề từ đó, mô hình có thể tạo ra các ví dụ mới phùhợp với đữ liệu gốc
GAN là một cách tiếp cận thông minh để huấn luyện mô hình sinh bằng cách nhìnnhận bài toán sinh như một bài toán học có giám sát với hai thành phần: mô hình sinh
được huấn luyện dé tạo ra mẫu mới, và một mô hình đánh giá để phân biệt các ví dụ
là một thực thể thật hay một thực thể giả (được tạo ra) Hai mô hình được huấn luyện
song song, đối nghịch, cho đến khi mô hình phân biệt bị đánh lừa trên hơn 50% số
mẫu, tức là mô hình sinh thành công trong việc tạo ra dữ liêu giả chất lượng cao
Học có giám sát và không giám sát:
Bài toán học máy điền hình thường liên quan đến việc sử dụng một mô hình dé đưa
ra dự đoán Do đó thành phần không thể thiếu là tập di liệu huấn luyện, bao gồmnhiều vi dụ, với biến đầu vào (X) và kết quả đầu ra (y) Hiểu đơn giản nhất, một môhình được huấn luyện bằng cách dựa vào các biến đầu vào, dự đoán kết quả đầu ra và
được sửa lại với mỗi lần đoán sai Sau nhiều lần huấn luyện, khả năng dự đoán của
mô hình dần khớp với dữ liệu huấn luyện Phương pháp này gọi là học có giám sát.
Một biến thé khác là học không giám sát (còn được gọi là học mô tả), trong các bài
toán này, dữ liệu chỉ có các biến đầu vào mà không có kết quả đầu ra Mô hình được
xây dung bằng cách trích xuất và tong hợp các mẫu tồn tại trong dữ liệu Do đó không
25
Trang 26có mô hình chính xác vi mô hình trong các bai toán này không có chức năng dự đoán.
Cùng với các bai toán khác như phân cụm.
How Supervised Machine Learning Works
Provide the machine learning algorithm categorized or Feed the machine new, unlabeled information to see if it tags
“labeled” input and output data from tofeam new data appropriately If not, continue refining the algorithm TYPES OF PROBLEMS TO WHICH IT’S SUITED
(dollars, weight, etc.)
"inl put ata tse what patterns nds pater the machine ents TYPES OF PROBLEMS TO WHICH IT's SUITED
ANOMALY
e
MACHINE « » in data
» For Example: ls a hack
— > intruding in our network?
Hình 2.5 Cách hoạt động mô hình máy học có giám sai và không giám sat!
GAN thuộc lớp các bài toán học không giám sát
2.2.2 Tại sao có thé sử dung Generative adversarial networks dé đảm bảo
quyền riêng tư vi phan
Trong các phương thức cũ (như lật đồng xu) hoạt động bằng cách thêm nhiễu vào dữ
liệu thực đem đến nhiều rủi ro như làm ảnh hưởng dữ liệu gốc, có thé làm giảm mạnh
độ chính xác của thuật toán nhất là trong trường hợp tập dữ liệu nhỏ, đồng thời vẫn
1 https://www.lotus-qa.com/data-annotation-guide/
26
Trang 27tồn tại các giá trị thực hoặc phương thức suy luận dé kẻ tấn công tìm ra các đối tượng
đặc biệt nhất là trong trường hợp tập dit liệu có số lượng nhỏ Mô hình GAN thựchiện gắn nhiễu đến từ bộ tạo làm nó đồng thời có thể kiểm soát mức độ nhiễu, vừa cókhả năng tạo ra nhiều vi dụ mới đa dang và không giới hạn số lượng Từ đó tập dữliệu mới vừa có giá tri khai thác dữ liệu, vừa đảm bảo tat cả dữ liệu mới sinh ra khônggiống tập huấn luyện ở bat kỳ cá thé nào-tương ứng với đảm bảo quyên riêng riêng
tư vi phân trong tập dữ liệu được tạo.
Ngày nay, các công ty ngày càng có nhu cầu phát triển các hệ thống máy hoc (ML),
bao gồm cả hệ thống nhận dạng biểu cảm khuôn mặt, dữ liệu hình ảnh y té, thuong
tin tưởng vào các công cụ thực hiện bảo vệ quyền riêng tư thông qua sử dung GAN,
và GAN thường do bên thứ ba cung cấp đề “tây xóa” các hình ảnh nhận dạng cá nhân
2.2.3 Dinh nghĩa
GAN là lớp các mô hình sinh có kiến trúc sử dụng mạng nơ ron nhân tạo Kiến trúcGAN đầu tiên được mô tả trong bài báo khóa học năm 2014 do nhóm của lan
Goodfellow giới thiệu có tên “Generative Adversarial Networks.” [4]
Kiến trúc của GAN bao gồm hai thành phần nhỏ là một mô hình sinh đề sinh ra ví dụ
mới và một mô hình phân biệt dé xác định các thực thé là giả (được tạo ra bởi mô
hình sinh) hay là một thự thể thật:
- Mô hình bộ tạo Mô hình bộ sinh sinh ra ví dụ mới từ dư liệu đầu vào
» M6 hình phân biệt Mô hình xác định thật gia
27
Trang 28_ ne,
Random Noise | Real |
Discriminator
Real Data rem
Bộ tạo nhận vào một véc tơ ngẫu nhiên có độ dài cô định và sinh ra một thực thé giả trong miễn dit liệu Véc tơ này được sinh ra ngẫu nhiên từ phân bố Gauss và được sử
dụng đê khởi tạo bộ tạo Sau khi được huân luyện, các diém trong không gian véc tơ
đa chiều này sẽ phù hợp với các điểm từ dữ liệu thật với phân bó dữ liệu tự nhiên
Bộ phân biệt nhận đầu vào là các ví dụ (thật và giả) và thực hiện bài toán phân lớpnhị phân dé xác định xem các ví dụ này là thật hay giả Các dữ liệu thật được lay từ
tập dir liệu huấn luyện, các dữ liêu gia được lay trực tiếp từ đầu ra của bộ tạo Bộ phân
biệt là một mô hình phân lớp dé hiéu
Dù là một bài toán học không giám sát nhưng với kiến trúc được thiết kế thông minh,GAN được huấn luyện như một bài toán học có giám sát Bộ tạo và bộ phân biệt đượchuấn luyện đồng thời Bộ phân biệt sẽ dần thông minh hơn trong việc phát hiện các
ví dụ thật / giả va do đó bộ tạo cũng tinh tế hơn trong việc sáng tạo của mình
Nói với ngôn ngữ của lý thuyết trò chơi, trong bối cảnh này, hai mô hình thi dau với
nhau và đối nghịch trong một game có tông bằng 0
Biến thé quan trọng của GAN là các mô hình sinh tao ra các ví dụ thỏa mãn các điềukiện cho trước Các điều kiện này được đưa vào mạng nơ ron dưới dạng các đặc trưng.Các giá trị này có thé là giá trị biểu thị các lớp, giá trị số hay một ma trận (ví dụ bứcảnh) Đến lượt mình, bộ phân biệt cũng nhận được những thông tin này và “ra yêu
cầu” cho bộ tạo thông qua những quyết định phân lớp của mình
28
Trang 292.2.4 Ung dụng
Cách tiếp cận này là khởi nguồn của hàng loạt các ứng dụng rất ấn tượng của GAN
như thay đối nội dung của ảnh, sáng tạo phong cách nghệ thuật, tô tranh hay chuyển
một bức ảnh mùa hè thành mùa đông, ban ngày thành ban dém,
2.3 Differentially Private Generative Adversarial Networks (DP-GAN)
Mot van dé phô biến trong GAN là mật độ của phân bố sinh học đã học có thể tậptrung vào các điểm dữ liệu đảo tạo, nghĩa là chúng có thé dé dang nho cac mẫu đào
tạo đo tính phức tạp cao của mô hình mạng sâu Điều này trở thành mối quan tâm lớn
khi GAN được áp dụng cho đữ liệu riêng tư hoặc nhạy cảm, chăng hạn như bản ghi y
tế của bệnh nhân và nồng độ phân phối có thé tiết lộ thông tin chí mang của bệnh
nhân Phương pháp DP-GAN đạt được sự riêng tư vi phân trong GAN bang cách thêmnhiễu đến gradient trong quá trình học tập Từ đó tạo ra các điểm dữ liệu chất lượng
cao ở mức độ riêng tư vi phân có thê.
2.4 Khuôn khô Private Aggregation of Teacher Ensembles (khuôn khổ
PATE)
Dé bảo vệ quyền riêng tư của dữ liệu đào tạo trong quá trình hoc, PATE chuyền kiến
thức từ một tập hợp các mô hình Teacher được đảo tạo trên các phân vùng của dữ liệu
sang mô hình sinh viên Cac đảm bảo về quyền riêng tư có thể được hiểu một cáchtrực quan và được thể hiện một cách chặt chẽ về các khía cạnh riêng tư khác nhau
29
Trang 30Not accessible by adversary jg Accessible by adversary
| ee Training - B® Prediction —-— :}> Data feeding
Hình 2.7 Mô hình khái quát của khuôn khổ Private Aggregation of Teacher
Ensembles [6]
Khuôn khổ PATE bao gồm ba phan chính: (1) tập hợp n mô hình Teacher, (2) cơ chếtổng hợp và (3) mô hình Student
Teacher Models: Mỗi Teacher là một người mẫu được đào tạo độc lập trên một tập
hợp con dữ liệu có quyền riêng tư mà người ta muốn bảo vệ Dữ liệu được phân vùng
dé đảm bảo không có cặp Teacher nào được đào tạo về dữ liệu chồng chéo Bat ky kỹ
thuật học tập nào phù hợp với đữ liệu đều có thể được sử dụng cho bất kỳ Teacher
nào Việc dao tạo mỗi Teacher trên một phân vùng dữ liệu nhạy cảm sẽ tạo ra n mô
hình khác nhau giải quyết cùng một nhiệm vụ Khi suy luận, Teacher dự đoán độc lập
các nhãn.
Cơ chế tông hợp: Khi có sự đồng thuận mạnh mẽ giữa các Teacher, nhãn hiệu mà họhầu như đồng ý không phụ thuộc vào mô hình đã học của bất kỳ Teacher nào Do đó,quyết định chung nay là riêng tư về mặt trực giác đối với bat kỳ điểm dao tạo nhất
định nào - bởi vì điểm đó có thể chỉ được đưa vào một trong các bộ dao tạo của
Teacher Dé cung cấp các đảm bảo chặt chẽ về quyền riêng tư khác nhau, cơ chế tổng
hợp của khuôn khổ PATE ban đầu sẽ tính các phiếu bầu được chỉ định cho mỗi lớp,
thêm nhiễu Laplacian được hiệu chỉnh cần thận vào biểu đồ bỏ phiếu kết quả và xuất
ra lớp có phiếu bầu nhiễu nhất như dự đoán của nhóm Cơ chế này được gọi là cơ chế
tôi da cua Laplacian, hoặc LNMax, về sau.
Đối với các mẫu x và các lớp 1; ; m, hãy để fj(x) 2 [m] biểu thị dự đoán của Teacher
30
Trang 31thứ j và nj biểu thị số phiếu bầu cho lớp thứ i (tức là, ni , jfj(x) = ij) Thông qua phân
tích chặt chẽ về cơ chế này, khuôn khổ PATE cung cấp một API riêng tư vi phân: chỉphí bảo mật của mỗi dự đoán tổng hợp do nhóm Teacher đưa ra đã được biết
Student model: Bước cuối cùng của PATE liên quan đến việc đào tạo một mô hìnhStudent bằng cách chuyền giao kiến thức từ nhóm Teacher sử dụng quyên truy cập
vào dữ liệu công khai, nhưng không được gắn nhãn Đề hạn chế chi phí bảo mật của
việc gắn nhãn chúng, các truy vấn chỉ được thực hiện đối với cơ chế tổng hợp chomột tập hợp con đữ liệu công khai dé đào tạo Student theo cách bán giám sát bangcách sử dụng một sé luong truy vấn cô định Lưu ý rằng mọi dự đoán tổng hợp bốsung sẽ làm tăng chi phí bao mật đã chi tiêu va do đó không thé hoạt động với cáctruy van không bị ràng buộc Truy van cô định khắc phục chi phí bảo mật cũng nhưgiảm giá trị của các cuộc tấn công phân tích các thông số mô hình để khôi phục dữliệu đào tao Student chỉ xem dữ liệu công khai và các nhãn bảo vệ quyên riêng tư
2.5 Private Aggregation of Teacher Ensembles - Generative adversarial
networks (PATE-GAN)
Bang những ưu điểm của khuôn khổ PATE mang lại Phương pháp PATE-GAN đượchình thành bằng cách sử dụng khuôn khổ PATE được điều chỉnh lại và áp dụng vàoGAN Nhằm đáp ứng những lỗi yêu điểm của cách thức thêm nhiễu của bộ tạo, cảithiện khả năng học hỏi khi bộ tạo vừa phải đáp ứng tạo được hình ảnh giống thật, vừaphải đáp ứng riêng tư vi phân và GAN thiếu Đồng thời thêm khả năng tạo mẫu mới
mà khuôn khổ PATE chưa có
2.6 Ham kích hoạt Sigmoid
Ham sigmoid là một hàm toán học có đường cong hình chữ "S" hoặc đường cong
sigmoid đặc trưng Một vi dụ phổ biến về hàm sigmoid là hàm logistic và được xácđịnh băng công thức:
31
Trang 322.7 Hàm kích hoạt Leaky ReLU
Leaky ReLU là biến thê cải tiến từ ReLU - hàm đang được sử dụng khá nhiều trongnhững năm gần đây khi huấn luyện các mạng neuron ReLU là viết tắt của rectifiedlinear unit - đơn vi tuyén tính chỉnh lưu, và là một ham chức nang kích hoạt
_ (x ifx >0 4
f(x) = tot» otherwise
32
Trang 33Uji = Tịi
Hình 2.9 Đồ thị hàm ReLU, Leaky ReLU, PReLU va RReLU [10]
Leaky ReLU don giản loc các gia trị < 0 Nhìn vào công thức ta dé dang hiểu đượccách hoạt động của nó Một số ưu điểm khá vượt trội của Leaky ReLU so với Sigmoid:(+) Tốc độ hội tụ nhanh hơn hắn ReLU có tốc độ hội tụ nhanh Điều này có thể doLeaky ReLU không bị bão hoà ở 2 đầu như Sigmoid và Tanh
(+) Tính toán nhanh hơn Sigmoid sử dụng ham exp và công thức phức tạp hon
Leaky ReLU rất nhiều do vậy sẽ tốn nhiều chi phí hơn dé tính toán
(-) Khi tốc độ học lớn, các trọng sé (weights) có thé thay đổi theo cách làm tat cả
neuron dừng việc cập nhật.
(+) ReLU từng có nhược điểm trước khi cải tiễn thành Leaky ReLU: với các node
có giá trị nhỏ hơn 0, qua ReLU kích hoạt sẽ thành 0, hiện tượng đấy gọi là “Dying
ReLU’’ Nếu các node bị chuyền thành 0 thi sẽ không có ý nghĩa với bước kích hoạt
tuyến tính ở lớp tiếp theo và các hệ số tương ứng từ node đấy cũng không được cập
nhật với gradient descent Từ đó Leaky ReLU ra doi.
2.8 Chuẩn hoá Adam
Adam (viết tắt của Adaptive Moment Estimation) là một thuật toán trình tối ưu hoá
mà gần đây đã và đang được áp dụng rộng rãi hơn cho các ứng dụng học sâu trong
thị giác máy tính và xử lý ngôn ngữ tự nhiên Nó là bản cải tiến cho trình tối ưu hóa
33
Trang 34RMSProp có thé được sử dung thay cho quy trình giảm độ dốc ngẫu nhiên cô điển
để cập nhật lặp đi lặp lại trọng sỐ mạng dựa trên dữ liệu huấn luyện
Khi giới thiệu thuật toán [7], các tác giả liệt kê những lợi ích hấp dẫn của việc sử
dung Adam trong các bài toán tối ưu hóa không lôi, như sau:
e Đơn giản để thực hiện.
e Hiệu quả về mặt tính toán.
e Yêu cầu bộ nhớ nhỏ
e Bat biến đối với ty lệ chuyển mau theo đường chéo
e Rấtthích hợp cho các van đề lớn về dit liệu và / hoặc tham số
e Thích hợp cho các mục tiêu không cố định
e Thích hợp cho các van đề với gradient rat ồn / hoặc thưa thớt
e Siêu tham sô có cách diễn giải trực quan và thường yêu câu ít điêu chỉnh.
CIFAR10 ConvNet First 3 Epoches CIFAR10 ConvNet
Hinh 2.10 Chi phi dao tao mang no-ron hop phap (trai) Chi phi dao tao trong ba ky
nguyên dau tiên (phải) Chi phí dao tạo trong 45 kỷ nguyên CIFAR-10 với kiên
trúc c64-c64-c 128-1000 [7]
Phương pháp này tính toán tỷ lệ học tập thích ứng của từng cá nhân cho các thông số
khác nhau từ các ước tính vê khoảnh khac đâu tiên và thứ hai của độ doc.
34
Trang 35Các tác giả mô tả A dam là sự kết hợp những ưu điểm của hai phần mở rộng khác của
Sự giảm dần độ dốc ngẫu nhiên Đặc biệt, Adam nhận lợi ích của cả AdaGrad vàRMSProp phủ hợp với thực nghiệm của bài toán dé ra:
e Thuật toán Gradient Thich ứng (AdaGrad) duy trì tốc độ học tập trên mỗi thông
số giúp cải thiện hiệu suất đối với các van dé với gradient thưa thớt (ví dụ: các vấn
đề về ngôn ngữ tự nhiên và thị giác máy tính)
e Root Mean Square Prop (RMSProp) cũng duy trì tốc độ học trên mỗi tham số
được điều chỉnh dựa trên mức trung bình của các cường độ gần đây của cácgradient đối với trọng lượng (vi dụ: tốc độ thay đôi của nó) Điều này có nghĩa làthuật toán giải quyết tốt các van đề trực tuyên và không cố định (vi dụ: nhiễu)
Trong thuật toán tối ưu hóa Adam, việc chạy trung bình của cả gradient và thời điểm
thứ hai của gradient đều được sử dung Cho tham số w và một hàm mat mát L©,
trong đó £ lập chỉ mục cho lần lặp huấn luyện hiện tại, cập nhật tham số của Adam
được cung câp bởi:
Trang 362.9 Giới thiệu ngôn ngữ lập trình Python
Trong áp dụng thực nghiệm của đề tài này, tôi xin sử dụng ngôn ngữ lập trình Python
dé thực hiện xử lý dữ liệu và xây dựng mô hình máy học Python là ngôn ngữ lập
trình hướng đối tượng, cấp cao, mạnh mẽ, được tạo ra bởi Guido van Rossum Nó dé
dàng dé tìm hiểu và ngày càng nổi bật hơn trong các cộng đồng lập trình viên và nhà
nghiên cứu trong việc thực hiện và sử dụng các thuật toán hỗ trợ hay xây dựng mô
mình máy học Python hoàn toàn sử dụng khai báo dữ liệu động và sử dụng cơ chếcấp phát bộ nhớ tự động Python có cau trúc dit liệu cấp cao mạnh mẽ và cách tiếpcận đơn giản nhưng hiệu quả đối với lập trình hướng đối tượng Cú pháp lệnh củaPython vô cùng rõ ràng, dé hiểu Do là nhân tổ chính làm cho nó nhanh chóng trởthành đối tượng sử dụng của các nhà lập trình viên học và sử dụng trong nhiều lĩnh
vực, hiện diện ở mọi nên tảng.
Các lợi ích của ngôn ngữ Python có thể mô tả như sau:
e©_ Ngôn ngữ thông dịch cấp cao: Với C/C++ hay java, bạn cần có kinh nghiệm dé
xử lý những nhiệm vụ khó khăn trong việc quản lý bộ nhớ, dọn dẹp những dữ liệu
vô nghia, Nhung khi chuyên qua Python, nó sẽ tự động chuyên đổi code sangngôn ngữ máy tính có thê hiểu Python là ngôn ngữ thông dịch cấp cao nên bạnkhông cần lo lắng về bat kỳ hoạt động ở cấp thấp nao
e Ngôn ngữ lập trình đơn giản, dé học: Python có cú pháp rất đơn giản, rõ ràng Nó
được các nhà lập trình viên đánh giá là dé đọc và viết hơn khi so sánh với các ngônngữ lập trình khác như C++, Java, C# Python hỗ trợ mọi người dễ tiếp cận hơn
và làm cho việc lập trình trở nên thú vị, cho phép bạn tập trung vào những giải
pháp chứ không phải cú pháp.
e Loi ích khả năng mở rộng và có thể nhúng trên đa ngôn ngữ: Giả sử một ứng dụng
đòi hỏi sự phức tap rất lớn, bạn có thé dé dàng kết hợp các phan code bằng C, C++
hay Java và những ngôn ngữ khác vào code Python Điều này sẽ hỗ trợ cho ứngdụng cua bạn thực hiện các bai toán phức tạp dé đưa ra những tính năng tốt hơn
36
Trang 37cũng như giúp bạn sử dụng ưu điểm scripting của Python.
Lợi ích miễn phí, mã nguồn mở: Bạn có thể tự do sử dụng chương trình cho mọimục đích, quyền tự do dé nghiên cứu cấu trúc chương trình, chỉnh sửa dé phù hợpvới yêu cầu, truy cập vào mã nguồn, hay quyền tự do phân phối lại các phiên bảnkhác nhau cho nhiều người, cải tiến chương trình và phát hành công cộng, thậm
chí là dùng cho mục đích thương mại.
Thư viện tiêu chuẩn lớn dé giải quyết những tác vụ phổ biến: Python có một sốlượng lớn thư viện tiêu chuẩn giúp cho công việc lập trình của bạn trở nên dé thởhơn rất nhiều, đơn giản vì không phải tự viết tất cả code Đặc biệt càng về sauPython được phần lớn các nhà lập trình nghiên cứu thuật toán và giải thuật sử dụng
và công bố, cải thiện nhiều thuật toán, mô hình, ngày càng hoàn thiện và chỉnh
chu hơn.
37
Trang 38Chương 3 LÝ THUYET AP DUNG CÁC PHƯƠNG PHÁP VÀO DU
LIỆU HÌNH ẢNH
3.1 Phương pháp Differentially Private Generative Adversarial Networks
Tiến vào bài toán, bước đầu ta thiết lập mạng sinh đối kháng Bộ tạo là mạng sinh ra
dt liệu, tức là sinh ra các hình ảnh giống với dir liệu trong tập dữ liệu Bộ tạo có input
là noise (random vector) là output là các hình ảnh.Bộ phân biệt là mang dé phân biệt
xem đữ liệu là thật (dữ liệu từ dataset) hay giả (dữ liệu sinh ra từ Bộ tạo).Vì ta có 2
mạng bộ tạo và bộ phân biệt với mục tiêu khác nhau, nên cần thiết kế 2 loss function
cho mỗi mạng.
Kí hiệu z là noise đầu vào của bộ tạo, x là dữ liệu thật từ bộ dataset
Gia tri output của model qua hàm sigmoid nên sẽ trong (0, 1) nên bộ phân biệt sé
được đào tạo dé đầu vào anh ở dataset thì đầu ra gan 1, còn đầu vào là anh sinh ra từ
bộ tạo thi đầu ra gần 0, hay D(x)> 1 còn D(G(z)) > 0
Hay nói cách khác là loss function muốn maximize D(x) và minimize D(G(z)) Ta
có minimize D(G(z)) tương đương với maximize (1 — D(G(z))) Do đó loss
function của bộ phân biệt có thê viết thành
maxV(D) = Ez.„,„œ)|log D(X)] + Ez p„[log (1 — D(6(2)))]
Ezy~p„„(@œ)[log D(x)] : xác nhận nhận hiện ảnh that tốt hơn
E,~»,(z) [log (1 — D(G(z)))] : xác nhận tạo ảnh giả giống ảnh thật hơn
E là kì vọng, hiểu đơn giản là lay trung bình của tat cả dữ liệu, hay maximize D(x)
với x là dữ liệu trong traning set.
38