Khóa luận tốt nghiệp Hệ thống thông tin: Bảo vệ quyền riêng tư cho quá trình thu thập dữ liệu

TÓM TAT KHÓA LUẬNTrong khóa luận, tác giả tập trung tìm hiểu và mô phỏng mô hình toán học riêng tư viphân, mô hình mang sinh đối kháng, khuôn khổ tổng hợp riêng tư của bộ các giáoviên Qu

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA HE THONG THONG TIN

NGUYEN DUY THIEN

KHOA LUAN TOT NGHIEP

DU LIEU

Privacy protection for data collection

KY SU NGANH HE THONG THONG TIN

TP HO CHI MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA HE THONG THONG TIN

NGUYEN DUY THIEN - 16521161

KHOA LUAN TOT NGHIEP BAO VE QUYEN RIENG TU TRONG THU THAP

DU LIEU

Privacy protection for data collection

KY SU NGANH HE THONG THONG TIN

GIANG VIEN HUONG DAN

THS HA LE HOAI TRUNG

TP HO CHÍ MINH, 2021

Trang 3

DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

¬ NAY của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

¬ eeee cece ee ee nese ee ea teen eaeaes — Cht tich.

Qe cece eect cent nent eee enetenenen ene enen eden — Thu ky.

Boece cee eee e ete ee een ene eee ena es — Uy viên

—= eee eee ene cence eee ene eee enone enna ened — Uy viên

Trang 4

LỜI CÁM ƠN

Lời đầu tiên, nhóm tác giả xin gửi lời cảm ơn chân thành đến quý Thầy Cô trường Đạihọc Công nghệ thông tin đặc biệt là quý Thầy Cô Khoa Hệ thống thông tin - nhữngngười đã dùng tri thức và tâm huyết của mình đề truyền đạt cho em vốn kiến thức vôcùng quý báu trong khoảng thời gian học tập tại trường Những kiến thức mà Thầy

Cô truyền đạt là bước đệm quan trọng giúp chúng em có thé hoàn thành đề tài tốt hơn

Trong thời gian thực hiện dé tài, nhóm tác giả đã cô găng vận dụng những kiến thứcnền tảng đã học, kết hợp học hỏi và tìm hiểu công nghệ mới dé ứng dụng xây dựng détài khóa luận tốt nghiệp Tuy nhiên trong quá trình thực hiện, do kiến thức và kinhnghiệm còn nhiều hạn chế, nên khó tránh khỏi những thiếu sót Chính vì vậy, tác giảrất mong nhận được sự góp ý từ quý Thầy Cô đề nhóm hoàn thiện thêm những kiếnthức và kỹ năng cần thiết, làm hành trang quý báu đề nhóm thực hiện các dự án thực

tế trong tương lai

Xin chân thành cảm ơn quý Thay Cô!

Sinh viên thực hiện

Nguyễn Duy Thiện

Trang 5

Chương 2 CƠ SỞ LY THUYÊT -2- 5£ £2S£+EE£EEt2E££EEEEEtEEtEEEEEEerkrrkeree 18

2.1 Giới thiệu về quyền riêng tư vi phân trong khai thác dữ liệu 18

2.1.1 Tại sao lại cần riêng tư vi phân? - s- s+cz+xzxerxerxerxeresree 18

2.1.2 _ Riêng tư vi phân là gÌ? - c + k St S SH 19

2.1.3 Xác định tính chất riêng tư vi phân, áp dụng: - 192.1.4 Nó hoạt động như thé nào? 5c + 5s+Sk+EE+EE+E+EerEerkerxerxeree 202.1.5 _ Tính chất của khác biệt về quyền riêng tư vi phân - 22

2.2 Mô hình mang sáng tao: Generative Adversarial NÑetwork - 25

2.2.2 Tại sao có thé sử dung Generative adversarial networks dé dam bao

quyền riêng tư Vi Phan escesceseeseesessessessessessesscsessessessessesesseeseeseesesseseeeees 26

2.2.3 Định Nia oo eeeccesecssceceseeceseeeseecesneceaeeesseceseecseeeeeceeaeenseeenaes 27

2.2.4 Ứng dung cecccecccecccccsccscsessssssessessessesssessessecsucsusssessvssucsssssessessecsseesesseeaes 29

2.3 Differentially Private Generative Adversarial Networks (DP-GAN) 292.4 Khuôn khổ Private Aggregation of Teacher Ensembles (khuôn khổ PATE)

2.5 Private Aggregation of Teacher Ensembles - Generative adversarial

networks (PATE-GAN) ccccccccssccccccessssscecccessssseeeceseesseeeeeceseseeececeessseeecesessaaeees 31

Trang 6

2.6 Hàm kích hoạt Š1gImOI( - 5 2< + 31 91H HH ng ng ướt 31

2.7 Hàm kích hoạt Leaky ReLL - - ¿<< 2111111 nh tr 322.8 Chuẩn hoá Adam -: +++E+++ttEEkttttEktrtttrtrrttrtrrrtrrrrrrirrririio 33

2.9 Giới thiệu ngôn ngữ lập trình Python 5 6S EsEsseksskssersvee 36

Chương 3 LÝ THUYET ÁP DỤNG CÁC PHƯƠNG PHÁP VÀO DU LIEU

HÌNH ẢNH G56 St ĐỀ EE1E11211211111111111111111E11E11111111111111.1111E1xEEEEEx re 38

3.1 Phuong pháp Differentially Private Generative Adversarial Networks 38

3.2 Phuong pháp sử dụng khuôn khổ Private Aggregation of Teacher

01590010) 5018 e - 40

3.3 Phương pháp sử dụng Private Aggregation of Teacher Ensembles

-Generative adversarial €VWOTKS s1 HH ngư 43

Chương 4 THỰC NGHIEM VA DANH GIA KET QUA -:-5 46

4.1 Giới thiệu môi trường thực hiỆn - ceseeeteeseceeeseeeeeeeeaeeeseeeeseeeaes 46

4.1.1 Sử dụng tập dữ liệu MNISTT” 5 St se, 46

4.1.2 Môi trường thực hiỆn 5 5 322133231 1%EEEEEeesesersrserere 46

4.2 Thực nghiệm phương pháp Differentially Private Generative Adversarial

4.2.1 Công tác thực hiỆn - - Ác 311211191113 1119 11191 1H vn ng ngư, 48

4.2.2 — Đánh gIá HH HH TT TH HH HH HH 52

4.3 Thực nghiệm áp dụng khuôn khổ Private Aggregation of Teacher

4.3.1 Thử nghiệm thông số khuôn khổ PATE trước khi thực hiện 544.3.2 COng tac thurc WISN eee 60

4.3.3 Đánh gIá HH HH HH TH TT HH 64

Trang 7

4.4 Thực nghiệm phương pháp Private Aggregation of Teacher Ensembles

-Generative adversarial I€EWOTKS - «+ s1 vn ng nghệ 65

4.4.1 09):sar1vii1ìieii1:01 1070787 65

“Ni ha e 70

Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIỀN -¿ 5¿©5¿-: 72

5.1 Kết 8085:0801 201078 435a 725.2 Định hướng phát triỀn + 2 2+ £+E+E£EEEEEEEEEEEEEEEEE2E71 21211, 73

Trang 8

DANH MỤC HÌNH

Hình 2.1 Mô tả thông tin trong quyền riêng tư vi phân [9] 20

Hình 2.2 Thuật toán đồng xu đơn giản để cung cấp thêm quyền riêng tư vi Hình 2.3 Biểu đồ mô phỏng khoảng tin cậy của các giá trị trung bình trong cơ ChE bao mat Vi PhAn 8021010515 ).) 24

Hình 2.4 Biểu đồ mô phỏng khoảng tin cậy của các giá trị trung bình trong cơ chế bảo mật Vi phân € = 0,05 cH nà Hà Hà HH Hà Hà HH pH HH nghườt 24 Hình 2.5 Cách hoạt động mô hình máy học có giám sai và không giảm sát 26

Hình 2.6 Mô hình mạng sinh đối kháng [5] -ccceciiceeevevrrrrreevevrrrrre 28 Hình 2.7 Mô hình khái quát của khuôn khổ Private Aggregation of Teacher Ensembles []] -s-c-sccs£cs+t+rcksEkSEEEEEstkersrkrrkerrkstkerkrkrrkrrkrrrkrkrrkrrsrkrrkrrsrkrrkrrsrerkrrsrkee 30 Hình 2.8 Đồ thị hàm Sigmoid :-ccs:rteccStrrrevEEtrreertrrrrsrrtrrrrrrrrrrerrrrrrre 32 Hình 2.9 Đồ thị hàm ReLU, Leaky ReLU, PReLU và RReLU [10] 33

Hình 2.10 Chi phi dao tạo mạng no-ron hợp pháp (trai) Chi phí đào tao trong ba kỷ nguyên đầu tiên (phải) Chi phí đào tạo trong 45 kỷ nguyên CIFAR-10 với kiến trúc c64-c64-c 128- OO [7] ‹ <:-c-cccxcc+kkitEEiH HH HH iày 34 Hình 3.1 Tổng quát khuôn khổ PATE Trường hợp các Teacher đạt sự đồng thuận cao thì nhiễu ngẫu nhiên không làm ảnh hưởng đến kết quả -< 42 Hình 3.2 Tổng quát khuôn khổ PATE Trường hợp các Teacher có số lượng bầu băng nhau thì nhiêu sẽ đảm bảo sẽ được chọn ngâu nhiên trong các phiêu bau cao 10 42

Hình 4.1 Các đơn vị dữ liệu mau trong tập dữ liệu MNISTT 46

Hình 4.2 Mô hình mạng nơ-ron ĐỘ tao « << xssrke+keekttrrtkkrrkirrrrrkrrrrrrrkee 48 Hình 4.3 Mô hình mạng nơ-ron bộ phân biỆt -‹ 555<5cccsxcrersrkrerxrreerree 49 Hình 4.4 Quy trình chạy huấn luyện phương pháp DP-GAN 50

Hình 4.5 Quá trình dao tạo thành công của phương pháp DP-GAN 51

Hình 4.6 Biểu đồ thống kê loss function với mỗi Epochs đảo tạo 52

Hình 4.7 Một trong các kết quả đào tạo của GAN - đào tạo thất bại 54

Trang 9

Hình 4.8 Cài đặt và sử dụng bộ thư viện syft==0.2.9 để đánh giá khuôn khổ PATE

"m 55

Hình 4.9 Khai báo hàm cal-max, hàm noiSÿ_In4X -ce+cccccccscceserseerrseee 56

Hình 4.10 Kết quả thực thi kiểm định kịch bản 1 (=5, num_teachers=1000,

num_examples=10000, num_possible_answers = 1) -ecc-erxexesexeeerrerreee 57

Hình 4.11.Két quả thực thi kiểm định kịch bản 2 (e=5, num_teachers=1000,

num_examples=1000, num_possible_answers = 1Õ) c-cc«cccsexeersesreee 58

Hình 4.12 Kết quả thực thi kiểm định kịch ban 3 (e=5, num_teachers=100,

num_examples=1000, num_possible_answers = IŨ() c cccxesexeeerrereee 59

Hình 4.13 Hình 4.16 Kết quả thực thi kiểm định kịch bản 4 (e=0.001,

num_teachers=100, num_examples=1000, num_possible_answers = 100) 60

Hình 4.14 Thông số cho quá trình thực thi phương pháp áp dụng khuôn khổ PATE

Hình 4.18 Độ chính xác trung bình của các Teacher với mức bảo vệ riêng tư =2.5

— 63Hình 4.19 Bắt đầu đào tạo cho mô hình Student - eeccereerreerreee 63Hình 4.20 Tính toán kiểm định mất mát và kiểm định độ chính xác 64Hình 4.21 Khởi tạo mạng nơ-ron của bộ tổng hỢp ~ccecieiierirrirre 65

Hình 4.22 Khởi tạo mạng nơ-ron của bộ phân biệt của phương pháp PATE-GAN65

Hình 4.23 Khởi tạo mạng no-ron của bộ tạo của phương pháp PATE-GAN 66

Hình 4.25 Tách bộ dữ liệu thành từng nhóm và đào tạo bộ phân biệt Teacher, bộ

tông hợp va bộ phân biệt Student icccssieeccvetreevvvtrrrrevrrrrrrrrrrrrrrvrrrrrrre 66

Hình 4.24 Sử dụng bộ tạo để tạo bộ dữ liệu giả để cùng đào tạo bộ phân biệt

Teacher, bộ tổng hợp và bộ phân biệt Student -cc:+iceccccerrrrreecvvrrrrre 66

Trang 10

Hình 4.26 Sơ đồ giải thuật quá trình đào tạo của phương pháp PATE-GAN 67

Hình 4.27 Biéu đồ hiển thị điểm đánh giá của bộ tạo (càng về 0 càng tốt) và bộ

phân biệt (càng về 1 càng tốt) trong các lượt đào tạO -.e.e eceereeeeeree 68Hình 4.28 Biéu đồ biểu thị kết quả của hàm mất mát trong thực nghiệm dao tạo

PATE-GAN qua 200 epochs << 5+ tt HH H1 11g11 1g rikg 69

Hình 4.29 Xuất kết quả huấn luyện sau mỗi lần đào tạo dé đối chứng 70

Hình 5.1 Mô hình khái quát của phương pháp G-PATE [6] -s s« 74

Trang 11

DANH MỤC BẢNG

Bảng 1 Tổng kết so sánh các phương pháp

Trang 12

DANH MỤC TỪ VIET TAT

STT Từ viết tắt Nội dung

Adaptive Moment Estimation — Hàm tối ưu ước tính

1 Adam ,

thoi diém thích ứng

2 DP Differential Privacy — riéng tu vi phan

Differentially Private Generative Adversarial

3 DP-GAN Networks — Phương pháp sử dung mô hình mạng sinh

đối kháng có cung cấp quyền riêng tư vi phân

Generative adversarial networks — Mạng sinh đối

hợp riêng tư của bộ các giáo viên

Private Aggregation of Teacher Ensembles

-7 PATE-GAN

Generative Adversarial Networks

8 ReLU rectified linear unit - Don vị tuyến tính chỉnh lưu

9 RMSProp Root Mean Square Prop

Report Noise Max — Tham số báo cáo nhiễu cần lớn

10 RNM

nhất

Trang 13

TÓM TAT KHÓA LUẬN

Trong khóa luận, tác giả tập trung tìm hiểu và mô phỏng mô hình toán học riêng tư viphân, mô hình mang sinh đối kháng, khuôn khổ tổng hợp riêng tư của bộ các giáoviên Qua các mô hình đó cung cấp được mức bảo vệ riêng tư nhất định cho quá trìnhkhai thác dữ liệu Trong đó bao gồm phương pháp sử dụng nhiễu trong quá trình họccủa mô hình mạng sinh đối kháng, khả năng cung cấp riêng tư vi phân trong khuôn

khổ tông hợp riêng tư của bộ các giáo viên và cuối cùng kết hợp tạo mô hình mạng

sinh đối kháng theo khuôn khổ tổng hợp riêng tư của bộ các giáo viên

Mô hình học sâu ngày càng có nhiều ứng dụng trong cuộc sống như trong các hệ

thống khuyến nghị, xe tự hành, Đề xây dựng các mô hình học sâu có độ chính xác

cao cần phải có số lượng lớn dữ liệu dé xây dựng mô hình Số lượng lớn dit liệu này

có thé thu thập từ người dùng Việc thu thập dữ liệu này có thé gây ra mắt tính riêng

tư theo luật GPDR(General Data Protection Regulation).

Trước khi dit liệu của client được gửi về server dé xây dựng mô hình máy học thi dữliệu này cần được làm nhiễu dé bảo vệ tính riêng tư của người dùng Bảo vệ tính riêng

tư đữ liệu trong đề tài thực hiện bằng cách tìm hiểu mô hình toán học riêng tư vi phân,

mô hình mạng sinh đối kháng, thư viện tensorflow và sử dụng tập dữ liệu MNIST để

mô phỏng bảo vệ tính riêng tư của người dùng trong quá trình bị thu thập.

Một số kết quả đạt được:

e Tim hiéu được quyên riêng tư vi phân là gì, như thê nao, nhu câu va yêu câu của

quyền riêng tư vi phân

e Tim hiểu được về các mô hình, phương pháp triển khai đáp ứng được quyền riêng

tư vi phân.

e Tìm hiểu được công nghệ lập trình xử lý ảnh

e Tìm hiểu được về mô hình GAN

13

Trang 14

e Tìm hiểu và thực nghiệm được về phương pháp DP-GAN.

e Tìm hiểu và thực nghiệm được về phương pháp sử dụng khuôn khổ PATE

e Tìm hiểu và thực nghiệm được được về phương pháp PATE-GAN.

14

Trang 15

Chương 1 TONG QUAN DE TÀI

1.1 Dat van dé

Ngày nay, nhờ sự phát triển của công nghệ thông tin, các công cụ thu thập, lưu

trữ, giao chuyền và phân tích đữ liệu ngày càng đơn giản đi Các phát triển kỹ thuật

như thư điện tử, Internet, thiết bị di động, giám sát video hay cả các phương phápthanh toán điện tử cũng tạo nên những cơ hội tiếp cận mới đề thu thập dữ liệu Cả cơquan quốc gia lẫn doanh nghiệp tư nhân đều quan tâm đến những thông tin có liênquan đến cá nhân nhưng cũng đồng thời quan tâm đến đặc điểm thông tin chung dé

hỗ trợ khai thác dữ liệu hỗ trợ cho việc dao tạo dữ liệu.

Tầm quan trọng của việc bảo vệ thông tin cá nhân ngày càng được đề cao khi các

tổ chức và ké cả mỗi cá nhân đều có nhu cầu khai thác thông tin cá nhân trong đa

dạng mục đích sử dụng Bảo vệ đữ liệu cá nhân ủng hộ ý tưởng là về nguyên tắc mỗi

người đều có thé tự quyết định là người nào, khi nào và dữ liệu cá nhân nào của mình

được phép cho người khác xem Quyền riêng tư vi phân là một khái niệm tương đốimới, nhưng ý tưởng là nó có thé cung cấp cho bat kì đối tượng nào như công ty, bên

thứ 3 những hiéu biết sâu sắc dựa trên đữ liệu từ người dùng mà không cần biết những

gì chính xác dit liệu đó cho biết hoặc nó bắt nguồn từ ai

Nhiều chính phủ trên thế giới có chính sách nghiêm ngặt về cách các công ty

công nghệ thu thập và chia sẻ dữ liệu người dùng Các công ty không tuân theo các

quy tắc có thê phải đối mặt với tiền phạt rất lớn Đối với nhiều công ty, đặc biệt là cáccông ty đa quốc gia hoạt động ở các khu vực pháp lý khác nhau, điều này khiến họrơi vào tình thé tế nhị khi nói đến việc thu thập và sử dung dit liệu khách hàng Cáccông cụ bảo vệ quyền riêng tư truyền thống như mật mã học không thể giải quyết vấn

dé nan giải này vì nó ngăn cản các công ty công nghệ truy cập dữ liệu Và ân danhlàm giảm giá trị của dữ liệu - một thuật toán không thể phục vụ bạn các đề xuất được

cá nhân hóa nêu nó không biết thói quen của ban là gi.

15

Trang 16

Còn đối với mỗi cá nhân, không phải ai cũng sẵn sàng chia sẻ thông tin của mìnhnhăm hỗ trợ cho công cuộc phát triển công nghệ, hỗ trợ thuật toán, dự đoán Vì họ

đều bị chịu áp lực khả năng rò rỉ thông tin và bị tấn công Đặc biệt là các đối tượng

chứa các thông tin cụ thé riêng biệt tring vào đối tượng khai thác của kẻ tấn công

Vi dụ như: Kẻ tấn công muốn tăng doanh số khách hang ở phẫu thuật tham mi

sẽ tim và truy vấn các khách hàng từng phẫu thuật thâm mi Kẻ tan công muốn tăngdoanh số nạp game sẽ truy vấn các khách hàng đã từng chỉ trả nhiều tiền vào game

và quảng cáo cho họ Kẻ tắn công muốn tăng doanh số khách hàng của các người lớn

tuéi đau nhức xương khớp sẽ truy van và tìm quảng cáo sản phẩm cho những người

có thông tin tiền án bệnh xương khớp hay lớn tuổi

Quyên riêng tư vi phân giúp các công ty công nghệ có thé thu thập và chia sẻ thôngtin tổng hợp về thói quen của người dùng, trong khi vẫn duy trì quyền riêng tư của

người dùng cá nhân.

1.2 Phạm vi đề tài

e Các phương pháp hỗ trợ cung cấp quyên riêng tư vi phân

e Cách đánh giá một số phương thức quyền riêng tư vi phân

e Khuôn khổ Private Aggregation of Teacher Ensembles

e Phuong phap PATE-GAN

1.3 Muc tiéu

e Tim hiểu tông quan quyên riêng tu vi phân

e Tìm hiểu và thực nghiệm tổng quan mang sinh đối kháng

e Tìm hiểu va áp dụng khuôn khổ Private Aggregation of Teacher Ensembles

e Tìm hiểu và thực nghiệm phương pháp PATE-GAN

e Tìm hiểu, thực nghiệm và đánh giá các phương pháp hỗ trợ cung cấp quyền riêng

16

Trang 17

tư vi phân vào dữ liệu hình ảnh.

1.4 Thách thức

Những khó khăn trong quá trình đạo tạo của mô hình mạng sinh đối kháng:

e Xây dựng mô hình mạng sinh đối kháng tương đối không dễ đào tạo, dé rơi vào

các trạng thái một trong hai model (hoặc cả 2 gồm Bộ tạo hoặc Bộ phân biệt)

không hội tụ Nó tương tự như việc bạn đảo tạo một classify model mà mãi không

ra gì Khi đó thì chắc chắn quá trình dao tạo GAN là thất bại Lỗi đào tạo model

ra kết quả không tốt thì không mấy xa lạ với người làm deep learning Thường docác lỗi: đữ liệu của bạn không chuẩn, mat cân băng: thiết kế model quá cơ bản,

quá phức tạp, không phù hợp bai toán; overfit, underfit,

e Trong quá trình dao tao dé rơi vào hiện tượng Mode collapse Tức là fake_images

sinh ra giống hệt nhau, ít phụ thuộc vào input đầu vào Điều này xảy ra khi mà bộ

tạo tìm ra một điềm dữ liệu đặc biệt mà tại điểm đó bộ phân biệt không thê phân

biệt được.

e Diminished gradient: Hiện tượng này xảy ra khi bộ phân biệt hội tụ quá nhanh

(hiện tượng này xảy ra cực kì phô biến do tại những bước đầu tiên, ảnh thật và ảnhgiả khác nhau rất nhiều) Ngay những epoch đầu tiên nó đã nhận biết được thậtgiả Điều này gây ra hiện tượng gradient vanishes cho bộ tạo Khiến cho bộ tạo

học rất chậm, hoặc chăng học được gi Kết quả quá trình đào tạo thất bại.

17

Trang 18

Chương 2 CƠ SỞ LÝ THUYET

2.1 Giới thiệu về quyền riêng tư vi phân trong khai thác dữ liệu

2.1.1 Tại sao lại cin riêng tư vi phân?

Quyền riêng tư vi phân giúp các công ty công nghệ có thê thu thập và chia sẻ thôngtin tổng hợp về thói quen của người dùng, đồng thời duy trì quyền riêng tư của từng

liệu, hoặc thậm chi dẫn đến trách nhiệm dân sự hoặc tôn hại về thé chat.

Sự phát triển của các mô hình quyền riêng tư chính thức như quyền riêng tư vi phân

đã giúp giải quyết van đề Do đó, ngày càng có nhiều tô chức và công ty áp dụng

quyền riêng tư vi phân dé bảo vệ thông tin nhạy cảm, chăng hạn như thông tin cá

nhân, sự kiện của người dùng, vi trí thời gian thực của cá nhân.

Vào khoảng tháng 9 năm 2019 Google phát hành kho công cụ nguồn mở: với tên gọi

Differentially Private SQL, thư viện nguồn mở này được tạo ra nhằm mục đích thúcday mạnh mẽ hơn nữa ý tưởng về quyền riêng tư vi phân Về cơ bản, bộ công cụ nàycho phép các nhà phát triển cũng như các tổ chức xây hoạt động trong lĩnh vực nêutrên xây dựng những công cụ có thé học hỏi, chat lọc thông tin từ dữ liệu người dùngtổng hợp, trong khi không tiết lộ bất kỳ thông tin nhận dạng cá nhân nào [1]

Nói tóm lại, Quyền riêng tư vi phân cho phép:

- Các công ty truy cập một số lượng lớn dữ liệu nhạy cảm để nghiên cứu và kinh

18

Trang 19

doanh mà không vi phạm quyền riêng tư.

- Các tổ chức nghiên cứu có thé phat trién công nghệ bao mật khác biệt để tự động

hóa các quy trình bảo mật trong các cộng đồng chia sẻ đám mây giữa các quốc gia

Do đó, họ có thé bảo vệ quyền riêng tư của người dùng và giải quyết van dé chia sẻ

dữ liệu.

2.1.2 Riéng tư vi phân là gì?

Quyền riêng tu vi phân (DP) là một định nghĩa toán học, mạnh mẽ về quyền riêng tưtrong bối cảnh phân tích thống kê và máy học Theo định nghĩa toán học này, DP làmột tiêu chí bảo vệ quyên riêng tư, mà nhiều công cụ phân tích thông tin cá nhân nhạycảm đã được tạo ra để đáp ứng

Định nghĩa 1.1 (Quyền riêng tư vi phân, DP) Một thuật toán ngẫu nhiên A, là (€, ồ)-chính riêng nếu đối với bat kỳ hai cơ sở dữ liệu D và ?“ khác nhau ở một điểm duynhất và đối với bất kỳ tập con đầu ra nào S [2]:

P(A, (D) eS) < e€ -P(A,(D'!) €S) +6

Nơi A,(D) và A,(D’) là kết quả đầu ra của thuật toán cho co sở dữ liệu đầu vao D

và ?' tương ứng và P là mức độ ngau nhiên của độ nhiễu trong thuật toán Định nghĩa

trên có thể tương đương với:

<€

low (ee = 5)

P(A,(D') = s)

2.1.3 Xác định tính chất riêng tư vi phan, áp dụng:

Làm thế nào chúng ta có thể phân biệt giữa thông tin cá nhân và thông tin chung?

e Theo quan điểm của DP, thông tin riêng tư là sự thay đổi thông tin trong dữ liệu

khi trước và sau khi chọn không tham gia một chủ thể dữ liệu riêng lẻ Điều này

cũng giải thích từ “differentailly”-“khác biệt” trong tên.

19

Trang 20

ý ù Seed —— RANDOMIZED ———— ANSWER 2 2À

— ALGORITHM “ ⁄ (

— ANSWER n (

Sa ANSWER 1

— RANDOMIZED , ANSWER 2

=< ALGORITHM ANSWER n ADVERSARY

Hình 2.1 Mô tả thông tin trong quyền riêng tư vi phân [9]

Nó đảm bảo những gì?

e Tính riêng tư vi phân đảm bảo về mặt toán học răng bat kỳ ai nhìn thấy kết qua

của phân tích riêng tư vi phân về cơ bản sẽ đưa ra suy luận giống nhau về thông

tin cá nhân của bất kỳ cá nhân nào, cho dù thông tin cá nhân của cá nhân đó có

được đưa vào đầu vào của phân tích hay không DP cung cấp một đảm bảo về mặt

toán học có thể chứng minh được về bảo vệ quyền riêng tư chống lại một loạt các

cuộc tan công về quyền riêng tu (bao gồm tan công khác biệt, tan công liên kết và

tấn công tái thiết) [3]

Nó không đảm bảo điều gì?

e DP không đảm bảo rang một người tin thông tin là bí mật của một người sẽ vẫn là

bí mật Điều quan trọng là phải xác định đâu là thông tin chung và đâu là thông

tin riêng tư đề nhận được lợi ích từ bảo hiểm DP và giảm tác hại DP đảm bảo chỉ

bảo vệ thông tin cá nhân (đã đề cập ở trên) Vì vậy, nếu bí mật của một người là

thông tin chung, nó sẽ không được bảo vệ.

2.1.4 Nó hoạt động như thế nao?

Hãy xem xét một ví dụ áp dụng phương pháp thuật toán tung đồng xu dé xem cách

thức áp dụng quyên riêng tư vi phân hay thuật toán đáp ứng tiêu chí quyền riêng tư vi

ph hoạt động như thế nào: Ví dụ rằng bạn là một nhà khoa học đữ liệu xã hội, muốn

thực hiện phân tích dữ liệu khảo sát vào một hành vi tương đối gọi là “cắm ky” Mỗi

đơn vị là kết quả của câu trả lời (sự thật) của mỗi cá nhân tham gia khảo sát răng bạn

có dùng thời gian làm việc riêng trong giờ làm hay không? Do chính sách bảo mật,

20

Trang 21

người quan lý hoặc bat kỳ người nào giữ tập dữ liệu khảo sát đó của công ty sẽ không

bao giờ cho phép bạn truy cập trực tiếp vào dữ liệu

thể thực hiện phân tích trên dit liệu Bạn sẽ tư vấn rằng, đối đơn vị nhập, người quản

ly sẽ ap dụng thuật toán này:

Lật một đồng xu (độ chệch của đồng xu là xác suất kết quả của nó là ngửa và nó sẽ

được ký hiệu là p_head) Nếu đứng ngửa, hãy trả lại câu trả lời thực được ghi nhận

Nêu sap, sau đó lật đông xu thứ hai và trả vê “có” nêu ngửa và “không” nêu sap.

Giờ đây, mỗi người được bảo vệ bang "sự từ chối hợp lý", bởi vì một người có thé từ chối câu trả lời bởi sự ngẫu nhiên của việc tung một đồng xu Chi tiết thực hiện có

thê diễn giải qua các bước sau:

21

Trang 22

Tính xác suất trả về “có” khi cá nhân đó là người có tội: P (“có” | có tội)

= p_head + (1 - p_head) * p_head = 0.5 + 0.5*0.5 =0.75

* Tinh xác suất trả về “co” khi cá nhân đó là người vô tội: P (“có” | vô tội)

=(1-p head) * p_head =0.5*0.5=0.25.

Tinh p_guilty:

= (1- P (“cd”) * P (“c6” | vô tội) + P (“có”) *P (“có” | có tội)

= (1- P (“c6”))*0,25 + P (“có”) * 0,75

Nhung trả lời thực của p_guilty là P(“có”

Lưu ý: Kết quả trên là kết quả tiệm cận được đảm bảo bởi Luật số lớn

Khi bạn thu được kết quả của câu trả lời, bạn có thê loại bỏ 25% câu trả lời P (“có”

có tội) và 25% câu trả lời P (“c6” | vô tội) Bạn có thê ước tính p_guilty gấp đôi phân

số trả lời “Có” trừ đi 0,5 tức là 2*((0,25) + p / 2) — 0,5 Gia sử kết quả khảo sát củabạn trên 10000 người chỉ ra răng chỉ có 30% người là làm việc riêng trong giờ làmviệc Câu trả lời tỉ lệ thực tế khi loại bỏ các dữ liệu nhiễu của thuật toán đồng xu là:

2*((0,25) + p/ 2) - 0,5 = (2*0,3-0,5) =0,1 = 10%

Ban có thé kết luận 10% là câu trả lời thống kê của dit liệu thật

Nếu số lượng người tham gia khảo sát vào đữ liệu thay đổi, nó không dẫn đến bat kỳ

thay đổi nào về thông tin trong dit liệu trả về bị nhiễu Nó có nghĩa là không có thông

tin cá nhân trong dữ liệu trả vê nhiều.

2.1.5 Tinh chất của khác biệt về quyên riêng tư vi phân

DP có các đặc tính có giá trị khiến nó trở thành một khuôn khổ phong phú dé phantích thông tin cá nhân nhạy cảm và bảo vệ quyền riêng tư:

e Dinh lượng mat quyền riêng tư: mat quyền riêng tư là một thước do trong bat kỳ

22

Trang 23

cơ chế và thuật toán DP nào Nó cho phép so sánh giữa các kỹ thuật khác nhau.

Mắt quyền riêng tư có thể kiểm soát được, đảm bảo sự cân bằng giữa nó và tính

chính xác của thông tin chung.

e Thành phan: việc định lượng tốn thất cho phép phân tích và kiểm soát tôn thất

riêng tư tích lũy qua nhiều lần tính toán Hiểu được hành vi của các cơ chế riêng

tư vi phân theo cấu trúc cho phép thiết kế và phân tích các thuật toán riêng vi phânphức tạp từ các khối xây dựng riêng vi phân đơn giản hơn

e_ Quyên riêng tư của Nhóm: DP cho phép phân tích và kiểm soát tổn thất về quyền

riêng tư của các nhóm, chang hạn như gia đình

e Hậu xử lý toàn vẹn - DP miễn nhiễm với quá trình xử lý sau: Một nhà phân tích

dữ liệu, không có kiến thức bé sung về cơ sở dữ liệu riêng tư, không thê tính toánmột chức năng của đầu ra của một thuật toán riêng biệt và làm cho nó ít riêng tư

hơn.

e_ Do lường mức độ riêng tư vi phân và báo cáo mức ôn tối da

Ta hãy phân tích công thức (1) định nghĩa đã được đề cập ở trên:

P(A,(D) e S) < e°-P(⁄4,(2'))eS)+ð

Một thuật toán ngẫu nhiên K cung cấp quyền riêng tư vi phân nếu đối với tat cả cáctập dữ liệu D và Ð' khác nhau trên nhiều nhất một hàng và bat kỳ S G Phạm vi (K)nào.

2 đại lượng quan trọng phải xét trong thuật toán DP là:

e Epsilon (e): Chỉ số về mat quyền riêng tư khi có sự thay đổi khác nhau về dữ liệu

(thêm, bớt 1 dit liệu dao vào) Giá trị càng nhỏ thì càng được bảo vệ quyền riêng

tư tốt hơn

e_ Độ chính xác: Mức độ gan gũi giữa đầu ra của các thuật toán DP với đầu ra thuần

túy Giảm e dẫn đến giảm độ chính xác

23

Trang 24

Nếu thuật toán của bạn là bảo mật riêng tư băng 0, bảo vệ tốt quyền riêng tư, thì nó

có độ chính xác rất thấp, điều đó sẽ vô ích Bởi vì bạn sẽ không nhận được gì khác

ngoài nhiêu.

Accuracy of Noisy Counting

Privacy level (Epsilon) of Noisy Counting

Accuracy of Noisy Counting

Privacy level (Epsilon) of Noisy Counting

=0 (và ồ = 0 trong trường hop chung) tương đương với quyền riêng tư tuyệt đối

Nó có thé được bắt nguồn trực tiếp từ định nghĩa về Quyên riêng tư vi phân Tóm lai,

24

Trang 25

e = 0 tương đương với P(A, ()€ S)= P(A, ()c S), dẫn đến thuật toán K độc

lập với dữ liệu và do đó bảo vệ quyên riêng tư một cách hoàn hảo.

2.2 Mô hình mang sáng tao: Generative Adversarial Network

2.2.1 Giới thiệu

Mang sáng tạo đối nghịch (Generative Adversarial Network) với tên ngắn phổ biến

GAN là một lớp các mô hình sinh mâu sử dụng các kiên trúc học sâu.

Mô hình sinh là một bài toán trong học máy liên quan đến việc tự động phát hiện vàhọc các mẫu phổ biến trong dit liệu đề từ đó, mô hình có thể tạo ra các ví dụ mới phùhợp với đữ liệu gốc

GAN là một cách tiếp cận thông minh để huấn luyện mô hình sinh bằng cách nhìnnhận bài toán sinh như một bài toán học có giám sát với hai thành phần: mô hình sinh

được huấn luyện dé tạo ra mẫu mới, và một mô hình đánh giá để phân biệt các ví dụ

là một thực thể thật hay một thực thể giả (được tạo ra) Hai mô hình được huấn luyện

song song, đối nghịch, cho đến khi mô hình phân biệt bị đánh lừa trên hơn 50% số

mẫu, tức là mô hình sinh thành công trong việc tạo ra dữ liêu giả chất lượng cao

Học có giám sát và không giám sát:

Bài toán học máy điền hình thường liên quan đến việc sử dụng một mô hình dé đưa

ra dự đoán Do đó thành phần không thể thiếu là tập di liệu huấn luyện, bao gồmnhiều vi dụ, với biến đầu vào (X) và kết quả đầu ra (y) Hiểu đơn giản nhất, một môhình được huấn luyện bằng cách dựa vào các biến đầu vào, dự đoán kết quả đầu ra và

được sửa lại với mỗi lần đoán sai Sau nhiều lần huấn luyện, khả năng dự đoán của

mô hình dần khớp với dữ liệu huấn luyện Phương pháp này gọi là học có giám sát.

Một biến thé khác là học không giám sát (còn được gọi là học mô tả), trong các bài

toán này, dữ liệu chỉ có các biến đầu vào mà không có kết quả đầu ra Mô hình được

xây dung bằng cách trích xuất và tong hợp các mẫu tồn tại trong dữ liệu Do đó không

25

Trang 26

có mô hình chính xác vi mô hình trong các bai toán này không có chức năng dự đoán.

Cùng với các bai toán khác như phân cụm.

How Supervised Machine Learning Works

Provide the machine learning algorithm categorized or Feed the machine new, unlabeled information to see if it tags

“labeled” input and output data from tofeam new data appropriately If not, continue refining the algorithm TYPES OF PROBLEMS TO WHICH IT’S SUITED

(dollars, weight, etc.)

"inl put ata tse what patterns nds pater the machine ents TYPES OF PROBLEMS TO WHICH IT's SUITED

ANOMALY

e

MACHINE « » in data

» For Example: ls a hack

— > intruding in our network?

Hình 2.5 Cách hoạt động mô hình máy học có giám sai và không giám sat!

GAN thuộc lớp các bài toán học không giám sát

2.2.2 Tại sao có thé sử dung Generative adversarial networks dé đảm bảo

quyền riêng tư vi phan

Trong các phương thức cũ (như lật đồng xu) hoạt động bằng cách thêm nhiễu vào dữ

liệu thực đem đến nhiều rủi ro như làm ảnh hưởng dữ liệu gốc, có thé làm giảm mạnh

độ chính xác của thuật toán nhất là trong trường hợp tập dữ liệu nhỏ, đồng thời vẫn

1 https://www.lotus-qa.com/data-annotation-guide/

26

Trang 27

tồn tại các giá trị thực hoặc phương thức suy luận dé kẻ tấn công tìm ra các đối tượng

đặc biệt nhất là trong trường hợp tập dit liệu có số lượng nhỏ Mô hình GAN thựchiện gắn nhiễu đến từ bộ tạo làm nó đồng thời có thể kiểm soát mức độ nhiễu, vừa cókhả năng tạo ra nhiều vi dụ mới đa dang và không giới hạn số lượng Từ đó tập dữliệu mới vừa có giá tri khai thác dữ liệu, vừa đảm bảo tat cả dữ liệu mới sinh ra khônggiống tập huấn luyện ở bat kỳ cá thé nào-tương ứng với đảm bảo quyên riêng riêng

tư vi phân trong tập dữ liệu được tạo.

Ngày nay, các công ty ngày càng có nhu cầu phát triển các hệ thống máy hoc (ML),

bao gồm cả hệ thống nhận dạng biểu cảm khuôn mặt, dữ liệu hình ảnh y té, thuong

tin tưởng vào các công cụ thực hiện bảo vệ quyền riêng tư thông qua sử dung GAN,

và GAN thường do bên thứ ba cung cấp đề “tây xóa” các hình ảnh nhận dạng cá nhân

2.2.3 Dinh nghĩa

GAN là lớp các mô hình sinh có kiến trúc sử dụng mạng nơ ron nhân tạo Kiến trúcGAN đầu tiên được mô tả trong bài báo khóa học năm 2014 do nhóm của lan

Goodfellow giới thiệu có tên “Generative Adversarial Networks.” [4]

Kiến trúc của GAN bao gồm hai thành phần nhỏ là một mô hình sinh đề sinh ra ví dụ

mới và một mô hình phân biệt dé xác định các thực thé là giả (được tạo ra bởi mô

hình sinh) hay là một thự thể thật:

- Mô hình bộ tạo Mô hình bộ sinh sinh ra ví dụ mới từ dư liệu đầu vào

» M6 hình phân biệt Mô hình xác định thật gia

27

Trang 28

_ ne,

Random Noise | Real |

Discriminator

Real Data rem

Bộ tạo nhận vào một véc tơ ngẫu nhiên có độ dài cô định và sinh ra một thực thé giả trong miễn dit liệu Véc tơ này được sinh ra ngẫu nhiên từ phân bố Gauss và được sử

dụng đê khởi tạo bộ tạo Sau khi được huân luyện, các diém trong không gian véc tơ

đa chiều này sẽ phù hợp với các điểm từ dữ liệu thật với phân bó dữ liệu tự nhiên

Bộ phân biệt nhận đầu vào là các ví dụ (thật và giả) và thực hiện bài toán phân lớpnhị phân dé xác định xem các ví dụ này là thật hay giả Các dữ liệu thật được lay từ

tập dir liệu huấn luyện, các dữ liêu gia được lay trực tiếp từ đầu ra của bộ tạo Bộ phân

biệt là một mô hình phân lớp dé hiéu

Dù là một bài toán học không giám sát nhưng với kiến trúc được thiết kế thông minh,GAN được huấn luyện như một bài toán học có giám sát Bộ tạo và bộ phân biệt đượchuấn luyện đồng thời Bộ phân biệt sẽ dần thông minh hơn trong việc phát hiện các

ví dụ thật / giả va do đó bộ tạo cũng tinh tế hơn trong việc sáng tạo của mình

Nói với ngôn ngữ của lý thuyết trò chơi, trong bối cảnh này, hai mô hình thi dau với

nhau và đối nghịch trong một game có tông bằng 0

Biến thé quan trọng của GAN là các mô hình sinh tao ra các ví dụ thỏa mãn các điềukiện cho trước Các điều kiện này được đưa vào mạng nơ ron dưới dạng các đặc trưng.Các giá trị này có thé là giá trị biểu thị các lớp, giá trị số hay một ma trận (ví dụ bứcảnh) Đến lượt mình, bộ phân biệt cũng nhận được những thông tin này và “ra yêu

cầu” cho bộ tạo thông qua những quyết định phân lớp của mình

28

Trang 29

2.2.4 Ung dụng

Cách tiếp cận này là khởi nguồn của hàng loạt các ứng dụng rất ấn tượng của GAN

như thay đối nội dung của ảnh, sáng tạo phong cách nghệ thuật, tô tranh hay chuyển

một bức ảnh mùa hè thành mùa đông, ban ngày thành ban dém,

2.3 Differentially Private Generative Adversarial Networks (DP-GAN)

Mot van dé phô biến trong GAN là mật độ của phân bố sinh học đã học có thể tậptrung vào các điểm dữ liệu đảo tạo, nghĩa là chúng có thé dé dang nho cac mẫu đào

tạo đo tính phức tạp cao của mô hình mạng sâu Điều này trở thành mối quan tâm lớn

khi GAN được áp dụng cho đữ liệu riêng tư hoặc nhạy cảm, chăng hạn như bản ghi y

tế của bệnh nhân và nồng độ phân phối có thé tiết lộ thông tin chí mang của bệnh

nhân Phương pháp DP-GAN đạt được sự riêng tư vi phân trong GAN bang cách thêmnhiễu đến gradient trong quá trình học tập Từ đó tạo ra các điểm dữ liệu chất lượng

cao ở mức độ riêng tư vi phân có thê.

2.4 Khuôn khô Private Aggregation of Teacher Ensembles (khuôn khổ

PATE)

Dé bảo vệ quyền riêng tư của dữ liệu đào tạo trong quá trình hoc, PATE chuyền kiến

thức từ một tập hợp các mô hình Teacher được đảo tạo trên các phân vùng của dữ liệu

sang mô hình sinh viên Cac đảm bảo về quyền riêng tư có thể được hiểu một cáchtrực quan và được thể hiện một cách chặt chẽ về các khía cạnh riêng tư khác nhau

29

Trang 30

Not accessible by adversary jg Accessible by adversary

| ee Training - B® Prediction —-— :}> Data feeding

Hình 2.7 Mô hình khái quát của khuôn khổ Private Aggregation of Teacher

Ensembles [6]

Khuôn khổ PATE bao gồm ba phan chính: (1) tập hợp n mô hình Teacher, (2) cơ chếtổng hợp và (3) mô hình Student

Teacher Models: Mỗi Teacher là một người mẫu được đào tạo độc lập trên một tập

hợp con dữ liệu có quyền riêng tư mà người ta muốn bảo vệ Dữ liệu được phân vùng

dé đảm bảo không có cặp Teacher nào được đào tạo về dữ liệu chồng chéo Bat ky kỹ

thuật học tập nào phù hợp với đữ liệu đều có thể được sử dụng cho bất kỳ Teacher

nào Việc dao tạo mỗi Teacher trên một phân vùng dữ liệu nhạy cảm sẽ tạo ra n mô

hình khác nhau giải quyết cùng một nhiệm vụ Khi suy luận, Teacher dự đoán độc lập

các nhãn.

Cơ chế tông hợp: Khi có sự đồng thuận mạnh mẽ giữa các Teacher, nhãn hiệu mà họhầu như đồng ý không phụ thuộc vào mô hình đã học của bất kỳ Teacher nào Do đó,quyết định chung nay là riêng tư về mặt trực giác đối với bat kỳ điểm dao tạo nhất

định nào - bởi vì điểm đó có thể chỉ được đưa vào một trong các bộ dao tạo của

Teacher Dé cung cấp các đảm bảo chặt chẽ về quyền riêng tư khác nhau, cơ chế tổng

hợp của khuôn khổ PATE ban đầu sẽ tính các phiếu bầu được chỉ định cho mỗi lớp,

thêm nhiễu Laplacian được hiệu chỉnh cần thận vào biểu đồ bỏ phiếu kết quả và xuất

ra lớp có phiếu bầu nhiễu nhất như dự đoán của nhóm Cơ chế này được gọi là cơ chế

tôi da cua Laplacian, hoặc LNMax, về sau.

Đối với các mẫu x và các lớp 1; ; m, hãy để fj(x) 2 [m] biểu thị dự đoán của Teacher

30

Trang 31

thứ j và nj biểu thị số phiếu bầu cho lớp thứ i (tức là, ni , jfj(x) = ij) Thông qua phân

tích chặt chẽ về cơ chế này, khuôn khổ PATE cung cấp một API riêng tư vi phân: chỉphí bảo mật của mỗi dự đoán tổng hợp do nhóm Teacher đưa ra đã được biết

Student model: Bước cuối cùng của PATE liên quan đến việc đào tạo một mô hìnhStudent bằng cách chuyền giao kiến thức từ nhóm Teacher sử dụng quyên truy cập

vào dữ liệu công khai, nhưng không được gắn nhãn Đề hạn chế chi phí bảo mật của

việc gắn nhãn chúng, các truy vấn chỉ được thực hiện đối với cơ chế tổng hợp chomột tập hợp con đữ liệu công khai dé đào tạo Student theo cách bán giám sát bangcách sử dụng một sé luong truy vấn cô định Lưu ý rằng mọi dự đoán tổng hợp bốsung sẽ làm tăng chi phí bao mật đã chi tiêu va do đó không thé hoạt động với cáctruy van không bị ràng buộc Truy van cô định khắc phục chi phí bảo mật cũng nhưgiảm giá trị của các cuộc tấn công phân tích các thông số mô hình để khôi phục dữliệu đào tao Student chỉ xem dữ liệu công khai và các nhãn bảo vệ quyên riêng tư

2.5 Private Aggregation of Teacher Ensembles - Generative adversarial

networks (PATE-GAN)

Bang những ưu điểm của khuôn khổ PATE mang lại Phương pháp PATE-GAN đượchình thành bằng cách sử dụng khuôn khổ PATE được điều chỉnh lại và áp dụng vàoGAN Nhằm đáp ứng những lỗi yêu điểm của cách thức thêm nhiễu của bộ tạo, cảithiện khả năng học hỏi khi bộ tạo vừa phải đáp ứng tạo được hình ảnh giống thật, vừaphải đáp ứng riêng tư vi phân và GAN thiếu Đồng thời thêm khả năng tạo mẫu mới

mà khuôn khổ PATE chưa có

2.6 Ham kích hoạt Sigmoid

Ham sigmoid là một hàm toán học có đường cong hình chữ "S" hoặc đường cong

sigmoid đặc trưng Một vi dụ phổ biến về hàm sigmoid là hàm logistic và được xácđịnh băng công thức:

31

Trang 32

2.7 Hàm kích hoạt Leaky ReLU

Leaky ReLU là biến thê cải tiến từ ReLU - hàm đang được sử dụng khá nhiều trongnhững năm gần đây khi huấn luyện các mạng neuron ReLU là viết tắt của rectifiedlinear unit - đơn vi tuyén tính chỉnh lưu, và là một ham chức nang kích hoạt

_ (x ifx >0 4

f(x) = tot» otherwise

32

Trang 33

Uji = Tịi

Hình 2.9 Đồ thị hàm ReLU, Leaky ReLU, PReLU va RReLU [10]

Leaky ReLU don giản loc các gia trị < 0 Nhìn vào công thức ta dé dang hiểu đượccách hoạt động của nó Một số ưu điểm khá vượt trội của Leaky ReLU so với Sigmoid:(+) Tốc độ hội tụ nhanh hơn hắn ReLU có tốc độ hội tụ nhanh Điều này có thể doLeaky ReLU không bị bão hoà ở 2 đầu như Sigmoid và Tanh

(+) Tính toán nhanh hơn Sigmoid sử dụng ham exp và công thức phức tạp hon

Leaky ReLU rất nhiều do vậy sẽ tốn nhiều chi phí hơn dé tính toán

(-) Khi tốc độ học lớn, các trọng sé (weights) có thé thay đổi theo cách làm tat cả

neuron dừng việc cập nhật.

(+) ReLU từng có nhược điểm trước khi cải tiễn thành Leaky ReLU: với các node

có giá trị nhỏ hơn 0, qua ReLU kích hoạt sẽ thành 0, hiện tượng đấy gọi là “Dying

ReLU’’ Nếu các node bị chuyền thành 0 thi sẽ không có ý nghĩa với bước kích hoạt

tuyến tính ở lớp tiếp theo và các hệ số tương ứng từ node đấy cũng không được cập

nhật với gradient descent Từ đó Leaky ReLU ra doi.

2.8 Chuẩn hoá Adam

Adam (viết tắt của Adaptive Moment Estimation) là một thuật toán trình tối ưu hoá

mà gần đây đã và đang được áp dụng rộng rãi hơn cho các ứng dụng học sâu trong

thị giác máy tính và xử lý ngôn ngữ tự nhiên Nó là bản cải tiến cho trình tối ưu hóa

33

Trang 34

RMSProp có thé được sử dung thay cho quy trình giảm độ dốc ngẫu nhiên cô điển

để cập nhật lặp đi lặp lại trọng sỐ mạng dựa trên dữ liệu huấn luyện

Khi giới thiệu thuật toán [7], các tác giả liệt kê những lợi ích hấp dẫn của việc sử

dung Adam trong các bài toán tối ưu hóa không lôi, như sau:

e Đơn giản để thực hiện.

e Hiệu quả về mặt tính toán.

e Yêu cầu bộ nhớ nhỏ

e Bat biến đối với ty lệ chuyển mau theo đường chéo

e Rấtthích hợp cho các van đề lớn về dit liệu và / hoặc tham số

e Thích hợp cho các mục tiêu không cố định

e Thích hợp cho các van đề với gradient rat ồn / hoặc thưa thớt

e Siêu tham sô có cách diễn giải trực quan và thường yêu câu ít điêu chỉnh.

CIFAR10 ConvNet First 3 Epoches CIFAR10 ConvNet

Hinh 2.10 Chi phi dao tao mang no-ron hop phap (trai) Chi phi dao tao trong ba ky

nguyên dau tiên (phải) Chi phí dao tạo trong 45 kỷ nguyên CIFAR-10 với kiên

trúc c64-c64-c 128-1000 [7]

Phương pháp này tính toán tỷ lệ học tập thích ứng của từng cá nhân cho các thông số

khác nhau từ các ước tính vê khoảnh khac đâu tiên và thứ hai của độ doc.

34

Trang 35

Các tác giả mô tả A dam là sự kết hợp những ưu điểm của hai phần mở rộng khác của

Sự giảm dần độ dốc ngẫu nhiên Đặc biệt, Adam nhận lợi ích của cả AdaGrad vàRMSProp phủ hợp với thực nghiệm của bài toán dé ra:

e Thuật toán Gradient Thich ứng (AdaGrad) duy trì tốc độ học tập trên mỗi thông

số giúp cải thiện hiệu suất đối với các van dé với gradient thưa thớt (ví dụ: các vấn

đề về ngôn ngữ tự nhiên và thị giác máy tính)

e Root Mean Square Prop (RMSProp) cũng duy trì tốc độ học trên mỗi tham số

được điều chỉnh dựa trên mức trung bình của các cường độ gần đây của cácgradient đối với trọng lượng (vi dụ: tốc độ thay đôi của nó) Điều này có nghĩa làthuật toán giải quyết tốt các van đề trực tuyên và không cố định (vi dụ: nhiễu)

Trong thuật toán tối ưu hóa Adam, việc chạy trung bình của cả gradient và thời điểm

trong đó £ lập chỉ mục cho lần lặp huấn luyện hiện tại, cập nhật tham số của Adam

được cung câp bởi:

Trang 36

2.9 Giới thiệu ngôn ngữ lập trình Python

Trong áp dụng thực nghiệm của đề tài này, tôi xin sử dụng ngôn ngữ lập trình Python

dé thực hiện xử lý dữ liệu và xây dựng mô hình máy học Python là ngôn ngữ lập

trình hướng đối tượng, cấp cao, mạnh mẽ, được tạo ra bởi Guido van Rossum Nó dé

dàng dé tìm hiểu và ngày càng nổi bật hơn trong các cộng đồng lập trình viên và nhà

nghiên cứu trong việc thực hiện và sử dụng các thuật toán hỗ trợ hay xây dựng mô

mình máy học Python hoàn toàn sử dụng khai báo dữ liệu động và sử dụng cơ chếcấp phát bộ nhớ tự động Python có cau trúc dit liệu cấp cao mạnh mẽ và cách tiếpcận đơn giản nhưng hiệu quả đối với lập trình hướng đối tượng Cú pháp lệnh củaPython vô cùng rõ ràng, dé hiểu Do là nhân tổ chính làm cho nó nhanh chóng trởthành đối tượng sử dụng của các nhà lập trình viên học và sử dụng trong nhiều lĩnh

vực, hiện diện ở mọi nên tảng.

Các lợi ích của ngôn ngữ Python có thể mô tả như sau:

xử lý những nhiệm vụ khó khăn trong việc quản lý bộ nhớ, dọn dẹp những dữ liệu

vô nghia, Nhung khi chuyên qua Python, nó sẽ tự động chuyên đổi code sangngôn ngữ máy tính có thê hiểu Python là ngôn ngữ thông dịch cấp cao nên bạnkhông cần lo lắng về bat kỳ hoạt động ở cấp thấp nao

e Ngôn ngữ lập trình đơn giản, dé học: Python có cú pháp rất đơn giản, rõ ràng Nó

được các nhà lập trình viên đánh giá là dé đọc và viết hơn khi so sánh với các ngônngữ lập trình khác như C++, Java, C# Python hỗ trợ mọi người dễ tiếp cận hơn

và làm cho việc lập trình trở nên thú vị, cho phép bạn tập trung vào những giải

pháp chứ không phải cú pháp.

e Loi ích khả năng mở rộng và có thể nhúng trên đa ngôn ngữ: Giả sử một ứng dụng

đòi hỏi sự phức tap rất lớn, bạn có thé dé dàng kết hợp các phan code bằng C, C++

hay Java và những ngôn ngữ khác vào code Python Điều này sẽ hỗ trợ cho ứngdụng cua bạn thực hiện các bai toán phức tạp dé đưa ra những tính năng tốt hơn

36

Trang 37

cũng như giúp bạn sử dụng ưu điểm scripting của Python.

Lợi ích miễn phí, mã nguồn mở: Bạn có thể tự do sử dụng chương trình cho mọimục đích, quyền tự do dé nghiên cứu cấu trúc chương trình, chỉnh sửa dé phù hợpvới yêu cầu, truy cập vào mã nguồn, hay quyền tự do phân phối lại các phiên bảnkhác nhau cho nhiều người, cải tiến chương trình và phát hành công cộng, thậm

chí là dùng cho mục đích thương mại.

Thư viện tiêu chuẩn lớn dé giải quyết những tác vụ phổ biến: Python có một sốlượng lớn thư viện tiêu chuẩn giúp cho công việc lập trình của bạn trở nên dé thởhơn rất nhiều, đơn giản vì không phải tự viết tất cả code Đặc biệt càng về sauPython được phần lớn các nhà lập trình nghiên cứu thuật toán và giải thuật sử dụng

và công bố, cải thiện nhiều thuật toán, mô hình, ngày càng hoàn thiện và chỉnh

chu hơn.

37

Trang 38

Chương 3 LÝ THUYET AP DUNG CÁC PHƯƠNG PHÁP VÀO DU

LIỆU HÌNH ẢNH

3.1 Phương pháp Differentially Private Generative Adversarial Networks

Tiến vào bài toán, bước đầu ta thiết lập mạng sinh đối kháng Bộ tạo là mạng sinh ra

dt liệu, tức là sinh ra các hình ảnh giống với dir liệu trong tập dữ liệu Bộ tạo có input

là noise (random vector) là output là các hình ảnh.Bộ phân biệt là mang dé phân biệt

xem đữ liệu là thật (dữ liệu từ dataset) hay giả (dữ liệu sinh ra từ Bộ tạo).Vì ta có 2

mạng bộ tạo và bộ phân biệt với mục tiêu khác nhau, nên cần thiết kế 2 loss function

cho mỗi mạng.

Kí hiệu z là noise đầu vào của bộ tạo, x là dữ liệu thật từ bộ dataset

Gia tri output của model qua hàm sigmoid nên sẽ trong (0, 1) nên bộ phân biệt sé

được đào tạo dé đầu vào anh ở dataset thì đầu ra gan 1, còn đầu vào là anh sinh ra từ

bộ tạo thi đầu ra gần 0, hay D(x)> 1 còn D(G(z)) > 0

Hay nói cách khác là loss function muốn maximize D(x) và minimize D(G(z)) Ta

có minimize D(G(z)) tương đương với maximize (1 — D(G(z))) Do đó loss

function của bộ phân biệt có thê viết thành

maxV(D) = Ez.„,„œ)|log D(X)] + Ez p„[log (1 — D(6(2)))]

Ezy~p„„(@œ)[log D(x)] : xác nhận nhận hiện ảnh that tốt hơn

E,~»,(z) [log (1 — D(G(z)))] : xác nhận tạo ảnh giả giống ảnh thật hơn

E là kì vọng, hiểu đơn giản là lay trung bình của tat cả dữ liệu, hay maximize D(x)

với x là dữ liệu trong traning set.

38

Tiêu đề	Bảo vệ quyền riêng tư cho quá trình thu thập dữ liệu
Tác giả	Nguyễn Duy Thiện
Người hướng dẫn	THS. Hà Lê Hoài Trung
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Hệ thống thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	76
Dung lượng	38,47 MB