1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp học sâu bảo vệ tính riêng tư

138 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 138
Dung lượng 3,47 MB

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA——————–

TRẦN TRƯƠNG TUẤN PHÁT

PHƯƠNG PHÁP HỌC SÂU BẢO VỆ TÍNH RIÊNG TƯ

Chuyên ngành: KHOA HỌC MÁY TÍNHMã số: 8480101

LUẬN VĂN THẠC SĨ

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCMCán bộ hướng dẫn khoa học:PGS.TS Đặng Trần KhánhPGS.TS Lê Hồng TrangCán bộ chấm nhận xét 1:TS Đặng Trần TríCán bộ chấm nhận xét 2:PGS.TS Nguyễn Tuấn Đăng

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 12 tháng 7 năm 2023.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, họchàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ tịch: PGS.TS Trần Minh Quang2 Thư ký: TS Nguyễn Thị Ái Thảo3 Phản biện 1: TS Đặng Trần Trí

4 Phản biện 2: PGS.TS Nguyễn Tuấn Đăng5 Ủy viên: TS Phan Trọng Nhân

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNGTRƯỞNG KHOA KHOA HỌC VÀ

KỸ THUẬT MÁY TÍNH

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Trần Trương Tuấn PhátMSHV: 2070677

Ngày, tháng, năm sinh: 03/10/1998Nơi sinh: Vĩnh Long

Chuyên ngành: Khoa học máy tínhMã số: 8480101

I TÊN ĐỀ TÀI: PHƯƠNG PHÁP HỌC SÂU BẢO VỆ TÍNH RIÊNG TƯ(PRIVACY-PRESERVING DEEP LEARNING METHODS)

II NHIỆM VỤ VÀ NỘI DUNG:

1) Nghiên cứu rủi ro vi phạm riêng tư của mơ hình học sâu và các phương pháp bảo vệtính riêng tư.

2) Đề xuất và phát triển được một phương pháp bảo vệ tính riêng tư cho học sâu.

3) Thực nghiệm và đánh giá được điểm mạnh, điểm yếu, khả năng ứng dụng thực tiễncủa giải pháp đề xuất.

III.NGÀY GIAO NHIỆM VỤ : 05/09/2022

IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 21/05/2023V.CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên):

1) PGS TS Đặng Trần Khánh2) PGS TS Lê Hồng Trang

Tp HCM, ngày 04 tháng 06 năm 2023

CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký) HỘI ĐỒNG NGÀNH(Họ tên và chữ ký)

TRƯỞNG KHOA

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 4

Lời cảm ơn

Đầu tiên, tôi xin gửi lời cảm ơn và những tình cảm sâu sắc nhất đến hai thầy hướng dẫn- PGS.TS Đặng Trần Khánh và PGS.TS Lê Hồng Trang Đặc biệt hơn là thầy Khánh- người đã hướng dẫn tôi trong cả hai luận văn đại học và thạc sĩ Bên cạnh những kiếnthức mà thầy truyền dạy, nhờ sự tận tình và chu đáo của thầy mà tơi có đủ dũng cảm đểđối mặt và vượt qua những khó khăn gặp phải trong q trình thực hiện đề tài.

Bên cạnh đó, tơi xin gửi lời cảm ơn đến các thầy/cô trường Đại học Bách Khoa, Đại họcQuốc gia Thành phố Hồ Chí Minh, đặc biệt là các thầy/cơ khoa Khoa học và Kỹ thuậtMáy tính đã truyền đạt những kiến thức quý báu trong bốn năm học Đại học và khoảngthời gian học Thạc sĩ Nhờ những kiến thức này mà tơi có được một hành trang vững trãiđể bước vào lĩnh vực mà tôi theo đuổi.

Tiếp đến, tơi khơng thể hồn thành luận văn này nếu khơng có sự hỗ trợ về mọi mặt,trong cơng việc cũng như trong cuộc sống của bạn bè và đồng nghiệp Tôi rất biết ơn bạnbè và đồng nghiệp trong thời gian tôi học Đại học-Thạc sĩ ở Đại học Bách Khoa cùngkhoảng gần 4 năm làm việc của mình Thời gian học tập và làm việc ở Đại học Bách khoathực sự đã mở ra cho tôi nhiều cơ hội Những kỷ niệm ở Bách Khoa là những kỷ niệmđẹp mà tôi không bao giờ quên.

Cuối cùng, tôi xin gởi lời cảm ơn chân thành nhất đến gia đình - cha mẹ đã nuôi dạy tôivà tạo mọi điều kiện để cho tơi có mơi trường học tập và phát triển tốt nhất!

Trang 5

TÓM TẮT LUẬN VĂN

Với sự gia tăng sử dụng và hiện diện mọi mặt của công nghệ trong cuộc sống hàng ngày,riêng tư dữ liệu đã trở thành một vấn đề quan trọng khơng chỉ đối với từng cá nhân cầnbảo vệ chính mình khi tham gia trên khơng gian mạng mà cịn nghiêm trọng đối an ninhcủa các công ty, các tổ chức và chính phủ hiện nay Thật vậy, dữ liệu về cá nhân đưa ramột thách thức rất thú vị: các cơng ty, các tổ chức và chính phủ nếu thu thập và khaithác các dữ liệu này sẽ giúp xây dựng các dịch vụ, mơ hình trí tuệ nhân tạo siêu cá nhânhố có thể hỗ trợ khách hàng, người dân tốt hơn, tuy nhiên song hành với đó là rủi rolàm sao để các công ty, tổ chức này không xâm phạm quyền riêng tư cá nhân từ "thứ dầumỏ của thế kỷ 21" này.

Các cơng nghệ trí tuệ nhân tạo và học sâu được coi là những công nghệ định hướng xãhội trong cuộc cách mạng 4.0 Tuy nhiên, trong những năm gần đây (khoảng 2017 - nay),cùng với những tiến bộ về cả lý thuyết lẫn ứng dụng thực tiễn của các công nghệ dựa trênhọc sâu thì ngày càng nhiều cơng trình, bài báo đã chỉ ra những rủi ro về vi phạm riêngtư dữ liệu mà các cơng nghệ trí tuệ nhân tạo này mang lại Thậm chí các cơng nghệ nàycịn có thể được tận dụng như là một phương pháp để khai thác trái phép dữ liệu riêng tưngười dùng trên không gian mạng Mặc dù về phương pháp luận tấn công lẫn cách thứcbảo vệ vẫn còn rời rạc và chưa có phương pháp tối ưu nhưng những cơng trình này chota thấy rủi ro đáng báo động, đặc biệt khi AI ngày càng len lỏi vào cuộc sống Đề tài nàysẽ đi sâu nghiên cứu, tìm hiểu, phân tích cụ thể các phương thức chủ yếu để tấn công vàkhai thác dữ liệu riêng tư từ học sâu và các cách phổ biến hiện tại đã và đang được sửdụng để bảo vệ tính riêng tư của các mơ hình học sâu.

Bên cạnh đó, đề tài cũng chỉ ra rằng những gì chúng ta cần là các cơng nghệ tăng cườngbảo mật riêng tư (Privacy Enhancing Technoloiges - PETs) thay vì chỉ tập trung vào cáccơng nghệ riêng lẻ AI cùng học sâu cũng không phải là ngoại lệ Do đó, đề tài đề xuấtmột phương pháp huấn luyện học sâu bảo vệ riêng tư thoả riêng tư vi phân (differentialprivacy), một tiêu chuẩn "vàng" trong việc bảo vê tính riêng tư dữ liệu xây dựng trêncơ sở lý thuyết toán học vững chắc Phương pháp này là tổng quát, có thể dùng cho bấtkỳ thủ tục huấn luyện học sâu nào và đặt biệt, phương pháp này dễ hiểu đối với ngườikhơng có nhiều kiến thức nền về bảo vệ riêng tư dữ liệu cũng như riêng tư vi phân Dođó nó phù hợp cho bất kỳ người theo đuổi AI nào, từ nghiên cứu viên đến kỹ sư, triểnkhai và sử dụng.

Trang 7

THESIS ABSTRACT

With the increasing use and presence of technology in everyday life, data privacy hasbecome an important issue not only for individuals who need to protect themselves whenparticipating in cyberspace, but also for the security of companies, organizations andgovernments today Indeed, personal data poses a very interesting challenge: companies,organizations and governments, if they collect and exploit these data, will help to buildhyper-personalized services and AI models that can better support customers and citizens.However, there is a risk that these companies and organizations will not violate individualprivacy from this "21st century oil".

Artificial intelligence (AI) and deep learning are considered as socially-oriented tech-nologies in the 4.0 revolution However, in recent years (around 2017-now), along withadvances in both theory and practical applications of deep learning-based technologies,more and more research has indicated the risks of violating data privacy that these AItechnologies bring about In fact, these technologies can even be exploited as a method toillegally exploit users’ private data on the internet Although the attack and protectionmethods are still disparate and have not yet been optimized, these studies show alarmingrisks, especially when AI is increasingly infiltrated into our lives This topic will delveinto researching, investigating, and specifically analyzing the main methods of attackingand exploiting privacy data from deep learning, as well as common protection methodscurrently used to protect the privacy of deep learning models.

Furthermore, the topic also points out that what we need are Privacy Enhancing Tech-nologies (PETs) rather than just focusing on techTech-nologies solely AI and deep learning arenot exceptions Therefore, the topic proposes a privacy-preserving deep learning train-ing method satisfytrain-ing differential privacy, a "golden" standard in protecttrain-ing data privacybased on solid mathematical theory This method is general and can be used for any deeplearning training procedures Moreover, it is easy to understand for those who do not havemuch background knowledge in data privacy protection and differential privacy Thus, itis suitable for all kinds of AI practitioners, from researchers to engineers, implement andutilize.

Trang 8

LỜI CAM ĐOAN

Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác có liênquan đã ghi rõ trong phần tài liệu tham khảo, các nội dung trình bày trong luận văn nàylà do chính tơi thực hiện và chưa có phần nội dung nào được nộp để lấy bằng cấp ở mộttrường khác.

Tơi sẽ hồn tồn chịu trách nhiệm và xử lý theo quy định nhà trường nếu có bất cứ saiphạm nào so với lời cam đoan.

TP HCM, ngày 05 tháng 6 năm 2023

Trang 9

Mục lục

NHIỆM VỤ LUẬN VĂN THẠC SĨ i

LỜI CẢM ƠN ii

TÓM TẮT LUẬN VĂN iii

THESIS ABSTRACT v

LỜI CAM ĐOAN vi

MỤC LỤC vii

DANH MỤC HÌNH ẢNH ix

DANH MỤC CHỮ VIẾT TẮT xi

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 1

1.1 Giới thiệu đề tài 2

1.2 Đặt vấn đề 4

1.3 Ý nghĩa đề tài 7

1.3.1 Ý nghĩa khoa học 7

1.3.2 Ý nghĩa thực tiễn 7

1.4 Mục tiêu và phạm vi nghiên cứu 8

1.5 Cấu trúc luận văn 9

CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 102.1 Nền tảng học sâu 11

2.2 Riêng tư vi phân 12

2.3 Private Aggregation of Teacher Ensembles (PATE) 16

2.4 Kỹ thuật vector thưa 17

2.5 Lược đồ mã hoá Paillier 18

2.6 Human-in-the-loop 19

CHƯƠNG 3 CƠNG TRÌNH LIÊN QUAN 203.1 Rủi ro vi phạm riêng tư dữ liệu trong học sâu 21

3.1.1 Tấn công suy luận thành viên 22

3.1.2 Các cuộc tấn công khác vi phạm tính riêng tư khác 30

3.1.3 Nhận xét 33

3.2 Các phương pháp bảo vệ 34

3.2.1 Che dấu điểm tin cậy 34

3.2.2 Chính quy hóa 34

3.2.3 Riêng tư vi phân 35

Trang 10

CHƯƠNG 4 GIẢI PHÁP ĐỀ XUẤT 38

4.1 Nguyên lý thiết kế 39

4.2 Phương pháp học sâu bảo vệ tính riêng tư 41

4.2.1 Tổng hợp thoả riêng tư vi phân dựa vào kỹ vector thưa 41

4.2.2 Cải thiện khung PATE với Human-in-the-loop 44

4.2.3 Triển khai phân tán với lược đồ mã hoá Paillier 46

CHƯƠNG 5 THIẾT KẾ THÍ NGHIỆM VÀ ĐÁNH GIÁ 485.1 Thiết kế thí nghiệm 49

5.2 Đánh giá 49

CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 54

TÀI LIỆU THAM KHẢO 107

Trang 11

DANH MỤC HÌNH ẢNH

2.1 Cơ chế trả lời ngẫu nhiên M để thu thập dữ liệu mà chủ dữ liệu có thể phủ

nhận hợp lý kết quả 12

2.2 Cơ chế ngẫu nhiên M thoả ϵ-differential privacy - ảnh hưởng của điểm dữliệu x đối với kết quả của cơ chế M là nhỏ (đặc trưng bởi đại lượng ϵ) 13

2.3 So sánh phân phối Gauss và Laplace 15

2.4 PATE framework 16

3.1 Thế nào là một mơ hình học sâu vi phạm tính riêng tư? 21

3.2 Tấn công suy luận thành viên 22

3.3 Trong trường hợp hộp đen kẻ tấn công sử dụng dữ liệu đầu vào và kết quảdự đoán trả ra từ một dịch vụ AI hộp đen để thực hiện suy luận thành viên 233.4 Xây dựng mơ hình tấn cơng học sự khác biệt giữa vector dự đoán của điểmdữ liệu trong tập dữ liệu huấn luyện và điểm dữ liệu trong tập dữ liệu 23

3.5 Tấn công suy luận thành viên bằng cách xây dựng một mạng nơ-ron dựđoán xem điểm dữ liệu có thuộc vào tập dữ liệu của mơ hình đối tượngkhơng [82] 24

3.6 Trong trường hợp hộp trắng kẻ tấn cơng có khả năng quan sát được cácthơng số học và gradient trong q trình dự đốn Do đó kẻ này có thể sửdụng dữ liệu đầu vào, kết quả dự đốn trả ra, thơng số học và gradienttừng lớp để thực hiện suy luận thành viên 26

3.7 Phương pháp tấn công hộp trắng [81] 27

3.8 Độ chính xác của mơ hình học sâu khơng trực tiếp ảnh hưởng đến tínhriêng tư của dữ liệu mà nó dùng để huấn luyện 29

3.9 Các mơ hình học sâu ngày càng “sâu” thơng qua việc ngày càng chứa nhiềutham số hơn giúp cho việc học dữ liệu và tổng quát học tốt hơn Tuy nhiênđiều này vơ tình làm các mơ hình học sâu này ghi nhớ (thay vì học) mộtsố điểm dữ liệu trong chính nó Do đó rủi ro suy luận thành viên cũng caohơn 30

3.10 Tấn công trích xuất mơ hình 31

3.11 Tấn cơng suy luận thuộc tính và đảo ngược mơ hình 32

3.12 Hình bên phải là dữ liệu gốc để xây dựng mơ hình nhận diện khn mặt,Hình bên trái là kết quả của tấn cơng đảo ngược mơ hình 32

3.13 Tấn công suy luận tính chất 33

3.14 Phương pháp min-max game [83] là hàm tối ưu hoá hai cấp (bi-level opti-mization) dựa vào ý tưởng tối thiểu hố hàm mất mát với biểu thức chínhquy hố là tối đa hố của hàm thu được thơng tin từ suy luận (gain function) 353.15 Confidential & private collaborative learning (CAPC) [129] 36

4.1 Mơ hình trực giác về PATE 40

4.2 Khung PATE sử dụng cơ chế tổng hợp vector thưa 44

4.3 Khung PATE với cơ chế tổng hợp dựa trên kỹ thuật vector thưa với mơhình huấn luyện trước và sự tham gia của chuyên gia 46

Trang 12

5.1 Kiến trúc mạng CNN Lenet-5 495.2 Độ chính xác của mơ hình đầu ra đảm bảo quyền riêng tư như một hàm

của ngân sách quyền riêng tư cho mỗi truy vấn do vanilla PATE huấn luyện 505.3 Độ chính xác của mơ hình bảo vê riêng tư tương ứng với các ngân sách

Trang 13

DANH MỤC CÁC TỪ VIẾT TẮT

Danh sách dưới đây liệt kê các từ viết tắt sẽ được sử dụng về sau trong nội dung cuốnluận văn này.

AI Artificial Intelligence

DL Deep Learning

DP Differential Privacy

GDPR General Data Protection Regulation

IoTs Internet of Things

ML Machine Learning

PATE Private Aggregation of Teacher Ensembles

PETs Privacy Enhancing Technologies

SGD Stochastic Gradient Descent

Trang 14

1

TỔNG QUAN ĐỀ TÀI

Trang 15

1.1Giới thiệu đề tài

Nhờ sự phát triển của các công nghệ phần cứng và dữ liệu lớn, các mơ hình học sâu dựavào mạng nơron lần lượt vượt qua các phương pháp học máy trước đó trong hàng loạtcác lĩnh vực, đặc biệt là trong thị giác máy tính [1]–[3] và xử lý ngơn ngữ tự nhiên [4]–[6].Các ứng dụng trí tuệ nhân tạo (AI) hiện nay đã phổ biến rộng khắp Một số lĩnh vựcxử lý dữ liệu cá nhân như điều trị y tế, tài chính, nhận diện khn mặt cũng đã tíchhợp AI vào các quy trình của mình Tuy vậy, gần đây các mơ hình xây dựng dựa trênphương pháp học sâu bị khai thác và chứng minh có khả năng khơng an tồn trước nhiềurủi ro và các cuộc tấn công: tấn công trốn tránh (adversarial/evasion attack ) [7], [8] tấncông cửa sau (backdoor attack ) [9], [10] làm vi phạm tính tồn vẹn (integrity) của antồn thơng tin; bên cạnh đó, tấn cơng đầu độc dữ liệu (data poisoning attack ) [11], [12]làm vi phạm tính tồn vẹn (integrity) và sẵn sàng (availability), tấn cơng trích xuất mơhình (model extraction attack ) [13], [14], tấn cơng đảo ngược mơ hình (model inversionattack ) [15] làm vi phạm tính bảo mật (confidentiality); tấn cơng riêng tư dữ liệu (privacyattack ) [16]–[20], làm vi phạm tính bảo mật (confidentiality) và tính riêng tư dữ liệu (dataprivacy), v.v Việc liên tiếp bị khai thác và tìm ra những điểm yếu mới khiến cho tính antồn và tin tưởng khi áp dụng rộng rãi các công nghệ ứng dụng học sâu là một câu hỏilớn Trong đó, rủi ro vi phạm về riêng tư dữ liệu mà một vấn đề nhức nhối vì nó khơngchỉ ảnh hưởng đến bên cung cấp dịch vụ, người dùng mà còn cả đến sự an tồn, lịng tincủa con người vào việc sử dụng cơng nghệ và các vấn đề xã hội, pháp lý.

Riêng tư dữ liệu hay riêng tư người dùng có rất nhiều định nghĩa và có thể giải thíchkhác nhau ở những trường hợp cụ thể, tuy nhiên ở đây là có thể hiểu là quyền riêng tưlà quyền mà cá nhân được tiết lộ có chọn lọc thơng tin về bản thân với thế giới Ví dụ,trong khơng gian mạng khi tham gia sử dụng các dịch vụ của một công ty, tổ chức nàođó cung cấp, ta có quyền được chọn lọc những thơng tin về bản thân mình để thể hiệnvà đưa ra bên ngoài Khi quyền riêng tư được bảo vệ đúng đắn, các công ty, tổ chức cungcấp dịch vụ trên khơng gian mạng đó phải có nghĩa vụ bảo vệ quyền riêng tư đó cho ngườidùng Đó có thể là những thoả thuận giữa khách hàng, người dùng với cơng ty, tổ chứcđó thơng qua cách điều khoản, chính sách riêng tư (privacy policies, privacy regulations).Ví dụ, như là bảo vệ về việc chia sẻ dữ liệu cho một công ty, tổ chức khác nữa hoặc vềmục đích sử dụng của dữ liệu,.v.v.

Trang 17

tư khi xuất bản kết quả của phân tích, tính tốn, mơ hình đó (Cụ thể sẽ trình bày ở 2.2).Xét nguyên nhân, dữ liệu riêng tư có thể bị lộ theo hai cách trực tiếp hoặc gián tiếp.Nguyên nhân trực tiếp là những nguyên nhân mà bản thân chính nó đã vi phạm tínhriêng tư - những cơng nghệ, dịch vụ, kênh trao đổi thông tin, nơi lưu trữ không bảo vệđược sự riêng tư cho người dùng Nó có thể đến từ các cơng ty/tổ chức cơng nghệ cungcấp dịch vụ khơng hồn thiện về tính bảo vệ riêng tư, hay đến từ chính bản thân củachính người dùng sử dụng sai cách vơ tình cơng khai sự riêng tư của mình Một trongnhững những ví dụ tiêu biểu hiện nay là mạng xã hội Facebook khi liên tục bị cáo buộcvà phạt khi vi phạm về các quy định bảo vệ quyền riêng tư Các sai phạm (và đã thựchiện thủ tục đóng phạt) có thể kể thêm là vào năm 2018-2019, Facebook làm vơ tình làmlộ 1,5 triệu dữ liệu email người dùng và nội dung bên trong; các thông tin của hàng triệungười dùng sử dụng điện thoại di động và phân tích hành vị sử dụng bị lộ ra bên ngoài,vi phạm nghiêm trọng quyền riêng tư; hơn 267 triệu dữ liệu người dùng Facebook bị côngkhai lộ trên các web đen (dark web) Tuy rằng việc vi phạm riêng tư có thể đến từ côngty/tổ chức cung cấp dịch vụ lẫn người dùng, nhưng theo một báo cáo thống theo củacông ty Intel thì phần lớn nguyên nhân chủ yếu đến từ dịch vụ/tổ chức mà thậm chí làdo người bên trong cơng ty cố tình làm vậy để bán dữ liệu hay sử dụng tài ngun đó đểthực hiện mục đích trái phép, không đúng cam kết với khách hàng như vụ lộ thơng tincủa trang web tìm kiếm nổi tiếng đầu thế kỷ XX - AOL (2004) - gần 100 triệu người bị viphạm quyền riêng tư trong không gian mạng trong vụ này Tổng quát hơn, dữ liệu riêngtư có thể lộ do dịch vụ/tổ chức giữ dữ liệu, kênh trao đổi/truyền dữ liệu hay nơi lưu trữdữ liệu riêng tư không đáng tin cậy.

Mặc dầu vậy, kể cả khi được xem xét cẩn thận về các quá trình chia sẻ, thu thập, sử dụng,lưu trữ thì quyền riêng tư vẫn có thể bị vi phạm do những cá nhân/tổ chức có hiểu biếtcơng nghệ cố gắng khai thác thơng tin riêng tư Những ngun nhân này có thể xem làgián tiếp vì phải qua quá trình nghiên cứu, tìm hiểu để khai thác thơng tin riêng tư [29],[28] Các cơng nghệ trí tuệ nhân tạo, học sâu đang dần len lỏi vào hầu hết các lĩnh vựctrong cuộc sống Q trình học của các thuật tốn, mơ hình học sâu đã giúp chúng tađưa ra những quyết định, những dự đoán cho một dữ liệu đầu vào mới sau quá trình huấnluyện trên nhiều dữ liệu đã biết trước đó Tuy nhiên, chính nhờ khả năng như vậy trí tuệnhân tạo, học sâu có thể trở thành cơng cụ để khai thác quyền riêng tư Ví dụ, bằng việccho học sâu học trên những dữ liệu nhạy cảm, ta có thể làm cho nó có khả năng đưa ratiên đốn khá chính xác về dữ liệu riêng tư của một người khác Như trong [40], [41], tacó thể làm một mơ hình dự đốn một người nào đó có thuộc vào một tập dữ liệu (ví dụtập dữ liệu nhạy cảm như bệnh án) nào không.

1.2Đặt vấn đề

Trang 18

chuyên gia và những người làm công nghệ phải nghiên cứu, điều tra để đưa quy định chặtchẽ các luật bảo vệ dữ liệu hoặc các sắc lệnh liên quan đến quyền riêng tư GDPR [21]có hiệu lực đánh dấu một cột mốc quan trọng, tuy nhiên, vẫn còn sự chênh lệch nghiêmtrọng giữa các quy định và cơng nghệ [44] Điều này có thể được minh họa bởi cuộc khủnghoảng liên quan đến quyền riêng tư dữ liệu mới đây của Tiktok [43] Sự thật như phântích ở trên, ngay cả với các quy trình, cơ chế lưu trữ và quản lý cẩn thận, dữ liệu nhạycảm cũng có thể bị tiết lộ thơng qua các cơ chế tinh vi Vì vậy ta có thể thấy rằng để bảovệ quyền riêng tư chúng ta không chỉ cần các thủ tục, quy trình bảo vệ riêng tư (như quyđịnh trong GDPR), mà còn chúng ta còn rất cần các công nghệ tăng cường quyền riêngtư (Privacy Enhancing Technologies - PETs) trong đó quyền riêng tư của dữ liệu đượcthiết kế đi đôi với độ hiệu dụng, thậm chí là ưu tiên hàng đầu (privacy-first ) Nếu côngnghệ, kỹ thuật không được "privacy-by-design", chúng ta không nên tận dụng cơng nghệđó phịng khi các vấn đề pháp lý, xã hội và đạo đức về sau Các công nghệ dựa trên trítuệ nhân tạo và học sâu cũng không phải ngoại lệ Như vậy, một vấn đề được đặt ra trongđề tài là phải xây dựng và thiết kết một phương pháp học sâu có "privacy-by-design",phương pháp này là tổng quát và có thể áp dụng ở mọi quy trình, thủ tục huấn luyện đadạng và vẫn cịn đang phát triển không ngường của các phương pháp học sâu.

Hiện nay, học sâu đã được chứng minh nếu không được thiết kế kỹ lưỡng có thể bị tấn cơngkhai thác tính riêng tư, điển hình là các cuộc tấn cơng: khai thác mơ hình (model extractionattack ) [13], [14], suy luận thuộc tính (attribute inference attack ) [15], suy luận tính chất(property inference attack ) [45], suy luận thành viên (membership inference attack ) [40].Tuy nhiên, đặc điểm các cuộc tấn cơng là cịn khá là rời rạc và chưa có một phương phápluận tấn cơng thống nhất và tối ưu Ngoài ra, trong cuộc đua giữa hai bên tấn cơng -phịng thủ như thường thấy ở bất cứ vấn đề an tồn thơng tin nào thì bên bảo vệ cũngđưa ra một số phương pháp, cách thức để phòng chống lại việc khai thác dữ liệu riêng tưtừ các mơ hình học sâu Nhưng cũng tương tự vậy, các phương pháp này hoặc là chỉ cókhả năng bảo vệ trước một vài tấn công cụ thể hoặc là chưa rõ ràng về mặt phương phápluận cũng như tối ưu Vấn đề được đặt ra là với những cách tấn cơng đã được cơng bố vàcó thể sẽ có những cách tấn cơng mới trong tương lai (zero-day) thì chúng ta học đượcgì và những đặc điểm nào chúng ta cần phải quan tâm khi thiết kế các phương pháp bảovệ Các cơng trình [46]–[49] đã chỉ ra và phân loại các cuộc tấn công và phương pháp bảovệ tính riêng tư dữ liệu trong học sâu Tuy nhiên, các bài báo này hoặc là phân tích mộtcuộc tấn công cụ thể hoặc là chỉ ngừng ở mức độ phân loại theo kỹ thuật tấn công, bảovệ Do vậy, để đưa ra một phương pháp bảo vệ tính riêng tư học sâu, đề tài khơng chỉcần tìm hiểu, nghiên cứu một, một vài cuộc tấn cơng lẫn phịng thủ mà cần đưa ra đượcmột số phương pháp luận từ các cơng trình trước đây.

Trang 19

biệt hơn, phương pháp này ngồi tổng qt thì phải dễ hiểu, dễ ứng dụng mặc cho nềntảng toán học phức tạp của riêng tư vi phân Điều này là cực kỳ quan trong vì nếu khơngthì phần kỹ thuật xử lý bảo vệ riêng tư (privacy engineering part ) sẽ lấn át và gây khókhăn, lẫn cản trở cho phần kỹ thuật học sâu, trí tuệ nhân tạo (AI engineering part ).Cuối cùng, giống như các công nghệ khác như cơ sở dữ liệu (database), ứng dụng web(web application),.v.v Các phương pháp học cũng dần tiến đến việc phân tán việc học(distributed learning) và học cộng tác (collaborative learning) [51] Các phương pháp họcnày càng được củng cố mạnh mẽ hơn với các xu hướng công nghệ về mặt phần cứng nhưđiện toán biên (edge computing) và điện toán sương mù (fog computing) thay thế mộtphần hay hoàn toàn điện toán đám mây (cloud computing) trong tương lai Các phươngpháp học có thể dễ dàng phân tán và cộng tác được nhiều bên là rất cần thiết trong xuthế: thành phố thông minh (smart cities) - công nghệ thông tin được ứng dụng trong cáchoạt động thành phố và dữ liệu thu thập từ nhiều nguồn khác nhau cần được đưa ra mơhình học sâu phân tích nhưng vẫn phải đảm bảo tính riêng tư dữ liệu; IoTs - các thiếtbị được thơng minh hố và kết nối mạng với nhau cũng cần được phân tích bảo vệ tínhriêng tư Đề tài này cũng quan tâm vấn đề thiết kết này và đưa ra một giải pháp học sâubảo vệ riêng tư có khả năng dễ dàng huấn luyện phân tán và phù hợp với việc học côngtác nhiều bên.

Các vấn đề nêu trên sẽ lần lượt được giải quyết và trình bày lại trong các phần tiếp đềtài Tóm lại, đề tài có những đóng góp sau:

• Đầu tiên, đề tài tiến hành phân tích, tìm hiểu những cuộc tấn công khai thác dữliệu riêng tư trong học sâu lẫn cách thức phòng thủ trong những năm gần đây Cáctìm hiểu và nghiên cứu phân tích này là tiền đề cho chúng tôi đưa ra một phươngpháp học sâu tổng qt bảo vệ tính riêng tư.

• Thứ hai, đề tài đề xuất một khung học tập thực dụng (pragmatic), thơng qua đócó thể tạo ra các mơ hình học sâu bảo vệ quyền riêng tư có độ chính xác xấp xỉnhư các mơ hình huấn luyện bình thường Giải pháp này đảm bảo được cho các quytrình, thủ tục huấn luyện học sâu là "privacy-by-design" với tính riêng tư thoả tiêuchuẩn riêng tư vi phân Nó được đề xuất dựa trên một khởi tạo, tên là PATE Giảipháp này có đặc điểm là thân thiện với bất kỳ người theo đuổi AI nào, từ nghiêncứu viên đến kỹ sư, có thể dễ dàng triển khai và sử dụng.

• Tiếp đến, bằng cách cải tiến giải pháp bằng kỹ thuật tổng hợp riêng tư khác, cụthể kỹ thuật vector thưa (SVT), khung học học sâu được xuất đã có một ngân sáchriêng tư chấp nhận được, cố định và có thể trả lời vơ số u cầu dự đốn Điều nàylà rất phù hợp với huấn luyện bằng học sâu.

• Cuối cùng, đề tài mở rộng giải pháp trong ứng dụng học phân tán Bằng việc sửdụng lược đồ mã hố đồng hình một phần Paillier, khung học sâu bảo vệ riêng tưđược đề xuất có thể được áp dụng thực tiễn cho học đa bên và loại trừ được rủi rovề các vấn đề an tồn thơng tin và riêng tư dữ liệu tron ngữ cảnh có bên nửa trungthực (semi-honest/curious-but-honest ).

Trang 20

1.3Ý nghĩa đề tài1.3.1Ý nghĩa khoa học

Nghiên cứu về phương pháp học sâu bảo vệ tính riêng tư, trước hết, sẽ góp phần làmgiảm thiểu rủi ro lộ dữ liệu riêng tư hoặc dữ liệu mà chủ dữ liệu không muốn công khaicủa các mơ hình học Qua đó tăng sự tin tưởng của chủ dữ liệu đối với công ty/ tổ chức/nhà khoa học xây dựng mơ hình Các tổ chức có thể cơ sở để xây dựng các mơ hình khaiphá dữ liệu, tăng trải nghiệm, hài lòng của khách hàng mà không phải lo sợ sẽ bị rủi rovề pháp lý.

Thứ hai, sự xuất hiện với những hình thức phạt rất nặng của các đạo luật, tiêu biểu làGDPR đòi hỏi các công nghệ mà các công ty/ tổ chức phải tuân thủ nghiêm ngặt Họcsâu cũng không phải ngoại lệ Nếu khơng đảm bảo được rằng các mơ hình mà mình xâydựng bảo vệ tính riêng tư cho dữ liệu của chủ dữ liệu, các công ty/ tổ chức sẽ không dám,không thoải mái trong việc xây dựng và sử dụng.

Rộng hơn, việc nghiên cứu về các phương pháp bảo vệ mạng nơ-ron học sâu trước rủi rocủa việc lộ thông tin riêng tư sẽ giúp chúng ta hiểu sâu hơn về cách thức mà mạng nơ-ronhọc sâu học và đưa ra dự đoán, thứ mà trước giờ để được xem là hộp đen (black-box ).Càng hiểu tốt hơn thì càng giúp thúc đẩy một số mảng nghiên cứu AI đang ngày cànghấp dẫn gần đây: trí tuệ nhân tạo khả giải thích, khả diễn giải (explanable & interpretableAI ) - tìm hiểu và giải thích kết quả dự đốn của một mơ hình AI sao cho có thể hiểu đượcbởi con người Mở rộng hơn, hiểu được cách thức hoạt động của mạng nơ-ron học sâutrên các dữ liệu nhạy cảm cịn giúp ta hiểu giải thích các sai lệch về thiên kiến (biases)và xây dựng các mô hình, giải thuật học cơng bằng (fair learning).

Bên cạnh đó, học sâu đang dần cho thấy khả năng ứng dụng cách tân của nó trong vơvàn lĩnh vực và ngày càng được nghiên cứu khai phá tính ứng dụng vào các lĩnh vực mớihơn nữa Tuy nhiên, hiện nay lý thuyết học dựa trên học sâu vẫn cịn chưa hồn tồnhồn thiện Nếu một mơ hình, cơng trình nào đó hữu ích thì hãy làm cho nó tốt hơn.Việc nghiên cứu khía cạnh đưa ra dự đốn riêng tư dữ liệu sẽ làm hoàn chỉnh hơn cho lýthuyết học dựa trên học sâu Qua đó, góp phần cho học sâu độ đo khơng chỉ về dự đốnchính xác mà cịn độ đo về bảo vệ riêng tư.

1.3.2Ý nghĩa thực tiễn

Các cơng nghệ trí tuệ nhân tạo dụa trên học sâu đã, đang và sẽ len lỏi vào hầu hết cáclĩnh vực của cuộc sống Vì vậy, việc giải quyết được những hạn chế hiện tại của nó, ở đâylà rủi ro lộ dữ liệu riêng tư, có ý nghĩa thực tiễn quan trọng: loại bỏ những điểm hạn chế- rào cản để công nghệ học sâu đem lại những lợi ích sâu sắc cho xã hội.

Trang 21

sẽ rất lớn cả về mặt tài chính lẫn niềm tin Do đó, việc nghiên cứu về phương pháp họcsâu bảo vệ tính riêng tư sẽ giúp tiên liệu trước những trường hợp, khả năng xảy ra vàphòng tránh cả về chủ động lẫn bị động.

1.4Mục tiêu và phạm vi nghiên cứu

Việc tìm hiểu các cơng trình liên quan cho thấy tuy cũng đã có nhiều giải pháp đề xuấtcho việc bảo vệ tính riêng tư cho các mạng học sâu nhưng nghiên cứu và tìm ra giải pháptối ưu cho sự đánh đổi độ chính xác và rủi ro lộ riêng tư vẫn còn là một câu hỏi mở Bêncạnh đó, nhiều giải pháp tiếp cận hiện nay vẫn cịn rời rạc, chưa có tính áp dụng cao chỉtập trung vào một mạng nơ-ron cụ thể hay một bài toán dự đoán cụ thể, hay chủ yếudựa vào quan sát để thêm các hàm chính quy hố tối ưu chứ vẫn chưa có một hướng giảiquyết vững chắc.

Do đó, đề tài hiện tại nhắm đến các mục tiêu chính như sau:

• Nghiên cứu và hiểu rõ được bản chất các cuộc tấn công khai thác riêng tư dữ liệucủa các mơ hình học sâu.

• Tìm hiểu và nghiên cứu các cách bảo vệ tính riêng tư cho học sâu; phân tích vàphân loại phương pháp luận của các cách; đưa ra đánh giá ưu, khuyết điểm.• Đề xuất và pháp triển được giải pháp bảo vệ tính riêng tư cho học sâu Giải pháp

này phải chứng minh được bảo vệ tính riêng tư, giữ được sự hữu dụng của mơ hìnhhọc sâu xem xét và trên hết phải chứng minh được về mặt lý thuyết, đánh giá đượcvề mặt tốn học.

• Đánh giá được điểm mạnh, điểm yếu và khả năng ứng dụng thực tiễn của giải phápđề xuất thơng qua việc phân tích, đo đạc độ chính xác, rủi ro lộ tính riêng tư và sosánh với các cơng trình liên quan.

Học sâu là một lĩnh vực rộng lớn bao gồm: học có giám sát (supervised learning), họckhơng giám sát (unsupervised learning), học nửa giám sát (semi-supervised learning), họctăng cường (reinforcement learning); về mặt cài đặt có thể có học tập trung (centralized )hoặc học phân tán (distributed ); về mặt lĩnh vực và bài toán áp dụng thì rộng khắp vàhọc sâu có thể mọi nơi: thị giác máy tính (phân loại ảnh, nhận biết và phát hiện vật thể,phân tích video, tái tạo 3D, v.v); xử lý ngơn ngữ tự nhiên (nhận dạng thực thể có tên,mơ hình ngơn ngữ, khai phá dữ liệu text,.v.v); robotics.v.v Do đó, để nghiên cứu và ápdụng rộng khắp các mơ hình học sâu bảo vệ tính riêng tư trong một đề tài là điều khơngthể Thay vào đó, đề tài này tập trung vào việc việc tìm các lý thuyết học sâu tổng quát,nghiên cứu áp dụng các phương pháp bảo vệ tính riêng tư và chứng minh nó về mặt lýthuyết Cụ thể hơn, đề tài tập trung phát triển giải thuật học có xác suất bảo vệ tínhriêng tư và các thể áp dụng nó vào một vài bài toán cụ thể để đánh giá khả năng áp dụngvà so sánh với các cơng trình liên quan.

Trang 22

tâm Ngồi ra, sau khi tìm hiểu các cơng trình liên quan thì ta thấy được rằng trong tấtcả các giải pháp hiện tại thì giải pháp dựa vào riêng tư vi phân là một giải pháp chặtchẽ về mặt tốn học và có khả năng áp dụng cao nên đề tài sẽ hướng trọng tâm sử dụngriêng tư vi phân và nghiên cứu áp dụng nó làm sao hiệu quả vào các mơ hình học sâu.

1.5Cấu trúc luận văn

Những nội dung trong quá trình tìm hiểu, nghiên cứu cũng như phát triển giải pháp trongxuyên suốt quá trình thực hiện luận văn sẽ được trình bày trong 5 chương và 3 phụ lục,cụ thể theo thứ tự sau:

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI Trong chương đầu tiên, luận văn sẽ giới thiệuvề học sâu và vấn đề bảo vệ tính riêng tư dữ liệu Trên cơ sở đó, đề tài sẽ đúc kết ra mộtsố vấn đề cần phải giải quyết trong việc xây dựng một phương pháp học sâu bảo vệ tínhriêng tư và liệt kê một số đóng góp chính Tiếp đến, chương sẽ trình bày ý nghĩa về mặtkhoa học lẫn thực tiễn của đề tài Cuối cùng, chương này sẽ kết thúc bằng việc trình bàyvề mục tiêu, phạm vi, giới hạn và cấu trúc luận văn.

CHƯƠNG 2 KIẾN THỨC NỀN TẢNG Trong chương này, luận văn sẽ trình bàyngắn gọn các lý thuyết, cơ sở khoa học được sử dụng trong đề tài Cụ thể lần lược là: nềntảng học sâu, riêng tư vi phân, PATE, kỹ thuật vector thưa, lược đồ mã hố Paillier vàhuman-in-the-loop.

CHƯƠNG 3 CƠNG TRÌNH LIÊN QUAN Trong chương này, luận văn sẽ trìnhbày các tìm hiểu, nghiên cứu phân tích về rủi ro vi phạm riêng tư của các mơ hình họcsâu và các phương pháp bảo vệ được đề xuất trong các cơng trình, bài báo gần đây.

CHƯƠNG 4 GIẢI PHÁP ĐỀ XUẤT Trong chương này, luận văn trình bày cụ thểvà chi tiết về giải pháp được đề xuất - phương pháp học sâu bảo vệ riêng tư.

CHƯƠNG 5 THIẾT KẾ THÍ NGHIỆM VÀ ĐÁNH GIÁ Trong chương này, luậnvăn sẽ mô tả về thí nghiệm, phân tích kết quả thu được của phương pháp được đề xuất.

Trang 23

2

KIẾN THỨC NỀN TẢNG

Trang 24

2.1Nền tảng học sâu

Mặc dù lĩnh vực trí tuệ nhân tạo đã có lịch sử cũng khá lâu (có thể xem hội nghị Dartmouth1956 làm dấu mốc bắt đầu) nhưng AI thực sự bùng nổ và hồi sinh từ mùa đông (2nd AIwinter 1987–1993) là nhờ vào các mơ hình học dựa trên học sâu [52] Học sâu là một tậpcon của các phương pháp học máy dựa vào các mạng nơ-ron nhân tạo (artificial neuralnetworks), được lấy cảm hứng từ cách tổ chức thần kinh của con người Các mơ hình, lýthuyết học dựa trên mạng nơ-ron (còn gọi là trường phái kết nối - connectionism) thực racũng đã có trước đó Tiêu biểu là mạng nơ-ron nhiều lớp (multi-layer perceptrons - MLP(1967)) Tuy nhiên, trước đây thì các phương pháp này toả ra không hiệu quả hơn cácphương pháp học máy truyền thống Sự phát minh thuật toán huấn luyện Backpropagationbởi Geoffrey Hinton và các cộng sự (1986) đã giúp cho mạng nơ-ron học nhanh hơn gấpnhiều lần Bên cạnh đó, học sâu thực sự bùng nổ là nhờ Internet ngày càng định hình cáccon người sống và dữ liệu từ đó được tạo ra và lưu trữ ngày càng nhiều (dữ liệu lớn - BigData) và sự phát triển khả năng xử lý của phần cứng (GPU, TPU) đã tạo điều cho việcxây dựng những mơ hình học sâu với các lớp ngày càng sâu và phức tạp hơn, đi liền làkhả năng dự đoán vượt trội so với các mơ hình, phương pháp học máy trước đó.

Về mặt cấu trúc, một mơ hình học sâu gồm nhiều lớp (layers) phức tạp, biến đổi phituyến, còn được gọi là hàm kích hoạt (activation functions), tiêu biểu là sigmoid vàrectified linear units (ReLUs) và học được cách biểu diễn (representations) và đưa ra dựđoán, khác với các kỹ thuật học máy khác như: SVM, cây quyết định, naive Bayes, logisticregression, v.v phải cần bước rút trích đặc trưng (feature extraction) thủ cơng trước khiđưa vào mơ hình để học Bên cạnh đó, để huấn luận cấu trúc này có thể học được ta cầnđịnh nghĩa một hàm mất mát (loss function) để tối thiểu hoá đầu ra của cấu trúc vớidữ liệu thực tế Giả sử dữ liệu cần học {x1, x2, , xn} , ta cần tìm tập tham số của mơhình so cho L(θ) = 1

Trang 25

cách huấn luyện khác sử dụng cả dữ không có nhãn lẫn dữ liệu có nhãn là học nửa giámsát [62], [63] Cụ thể thường sử dụng một lượng nhỏ dữ liệu có nhãn và một lượng lớn dữliệu khơng có nhãn.

2.2Riêng tư vi phân

Riêng tư vi phân [36], [37] là một tiêu chuẩn bảo vệ tính riêng tư dữ liệu được xây dựngdựa trên một cơ sở lý thuyết tốn học vững chắc, đảm bảo rằng sự có mặt hay vắng mặtcủa một thể hiện dữ liệu hay một điểm dữ liệu sẽ không ảnh hưởng đến kết quả của mộtgiải thuật, một mơ hình hay một q trình khai phá dữ liệu nào Vì sự xuất hiện của mộtdữ liệu cá nhân không ảnh hưởng quá nhiều đến kết quả cuối cùng nên khi một mơ hình,giải thuật cho ra một kết quả và kẻ tấn công suy luận một thơng tin nào đó, chủ dữ liệucó khả năng từ chối kết quả, gọi là sự phủ nhận hợp lý (plausible deniability) Do đó dữliệu cá nhân của chủ liệu đó được bảo vệ về tính riêng tư Cơ chế trả lời ngẫu nhiên [64],[65] là một minh hoạ cho tính chất phủ nhận hợp lý này (Hình 2.1) Giả sử một cuộckhảo sát về việc hút thuốc của thanh niên thì nếu thu thập bằng cách trả lời ngẫu nhiênnày thì P(có) = 1

2 ∗ p +1

4 (với p là xác suất người đó có hút thuốc thực sự và giả sử đồngxu khơng có thiên kiến (bias)) hay P(hút thuốc∣có) = 2p

2p+1 Do đó từ kết quả là “có” thìngười cung cấp dữ liệu có thể phủ nhận về kết quả rằng đó là kết quả ngẫu nhiên của mơhình, cơ chế với xác suất 2p+12p chứ kết quả không thực sự là vậy Cơ chế này cịn có thểmở rộng ra cho đồng xu thiên kiến - tỉ lệ tung được mặt sấp và ngửa khơng phải là 1∶ 1.

Hình 2.1: Cơ chế trả lời ngẫu nhiên M để thu thập dữ liệu mà chủ dữ liệu có thể phủnhận hợp lý kết quả

Để đạt được điều này giải thuật, mơ hình phải có một sự ngẫu nhiên (randomness) trongviệc xuất ra kết quả Cụ thể:

Định nghĩa 2.2.1 Một cơ chế ngẫu nhiên M (Hình 2.2) thoả ϵ-differential privacy nếuvới hai tập dữ liệu liền kề D, D′ (khác nhau một điểm dữ liệu duy nhất) với bất kỳ tập kếtquả S⊆ R (miền kết quả), ta có

Trang 26

Đại lượng ϵ trong cơng thức trên cịn được gọi là ngân sách riêng tư (privacy budget ).Ngân sách riêng tư càng nhỏ thì cơ chế M càng bảo đảm về mặt bảo vệ tính riêng tư.

Hình 2.2: Cơ chế ngẫu nhiên M thoả ϵ-differential privacy - ảnh hưởng của điểm dữ liệux đối với kết quả của cơ chế M là nhỏ (đặc trưng bởi đại lượng ϵ)

Rộng hơn đạt được tiêu chuẩn này ta thường dùng các kỹ thuật thêm nhiễu dựa vào xácsuất thống kê, mặc dù ta có thể dùng nhiều cách khác để tạo tính ngẫu nhiên ví dụ nhưlấy mẫu Một trong những phân phối của nhiễu mà thường được dùng trong riêng tư viphân là phân phối Laplace Cơ chế được định nghĩa như sau:

Định nghĩa 2.2.2 (Cơ chế Laplace:) Cho một hàm f :D→ R trên một tập dữ liệu D,cơ chế M được thêm nhiễu như sau:

M(D) = f(D) + Lap(∆fϵ )

Trong [36], [37] đã chứng minh cơ chế thêm nhiễu này thỏa tiêu chuẩn ϵ-differential privacyvới f(D) là kết quả đầu ra của một tính tốn, ∆f là hàm nhạy cảm (sensitivity function)- là khoảng cách lớn nhất giữa hai kết quả của phép tính tốn trên hai tập dữ liệu liền kề

∆f = max

D,D′∣∣f(D) − f(D′)∣∣

Riêng tư vi phân đã và đang trở thành một tiêu chuẩn “de facto” trong bảo vệ tính riêngtư cho nhiều vấn đề khác nhau do có thể dễ dàng áp dụng bằng cách xáo trộn kết quảcủa một phép tính tốn, quy trình chỉ với cộng thêm nhiễu, cụ thể ta có thể dùng trongviệc bảo vệ riêng tư cho mơ hình, cơ chế, thập dữ liệu hay xuất bản kết quả của một mơhình Ngoài ra một nguyên nhân khác khiến riêng tư vi phân cực kỳ hiệu quả về phân tíchlẫn áp dụng là tính chất khả thành phần hóa (composability) thể hiện qua định lý thànhphần tuần tự (sequential composition theorem và định lý thành phần song song (parallelcomposition theorem):

Định lý 2.2.1 (Định lý thành phần tuần tự [39]:) Giả sử một tập hợp các cơ chếriêng tư M = {M1 Mm} được thực hiện tuần tự trên một tập dữ liệu và mỗi Mi bảo đảmϵi-differential privacy, M sẽ thoả (∑m

Trang 27

Chứng minh Tham khảo [37].

Nhờ có định lý thành phần tuần tự mà việc thực hiện bảo vệ tính riêng tư thỏa ϵ-differential privacy trong thực tiễn cũng như phân tích sẽ hơn rất nhiều: phân tích mộtgiải thuật, quy trình thành các thao tác, quy trình nhỏ Trong hiện thực, thêm nhiễu theomột cơ chế thỏa ϵi-differential privacy hay trong phân tích thì giới hạn (bound ) thao tácnhỏ này bằng một ϵi-differential privacy Toàn bộ quy trình sẽ thỏa tiêu chuẩn differentialprivacy với ngân sách riêng tư bằng tổng của các i này Từ đây ta thấy được một hệ quả:Giả sử một điểm dữ liệu đại diện cho một cá nhân duy nhất xuất hiện trong tập dữ liệu klần thì từ định lý này ta suy luận được thỏa kϵ-differential privacy Đây được gọi là tínhchất riêng tư nhóm (group privacy) Và:

Định lý 2.2.2 (Định lý thành phần song song [39]:) Giả sử một tập hợp các cơchế riêng tư M = {M1 Mm} được thực hiện trên mỗi tập con rời nhau của tập dữ liệu vàmỗi Mi bảo đảm tiêu chuẩn ϵi-differential privacy trên tập con đó Khi đó cơ chế M sẽthỏa tiêu chuẩn (max{ϵ1, ϵ2, , ϵn})-differential privacy.

Chứng minh Tham khảo [37].

Một tính chất nữa mà riêng tư vi phân đảm bảo về mặt toán học là vẫn đảm bảo giữđược tính riêng tư mặc cho các thao tác sau đó.

Định lý 2.2.3 (Định lý post-processing:) nếu cơ chế M thỏa ϵ-differential privacy thìqua các thao tác xử lý F ngẫu nhiên hay tất định thì F(M(D)) vẫn đảm bảo ϵ-differentialprivacy.

Chứng minh Tham khảo [37].

Trang 28

Hình 2.3: Đồ thị của hàm phân phối Laplace so với hàm phân phối Gaussian: có thểthấy rằng càng về hai bên đi (tail) thì xác suất được rút ra từ phân phối này giảmnhanh hơn so với Gaussian hay nhiễu được rút ra từ Gaussian sẽ mượt (smooth) hơn sovới Laplace

(ϵ, δ)-differential privacy làm giảm ϵ-differential privacy bằng cách cho phép tiêu chuẩnnày thất bại hay là hay là lộ (breach) với một xác suất δ nhỏ.

Định nghĩa 2.2.3 ((ϵ, differential privacy:) Một cơ chế ngẫu nhiên M thoả (ϵ, δ)-differential privacy nếu với hai tập dữ liệu liền kề D, D′ (khác nhau một điểm dữ liệu duynhất) với bất kỳ tập kết quả S⊆ R (miền kết quả), ta có

P[M(D) ∈ S] ≤ eϵ∗ P [M(D′) ∈ S] + δ

Có thể thấy rằng nếu ϵ= 0, cơ chế ngẫu nhiên M là ϵ-differential privacy Về công thức,khác với ϵ-differential privacy chỉ bao gồm giới hạn có tính nhân tính (multiplicative) củahai xác suất đầu ra kết quả của hai tập dữ liệu liền kề thì(ϵ, δ)-Differential Privacy chứathêm một thơng số cộng δ Do đó nó có thể xem tiêu chuẩn này đảm bảo ϵ-differentialprivacy với xác suất 1− δ với rất nhỏ, cụ thể δ ≪ 1

N, với N là số điểm trong tập huấnluyện vì nếu khơng thì có khả năng lộ δ∗ N ≥ 1 điểm dữ liệu.

Khi dùng tiêu chuẩn (ϵ, δ)-Differential Privacy thì ta có thể dùng cơ chế thêm nhiễuGaussian (nhiễu phân phối theo Gaussian):

Định nghĩa 2.2.4 (Cơ chế Gaussian:) Cho một hàm f :D→ R trên một tập dữ liệuD, cơ chế M được thêm nhiễu như sau:

M(D) = f(D) + N (0, ∆f2δ2).Trong [66], chứng minh rằng nếu ϵ < 1 và σ > f2

2ln(1.25/δ)/ϵ thì M(D) thoả (ϵ, δ)-Differential Privacy Khác với cơ chế Laplace chỉ dùng được hàm nhạy cảm L1, cơ chếGaussian dùng được cả L1 và L2 Khi L1 nhỏ hơn L2, cơ chế Gaussian cho phép thêmnhiễu ít hơn rất nhiều Bên cạnh đó định lý thành phần vẫn đúng với cơ chế Gaussian,cụ thể thoả (∑n

i=1ϵi,∑n

i=1δi)-differential privacy, ngoài ra:

Trang 29

chọn dựa vào đầu ra của Mi−1 trước đó) và mỗi Mi bảo đảm (ϵi, δi)-differential privacy,M sẽ thoả (2ϵ√2kln(1/δ′), kδ + δ′)-differential privacy.

Chứng minh Tham khảo [37].

Bằng việc sử dụng định lý thành phần nâng cao cho các tiến trình xử lý k lần, ngân sáchriêng tư giảm với ˜O(√k) thay vì O(k) như trong định lý thành phân tiêu chuẩn.

2.3Private Aggregation of Teacher Ensembles (PATE)

Hình 2.4: PATE framework

PATE (Hình 2.4) là một phương pháp, quy trình huấn luyện theo mơ hình giáo viên-họcsinh (teacher-student model [61]) Nó đạt được tiêu chuẩn của riêng tư vi phân bằng cáchsubsample-and-aggregate [67] Tập dữ liệu riêng tư được chia thành k phần để thực hiệnmột số tính tốn riêng trên mỗi phần rồi kết quả cuối cùng được tổng hợp thông qua cơchế thoả riêng tư vi phân Một cách trực giác, bằng cách giới hạn ảnh hưởng của một dữliệu nhạy cảm trong kết quả của một mơ hình giáo viên duy nhất thay vì tồn bộ tập dữliệu (giả sử khơng có sự trùng lặp hoặc khơng có nhiều sự trùng lặp trong các tập dữ liệu),điều này khiến cho mỗi dữ liệu nhạy cảm có khả năng hịa tan trong đám đông (blend inthe crowd ) của từng tập dữ liệu của mỗi mơ hình giáo viên, do đó nó an tồn hơn Vềmặt kỹ thuật hơn, thơng qua một số cơ chế tổng hợp như Report Noisy Arg-Max để tìmgiá trị max của việc tổng hợp nhãn nhiễu của binh đồn mơ hình giáo viên và tập dữ liệukhơng có q nhiều dữ liệu nhạy cảm, chúng ta thường có thể được "riêng tư miễn phí"(privacy for free), tức là khơng có chi phí riêng tư nào thêm.

Trong vanila PATE cơ bản [68], việc tổng hợp kết quả từ k mơ hình giáo viên sẽ đếm vàthêm nhiễu theo cơ chế của Laplace để đáp ứng yêu cầu của ϵ-differential privacy, sau đólấy giá trị lớn nhất, cơ chế này được gọi là LNMax Aggregator (Giải thuật 2.1) Trongphiên bản cải tiến [69], thay vì sử dụng cơ chế của Laplace, các tác giả sử dụng cơ chế củaGaussian Cơ chế này được gọi là GNMax Aggregator: argmaxi(∑k

Trang 30

bầu của chúng cao hơn một ngưỡng Do đó, họ thêm điều kiện rằng giá trị lớn nhất củatất cả các bộ đếm nhãn phải cao hơn một ngưỡng so với k mơ hình giáo viên (ví dụ:> 0.6k) trước khi báo cáo bằng cơ chế Noisy Arg-Max Các tác giả đặt tên cho cơ chế nàylà confident-GNMax Aggregator Quan sát này giống với một kỹ thuật đặc biệt trong lýthuyết riêng tư vi phân, được gọi là kỹ thuật vector thưa.

Cuối cùng, cơ chế tổng hợp của k mơ hình giáo viên khơng thể được sử dụng trong thựctế vì cơ chế thêm nhiễu chỉ cho phép một số lượng hạn chế các truy vấn và thơng số mơhình khơng được bảo vệ Ví dụ, trong DP-SGD [70], các thơng số mơ hình được làm sạch.Do đó, các tác giả đã đề xuất huấn luyện mơ hình sinh viên bằng cách rút trích kiến thứctừ những mơ hình giáo viên này Để huấn luyện mơ hình sinh viên, cần một lượng lớn dữliệu cơng khai không được gán nhãn (không nhạy cảm) Dữ liệu này được đưa vào k mơhình giáo viên để tạo ra các nhãn giả, và việc mất riêng tư sẽ được tính tốn bằng cáchsử dụng phương pháp moment accountant Sau khi được gán nhãn, dữ liệu này sẽ đượcsử dụng để huấn luyện mơ hình sinh viên Do đó, bộ đồng hồ giáo viên chỉ được sử dụngđể một số lượng hạn chế m dữ liệu công khai không được gán nhãn, mặc dù có nhiều dữliệu như vậy Lưu ý rằng mơ hình sinh viên này khơng được huấn luyện với dữ liệu nhạycảm và người dùng cuối hoặc kẻ tấn cơng chỉ có thể truy cập vào mơ hình sinh viên nàyđể đưa ra dự đốn (Hình 2.4).

Input: Private dataset DT with n data points, public dataset DS with m datapoints {x1, x2, , xm}, set of k teacher models {ˆh1, ˆh2, , ˆhk} are trainedon disjoint private datasets DT = DT1 ∪ DT2∪, , ∪DTk, privacy parameterλ> 01 D˜S ← ∅.2 for xj ∈ Ds do3 Output ˜yj ← argmaxi(∑kn=1ˆhn(xj) + Lap(1λ)).4 D˜S ← ˜DS∪ (xj, ˜yj).5 end6 Train ˆhs on ˜DS.

Giải thuật 2.1: Vanila PATE (2017) [68]

Định lý 2.3.1 (Privacy guarantee của Giải thuật 2.1) Giải thuật 2.1 is (ϵ, δ)-differential private.

Chứng minh Tham khảo [68].

2.4Kỹ thuật vector thưa

Trang 31

tốt, và đầu ra là – khi được hỏi các truy vấn "dưới ngưỡng" Khi số lượng các truy vấnnhạy cảm dưới ngưỡng vượt quá T , quá trình bảo vệ riêng tư sẽ dừng lại Do đó, bằngcách sử dụng kỹ thuật vectơ thưa (Giải thuật 2.2) thay vì cơ chế thêm nhiễu bình thường,nó phù hợp cho các mơ hình học sâu để dự đốn một lượng lớn dữ liệu khơng được đánhnhãn công khai Hơn nữa, chúng ta chỉ cần huấn luyện một số lượng nhỏ các mơ hìnhgiáo viên theo kỹ thuật vectơ thưa miễn là phiếu bầu nhiễu ˆq vượt q ngưỡng Chúngta thường khơng tốn chi phí riêng tư cho các truy vấn ổn định và chỉ tốn cho một số ítcác truy vấn khơng ổn định bất thường.

Input: Dataset D, query set Q= {q1, , qm}, privacy parameters ϵ, δ > 0, unstablequery cutoff T, threshold ω

1 c← 0, λ ←√32T log(1δ)/ϵ, ˆω ← ω + Lap(λ).2 for q∈ Q and c ≤ T do3 qˆ← q + Lap(2λ).4 if ˆq> ˆw then5 Output⊺.6 else7 c← c + 1.8 Output–.9 end10 end

Giải thuật 2.2: Kỹ thuật vector thưa [66]

Định lý 2.4.1 (Privacy guarantee của Giải thuật 2.2) Giải thuật 2.2 is (ϵ, δ)-differential private.

Chứng minh Tham khảo [66].

Định lý 2.4.2 (Accuracy guarantee của Giải thuật 2.2) With a set of m queries,q= {q1, q2, , qm}, for α = ln(2mT /β)√512T ln(1/δ)ϵ such that L(ω) = ∣{i ∶ qi+ α ≥ ω}∣ ≤ T ,then at least 1− β, Giải thuật 2.2 will results ⊺.

Chứng minh Tham khảo [66].

2.5Lược đồ mã hoá Paillier

Lược đồ mã hoá (Paillier cryptosystem) [71] là một lược đồ mã hoá đồng hình một phầnnổi tiếng đảm bảo phép tính cộng trên hai bản mã (ciphertext ), cụ thể:

Dpriv(ADDpub(Epub(m1), Epub(m2))) = m1+ m2

Lược đồ này hoạt động như sau:Tạo khoá.

Trang 32

2 Tính n= pq và λ = lcm(p − 1, q − 1), trong đó lcm() là hàm bội chung nhỏ nhất.3 Chọn một số nguyên ngẫu nhiên g sao cho g∈ Z∗

n2 (g∈ [1, n2]).

4 Tính modular multiplicative inverse: µ = (L(gλmodn2))−1modn, trong đó L đượcđịnh nghĩa là L(x) = x−1n Nếu µ khơng tồn tại, bắt đầu lại bước 1.

• Khố cơng khai là(n, g).ã Khoỏ bớ mt l(, à).Mó hoỏ.

Cho m (0 m < n) là bản rõ (plaintext) cần mã hoá:

1 Chọn một số r ngẫu nhiên với 0< r < n.2 Tính bản mã như sau: c= gm⋅ rnmodn2.Giải mã.

Cho c (c∈ Z∗

n2) là bản mã cần giải mã:

1 Tính mã rõ như sau: m= L(cλmodn2) ⋅ µmodn.

2.6Human-in-the-loop

Trang 33

3

CƠNG TRÌNH LIÊN QUAN

Trang 34

3.1Rủi ro vi phạm riêng tư dữ liệu trong học sâu

Thế nào là một mơ hình học sâu vi phạm tính riêng tư? Theo Dalenius [26] thì từ đầu radự đốn (thường là véc tơ dự đốn) thì kẻ tấn cơng có thể suy luận thêm những thơngtin khác về tập dữ liệu huấn luyện và thơng số mơ hình huấn luyện thì mơ hình học sâuđó có khả năng làm lộ tính riêng tư Cụ thể hơn đối tượng mơ hình học trên những dữliệu nhạy cảm thì từ đầu ra của mơ hình, những kẻ tấn cơng có thể khai thác trực tiếpnhững thông tin sau: được biết là một điểm dữ liệu/một cá nhân thuộc tập dữ liệu huấnluyện luyện tập, xây dựng lại tập dữ liệu huấn luyện hoặc tìm kiếm các đặc điểm, tínhchất cảm ứng của tập dữ liệu huấn luyện hoặc một hoặc một số lớp đại diện trong tậpdữ liệu huấn luyện Tuy nhiên, để ngăn chặn hoàn toàn điều này là rất khó đạt được vìnhiều ngun nhân, đặc biệt nếu kẻ tấn cơng có kiến thức nền về tập dữ liệu huấn luyệnhoặc quần thể (population) nơi tập dữ liệu được lấy mẫu Rộng hơn, ở đây đặt ra mộtvấn đề, nếu kẻ tấn công suy luận ra được những thông tin của một, một nhóm hay tồnbộ quần thể mà tập dữ liệu huấn luyện được lấy mẫu từ đó để xây dựng mơ hình thìcó phải là vi phạm tính riêng tư? Thực tế thì việc này là hồn tồn có khả năng xảy ranếu người xây dựng mơ hình học sâu xây dựng được một mơ hình tốt, có khả năng tổngqt hóa trên tồn bộ quần thể Khi đó tính chất suy luận được là một tính chất hiểnnhiên của quần thể và gần như không thể che dấu, bảo vệ tính "riêng tư" của quần thểnày dù cho cách lấy mẫu và lấy mẫu nào Do đó, khi xem xét về tính riêng tư nghĩa làxem xét về tính riêng tư của một điểm dữ liệu/một cá nhân trong một tập dữ liệu đượcsử dụng [17], [18] Tính riêng tư cá nhân hay điểm dữ liệu này có thể hiểu là với một cánhân/điểm dữ liệu bất kỳ trong tập dữ liệu huấn luyện hay rộng hơn là trong quần cóthể lấy mẫu thì từ kết quả đầu ra của mơ hình ta khơng thể suy luận thêm thơng tin gìtừ điểm dữ liệu/cá nhân này.

Hình 3.1: Dựa vào những khả năng mà mình có được (thơng tin nền về mơ hình, thơngtin nền về tập dữ liệu huấn luyện, quyền được truy vấn vào mô hình dự đốn, khả năngnhận được đầu ra dự đốn), nếu kẻ tấn cơng có thể suy luận chính xác thêm được thơngtin gì về tập dữ liệu huấn luyện hay các tham số mơ hình thì mơ hình học sâu coi như cókhả năng vi phạm tính riêng tư dữ liệu.

Trang 35

hình [13], [14], suy luận thuộc tính [15], suy luận tính chất [45], [73] và suy luận thànhviên [40] Trong đó tấn cơng suy luận thành viên được coi là dấu hiệu của việc lộ thôngtin cá nhân.

3.1.1Tấn công suy luận thành viên

Tấn công suy luận thành viên (Hình 3.2) tìm cách suy luận một cá nhân, một điểm dữliệu nào thuộc tập dữ liệu được sử dụng để xây dựng mơ hình hay khơng Trong nhiềucơng trình, mức độ chính xác trong tấn công suy luận thành viên được sử dụng để đolường cơng việc của một mơ hình học tập có rủi ro lộ tính riêng tư [16]–[18], [74], [75] bởivì, đối với mơ hình đã được đào tạo bài tập trên tập dữ liệu tiếp xúc, việc kẻ tấn côngcông suy luận là một cá nhân/điểm dữ liệu thuộc tập dữ liệu đó, thì hiển thị riêng tư củachủ dữ liệu bị vi phạm Ví dụ: mơ hình huấn luyện trên tập dữ liệu là bệnh nhân lao thìhiển nhiên nếu suy luận là một người nào đó thuộc tập dữ liệu huấn luyện thì người đómắc bệnh lao Từ việc “suy luận là thành viên” thành cơng thì kẻ tấn cơng hồn tồn cóthể tiến hành thêm những suy luận vi phạm dữ liệu cá nhân khác như: ghi nhận lại dữliệu hồ sơ bằng cách tổng hợp các nguồn khác nhau, rồi tổng hợp hợp suy luận các tínhchất, tính năng cảm ứng khác nhau từ các nguồn Tấn công suy luận thành viên cũng đãđược nghiên cứu từ lâu trước đó để bảo vệ tính riêng tư dữ liệu cho địa điểm [76], [77],gen [78], [79], các mô hình học máy truyền thống [80],

Hình 3.2: Tấn cơng suy luận thành viên

Trang 36

3.1.1.1 Tấn công hộp đen

Hình 3.3: Trong trường hợp hộp đen kẻ tấn công sử dụng dữ liệu đầu vào và kết quả dựđoán trả ra từ một dịch vụ AI hộp đen để thực hiện suy luận thành viên

Trong trường hợp tấn cơng hộp đen, kẻ tấn cơng có giới hạn kiến thức (limited knowledge)và quyền tiếp cận và mơ hình nên kẻ tấn công phải cố gắng dùng hết tất cả có thể để cóthể suy luận thơng tin thành viên của một cá nhân/điểm dữ liệu đầu vào có thuộc tập dữliệu huấn luyện của mơ hình nạn nhân (victim model ) hay đối tượng bị tấn công (targetmodel ) hay khơng Ở đây, kẻ tấn cơng khơng có kiến thức về mơ hình nhưng họ vẫn cóthể có kiến thức về tập dữ liệu, cụ thể về phân bố của tập dữ liệu Trong [40], R Shokrivà các cộng sự đã đề xuất một phương pháp có thể dùng để thực hiện tấn công suy luậntổng quát Phương pháp này dựa trên quan sát “hành vi” mơ hình có xu hướng trả về kếtquả dự đoán của một dữ liệu đầu vào không thuộc tập dữ liệu thuộc tập huấn luyện khácvới một điểm dữ liệu thuộc tập dữ liệu huấn luyện Điều này là có khả năng xảy ra khácao vì với những những dữ liệu thuộc vào tập dữ liệu huấn luyện thì kết quả trả ra củamơ hình chắc chắn hơn (ví dụ, điểm tin cậy của một lớp là cao hơn hẳn so với các lớpcịn lại) với những dữ liệu đầu vào lạ khơng thuộc tập dữ liệu huấn luyện.

Hình 3.4: Xây dựng mơ hình tấn cơng học sự khác biệt giữa vector dự đoán của điểmdữ liệu trong tập dữ liệu huấn luyện và điểm dữ liệu trong tập dữ liệu

Trang 37

hình Kẻ tấn cơng gửi dữ liệu dự đốn và dị xem dữ liệu nào nào có điểm tin cậy thuộcmột lớp cao hơn hẳn các lớp khác với một ngưỡng cố định Nếu tìm được một khơng giancác điểm dữ liệu của một lớp như vậy, kẻ tấn cơng có thể xây dựng một tập dữ liệu đểhuấn luyện mơ hình tấn cơng từ đây; cách thứ hai, nếu kẻ tấn cơng có kiến thức về phânbố dữ liệu của tập dữ liệu huấn luyện thì kẻ tấn cơng có thể lấy mẫu tn theo phân bốnày; cuối cùng là nếu kẻ tấn cơng có thể tiếp cận một số dữ liệu mẫu thì kẻ này có thểxây dựng những dữ liệu nhiễu (noisy data) từ những dữ liệu đã biết này Tập dữ liệu màkẻ tấn cơng dùng mọi cách trong khả năng có được để huấn luyện mơ hình tấn cơng gọilà tập dữ liệu nơng (shadow dataset ).

Hình 3.5: Tấn cơng suy luận thành viên bằng cách xây dựng một mạng nơ-ron dự đoánxem điểm dữ liệu có thuộc vào tập dữ liệu của mơ hình đối tượng khơng [82]

Sau khi đã có tập dữ liệu nông, kẻ tấn công chia ra thành n tập nhỏ, khơng giao nhau(giả sử như vậy nếu có đủ dữ liệu để huấn luyện) để huấn luyện có mơ hình nơng Về cơbản, chúng ta cố tình huấn luyện các mơ hình nơng này sao cho nó càng giống với mơhình đối tượng nhất có thể Nếu kẻ tấn cơng có kiến thức về mơ hình (mơ hình học, kiếntrúc) thì việc huấn luyện này đơn giản, tuy nhiên trong ngữ cảnh hộp đen thì kẻ tấn cơngmù mịt mơ hình Trong một số trường hợp, ví dụ dịch vụ học máy (machine learning asa service) thì kẻ tấn cơng có thể tải lên tập dữ liệu và u cầu huấn luyện ra mơ hìnhnơng trên tập dữ liệu đó giống như mơ hình đối tượng mà khơng cần quan tâm mơ hìnhđó là mơ hình gì, kiến trúc và cách huấn luyện ra sao Cách huấn luyện các mơ hình nơngnày theo binh đồn (ensemble learning) nên về cơ bản huấn luyện được càng nhiều mơhình thì độ chính xác của cuộc tấn cơng càng cao Do huấn luyện trên tập dữ liệu nôngnên chúng ta biết được dữ liệu nào thuộc và không thuộc dữ liệu huấn luyện của từng mơhình nơng Từ đây là xây dựng tập dữ liệu bao gồm kết đoán của các mơ hình nơng vớinhãn “in”/ “out” để huấn luyện mơ hình tấn cơng.

Trang 38

vector dự đốn và tăng entropy của vector dự đoán, xem các cách đây là cách giảm thiểurủi ro lộ tính riêng tư khi mơ hình xuất đầu ra ít thơng tin hơn Tuy nhiên, khác với vềmặt cảm tính, các tác giả đã hiện thực và đưa ra số liệu tỉ lệ tấn cơng chính xác với đầura top-k, làm trịn và sau tăng entropy của vector dự đoán đều rất cao xấp xỉ với khơngbảo vệ vector dự đốn Như vậy, các cách xuất lại vector dự đoán bằng top-k lớp (thậmchí là một điểm tin cậy của một nhãn duy nhất), làm trịn và tăng entropy của vectordự đốn đều khơng có nhiều tác dụng bảo vệ tính riêng tư Một chiến lược khác để giảmthiểu rủi ro lộ tính riêng tư mà bài báo này khảo sát là dùng các biện pháp chính quyhố (regularization), cụ thể ở đây là L2-norm Cách này tỏ ra hiệu quả khi xác suất tấncơng chính xác giảm so với khi khơng bảo vệ Nhưng nhìn chung xác suất thành cơng vẫnrất cao ở một số tham số phạt tham số (> 70%).

Phương pháp xây tấn công suy luận thành viên bằng cách xây dựng mơ hình nơng đượcsử dụng rộng rãi nhất và được khảo sát trong nhiều nhất cơng trình về rủi ro vi phạmtính riêng tư của học sâu [83]–[87] Bên cạnh đó, thay vì xây dựng mơ hình tấn cơng thìmột số cơng trình cũng đề xuất cách suy luận mới dựa vào: kết quả xuất ra của hàm mấtmát [88] - nếu kết quả của hàm mất mát nhỏ hơn một ngưỡng cố định thì khả năng điểmdữ liệu đó thuộc vào tập dữ liệu huấn luyện; điểm tin cậy [30] - nếu điểm tin cậy lớn hơnmột ngưỡng cố định thì khả năng điểm dữ liệu thuộc vào tập dữ liệu huấn luyện; entropycủa vector dự đoán [20], [89] - entropy của vector dự đoán càng nhỏ thì khả năng điểmdữ liệu đó thuộc vào tập dữ liệu huấn luyện Các phương pháp này đều thành công suyluận thành viên với độ chính xác cao.

Trang 39

3.1.1.2 Tấn cơng hộp trắng

Hình 3.6: Trong trường hợp hộp trắng kẻ tấn cơng có khả năng quan sát được các thơngsố học và gradient trong q trình dự đốn Do đó kẻ này có thể sử dụng dữ liệu đầu vào,kết quả dự đốn trả ra, thơng số học và gradient từng lớp để thực hiện suy luận thànhviên

Tấn công hộp trắng được xem là mở rộng của tấn cơng hộp đen vì kẻ tấn cơng hồn tồncó thể dùng phương pháp tấn cơng hộp đen như trên để suy luận thành viên Tuy nhiên,ở ngữ cảnh này kẻ tấn cơng có nhiều thơng tin hơn tấn công hộp đen, cụ thể là hàm mấtmát, thông số mơ hình và gradient của hàm loss tương ứng với và có thể dùng các phươngpháp phức tạp hơn để tăng độ chính xác của suy luận thành viên Tuy nhiên, không phảitất cả những thông tin biết thêm điều thực sự có giá trị nên tác giả Nasr [81] cùng cáccộng sự đã đề xuất một phương pháp dựa vào khai thác phương pháp học - stochasticgradient descent (SGD) bởi vì nếu một điểm dữ liệu thuộc vào tập dữ liệu huấn luyện thìnó có xu hướng làm cho gradient hướng về 0.

Trang 40

Hình 3.7: Phương pháp tấn công hộp trắng [81]

Phương pháp tấn công của Nasr [81] cùng các cộng sự cũng thành công trong viên tấncông suy luận thành viên của phương pháp học liên kết (federated learning) Phần lớn cáccơng trình thường khảo sát các mơ hình học sâu huấn luyện trung tâm (central learning)hoặc hơn những là học chuyển tiếp trên các mơ hình huấn luyện trung tâm [91] Học liênkết [92], [93], [51] là phương pháp học phân tán mà nhiều máy/thiết bị ngoại vi (edgedevices) cộng tác nhau để cùng xây dựng mơ hình học máy tồn cục Các máy/thiết bịngoại vi trước hết tải mơ hình cơ sở từ máy chủ/máy tổng hợp rồi xây dựng một hìnhcục bộ (local model ) của riêng mình, liên tục gửi thơng số lên trên để tổng hợp thành mơhình tồn cục theo nhiều cách rồi gửi lại mơ hình cập nhật cho các máy/thiết bị ngoạivi để tiếp tục huấn luyện Phương pháp học liên kết có thể làm một phương pháp đầytriển vọng về học bảo vệ tính riêng tư vì cách huấn luyện theo hướng phân tán do đó dữliệu mang tính riêng tư, nhạy cảm có thể huấn luyện nội bộ trong từng máy/thiết bị vàchỉ chuyển những gì học được, ví dụ các tham số, điểm tin cậy hay nhãn lên máy chủ đểtổng hợp Về mặt rủi ro vi phạm tính riêng tư, trong cài đặt học liên kết, có thể coi làmột tấn cơng hộp trắng khi kẻ tấn cơng có thể là một máy/thiết bị hay thậm chí là máytổng hợp tham gia vào quá trình huấn luyện Vì là một thiết bị trong hệ thống nên thayvì thụ động (passive attack ) khai thác thông tin bằng cách quan sát, kẻ tấn cơng có thểchủ động (active attack ) cập nhật lên mơ hình tồn cục theo hướng có lợi cho việc khaithác thơng tin cho mình, cịn gọi là tấn cơng người trong cuộc (insider attack ), suy luậnmột điểm dữ liệu được huấn luyện nội bộ ở thiết bị nào [94].

Ngày đăng: 25/10/2023, 22:13