3.2 Bảo mật PPDL dựa trên MPC
Nhìn chung, cấu trúc của PPDL dựa trên MPC an toàn được thể hiện trong hình 3.4. Thứ nhất, người dùng thực hiện đào tạo cục bộ bằng cách sử dụng dữ liệu cá nhân của họ (1). Sau đó, kết quả gradient từ quá trình đào tạo được chia sẻ bí mật (2). Gradient được chia sẻ được truyền đến mỗi máy chủ (3). Sau đó, máy chủ tổng hợp giá trị gradient được chia sẻ từ người dùng (4).
Hình 3.4. Cấu trúc của PPDL dựa trên MPC bảo mật Gradient tổng hợp giá trị được truyền từ mỗi máy chủ đến mỗi máy Gradient tổng hợp giá trị được truyền từ mỗi máy chủ đến mỗi máy khách (5). Mỗi khách hàng cấu trúc lại gradient tổng hợp và cập nhật giá trị gradient cho quá trình đào tạo tiếp theo (6). Trong trường hợp tính toán của nhiều bên, chia sẻ bí mật được sử dụng để bảo vệ quyền riêng tư của dữ liệu. Tuy nhiên, đối với tính toán hai bên sẽ an toàn cụ thể hơn. Cấu trúc của tính toán hai bên an toàn được thể hiện trong hình 3.4. Trong tính toán an toàn của hai bên, một máy khách sử dụng mạch cắt xén để bảo vệ quyền riêng tư của dữ liệu. Giao tiếp giữa máy khách và máy chủ được đảm bảo một cách an toàn bằng cách sử dụng chuyển giao ẩn. Đầu tiên, một máy khách gửi dữ liệu đầu vào riêng tư tới mạch bị cắt xén cho quá trình cắt xén (1). Sau đó, quá trình tiếp theo là trao đổi dữ liệu giữa máy khách và máy chủ bằng cách sử dụng phương thức truyền bị lãng quên (2). Sau khi trao đổi dữ liệu xong, máy chủ chạy quy trình dự đoán, sử dụng dữ liệu làm đầu vào trong mô hình học sâu (3). Kết quả dự đoán được gửi lại cho khách hàng. Khách hàng sử dụng bảng đã được cắt xén để tổng hợp kết quả (4) và thu được kết quả cuối cùng (5).
Năm 2017
SecureML là một giao thức mới để bảo vệ quyền riêng tư của máy học. Giao thức sử dụng truyền rõ ràng (OT), Yao's GC và được chia sẻ bí mật để đảm bảo quyền riêng tư của hệ thống. Đối với phần học sâu, nó sử dụng hồi quy tuyến tính và hồi quy logistic trong môi trường DNN.
Giao thức đề xuất một thuật toán cộng và nhân cho các giá trị được chia sẻ bí mật trong hồi quy tuyến tính. Phương pháp Stochastic Gradient Descent (SGD) được sử dụng để tính toán giá trị tối ưu của hồi quy. Điểm yếu của lược đồ này là nó chỉ có thể thực hiện một NN đơn giản mà không có bất kỳ lớp phức hợp nào. Do đó, độ chính xác là khá thấp. Điểm yếu của SecureML dựa vào giả định không thông đồng. Trong mô hình hai máy chủ, các máy chủ có thể không đáng tin cậy nhưng không thông đồng với nhau. Nếu các máy chủ có thể thông đồng với nhau, quyền riêng tư của những người tham gia có thể bị xâm phạm. MiniONN là một khuôn khổ bảo vệ quyền riêng tư để biến NN thành một Mạng thần kinh bị lãng quên. Quá trình biến đổi trong MiniONN bao gồm các hàm phi tuyến, với một cái giá là độ chính xác bị mất đi đáng kể. Có hai loại biến đổi được cung cấp bởi MiniONN, bao gồm biến đổi xiên đối với chức năng kích hoạt tuyến tính từng đoạn và biến đổi xiên đối với chức năng kích hoạt trơn tru. Một hàm trơn có thể được chuyển đổi thành một đa thức liên tục bằng cách chia hàm thành nhiều phần. Sau đó, đối với mỗi phần, phép gần đúng đa thức được sử dụng để tính gần đúng, dẫn đến một hàm tuyến tính từng phần. Do đó, MiniONN hỗ trợ tất cả các hàm kích hoạt có phạm vi đơn điệu hoặc đa thức từng phần hoặc có thể được xấp xỉ thành một hàm đa thức và SecureML về kích thước và độ trễ của thư. Điểm yếu chính là MiniONN không hỗ trợ xử lý hàng loạt. MiniONN cũng dựa trên các tác nhân trung thực nhưng tò mò, vì vậy nó không có biện pháp đối phó với tác nhân độc hại.
Năm 2018
ABY3 do Mohassel đề xuất et al., là một giao thức để bảo vệ quyền riêng tư của máy học dựa trên tính toán của ba bên (3PC). Đóng góp chính của giao thức này là khả năng chuyển đổi giữa số học, nhị phân và 3PC của Yao tùy thuộc vào nhu cầu xử lý. Mục đích chính của ABY3 là giải quyết vấn đề PPDL cổ điển yêu cầu chuyển đổi qua lại giữa các phép toán số học và các phép toán phi số học. Quá trình học máy thông thường hoạt động dựa trên các phép toán số học.
Do đó, nó không thể thực hiện một phép gần đúng đa thức cho hàm kích hoạt. ABY3 có thể được sử dụng để đào tạo tuyến tính hồi quy, hồi quy logistic và mô hình NN. Chia sẻ số học được sử dụng khi đào tạo mô
hình hồi quy tuyến tính. Mặt khác, để tính toán hồi quy logistic và mô hình NN, chia sẻ nhị phân trên GC ba bên được sử dụng. Tác giả cũng giới thiệu một phương pháp nhân điểm mới cho nhiều hơn phép tính ba bên, mở rộng kịch bản 3PC.
Phương pháp nhân này được sử dụng để giải quyết hạn chế của việc sử dụng MPC với học máy. MPC phù hợp để làm việc trên các vòng, không giống như học máy hoạt động trên các giá trị thập phân. ABY3 cung cấp một khuôn khổ mới an toàn trước những tác nhân nguy hiểm. Vì vậy, nó không giới hạn đối với tác nhân trung thực nhưng tò mò. Tuy nhiên, vì các giao thức được xây dựng trong khuôn khổ riêng của chúng, nên sẽ rất khó được triển khai cùng với chương trình học sâu khác. DeepSecure là một khuôn khổ cho phép sử dụng học sâu trong các môi trường bảo vệ quyền riêng tư. Tác giả đã sử dụng giao thức GC của OT và Yao với CNN để thực hiện quá trình học tập. DeepSecure cho phép sự hợp tác giữa máy khách và máy chủ để thực hiện quá trình học tập trên máy chủ đám mây bằng cách sử dụng dữ liệu từ máy khách. Tính bảo mật của hệ thống đã được chứng minh bằng cách sử dụng mô hình các tác nhân trung thực nhưng tò mò. Giao thức GC giữ thành công dữ liệu khách hàng ở chế độ riêng tư trong suốt thời gian truyền dữ liệu. Điểm yếu của phương pháp này là hạn chế về số lượng phiên bản được xử lý mỗi vòng. Phương pháp này chỉ có thể phân loại một trường hợp trong mỗi vòng dự đoán.
DeepSecure cung cấp giai đoạn tiền xử lý giúp giảm kích thước dữ liệu. Điểm mạnh của DeepSecure là giai đoạn tiền xử lý có thể được thông qua dễ dàng vì nó độc lập với bất kỳ giao thức mật mã nào. Điểm yếu chính của nó là không có khả năng xử lý hàng loạt. Chameleon là một phương pháp PPDL kết hợp SecureMPC và CNN. Về phần quyền riêng tư, Chameleon sử dụng GC của Yao cho phép hai bên thực hiện tính toán chung mà không cần tiết lộ thông tin đầu vào của riêng họ. Có hai giai đoạn: giai đoạn trực tuyến và giai đoạn không hoạt động. Trong giai đoạn trực tuyến, tất cả các bên được phép giao tiếp, trong khi trong giai đoạn cuối, các hoạt động mật mã được tính toán trước. Chameleon sử dụng phép nhân vectơ của biểu diễn điểm xed có dấu để cải thiện hiệu suất của phép nhân ma trận nặng cho phân loại dữ liệu được mã hóa. Nó đạt được thành
mật của dữ liệu. Đối với suy luận riêng, nó yêu cầu một bên thứ ba độc lập hoặc một phần cứng an toàn như Intel SGX. Chameleon dựa trên tác nhân trung thực nhưng tò mò, không có biện pháp đối phó với các tác nhân độc hại. Giao thức của Chameleon dựa trên tính toán của hai bên, vì vậy không thể thực hiện trong nhiều trường hợp hơn hai bên
Năm 2019
SecureNN cung cấp hệ thống đầu tiên đảm bảo tính riêng tư và tính đúng đắn chống lại những tác nhân trung thực nhưng tò mò và những tác nhân ác ý để tính toán NN phức tạp. Hệ thống dựa trên MPC an toàn kết hợp với CNN. SecureNN đã được thử nghiệm trên tập dữ liệu MNIST và thành công đạt được độ chính xác dự đoán hơn 99% với thời gian thực thi nhanh hơn 2-4 lần so với PPDL dựa trên MPC an toàn khác, chẳng hạn như SecureML, MiniONN , Chameleon và GAZELLE. Đóng góp chính của nó là phát triển một giao thức mới cho tính toán Boolean (ReLU, Maxpool và các dẫn xuất của nó) có ít chi phí giao tiếp hơn Yao GC. Đây là cách SecureNN đạt được thời gian thực thi nhanh hơn các kỹ thuật khác được đề cập ở trên. Điểm yếu của SecureNN được cho là cần nhiều chi phí liên lạc hơn so với ABY3. Nếu giao thức SecureNN được sửa đổi để nó sử dụng phép nhân ma trận như ABY3, thì số vòng giao tiếp sẽ giảm xuống. CodedPrivateML phân phối quá trình tính toán huấn luyện trên một số trạm và đề xuất một cách tiếp cận mới để chia sẻ bí mật dữ liệu và tham số DLmodel mà hầu như không thể giảm đáng kể chi phí tính toán và độ phức tạp. Tuy nhiên, độ chính xác của phương pháp này chỉ đạt khoảng 95%, không cao bằng các phương pháp khác như GAZELLE hay Chameleon . Bảng 3.2 hiển thị các tính năng của PPDL dựa trên MPC an toàn đã khảo sát
Reference Key concept Learning
type Datase t SercureM L Proposes a combination of garbled circuit with oblivious trnsfer and
secret sharing in a DNN environment Server- assisted MNIS T CIFA1 0
MiniONN Tranfrms a NN into an oblivious NN Server- assisted MNIS T ABY3 Provides an ability to
switch between arithmetic, binary , and three-party computation Server- assisted MNIS T DeepSecur e Enables a collaboration between client and server to do a learning process on cloud server Server- assisted MNIS T Chameleo n
Enables a secure joint computation with two distinguisher phases
online and offline
Server- assisted
MNIS T
SecureNN Develops a new protocol for Boolean computation that has
small overhead
Server- assisted
MNIS T
Coded Proposes a distributed training computation
across clients with a new approach of secret sharing Server- assisted MNIS T
Bảng 3.2. Các tính năng của PPDL dựa trên MPC bảo mật đã được khảo sát
3.3 PPDL dựa vào quyền riêng tư khác biệt
Cấu trúc của PPDL dựa trên quyền riêng tư khác biệt được thể hiện trong hình 3.6. Đầu tiên, dữ liệu đào tạo được sử dụng để đào tạo mô hình giáo viên (1). Sau đó, mô hình giáo viên được sử dụng để đào tạo mô hình học sinh. Trong trường hợp này, tôi đã minh họa mô hình sinh viên như một mô hình GAN bao gồm một bộ tạo và bộ phân biệt (2). Nhiễu ngẫu nhiên được thêm vào bộ tạo vì nó tạo ra dữ liệu huấn luyện giả (3). Mặt
khác, mô hình giáo viên đào tạo mô hình sinh viên sử dụng dữ liệu công khai (4).
Hình 3.6. Cấu trúc của PPDL dựa trên quyền riêng tư khác biệt.Mô hình sinh viên chạy một trò chơi có tổng bằng 0 giữa bộ tạo và Mô hình sinh viên chạy một trò chơi có tổng bằng 0 giữa bộ tạo và bộ phân biệt. Sau đó, mô hình sinh viên đã sẵn sàng được sử dụng cho quá trình dự đoán. Một máy khách gửi một truy vấn (5) đến mô hình sinh viên. Mô hình sinh viên chạy giai đoạn suy luận và trả về kết quả dự đoán cho người dùng (6). Tổ hợp riêng của giáo viên (PATE) là một phương pháp PPDL cho MLaaS sử dụng cách tiếp cận dựa trên quyền riêng tư khác biệt trong Mạng đối thủ chung (GAN). PATE là một cách tiếp cận hộp đen cố gắng đảm bảo tính riêng tư của dữ liệu trong quá trình đào tạo bằng cách sử dụng mô hình giáo viênhọc sinh. Trong giai đoạn đào tạo, tập dữ liệu được sử dụng để đào tạo các mô hình giáo viên. Sau đó, các mô hình học sinh học hỏi từ các mô hình giáo viên bằng cách sử dụng phương pháp bảo mật khác biệt dựa trên biểu quyết. Bằng cách này, mô hình giáo viên được giữ bí mật và học sinh không thể truy cập dữ liệu gốc. Ưu điểm của mô hình này là do mô hình giáo viên phân biệt, khi một đối thủ có được một mô hình học sinh, mô hình đó sẽ không cung cấp cho đối thủ bất kỳ thông tin cần thiết nào. PATE có một điểm yếu nghiêm trọng, đó là không cung cấp độ chính xác tốt cho các dữ liệu phức tạp. Nếu dữ liệu quá đa dạng, việc thêm nhiễu vào dữ liệu sẽ làm giảm hiệu suất của PATE. Vì vậy, hiệu suất của PATE phụ thuộc vào loại đầu vào. Nó chỉ thích hợp cho nhiệm vụ phân loại đơn giản. Hơn nữa, chi phí tính toán đắt do nhiều tương tác giữa máy chủ và máy khách. Một phương pháp PPDL khác sử dụng quyền riêng tư khác biệt là Bu1. Bu1 đề xuất quyền riêng tư khác biệt Gaussian (Gaussian
DP) chính thức hóa kỹ thuật DP ban đầu như một bài kiểm tra giả thuyết từ quan điểm của đối thủ. Nó phải được đánh giá để phân tích sự cân bằng giữa tiếng ồn và độ chính xác. Vấn đề khả năng mở rộng được thực hiện trong cuộc sống hàng ngày vẫn còn là một câu hỏi. Bảng 3.3hiển thị các tính năng của PPDL dựa trên quyền riêng tư khác biệt đã được khảo sát
3.4 PPDL dựa trên vỏ bọc an toàn
Cấu trúc của PPDL dựa trên vỏ bọc an toàn được thể hiện trong hình 3.7. Đầu tiên, một máy khách gửi dữ liệu đến môi trường mã hóa an toàn (1). Sau đó, nhà cung cấp mô hình gửi mô hình học sâu đến các vùng bao gồm (2). Trong môi trường mã bảo mật, quá trình dự đoán được thực hiện bằng cách sử dụng dữ liệu của khách hàng và mô hình học sâu (3)
Refer
ence Key concept
Learning
type Dataset
PATE
Proposes a differentially private learning process by
utillizing teacher models
Server_b ased MNIST SVHN Bu Proposes a Gaussian differential privacy that
formalizes the original differential privacy_based PPDL Server_b ased MNIST movieLe ns Bảng 3.3. Các tính năng của PPDL dựa trên sự khác biệt
Hình 3.7. Cấu trúc của PPDL dựa trên mã hóa an toàn.Sau đó, kết quả dự đoán được gửi đến khách hàng (4). Quá trình Sau đó, kết quả dự đoán được gửi đến khách hàng (4). Quá trình
bên trong không được tiết lộ cho bất kỳ bên nào khác bên ngoài vùng phủ. SLALOM sử dụng Môi trường thực thi đáng tin cậy (TEEs), môi trường này cô lập quy trình tính toán khỏi phần mềm không đáng tin cậy. Tính toán DNN được phân vùng giữa các bên đáng tin cậy và không đáng tin cậy. SLALOM chạy DNN trong bộ mã Intel SGX ủy quyền quá trình tính toán cho một GPU không đáng tin cậy. Điểm yếu của phương pháp này được cho là hạn chế hoạt động của CPU vì TEE không cho phép truy cập GPU. Một lỗ hổng do tấn công kênh phụ có thể xảy ra như được trình bày bởi Vanet al. Chiron cung cấp hệ thống hộp đen cho PPDL. Hệ thống che giấu dữ liệu đào tạo và cấu trúc mô hình từ nhà cung cấp dịch vụ. Nó sử dụng các vùng phủ SGX và hộp cát Ryoan. Vì SGX enclaves chỉ bảo vệ sự riêng tư của mô hình, hộp cát Ryoan được chọn ở đây để đảm bảo, ngay cả khi mô hình cố gắng làm rò rỉ dữ liệu, dữ liệu sẽ được lưu trữ bên trong hộp cát, ngăn chặn sự rò rỉ. Chiron cũng hỗ trợ quá trình đào tạo phân tán bằng cách thực thi nhiều enclaves trao đổi các tham số mô hình thông qua máy chủ. Chiron tập trung vào việc học được thuê ngoài bằng cách sử dụng một môi trường an toàn. Sự khác biệt chính giữa Chiron và Ohrimenko là việc thực thi mã. Chiron cho phép thực thi mã không đáng tin cậy để cập nhật mô hình và triển khai bảo vệ bằng cách sử dụng hộp cát để mã sẽ không bị rò rỉ dữ liệu ra bên ngoài vùng mã hóa. Mặt khác, Ohrimenko yêu cầu tất cả các mã bên trong vỏ bọc SGX phải công khai để đảm bảo rằng mã được tin cậy. Điểm yếu chính dựa trên giả định rằng mô hình không