Học liên kết là phương pháp học với dữ liệu huấn luyện từ nhiều nguồn, và vì thế, nó có nhiều ưu điểm so với các mô hình học khác. Mô hình học liên kết có thể được áp dụng cho nhiều dạng dữ liệu và nhiều thuật toán máy học khác nhau. Bên cạnh độ tổng quát hóa cao, mô hình học liên kết còn đảm bảo tính riêng tư cho tập dữ liệu huấn luyện. Bài viết này, đề xuất mô hình học liên kết cải tiến đảm bảo tính riêng tư dựa trên mô hình học liên kết.
TẠP CHÍ KHOA HỌC TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH HO CHI MINH CITY UNIVERSITY OF EDUCATION JOURNAL OF SCIENCE Tập 18, Số (2021): 463-476 ISSN: 1859-3100 Vol 18, No (2021): 463-476 Website: http://journal.hcmue.edu.vn Bài báo nghiên cứu * ĐẢM BẢO TÍNH RIÊNG TƯ DỮ LIỆU VỚI HỌC LIÊN KẾT CẢI TIẾN Nguyễn Thị Hường1*, Bùi Huy Tồn2, Lê Tấn Phong2, Nguyễn Đình Thúc2 Smartnet HCMC, Việt Nam Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, Việt Nam * Tác giả liên hệ: Nguyễn Thị Hường – Email: nguyenhuongk07@gmail.com Ngày nhận bài: 02-3-2021; ngày nhận sửa: 18-3-2021; ngày duyệt đăng: 20-03-2021 TĨM TẮT Mơ hình hóa liệu tốn quan trọng phân tích liệu Học máy phương pháp sử dụng rộng rãi để giải tốn mơ hình hóa Hầu hết mơ hình học cục theo nghĩa liệu huấn luyện mơ hình tập trung nơi máy chủ, đó, khơng tận dụng liệu chia sẻ đa dạng từ nhiều nguồn Kết tính tổng qt hóa mơ hình thu bị hạn chế Học liên kết phương pháp học với liệu huấn luyện từ nhiều nguồn, thế, có nhiều ưu điểm so với mơ hình học khác Mơ hình học liên kết áp dụng cho nhiều dạng liệu nhiều thuật toán máy học khác Bên cạnh độ tổng qt hóa cao, mơ hình học liên kết cịn đảm bảo tính riêng tư cho tập liệu huấn luyện Bài báo này, đề xuất mơ hình học liên kết cải tiến đảm bảo tính riêng tư dựa mơ hình học liên kết Kết thử nghiệm cho thấy tính khả thi áp dụng vào toán sử dụng học máy thực tế, đồng thời mở những thách thức tiếp tục nghiên cứu, cải tiến Từ khóa: đảm bảo tính riêng tư liệu; mơ hình liên kết; phân tích liệu đảm bảo tính riêng tư; đảm bảo tính riêng tư với mơ hình liên kết Giới thiệu Khai thác liệu, học máy học sâu ngày phát triển nhờ nguồn liệu phong phú, khổng lồ Cốt lõi việc học máy liệu Theo cách truyền thống, ta phải thu thập lưu trữ nhiều liệu máy tính (máy chủ), sử dụng thuật tốn huấn luyện để học tập liệu – học cục Trong mơ hình học cục bộ, trách nhiệm bảo mật thuộc phía máy chủ, nơi thu thập quản lí tất liệu nên chất lượng tính xác mơ hình học quan trọng tính riêng tư liệu Trong ngữ cảnh học từ nhiều nguồn liệu chia sẻ chung – học liên kết hay học phân tán, học phi tập trung, đó, đối tác (local server) hợp tác xây dựng mơ hình từ liệu (local data) chia sẻ kết tính tốn q trình học Trong ngữ cảnh này, bên cạnh việc Cite this article as: Nguyen Thi Huong, Bui Huy Toan, Le Tan Phong, & Nguyen Dinh Thuc (2021) Data privacy-preserving via improved federated learning model Ho Chi Minh City University of Education Journal of Science, 18(3), 463-476 463 Tập 18, Số (2021): 463-476 Tạp chí Khoa học Trường ĐHSP TPHCM yêu cầu tính đắn mơ hình vấn đề riêng tư liệu yêu cầu quan trọng không kém, đặc biệt lĩnh vực liệu có tính cá nhân, nhạy cảm liệu tài chính, y tế, sinh học… Trong lĩnh vực nhạy cảm vậy, ngồi mục tiêu quan trọng độ xác mơ hình thuật tốn học hay phân tích liệu cần phải ý đến tính riêng tư liệu, tính chất đặc biệt quan trọng luật bảo vệ liệu cá nhân nhiều nước giới áp dụng Có nhiều kĩ thuật hỗ trợ việc bảo vệ tính riêng tư cho liệu Trong đó, học phân tán kĩ thuật đảm bảo tính riêng tư ngày trở nên phổ biến Kĩ thuật tổng quát, áp dụng cho dạng liệu thuật toán học máy đa dạng Cơ sở lí thuyết Phần giới thiệu lại khái niệm quan trọng dùng cho phần sau 2.1 Học cục Mơ hình học cục khơng có định nghĩa rõ ràng, cụ thể mà khái niệm để mơ hình học tập trung cũ, trước có đời mơ hình học liên kết hay học phi tập trung Mơ hình học cục (Hình 1) cách tiếp cận truyền thống sử dụng rộng rãi lĩnh vực học máy Tiến trình huấn luyện tiến hành dựa tập liệu thu thập thuật toán thực thi vị trí vật lí (cùng máy chủ lưu trữ tính tốn) Hình Mơ hình học cục 2.2 Mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo (ANN – Artificial Neural Network), thường gọi tắt mạng nơ-ron, mơ hình tốn học dựa mơ hình nơ-ron sinh học ANN gồm nhóm nơ-ron nhân tạo (nút) liên kết với nhau, thông tin xử lí cách truyền theo liên kết giá trị nơ-ron tính lại (Hình 2) 464 Nguyễn Thị Hường tgk Tạp chí Khoa học Trường ĐHSP TPHCM Hình Mạng nơ-ron mơ hình mạng nơ-ron Một nút nhận nhiều tín hiệu đầu vào 𝑥𝑥 cho kết 𝑜𝑜 dạng nhị phân Các đầu vào ảnh hưởng nhiều hay vào nút đầu qua tham số quan trọng tương ứng 𝑤𝑤 nó: 𝑖𝑖𝑖𝑖 𝑤𝑤 𝑇𝑇 𝑥𝑥 ≤ 𝑜𝑜 = � 𝑖𝑖𝑖𝑖 𝑤𝑤 𝑇𝑇 𝑥𝑥 > Với phép tính đơn vậy, thực tế mạng nơ-ron phát quan hệ phức tạp liệu (ví dụ như: dự đốn nợ xấu, tài chính, tốn xử lí ảnh hay tốn rút trích ngữ nghĩa văn bản) khả dự đoán mạng nơ-ron bị giới hạn giảm nhiều Từ đó, xuất khái niệm hàm kích hoạt (Activation function) hàm trả giá trị thực bị chặn Sự kết hợp hàm kích hoạt nhằm giúp mơ hình học quan hệ phi tuyến phức tạp tiềm ẩn liệu Một số hàm kích hoạt 1: Hàm sigmoid: 𝛿𝛿(𝑧𝑧) = 1+𝑒𝑒 −𝑧𝑧 𝑒𝑒 𝑥𝑥 −𝑒𝑒 −𝑥𝑥 Hàm Tanh: 𝑡𝑡𝑡𝑡𝑡𝑡ℎ(𝑥𝑥) = 𝑒𝑒 𝑥𝑥 +𝑒𝑒 −𝑥𝑥 Hàm ReLU: 𝑓𝑓(𝑥𝑥) = max(0, 𝑥𝑥) Hàm Leaky ReLU: 𝑓𝑓(𝑥𝑥) = 1(𝑥𝑥 < 0)(𝛼𝛼𝛼𝛼) + 1(𝑥𝑥 ≥ 0)(𝑥𝑥) (với α số nhỏ) 2.3 Kiến trúc mạng nơ-ron Một mạng nơron đơn giản cấu thành nơ-ron đơn lẻ, gọi perceptron Mạng nơ-ron tổng quát kết hợp tầng perceptron Hình Mạng nhiều tầng Xem liên kết Activation functions in neural networks(2020) (có sẵn mạng ngày 25 tháng năm 2021) 465 Tập 18, Số (2021): 463-476 Tạp chí Khoa học Trường ĐHSP TPHCM Một mạng nơ-ron có ba kiểu tầng (Hình 3): - Tầng vào (input layer): tầng bên trái mạng biểu diễn đầu vào mạng; - Tầng (output layer): tầng bên phải mạng, biểu diễn đầu mạng; - Tầng ẩn (hidden layer): (các) tầng nằm tầng vào tầng biểu diễn cho việc suy luận logic tính tốn trung gian mạng; Một mạng nơ-ron ln có tầng vào tầng ra, khơng có có nhiều tầng ẩn Ở tầng, số lượng nút nơ-ron khác nhau, tùy thuộc vào toán cách giải 2.4 Mạng nơ-ron tích chập Tích chập khái niệm xử lí tín hiệu số nhằm biến đổi thơng tin đầu vào thơng qua phép tích chập với lọc để trả đầu tín hiệu Tín hiệu làm giảm đặc trưng mà lọc không quan tâm giữ đặc trưng Cũng giống mạng nơ-ron truyền thống, mạng tích chập (Hình 4) hoạt động theo phương thức nhận thông số đầu vào điểm tín hiệu biến đổi tín hiệu thơng qua tầng mạng Tuy nhiên, điểm khác biệt nằm cấu trúc đầu vào cấu trúc bên tầng mạng tích chập Lấy cảm hứng từ xử lí ảnh nên đầu vào mạng tích chập có cấu trúc ma-trận ảnh khơng có dạng vector mạng nơ-ron nhân tạo thơng thường Cụ thể, ảnh sau số hóa có dạng ngang-dọc-sâu (ngang: số lượng điểm ảnh chiều rộng, dọc: số lượng điểm ảnh chiều cao, sâu: số lượng kênh RGB có kênh đại diện cho mức độ màu đỏ, lục, lam) nên đầu vào mạng tích chập ma trận chiều Mạng nơ-ron tích chập gồm tầng tích chập, đệm bước nhảy, tầng gộp dùng để kết hợp thông tin qua vùng không gian kề nhau, qua việc sử dụng đa kênh hay lọc tầng Tầng tích chập lớp quan trọng lớp mơ hình mạng tích chập Lớp có chức phát đặc trưng khơng gian hiệu Tầng tích chập nhận đầu vào ma trận chiều lọc cần phải học Bộ lọc trượt qua vị trí ảnh để tính tích chập lọc phần tương ứng ảnh Ma trận kết trình gọi ma trận đặc trưng Bước nhảy số lượng điểm ảnh dịch chuyển ma trận đầu vào hay dùng để dịch chuyển lọc theo bước xác định Đệm thêm điểm ảnh vào xung quanh ảnh để giữ nguyên kích cỡ ma trận đặc trưng ban đầu Mục đích sau lần sử dụng lọc để quét ảnh, kích thước ảnh nhỏ không giữ nguyên kích thước ban đầu ảnh nên khơng thể khai thác ảnh nữa, cần thêm số điểm ảnh bên ngồi vào hình ảnh 466 Nguyễn Thị Hường tgk Tạp chí Khoa học Trường ĐHSP TPHCM Tầng gộp thường sử dụng sau bước phi tuyến tầng tích chập để đơn giản hóa thông tin đầu giảm bớt số lượng nơ-ron Quá trình gộp phổ biến gộp cực đại (max-pooling), thủ tục chọn giá trị lớn vùng đầu vào Ý tưởng đằng sau tầng gộp vị trí tuyệt đối đặc trưng không gian ảnh khơng cịn cần thiết, thay vào vị trí tương đối giữ đặc trưng đủ để phân loại đối tượng Hơn giảm tầng gộp có giúp giảm số chiều, làm hạn chế việc khớp (over fitting) giảm thời gian huấn luyện ReLU (Rectified Linear Units, 𝑦𝑦 = 𝑓𝑓(𝑥𝑥) = max(0, 𝑥𝑥)) hàm kích hoạt phổ biến cho mạng nơ-ron tích chập thời điểm Trước hàm ReLU áp dụng hàm mức, hàm Sigmoid hay Tanh, hàm phổ biến Hàm ReLU ưa chuộng tính tốn đơn giản, giúp hạn chế tình trạng tiêu biến gradient (đạo hàm xấp xỉ 0) cho kết tốt Tầng cuối mơ hình mạng nơ-ron tích chập tốn phân loại ảnh tầng kết nối đầy đủ Tầng có chức chuyển ma trận đặc trưng tầng trước thành vector chứa xác suất đối tượng cần dự đốn Và cuối cùng, q trình huấn luyện mơ hình CNN cho tốn phân loại ảnh tương tự huấn luyện mơ hình khác Cần định nghĩa hàm lỗi để tính sai số dự đốn mơ hình nhãn xác, sử dụng thuật tốn lan truyền ngược cho q trình cập nhật trọng số Hình Cấu trúc CNN 2.5 Thuật toán tối ưu Gradient Descent Như ta biết, để tìm cực trị hàm số liên tục 𝑦𝑦 = 𝑓𝑓(𝑥𝑥) phải giải phương trình đạo hàm hàm đó: 𝑓𝑓 ′ (𝑥𝑥) = Nhưng phương trình lúc giải dễ dàng, có trường hợp việc giải phương trình bất khả thi Gradient Descent cách thức tìm điểm cực tiểu cục cách xấp xỉ sau số vòng lặp Trong thực tế, giá trị liệu thường không 100% mà cần số gần nên cách tính tốn xấp xỉ, gần giải pháp phù hợp Gradient Descent thuật toán lặp tối ưu sử dụng toán học máy mạng học sâu, thường tốn tối ưu lồi với mục tiêu tìm tập biến nội cho việc tối ưu mơ hình máy học Ý tưởng Gradient Descent thực hiện, 467 Tập 18, Số (2021): 463-476 Tạp chí Khoa học Trường ĐHSP TPHCM điểm hàm lỗi hay hàm mát, xác định độ đốc sau ngược lại với hướng độ dốc đến độ dốc chỗ gần (cực tiểu) Gradient Descent có nhiều dạng khác Stochastic Gradient Descent (SGD), Mini-batch Gradient Descent (MGD) Về dạng Gradient Descent thực thi sau: a Khởi tạo biến nội b Đánh giá model dựa vào biến nội hàm mát (loss function) c Cập nhật biến nội theo hướng tối ưu hàm mát d Lặp lại bước đánh giá cập nhật (bước b c) thỏa điều kiện dừng Cơng thức cập nhật cho Gradient Descent viết là: 𝜃𝜃 ⟵ 𝜃𝜃 − 𝜂𝜂∇𝜃𝜃 𝑓𝑓(𝜃𝜃) 𝜃𝜃: tập biến cần cập nhật, 𝜂𝜂: tốc độ học (learning rate), ∇𝜃𝜃 𝑓𝑓(𝜃𝜃): gradient hàm mát 𝑓𝑓 theo tập 𝜃𝜃 Tối ưu hàm mát việc tìm điểm tối ưu mà hàm mát đạt cực đại cực tiểu Nếu hàm mát hàm lồi có cực đại cục cực tiểu cục bên cạnh cực đại cực tiểu Tuy nhiên, toán tối ưu lồi áp dụng Gradient Descent cực tiểu cục hàm mát cực tiểu tồn cục Có tham số quan trọng Gradient Descent giá trị độ lớn lần di chuyển Tham số gọi tốc độ học hay hệ số học (learning rate) Nếu tốc độ học nhỏ, thuật toán phải thực nhiều bước để hội tụ nhiều thời gian Nhưng tốc độ học lớn khiến thuật toán qua cực tiểu, vượt hẳn ngồi khiến thuật tốn khơng thể hội tụ (xem Hình 5) Hình Minh họa tham số tốc độ học Như Hình minh họa, điểm xuất phát bên trái bên phải, xuất phát từ bên trái, thuật toán hội tụ điểm cực tiểu cục mà không đến cực tiểu toàn cục Nếu điểm xuất phát từ bên phải phải nhiều thời gian để vượt qua điểm lồi để đến điểm cực tiểu toàn cục kết thúc thuật tốn q sớm khơng đến điểm cực tiểu tồn cục Các tốn thực tế áp dụng Batch Gradient Descent thường khó tìm cực tiểu tồn cục, đa phần rơi vào cực tiểu cục bộ, nhiên, chấp nhận kết Gradient Descent trả mơ hình đủ tốt 468 Nguyễn Thị Hường tgk Tạp chí Khoa học Trường ĐHSP TPHCM 2.6 Mơ hình học liên kết Mơ hình học liên kết (federate learning) kĩ thuật học máy, dùng để huấn luyện mơ hình cách phi tập trung Khác với cách tiếp cận truyền thống – học cục bộ, mơ hình học liên kết triển khai hệ thống liệu phi tập trung thay phải thu thập tất liệu máy chủ Do mà thiết bị tham gia vào mơ hình hưởng lợi từ việc mơ hình huấn luyện học từ nhiều nguồn liệu từ khác nhau, giúp đưa kết quả, dự đoán xác hơn, tổng quát so với học tập liệu máy cục Mơ hình học liên kết cho phép nhiều điểm (thiết bị) tham gia mà không cần chia sẻ liệu, tài nguyên; thay vào thiết bị - máy trao đổi tham số mơ hình huấn luyện Vì thế, máy chủ chi tiết liệu máy Điều giúp giải vấn đề bảo mật thơng tin, an tồn liệu quyền truy cập sở liệu Hình Mơ hình học liên kết 2.7 Cấu trúc mơ hình học liên kết Mơ hình học liên kết chia làm hai phần (i) thiết bị tham gia hay gọi máy (ii) máy chủ Các máy không cần kết nối với mà cần kết nối với máy chủ Nhìn chung, giống với cấu trúc Client – server áp dụng phổ biến lĩnh vực mạng máy tính, điển hình trang web Trong hệ thống, máy chủ xem trái tim hệ thống, giữ vai trò quan trọng việc vận hành hệ thống, máy chủ không hoạt động đồng nghĩa với hệ thống dừng hoạt động Trong mơ hình học liên kết tương tự, máy chủ giữ vai trị quan trọng việc quản lí máy con, trì hoạt động mơ hình Máy chủ có chức chính: - Quản lí, điều khiển máy mơ hình học; - Thực tổng hợp thơng số mơ hình huấn luyện; - Lưu trữ mơ hình huấn luyện tổng hợp Bên cạnh đó, máy chủ cịn có liệu riêng để kiểm thử mơ hình huấn luyện nhằm đánh giá mơ hình huấn luyện, từ đưa định sử dụng mơ hình huấn luyện tốt Nếu trường hợp máy chủ khơng có liệu kiểm thử đánh giá kết mơ hình huấn luyện thơng qua máy tham số 469 Tập 18, Số (2021): 463-476 Tạp chí Khoa học Trường ĐHSP TPHCM Máy hay thiết bị tham gia vào mơ hình học liên kết giữ vai trị quan trọng khơng hệ thống Mỗi máy xem mơ hình học truyền thống cục Máy có chức chính: - Huấn luyện mơ hình huấn luyện với tập liệu riêng; - Cập nhật tham số mơ hình huấn luyện lên máy chủ; - Cập nhật tham số mơ hình huấn luyện từ máy chủ Máy sở hữu tập liệu riêng (local data) mơ hình huấn luyện phải đồng với mơ hình huấn luyện hệ thống mơ hình học liên kết, đồng thời cần đồng tham số trình học máy Điểm khác thay liên tục cho mơ hình huấn luyện học liệu, máy sau khoảng thời gian học định phải gửi tham số mơ hình học lên máy chủ, sau chờ máy chủ tổng hợp tham số mới, nhận tham số tiếp tục trình học cục Như vậy, mơ hình huấn luyện máy bị chi phối máy chủ, khơng cịn mang tính cá nhân chuyển sang trạng thái tổng quát tồn máy khác mơ hình học liên kết 2.8 Hoạt động học liên kết mạng học sâu 2.8.1 Nguyên lí hoạt động Nguyên lí hoạt động mơ hình học liên kết tập trung vào cách thức giao tiếp máy chủ máy Về nguyên lí hoạt động máy gần tương tự mơ hình học cục (xem Hình 7) Hình Mơ hình học liên kết Mơ hình học liên kết gồm: Devices: hay nhiều máy Server: máy chủ Persistent storage: nơi lưu trữ mô hình huấn luyện (thường lưu trữ máy chủ) Rejection: tín hiệu bị từ chối Devide or network failure: tín hiệu lỗi từ máy mạng kết nối 470 Nguyễn Thị Hường tgk Tạp chí Khoa học Trường ĐHSP TPHCM Khá giống với mơ hình học cục bước học mơ hình huấn luyện, quy trình học mơ hình học liên kết chia nhiều vòng tổng hợp Mỗi vòng tổng hợp quy trình nhỏ, trao đổi tổng hợp tham số mơ hình huấn luyện máy máy chủ Chi tiết hơn, vòng tổng hợp gồm có pha: pha lựa chọn, pha cấu hình pha báo cáo Pha lựa chọn pha quy trình, giúp máy chủ chọn ứng cử viên tham gia vào vòng tổng hợp Đầ u tiên, bước (1), máy chủ sẽ phát tıń hiệu thông báo pha lựa cho ̣n bắ t đầ u, điề u này cũng đồ ng nghıã với việc bắ t đầ u một vòng tổ ng hơ ̣p mới Máy nào nhận đươ ̣c tıń hiệu và ở tra ̣ng thái sẵn sàng gửi thông báo sẵn sàng cho máy chủ Những máy còn làm công việc dang dở sẽ tiế p tu ̣c làm và ̣i đế n thông báo cho pha lựa cho ̣n sau Máy chủ sau một khoảng thời gian chờ nhấ t đinh ̣ sẽ thu thập đươ ̣c một tập hơ ̣p máy có tı́n hiệu sẵn sàng, sau đó thực hiện cho ̣n ngẫu nhiên các máy sẵn sàng đó với số lươ ̣ng nhấ t đinh ̣ và gửi thông báo chấ p nhận pha lựa cho ̣n cho các máy Máy nhận đươ ̣c thông báo chấ p nhận pha lựa cho ̣n sẽ chuyể n từ tra ̣ng thái sẵn sàng sang tra ̣ng thái hoa ̣t động và chờ nhận thố ng báo từ pha tiế p theo Còn các máy không đươ ̣c cho ̣n thı̀ máy chủ sẽ gửi thông báo từ chố i, các máy nhận đươ ̣c thông báo từ chố i sẽ tiế p tu ̣c ở tra ̣ng thái sẵn sàng và ̣i đế n pha lựa cho ̣n tiế p theo Trong trường hơ ̣p hế t thời gian chờ của pha lựa cho ̣n mà máy chủ không nhận đủ số lươ ̣ng tı́n hiệu từ máy ở tra ̣ng thái sẵn sàng thı̀ sẽ hủy pha lựa cho ̣n này, gửi thông báo từ chố i tới tấ t cả máy mà máy chủ đã gửi thông báo chấ p nhận pha lựa cho ̣n trước đó để các máy trở la ̣i tra ̣ng thái sẵn sàng, ̣i một khoảng thời gian nhấ t đinh ̣ và bắ t đầ u la ̣i pha lựa cho ̣n mới Bắ t đầ u pha cấ u hıǹ h, bước (2), máy chủ sẽ đo ̣c bộ tham số mô hıǹ h huấ n luyện mới nhấ t từ nơi lưu trữ mô hıǹ h huấ n luyện Sau đó, bước (3), máy chủ gửi bộ tham số mô hıǹ h huấ n luyện cho tấ t cả các máy đươ ̣c cho ̣n từ pha lựa cho ̣n trước đó Bước (4), các máy sau nhận đươ ̣c bộ tham số mô hı̀nh huấ n luyện từ máy chủ sẽ áp nó vô mô hı̀nh huấ n luyện của mı̀nh và tiế n hành huấ n luyện mô hı̀nh huấ n luyện mới đươ ̣c cập nhật bằ ng tập dữ liệu của mı̀nh Ở máy con, không nhấ t thiế t là cứ xong một vòng lặp ho ̣c cu ̣c bộ thı̀ máy gửi bộ tham số mà máy có thể thực hiện một số lươ ̣ng vòng lặp ho ̣c cu ̣c bộ nhấ t đinh ̣ rồ i mới gửi bộ tham số cho máy chủ Pha báo cáo đươ ̣c bắ t đầ u sau máy chủ thực hiện gửi bộ tham số mô hıǹ h huấ n luyện từ pha cấ u hıǹ h cho tấ t cả các máy hoàn tấ t Ở pha này, máy chủ sẽ ̣i các máy đươ ̣c chấ p nhận huấ n luyện mô hı̀nh huấ n luyện xong và gửi bộ tham số của mô hı̀nh huấ n luyện mới lên Máy gửi bộ tham số mô hı̀nh huấ n luyện xong sẽ chuyể n tra ̣ng thái sang sẵn sàng và chờ vòng tổ ng hơ ̣p tiế p theo Bước (5), sau nhận đủ tấ t cả bộ tham số mô hıǹ h huấ n luyện, máy chủ tiế n hành tổ ng hơ ̣p tấ t cả bộ tham số mô hıǹ h huấ n luyện thành một bộ tham số mô hıǹ h huấ n luyện mới và bước (6), lưu trữ la ̣i ta ̣i nơi lưu trữ mô hıǹ h huấ n luyện Máy có thể gửi tıń hiệu lỗi máy hoặc lỗi kế t nố i đế n máy chủ gặp sự cố 471 Tập 18, Số (2021): 463-476 Tạp chí Khoa học Trường ĐHSP TPHCM về quá trıǹ h huấ n luyện mô hıǹ h huấ n luyện hoặc về kế t nố i, máy chủ nhận đươ ̣c tıń hiệu lỗi sẽ bỏ qua máy đó Máy gửi tıń hiệu lỗi dừng mo ̣i hoa ̣t động la ̣i và chuyể n sang tra ̣ng thái sẵn sàng để chờ vòng tổ ng hơ ̣p mới Trong trường hơ ̣p hế t thời gian chờ của pha báo cáo mà máy chủ vẫn chưa nhận đủ bộ tham số mô hı̀nh huấ n luyện của các máy con, máy chủ sẽ gửi tı́n hiệu hế t thời gian thông báo cho các máy chậm trễ, sau đó tı́nh tổ ng các máy đã gửi bộ tham số mô hı̀nh huấ n luyện nế u đủ số lươ ̣ng thı̀ sẽ tiế n hành tổ ng hơ ̣p như bı̀nh thường, còn không sẽ hủy pha báo cáo này và dừng vòng tổ ng hơ ̣p la ̣i, bắ t đầ u vòng tổ ng hơ ̣p mới 2.8.2 Tổng hợp tham số mơ hình huấn luyện Trong máy học, thuật tốn mạng nơ-ron biểu diễn dạng hàm 𝑓𝑓(𝑥𝑥) với tham số tập hợp 𝑤𝑤 = {𝑤𝑤1 , 𝑤𝑤2 , … , 𝑤𝑤𝑘𝑘 } với k số lượng tham số có hàm 𝑓𝑓(𝑥𝑥) Đây tham số mà máy chủ máy truyền nhận cho máy chủ tổng hợp diễn tham số 𝑤𝑤𝑡𝑡𝑡𝑡 𝑛𝑛 = �𝑤𝑤1 , 𝑤𝑤2 , … , 𝑤𝑤𝑘𝑘 |𝑤𝑤𝑖𝑖 = � 𝑤𝑤𝑗𝑗𝑗𝑗 𝑣𝑣ớ𝑖𝑖 𝑖𝑖 ∈ [1, 𝑘𝑘]� 𝑛𝑛 𝑗𝑗=0 đó: 𝑤𝑤𝑡𝑡𝑡𝑡 : tham số mơ hình huấn luyện tổng hợp 𝑘𝑘: số lượng tham số tham số mơ hình huấn luyện tổng hợp 𝑛𝑛: số lượng tham số máy cần tổng hợp 𝑤𝑤𝑗𝑗𝑗𝑗 : tham số vị trí 𝑖𝑖 thuộc tham số máy 𝑗𝑗 2.8.3 Thuật toán procedure: sumWeight_FL() Input: 𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 ← mảng hai chiều có n tham số mơ hình huấn luyện con, tham số mơ hình huấn luyện có k tham số 𝑓𝑓𝑓𝑓𝑓𝑓 𝑖𝑖 = → 𝑘𝑘: 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑓𝑓𝑓𝑓𝑓𝑓 𝑗𝑗 = → 𝑛𝑛: 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 + 𝑤𝑤𝑐𝑐𝑜𝑜𝑛𝑛 [𝑗𝑗][𝑖𝑖] 𝑤𝑤𝑡𝑡𝑡𝑡 [𝑖𝑖] = 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡/𝑛𝑛 return 𝑤𝑤𝑡𝑡𝑡𝑡 ← mảng tham số tổng hợp có k tham số Đề xuất thuật toán cải tiến nén tham số mơ hình huấn luyện Việc truyền tải tham số mơ hình huấn luyện qua lại máy với máy chủ xảy liên tục trình học, tạo sức ép lớn lên mạng kết nối ảnh hưởng tới thời gian đợi máy chủ pha báo cáo Nếu mơ hình huấn luyện lớn, kéo theo dung lượng tham số lớn theo, lên tới vài trăm MB Điều gây khó dễ cho máy có đường truyền mạng kém, khơng ổn định Đồng thời, gây khó khăn cho máy chủ phải tiếp nhận xử lí tham số dung lượng lớn nhiều máy lúc 472 Nguyễn Thị Hường tgk Tạp chí Khoa học Trường ĐHSP TPHCM Vì vậy, chúng tơi tìm cách giảm dung lượng tham số mơ hình huấn luyện, giúp tăng tốc độ giảm áp lực truyền tải tham số qua mạng Ý tưởng cho việc giảm dung lượng tham số mơ hình huấn luyện bỏ ngẫu nhiên tập tham số tham số theo ngưỡng tối thiểu cho trước, gửi tham số lên máy chủ Khi máy chủ thực tổng hợp tham số, tham số rỗng bỏ qua, lấy trung bình cộng tham số khác rỗng Cơ sở cho ý tưởng nén mặt lí thuyết, máy có lượng liệu đủ lớn mơ hình huấn luyện phù hợp mơ hình huấn luyện máy hướng tới mơ hình huấn luyện chung tốt, tham số gần giống Nên ta ngẫu nhiên bỏ tham số tham số máy theo cách ngẫu nhiên có máy khác khơng bỏ tham số Như vậy, tham số xen kẽ bổ sung cho máy Ý tưởng không ảnh hưởng nhiều tới kết chung Thuật toán nén tham số 10 procedure: scaleWeight_FL() Input: 𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 ← mảng tham số máy có k tham số 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑(𝑥𝑥) ← hàm tính dung lượng biến 𝑥𝑥 Xáo trộn ngẫu nhiên phần tử 𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = 𝑓𝑓𝑓𝑓𝑓𝑓 𝑖𝑖 = → 𝑘𝑘: 𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 [𝑖𝑖] = ∅ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 + 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑(𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 [𝑖𝑖]) 𝑖𝑖𝑖𝑖 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑(𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 ) break > ∅: Thuật toán tổng hợp tham số 10 11 12 procedure: sumScaleWeight_FL() Input: 𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 ← mảng hai chiều có n tham số mơ hình huấn luyện con, tham số mơ hình huấn luyện có k tham số 𝑓𝑓𝑓𝑓𝑓𝑓 𝑖𝑖 = → 𝑘𝑘: 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 = 𝑓𝑓𝑓𝑓𝑓𝑓 𝑗𝑗 = → 𝑛𝑛: 𝑖𝑖𝑖𝑖 𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 [𝑗𝑗][𝑖𝑖] ≠ ∅: 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 + 𝑤𝑤𝑐𝑐𝑐𝑐𝑐𝑐 [𝑗𝑗][𝑖𝑖] 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠+= 𝑖𝑖𝑖𝑖 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 ≠ ∅: 𝑤𝑤𝑡𝑡𝑡𝑡 [𝑖𝑖] = 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡/𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 return 𝑤𝑤𝑡𝑡𝑡𝑡 ← mảng tham số tổng hợp có k tham số 473 Tập 18, Số (2021): 463-476 Tạp chí Khoa học Trường ĐHSP TPHCM Kết Để đánh giá phương pháp, dùng tập liệu huấn luyện CIFAR10 gồm 60.000 hình chia làm tập, 50.000 hình tập huấn luyện 10.000 hình tập kiểm tra Mỗi hình có kích thước 32 × 32 hình màu gồm có 10 nhãn là: máy bay, xe hơi, chim, mèo, nai, chó, ếch, ngựa, tàu xe tải Để giải tốn phân loại ảnh, chúng tơi sử dụng mạng nơ-ron tích chập CNN mơ hình học liên kết rút gọn Chúng thực khảo sát số lượng máy từ đến 100, với số lượng máy xem mơ hình học cục Các yếu tố lại: - Độ lớn batch 100; - Dữ liệu chia ngẫu nhiên cho máy Số lượng liệu máy số lượng tập huấn luyện chia số lượng máy Kết sử dụng nén tham số: Hình Minh họa vịng Học liên kết cải tiến Kết không nén tham số 474 Nguyễn Thị Hường tgk Tạp chí Khoa học Trường ĐHSP TPHCM Hình Minh họa vịng Học liên kết gốc Nén tham số mô hình huấn luyện vừa dễ dàng hiểu mặt lí thuyết dễ dàng triển khai mặt thực tế, đem lại tốc độ hội tụ độ xác không thua so với không nén tham số Về mặt hiệu quả, mơ hình học liên kết cho tốc độ học nhanh có độ xác tổng quát cao ta hiểu cài đặt tham số hợp lí với tốn Về mặt ứng dụng, mơ hình học liên kết phát triển thành hệ thống trí tuệ nhân tạo cho tập đồn, cơng ti lớn, để tăng tốc độ học khai thác tối đa tài nguyên máy tính Về mặt bảo mật liệu, phương pháp hữu ích cho tốn tạo mơ hình học cần bảo mật liệu Tuyên bố quyền lợi: Các tác giả xác nhận hoàn toàn khơng có xung đột quyền lợi Lời cảm ơn: Nghiên cứu tài trợ Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) dự án NCM2019-18-01 475 Tập 18, Số (2021): 463-476 Tạp chí Khoa học Trường ĐHSP TPHCM TÀI LIỆU THAM KHẢO Cenk Bircanoğlu, & Nafiz Arıca (2018) A comparison of activation functions in artificial neural networks, Bahcesehir Universitesi, Istanbul, TR Fanglin Li, Bin Wu, Liutong Xu, Chuan Shi, & Jing Shi (2014) A fast distributed stochastic Gradient Descent Algorithm for Matrix Factorization, Beijing Key Lab of Intelligent Telecommunication Software and Multimedia Jakub Konecny, H Brendan McMahan, & Daniel Ramage (2016) Federated Optimization: Distributed Machine Learning for On-Device Intelligence, University of Edinburgh McMahan, Daniel Ramage (2017) Federated Learning: Collaborative Machine Learning without Centralized Training Data Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, Blaise Aguera y Arcas (2017) Communication-efficient learning of deep networks from decentralized data, Google, Inc., 651 N 34th St., Seattle, WA 98103 USA Saad Albawi, Tareq Abed Mohammed, & Saad Al-Zawi (2017) Understanding of a convolutional neural network, Department of Computer Engineering, Istanbul Kemerburgaz University, Istanbul, Turkey Siddharth Sharma, & Simone Sharma (2020) Activation functions in neural networks, Dept of Computer Science and Engineering, Global Institute of Technology, Jaipur DATA PRIVACY-PRESERVING VIA IMPROVED FEDERATED LEARNING MODEL Nguyen Thi Huong1*, Bui Huy Toan2, Le Tan Phong2, Nguyen Dinh Thuc2 Smartnet HCMC, Vietnam University of Science, Vietnam National University Ho Chi Minh City, Vietnam * Corresponding author: Nguyen Thi Huong – Email: nguyenhuongk07@gmail.com Received: March 02, 2021; Revised: March 18, 2021; Accepted: March 20, 2021 ABSTRACT Data modeling is an important problem in data analysis Machine learning is the most popular method to solve this modeling problem All most of machine learning schemes are local learning schemes in which the training dataset is stored at a server, therefore it can’t take advantage of the diversity of data shared from multiple sources As a result, the generalization of the obtained model is limited The federated learning is a learning from multi-source of data so it has many advantages compared to other methods Federated learning model applies to a variety of data types and machine learning algorithms Besides accuracy, this model also ensures privacy for the training data set This paper proposes an improvement of the federated learning model to ensure privacy protection based on an federated-learning model The experimental results show the feasibility which can be applied to problems using machine learning in practice and also open up challenges to improve research and innovation Keywords: differential privacy; federated learning; privacy-preserving data analysis; privacypreserving with federated learning 476 ... tốn học hay phân tích liệu cần phải ý đến tính riêng tư liệu, tính chất đặc biệt quan trọng luật bảo vệ liệu cá nhân nhiều nước giới áp dụng Có nhiều kĩ thuật hỗ trợ việc bảo vệ tính riêng tư. .. máy chủ chi tiết liệu máy Điều giúp giải vấn đề bảo mật thơng tin, an tồn liệu quyền truy cập sở liệu Hình Mơ hình học liên kết 2.7 Cấu trúc mơ hình học liên kết Mơ hình học liên kết chia làm hai... mang tính cá nhân chuyển sang trạng thái tổng quát toàn máy khác mơ hình học liên kết 2.8 Hoạt động học liên kết mạng học sâu 2.8.1 Nguyên lí hoạt động Nguyên lí hoạt động mơ hình học liên kết