Bài viết đề xuất một bộ khung giải pháp giúp tận dụng tối đa nguồn tài nguyên dữ liệu của người dùng, mà vẫn đảm bảo quyền riêng tư của họ. Chúng tôi áp dụng học liên kết (Federated Learning - FL) vào việc huấn luyện các mô hình máy học.
Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Phương pháp khuyến khích cộng tác đào tạo mơ hình học máy Blockchain học liên kết Hoàng Tuấn Anh∗† , Ngân Văn Luyện∗† , Đỗ Hoàng Hiển∗† , Phan Thế Duy∗† ∗ Phịng Thí Nghiệm An Tồn Thơng Tin, Trường Đại Học Công Nghệ Thông Tin † Đại Học Quốc Gia Tp Hồ Chí Minh Email: {18520446, 18521074}@gm.uit.edu.vn, {hiendh, duypt}@uit.edu.vn Tóm tắt—Ngày nay, lượng liệu sinh từ thiết bị Vạn vật kết nối (Internet of Things - IoT) ngày lớn, tạo tiền đề cho phát triển ứng dụng trí tuệ nhân tạo Tuy nhiên, với cách tiếp cận truyền thống, việc thu thập liệu người dùng cách tập trung ngày trở nên khó khăn Đã có báo cáo cho thấy tồn hành vi xâm hại đến quyền riêng tư liệu người dùng Hơn nữa, lợi ích nhận từ việc đào tạo mơ hình học máy đa phần khơng phân chia cho người sở hữu liệu Do đó, người dùng thường không sẵn sàng chia sẻ liệu họ với người khác Trong báo này, đề xuất khung giải pháp giúp tận dụng tối đa nguồn tài nguyên liệu người dùng, mà đảm bảo quyền riêng tư họ Chúng áp dụng học liên kết (Federated Learning - FL) vào việc huấn luyện mơ hình máy học Người dùng chia sẻ mơ hình học máy đào tạo liệu họ thay chia liệu thơ Do quyền riêng tư người dùng đảm bảo Hơn nữa, hoạt động đóng góp người dùng hệ thống ghi lại vào Blockchain Điều đảm bảo minh bạch q trình vận hành hệ thống khuyến khích người dùng tham gia đóng góp đào tạo mơ hình học máy Từ khóa—Blockchain, federated learning, học máy I GIỚI THIỆU Hiện nay, nhiều quốc gia đẩy mạnh chiến lược xây dựng đô thị thông minh để đón đầu đua sáng tạo khoa học kỹ thuật bối cảnh Cách mạng Công nghiệp lần thứ Tư (CMCN 4.0) Chìa khố để thực chiến lược trí tuệ nhân tạo (Artificial Intelligence - AI), yếu tố định hình hệ sinh thái công nghệ xoay quanh việc phục vụ tối đa lợi ích người dân thông qua việc thực trình chuyển đổi số - số hóa liệu Trong đó, liệu người dùng chia sẻ đóng vai trò quan trọng việc xây dựng hệ sinh thái thông minh, mềm dẻo bền vững lĩnh vực đời sống kinh tế - xã hội Các mơ hình AI tận dụng tiến mơ hình học máy (Machine Learning - ML) để nâng cao tính ưu việt hệ sinh thái thông minh Điều cần khối lượng liệu lớn đa dạng để đào tạo Cách tiếp cận xây dựng mơ hình ML chủ yếu thu thập liệu cho việc đào tạo tập trung máy chủ, sau đào tạo mơ hình liệu Tuy nhiên, cách tiếp cận dần trở nên khó khả thi rủi ro quyền riêng tư người dùng Đồng thời, chủ sở hữu liệu ISBN 978-604-80-5958-3 152 khơng sẵn sàng chia sẻ liệu khơng hưởng lợi từ việc đóng góp liệu cho q trình đào tạo mơ hình máy học Vì vậy, để xây dựng một hệ sinh thái thơng minh, tồn diện, cần có cách tiếp cận máy học Cách tiếp cận cần phải giải vấn đề liên quan đến quyền riêng tư người dùng, đảm bảo nguồn lợi cho chủ sở hữu liệu Trong bối cảnh đó, phương pháp học cộng tác/học liên kết (Federated Learning- FL) xuất giải pháp đáp ứng u cầu huấn luyện mơ hình ML hiệu mà đảm bảo tính bảo mật riêng tư liệu Sử dụng phương pháp FL, thực thể (các tổ chức, cá nhân, thiết bị IoT, ) tham gia cộng tác phân phối mơ hình từ máy chủ trung tâm thực huấn luyện thực thể cách sử dụng liệu cục Người dùng chia sẻ mô hình kết cho trung tâm tổng hợp thay chia sẻ liệu thơ Điều giúp giải phần lớn vấn đề liên quan đến quyền riêng tư liệu người dùng Tại máy chủ tổng hợp, quy trình huấn luyện diễn nhiều chu kì mơ hình tồn cục tối ưu đạt hiệu mong đợi Tuy nhiên, thực tế nhiều vấn đề xoay quanh việc triển khai hệ thống học liên kết Trong đó, điển hình việc thiếu kiểm sốt hoạt động sử dụng nguồn tài nguyên mà người dùng cung cấp vào mục đích xấu vấn đề để đóng góp người dùng trả cơng xứng đáng Việc gửi mơ hình cục huấn luyện liệu cá nhân lên hệ thống thay liệu thơ chưa hồn tồn giải vấn đề quyền riêng tư Nhiều nghiên cứu rằng, thông qua mô hình nhận được, kẻ cơng thực cơng suy ngược [7] Bên cạnh đó, vấn đề nguồn lợi từ việc huấn luyện mơ hình học máy không phân chia hợp lý cho bên tham gia khiến chủ sở hữu liệu dự mời tham gia đóng góp Để giải vấn đề trên, Blockchain đề xuất giải pháp hỗ trợ FL việc lưu trữ chứng hoạt động thực thể hệ thống Những chứng phục vụ cho trình điều tra hoạt động sử dụng đóng góp người dùng tổ chức tổng hợp mơ hình Hơn nữa, đóng góp người dùng Blockchain ghi lại, đảm bảo xác bất biến Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thơng tin (REV-ECIT2021) (khơng thể sửa đổi xóa), hỗ trợ việc trả thưởng cho người dùng cách xác minh bạch II NGHIÊN CỨU LIÊN QUAN Học liên kết tạo điều kiện thuận lợi để giải vấn đề quyền riêng tư bảo mật liệu so với cách đào tạo mơ hình máy học truyền thống, với khả đào tạo mô hình máy học phân tán mà khơng cần chủ sở hữu liệu phải chia sẻ liệu riêng tư họ Một số nghiên cứu trước [1], [2] nghiên cứu ứng dụng FL nhiều ngữ cảnh công nghiệp IoT Đặc biệt, Dinh C.Nguyen cộng [1] thực khảo sát đánh giá toàn diện ứng dụng FL mạng lưới IoT Nhóm tác giả thảo luận vai trò FL loạt dịch vụ IoT chia sẻ liệu, phát công, cảm biến đám đông thiết bị di động quyền riêng tư bảo mật IoT Bài báo chứng minh tính linh hoạt FL số lĩnh vực chăm sóc sức khỏe, giao thông, máy bay không người lái (UAV), Sau cùng, báo thách thức định hướng nghiên cứu triển khai FL lĩnh vực Về việc xây dựng khung học tập liên kết dựa Blockchain cho thiết bị IoT, có số nỗ lực nghiên cứu tập trung vào vấn đề [3], [4] Cụ thể, nghiên cứu Rui Wang cộng [3] người đề xuất tích hợp Blockchain, MEC vào quy trình học liên kết nhằm cải thiện quyền riêng tư, chất lượng chi phí giao tiếp hệ thống Nhóm tác giả đề xuất thuật toán ngăn chặn cập nhật độc hại nhằm bảo vệ FL thiết kế chế khuyến khích người dùng tham gia đào tạo mơ hình Trong nghiên cứu đảm bảo quyền riêng tư liệu ngành công nghiệp IoT [4], Y Lu cộng thiết kế kiến trúc chia sẻ liệu an toàn sử dụng FL Blockchain Nhằm cải thiện vấn đề liên quan đến quyền riêng tư FL để tăng cường đào tạo [5], nhóm tác giả triển khai chế bảo mật nâng cao sử dụng Differential Privacy Homomorphic encryption Trong công trình nhóm tác giả sử dụng (IPFS) làm nơi lưu trữ liệu để xây dựng hệ thống hoàn toàn phi tập trung Họ đề xuất chế khuyến khích chủ sở hữu liệu tham gia đào tạo mơ hình cách sử dụng hợp đồng thơng minh Ethereum Ngồi ra, cơng trình nghiên cứu thiết kế chế khuyến khích cho việc học liên kết [6], Yufeng Zhan cộng trình bày phân loại chế khuyến khích có việc học liên kết, sau đó, thực đánh giá so sánh Các tác giả chế khuyến khích bị bỏ qua chưa liên kết với thuật toán mơ hình đề nghị việc xây dựng chế khuyến khích cần xây dựng hệ thống bảo mật để người dùng an tâm tham gia đào tạo mơ hình Nhóm tác giả nêu lên ý tưởng xây dựng chế khuyến khích Nghiên cứu nêu tổng quan chế khuyến khích học liên kết Tuy ISBN 978-604-80-5958-3 153 nhiên, khảo sát đánh giá; dù mang lại nhìn tổng quan nhiều cách để giải khác nhau, chưa triển khai để đáp ứng đầy đủ yêu cầu hệ thống III KIẾN TRÚC ĐỀ XUẤT A Tổng quan kiến trúc Để giải vấn đề nêu trên, kiến trúc với kết hợp Federated learning Blockchain đề xuất thiết kế mơ tả Hình Hệ thống với vai trị tạo mơi trường đáng tin cậy, có khả khai thác nguồn tài nguyên liệu người dùng mà đảm bảo vấn đề quyền riêng tư cho chủ sở hữu Người đóng góp yên tâm nguồn lợi mà nhận hồn tồn xứng đáng với họ đóng góp Người đưa lời kêu gọi đào tạo tổng hợp mơ hình n tâm người mạng Fedchain thấy yêu cầu họ đóng góp cho mơ hình chung Hình Kiến trúc hệ thống FedChain Một cá nhân hay tổ chức (task publisher) muốn xây dựng mơ hình máy học mới, điều họ cần làm đăng ký mở tác vụ huấn luyện với hệ thống Bên cạnh thông tin hỗ trợ cho việc tổng hợp mơ hình, khoản phí cần tốn nhằm trả cơng cho người tham gia đóng góp Các cá nhân có liệu phù hợp xem xét định đóng góp cho việc xây dựng mơ hình Chủ sở hữu liệu cần cung cấp thông tin liệu, thông tin phần cứng mà người sở hữu bắt đầu huấn luyện mơ hình Kết sau huấn luyện gửi lại máy chủ tổng hợp Hành vi đóng góp Blockchain ghi lại hệ thống tiến hành trả thưởng dựa Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Cơng nghệ Thơng tin (REV-ECIT2021) chứng Khi có số lượng đủ lớn mơ hình từ phía người dùng gửi lên, máy chủ tổng hợp sinh mơ hình trung tâm trả cho task publisher Kết sau task publisher có mơ hình máy học mà mong muốn Các chủ sở hữu liệu vừa bảo vệ quyền riêng tư, vừa trả công cách xứng đáng Bên cạnh Federated learning Blockchain, sử dụng mạng sinh đối kháng (Generative Adversarial Networks - GAN) giải pháp để giải vấn đề cân liệu người tham gia đóng góp IPFS sử dụng để lưu trữ mơ hình người dùng tải lên, với mục đích giảm tải cho hệ thống Blockchain trình lưu trữ Đồng thời, giải vấn đề mà phương thức lưu trữ liệu tập trung gặp phải Sự kết hợp giúp cho hệ thống hoạt động cách xác mềm dẻo trình vận hành Chi tiết thành phần cách chúng phối hợp với chúng tơi trình bày cụ thể phần B Federated Learning Mỗi người sở hữu liệu khác nhau, đó, với thuật tốn máy học tham số truyền vào, mơ hình tạo có đặc trưng riêng theo liệu Dựa vào điều này, Federated learning đời cách tiếp cận lĩnh vực trí tuệ nhân tạo, với ý tưởng tổng hợp mơ hình trung tâm từ mơ hình biên huấn luyện liệu người tham gia đóng góp Bằng phương pháp này, người sở hữu liệu cần gửi mô hình máy học huấn luyện thay gửi liệu thơ Từ đó, khắc phục phần lớn vấn đề liên quan đến quyền riêng tư cá nhân Bốn bước để xây dựng nên mơ hình máy học sử dụng Federated learning chúng tơi trình bày cụ thể Algorithm Để bắt đầu xây dựng mơ hình học máy, trọng số mơ hình tồn cục cung cấp Các thông số rounds, epochs, clients, cung cấp từ bước Những người dùng sau đăng ký đóng góp nhận thơng số trên, tương ứng với loại tác vụ đăng ký Họ tiến hành sử dụng để huấn luyện tập liệu họ sở hữu Sau trải qua trình đào tạo, người tham gia đóng góp gửi kết lên hệ thống để phục vụ cho bước tổng hợp mơ hình tồn cục Tất hoạt động người tham gia ghi lại vào Blockchain Từ mơ hình người dùng đóng góp, có nhiều thuật tốn để tính tốn mơ hình tồn cục với độ xác khác Tuy nhiên, khn khổ báo này, sử dụng FedAVG [10] làm thuật toán tổng hợp đơn giản triển khai tính hiệu tổng hợp mơ hình Cuối cùng, máy chủ phân phối lại mơ hình tổng hợp cho người tham gia huấn luyện để tiếp tục cải tiến Trên thực tế, liệu có thay đổi ISBN 978-604-80-5958-3 154 theo thời gian, đó, việc huấn luyện cần phải lặp lặp lại nhiều lần để có độ xác tốt Algorithm Quy trình huấn luyện mơ hình máy học dựa Học liên kết Input: - Máy chủ tổng hợp AS; - Người dùng C = {C0 , C1 , Cn }, muốn tham gia đóng góp cho mơ hình - Số vịng trao đổi R server thành viên tham gia Output: Mơ hình máy học với chất lượng tốt 1: Khởi tạo: 2: - Tại máy chủ tổng hợp: Một mơ hình máy học M thiết lập với trọng số w0 thiết lập ban đầu 3: - Tại thiết bị người : Người dùng C nhận mơ hình M với trọng số w0 tham số liên quan 4: Xây dựng mơ hình: 5: r ← 6: snod ← Số lượng liệu định 7: while r ≤ R 8: Huấn luyện local model 9: k←1 10: while k ≤ n 11: cd ← Client Ck datasets 12: if cd < snod then 13: while cd < snod 14: GAN tạo cấp datasets 15: end while 16: end if 17: Client Ck huấn luyện mô hình Mk sử dụng liệu cá nhân 18: Gửi lại trọng số wkr cho AS 19: k ←k+1 20: end while 21: Máy chủ tổng hợp 22: - AS nhận tất wkr từ người dùng 23: - AS sử dụng thuật toán FedAVG tạo mơ hình với trọng số wr 24: Máy chủ tổng gợp gửi lại mơ hình cho người dùng 25: k←1 26: while k ≤ n 27: Người dùng Ck cập nhật trọng số wr cho mơ Mk 28: k ←k+1 29: end while 30: r ←r+1 31: end while 32: return Mơ hình máy học với trọng số w R Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) C Blockchain triển khai chế khuyến khích giám sát hệ thống Dựa vào tính minh bạch bất biến Blockchain, chúng tơi triển khai cách song song với Federated learning, hỗ trợ việc ghi lại hành vi thành viên hệ thống Chúng xây dựng hệ thống Blockchain để giám sát hoạt động hệ thống để đảm bảo thực chế khuyến khích cách xác cơng Đồng thời, cho phép quản lý việc sử dụng liệu người tổng hợp mơ hình Các hành vi giám sát Blockchain bao gồm: • • • • • Đăng ký thành viên hệ thống Để tham gia vào hệ sinh thái FedChain, người dùng cần có định danh để hệ thống quản lý hành vi họ Do người dùng cần đăng ký thành viên trước thực chức khác Trong phạm vi báo này, chúng tơi sử dụng mã hố bất đối xứng làm chế xác thực danh tính người dùng trog hệ thống Do đó, người dùng cần tạo cặp khố cho riêng mình, sau gửi vài thơng tin cá nhân cần thiết kèm theo khố cơng khai Mọi yêu cầu gửi cần mã hố khố bí mật người gửi, hệ thống xác thực cách sử dụng khố cơng khai họ Đăng ký mở tác vụ huấn luyện Khi đăng ký mở tác vụ huấn luyện mới, task publisher cần cung cấp thông tin loại tác vụ Những thơng tin cơng bố cho tất thành viên mạng biết Người sở hữu liệu phù hợp đăng ký vào tác vụ Ngoài ra, task publisher cần cung cấp khoản phí để trả thưởng cho người dùng theo chu kỳ Đăng ký đóng góp cho tác vụ cụ thể Các tác vụ sau đăng ký với hệ thống thành viên khác tham gia đóng góp Để tham gia vào tác vụ cụ thể, chủ sở hữu liệu cần cung cấp thông tin chi tiết tài nguyên phần cứng đặc điểm liệu mà họ sở hữu Sau đăng ký thành công, mô hình sơ khai gửi cho người đăng ký để tiến hành huấn luyện mơ hình liệu Gửi kết huấn luyện lên máy chủ tổng hợp Sau trải qua trình huấn luyện, kết gửi lên hệ thống Mô hình sau gửi lên lưu trữ hệ thống lưu trữ phân tán IPFS, với đó, hành vi đóng góp hệ thống ghi vào Blockchain Những thông tin phục vụ việc truy xuất nguồn gốc mơ hình trả thưởng cho người dùng Tổng hợp mơ hình tồn cục Chức thường sử dụng task publisher Sau thời gian kể từ đăng ký mở tác vụ huấn luyện mơ hình máy học với hệ thống, người đăng ký tiến hành tổng hợp lại đóng góp ISBN 978-604-80-5958-3 155 người dùng để xây dựng nên mơ hình tồn cục (global model) Tất hoạt động ghi vào Blockchain Vì vậy, có vấn đề liên quan đến hoạt động phá hoại dễ dàng truy xuất kẻ cơng Bên cạnh đó, hoạt động vận hành trả thưởng cho người dùng trở nên đáng tin cậy khơng có bên thứ ba can thiệp vào hệ thống trình vận hành D Khắc phục vấn đề cân liệu Tuy nhiên, mơ hình đào tạo FL thường có hiệu suất so với mơ hình đào tạo phương pháp học tập trung, đặc biệt liệu đào tạo bị chênh lệnh số lượng mẫu tỉ lệ theo nhãn có chênh lệnh lớn tập liệu người dùng (Non-IID) [8] Chúng sử dụng GAN giải pháp giúp khắc phục vấn đề ngữ cảnh liệu Non-IID Việc triển khai GAN thực thiết bị huấn luyện người dùng Với khả sinh liệu mình, GAN có khả giải tốt vấn đề cân liệu thiết bị tham gia IV THỰC NGHIỆM VÀ ĐÁNH GIÁ HIỆU NĂNG HỆ THỐNG Hệ thống FedChain chúng tơi đề xuất hỗ trợ việc xây dựng mơ hình AI nhiều lĩnh vực khác Tuy nhiên, phạm vi báo này, chúng tơi tiến hành xây dựng mơ hình máy học có nhiệm vụ phát cơng mạng Để chứng minh hệ thống có khả vận hành tốt, chúng tơi đánh giá hai khía cạnh khác Thứ nhất, đánh giá chất lượng mô hình tạo phương pháp Federated learning GAN Thứ hai, kiểm tra hiệu xử lý hệ thống Blockchain khía cạnh thời gian xử lý mức độ tiêu tốn tài nguyên tính tốn ngữ cảnh có nhiều thiết bị tham gia A Thiết lập môi trường thực nghiệm Môi trường thực nghiệm FL GAN Tensorflow sử dụng cho việc triển khai FL GAN Cấu hình máy dùng cho đào tạo FL GAN CPU: Intel® Xeon® E5-2660 v4 (16 cores - 2.0 Ghz), RAM: 64 GB, OS: Ubuntu 16.04 Môi trường thực nghiệm Blockchain Hyperledger Sawtooth [11] sử dụng làm tảng triển khai Blockchain Việc triển khai thực với nodes đồng thuận dựa thuật toán đồng thuận Practical Byzantine Fault Tolerance (PBFT) khả chịu lỗi thời gian phản hồi tốt Các node hoàn toàn triển khai Docker Máy cấu hình để tham gia vào mạng IPFS Cấu hình máy sử dụng CPU: Intel® Core™ i59300H (4 cores - threads - 3.5 Ghz), RAM: 16 GB, OS: Ubuntu 16.04 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) B Dataset tiền xử lý liệu • • Dataset Chúng tơi sử dụng tập liệu CICIDS-2017 [9] Viện An ninh mạng Canada cung cấp để đánh giá chương trình FedChain Chúng tơi sử dụng liệu từ tệp (Tuesday, Wednesday, Thursday-Afternoon) với tổng số 1,3 triệu ghi mô tả cơng mạng điển DoS Hulk, DoS Golden Eye, DoS slowloris, DoS Slowhttptest, Heart-bleed, FTP-Patator, SSH-Patator, Infiltration Tiền xử lý liệu Theo nghiên cứu công bố báo [9], Kurni-abudi cộng cho thấy rằng, số 79 thuộc tính cơng, có 16 thuộc tính hàng đầu cho dễ dàng trích xuất quan sát, có ảnh hưởng lớn đến việc phát công Các thuộc tính lựa chọn Destination Port, FlowDuration, Packet Length Std, Total Length of Bwd Packet, Subflow Bwd Bytes, Packet Length Variance, Bwd PacketLength Mean, Bwd Segment Size Avg, Bwd Packet LengthMax, Total Length of Fwd Packets, Packet Length Mean, Max Packet Length, Subflow Fwd Bytes, Average Packet Size, InitWinbytesbackward, InitWinbytesforward C Đánh giá hiệu hệ thống • Hiệu suất GAN việc sinh liệu đối kháng để so sánh kết với ngữ cảnh huấn luyện liệu tập trung Các mơ hình phía người dùng sử dụng thuật toán LSTM để huấn luyện Thuật toán dùng để huấn luyện ngữ cảnh tập trung tất liệu Kiến trúc mơ hình cấu tạo sau: Lớp LSTM với 64 internal units, lớp Dense với 16 internal units Mơ hình có đầu vào với kích thước (16,1) đầu kết sau qua lớp Dense với hàm kích hoạt sigmoid Riêng FL, chúng tơi tiến hành huấn luyện 3, 6, 12 vòng với người dùng Kết sau triển khai chúng tơi trình bày Bảng I Bảng II Bảng I KẾT QUẢ Without GAN With GAN THỰC NGHIỆM TRONG NGỮ CẢNH DỮ LIỆU Round 12 12 Precision 0.9035 0.9482 0.9725 0.9413 0.9457 0.9541 0.9129 0.959 Recall 0.6342 0.591 0.5778 0.5696 0.9021 0.9026 0.9645 0.9007 F1-score 0.7452 0.7281 0.7249 0.7097 0.9233 0.9276 0.9379 0.9289 NON-IID Accuracy 0.9564 0.9557 0.9559 0.9532 0.9331 0.9371 0.9612 0.9581 Bảng II KẾT QUẢ THỬ NGHIỆM TRONG TRƯỜNG HỢP TẬP TRUNG DỮ LIỆU Centralized learning Federated learning Precision 0.88 0.9129 Recall 0.9753 0.9645 F1-score 0.9251 0.9379 Accuracy 0.9705 0.9612 Bảng I so sánh hiệu suất mơ hình trước sau sử dụng GAN Kết cho thấy chất lượng mơ hình máy học cải thiện đáng kể, đặc biệt thông số Recall F1-score Bảng II so sánh phương pháp huấn luyện tập trung liệu với huấn luyện theo phương pháp FL + GAN Có thể thấy, với liệu, phương pháp tiếp cận chúng tơi có khả tạo mơ hình máy học với độ xác tương đương vơi phương pháp huấn luyện truyền thống Hình Sự tương đồng liệu gôc liệu tạo từ thuộc tính (từ trái sang: FlowDuration, TotalLengthBwdPacket, PacketLengthMean, PacketLengthStd) • Thử nghiệm cho thấy khả GAN việc tự động tạo lưu lượng mạng gần giống với lưu lượng đầu vào Hình cho thấy tương đồng liệu CICIDS2017Train gốc luồng mạng tạo bốn thuộc tính gồm lowDuration, TotalLengthBwdPacket, PacketLengthMean, PacketLengthStd Đánh giá hiệu Federated Learning Trong phần này, chúng tơi huấn luyện mơ hình máy học với FL trường hợp có khơng có GAN ISBN 978-604-80-5958-3 156 D Hiệu Blockchain Chúng đánh giá hiệu suất hệ thống Blockchain thông qua mức tiêu thụ tài nguyên CPU thời gian xử lý số ngữ cảnh cụ thể Để xác định mức tiêu thụ tài nguyên CPU hệ thống hoạt động, tiến hành thử nghiệm ngữ cảnh 20 người dùng liên tục gửi yêu cầu đăng ký tác vụ đo mức tiêu thụ khoảng thời gian 0,1 giây Kết trình bày biểu đồ kết tiêu thụ CPU Hình Với mức độ tiêu thụ tài nguyên CPU này, thấy hệ thống chúng tơi vận hành tốt ngữ cảnh có nhiều thiết bị tham gia vào hệ thống Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) khung giải pháp đảm bảo quyền riêng tư bảo mật liệu, với hệ sinh thái khuyến khích giúp tận dụng nguồn liệu đào tạo từ cộng đồng Giải pháp tạo môi trường chia sẻ liệu đáng tin cậy, liên kết chủ sở hữu có liệu loại để thực nhiệm vụ huấn luyện cụ thể Kết phân tích thử nghiệm chúng tơi chứng minh giải pháp cho phép chia sẻ liệu an toàn hiệu quả, đồng thời tận dụng nguồn liệu đa dạng từ cộng đồng Bên cạnh đó, để triển khai giải pháp vào thực tế nhiều vấn đề cần khắc phục Trong tương lai,chúng tơi dự định tích hợp điện tốn biên di động (MEC) vào mơ hình FedChain giúp giảm chi phí liên lạc truyền tải liệu hệ thống Ngồi ra, chúng tơi mong muốn triển khai giải pháp để bảo vệ hệ thống khỏi cơng phá hoại mơ hình tồn cục Hình Kết mức độ tiêu thụ CPU Để đo lường hiệu suất thời gian xử lý hệ thống, đo thời gian xử lý ngữ cảnh 10, 20, 50 người dùng liên tục gửi yêu cầu đăng ký tác vụ tới hệ thống Các phép đo lặp lại lần để đảm bảo độ xác Kết trình bày Bảng III Bảng III KẾT QUẢ THỜI GIAN XỬ LÝ CỦA HỆ THỐNG ( GIÂY ) 10 Người dùng 20 Người dùng 50 Người dùng Lần đo 0.0602312 0.103943 0.336669 Lần đo 0.059109 0.101376 0.384335 Lần đo 0.059569 0.112528 0.297349 Với kịch trên, tiến hành đo hiệu suất xử lý tác vụ gửi mơ hình kích thước 2MB lên máy chủ tổng hợp Kết thu cho thấy hệ thống trung bình 25,19693 giây để xử lý yêu cầu Bước đầu tiên, hệ thống lưu trữ mơ hình vào IPFS, sau tiến hành ghi liệu vào Blockchain Chúng tơi tính toán nhận thấy rằng, phần lớn thời gian dành cho việc tải mơ hình lên IPFS (25,19693 s/request) hệ thống Blockchain hoạt động tốt (0,018419 s/request) Tuy nhiên, việc tải mơ hình lên IPFS hồn tồn phụ thuộc vào tốc độ kết nối Từ kết luận rằng, hệ thống có khả đáp ứng tốt Từ kết thực nghiệm trên, thấy, hệ thống chúng tơi có khả phối hợp thành viên tham gia vào mạng FedChain để tạo mơ hình máy học với chất lượng tốt mà đảm bảo quyền riêng tư cá nhân Bên cạnh đó, hệ thống có tiềm việc triển khai vào lĩnh vực lớn Smart city kết hiệu cho thấy với số lượng người dùng lớn hệ thống có khả phản hồi tốt V KẾT LUẬN Cùng với phát triển ngành công nghiệp trí tuệ nhân tạo, liệu mà người dùng chia sẻ đóng vai trị quan trọng việc xây dựng hệ sinh thái chương trình thơng minh Trong báo này, đề xuất ISBN 978-604-80-5958-3 157 LỜI CẢM ƠN Cảm ơn hỗ trợ UIT InSecLab - Wanna.One Hacking Community trình thực đề tài TÀI LIỆU THAM KHẢO [1] Dinh C Nguyen, Ming Ding, Pubudu N Pathirana, Aruna Seneviratne, Jun Li, and H Vincent Poor, "Federated Learning for Internet of Things: A Comprehensive Survey," IEEE Communications Surveys & Tutorials, vol 23, no 3, p 1622–1658, 2021 [2] C Nguyen, M Ding, P N Pathirana, A Seneviratne, J Li, D Niyato and H V Poor, "Federated Learning for Industrial Internet of Things in Future Industries," IEEE Wireless Communications Magazine, vol abs/2105.14659, 2021 [3] Rui Wang, Heju Li, Erwu Liu, "Blockchain-Based Federated Learning in Mobile Edge Networks with Application in Internet of Vehicles," ArXiv, vol abs/2103.01116, 2021 [4] Y Lu, X Huang, Y Dai, S Maharjan and Y Zhang, "Blockchain and Federated Learning for Privacy-Preserved Data Sharing in Industrial IoT," in IEEE Transactions on Industrial Informatics, vol 16, no 6, pp 4177-4186, 2020 [5] S Kumar, S Dutta, S Chatturvedi and M Bhatia, "Strategies for Enhancing Training and Privacy in Blockchain Enabled Federated Learning," 2020 IEEE Sixth International Conference on Multimedia Big Data (BigMM), pp 333-340 , 2020 [6] Y Zhan, J Zhang, Z Hong, L Wu, P Li and S Guo, "A Survey of Incentive Mechanism Design for Federated Learning," IEEE Transactions on Emerging Topics in Computing, 2021 [7] Viraaji Mothukuri, Reza M Parizi, Seyedamin Pouriyeh, Yan Huang, Ali Dehghantanha and Gautam Srivastava, "A survey on security and privacy of federated learning," Future Generation Computer Systems, vol 115, pp 619-640, 2021 [8] Dinesh C Verma, Graham White, Simon Julier, Stepehen Pasteris, Supriyo Chakraborty, Greg Cirincione, “Approaches to address the data skew problem in federated learning,” Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications, vol 11006 International Society for Optics and Photonics, 2019 [9] Kurniabudi, Deris Stiawan, Darmawijoyo, Mohd Yazid Bin Idris, Alwi M.Bamhdi, and Rahmat Budiarto, "CICIDS-2017 Dataset Feature Analysis With Information Gain for Anomaly Detection," in IEEE Access,vol 8, pp 132911-132921, 2020 [10] Andrew Hard, Kanishka Rao, Rajiv Mathews, Swaroop Ramaswamy, Franc¸oise Beaufays, Sean Augenstein, Hubert Eichner, Chloé Kiddon, Daniel Ramage, "Federated Learning for Mobile Keyboard Prediction," arXiv, vol abs/1811.03604, 2019 [11] Z Shi, H Zhou, Y Hu, S Jayachander, C de Laat and Z Zhao, "Operating Permissioned Blockchain in Clouds: A Performance Study of Hyperledger Sawtooth," 2019 18th International Symposium on Parallel and Distributed Computing (ISPDC), pp 50-57, 2019 ... NGHIÊN CỨU LIÊN QUAN Học liên kết tạo điều kiện thuận lợi để giải vấn đề quyền riêng tư bảo mật liệu so với cách đào tạo mơ hình máy học truyền thống, với khả đào tạo mơ hình máy học phân tán... khuyến khích cho việc học liên kết [6], Yufeng Zhan cộng trình bày phân loại chế khuyến khích có việc học liên kết, sau đó, thực đánh giá so sánh Các tác giả chế khuyến khích bị bỏ qua chưa liên. .. hành D Khắc phục vấn đề cân liệu Tuy nhiên, mơ hình đào tạo FL thường có hiệu suất so với mơ hình đào tạo phương pháp học tập trung, đặc biệt liệu đào tạo bị chênh lệnh số lượng mẫu tỉ lệ theo nhãn