Theo [18], Mỗi khi có file được thêm vào trong hệ thống, các file này sẽ được chia thành các khối 256-k bytes. Các khối này đều có dữ liệu và đường dan, sau đó khối được đặt vào trong hệ thống. Một chuỗi băm sau đó sẽ được trả về tương ứng với mỗi file, được gọi là CID gốc. Chuối này được sử dụng để thu về các file được lưu trữ trên IPFS. Chuỗi băm này cũng đảm bảo cho việc chống trùng lập vì cùng một mã băm sẽ được sinh ra từ một tệp. Nếu file được upload
31
lại lên IPFS với một thay đổi dù có nhỏ tới đâu, chuỗi CID gốc sẽ bị làm mới
hoàn toàn.
2.9. Các công trình nghiên cứu liên quan
Như chúng tôi đã nêu trên, học liên kết mang lại lợi ích rất lớn trong việc đào tạo mô hình mà vẫn giữ được quyền riêng tư đối với đữ liệu của các máy cộng tác nhưng cùng với đó vẫn đối mặt với rất nhiều rủi ro trong quá trình đào tạo
mô hình. Công trình nghiên cứu [10] đề xuất chiến lược ShiedFL để chống lại các cuộc tấn công đầu độc sử dụng mô hình độc hại được mã hóa mà vẫn bảo vệ quyền riêng tư trong quá trình học liên kết. ShiedFL được triển khai dựa trên kỹ
thuật mã hóa đồng hình hai cửa sập (Two-trapdoor homomorphic encryption)
để ngăn chặn rò rỉ dữ liệu. Trước tiên ShiedPL sử dụng phương trình độ tương tự cosin (Cosine similarity) để chồng lại các mô hình độc hại đã được mã hóa trong quá trình học tập, tiếp đến thiết ké một cơ chế tổng hợp Byzantine-tolerance
để tổng hợp cho các kịch bản dữ liệu không đồng nhất. Nhóm tác giả sử dụng
Logistic Regression Classifier trên các tập dữ liệu MNIST, KDDCup99, Amazon
và thu được một số kết quả khả quan. Đối với dữ liệu non-IID, hiệu suất của ShieldFL có sự cải thiện đáng kể đối với các cuộc tấn công có mục tiêu. Đối với
dữ liệu IDD, trong trường hợp xấu nhất ShiedFL luôn thể hiện độ chính xác lên tới hơn 80% trong các cuộc tấn công có chủ đích và cải thiện độ chính xác đang kể đối với các cuộc tấn công không có mục tiêu. Nghiên cứu [7] đã đề cập đến việc phân tán quy trình học liên kết, điều này sẽ cho phép các thiết bị huấn luyện mô hình ngay tại thiết bị của họ mà không cần phải chia sẽ dữ liệu gốc, điều này sẽ đảm bảo sự bảo vệ quyền riêng tư. Cùng lúc đó, thông qua kiến trúc phan tan P2P. Vấn đề bảo mật như Single-point-of-failure sẽ được giảm thiểu ở mức tối đa, giúp tăng hiệu suất và tính ổn định của hệ thống. Nghiên cứu của
nhóm tác giả sử dụng mô hình CNN chạy trên tập dữ liệu IoT-23 trong việc sử
dụng máy chủ tổng hợp tập trung và mô hình phi tập trung được đề xuất. Với
32
8 clients và 100 epochs trong quá trình huấn luyện, kết quả đạt được cho thấy kết quả đói với mô hình phi tập trung và tập trung cho ra kết quả với độ chính xác tương đương là 84%. Nhưng điều khó khăn của mô hình này là sự giao tiếp ngang hàng giữa các nút khiến cho điều đó trở nên bất khả thi với các thiết bị
hiện tại.
Vào năm 2008, nghiên cứu của Satoshi Nakamoto mở ra một chương mới dành
cho việc lưu trữ phi tập trung khi đã vạch ra một giao thức mới cho hệ thống giao tiếp ngang hang (peer-to-peer). Công nghệ blockchain ra đời và được xem
như là một bước đột phá trong sự phát triển công nghệ thời điểm đó. Blockchain
là một công nghệ chuỗi khối, sử dụng hệ thống mã hóa phức tạp để đảm bảo việc truyền tải dit liệu một cách an toàn. N6 tương tự như cuốn sổ kế toán của một
công ty, nơi các giao dịch được giám sát và ghi nhận trên mạng ngang hàng. Mỗi khối trong blockchain chứa thông tin về thời gian bắt đầu và liên kết với khối
trước đó, kèm theo mã thời gian và dữ liệu giao dịch. Dữ liệu trong blockchain
đã được mạng lưới chấp nhận và không thể thay đổi. Blockchain được thiết kế
để chống lại gian lận và sửa đổi dữ liệu.
Với tính chất phi tập trung của blockchain, các nhà nghiên cứu đã nghĩ tới phương pháp kết hợp mô hình học liên kết với blockchain. Tiêu biểu là công trình nghiên cứu [15], các tác giả đã đề xuất hệ thống Federated Learning kết hợp với mạng lưới blockchain Hyperledger Fabric để giải quyết các vấn đề về an ninh và tính riêng tư. Cu thể, mạng lưới blockchain xác thực này sẽ ghi lại quá trình cập nhật của mô hình tổng (global model), việc này sẽ giúp xác minh và lần đến các mô hình địa phương (local model). Các nghiên cứu liên quan [12], [9]
đã đề xuất ra nhiều phương pháp để giải quyết các vấn đề còn tồn đọng trong
mô hình học liên kết và đảm bảo tính tin cậy. Nghiên cứu [12] đề xuất ST-BFL framework đã giải quyết được rất nhiều vấn đề giữa việc đánh đổi giữa tính riêng
tu và tính bảo mật trong việc học liên kết. ST-BFL framework bổ sung các tang
như Aggregation Layer, Verifications Layer và IPFS. Tang Aggregation sẽ cung
cấp dich vụ tổng hợp các mô hình được gửi từ phía client layer, Verification
33
Layer sẽ dam nhận việc xác thực các server tại tang Aggregation thực hiện việc
tổng hợp các model. Công trình nghiên cứu [9] đề xuất BLADE-FL framework
có một số điểm tương đồng như ST-BFL framework nhưng thêm cơ chế trao thưởng để khuyến khích các máy cộng tác tham gia vào quá trình huấn luyện
để tăng độ chính xác của của mô hình học liên kết.
Dic kết từ các van đề vẫn còn tồn tại kèm theo các hướng giải quyết từ nhiều nguồn, chúng tôi đề xuất một mô hình cộng tác giữa học liên kết và công nghệ blockchain trong việc phát hiện tấn công mạng có thể giải quyết các vấn đề còn tồn đọng liên quan đến tính bảo mật (Single-point-of-failure, Poisoning attacks,
...) liên quan tới việc học liên kết, giải quyết vấn đề giữa việc đánh đổi tinh
riêng tư và bảo mật, tăng hiệu suất hiện thực của mô hình bằng cách lưu trữ
dw liệu trên IPFS tại mỗi node.
34