Cách một file được upload va lưu trữ trong IPFS

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Mô hình cộng tác và đảm bảo tin cậy trong phát hiện tấn công mạng sử dụng blockchain và học liên kết (Trang 41 - 45)

Theo [18], Mỗi khi có file được thêm vào trong hệ thống, các file này sẽ được chia thành các khối 256-k bytes. Các khối này đều có dữ liệu và đường dan, sau đó khối được đặt vào trong hệ thống. Một chuỗi băm sau đó sẽ được trả về tương ứng với mỗi file, được gọi là CID gốc. Chuối này được sử dụng để thu về các file được lưu trữ trên IPFS. Chuỗi băm này cũng đảm bảo cho việc chống trùng lập vì cùng một mã băm sẽ được sinh ra từ một tệp. Nếu file được upload

31

lại lên IPFS với một thay đổi dù có nhỏ tới đâu, chuỗi CID gốc sẽ bị làm mới

hoàn toàn.

2.9. Các công trình nghiên cứu liên quan

Như chúng tôi đã nêu trên, học liên kết mang lại lợi ích rất lớn trong việc đào tạo mô hình mà vẫn giữ được quyền riêng tư đối với đữ liệu của các máy cộng tác nhưng cùng với đó vẫn đối mặt với rất nhiều rủi ro trong quá trình đào tạo

mô hình. Công trình nghiên cứu [10] đề xuất chiến lược ShiedFL để chống lại các cuộc tấn công đầu độc sử dụng mô hình độc hại được mã hóa mà vẫn bảo vệ quyền riêng tư trong quá trình học liên kết. ShiedFL được triển khai dựa trên kỹ

thuật mã hóa đồng hình hai cửa sập (Two-trapdoor homomorphic encryption)

để ngăn chặn rò rỉ dữ liệu. Trước tiên ShiedPL sử dụng phương trình độ tương tự cosin (Cosine similarity) để chồng lại các mô hình độc hại đã được mã hóa trong quá trình học tập, tiếp đến thiết ké một cơ chế tổng hợp Byzantine-tolerance

để tổng hợp cho các kịch bản dữ liệu không đồng nhất. Nhóm tác giả sử dụng

Logistic Regression Classifier trên các tập dữ liệu MNIST, KDDCup99, Amazon

và thu được một số kết quả khả quan. Đối với dữ liệu non-IID, hiệu suất của ShieldFL có sự cải thiện đáng kể đối với các cuộc tấn công có mục tiêu. Đối với

dữ liệu IDD, trong trường hợp xấu nhất ShiedFL luôn thể hiện độ chính xác lên tới hơn 80% trong các cuộc tấn công có chủ đích và cải thiện độ chính xác đang kể đối với các cuộc tấn công không có mục tiêu. Nghiên cứu [7] đã đề cập đến việc phân tán quy trình học liên kết, điều này sẽ cho phép các thiết bị huấn luyện mô hình ngay tại thiết bị của họ mà không cần phải chia sẽ dữ liệu gốc, điều này sẽ đảm bảo sự bảo vệ quyền riêng tư. Cùng lúc đó, thông qua kiến trúc phan tan P2P. Vấn đề bảo mật như Single-point-of-failure sẽ được giảm thiểu ở mức tối đa, giúp tăng hiệu suất và tính ổn định của hệ thống. Nghiên cứu của

nhóm tác giả sử dụng mô hình CNN chạy trên tập dữ liệu IoT-23 trong việc sử

dụng máy chủ tổng hợp tập trung và mô hình phi tập trung được đề xuất. Với

32

8 clients và 100 epochs trong quá trình huấn luyện, kết quả đạt được cho thấy kết quả đói với mô hình phi tập trung và tập trung cho ra kết quả với độ chính xác tương đương là 84%. Nhưng điều khó khăn của mô hình này là sự giao tiếp ngang hàng giữa các nút khiến cho điều đó trở nên bất khả thi với các thiết bị

hiện tại.

Vào năm 2008, nghiên cứu của Satoshi Nakamoto mở ra một chương mới dành

cho việc lưu trữ phi tập trung khi đã vạch ra một giao thức mới cho hệ thống giao tiếp ngang hang (peer-to-peer). Công nghệ blockchain ra đời và được xem

như là một bước đột phá trong sự phát triển công nghệ thời điểm đó. Blockchain

là một công nghệ chuỗi khối, sử dụng hệ thống mã hóa phức tạp để đảm bảo việc truyền tải dit liệu một cách an toàn. N6 tương tự như cuốn sổ kế toán của một

công ty, nơi các giao dịch được giám sát và ghi nhận trên mạng ngang hàng. Mỗi khối trong blockchain chứa thông tin về thời gian bắt đầu và liên kết với khối

trước đó, kèm theo mã thời gian và dữ liệu giao dịch. Dữ liệu trong blockchain

đã được mạng lưới chấp nhận và không thể thay đổi. Blockchain được thiết kế

để chống lại gian lận và sửa đổi dữ liệu.

Với tính chất phi tập trung của blockchain, các nhà nghiên cứu đã nghĩ tới phương pháp kết hợp mô hình học liên kết với blockchain. Tiêu biểu là công trình nghiên cứu [15], các tác giả đã đề xuất hệ thống Federated Learning kết hợp với mạng lưới blockchain Hyperledger Fabric để giải quyết các vấn đề về an ninh và tính riêng tư. Cu thể, mạng lưới blockchain xác thực này sẽ ghi lại quá trình cập nhật của mô hình tổng (global model), việc này sẽ giúp xác minh và lần đến các mô hình địa phương (local model). Các nghiên cứu liên quan [12], [9]

đã đề xuất ra nhiều phương pháp để giải quyết các vấn đề còn tồn đọng trong

mô hình học liên kết và đảm bảo tính tin cậy. Nghiên cứu [12] đề xuất ST-BFL framework đã giải quyết được rất nhiều vấn đề giữa việc đánh đổi giữa tính riêng

tu và tính bảo mật trong việc học liên kết. ST-BFL framework bổ sung các tang

như Aggregation Layer, Verifications Layer và IPFS. Tang Aggregation sẽ cung

cấp dich vụ tổng hợp các mô hình được gửi từ phía client layer, Verification

33

Layer sẽ dam nhận việc xác thực các server tại tang Aggregation thực hiện việc

tổng hợp các model. Công trình nghiên cứu [9] đề xuất BLADE-FL framework

có một số điểm tương đồng như ST-BFL framework nhưng thêm cơ chế trao thưởng để khuyến khích các máy cộng tác tham gia vào quá trình huấn luyện

để tăng độ chính xác của của mô hình học liên kết.

Dic kết từ các van đề vẫn còn tồn tại kèm theo các hướng giải quyết từ nhiều nguồn, chúng tôi đề xuất một mô hình cộng tác giữa học liên kết và công nghệ blockchain trong việc phát hiện tấn công mạng có thể giải quyết các vấn đề còn tồn đọng liên quan đến tính bảo mật (Single-point-of-failure, Poisoning attacks,

...) liên quan tới việc học liên kết, giải quyết vấn đề giữa việc đánh đổi tinh

riêng tư và bảo mật, tăng hiệu suất hiện thực của mô hình bằng cách lưu trữ

dw liệu trên IPFS tại mỗi node.

34

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Mô hình cộng tác và đảm bảo tin cậy trong phát hiện tấn công mạng sử dụng blockchain và học liên kết (Trang 41 - 45)

Tải bản đầy đủ (PDF)

(88 trang)