Các giải pháp Blockchain và dữ liệu nguồn gốc trên thế giới hiện nay

Một phần của tài liệu Ứng dụng nền tảng blockchain trong bài toán quản lý nguồn gốc và đặc tính của dữ liệu mở (Trang 41 - 49)

Tác giả của DataProv [10] đã đưa ra giải pháp sử dụng blockchain nhằm đảm bảo an toàn cho thông tin xuất xứ. Dựa vào bản chất phân tán, bất biến và các kỹ thuật mã hoá sẵn có của blockchain, hệ thống đảm bảo được quá trình cập nhật, lưu trữ luôn diễn ra một cách tự động, liên tục đồng thời vẫn đảm bảo tính riêng tư của nội dung lưu trữ. Trong báo cáo, đối tượng cụ thể nền tảng hướng đến là các dữ liệu xuất xứ về thông tin y tế, mang tính nhạy cảm và cần đảm bảo sự riêng tư, nền tảng blockchain được sử dụng là Ethereum, đồng thời toàn bộ thông tin xuất xứ được lưu trữ theo định dạng của Open Provenance Model, mô hình sơ khai của W3C PROV ngày nay

Figure 13 Tiến trình xử lý trong DataProv

Khi người dùng muốn thay đổi thông tin của tập dữ liệu, một phiên bản mới của tập dữ liệu được tạo ra và lưu trữ trên cloud - việc lưu trữ nhiều phiên bản khác nhau cho phép hệ thống có thể từ chối sự thay đổi và trả về phiên bản trước đó nếu quá trình kiểm tra thông tin cho thấy có sai phạm.

Đồng thời cùng lúc đó, hệ thống theo dõi thông tin được khởi động, bắt đầu quá trình kiểm tra.

Một yêu cầu kiểm tra được gửi về hệ thống blockchain, kích hoạt Voting smart contract, nội

dung của yêu cầu kiểm tra bao gồm các thông tin về định danh của tập dữ liệu, nội dung hash của phiên bản trước và sau thay đổi, vị trí tập tin trên cloud, thời gian thay đổi, chữ ký đại diện của người thay đổi …

Voting smart contract sẽ tạo ra các yêu cầu kiểm tra tập tin tin này đến các người dùng khác trong hệ thống, người dùng nhận được yêu cầu sẽ kích hoạt validation script trên máy mình để tiến hành kiểm tra. Toàn bộ quá trình đều diễn ra tự động và kết quả kiểm tra sau đó sẽ được gửi lại hệ thống blockchain

Sau khoảng thời gian nhất định, Blockchain sẽ tiến hành xử lý nội dung kiểm tra đã được gửi về, nếu hơn 50% kết quả là đồng ý, blockchain sẽ ghi nhận lại kết quả của sự thay đổi bao gồm thông tin ở (2) và các nội dung kiểm tra chấp nhận sự thay đổi. Nội dung ghi nhận sẽ được lưu trữ theo cấu trúc OPM, toàn bộ nội dung thông tin lưu trữ đều được mã hoá nhằm đảm bảo tính riêng tư

Đánh giá

Điểm mạnh của gỉai pháp cho phép tự động hoá toàn bộ quá trình theo dõi sự thay đổi của tập dữ liệu, toàn bộ dữ liệu được mã hoá và chỉ có chủ sở hữu của tập dữ liệu có thể biết được nội dung, đảm bảo được tính riêng tư của dữ liệu. Quá trình tự động được thực hiện bởi cơ chế tiền tệ trong blockchain ethereum thưởng cho các voting thành công và phạt cho các cố ý ghi nhận sai phạm.

Tuy nhiên, từ kết quả thực nghiệm của báo cáo cho thấy trong một số tình huống nhất định, chi phí cho giải pháp tương đối cao và các vấn đề về tranh chấp đồng thời trên một tập dữ liệu vẫn chưa được giải quyết.

4.2. ProvChain

Tương tự DataProv, ProvChain [11] giới thiệu giải pháp sử dụng blockchain cho bài toán ghi nhận thông tin xuất xứ cho các ứng dụng lưu trữ trên cloud, đồng thời đảm bảo tính riêng tư cũng tính sẵn ràng cho dữ liệu. Nền tảng blockhain được sử dụng là Tierion.

ProvChain định nghĩa 2 vai trò chính tham gia hệ thống

• Người sử dụng (Cloud User): Người dùng sử dụng dịch vụ cloud, là chủ sở hữu dữ liệu và có mối quan hệ chia sẻ dữ liệu với nhiều người dùng khác. Mọi thay đổi trên tập dữ liệu đều được thực hiện bởi người dùng, tuy nhiên định danh của người dùng khi lưu trữ trên blockchain sẽ được mã hoá để đảm bảo tính riêng tư

• Nhà cung cấp dịch vụ đám mây (Cloud service provider): Cung cấp giải pháp lưu trữ trên cloud cho người dùng. Nhà cung cấp chịu trách nhiệm cho việc quản lý định danh

của người dùng cũng như xử lý thông tin xuất xứ. Dưa vào thông tin xuất xứ (provenance data), nhà cung cấp có thể kiểm tra và phát hiện các hoạt động bất thường trên nền tảng của mình đồng thời xây dựng tính minh bạch trong hệ thống

Figure 14 Minh hoạ hoạt động của ProvChain [11]

ProvChain được xây dựng trên nền tảng ownCloud, tương tự như Dropbox hay Google Driver, ownCloud cho phép người dùng kiểm soát được các thông tin cá nhân cũng như quản lý truy xuất, chia sẻ dữ liệu giữa các người dùng với nhau. Ngoài ra ownClod cho phép thêm vào các ứng dụng theo dõi hoạt động trên từng dữ liệu. ProvChain sử dụng tính năng này của ownCloud nhằm theo dõi theo thời gian thực (realtime hooks), mỗi hoạt động diễn ra trên tập tin đều được ghi nhận. Kết hợp với Tierion, API cho phép đưa thông tin lưu trữ trên các nền tảng blockhain như Bitcoin hay Ethereum, toàn bộ thông tin xuất xứ sẽ được lưu trữ 2 nơi: trên blockchain và hệ thống lưu trữ của nhà cung cấp dịch vụ.

Sau khi lưu trữ thành công trên blockchain, một biên nhận (reciept) được trả về bao gồm thông tin block lưu trữ, thông tin transaction và hash gốc của cây merkle … Với nội dung này, cho phép quá trình kiểm tra (validate) thông tin tiếp tục diễn ra. Quá trình này thực hiện bằng cách tái cấu trúc lại cây merkle hash từ thông tin lưu trữ so sánh thông tin trong biên nhận. Nếu quá trình kiểm tra thông tin thành công, cập nhật trạng thái và thông tin blockchain ở hệ thống lưu trữ. Nêu quá trình kiểm tra thông tin thất bại, thông báo với nhà cung cấp dich vụ có vấn đề xảy ra

Dưa vào thông tin đã được lưu trữ, hệ thống xây dựng dịch vụ cung cấp thông tin xuất xứ của từng file dữ liệu

4.3. Neisse et al

Neisse et al [12] Trình bày 3 giải pháp sử dụng blockchain Ethereum cho mục đích đảm bảo quá trình sử dụng dữ liệu tuân thủ theo GPPR - Quy địch chung về sử dụng dữ liệu. Cả 3 Giải pháp dựa trên các định nghĩa cơ bản trong GPPR như

• Data Subject - Cá nhân liên quan - Một cá nhân, đối tượng cụ thể mà dữ liệu mang thông tin liên quan

• Data Controller- bộ quản lý dữ liệu - Đối tượng xác định cách thức, mục đích sử dụng dữ liệu

• Data Processor - bộ sử dụng dữ liệu - Có trách nhiệm xử lý dữ liệu theo yêu cầu của Data Controller

Cả 3 giải pháp đều dựa trên ý tưởng xây dựng mối liên hệ giữa Data Subject và Data Controller thông qua các hợp đồng thông minh. Hợp đồng thông minh có nhiệm vụ định nghĩa toàn bộ điều khoản, các hoạt động được cho phép thực hiện trên dữ liệu. Bộ quản lý dữ liệu có nhiệm vụ kiểm tra nội dung hợp đồng trước khi thực thi, cho biết hoạt động đó có được cấp phép hay không ? và chỉ tiến hành thực thi đối với các hoạt động được cấp phép, đồng thời lưu trữ toàn bộ nội dung quá trình thực thi - dữ liệu xuất xứ (data provenance) có liên quan

Sự khác nhau của 3 giải pháp nằm ở đối tượng quyết định nội dung hợp đồng

• Giải pháp 1: Cá nhân liên quan quy định hợp đồng thông minh cho từng bộ quản lý dữ liệu cụ thể.

• Giải pháp 2: Cá nhân liên quan quy định hợp đồng theo từng loại dữ liệu khác nhau.

Nội dung hợp đồng quy định bộ quản lý dữ liệu nào sẽ được phép sử dụng loại dữ liệu nào theo phương thức nào

• Giải pháp 3: Bộ quản lý dữ liệu quy định hợp đồng, trong đó nội dung hợp đồng miêu tả cách thức dữ liệu sẽ được xử lý và lưu trữ. Nếu cá nhân liên quan đồng ý với hợp đồng, các hoạt động sẽ được thực thi với dữ liệu của cá nhân liên quan

Điểm Mạnh: Giải pháp mang tính khả thi và tương đối linh động, phù hợp cho nhiều loại dữ liệu khác nhau chứ không bị ràng buộc cụ thể vào một loại dữ liệu.

Điểm Yếu: Dữ liệu xuất xứ không được lưu trữ theo một mô hình cụ thể mà phần lớn phụ thuộc vào định nghĩa cứng của hợp đồng thông minh

4.4. Using PROV and Blockchain to Archive Data health provenance

Tác giả [9] trình bày giải pháp ứng dụng nền tảng blockchain nhằm giải quyết bài toán dữ liệu xuất xứ cho thông tin y khoa. Khác với các giải pháp trước đây, nền tảng blockchain được sử dụng là Permissioned blockchain - trong đó mỗi node đóng một vai trò khác nhau, cụ thể là nền tảng Hyperledger fabric.

Figure 15 Minh hoá cấu trúc dữ liệu provenance của các file CDA

Đối tượng y khoa cụ thể mà hệ thống quan tâm là các file CDAs (Clinical Document Architecture). Mỗi file CDAs là kết quả của nhiều quá trình chuyển đổi, kết hợp nhiều file thông tin với nhau nên nội dung file CDAs chứa đựng thông tin liên quan của nhiều file CDA khác. Đầu tiên, các file CDAs sẽ trải qua các bước chuẩn hoá và tạo ra chữ ký điện tử bởi các phương pháp tương ứng như XaDES, PaDES, CaDES … Từ nội dung các file đã được chuẩn hoá và chữ ký vừa được tạo ra, hợp đồng thông minh trên blockchain sẽ tiến hành xử lý và tạo ra dữ liệu xuất xứ theo chuẩn w3c PROV. Dữ liệu xuất xứ này kết hợp với chữ ký của file CDAs sẽ được lưu trữ vào hệ thống blockchain theo hình thức Key-Value Store

〈𝑲, 𝑽〉 ∶= 〈𝒉(𝒅), 𝑷 𝒅 〉

Trong đó d là định danh của file CDAs, h(d) là kết quả hash của file CDA, 𝑷𝒅 là dữ liệu xuất xứ tương ứng vừa được tạo của file CDA

Figure 16 Kiến trúc giải pháp ứng dụng nền tảng blockchain vào lĩnh vực y tế

Giải pháp được tích hợp cụ thể vào hệ thống y khoa SpiritEHR, trong đó hệ thống hỗ trợ 2 thành phần chính là Health Service Bus (HSB) và EHRPortal. Thông thường, một file dữ liệu y khoa trong hệ thống được tạo ra hoặc thay đổi bởi sự kết hợp giữa thiết bị y tế và cổng thông tin EHR Portal, SHB sẽ đóng vai trò trung gian, theo dõi sự thay đổi và cập nhật toàn bộ sự thay đổi vào hệ thống blockchain. Trên Blockchain khi nhận được thông tin có sự thay đổi, smart contract sẽ được kích hoạt và tạo ra các thông tin xuất xứ cần thiết được miêu tả trong quá trình trên. Dựa vào chữ ký đặc trưng của từng file CDA, ta có thể dễ dàng truy xuất thông tin PROV từ hệ thống blockchain

Điểm manh: Giải pháp lưu trữ thông tin xuất xứ theo định dạng chuẩn PROV,

Điểm yếu: Giải pháp thiên về lĩnh vực y khoa, chưa mang tính tổng quát, đồng thời cũng chưa mô tả được quá trình xác thực người dùng giữa hệ thống y khoa và hệ thống blockchain

4.5. Tổng kết

Từ các nghiên cứu trên, ta có thể thấy rất nhiều giải pháp được đưa ra kết hợp blockchain và bảo vệ thông tin xuất xứ. Tuy nhiên đa phần cái giải phải đều thiên về một lĩnh vực, đặc thù cho một hệ thống nhất định chứ chưa có giải pháp tổng quát phù hợp cho mọi loại dữ liệu. Đối tượng người dùng tiếp cận chỉ giới hạn cho một thành phần nhất định trong hệ sinh thái Một số giải pháp sử dụng public blockchain như ethereum, cơ chế đồng thuận chưa được linh động và phụ thuộc rất nhiều vào nền tảng. Ngoài ra ngôn ngữ phát triển của các nền tảng public blockchain cũng tương đối hạn chế khi mà mỗi nền tảng sử dụng một ngôn ngữ của riêng minh, khiến các nhà phát triển khó tiếp cận nhanh chóng hệ thống

III Nội dung giải pháp đề xuất

Như đã trình bày ở chương 1, ta có thể biết được tầm quan trọng của dữ liệu nguồn gốc (data provenance) trong hệ thống dữ liệu mở và nhận thấy nhu cầu cần thiết phải bảo vệ các đặc tính của dữ liệu này. Ở chương 2, từ các kết quả nghiên cứu trên thế giới hiện nay cũng như các tính chất kỹ thuật của dữ liệu mở, của blockchain cũng dữ siêu dữ liệu xuất xứ (data provenance) được trình bày, ta có thể kết luận việc sử dụng blockchain để phục vụ mục tiêu này là hướng đi đúng đắn và hoàn toàn khả thi. Tuy nhiên, các nghiên cứu và giải pháp hiện nay vẫn còn mang tính chuyên sâu về một lĩnh vực, cụ thể cho một hệ thống và chưa mang tính tổng quát hoá. Ngoài ra các giải pháp liên quan đến hệ thống dữ liệu mở vẫn chưa nhận được sự quan tâm đúng mức, đa phần đều tập trung vào các lĩnh vực thương mại và dịch vụ. Vì vậy, luận văn đề xuất một hướng đi cho bài toán bảo vệ thông tin xuất xứ trong hệ thống dữ liệu mở, đối tượng cụ thể là CKAN. Mục tiêu của giải pháp không chỉ dừng lại ở nền tảng CKAN mà còn có thể mở rộng triển khai cho nhiều nền tảng dữ liệu mở khác. Xây dựng một hệ sinh thái về thông tin xuất xứ tích hơp từ nhiều hệ thống dữ liệu mở khác nhau.

Để tích hợp blockchain vào hệ thống dữ liệu mở cho đối tượng thông tin xuất xứ, ta có nhiều bài toán con cần phải giải quyết để đi đến kết quả

• Làm thế nào để thu thập được thông tin xuất xứ trong nền tảng dữ liệu mở

• Khi có được thông tin xuất xứ, làm thế nào để đồng bộ hoá dữ liệu này lên blockchain

• Khi dữ liệu được đưa lên blockchain, dữ liệu sẽ được xử lý như thế nào

• Khi dữ liệu đã được đồng bộ hoá và lưu trữ trên blockchain, làm thế nào để truy xuất và hiển thị thông tin này

• Ai sẽ là người được quyền truy xuất ?

• Dữ liệu truy xuất được thể hiện như thế nào ?

Nội dung chương sẽ lần lượt trình bày các giải pháp để trả lời các câu hỏi trên

Một phần của tài liệu Ứng dụng nền tảng blockchain trong bài toán quản lý nguồn gốc và đặc tính của dữ liệu mở (Trang 41 - 49)

Tải bản đầy đủ (PDF)

(111 trang)