1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Hệ thống khuyến khích xây dựng mô hình chẩn đoán bệnh tim mạch sử dụng Blockchain và học liên kết

94 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống khuyến khích xây dựng mô hình chẩn đoán bệnh tim mạch sử dụng Blockchain và học liên kết
Tác giả Hoàng Tuấn Anh, Ngân Văn Luyện
Người hướng dẫn ThS. Phan Thế Duy
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Công nghệ Thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 94
Dung lượng 38,37 MB

Nội dung

Trong khoá luận này, chúng tôi sẽ trình một hệ thống phát hiện bệnh tim mach ở người bằng các mô hình máy học nhằm hỗ trợ bệnh viện trong việc chuẩn đoán bệnh cũng như tạo ra các thiết b

Trang 1

ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

HOÀNG TUÁN ANH NGÂN VĂN LUYỆN

KHÓA LUẬN TÓT NGHIỆP

CHAN DOAN BỆNH TIM MẠCH SỬ DỤNG

BLOCKCHAIN VÀ HỌC LIÊN KÉT

Incentive System For Building A Diagnostic Model Of Cardiovascular

Disease Using Blockchain And Federated Learning

CU NHAN NGANH CONG NGHE THONG TIN

Trang 2

ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

HOÀNG TUẦN ANH - 18520446

NGÂN VĂN LUYỆN - 18521074

KHÓA LUẬN TÓT NGHIỆP

HE THONG KHUYEN KHÍCH XÂY DUNG MÔ HÌNH

CHAN DOAN BỆNH TIM MẠCH SỬ DỤNG

Disease Using Blockchain And Federated Learning

CU NHAN NGANH CONG NGHE THONG TIN

GIANG VIEN HUONG DAN

ThS PHAN THE DUY

Trang 3

THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

"— của Hiệu trưởng Trường Đại học Công nghệ Thông tin Dei ceeecceeeeeeeaeeeceeaeeeeeaueeeeeaeeseeeneeeeeaeeeeenaeees - Chủ tịch

TSSETOD - Thư ký

Boece cece - Ủy viên

— e eee eee eet eet eesti neti eet eet eetas - Uy vién

Trang 4

LOI CAM ON

Đầu tiên, chúng em xin cảm ơn khoa Khoa Học va Kỹ Thuật Thông Tin — Trường

Đại học Công Nghệ Thông Tin — Dai học Quốc gia Thành phó Hồ Chí Minh đã tạo cơ hội và điều kiện để nhóm chúng em thực hiện đề tài tốt nghiệp này Bên cạnh đó chúng

em cũng xin cảm ơn Phòng Thí Nghiệm An Toàn Thông Tin — UIT Inseclab đã hỗ trợ

và giúp đỡ nhóm chúng em trong suốt quá trình nghiên cứu và thực hiện khóa luận nay.

Chúng em cũng xin chân thành cảm ơn quý thầy cô trong trường đã tận tình giảng

day, trang bi cho chúng em những kiến thức cần thiết trong suốt quá trình học tập ở

trường Chúng em xin chân thành cảm ơn đến bố mẹ, gia đình, bạn bè đã ủng hộ, giúp

đỡ, động viên, khuyến khích chúng em trong suốt quá trình học tập nhất là khi những lúc chúng em gặp khó khăn cũng như là trong suốt quá trình thực hiện đề tài vừa qua.

Chúng em xin chân thành cảm thầy Phan Thế Duy đã tận tình hướng dẫn nhóm trong suốt thời gian thực hiện khóa luận, thầy đã chia sẻ các kinh nghiệm nghiên cứu, đưa ra những định hướng giúp nhóm hoàn thành khóa luận một cách tốt nhất.

Mặc dù nhóm chúng em đã rất cô gắng thực hiện khóa luận tuy nhiên không thể tránh khỏi những thiếu sót và hạn chế trong suót thời gian thực hiện vừa qua Do đó chúng em rất mong sự cảm thông, góp ý, chỉ bảo đến từ quý thầy cô và các bạn.

Nhóm chúng em xin gửi lời cảm ơn sâu sắc đến thầy cô và các bạn!

TP.Hồ Chí Minh, ngày tháng năm 2022

Nhóm tác giả

Trang 5

Mục lục

[TÓM TẮT KHOÁ LUẬN

1Ð MỞ ĐẦU

1.1 Giới thiệu bài toán| c.cccccs.

1.2 Mục tiêu khóa

luận| -1.3 Cấu trúc Khóa luận tốtnghiệp| -

2_ CÁC CÔNG TRÌNH LIÊN QUAN) E1 Các nghiên cứu về phương pháp học cộng tác|

[2.3 Các nghiên cứu ứng dụng blockchain trong học cộng tác|

3_ CƠ SỞ LÝ THUYET 3.1 Họcmáy| eee 3 Lý thuyết học sâu (Deep learning)|

3.2.1 Các khá

niệm| -3.3 Học liên kết (Federated

learning)| -B-4 Quyền riêng tư khác biệt (Differential

privacy)| -¬————— 3.5.1 Tổng quan|L ccScS E-5.2 Thuật toán đồng thuận|

3.5.3 Phân loại Blockchain|

Private

Trang 6

Blockchaimn| -[Consortium Blockchain] 27

[Hybrid blockchain| 27

B.6 Nền tảng Hyperledger Fabric|_ - 28

3.6.1 Tổng quan vé Hyperledger Fabric| 28

(3.6.2 Kiến trúc và luéng hoạt động| 28

Kiến trúc|_ cc eee 28 [nông hoạt dong) 29

3.7 TPES] xa 30 3.7.1 IPESProtocoll - 31

3.7.2 Cách hoạt động củalPES] 31

l4_ PHƯƠNG PHÁP VÀ MÔ HÌNH ĐỀ XUẤT) 33 [41 Tổng quan về kiến trúc| - 33

82 Federated learning xây dựng mô hình may học| 36

[2.1 Thiết kệ bộ khung thong nhất cho việc thu thập dữ liệu| 36

(4.2.2 Triển khai Different privacy] - 36

4.2.3 Mobile EdgeComputing] - 37

2.4 Mô hình học cộng tác| - 37

(4.2.5 Huấn luyện tại các thiết bị cộng tác| - 39

4.3 Blockchain giám sát hệ thông và triển khai cơ chế khuyến khích| 40

3.1 Đánh giá và lựa chọn Blockchain| 40

[4.3.2 Triển khai hệ thống Blockchain và IPES] 40

4.3.3 Thiết kế và triển khai hệ thống 41 5_ THỰC NGHIỆM VÀ ĐÁNH GIÁ| 45 5.1 Môi trường thực nghiệm| 45

Môi trường thực nghiệm học cộng tác| 45

Môi trường thực nghiệm Blockchain| 46

eee 46 Ớ áp học cộng tá 48 [5.3.1 Ngữ cảnh triểnkhail 48

"— 49

á i i 52

Trang 7

B.5.1 Ngữ cảnh triểnkhail 5.52 Kếtquả|

Hiệu năng xử lý của hồng Blockchain 4 nodes|

Hiệu năng xử lý của hệ thống Blockchain 6 nodes

Hiệu năng xử lý của hệ thống Blockchain 8 nodes

6 KẾT LUẬN

7_ HƯỚNG PHAT TRIỂN

Trang 8

Danh sách hình vẽ

E1 Kiến trúc mạng và quy trình giao tiếp cho FL-IoT của Dinh C.Nguyen

và cộng, sự z4 HA eee eee 8

liên kết và blokchain [H|Ï : 11

sự đóng gop của khách hàng 50]| 12

.1 Đồ thi mô tả giá trị của một hàm lỗi| 15

.2_ Do thị biến thiên của hàm sigmoid| 1

3.3 Cấu tạo cơ bản của một mô hình nơron nhân tạo| 18

(4 Kiến trúc lưu trữ Blockchain| - 22

E5 Các thuật toán đồng thuận của blockchain BI eee eae 25 [8.6 Phân loại Blockchain| 26

B.7 Kiến trúc Hyperledger fabric| - 29

E8 Luông hoạt động của Hyperledger fabric| 30

3.9 Cách một file du liệu được lưu trữ phân tán trên IPFS| 32

41 MôhinhEedChainl 34

4.2 Mô hình Federated learning| - 38

4.3 Ludng hoạt động của chaincode FedChain| 41

4.4 Luéng hoat dong của chaincode FedChain| 42

B.1 Một mẫu dữ liệu lay ra từ bộ dataset| ¬ ee 47

E2 Biểu đồ sự phân phối nhãn trong tập dữ liệu ECG Heartbeat

Cate-rhrưưtứth,PẼ'.rẰẲẼhr 47

Trang 9

5.4 Độ chính xác của mô hình trung tâm|

5.5 Giá trị ham loss của mô hình trung tâm|

5.6 Độ chính xác của mô hình trung tâm| 51

5.7 Thời gian xử lý trung bình cho một request được đo trong 100 lần| 53

5.8 So sánh mức do tiêu thụ tài nguyên hệ thống với số lượng node

Trang 10

Danh sách bảng

5.1 Mức độ tiêu thụ tài nguyên của hệ thống 4nodes| 5.2_ Thông lượng xử lý của hệ thống 4nodes

53 Mức độ tiêu thụ tài nguyên của hệ thống 6 nodes|

5.4 Thông lượng xử lý của hệ thống 6 nodes

b.5 Mức độ tiêu thụ tài nguyên của hệ thống 6 nodes| b.6 Thông lượng xử lý của hệ thống 8 nodes|

Trang 11

Danh mục từ viết tắt

ABE

AI DP

FedAvg

FL IoT IoV

IPFS MEC

ML

PBFT PoS

PoW P2P

Attribute-Based Encryption Artificial Intelligence

Differential Privacy Federated Averaging Federated Learning Internet of Things Internet of Vehicles InterPlanetary File System Mobile Edge Computing

Machine Learning Practical Byzantine Fault Tolerance

Proof of Work Proof of Stake

Peer to Peer

Trang 12

Học cộng tác

Mã hóa đồng cầu

Học máy Trung tâm dwt liệu

Tan công suy luận

Máy chủ

Trọng SỐ Văn bản gốc

Điện toán biên

Tính bắt biến

Tính minh bạch Phi tập trung

Danh mục từ tạm dịch

Federated learning Homomorphic encryption Machine learning

Data center

Inference attack Server

Weight

Plaintext Ciphertext Scheme Edge server Neural network Activation function Loss function

Aggregator

Differential Privacy Smart Contract

Consensus Mobile edge computing Immutability

Transparency

Decentralization

Trang 13

TÓM TẮT KHOÁ LUẬN

Hiện nay, Với sự phát triển vượt bậc của khoa học công nghệ nói chung vàtrí tuệ nhân tạo nói riêng đã góp phần giúp cuộc sống con người dễ dàng hơn

và tạo ra nhiều của cải vật chất Trí tuệ nhân tạo ngày nay được ví như cánh của

mở ra một thời đại mới của nền văn minh nhân loại, giúp con người có thể làmđược những điều mà trước đến nay tưởng chừng như chỉ xuất hiện trong các bộ

phim khoa học viễn tưởng Chìa khoá quan trọng nhất để mở ra cánh cửa này là

di liệu được sản sinh ra trong cộng đồng Cách tiếp cận phổ biến hiện nay là thu

thập tập trung đữ liệu, và sử dụng chúng vào quá trình đạo tạo nên các mô hình

máy học Thật không may khi những năm trở lại đây, việc thu thập và sử dụng

di liệu cá nhân của người dùng vào các mục đích xấu đang dan trở thành hòn đá

tảng làm chậm sự phát triển của ngành công nghiệp trí tuệ nhân tạo.

Trong y tế, việc tạo ra các thiết bị giúp tự động chuẩn đoán bệnh của ngườidùng dần trở thành xu thé trong tương lai Những thiết bị này giúp người dùng

tự theo đõi sức khoẻ của mình, từ đó giảm áp lực cho các sơ sở y tế von đã thường

xuyên quá tải Tuy nhiên, dữ liệu về sức khoẻ của một cá nhân nào đó thường sẽrất nhạy cảm và ít được người dùng chia sẻ Ngoài ra lợi nhuận được tạo ra từ các

mô hình máy hoc da phần déu nằm trong tay người sở hữu mô hình đó Đó cũngtrở thành một trở ngại trong việc khuyến khích người dùng chia sẻ dữ liệu của

họ.

Trong khoá luận này, chúng tôi sẽ trình một hệ thống phát hiện bệnh tim mach

ở người bằng các mô hình máy học nhằm hỗ trợ bệnh viện trong việc chuẩn đoán

bệnh cũng như tạo ra các thiết bị giúp người bệnh tự động kiểm tra sức khoẻ

của mình Phương pháp được dé xuất giúp đảm bảo quyền riêng tư của người

dùng trong quá trình huấn luyện mô hình, đồng thời cung cấp cơ chế trả thưởng

cho người đóng góp dữ liệu vào việc xây dựng mô hình máy học một cách minh

banh Dé dam bảo được quyền riêng tư dir liệu, phương pháp xây dựng mô hình

máy học được sử dụng ở đây là Federated learning (tạm dịch là học cộng tác)

được Google giới thiệu vào năm 2016 Để ghỉ lại quá trình đóng góp của người

dùng một cách chính xác và minh bạch, chúng tôi sử dụng công nghệ Blockchain

(tạm dịch là chuỗi khối) Ngoài việc đề xuất ra ý tưởng kết hợp hai công nghệ nàytrong huấn luyện mô hình phát hiện bệnh tim ở người, chúng tôi còn tiến hành đi

Trang 14

sâu vào phân tích và khắc phục các vấn dé liên quan khi triển khai hệ thống vàothực tế Chúng tôi cũng giải quyết ở đây là bảo vệ hệ thống khỏi cuộc tấn cônglàm bẩn dữ liệu (Poison Attack) và củng cé tính an toàn trong việc truyền thôngdit liệu giữa người dùng và hệ thống Ngoài ra chúng tôi cũng áp dung các côngnghệ như điện toán biên MEC, lưu trữ sử dụng IPFS giúp cho hệ thống trở nênmềm dẻo và linh hoạt hơn giúp giảm áp lực lên máy chủ trung tâm,giảm chỉ phítruyền thông dir liệu va đảm bảo hệ thống hoàn toàn phi tập trung.

Trang 15

Chương 1

MỞ ĐẦU

Tóm tat chương

Trong chương này, nhóm chúng tôi xin trình bày tóm tắt về bài toán khuyến

khích người sở hữu bộ dữ liệu tham gia đào tạo mô hình học máy sử dụng

blockchain và học liên kết, các nghiên cứu liên quan, các ứng dụng trong thực

tế và các thách thức mà bài toán đang gặp phải Đồng thời đưa ra mục tiêu và

phạm vi nghiên cứu cũng như câu trúc của khóa luận tốt nghiệp.

11 Giới thiệu bài toán

Hiện nay, vần đề chăm sóc sức khoẻ cho người dùng dần được quan tâm hơn.Cùng với đó là sự phát triển của các thiết bị hỗ trợ con người trong việc giámsát sức khoẻ của họ Sự ra đời của các thiết bị này là một giải pháp tốt trong việcgiảm tải lên hệ thống y tế vốn đã thường xuyên quá tải do số lượng bệnh nhânquá lớn Hơn nữa nó còn giúp con người tiết kiệm thời gian và chi phí khi không

phải trực tiếp đến cơ sở y tế để chuẩn đoán bệnh (27) Theo lý thuyết thì lượng

người dùng càng tăng thì đữ liệu được sinh ra ngày càng nhiều, đó cũng là động

lực giúp cho các thiết bị cải thiện chất lượng của mình theo thời gian Tuy nhiên,

da liệu được sinh ra ở đây liên quan rất lớn đến thông tin sức khoẻ của người

dùng, mà đây lại là những dữ liệu vô cùng nhạy cảm đo đó họ thường không sẵn

sàng chia sẻ chúng cho bat cứ bên liên quan nào không đáng tin cậy, và đó cũng

là lý do khiến nhiều người không tin tưởng và sử dụng các thiết bị chăm sóc sức

khoẻ thông minh ngày nay Những điều trên trở thành một trở ngại cực kỳ lớn

làm chậm lại sự phát triển của các ứng dụng trí tuệ nhân tạo trong chăm sóc sức

Trang 16

Chương 1 MO DAU

khoẻ con người.

Qua tìm hiểu và chúng tôi nhận ra rằng, càng về già thì con người thườnghay mắc các chứng bệnh về tim mach (CVD) và chỉ phí để chăm sóc, chữa trị cho

các căn bệnh này hằng năm là cực kỳ lớn Ước tính có khoảng 17,9 triệu người

chết vì CVDs vào năm 2019, chiếm 32% tổng số ca tử vong trên toàn cầu Trong

số những ca tử vong này, 85% là do đau tim và đột quy [26].Ở Mỹ hang năm có

khoảng 877500 chết vì bệnh tim hoặc đột quy mỗi năm — đó là một phần ba tổng

số ca tử vong ở Mỹ, Bệnh tim mạch cũng gây thiệt hại về kinh tế, tiêu tốn của hệthống chăm sóc sức khỏe 216 ty đô la mỗi năm và gây ra 147 tỷ đô la mat năng

suất trong công việc ở quốc gia này (0] Mà nguyên nhân chính ở đây là do sự già

đi, béo phì, lạm dụng chất kích thích và quan trọng nhất vẫn là không phát hiệnbệnh sớm Với những vấn dé trên, những thiết bị với khả năng phân tích nhịp timcủa con người và đưa ra dự đoán về tình trạng sức khoẻ của họ và đưa ra dự đoán

về tình trạng sức khoẻ của người dùng một là một giải pháp cực kỳ hữu ích trong

việc phát hiện sớm và ngăn chặn các bệnh lý về tim Tuy nhiên việc dự đoán liên

quan đến sức khoẻ con người nên các thiết bị này đòi hỏi phải có được sự chínhxác cao và có được sự cấp nhật thường xuyên, do đó việc tận dụng những dữ liệu

vé nhịp tim của người sử dụng thông qua quá trình sử dùng là vô cùng cần thiết

để nâng cấp các mô hình máy học Tuy nhiên dữ liệu này rất nhạy cảm và thường

không dé dàng được chia sẻ cho những bên không tin cậy, hơn nữa việc chia sẻ cần có những động lực vé mặt kinh tế để những bên đóng góp cung cấp những

bộ dữ liệu tốt nhất Hơn nữa việc trả thưởng cho người đóng góp cũng cần được

triển khai một cách chính xác và mình bạch.

12_ Mục tiêu khóa luận

Để giải quyết những vấn đề nêu trên, chúng tôi để xuất xây dựng một hệ

thống với sự kết hợp giữa phương pháp huấn luyện mô hình học máy Federated

learning và công nghệ Blockchain cùng với đó là tích hợp với công nghệ điện toán

biên (MEC) (i để hệ thống được hoàn toàn phi tập trung chúng tôi sử dung IPFS

(4) dé làm nơi lưu trữ Với ý tưởng huấn luyện mô hình không cần phải tập trung

Trang 17

Chương 1 MO DAU

luyện các mô hình cục bộ trên chính các chủ sở hữu di liệu và sau đó tổng hợp

nên một mô hình trung tâm Giải pháp này đã khắc phục được phan lớn các longại về quyền riêng tư đữ liệu hiện nay Các chủ sở hữu dữ liệu có nhiệm vụ huấnluyện ra các mô hình máy học cục bộ trên chính hệ thống của họ và gửi mô hình

đó lên hệ thống Do việc tính toán này mắt nhiều tài nguyên của người sở hữu dữ

liệu nên cần đảm bảo việc đóng góp của họ cần được trả thưởng một cách chính

xác Hệ thống Blockchain được chúng tôi sử dụng trong việc ghi lại những hành

vi của các thành viên trong hệ thống Hệ thống sau khi được tạo ra có thể tạo

ra các mô hình với chất lượng tốt mà vẫn đảm bảo được quyền riêng tư dữ liệu

người dung, bên cạnh đó việc trả thưởng một cách chính xác tạo động lực cho các

thành viên tham gia vào quá trình cộng tác.

Tuy nhiên nếu chỉ triển khai hai thành phan nói trên thì hệ thống vẫn chưahoàn đảm bảo được quyền riêng tư dữ liệu cũng như chống lại các cuộc tấn công

từ những người dùng độc hại Nhiều nghiên cứu đã chỉ ra rằng những kẻ tancông sẽ xâm nhập vào hệ thống với tư cách là một người đóng góp cho mô hìnhtrung tâm, chúng sẽ thực hiện lật một số nhãn và mong muốn hệ thống sẽ dự

đoán sai những nhãn đó, hay đơn giản là thay đổi dữ liệu để làm giảm đi khả năng dự đoán của mô hình trung tâm Đây là van dé được quan tâm nhiều nhất

khi nhắc đến Federated learning Bên cạnh đó, từ những đặc điểm của mô hìnhmáy học được gửi lên, kẻ tan công vẫn có khả năng suy ngược lại một vài thông

tin nhạy cảm của người dung Do đó cần có một cơ ché để khi dit liệu lọt vào tay

kẻ tấn công thì vẫn không thể nào sử dụng được

Một van dé khác cần được chú ý đó là nếu máy máy chủ tổng hợp nhận mô

hình trực tiếp từ người huan luyện khi số lương dữ liệu được gửi liên tục với số

lượng tham gia lớn sẽ gây áp lực rất lớn lên máy chủ tổng hợp cùng với đó là chỉphí truyền tải dữ liệu khi khoảng cách giữa máy chủ và người gửi dữ liệu là khác

nhau Công nghệ MEC được giới thiệu để chuyển trung tâm tổng hợp từ đám

mây sang máy chủ MEC, nhằm giảm thiểu chi phí truyền thông trên đám mâyđến mức có thể, trong khi khung tổng hợp kép được dé xuất để đảm bảo chatlượng đào tạo mô hình Ngoài ra với đặc điểm của Blockchain, khi lượng dir liệulớn dần lên theo thời gian, áp lực lưu trữ lên hệ thống là rất lớn Do đó cần thiết

kế một cơ chế giải quyết được van dé nay ma van khắc phục được những nhược

điểm của việc lưu trữ dữ liệu tập trung truyền thống chúng tôi đã áp dung công

Trang 18

Chương 1 MO DAU

nghệ lưu trữ IPFS giúp cho hệ thống hoàn toàn phân tán.

Trong đề tài này, chúng tôi sẽ đi vào phân tích từng vấn đề nêu trên và tìm

hiểu những giải pháp liên quan đã được triển khai ở thời điểm hiện tại, từ đó chọn ra phương pháp phù hợp nhất cho hệ thống của mình.

1.3 Câu trúc Khóa luận tot nghiệp

Qua những gì đã giới thiệu về tổng quan của dé tài thực hiện trong khoá luận

tốt nghiệp, tôi xin đưa ra nội dung của Khoá luận tốt nghiệp sẽ được tổ chức như

sau:

1

[I Giới thiệu tổng quan về khóa luận

hương

hương] Các công trình liên quan

hương|3| Cơ sở lý thuyết

hương|4| Phương pháp và mô hình dé xuất.

hương |5} Thực nghiệm và đánh giá.

° On aA A ương li Kết luận và hướng phát triển.

Trang 19

Chương 2

CÁC CÔNG TRÌNH LIÊN QUAN

Trong phần này, tôi sẽ giới thiệu về các hướng nghiên cứu đã có, nêu những

van dé còn tồn tại ở các khía cạnh liên quan đến dé tài này

2.1 Các nghiên cứu về phương pháp học cộng tác

Học liên kết là một cơ chế đào tạo AI phân tán thu hút được sự chú ý củanhiều nhà nghiên cứu thuộc các lĩnh vựa khác nhau Với khả năng đào tạo mô

hình máy học phân tán mà không cần chủ sở hữu dữ liệu phải chia sẻ dữ liệu

riêng tư của ho, FL đã tạo điều kiện thuận lợi để giải quyết các van dé về quyềnriêng tư và bảo mật dữ liệu so với cách đào tạo mô hình máy học truyền thống

Một số nghiên cứu trước đây

trong nhiều ngữ cảnh của nền công nghiệp lot Đặc biệt, Dinh C.Nguyen va cộng

sự đã thực hiện một cuộc khảo sát và đánh giá toàn diện về ứng dụng của

FL trong mạng lưới IơT Nhóm tác giả cũng thảo luận về vai trò của FL trong một

| đã nghiên cứu các ứng dụng của FL

loạt các dịch vụ IơT như chia sẻ đữ liệu IoT, giảm tải và lưu trữ dữ liệu, phát hiện

tan công, cảm biến đám đông trên thiết bị di động cũng như quyên riêng tư vàbảo mật IơT Bai báo cũng đã chứng minh tính linh hoạt của FL trong một số lĩnh

vực như chăm sóc sức khỏe, giao thông, máy bay không người lái (UAV), Sau

cùng, bài báo cũng chỉ ra những thách thức và định hướng có thể nghiên cứu và triển khai FL trong lĩnh vực này.

Trang 20

Chương 2 CÁC CÔNG TRINH LIÊN QUAN

FL-IoT Architecture Communication in FL-IoT

HINH 2.1: Kiến trúc mang và quy trình giao tiếp cho FL-IoT của Dinh

C.Nguyen và cộng sự

2.2 Các nghiên cứu về phương pháp hoc cộng tác trong

lĩnh vực y tế

Đối với thực trạng dân số già ngày càng tăng lên như hiện này, đi kèm với đó

là những hệ luy từ việc ăn uống không lành mạnh đã dẫn đến những căn bệnhliên quan đến tim mạch Bệnh tim mach (CVD) được công nhận là nguyên nhân

hằng đầu của bệnh tật và tử vong hằng năm, và là một yếu tố làm tăng gánh nặng

[i0] Ước tính có khoảng 17,9triệu người chết vì CVDs vào năm 2019, chiếm một phần ba tổng số ca tử vong

về chỉ phí chăm sóc y tế tại các nước trên thế giới

trên toàn cầu [26] Nghiên cứu cũng nhấn mạnh rang, đa phan những ca bệnh khi

được phát hiện sớm thì đều đễ dàng ngăn bệnh trở nặng Do đó, các thiết bị thông

minh có thể tự theo dõi tình trạng sức khoẻ tim mạch của con người đang là một

cách giải quyết tốt nhất cho van dé này Dé làm được điều đó, cần một lượng lớn

dữ liệu về tim mạch để có thể tạo nên một mô hình với độ chính xác cao Honnữa, những dữ liệu này cần được cập nhật liên tục trong quá trình vận hành các

Trang 21

Chương 2 CÁC CÔNG TRINH LIÊN QUAN

thường sẽ không nhận được lợi ích từ việc chia sẻ, diéu này càng làm khó khănthêm khi muốn xây dựng mô hình máy học theo cách truyền thống

2.3 Các nghiên cứu ứng dụng blockchain trong hoc

cộng tác

Việc xây dựng một khung cho mô hình Học liên kết (FL) an toàn bằng cách

bảo mật dựa trên Blockchain nhằm cải thiện một số vấn đề của FL đã có nhiều nỗ

lực nghiên cứu tập trung vào Blockchain và cả điện toán đám mây [29] [21] [28].

Cụ thể, trong nghiên cứu của Rui Wang và cộng sự D5) là những người đầu tiên

đề xuất sử dụng tích hợp Blockchain, MEC vào quy trình học liên kết nhằm cải

thiện quyền riêng tư, chất lượng và chi phí giao tiếp hệ thống Nhóm tác giả cũng

dé xuất thuật toán ngăn chan các bản cập nhật độc hại nhằm bảo vệ FL và thiết

kế cơ chế khuyến khích người dùng tham gia đào tạo mô hình với đánh giá đónggóp dựa vào trọng số mô hình được đào tạo

1 ‘Cloud H

Trang 22

Chương 2 CÁC CÔNG TRINH LIÊN QUAN

Trong nghiên cứu về dam bảo quyền riêng tư dit liệu trong ngành công

nghiệp IoT (21), Yunlong Lu và cộng sự da thiết kế một kiến trúc chia sé dữ liệu

an toàn sử dụng học liên kết và Blockchain, nhóm tác giả tích hợp học liên kếtvào quá trình đồng thuận của Permissioned Blockchain Nhằm cải thiện các van

dé về quyền riêng tư trong học liên kết để tăng cường đào tao 20], nhóm tác giả

đã triển khai một cơ chế bảo mật nâng cao sử dụng Differential privacy và

Ho-momorphic encryption Trong công trình này nhóm tác giả cũng sử dụng (IPFS)

làm nơi lưu trữ dữ liệu để xây dựng một hệ thống hoàn toàn phi tập trung Họcũng đề xuất một cơ chế khuyến khích chủ sở hữu dữ liệu tham gia đào tạo môhình bằng các sử dụng hợp đồng thông minh Ethereum

Nhóm tác giả [11] trong công trình nghiên cứu của minh đã phát triển một

khung FL dựa trên blockchain kết hợp cả public (Ethereum Ropsten) va private

(Hyperledger Fabric) 9} sử dung các hợp đồng thông minh để tự động phát hiện

và trừng phạt những kẻ tấn công thông qua hình phạt tiền Trong khuôn khổ

công trình nghiên cứu bat kỳ chức năng tổng hợp nào và bat kỳ thuật toán phát

hiện kẻ tấn công nào déu có thể được gắn vào mô hình dé xuất Nhóm tác giả

cũng đã tiến hành các thử nghiệm để chứng minh rằng khung học liên kết dựatrên hybrid blockchain đảm bảo giao tiếp của FL và cung cấp các kết quả thựcnghiệm để chứng minh rằng nó có thể trừng phạt thành công những kẻ tắn côngbằng cách tận dụng thuật toán phát hiện kẻ tấn công mới được để xuất Trong

công trình nghiên cứu [Z5], Qassim Nasir và cộng sự đã chỉ ra những thách thức

công nghệ blockchain gặp phải như bat kỳ công nghệ đang phát triển nào khác,blockchain đang đối mặt với một số thách thức kỹ thuật như khả năng mở rộng,

quyên riêng tư và hiệu suất Nhóm tác giả cũng chỉ ra rằng mặc dù có nhiều nền

tảng blockchain, nhưng không có phương pháp luận rõ ràng để đánh giá và đánh

giá các nên tảng blockchain khác nhau ở các khía cạnh khác nhau, chẳng hạn như

hiệu suất, bảo mật và khả năng mở rộng Trong bài báo tác giả cũng giới thiệu

công cụ đánh giá hiệu năng Blockchain Hyperledger caliper, và thực hiện đánh

giá nó Tuy nhiên các đánh giá được nhóm tác giả thực hiện đều là những đánhgiá cơ bản chưa áp dụng vào một ngữ cảnh cụ thể

Trang 23

Chương 2 CÁC CÔNG TRINH LIÊN QUAN

Input local Pie

parameters

STEP 18: Send

‘SHA256 Hash of loea mode!

cơ chế khuyến khích cũng cần xây dựng một hệ thống có bảo mật hơn để người

dùng an tâm tham gia đào tạo mô hình Nhóm tác giả trên cũng đã nêu lên những

ý tưởng về xây dựng cơ chế khuyến khích Nghiên cứu đã nêu một các tổng quan

về cơ chế khuyến khích trong học liên kết, tuy nhiên đây chỉ là một khảo sát và

đánh giá dù mang lại một cái nhìn tổng quan và nhiều cách để giải quyết, nhưng

chưa được triển khai để đáp ứng đầy đủ các yêu cầu của các hệ thống hiện tại

Tuy nhiên trong thực tế còn rất nhiều vần đề trong triển khai hệ thống họcliên kết, trong đó việc đánh giá, kiểm tra các hành vi liên quan đến việc sử dụng

mô hình độc hại vào quá trình huấn luyện mô hình với mục đích xấu và cơ ché để

khuyến khích các chủ sở hữu dữ liệu tham gia vào đào tạo mô hình thông minh.

Việc chỉ gửi mô hình cục bộ đã được huấn luyện bằng dữ liệu cá nhân lên hệthống thay vì dữ liệu thô chưa hoàn toàn giải quyết được các vấn đề bảo mật vàquyền riêng tư Nhiều nghiên cứu trước đây đã chỉ ra rằng thông qua các mô hình

nhận được từ hệ thống, kẻ tấn công có thể thực hiện cuộc tan công suy ngược dữ

Trang 24

Chương 2 CÁC CÔNG TRINH LIÊN QUAN

Local data

Clients

a> Local model

©@ Data quality @ Uploadrequied ) Calculate @) Obtain

/quantity information payoff revenue

HINH 2.4: Cơ chế khuyến khích cho việc học tập liên kết được thúc

đẩy bởi sự đóng góp của khách hàng

liệu từ đó day lên những lo ngại vẻ tính riêng tư của các chủ sở hữu dữ liệu Đểngăn chặn và phục vu cho quá trình điều tra truy vét liên quan đến cuộc tan côngtrên, các hành vi tổng hợp mô hình và sử dụng chúng được hệ thống ghi lại vàoBlockchain, đảm bảo khả năng giám sát hoạt động của hệ thống Bên cạnh lo ngạivan dé liên quan đến quyển riêng tư, việc các nguồn lợi từ việc huấn luyện các

mô hình không được phân chia hợp lý cho các bên tham gia cũng khiến chủ sở

hữu dw liệu do dự khi được mời tham gia đào tạo các mô hình thông minh Vì

vậy, hệ thống cung cấp một cơ chế khuyến khích dựa trên các bằng chứng lưutrữ trong Blockchain đảm bảo tính minh bạch trong việc ánh xa và phân phối lợi

nhuận hợp lý cho người tham gia đóng góp vào quá trình đào tạo mô hình.

Trang 25

Chương 3

CƠ SỞ LÝ THUYET

Tóm tat chương

Trong chương này chúng tôi sẽ cung cấp ngắn gọn về các khái niệm cơ bản

của các công nghệ được xử dụng xây dựng bộ khung trong khóa luận này Các

khái niệm được trình bài sẽ bao gồm các nguyên tắc cơ bản của việc học liên kết,khuôn khổ blockchain, công nghệ điện toán biên, IPFS, quyền riêng tư khác biệt,nền tảng hyperledger fabric

ra lời giải đúng nhất Có thể dựa vào phương pháp tiếp cận để chỉ học máy vàobến nhóm cơ bản là học có giám sát (Supervised learning), học không giám sát

(Unsupervised learning), học bán giám sát (Semi — Supervised learning) và học tăng cường (Reifnorcement learning).

Hoc có giám sát : Là thuật toán mà quá trình học của nó sử dụng du liệu da

được gán nhãn sẵn Tùy thuộc vào đầu ra của mô hình có thể chia nhỏ phương

pháp này thành hai loại khác nhau là phân lớp (Classification) và hồi quy

(Re-gression).

Trang 26

Chương 3 CƠSỞ LY THUYET

s Phân lớp: Được sử dụng khi dau ra của mô hình là một tấp các kết quả

nằm sâu bên trong bộ dữ liệu đấy

Học bán giám sát: Là thuật toán được kết hợp giữa học có giám sát và học

không giám sát.

Học tăng cường: Là thuật toán giúp cho một hệ thống tự động xác định hành

vi dựa trên ngữ cảnh để đạt được mục đích cao nhất Học tăng cường thườngđược ứng dụng trong lý thuyết trò chơi (Game Theory), trong đó, học tăng cườngcần xác định nước đi tiếp theo để đạt được điểm số cao nhất qua mỗi lần chơi

3.2 Lý thuyết học sâu (Deep learning)

3.2.1 Các khái niệm

Học sâu (Deep Learning - DL) là một nhánh của máy học (Machine Learning

- ML) Học sâu được giới thiệu bởi Masahiko Fukushima vào năm 1980 Sự ra đời

của DL nhằm giải quyết những van dé của các thuật toán ML hiện tại, có thể kể

đến như việc quá khớp dữ liệu hay còn gọi là overfit khi dir liệu không đủ lớn.

Từ thời điểm ra đời đến nay, DL đã có những bước phát triển vượt bậc, động lựccho sự phát triển này đó là sự cải tiến về công nghệ của các thiết bị phần cứng,khiến việc huấn luyện cũng như triển khai các mô hình DL trở nên dé dàng hơn.Bên cạnh đó, nguyên nhân cốt lõi là sự bùng nổ dữ liệu do sự phát triển củainternet và các thiết bị đầu cuối khiến cho các mô hình DL có nguồn tài nguyênđổi dao để tạo ra những mô hình học may có độ chính xác cao Trong khoá luận

nay, chúng tôi sử dung phương pháp Horizontal federated learning khi các bên

chia sẻ những mau đữ liệu với cùng thuộc tính.

Trang 27

Chương 3 CƠSỞLÝ THUYET

3.2.2 Gradient descent

Trong học máy, người ta luôn mong muốn rằng mô hình của minh có khảnăng dự đoán kết quả chính xác nhất có thể Để đánh giá được một mô hình cókhả năng dự đoán tốt hay không, người ta sẽ xây dựng một hàm đánh giá có tên

là hàm lỗi (loss function) Hàm này tính toán sai số của kết quả dự đoán so với kết

quả thực tế trên toàn bộ những điểm đữ liệu test Việc huấn luyện mô hình học

máy về cơ bản là tối ưu hàm lỗi, sao cho hàm này cho ra giá trị nhỏ nhất có thể

Để làm được điều này, với mỗi mẫu đữ liệu, cần có một phương pháp tính toán

để điều chỉnh những trọng số trong mô hình làm sao cho hàm mat mát đạt giá trị

nhỏ nhất Trong hình B.1lià một mô phỏng giá trị của một hàm lỗi dưới dạng một

dé thị Với nhưng điểm cao nhất theo trục tung là những vị tri mà giá trị hàm lỗi

là lớn nhất

Global Minima Saddle Point

HÌNH 3.1: Đồ thị mô tả giá trị của một hàm lỗi

Trang 28

Chương 3 CƠSỞ LY THUYET

Gradient descent là một trong những thuật toán thông dụng trong học máy

sử dụng cho việc tối ưu hóa hàm lỗi, hay nói cách khác là tìm vị trí thấp nhất

Để làm được điều này, chúng ta có thể thả một viên bi vào các

điểm bắt kỳ trên mặt phẳng của đồ thị, thả cho viên bi lăn tự đo và ghi lại các

điểm mà viên bi đó dừng lại Cuối cùng từ nhữn vị trí đó, chọn ra một điểm mà

có độ cao thấp nhất so với các điểm còn lại Điểm mà chúng ta tim được néu may

mắn thì có thể là điểm thấp nhất của toàn bộ dé thị, néu không thì nó cũng gần

như là điểm có độ cao thấp nhất nếu chúng ta thực hiện số phép thử đủ lớn Để

áp dụng phương pháp này vào việc tìm tọa độ điểm làm cho giá trị hàm loss nhỏ nhất, chúng ta cũng sẽ chọn ngẫu nhiên nhiều điểm với tọa độ tùy ý, rồi từ bộ dữ

liệu, xác định các thông số liên quan như bước nhảy (tương tự như việc lăn viênbi), và tiến hành điểu chỉnh các tham số để "viên bi" có thé lăn xuống điểm thấpnhất trong vùng xung quanh điểm được chọn ban đầu

3.2.3 Logistic regression

Thuật toán logistic regression giải quyết bài toán có đầu ra là giá trị nhị phân,

hay nói các khác nó ứng dụng cho bài toán phân lớp Ý tưởng của thuật toán là

cé gắng tìm ra một đường thằng hoặc mặt phẳng có thể phân tách một cách tổng

quát nhất các lớp có trong bộ dit liệu, khi có một mẫu dữ liệu cần dự đoán, mô

hình sẽ xác định vị trí của mẫu dit liệu đó so với đường/mặt phẳng phan cách và

xếp chúng vào lớp tương ứng Khi thay tọa độ của một điểm dữ liệu i vào phương

trình của đường /mặt phân cách chúng ta thu được kết quả sau:

Ci = 00 + 01 * Xj

Giá trị này là tuyến tính, và cho ta biết vị trí của điểm dữ liệu so với mặt phâncách Tuy nhiên để áp dụng vào bài toán phân lớp, chúng ta cần chuyển dạng kếtquả này về dang xác suất có giá trị trong khoảng (0, 1) Day là lý do ham sigmoid

ra đời.

Đặc điểm của hàm sigmoid là có đạo hàm tai moi điểm, nhận giá trị trong

khoảng (0, 1).Hình 8.2] miêu tả cụ thể miễn giá tri và sự biến thiên của hàm

sig-moid.

Trang 29

Chương 3 CƠSỞ LY THUYET

1.0

HINH 3.2: Đồ thị biến thiên của hàm sigmoid

3.2.4 Mạng nơron nhân tạo

Đối với những bài toán đơn giản, các thuật toán machine learning thôngthường tỏ ra rất hiệu quả, tuy nhiên đối với những bài toán với dữ liệu nhiềuchiều thì các mô hình này không đáp ứng được các yêu cầu cảu người dùng

Mạng nơron nhân tạo (Artificial neural networks - ANNs) ra đời với ý tưởng là

mô phỏng lại cách hoạt động của nơron trong bộ não con người dưới dạng ngôn

ngữ máy Mong muốn máy có thể học được kiến thức từ dir liệu giống như con

người.

Để làm được điều này, người ta đã xây dựng ra một mô hình, với các node đại

điện cho các nơron não người, mỗi node này bản chất là những hàm tính toán với

các trọng số có thể thay đổi được, dir liệu sau khi đi qua những node này sẽ cho

ra kết quả và truyền đến các node tiếp theo được kết nối với nó Những thôngtin này sẽ được lan truyền qua mạng và đến đầu ra cuối cùng là một con số màchúng ta có thể dựa vào đó để đưa ra kết luận về kết quả dự đoán đối với mộtmau đữ liệu nào đó

Trang 30

Chương 3 CƠSỞ LY THUYET

“IN OG, dy OC Su/\ HH layer \

hidden layer 1 hidden layer 2

\

input layer

HÌNH 3.3: Cấu tạo cơ bản của một mô hình nơron nhân tao

Một mô hình nơron nhân tạo có cấu tạo cơ bản gồm 3 phan hay còn gọi là 3

loại layer chính như trong Hình B.3] Layer đầu tiên được gọi là input layer, các

layer ở giữa gọi là hiden layer, và layer cuối cùng là output layer Mỗi node tronghidden layer và output layer liên kết với các node ở layer trước đó với các hệ số wriêng Mỗi node như vậy có hệ số bias riêng, tại đây sẽ diễn ra hai hành động đó

là tính tổng linear và áp dụng activation function

3.3 Học liên kết (Federated learning)

Với các phương pháp xây dựng mô hình học máy truyền thống, chất lượngcủa các mô hình được cải thiện rất nhiều bởi sự gia tăng mạnh mẽ của lượng dữliệu sinh ra hằng ngày Nhưng đi đôi với sự phát triển mạnh mẽ đó là sự quá tảicủa các máy chủ trung tâm Bên cạnh đó, quyên riêng tư của người dùng trongquá trình huấn luyện mô hình học máy không được đảm bảo là một nguyên nhân

mà hiện tai và tương lai cần có hướng giải quyết néu muốn ngành công nghiệp

trí tuệ nhân tạo phát triển bền vững Bởi vậy, Federated learning (FL) hay họcliên kết ra đời nhằm giải quyết những van dé trên và hứa hẹn là một hướng tiếp

cận tiềm năng trong tương lai Được giới thiệu lần đầu tiên trong một blog bởi

Google, với ý tưởng là không có bat cứ một bên trung gian nào nắm dữ dữ liệu

Trang 31

Chương 3 CƠSỞ LY THUYET

mô hình học máy Bên cạnh đó, công việc tính toán được phân tán ra các máy chủ

khác nhau giúp phương pháp tiếp cận giảm thiểu áp lựu tính toán và lưu trữ lên

một máy chủ tập trung.

Federated learning được chia làm hai loại chính:

® Vertical federated learning: Là phương pháp học mà các máy sẽ chia sẻ

thông tin của cùng một đối tượng nhưng khác các đặc trưng Ví dụ: thông tin của

người dùng ở ngân hàng và trung tâm thương mại trong một vùng nào đó Phía

ngân hàng sẽ có những đặc trưng khác với trung tâm thương mại khi có cùng

một khác hàng vì vậy ngân hàng và trung tâm thương mại có thể chia sẽ với nhau

và bổ sung cho nhau ở khía cạnh các đặc trưng

® Horizontal federated learning: Là phương pháp học mà các máy sé chia

sẻ vể lượng thông tin cho nhau Ví dụ: thông tin của người dùng ở hai trung tâm

thương mại khác vùng nhau Họ sẽ chia sẻ thông tin khách hàng với nhau.

3.4 Quyên riêng tư khác biệt (Differential privacy)

Different privacy được Dwork giời thiệu và năm 2006 đã chỉ ra rằngquyền riêng tư có thể được đảm bảo với việc phát hành bản ghi cơ sở dữ liệu màkhông làm mắt độ chính xác của truy vấn đáng kể, ngay cả khi đối thủ sở hữu

tất cả các bộ đữ liệu nhạy cảm còn lại Kể từ khi được giới thiệu, phương pháp

này ngày càng tỏ ra hiệu quả khi nó được sử dụng trong việc bảo vệ quyền riêng

tư người dùng trong phương thức nhập liệu và tìm kiếm của người dùng trên

Google Chrome (15), hay việc Samsung sử dung nó dé bảo vệ thông tin cá nhân

và dữ liệu chỉ tiết của người dùng [25].

Dé dễ hiểu về different privacy, chúng ta lấy ví dụ vé dữ liệu về bệnh hiểm

nghèo Đa phần mọi người bị bệnh đều muốn giữ bảo mật thông tin của mình.

Một bệnh viện hứa rằng sẽ bảo mật và không lưu danh tính của bạn, họ chỉ muốnlưu thông tin địa lý của bạn, cách ăn uống, để phục vụ cho quá trình nghiên

cứu Bạn thấy rằng tên tuổi, chứng minh nhân dân của bạn không được thu thập

nên yên tâm rằng không ai biết được tình trạng sức khỏe của bạn trừ bạn Tuynhiên có nhiều cách để tìm ra entry của bạn trong dataset đó Đơn giản nhất cóthể kiểm tra có bao nhiêu người sống ở quận bạn, làm công việc của bạn, sở thíchnhư bạn? Họ chỉ cần query đúng những thông tin đó sẽ lấy ngay được entry họ

Trang 32

Chương 3 CƠSỞ LY THUYET

cần biết đó được gọi là linkage attack Giả sử những thông tin trên không đượctrả về, có thể truy ra những ai không ở chỗ bạn, không làm công việc của bạn,

và sau đó lấy số người bị bệnh trừ đi là ra Đây được gọi làm different attack.Vay làm cách nào để tránh khỏi cuộc tan công này, câu trả lời chính là Different

privacy.

Giả sử bây giờ chúng ta cần tìm xác suất có bao nhiêu người từng bị bệnh

nặng Giả sử rằng bảo hiểm biết được những thông tin này sẽ khiến những người

bị lộ thông tin bị tác động tiêu cực Do đó đương nhiên họ sẽ không dai gì mà

tham tham gia cuộc khảo sát của bạn Nhưng nếu câu trả lời của họ là hoàn toànngẫu nhiên thì kết quả thu được sau cuộc khảo sát sẽ hoàn toàn vô giá trị

Bây giờ chúng ta thực hiện cuộc khảo sát như sau: Người tham gia sẽ tung

đồng xu, néu đồng xu là ngửa, ho sẽ trả lời thật lòng, néu là úp họ sẽ tung đồng

xu một lần nữa, nếu ngửa họ sẽ trả lời là có và ngược lại sẽ trả lời là không Vớimột câu trả lời có thì xác suất họ bị bệnh thật chỉ là 34 Và họ hoàn toàn có thể chối

bỏ bắt cứ kết luận nào vì lý đo đen đủi.

Giờ với kết quả họ cung cấp thì tính toán ra sao? Thấy rằng nếu ho bị bệnh,

xác suất họ trả lời có là 3/4, nếu không bị, xác suất trả lời có là 1⁄4 Từ đó, chúng ta

có được công thức cho xác suất kết quả có là Pt so với xác suất thật một người bị

pháp sử dụng phân phối chuẩn Gaussian [8] và phân phối Laplace (41 Dựa trên

thành phần cốt lõi là những thuật toán tạo ra sự ngẫu nhiên, Different privacyđược định nghĩa như sau: Một thuật toán ngẫu nhiên M: D > R với miền D và

phạm vi R thỏa mãn (£, 6) - different privacy 03], nếu có bat kỳ hai đầu vào dir

liệu d, d’ € D và đối với bat kỳ tập con đầu ra nào S € R ta có công thức sau:

Trang 33

Chương 3 CƠSỞ LY THUYET

Sự đánh đổi giữa độ chính xác của mô hình mà mức độ rò rỉ quyển riêng

tư của cơ chế M được điều chỉnh bằng giá trị của tham số £ Giá trị này càng nhỏthì biểu hiện cho cơ chế có khả năng bảo vệ quyền riêng tư tốt hơn, nhưng đi đôivới nó chúng ta cần đánh đổi về độ chính xác của mô hình sau khi đào tạo

3.5 Blockchain

3.5.1 Tổng quan

Blockchain được giới thiệu lần đầu tiên vào năm 2008 trong kiến trúc của

Bitcoin, một loại tiền kỹ thuật số, được đề xuất bởi Nakamoto [22] Blockchain cóthể được hình dung đơn giản như một dạng cầu trúc dữ liệu phân cấp, dữ liệuđược lưu vào từng khối có kích thước được chỉ định từ trước Các khối liên kếtvới nhau thông qua mã băm của khối trước đó, tạo nên một chuỗi dài dần theothời gian và không thể thay đổi bat cứ thông tin nào trong khối khi nó đã được

gắn vào chuỗi Mỗi nút trong mạng duy trì một bản sao của sổ cái bằng cách áp

dụng các giao dịch đã được xác thực bởi một giao thức đồng thuận Do tính bấtbiến của nó mà chúng ta có thé theo dõi các hành vi của các đối tượng trong mạng

ngang hang, và có thể dùng nó làm bằng chứng cho các cuộc điều tra về hành vi

của người sử dụng.

Blockchain là sự kết hợp của các công nghệ hàng đầu như:

s Mật mã học: Blockchain sử dụng 2 loại mã hóa chính là: Asymmetric-key

algorithms va Hash functions.

- Asymmetric-key algorithms: Bao gồm hai khóa Private key va Public

key Mỗi cá nhân có hai khóa nay, chúng sử dụng dé tạo ra một thamchiếu nhận dạng kỹ thuật số an toàn Danh tính được bảo mật này là

khía cạnh quan trọng nhất của công nghệ Blockchain Trong thế giới

tiền điện tử, danh tinh này được gọi là “digital signature” và được sửdụng để ủy quyền và kiểm soát các giao dịch

Trang 34

Chương 3 CƠSỞ LY THUYET

Previous_block_id Previous block id ——]

Batch_Id: [.] Batch_Id: [.] Batch_Id: [.]

Batchs: Batchs: Batchs:

Transaction 1: Transaction 1: Transaction 1:

Header Header Header

Signer_public_key Signer_public_key Signer_public_key Transaction Transaction Transaction

Transaction 2: Transaction 2:

HÌNH 3.4: Kiến trúc lưu trữ Blockchain

— Hash functions: Có vai trò chính trong việc liên kết các khối (tính batbiến) Một thay đổi thể dẫn đến sự không nhất quán và phá vỡ chuỗi

khối, khiến nó không hợp lệ (Avalanche effect).

s Mạng ngang hàng: Blockchain bao gồm một sổ cái phân tán (distributed

ledger), mỗi node trong mạng đều lưu giữ một bản sao của cuốn sổ cái này

Do đó mọi thông tin được lưu trữ và truyền tải một cách minh bạch, toàn

vẹn, không thể nào thay đổi hay gian lận được Người dùng Blockchain sử

dụng các khóa mật mã để thực hiện các loại tương tác kỹ thuật số khác nhau

qua mạng ngang hàng.

Đặc điểm chính của Blockchain:

¢ Tính bat biến (Immutability): Tính bat biến của dữ liệu Một khi ban đãđồng ý về một giao dịch và ghi lại nó, nó sẽ không bao giờ có thể thay đổi

được.

¢ Tính minh bach (Transparency): Dữ liệu được lưu trong mạng như một

khối, công khai Mọi người tham gia mạng đều có thể theo dõi và thống

kê dữ liệu.

¢ Tinh phi tập trung (Decentralization): Blockchain được thiết kế phân tán va

Trang 35

Chương 3 CƠSỞ LY THUYET

Đồng thuận (Consensus): Thuật toán đồng thuận có thể được định nghĩa là

một cơ chế ma qua đó một mạng blockchain đạt được sự đồng thuận Cácblockchain công cộng (phi tập trung) được xây dựng như là các hệ thống

phân tán.

Hợp đồng thông minh (Smart contract): Hợp đồng thông minh là một chươngtrình máy tính hoặc một giao thức giao dịch nhằm mục đích tự động thực

hiện, kiểm soát hoặc ghi lại các sự kiện và hành động có liên quan về mặt

pháp lý theo các điều khoản của hợp đồng hoặc thỏa thuận Các mục tiêucủa hợp đồng thông minh là giảm nhu cầu về các trung gian đáng tin cậy,trọng tài và chỉ phí thực thi, tổn thất do gian lận, cũng như giảm các ngoại

lệ độc hại và tình cờ.

3.5.2 Thuật toán đồng thuận

Thuật toán đồng thuận [16] có thể coi là gốc rễ của công nghệ chuỗi khối, nhưchúng tôi đã giới thiệu ở trên Thuật toán đồng thuận có thể được định nghĩa

là một cơ chế mà qua đó một mạng blockchain đạt được sự đồng thuận Các

blockchain công cộng (phi tập trung) được xây dựng như là các hệ thống phân

Co-operation: Mỗi cá nhân sẽ làm việc như một nhóm và đặt lợi ích riêng

của họ sang một bên.

Equal Rights: Mọi người tham gia đều có giá trị biểu quyết như nhau Điềunày có nghĩa là lá phiéu của mỗi người đều quan trọng

Participation: Mọi người trong mạng cần tham gia biểu quyết để đạt được

thỏa thuận chung.

Trang 36

Chương 3 CƠSỞ LY THUYET

* Activity: Mọi thành viên trong nhóm đều hoạt động bình đẳng Không có

ai có trách nhiệm hơn trong nhóm.

Cơ chế đồng thuận cũng là lớp bảo vệ vững chắc của blockchain khỏi việc thayđổi dữ liệu cũng như chống lại các giao dịch gian lận của hacker, nhờ có cơ chếđồng thuận, một giao dịch sẽ luôn được xác thực bởi các node trong mạng lướimột cách ngang hàng Nếu các cơ ché đồng thuận luôn ổn định, vững chắc và antoàn, sẽ không có một bên nào có thể khai thác hay tan công vào blockchain Càng

có nhiều node/validator, blockchain đó càng trở nên bảo mật và phi tập trung

Một vài thuật toán đồng thuận:

¢ Proof-of-Work

® Proof-of-Stake

Delegated Proof-of-Stake

Leased Proof-Of-Stake

Proof of Elapsed Time

¢ Practical Byzantine Fault Tolerance

Trang 37

Chương 3 COSO LÝ THUYET

Consensus

Algorithms

HINH 3.5: Các thuật toán đồng thuận của blockchain [5]

3.5.3 Phân loại Blockchain

Tùy vào từng cách đánh giá có thể chia Blockchain thành nhữg loại khác nhau

[2], dựa vào các sử dụng có thể chia Blockchain thành 4 loại chính:

Trang 38

Chương 3 CƠSỞ LY THUYET

Private

Controlled by one authority

Hybrid

Controlled by one authority with some

— Public blockchian cho phép tat cả các nút có quyền như nhau để truy cập

vào blockchain, tạo các khối dữ liệu mới và xác thực các khối dữ liệu

Private Blockchain

— Còn được gọi là managed blockchain, là permissioned blockchain được

quản lý bởi một tổ chức đơn lẻ.

— Trong một private blockchain, tổ trức trung tâm (Central authority) xác định

ai có thể là một node Tổ trức trung tâm cũng không nhất thiết phải cấp cho

mỗi nút quyền như nhau để thực hiện các chức năng

— Các blockchain riêng tư chỉ được phân cấp một phan vì quyên truy cập công

khai vào các blockchain này bị hạn chế

Trang 39

Chương 3 CƠSỞ LY THUYET

bị lừa đảo và các tác nhân xấu hơn Để giải quyết những hạn chế nay, consortium

và hybrid blockchain đã được phát triển

BẢNG 3.1: So sánh Public và Private Blockchain

Public Private

Đọc, ghi di | Khôn giới hạn Phân quyền

liệu

Danh tính Ấn danh Xác minh

Quyền sỡ hữu | Không ai Tổ chức

Security Economic Incentive, PoW, | Legal Contracts, PoA,

PoS, PoB,

Tốc độ Chậm hơn Nhanh hơn

Chỉ phí giao | Đắthơn Rẻ hơn

dịch

Examples Ethereum, Bitcoin, Dash Hyperledger Fabric, R3,

EWF

Consortium Blockchain

— Các consortium blockchain là các permissioned blockchain do một nhóm tổ

chức quản lý, thay vì một thực thể như trong trường hợp của blockchain

riêng tư.

— Do đó các blockchain consortium blockchain được phân quyền nhiều hơn

so với các public blockchain, dẫn đến mức độ bảo mật cao hơn

Trang 40

Chương 3 CƠSỞ LY THUYET

3.6 Nên tảng Hyperledger Fabric

3.6.1 Tổng quan về Hyperledger Fabric

Hyperledger Fabric [3] là một nền tang công nghệ sổ cái phan tán sioned distributed ledger technology - DLT) được củng cố bởi kiến trúc mô-đun

(Permis-mang lại mức độ bảo mật, khả năng phục hồi, tính linh hoạt và khả năng mở

rộng cao Nó được thiết kế để hỗ trợ các triển khai có thể tích hợp được của cácthành phần khác nhau và đáp ứng sự đòi hỏi phức tạp của nhiều hệ sinh thái

khác nhau.

Không giống như Bitcoin và Ethereum, Hyperledger Fabric không có bat kỳloại tiền điện tử nào, nơi quyền truy cập vào mạng bị hạn chế chỉ cho các thành

viên mạng và không phải ai cũng có thể tham gia mạng.

Cơ chế được sử dụng để xác thực các giao dịch và tạo khối trong HyperledgerFabric là Raft thuật toán đồng thuận kiểu đặt hàng (known as the ordering

service), các giao giao dịch sẽ được xác thực theo thứ tự ưu tiên và đánh giá của

order node Các giao dich được kiểm soát trong Hyperledger Fabric bằng cách sửdụng chaincode (hợp đồng thông minh), là một mã chương trình cung cấp khảnăng viết và thiết kế các ứng dụng để tương tác với mạng Quyền riêng tư củacác giao dịch giữa những người tham gia trong mạng có thể đạt được bằng cách

sử dụng một cơ ché cách ly được gọi là kênh Kênh đảm bảo rằng giao dịch và dữliệu chỉ có sẵn cho các nút là thành viên trong kênh

3.6.2 Kiến trúc và luồng hoạt động

Kiến trúc

Hyperledger Fabric có modularity (tính mô-dun) cao nên nó cho phép các

Doanh nghiệp dé dang plug and play để xây dựng một ứng dung Private Blockchain phù hợp các yêu cầu nghiệp vụ của mình Một mạng Hyperledger fabric cơ bản

sẽ bao gồm các thành phần BỊ:

® Peer Node: là thành phan cơ bản trong mạng, nơi lưu trữ host và smart

Ngày đăng: 03/11/2024, 18:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN