Trong khoá luận này, chúng tôi sẽ trình một hệ thống phát hiện bệnh tim mach ở người bằng các mô hình máy học nhằm hỗ trợ bệnh viện trong việc chuẩn đoán bệnh cũng như tạo ra các thiết b
Trang 1ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
HOÀNG TUÁN ANH NGÂN VĂN LUYỆN
KHÓA LUẬN TÓT NGHIỆP
CHAN DOAN BỆNH TIM MẠCH SỬ DỤNG
BLOCKCHAIN VÀ HỌC LIÊN KÉT
Incentive System For Building A Diagnostic Model Of Cardiovascular
Disease Using Blockchain And Federated Learning
CU NHAN NGANH CONG NGHE THONG TIN
Trang 2ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
HOÀNG TUẦN ANH - 18520446
NGÂN VĂN LUYỆN - 18521074
KHÓA LUẬN TÓT NGHIỆP
HE THONG KHUYEN KHÍCH XÂY DUNG MÔ HÌNH
CHAN DOAN BỆNH TIM MẠCH SỬ DỤNG
Disease Using Blockchain And Federated Learning
CU NHAN NGANH CONG NGHE THONG TIN
GIANG VIEN HUONG DAN
ThS PHAN THE DUY
Trang 3THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
"— của Hiệu trưởng Trường Đại học Công nghệ Thông tin Dei ceeecceeeeeeeaeeeceeaeeeeeaueeeeeaeeseeeneeeeeaeeeeenaeees - Chủ tịch
TSSETOD - Thư ký
Boece cece - Ủy viên
— e eee eee eet eet eesti neti eet eet eetas - Uy vién
Trang 4LOI CAM ON
Đầu tiên, chúng em xin cảm ơn khoa Khoa Học va Kỹ Thuật Thông Tin — Trường
Đại học Công Nghệ Thông Tin — Dai học Quốc gia Thành phó Hồ Chí Minh đã tạo cơ hội và điều kiện để nhóm chúng em thực hiện đề tài tốt nghiệp này Bên cạnh đó chúng
em cũng xin cảm ơn Phòng Thí Nghiệm An Toàn Thông Tin — UIT Inseclab đã hỗ trợ
và giúp đỡ nhóm chúng em trong suốt quá trình nghiên cứu và thực hiện khóa luận nay.
Chúng em cũng xin chân thành cảm ơn quý thầy cô trong trường đã tận tình giảng
day, trang bi cho chúng em những kiến thức cần thiết trong suốt quá trình học tập ở
trường Chúng em xin chân thành cảm ơn đến bố mẹ, gia đình, bạn bè đã ủng hộ, giúp
đỡ, động viên, khuyến khích chúng em trong suốt quá trình học tập nhất là khi những lúc chúng em gặp khó khăn cũng như là trong suốt quá trình thực hiện đề tài vừa qua.
Chúng em xin chân thành cảm thầy Phan Thế Duy đã tận tình hướng dẫn nhóm trong suốt thời gian thực hiện khóa luận, thầy đã chia sẻ các kinh nghiệm nghiên cứu, đưa ra những định hướng giúp nhóm hoàn thành khóa luận một cách tốt nhất.
Mặc dù nhóm chúng em đã rất cô gắng thực hiện khóa luận tuy nhiên không thể tránh khỏi những thiếu sót và hạn chế trong suót thời gian thực hiện vừa qua Do đó chúng em rất mong sự cảm thông, góp ý, chỉ bảo đến từ quý thầy cô và các bạn.
Nhóm chúng em xin gửi lời cảm ơn sâu sắc đến thầy cô và các bạn!
TP.Hồ Chí Minh, ngày tháng năm 2022
Nhóm tác giả
Trang 5Mục lục
[TÓM TẮT KHOÁ LUẬN
1Ð MỞ ĐẦU
1.1 Giới thiệu bài toán| c.cccccs.
1.2 Mục tiêu khóa
luận| -1.3 Cấu trúc Khóa luận tốtnghiệp| -
2_ CÁC CÔNG TRÌNH LIÊN QUAN) E1 Các nghiên cứu về phương pháp học cộng tác|
[2.3 Các nghiên cứu ứng dụng blockchain trong học cộng tác|
3_ CƠ SỞ LÝ THUYET 3.1 Họcmáy| eee 3 Lý thuyết học sâu (Deep learning)|
3.2.1 Các khá
niệm| -3.3 Học liên kết (Federated
learning)| -B-4 Quyền riêng tư khác biệt (Differential
privacy)| -¬————— 3.5.1 Tổng quan|L ccScS E-5.2 Thuật toán đồng thuận|
3.5.3 Phân loại Blockchain|
Private
Trang 6Blockchaimn| -[Consortium Blockchain] 27
[Hybrid blockchain| 27
B.6 Nền tảng Hyperledger Fabric|_ - 28
3.6.1 Tổng quan vé Hyperledger Fabric| 28
(3.6.2 Kiến trúc và luéng hoạt động| 28
Kiến trúc|_ cc eee 28 [nông hoạt dong) 29
3.7 TPES] xa 30 3.7.1 IPESProtocoll - 31
3.7.2 Cách hoạt động củalPES] 31
l4_ PHƯƠNG PHÁP VÀ MÔ HÌNH ĐỀ XUẤT) 33 [41 Tổng quan về kiến trúc| - 33
82 Federated learning xây dựng mô hình may học| 36
[2.1 Thiết kệ bộ khung thong nhất cho việc thu thập dữ liệu| 36
(4.2.2 Triển khai Different privacy] - 36
4.2.3 Mobile EdgeComputing] - 37
2.4 Mô hình học cộng tác| - 37
(4.2.5 Huấn luyện tại các thiết bị cộng tác| - 39
4.3 Blockchain giám sát hệ thông và triển khai cơ chế khuyến khích| 40
3.1 Đánh giá và lựa chọn Blockchain| 40
[4.3.2 Triển khai hệ thống Blockchain và IPES] 40
4.3.3 Thiết kế và triển khai hệ thống 41 5_ THỰC NGHIỆM VÀ ĐÁNH GIÁ| 45 5.1 Môi trường thực nghiệm| 45
Môi trường thực nghiệm học cộng tác| 45
Môi trường thực nghiệm Blockchain| 46
eee 46 Ớ áp học cộng tá 48 [5.3.1 Ngữ cảnh triểnkhail 48
"— 49
á i i 52
Trang 7B.5.1 Ngữ cảnh triểnkhail 5.52 Kếtquả|
Hiệu năng xử lý của hồng Blockchain 4 nodes|
Hiệu năng xử lý của hệ thống Blockchain 6 nodes
Hiệu năng xử lý của hệ thống Blockchain 8 nodes
6 KẾT LUẬN
7_ HƯỚNG PHAT TRIỂN
Trang 8Danh sách hình vẽ
E1 Kiến trúc mạng và quy trình giao tiếp cho FL-IoT của Dinh C.Nguyen
và cộng, sự z4 HA eee eee 8
liên kết và blokchain [H|Ï : 11
sự đóng gop của khách hàng 50]| 12
.1 Đồ thi mô tả giá trị của một hàm lỗi| 15
.2_ Do thị biến thiên của hàm sigmoid| 1
3.3 Cấu tạo cơ bản của một mô hình nơron nhân tạo| 18
(4 Kiến trúc lưu trữ Blockchain| - 22
E5 Các thuật toán đồng thuận của blockchain BI eee eae 25 [8.6 Phân loại Blockchain| 26
B.7 Kiến trúc Hyperledger fabric| - 29
E8 Luông hoạt động của Hyperledger fabric| 30
3.9 Cách một file du liệu được lưu trữ phân tán trên IPFS| 32
41 MôhinhEedChainl 34
4.2 Mô hình Federated learning| - 38
4.3 Ludng hoạt động của chaincode FedChain| 41
4.4 Luéng hoat dong của chaincode FedChain| 42
B.1 Một mẫu dữ liệu lay ra từ bộ dataset| ¬ ee 47
E2 Biểu đồ sự phân phối nhãn trong tập dữ liệu ECG Heartbeat
Cate-rhrưưtứth,PẼ'.rẰẲẼhr 47
Trang 95.4 Độ chính xác của mô hình trung tâm|
5.5 Giá trị ham loss của mô hình trung tâm|
5.6 Độ chính xác của mô hình trung tâm| 51
5.7 Thời gian xử lý trung bình cho một request được đo trong 100 lần| 53
5.8 So sánh mức do tiêu thụ tài nguyên hệ thống với số lượng node
Trang 10Danh sách bảng
5.1 Mức độ tiêu thụ tài nguyên của hệ thống 4nodes| 5.2_ Thông lượng xử lý của hệ thống 4nodes
53 Mức độ tiêu thụ tài nguyên của hệ thống 6 nodes|
5.4 Thông lượng xử lý của hệ thống 6 nodes
b.5 Mức độ tiêu thụ tài nguyên của hệ thống 6 nodes| b.6 Thông lượng xử lý của hệ thống 8 nodes|
Trang 11Danh mục từ viết tắt
ABE
AI DP
FedAvg
FL IoT IoV
IPFS MEC
ML
PBFT PoS
PoW P2P
Attribute-Based Encryption Artificial Intelligence
Differential Privacy Federated Averaging Federated Learning Internet of Things Internet of Vehicles InterPlanetary File System Mobile Edge Computing
Machine Learning Practical Byzantine Fault Tolerance
Proof of Work Proof of Stake
Peer to Peer
Trang 12Học cộng tác
Mã hóa đồng cầu
Học máy Trung tâm dwt liệu
Tan công suy luận
Máy chủ
Trọng SỐ Văn bản gốc
Điện toán biên
Tính bắt biến
Tính minh bạch Phi tập trung
Danh mục từ tạm dịch
Federated learning Homomorphic encryption Machine learning
Data center
Inference attack Server
Weight
Plaintext Ciphertext Scheme Edge server Neural network Activation function Loss function
Aggregator
Differential Privacy Smart Contract
Consensus Mobile edge computing Immutability
Transparency
Decentralization
Trang 13TÓM TẮT KHOÁ LUẬN
Hiện nay, Với sự phát triển vượt bậc của khoa học công nghệ nói chung vàtrí tuệ nhân tạo nói riêng đã góp phần giúp cuộc sống con người dễ dàng hơn
và tạo ra nhiều của cải vật chất Trí tuệ nhân tạo ngày nay được ví như cánh của
mở ra một thời đại mới của nền văn minh nhân loại, giúp con người có thể làmđược những điều mà trước đến nay tưởng chừng như chỉ xuất hiện trong các bộ
phim khoa học viễn tưởng Chìa khoá quan trọng nhất để mở ra cánh cửa này là
di liệu được sản sinh ra trong cộng đồng Cách tiếp cận phổ biến hiện nay là thu
thập tập trung đữ liệu, và sử dụng chúng vào quá trình đạo tạo nên các mô hình
máy học Thật không may khi những năm trở lại đây, việc thu thập và sử dụng
di liệu cá nhân của người dùng vào các mục đích xấu đang dan trở thành hòn đá
tảng làm chậm sự phát triển của ngành công nghiệp trí tuệ nhân tạo.
Trong y tế, việc tạo ra các thiết bị giúp tự động chuẩn đoán bệnh của ngườidùng dần trở thành xu thé trong tương lai Những thiết bị này giúp người dùng
tự theo đõi sức khoẻ của mình, từ đó giảm áp lực cho các sơ sở y tế von đã thường
xuyên quá tải Tuy nhiên, dữ liệu về sức khoẻ của một cá nhân nào đó thường sẽrất nhạy cảm và ít được người dùng chia sẻ Ngoài ra lợi nhuận được tạo ra từ các
mô hình máy hoc da phần déu nằm trong tay người sở hữu mô hình đó Đó cũngtrở thành một trở ngại trong việc khuyến khích người dùng chia sẻ dữ liệu của
họ.
Trong khoá luận này, chúng tôi sẽ trình một hệ thống phát hiện bệnh tim mach
ở người bằng các mô hình máy học nhằm hỗ trợ bệnh viện trong việc chuẩn đoán
bệnh cũng như tạo ra các thiết bị giúp người bệnh tự động kiểm tra sức khoẻ
của mình Phương pháp được dé xuất giúp đảm bảo quyền riêng tư của người
dùng trong quá trình huấn luyện mô hình, đồng thời cung cấp cơ chế trả thưởng
cho người đóng góp dữ liệu vào việc xây dựng mô hình máy học một cách minh
banh Dé dam bảo được quyền riêng tư dir liệu, phương pháp xây dựng mô hình
máy học được sử dụng ở đây là Federated learning (tạm dịch là học cộng tác)
được Google giới thiệu vào năm 2016 Để ghỉ lại quá trình đóng góp của người
dùng một cách chính xác và minh bạch, chúng tôi sử dụng công nghệ Blockchain
(tạm dịch là chuỗi khối) Ngoài việc đề xuất ra ý tưởng kết hợp hai công nghệ nàytrong huấn luyện mô hình phát hiện bệnh tim ở người, chúng tôi còn tiến hành đi
Trang 14sâu vào phân tích và khắc phục các vấn dé liên quan khi triển khai hệ thống vàothực tế Chúng tôi cũng giải quyết ở đây là bảo vệ hệ thống khỏi cuộc tấn cônglàm bẩn dữ liệu (Poison Attack) và củng cé tính an toàn trong việc truyền thôngdit liệu giữa người dùng và hệ thống Ngoài ra chúng tôi cũng áp dung các côngnghệ như điện toán biên MEC, lưu trữ sử dụng IPFS giúp cho hệ thống trở nênmềm dẻo và linh hoạt hơn giúp giảm áp lực lên máy chủ trung tâm,giảm chỉ phítruyền thông dir liệu va đảm bảo hệ thống hoàn toàn phi tập trung.
Trang 15Chương 1
MỞ ĐẦU
Tóm tat chương
Trong chương này, nhóm chúng tôi xin trình bày tóm tắt về bài toán khuyến
khích người sở hữu bộ dữ liệu tham gia đào tạo mô hình học máy sử dụng
blockchain và học liên kết, các nghiên cứu liên quan, các ứng dụng trong thực
tế và các thách thức mà bài toán đang gặp phải Đồng thời đưa ra mục tiêu và
phạm vi nghiên cứu cũng như câu trúc của khóa luận tốt nghiệp.
11 Giới thiệu bài toán
Hiện nay, vần đề chăm sóc sức khoẻ cho người dùng dần được quan tâm hơn.Cùng với đó là sự phát triển của các thiết bị hỗ trợ con người trong việc giámsát sức khoẻ của họ Sự ra đời của các thiết bị này là một giải pháp tốt trong việcgiảm tải lên hệ thống y tế vốn đã thường xuyên quá tải do số lượng bệnh nhânquá lớn Hơn nữa nó còn giúp con người tiết kiệm thời gian và chi phí khi không
phải trực tiếp đến cơ sở y tế để chuẩn đoán bệnh (27) Theo lý thuyết thì lượng
người dùng càng tăng thì đữ liệu được sinh ra ngày càng nhiều, đó cũng là động
lực giúp cho các thiết bị cải thiện chất lượng của mình theo thời gian Tuy nhiên,
da liệu được sinh ra ở đây liên quan rất lớn đến thông tin sức khoẻ của người
dùng, mà đây lại là những dữ liệu vô cùng nhạy cảm đo đó họ thường không sẵn
sàng chia sẻ chúng cho bat cứ bên liên quan nào không đáng tin cậy, và đó cũng
là lý do khiến nhiều người không tin tưởng và sử dụng các thiết bị chăm sóc sức
khoẻ thông minh ngày nay Những điều trên trở thành một trở ngại cực kỳ lớn
làm chậm lại sự phát triển của các ứng dụng trí tuệ nhân tạo trong chăm sóc sức
Trang 16Chương 1 MO DAU
khoẻ con người.
Qua tìm hiểu và chúng tôi nhận ra rằng, càng về già thì con người thườnghay mắc các chứng bệnh về tim mach (CVD) và chỉ phí để chăm sóc, chữa trị cho
các căn bệnh này hằng năm là cực kỳ lớn Ước tính có khoảng 17,9 triệu người
chết vì CVDs vào năm 2019, chiếm 32% tổng số ca tử vong trên toàn cầu Trong
số những ca tử vong này, 85% là do đau tim và đột quy [26].Ở Mỹ hang năm có
khoảng 877500 chết vì bệnh tim hoặc đột quy mỗi năm — đó là một phần ba tổng
số ca tử vong ở Mỹ, Bệnh tim mạch cũng gây thiệt hại về kinh tế, tiêu tốn của hệthống chăm sóc sức khỏe 216 ty đô la mỗi năm và gây ra 147 tỷ đô la mat năng
suất trong công việc ở quốc gia này (0] Mà nguyên nhân chính ở đây là do sự già
đi, béo phì, lạm dụng chất kích thích và quan trọng nhất vẫn là không phát hiệnbệnh sớm Với những vấn dé trên, những thiết bị với khả năng phân tích nhịp timcủa con người và đưa ra dự đoán về tình trạng sức khoẻ của họ và đưa ra dự đoán
về tình trạng sức khoẻ của người dùng một là một giải pháp cực kỳ hữu ích trong
việc phát hiện sớm và ngăn chặn các bệnh lý về tim Tuy nhiên việc dự đoán liên
quan đến sức khoẻ con người nên các thiết bị này đòi hỏi phải có được sự chínhxác cao và có được sự cấp nhật thường xuyên, do đó việc tận dụng những dữ liệu
vé nhịp tim của người sử dụng thông qua quá trình sử dùng là vô cùng cần thiết
để nâng cấp các mô hình máy học Tuy nhiên dữ liệu này rất nhạy cảm và thường
không dé dàng được chia sẻ cho những bên không tin cậy, hơn nữa việc chia sẻ cần có những động lực vé mặt kinh tế để những bên đóng góp cung cấp những
bộ dữ liệu tốt nhất Hơn nữa việc trả thưởng cho người đóng góp cũng cần được
triển khai một cách chính xác và mình bạch.
12_ Mục tiêu khóa luận
Để giải quyết những vấn đề nêu trên, chúng tôi để xuất xây dựng một hệ
thống với sự kết hợp giữa phương pháp huấn luyện mô hình học máy Federated
learning và công nghệ Blockchain cùng với đó là tích hợp với công nghệ điện toán
biên (MEC) (i để hệ thống được hoàn toàn phi tập trung chúng tôi sử dung IPFS
(4) dé làm nơi lưu trữ Với ý tưởng huấn luyện mô hình không cần phải tập trung
Trang 17Chương 1 MO DAU
luyện các mô hình cục bộ trên chính các chủ sở hữu di liệu và sau đó tổng hợp
nên một mô hình trung tâm Giải pháp này đã khắc phục được phan lớn các longại về quyền riêng tư đữ liệu hiện nay Các chủ sở hữu dữ liệu có nhiệm vụ huấnluyện ra các mô hình máy học cục bộ trên chính hệ thống của họ và gửi mô hình
đó lên hệ thống Do việc tính toán này mắt nhiều tài nguyên của người sở hữu dữ
liệu nên cần đảm bảo việc đóng góp của họ cần được trả thưởng một cách chính
xác Hệ thống Blockchain được chúng tôi sử dụng trong việc ghi lại những hành
vi của các thành viên trong hệ thống Hệ thống sau khi được tạo ra có thể tạo
ra các mô hình với chất lượng tốt mà vẫn đảm bảo được quyền riêng tư dữ liệu
người dung, bên cạnh đó việc trả thưởng một cách chính xác tạo động lực cho các
thành viên tham gia vào quá trình cộng tác.
Tuy nhiên nếu chỉ triển khai hai thành phan nói trên thì hệ thống vẫn chưahoàn đảm bảo được quyền riêng tư dữ liệu cũng như chống lại các cuộc tấn công
từ những người dùng độc hại Nhiều nghiên cứu đã chỉ ra rằng những kẻ tancông sẽ xâm nhập vào hệ thống với tư cách là một người đóng góp cho mô hìnhtrung tâm, chúng sẽ thực hiện lật một số nhãn và mong muốn hệ thống sẽ dự
đoán sai những nhãn đó, hay đơn giản là thay đổi dữ liệu để làm giảm đi khả năng dự đoán của mô hình trung tâm Đây là van dé được quan tâm nhiều nhất
khi nhắc đến Federated learning Bên cạnh đó, từ những đặc điểm của mô hìnhmáy học được gửi lên, kẻ tan công vẫn có khả năng suy ngược lại một vài thông
tin nhạy cảm của người dung Do đó cần có một cơ ché để khi dit liệu lọt vào tay
kẻ tấn công thì vẫn không thể nào sử dụng được
Một van dé khác cần được chú ý đó là nếu máy máy chủ tổng hợp nhận mô
hình trực tiếp từ người huan luyện khi số lương dữ liệu được gửi liên tục với số
lượng tham gia lớn sẽ gây áp lực rất lớn lên máy chủ tổng hợp cùng với đó là chỉphí truyền tải dữ liệu khi khoảng cách giữa máy chủ và người gửi dữ liệu là khác
nhau Công nghệ MEC được giới thiệu để chuyển trung tâm tổng hợp từ đám
mây sang máy chủ MEC, nhằm giảm thiểu chi phí truyền thông trên đám mâyđến mức có thể, trong khi khung tổng hợp kép được dé xuất để đảm bảo chatlượng đào tạo mô hình Ngoài ra với đặc điểm của Blockchain, khi lượng dir liệulớn dần lên theo thời gian, áp lực lưu trữ lên hệ thống là rất lớn Do đó cần thiết
kế một cơ chế giải quyết được van dé nay ma van khắc phục được những nhược
điểm của việc lưu trữ dữ liệu tập trung truyền thống chúng tôi đã áp dung công
Trang 18Chương 1 MO DAU
nghệ lưu trữ IPFS giúp cho hệ thống hoàn toàn phân tán.
Trong đề tài này, chúng tôi sẽ đi vào phân tích từng vấn đề nêu trên và tìm
hiểu những giải pháp liên quan đã được triển khai ở thời điểm hiện tại, từ đó chọn ra phương pháp phù hợp nhất cho hệ thống của mình.
1.3 Câu trúc Khóa luận tot nghiệp
Qua những gì đã giới thiệu về tổng quan của dé tài thực hiện trong khoá luận
tốt nghiệp, tôi xin đưa ra nội dung của Khoá luận tốt nghiệp sẽ được tổ chức như
sau:
1
[I Giới thiệu tổng quan về khóa luận
hương
hương] Các công trình liên quan
hương|3| Cơ sở lý thuyết
hương|4| Phương pháp và mô hình dé xuất.
hương |5} Thực nghiệm và đánh giá.
° On aA A ương li Kết luận và hướng phát triển.
Trang 19Chương 2
CÁC CÔNG TRÌNH LIÊN QUAN
Trong phần này, tôi sẽ giới thiệu về các hướng nghiên cứu đã có, nêu những
van dé còn tồn tại ở các khía cạnh liên quan đến dé tài này
2.1 Các nghiên cứu về phương pháp học cộng tác
Học liên kết là một cơ chế đào tạo AI phân tán thu hút được sự chú ý củanhiều nhà nghiên cứu thuộc các lĩnh vựa khác nhau Với khả năng đào tạo mô
hình máy học phân tán mà không cần chủ sở hữu dữ liệu phải chia sẻ dữ liệu
riêng tư của ho, FL đã tạo điều kiện thuận lợi để giải quyết các van dé về quyềnriêng tư và bảo mật dữ liệu so với cách đào tạo mô hình máy học truyền thống
Một số nghiên cứu trước đây
trong nhiều ngữ cảnh của nền công nghiệp lot Đặc biệt, Dinh C.Nguyen va cộng
sự đã thực hiện một cuộc khảo sát và đánh giá toàn diện về ứng dụng của
FL trong mạng lưới IơT Nhóm tác giả cũng thảo luận về vai trò của FL trong một
| đã nghiên cứu các ứng dụng của FL
loạt các dịch vụ IơT như chia sẻ đữ liệu IoT, giảm tải và lưu trữ dữ liệu, phát hiện
tan công, cảm biến đám đông trên thiết bị di động cũng như quyên riêng tư vàbảo mật IơT Bai báo cũng đã chứng minh tính linh hoạt của FL trong một số lĩnh
vực như chăm sóc sức khỏe, giao thông, máy bay không người lái (UAV), Sau
cùng, bài báo cũng chỉ ra những thách thức và định hướng có thể nghiên cứu và triển khai FL trong lĩnh vực này.
Trang 20Chương 2 CÁC CÔNG TRINH LIÊN QUAN
FL-IoT Architecture Communication in FL-IoT
HINH 2.1: Kiến trúc mang và quy trình giao tiếp cho FL-IoT của Dinh
C.Nguyen và cộng sự
2.2 Các nghiên cứu về phương pháp hoc cộng tác trong
lĩnh vực y tế
Đối với thực trạng dân số già ngày càng tăng lên như hiện này, đi kèm với đó
là những hệ luy từ việc ăn uống không lành mạnh đã dẫn đến những căn bệnhliên quan đến tim mạch Bệnh tim mach (CVD) được công nhận là nguyên nhân
hằng đầu của bệnh tật và tử vong hằng năm, và là một yếu tố làm tăng gánh nặng
[i0] Ước tính có khoảng 17,9triệu người chết vì CVDs vào năm 2019, chiếm một phần ba tổng số ca tử vong
về chỉ phí chăm sóc y tế tại các nước trên thế giới
trên toàn cầu [26] Nghiên cứu cũng nhấn mạnh rang, đa phan những ca bệnh khi
được phát hiện sớm thì đều đễ dàng ngăn bệnh trở nặng Do đó, các thiết bị thông
minh có thể tự theo dõi tình trạng sức khoẻ tim mạch của con người đang là một
cách giải quyết tốt nhất cho van dé này Dé làm được điều đó, cần một lượng lớn
dữ liệu về tim mạch để có thể tạo nên một mô hình với độ chính xác cao Honnữa, những dữ liệu này cần được cập nhật liên tục trong quá trình vận hành các
Trang 21Chương 2 CÁC CÔNG TRINH LIÊN QUAN
thường sẽ không nhận được lợi ích từ việc chia sẻ, diéu này càng làm khó khănthêm khi muốn xây dựng mô hình máy học theo cách truyền thống
2.3 Các nghiên cứu ứng dụng blockchain trong hoc
cộng tác
Việc xây dựng một khung cho mô hình Học liên kết (FL) an toàn bằng cách
bảo mật dựa trên Blockchain nhằm cải thiện một số vấn đề của FL đã có nhiều nỗ
lực nghiên cứu tập trung vào Blockchain và cả điện toán đám mây [29] [21] [28].
Cụ thể, trong nghiên cứu của Rui Wang và cộng sự D5) là những người đầu tiên
đề xuất sử dụng tích hợp Blockchain, MEC vào quy trình học liên kết nhằm cải
thiện quyền riêng tư, chất lượng và chi phí giao tiếp hệ thống Nhóm tác giả cũng
dé xuất thuật toán ngăn chan các bản cập nhật độc hại nhằm bảo vệ FL và thiết
kế cơ chế khuyến khích người dùng tham gia đào tạo mô hình với đánh giá đónggóp dựa vào trọng số mô hình được đào tạo
1 ‘Cloud H
Trang 22Chương 2 CÁC CÔNG TRINH LIÊN QUAN
Trong nghiên cứu về dam bảo quyền riêng tư dit liệu trong ngành công
nghiệp IoT (21), Yunlong Lu và cộng sự da thiết kế một kiến trúc chia sé dữ liệu
an toàn sử dụng học liên kết và Blockchain, nhóm tác giả tích hợp học liên kếtvào quá trình đồng thuận của Permissioned Blockchain Nhằm cải thiện các van
dé về quyền riêng tư trong học liên kết để tăng cường đào tao 20], nhóm tác giả
đã triển khai một cơ chế bảo mật nâng cao sử dụng Differential privacy và
Ho-momorphic encryption Trong công trình này nhóm tác giả cũng sử dụng (IPFS)
làm nơi lưu trữ dữ liệu để xây dựng một hệ thống hoàn toàn phi tập trung Họcũng đề xuất một cơ chế khuyến khích chủ sở hữu dữ liệu tham gia đào tạo môhình bằng các sử dụng hợp đồng thông minh Ethereum
Nhóm tác giả [11] trong công trình nghiên cứu của minh đã phát triển một
khung FL dựa trên blockchain kết hợp cả public (Ethereum Ropsten) va private
(Hyperledger Fabric) 9} sử dung các hợp đồng thông minh để tự động phát hiện
và trừng phạt những kẻ tấn công thông qua hình phạt tiền Trong khuôn khổ
công trình nghiên cứu bat kỳ chức năng tổng hợp nào và bat kỳ thuật toán phát
hiện kẻ tấn công nào déu có thể được gắn vào mô hình dé xuất Nhóm tác giả
cũng đã tiến hành các thử nghiệm để chứng minh rằng khung học liên kết dựatrên hybrid blockchain đảm bảo giao tiếp của FL và cung cấp các kết quả thựcnghiệm để chứng minh rằng nó có thể trừng phạt thành công những kẻ tắn côngbằng cách tận dụng thuật toán phát hiện kẻ tấn công mới được để xuất Trong
công trình nghiên cứu [Z5], Qassim Nasir và cộng sự đã chỉ ra những thách thức
công nghệ blockchain gặp phải như bat kỳ công nghệ đang phát triển nào khác,blockchain đang đối mặt với một số thách thức kỹ thuật như khả năng mở rộng,
quyên riêng tư và hiệu suất Nhóm tác giả cũng chỉ ra rằng mặc dù có nhiều nền
tảng blockchain, nhưng không có phương pháp luận rõ ràng để đánh giá và đánh
giá các nên tảng blockchain khác nhau ở các khía cạnh khác nhau, chẳng hạn như
hiệu suất, bảo mật và khả năng mở rộng Trong bài báo tác giả cũng giới thiệu
công cụ đánh giá hiệu năng Blockchain Hyperledger caliper, và thực hiện đánh
giá nó Tuy nhiên các đánh giá được nhóm tác giả thực hiện đều là những đánhgiá cơ bản chưa áp dụng vào một ngữ cảnh cụ thể
Trang 23Chương 2 CÁC CÔNG TRINH LIÊN QUAN
Input local Pie
parameters
STEP 18: Send
‘SHA256 Hash of loea mode!
cơ chế khuyến khích cũng cần xây dựng một hệ thống có bảo mật hơn để người
dùng an tâm tham gia đào tạo mô hình Nhóm tác giả trên cũng đã nêu lên những
ý tưởng về xây dựng cơ chế khuyến khích Nghiên cứu đã nêu một các tổng quan
về cơ chế khuyến khích trong học liên kết, tuy nhiên đây chỉ là một khảo sát và
đánh giá dù mang lại một cái nhìn tổng quan và nhiều cách để giải quyết, nhưng
chưa được triển khai để đáp ứng đầy đủ các yêu cầu của các hệ thống hiện tại
Tuy nhiên trong thực tế còn rất nhiều vần đề trong triển khai hệ thống họcliên kết, trong đó việc đánh giá, kiểm tra các hành vi liên quan đến việc sử dụng
mô hình độc hại vào quá trình huấn luyện mô hình với mục đích xấu và cơ ché để
khuyến khích các chủ sở hữu dữ liệu tham gia vào đào tạo mô hình thông minh.
Việc chỉ gửi mô hình cục bộ đã được huấn luyện bằng dữ liệu cá nhân lên hệthống thay vì dữ liệu thô chưa hoàn toàn giải quyết được các vấn đề bảo mật vàquyền riêng tư Nhiều nghiên cứu trước đây đã chỉ ra rằng thông qua các mô hình
nhận được từ hệ thống, kẻ tấn công có thể thực hiện cuộc tan công suy ngược dữ
Trang 24Chương 2 CÁC CÔNG TRINH LIÊN QUAN
Local data
Clients
a> Local model
©@ Data quality @ Uploadrequied ) Calculate @) Obtain
/quantity information payoff revenue
HINH 2.4: Cơ chế khuyến khích cho việc học tập liên kết được thúc
đẩy bởi sự đóng góp của khách hàng
liệu từ đó day lên những lo ngại vẻ tính riêng tư của các chủ sở hữu dữ liệu Đểngăn chặn và phục vu cho quá trình điều tra truy vét liên quan đến cuộc tan côngtrên, các hành vi tổng hợp mô hình và sử dụng chúng được hệ thống ghi lại vàoBlockchain, đảm bảo khả năng giám sát hoạt động của hệ thống Bên cạnh lo ngạivan dé liên quan đến quyển riêng tư, việc các nguồn lợi từ việc huấn luyện các
mô hình không được phân chia hợp lý cho các bên tham gia cũng khiến chủ sở
hữu dw liệu do dự khi được mời tham gia đào tạo các mô hình thông minh Vì
vậy, hệ thống cung cấp một cơ chế khuyến khích dựa trên các bằng chứng lưutrữ trong Blockchain đảm bảo tính minh bạch trong việc ánh xa và phân phối lợi
nhuận hợp lý cho người tham gia đóng góp vào quá trình đào tạo mô hình.
Trang 25Chương 3
CƠ SỞ LÝ THUYET
Tóm tat chương
Trong chương này chúng tôi sẽ cung cấp ngắn gọn về các khái niệm cơ bản
của các công nghệ được xử dụng xây dựng bộ khung trong khóa luận này Các
khái niệm được trình bài sẽ bao gồm các nguyên tắc cơ bản của việc học liên kết,khuôn khổ blockchain, công nghệ điện toán biên, IPFS, quyền riêng tư khác biệt,nền tảng hyperledger fabric
ra lời giải đúng nhất Có thể dựa vào phương pháp tiếp cận để chỉ học máy vàobến nhóm cơ bản là học có giám sát (Supervised learning), học không giám sát
(Unsupervised learning), học bán giám sát (Semi — Supervised learning) và học tăng cường (Reifnorcement learning).
Hoc có giám sát : Là thuật toán mà quá trình học của nó sử dụng du liệu da
được gán nhãn sẵn Tùy thuộc vào đầu ra của mô hình có thể chia nhỏ phương
pháp này thành hai loại khác nhau là phân lớp (Classification) và hồi quy
(Re-gression).
Trang 26Chương 3 CƠSỞ LY THUYET
s Phân lớp: Được sử dụng khi dau ra của mô hình là một tấp các kết quả
nằm sâu bên trong bộ dữ liệu đấy
Học bán giám sát: Là thuật toán được kết hợp giữa học có giám sát và học
không giám sát.
Học tăng cường: Là thuật toán giúp cho một hệ thống tự động xác định hành
vi dựa trên ngữ cảnh để đạt được mục đích cao nhất Học tăng cường thườngđược ứng dụng trong lý thuyết trò chơi (Game Theory), trong đó, học tăng cườngcần xác định nước đi tiếp theo để đạt được điểm số cao nhất qua mỗi lần chơi
3.2 Lý thuyết học sâu (Deep learning)
3.2.1 Các khái niệm
Học sâu (Deep Learning - DL) là một nhánh của máy học (Machine Learning
- ML) Học sâu được giới thiệu bởi Masahiko Fukushima vào năm 1980 Sự ra đời
của DL nhằm giải quyết những van dé của các thuật toán ML hiện tại, có thể kể
đến như việc quá khớp dữ liệu hay còn gọi là overfit khi dir liệu không đủ lớn.
Từ thời điểm ra đời đến nay, DL đã có những bước phát triển vượt bậc, động lựccho sự phát triển này đó là sự cải tiến về công nghệ của các thiết bị phần cứng,khiến việc huấn luyện cũng như triển khai các mô hình DL trở nên dé dàng hơn.Bên cạnh đó, nguyên nhân cốt lõi là sự bùng nổ dữ liệu do sự phát triển củainternet và các thiết bị đầu cuối khiến cho các mô hình DL có nguồn tài nguyênđổi dao để tạo ra những mô hình học may có độ chính xác cao Trong khoá luận
nay, chúng tôi sử dung phương pháp Horizontal federated learning khi các bên
chia sẻ những mau đữ liệu với cùng thuộc tính.
Trang 27Chương 3 CƠSỞLÝ THUYET
3.2.2 Gradient descent
Trong học máy, người ta luôn mong muốn rằng mô hình của minh có khảnăng dự đoán kết quả chính xác nhất có thể Để đánh giá được một mô hình cókhả năng dự đoán tốt hay không, người ta sẽ xây dựng một hàm đánh giá có tên
là hàm lỗi (loss function) Hàm này tính toán sai số của kết quả dự đoán so với kết
quả thực tế trên toàn bộ những điểm đữ liệu test Việc huấn luyện mô hình học
máy về cơ bản là tối ưu hàm lỗi, sao cho hàm này cho ra giá trị nhỏ nhất có thể
Để làm được điều này, với mỗi mẫu đữ liệu, cần có một phương pháp tính toán
để điều chỉnh những trọng số trong mô hình làm sao cho hàm mat mát đạt giá trị
nhỏ nhất Trong hình B.1lià một mô phỏng giá trị của một hàm lỗi dưới dạng một
dé thị Với nhưng điểm cao nhất theo trục tung là những vị tri mà giá trị hàm lỗi
là lớn nhất
Global Minima Saddle Point
HÌNH 3.1: Đồ thị mô tả giá trị của một hàm lỗi
Trang 28Chương 3 CƠSỞ LY THUYET
Gradient descent là một trong những thuật toán thông dụng trong học máy
sử dụng cho việc tối ưu hóa hàm lỗi, hay nói cách khác là tìm vị trí thấp nhất
Để làm được điều này, chúng ta có thể thả một viên bi vào các
điểm bắt kỳ trên mặt phẳng của đồ thị, thả cho viên bi lăn tự đo và ghi lại các
điểm mà viên bi đó dừng lại Cuối cùng từ nhữn vị trí đó, chọn ra một điểm mà
có độ cao thấp nhất so với các điểm còn lại Điểm mà chúng ta tim được néu may
mắn thì có thể là điểm thấp nhất của toàn bộ dé thị, néu không thì nó cũng gần
như là điểm có độ cao thấp nhất nếu chúng ta thực hiện số phép thử đủ lớn Để
áp dụng phương pháp này vào việc tìm tọa độ điểm làm cho giá trị hàm loss nhỏ nhất, chúng ta cũng sẽ chọn ngẫu nhiên nhiều điểm với tọa độ tùy ý, rồi từ bộ dữ
liệu, xác định các thông số liên quan như bước nhảy (tương tự như việc lăn viênbi), và tiến hành điểu chỉnh các tham số để "viên bi" có thé lăn xuống điểm thấpnhất trong vùng xung quanh điểm được chọn ban đầu
3.2.3 Logistic regression
Thuật toán logistic regression giải quyết bài toán có đầu ra là giá trị nhị phân,
hay nói các khác nó ứng dụng cho bài toán phân lớp Ý tưởng của thuật toán là
cé gắng tìm ra một đường thằng hoặc mặt phẳng có thể phân tách một cách tổng
quát nhất các lớp có trong bộ dit liệu, khi có một mẫu dữ liệu cần dự đoán, mô
hình sẽ xác định vị trí của mẫu dit liệu đó so với đường/mặt phẳng phan cách và
xếp chúng vào lớp tương ứng Khi thay tọa độ của một điểm dữ liệu i vào phương
trình của đường /mặt phân cách chúng ta thu được kết quả sau:
Ci = 00 + 01 * Xj
Giá trị này là tuyến tính, và cho ta biết vị trí của điểm dữ liệu so với mặt phâncách Tuy nhiên để áp dụng vào bài toán phân lớp, chúng ta cần chuyển dạng kếtquả này về dang xác suất có giá trị trong khoảng (0, 1) Day là lý do ham sigmoid
ra đời.
Đặc điểm của hàm sigmoid là có đạo hàm tai moi điểm, nhận giá trị trong
khoảng (0, 1).Hình 8.2] miêu tả cụ thể miễn giá tri và sự biến thiên của hàm
sig-moid.
Trang 29Chương 3 CƠSỞ LY THUYET
1.0
HINH 3.2: Đồ thị biến thiên của hàm sigmoid
3.2.4 Mạng nơron nhân tạo
Đối với những bài toán đơn giản, các thuật toán machine learning thôngthường tỏ ra rất hiệu quả, tuy nhiên đối với những bài toán với dữ liệu nhiềuchiều thì các mô hình này không đáp ứng được các yêu cầu cảu người dùng
Mạng nơron nhân tạo (Artificial neural networks - ANNs) ra đời với ý tưởng là
mô phỏng lại cách hoạt động của nơron trong bộ não con người dưới dạng ngôn
ngữ máy Mong muốn máy có thể học được kiến thức từ dir liệu giống như con
người.
Để làm được điều này, người ta đã xây dựng ra một mô hình, với các node đại
điện cho các nơron não người, mỗi node này bản chất là những hàm tính toán với
các trọng số có thể thay đổi được, dir liệu sau khi đi qua những node này sẽ cho
ra kết quả và truyền đến các node tiếp theo được kết nối với nó Những thôngtin này sẽ được lan truyền qua mạng và đến đầu ra cuối cùng là một con số màchúng ta có thể dựa vào đó để đưa ra kết luận về kết quả dự đoán đối với mộtmau đữ liệu nào đó
Trang 30Chương 3 CƠSỞ LY THUYET
“IN OG, dy OC Su/\ HH layer \
hidden layer 1 hidden layer 2
\
input layer
HÌNH 3.3: Cấu tạo cơ bản của một mô hình nơron nhân tao
Một mô hình nơron nhân tạo có cấu tạo cơ bản gồm 3 phan hay còn gọi là 3
loại layer chính như trong Hình B.3] Layer đầu tiên được gọi là input layer, các
layer ở giữa gọi là hiden layer, và layer cuối cùng là output layer Mỗi node tronghidden layer và output layer liên kết với các node ở layer trước đó với các hệ số wriêng Mỗi node như vậy có hệ số bias riêng, tại đây sẽ diễn ra hai hành động đó
là tính tổng linear và áp dụng activation function
3.3 Học liên kết (Federated learning)
Với các phương pháp xây dựng mô hình học máy truyền thống, chất lượngcủa các mô hình được cải thiện rất nhiều bởi sự gia tăng mạnh mẽ của lượng dữliệu sinh ra hằng ngày Nhưng đi đôi với sự phát triển mạnh mẽ đó là sự quá tảicủa các máy chủ trung tâm Bên cạnh đó, quyên riêng tư của người dùng trongquá trình huấn luyện mô hình học máy không được đảm bảo là một nguyên nhân
mà hiện tai và tương lai cần có hướng giải quyết néu muốn ngành công nghiệp
trí tuệ nhân tạo phát triển bền vững Bởi vậy, Federated learning (FL) hay họcliên kết ra đời nhằm giải quyết những van dé trên và hứa hẹn là một hướng tiếp
cận tiềm năng trong tương lai Được giới thiệu lần đầu tiên trong một blog bởi
Google, với ý tưởng là không có bat cứ một bên trung gian nào nắm dữ dữ liệu
Trang 31Chương 3 CƠSỞ LY THUYET
mô hình học máy Bên cạnh đó, công việc tính toán được phân tán ra các máy chủ
khác nhau giúp phương pháp tiếp cận giảm thiểu áp lựu tính toán và lưu trữ lên
một máy chủ tập trung.
Federated learning được chia làm hai loại chính:
® Vertical federated learning: Là phương pháp học mà các máy sẽ chia sẻ
thông tin của cùng một đối tượng nhưng khác các đặc trưng Ví dụ: thông tin của
người dùng ở ngân hàng và trung tâm thương mại trong một vùng nào đó Phía
ngân hàng sẽ có những đặc trưng khác với trung tâm thương mại khi có cùng
một khác hàng vì vậy ngân hàng và trung tâm thương mại có thể chia sẽ với nhau
và bổ sung cho nhau ở khía cạnh các đặc trưng
® Horizontal federated learning: Là phương pháp học mà các máy sé chia
sẻ vể lượng thông tin cho nhau Ví dụ: thông tin của người dùng ở hai trung tâm
thương mại khác vùng nhau Họ sẽ chia sẻ thông tin khách hàng với nhau.
3.4 Quyên riêng tư khác biệt (Differential privacy)
Different privacy được Dwork giời thiệu và năm 2006 đã chỉ ra rằngquyền riêng tư có thể được đảm bảo với việc phát hành bản ghi cơ sở dữ liệu màkhông làm mắt độ chính xác của truy vấn đáng kể, ngay cả khi đối thủ sở hữu
tất cả các bộ đữ liệu nhạy cảm còn lại Kể từ khi được giới thiệu, phương pháp
này ngày càng tỏ ra hiệu quả khi nó được sử dụng trong việc bảo vệ quyền riêng
tư người dùng trong phương thức nhập liệu và tìm kiếm của người dùng trên
Google Chrome (15), hay việc Samsung sử dung nó dé bảo vệ thông tin cá nhân
và dữ liệu chỉ tiết của người dùng [25].
Dé dễ hiểu về different privacy, chúng ta lấy ví dụ vé dữ liệu về bệnh hiểm
nghèo Đa phần mọi người bị bệnh đều muốn giữ bảo mật thông tin của mình.
Một bệnh viện hứa rằng sẽ bảo mật và không lưu danh tính của bạn, họ chỉ muốnlưu thông tin địa lý của bạn, cách ăn uống, để phục vụ cho quá trình nghiên
cứu Bạn thấy rằng tên tuổi, chứng minh nhân dân của bạn không được thu thập
nên yên tâm rằng không ai biết được tình trạng sức khỏe của bạn trừ bạn Tuynhiên có nhiều cách để tìm ra entry của bạn trong dataset đó Đơn giản nhất cóthể kiểm tra có bao nhiêu người sống ở quận bạn, làm công việc của bạn, sở thíchnhư bạn? Họ chỉ cần query đúng những thông tin đó sẽ lấy ngay được entry họ
Trang 32Chương 3 CƠSỞ LY THUYET
cần biết đó được gọi là linkage attack Giả sử những thông tin trên không đượctrả về, có thể truy ra những ai không ở chỗ bạn, không làm công việc của bạn,
và sau đó lấy số người bị bệnh trừ đi là ra Đây được gọi làm different attack.Vay làm cách nào để tránh khỏi cuộc tan công này, câu trả lời chính là Different
privacy.
Giả sử bây giờ chúng ta cần tìm xác suất có bao nhiêu người từng bị bệnh
nặng Giả sử rằng bảo hiểm biết được những thông tin này sẽ khiến những người
bị lộ thông tin bị tác động tiêu cực Do đó đương nhiên họ sẽ không dai gì mà
tham tham gia cuộc khảo sát của bạn Nhưng nếu câu trả lời của họ là hoàn toànngẫu nhiên thì kết quả thu được sau cuộc khảo sát sẽ hoàn toàn vô giá trị
Bây giờ chúng ta thực hiện cuộc khảo sát như sau: Người tham gia sẽ tung
đồng xu, néu đồng xu là ngửa, ho sẽ trả lời thật lòng, néu là úp họ sẽ tung đồng
xu một lần nữa, nếu ngửa họ sẽ trả lời là có và ngược lại sẽ trả lời là không Vớimột câu trả lời có thì xác suất họ bị bệnh thật chỉ là 34 Và họ hoàn toàn có thể chối
bỏ bắt cứ kết luận nào vì lý đo đen đủi.
Giờ với kết quả họ cung cấp thì tính toán ra sao? Thấy rằng nếu ho bị bệnh,
xác suất họ trả lời có là 3/4, nếu không bị, xác suất trả lời có là 1⁄4 Từ đó, chúng ta
có được công thức cho xác suất kết quả có là Pt so với xác suất thật một người bị
pháp sử dụng phân phối chuẩn Gaussian [8] và phân phối Laplace (41 Dựa trên
thành phần cốt lõi là những thuật toán tạo ra sự ngẫu nhiên, Different privacyđược định nghĩa như sau: Một thuật toán ngẫu nhiên M: D > R với miền D và
phạm vi R thỏa mãn (£, 6) - different privacy 03], nếu có bat kỳ hai đầu vào dir
liệu d, d’ € D và đối với bat kỳ tập con đầu ra nào S € R ta có công thức sau:
Trang 33Chương 3 CƠSỞ LY THUYET
Sự đánh đổi giữa độ chính xác của mô hình mà mức độ rò rỉ quyển riêng
tư của cơ chế M được điều chỉnh bằng giá trị của tham số £ Giá trị này càng nhỏthì biểu hiện cho cơ chế có khả năng bảo vệ quyền riêng tư tốt hơn, nhưng đi đôivới nó chúng ta cần đánh đổi về độ chính xác của mô hình sau khi đào tạo
3.5 Blockchain
3.5.1 Tổng quan
Blockchain được giới thiệu lần đầu tiên vào năm 2008 trong kiến trúc của
Bitcoin, một loại tiền kỹ thuật số, được đề xuất bởi Nakamoto [22] Blockchain cóthể được hình dung đơn giản như một dạng cầu trúc dữ liệu phân cấp, dữ liệuđược lưu vào từng khối có kích thước được chỉ định từ trước Các khối liên kếtvới nhau thông qua mã băm của khối trước đó, tạo nên một chuỗi dài dần theothời gian và không thể thay đổi bat cứ thông tin nào trong khối khi nó đã được
gắn vào chuỗi Mỗi nút trong mạng duy trì một bản sao của sổ cái bằng cách áp
dụng các giao dịch đã được xác thực bởi một giao thức đồng thuận Do tính bấtbiến của nó mà chúng ta có thé theo dõi các hành vi của các đối tượng trong mạng
ngang hang, và có thể dùng nó làm bằng chứng cho các cuộc điều tra về hành vi
của người sử dụng.
Blockchain là sự kết hợp của các công nghệ hàng đầu như:
s Mật mã học: Blockchain sử dụng 2 loại mã hóa chính là: Asymmetric-key
algorithms va Hash functions.
- Asymmetric-key algorithms: Bao gồm hai khóa Private key va Public
key Mỗi cá nhân có hai khóa nay, chúng sử dụng dé tạo ra một thamchiếu nhận dạng kỹ thuật số an toàn Danh tính được bảo mật này là
khía cạnh quan trọng nhất của công nghệ Blockchain Trong thế giới
tiền điện tử, danh tinh này được gọi là “digital signature” và được sửdụng để ủy quyền và kiểm soát các giao dịch
Trang 34Chương 3 CƠSỞ LY THUYET
Previous_block_id Previous block id ——]
Batch_Id: [.] Batch_Id: [.] Batch_Id: [.]
Batchs: Batchs: Batchs:
Transaction 1: Transaction 1: Transaction 1:
Header Header Header
Signer_public_key Signer_public_key Signer_public_key Transaction Transaction Transaction
Transaction 2: Transaction 2:
HÌNH 3.4: Kiến trúc lưu trữ Blockchain
— Hash functions: Có vai trò chính trong việc liên kết các khối (tính batbiến) Một thay đổi thể dẫn đến sự không nhất quán và phá vỡ chuỗi
khối, khiến nó không hợp lệ (Avalanche effect).
s Mạng ngang hàng: Blockchain bao gồm một sổ cái phân tán (distributed
ledger), mỗi node trong mạng đều lưu giữ một bản sao của cuốn sổ cái này
Do đó mọi thông tin được lưu trữ và truyền tải một cách minh bạch, toàn
vẹn, không thể nào thay đổi hay gian lận được Người dùng Blockchain sử
dụng các khóa mật mã để thực hiện các loại tương tác kỹ thuật số khác nhau
qua mạng ngang hàng.
Đặc điểm chính của Blockchain:
¢ Tính bat biến (Immutability): Tính bat biến của dữ liệu Một khi ban đãđồng ý về một giao dịch và ghi lại nó, nó sẽ không bao giờ có thể thay đổi
được.
¢ Tính minh bach (Transparency): Dữ liệu được lưu trong mạng như một
khối, công khai Mọi người tham gia mạng đều có thể theo dõi và thống
kê dữ liệu.
¢ Tinh phi tập trung (Decentralization): Blockchain được thiết kế phân tán va
Trang 35Chương 3 CƠSỞ LY THUYET
Đồng thuận (Consensus): Thuật toán đồng thuận có thể được định nghĩa là
một cơ chế ma qua đó một mạng blockchain đạt được sự đồng thuận Cácblockchain công cộng (phi tập trung) được xây dựng như là các hệ thống
phân tán.
Hợp đồng thông minh (Smart contract): Hợp đồng thông minh là một chươngtrình máy tính hoặc một giao thức giao dịch nhằm mục đích tự động thực
hiện, kiểm soát hoặc ghi lại các sự kiện và hành động có liên quan về mặt
pháp lý theo các điều khoản của hợp đồng hoặc thỏa thuận Các mục tiêucủa hợp đồng thông minh là giảm nhu cầu về các trung gian đáng tin cậy,trọng tài và chỉ phí thực thi, tổn thất do gian lận, cũng như giảm các ngoại
lệ độc hại và tình cờ.
3.5.2 Thuật toán đồng thuận
Thuật toán đồng thuận [16] có thể coi là gốc rễ của công nghệ chuỗi khối, nhưchúng tôi đã giới thiệu ở trên Thuật toán đồng thuận có thể được định nghĩa
là một cơ chế mà qua đó một mạng blockchain đạt được sự đồng thuận Các
blockchain công cộng (phi tập trung) được xây dựng như là các hệ thống phân
Co-operation: Mỗi cá nhân sẽ làm việc như một nhóm và đặt lợi ích riêng
của họ sang một bên.
Equal Rights: Mọi người tham gia đều có giá trị biểu quyết như nhau Điềunày có nghĩa là lá phiéu của mỗi người đều quan trọng
Participation: Mọi người trong mạng cần tham gia biểu quyết để đạt được
thỏa thuận chung.
Trang 36Chương 3 CƠSỞ LY THUYET
* Activity: Mọi thành viên trong nhóm đều hoạt động bình đẳng Không có
ai có trách nhiệm hơn trong nhóm.
Cơ chế đồng thuận cũng là lớp bảo vệ vững chắc của blockchain khỏi việc thayđổi dữ liệu cũng như chống lại các giao dịch gian lận của hacker, nhờ có cơ chếđồng thuận, một giao dịch sẽ luôn được xác thực bởi các node trong mạng lướimột cách ngang hàng Nếu các cơ ché đồng thuận luôn ổn định, vững chắc và antoàn, sẽ không có một bên nào có thể khai thác hay tan công vào blockchain Càng
có nhiều node/validator, blockchain đó càng trở nên bảo mật và phi tập trung
Một vài thuật toán đồng thuận:
¢ Proof-of-Work
® Proof-of-Stake
Delegated Proof-of-Stake
Leased Proof-Of-Stake
Proof of Elapsed Time
¢ Practical Byzantine Fault Tolerance
Trang 37Chương 3 COSO LÝ THUYET
Consensus
Algorithms
HINH 3.5: Các thuật toán đồng thuận của blockchain [5]
3.5.3 Phân loại Blockchain
Tùy vào từng cách đánh giá có thể chia Blockchain thành nhữg loại khác nhau
[2], dựa vào các sử dụng có thể chia Blockchain thành 4 loại chính:
Trang 38Chương 3 CƠSỞ LY THUYET
Private
Controlled by one authority
Hybrid
Controlled by one authority with some
— Public blockchian cho phép tat cả các nút có quyền như nhau để truy cập
vào blockchain, tạo các khối dữ liệu mới và xác thực các khối dữ liệu
Private Blockchain
— Còn được gọi là managed blockchain, là permissioned blockchain được
quản lý bởi một tổ chức đơn lẻ.
— Trong một private blockchain, tổ trức trung tâm (Central authority) xác định
ai có thể là một node Tổ trức trung tâm cũng không nhất thiết phải cấp cho
mỗi nút quyền như nhau để thực hiện các chức năng
— Các blockchain riêng tư chỉ được phân cấp một phan vì quyên truy cập công
khai vào các blockchain này bị hạn chế
Trang 39Chương 3 CƠSỞ LY THUYET
bị lừa đảo và các tác nhân xấu hơn Để giải quyết những hạn chế nay, consortium
và hybrid blockchain đã được phát triển
BẢNG 3.1: So sánh Public và Private Blockchain
Public Private
Đọc, ghi di | Khôn giới hạn Phân quyền
liệu
Danh tính Ấn danh Xác minh
Quyền sỡ hữu | Không ai Tổ chức
Security Economic Incentive, PoW, | Legal Contracts, PoA,
PoS, PoB,
Tốc độ Chậm hơn Nhanh hơn
Chỉ phí giao | Đắthơn Rẻ hơn
dịch
Examples Ethereum, Bitcoin, Dash Hyperledger Fabric, R3,
EWF
Consortium Blockchain
— Các consortium blockchain là các permissioned blockchain do một nhóm tổ
chức quản lý, thay vì một thực thể như trong trường hợp của blockchain
riêng tư.
— Do đó các blockchain consortium blockchain được phân quyền nhiều hơn
so với các public blockchain, dẫn đến mức độ bảo mật cao hơn
Trang 40Chương 3 CƠSỞ LY THUYET
3.6 Nên tảng Hyperledger Fabric
3.6.1 Tổng quan về Hyperledger Fabric
Hyperledger Fabric [3] là một nền tang công nghệ sổ cái phan tán sioned distributed ledger technology - DLT) được củng cố bởi kiến trúc mô-đun
(Permis-mang lại mức độ bảo mật, khả năng phục hồi, tính linh hoạt và khả năng mở
rộng cao Nó được thiết kế để hỗ trợ các triển khai có thể tích hợp được của cácthành phần khác nhau và đáp ứng sự đòi hỏi phức tạp của nhiều hệ sinh thái
khác nhau.
Không giống như Bitcoin và Ethereum, Hyperledger Fabric không có bat kỳloại tiền điện tử nào, nơi quyền truy cập vào mạng bị hạn chế chỉ cho các thành
viên mạng và không phải ai cũng có thể tham gia mạng.
Cơ chế được sử dụng để xác thực các giao dịch và tạo khối trong HyperledgerFabric là Raft thuật toán đồng thuận kiểu đặt hàng (known as the ordering
service), các giao giao dịch sẽ được xác thực theo thứ tự ưu tiên và đánh giá của
order node Các giao dich được kiểm soát trong Hyperledger Fabric bằng cách sửdụng chaincode (hợp đồng thông minh), là một mã chương trình cung cấp khảnăng viết và thiết kế các ứng dụng để tương tác với mạng Quyền riêng tư củacác giao dịch giữa những người tham gia trong mạng có thể đạt được bằng cách
sử dụng một cơ ché cách ly được gọi là kênh Kênh đảm bảo rằng giao dịch và dữliệu chỉ có sẵn cho các nút là thành viên trong kênh
3.6.2 Kiến trúc và luồng hoạt động
Kiến trúc
Hyperledger Fabric có modularity (tính mô-dun) cao nên nó cho phép các
Doanh nghiệp dé dang plug and play để xây dựng một ứng dung Private Blockchain phù hợp các yêu cầu nghiệp vụ của mình Một mạng Hyperledger fabric cơ bản
sẽ bao gồm các thành phần BỊ:
® Peer Node: là thành phan cơ bản trong mạng, nơi lưu trữ host và smart