Hiện tại, phương pháp học liên kết đã được áp dụng phổ biến trong các bài toán phát hiện xâm nhập, giúp đảm bảo tính riêng tư dữ liệu của các bên tham gia.. Để đối phó với những van dé b
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN
KHOA MANG MAY TINH VA TRUYEN THONG
NGUYEN KHAC TUAN ANH
NGUYEN THANH DAT
KHOA LUAN TOT NGHIEP
CO CHE SAN TÌM MOI DE DOA LIEN KET CHO MẠNG
KHA LAP TRINH
THE SCHEME OF FEDERATED THREAT-HUNTING FOR
SDN-ENABLED NETWORKS
KY SU NGANH AN TOAN THONG TIN
TP HO CHÍ MINH, NĂM 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG
NGUYEN KHAC TUAN ANH - 18520457
NGUYEN THANH DAT - 18520577
KHOA LUAN TOT NGHIEP
CO CHE SAN TÌM MOI DE DOA LIEN KET CHO MẠNG
KHA LAP TRINH
THE SCHEME OF FEDERATED THREAT-HUNTING FOR
SDN-ENABLED NETWORKS
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
THS PHAN THE DUY
THS DO HOANG HIEN
TP HO CHÍ MINH, NAM 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định só
n8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LOI CAM ON
Trước tiên, nhóm xin gửi lời cảm ơn chân thành đến tất cả quý thầy cô Trường Đại học Công nghệ Thông tin, đặc biệt là quý thầy cô khoa Mạng Máy tính và Truyền thông đã chỉ bảo và giảng dạy nhiệt tình để truyền đạt những kiến thức nền tảng trong quá trình học tập tại trường.
Nhóm cũng xin gửi lời cảm ơn sâu sắc nhất đến ThS Phan Thế Duy, cùng với Th§ Đỗ Hoàng Hiển đa theo sát quá trình thực hiện đề tài và đưa ra những ý
kiến hữu ích để nhóm có thể hoàn thành đề tài khoá luận một cách hoàn chỉnh
nhất.
Nhóm xin cảm ơn gia đình đã luôn ủng hộ về cả sức mạnh tinh thần và vật chất, những người đã luôn bên cạnh động viên và khuyến khích nhóm hoàn thành khoá luận tốt nghiệp.
Mặc dù đã cố gắng hết sức trong quá trình làm khoá luận tốt nghiệp, nhưng chắc chắn rằng nhóm sẽ không thể tránh khỏi những sai sót do bản thân vẫn
còn nhiều hạn chế về kiến thức chuyên môn cũng như những kinh nghiệm thực
tiễn Nhóm chúng em kính mong nhận được sự thông cảm và những lời góp ý
quý báu từ quý thầy cô để có thể hoàn thiện bản thân mình hơn nữa.
Xin chân thành cảm ơn.
Thành phố Hồ Chí Minh, ngày 20 tháng 6 năm 2022
Trang 5Mục lục
[TÓM TẮT KHOÁ LUẬN 1
1 Tổng quan 2
¬——ỪỘỪỘ 2
[[2 Các nghiên cứu liên quan| 3
1.2.1 Bảo mật mạng khả lập trình| 3
{1.2.2 Hoc liên kết và đảm bảo quyên riêng tư trong học liên két] 4 1.2.3 Hệ thống săn tìm mối de doa trong mạng khả lập trình| 6
“5 .\ / 7
- TT" 1 / 7
[L5 Mục tiêu, phạm vi nghiên cứu| 8
1.5.1 ANc tiêu SS ẤP sưv 8
(15.2 Phạm vi nghiên cứu| - 8
[L6 Cầu trúc Khóa bạn tô nghiệp| 8
2 CƠ SỞ LY THUYET 10 a Tổng quan về học may (Machine Learning) va học sâu (Deep Learn-[ — mg] nh xa 10 2.11 Trí tuệ nhân tạo| cŸcẶẶ 10 P12 Máyhol| 11
[21.3 Deep learnng] - 14
2.2 Học liên kết (Federated learning -FL)Ì - 15
2.21 Địnhnghia| 15
2.2.2 Úngdụng| 16
2.2.3 Phuong thức hoạtđộng| - 17
(2.2.4 Ưu điểm và thách thức| 17
17
Trang 6Thách
thức| -2.3 Săn tìm mối de dọa (Threat hunting -TH)|
2.3.1 Đinhnghĩa|
2.3.2 Phân loại| ẶẶẶẶẶ [2.3.3 Diamond model và Pyramid ofpain]
[Diamond model] - 21
2.3.4 Trình tự của hệ thống Threat hunting: See eee 24 E4 Differential Privacy (Quyền riêng tư khác biệÐ:| 25
2.4.1 Địnhnghia| 25
¬ kh W Ha 26 2.43_ Nhiễu Gaussl - 26
Mahóal 2⁄2 _ wW % 26
25.1 Địnhnghia| 26
[2.5.2 Mã hóa dang câu (Homomorphic Encryption)| 27
2.5.3 Partially Homomorphic encryption| 27
[25.4 Somewhat Homomorphic Encryption| 27
2.5.5 Fully Homomorphic Encryption| - 28
2.6 Mang kha lập trình và giao thức Openflow ¬"ằ 28
Bol Mạng khảlập tình| 28
[26.2 Giao thức OpenFlow| - 32
2.7 Công nghệ dữ liệu lớn (Big Data)| - 35
(2.7.1 ApacheSpark] 35
B72 Hoạt động kiến trúcSpam| 37
lem Co chế săn tìm mối de doa liên kết trong mang khả lập trinh] 40
.2_ Mô hình học sâu liên kết| 41
) é mô hi âu liên kế 41 TH È 41 : B3 Mô hình dé xuất cho hệ thống săn tìm mối đe doa liên kết|
vi
Trang 74_ Thực nghiệm và đánh giá 48
4.1 Môi trường, thực nghiệm 4% 48
eee cece cece eee e teeta ee 48
[£2 Xây dựng mô hình học sâu liên kết| 48
vii
Trang 8Danh sách hình vẽ
[L1 Kiến trúc mô hình học liên kết [8Ï] 5
1.2 Sơ dé hệ thống săn tìm mối de dọa [B|| 6
2.1 Minh họa Supervised learning} ¬ ee 13
[2.2_ Minh hoa Unsupervised learning] - 13 [2.3 Minh hoa Deep Learning] - 14
[24 Cách hoạt động của học liên két}] 2 ee 17 2.5 Mô hình kim cương| - 21 2.6 Pyramid ofPain| - - 2 2.7 Mô hình mạng SDN| - 29
2.8 Kiến trúc điều khiển mạng truyền thống và mạng SDN] 30
-./ 32
[210 Quá trình xử lý gói tin trên một OpenFlow Switch] 34
2.11 ApacheSpark| -. -ẶVcSSS 35
2.12 Thành phần của Spark| 36
E412 Kiến trúc master-slave của Spark| - 3
Ba Co chế săn tìm mối de doa liên kết trong mang khả lập trinh] 40
3.2 Mô hình học sâu liên kết được dé xuất| 41
3.3 Hình ảnh mô hình hệ thốn
BH .,.,.,RrRrRré.h< tee tetetetennees 46
4.1 O sa ôhình| 57
4.2 _ Mô hình mạng SDN| - 60
[43 Sử dụng công cu XSS-Loader để tấn công Xss]| be eee 60
4.4 Đoạn code xử lý việc bat dữ liệu| 61
m Kết quả dự đoán lưu lượng mạng, SDN| See ee 62
viii
Trang 9Danh sách bảng
[41 Bảng kết quả thực nghiệm huấn mô hình LSTM với phương pháp
học liên kết thông thường | - -.- 54
IR 2_ Bảng kết quả thực nghiệm huấn mô hình LSTM FL + DP Gauss| 55
k- 3 Bảng kết quả thực nghiệm huận mô hình LSTM FL + DP Laplace |.
4.8 Bảng câu hình IP các máy trong mạng SDN| 59
ix
Trang 10Danh mục từ viết tắt
FL HE PHE
SWHE
FHE IDS DP
Federated Learning Homomorphic Encryption Partially Homomorphic Encryption Some What Homomorphic Encryption Fully Homomorphic Encryption
Intrusion Detetion System
Differential Privacy
Trang 11Học cộng tác
Mã hóa đồng cầu
Học máy Trung tâm dwt liệu
Tan công suy luận
Tường lửa
Máy chủ
Trọng số Văn bản gốc
Bản mã
Lược đồ Mạng nơ-ron thần kinh
Data center
Inference attack
Firewall
Server Weight
Plaintext
Ciphertext Scheme Neural network Activation function Loss function
Aggregator
Differential Privacy
xi
Trang 12mô hình ngay tại thiết bị của họ Bên cạnh đó, tính riêng tư của dữ liệu khi trao
đổi các tham số của mô hình học máy cũng nên được đảm bảo để tránh việc bị dịch ngược bằng cách kết hợp kỹ thuật quyên riêng tư khác biệt và kỹ thuật mã hoá đẳng cấu Cụ thể, trong khoá luận này nhóm sẽ xây dựng một cơ ché săn tìm mối de doa liên kết trong mang khả lập trình kết hợp kỹ thuật quyền riêng tư
khác biệt và kỹ thuật mã hoá đẳng cầu để đảm bảo quyền riêng tư dữ liệu.
Trang 13riêng tư khác biệt và kỹ thuật mã hoá đẳng câu Bên cạnh đó, chúng tôi cũng
đưa ra các nghiên cứu liên quan,các ứng dụng trong thực tế và thách thức mà bài
toán đang gặp phải Đồng thời đưa ra mục tiêu, đối tượng và phạm vi nghiên cứu
cũng như cấu trúc của khoá luận.
11 Giới thiệu bài toán
Công nghệ thông tin đang ngày càng phát triển, thêm vào đó là sự bùng nổ
của Internet cho ta thấy được tầm quan trọng của thông tin và dữ liệu trong kỷ nguyên số Khi mà Internet đang hướng đến kết néi van vật bat kể không gian, khoảng cách địa lý thì ẩn sau đó là rủi ro rất lớn về mặt an toàn thông tin Năm
2019, Bkav ghi nhận 85,2 triệu lượt tấn công mã độc gây thiệt hại hơn 20.000 tỷ đồng (Bkav, 2020) Ngày nay, hau hết các dữ liệu quan trọng đều được lưu trữ trên máy tính, đặc biệt là các máy chủ dịch vụ Chính vì vậy, đã có rất nhiều nghiên cứu và giải pháp được đưa ra để giảm thiểu rủi ro về mat an toàn, bảo mật hệ thống mạng máy tính hay các hệ thống thông tin trọng yếu bên cạnh việc triển khai hạ tầng mạng đáp ứng nhu cầu của doanh nghiệp hay một tổ chức, cơ quan
nào đó.
Khi mà số lượng các thiết bị kết nói gia tăng cùng với sự phức tạp trong lưu lượng mạng, nhu cầu cần có một mô hình tối ưu hơn để quản lí toàn bộ hệ thống
2
Trang 14Chương 1 Tổng quan
mạng đễ dàng hơn Trong bối cảnh đó, SDN (Software-defined networking) hay
mang câu hinh băng phân mêm la mọt hương tiêp cạn mơi cua kiên truc mang
hien đai, nhạn được sư quan tam to lon trong nhưng nam gan đây Tuy vay, cùng những van dé bảo mật trong mạng truyền thống vẫn luôn nhận được sự quan tâm thì với kiến trúc mạng mới SDN vẫn còn tôn tại nhiều lỗ hổng bảo mật cần lưu ý khi hệ thống mang SDN dễ bị tan công ác ý hơn Đối mặt với van dé này, các hệ thống săn tìm mối đe doa dựa trên máy học được sử dụng để có thé phát hiện các hành vi bất thường Và để có được nguồn dữ liệu thực tế từ các tổ chức tham gia vào huấn luyện mô hình học máy là vô cùng cần thiết Thế nhưng hiện nay, dữ liệu thường được phân tán và lưu trữ ngay tại tổ chức do các van dé về
tính riêng tư của dữ liệu.
Sự xuất hiện của phương pháp học liên kết chính là chìa khoá để giải quyết vấn dé trên khi nó cho phép các tổ chức không cần phải chia sẻ di liệu cá nhân của mình mà vẫn có thể tham gia vào quá trình đóng góp xây dựng mô hình học
máy để nâng cao hiệu năng.
Hiện tại, phương pháp học liên kết đã được áp dụng phổ biến trong các bài
toán phát hiện xâm nhập, giúp đảm bảo tính riêng tư dữ liệu của các bên tham
gia Tuy nhiên, việc trao đổi các tham s6 của mô hình có thể tiết lộ các dữ liệu ban đầu, do đó đặt ran nhu cầu cần bảo vệ tính riêng tư của quá trình trao đổi tham
số giữa các bên để tránh việc bị dịch ngược suy diễn dữ liệu.
Chính vậy, khoá luận tốt nghiệp này sẽ tập trung vào việc nghiên cứu cơ chế
săn tìm mối de doa liên kết trong mạng khả lập trình Hệ thống sẽ được áp dung
kỹ thuật quyền riêng tư khác biệt và mã hoá đẳng cấu để đảm bảo quyền riêng
tư dữ liệu của các bên tham gia quá trình xây dựng mô hình cũng như dam bảo
an toàn và riêng tư cho hệ thống săn tìm mối de doa liên kết.
1.2 Các nghiên cứu liên quan
Trang 15Chương 1 Tổng quan
những vấn dé bảo mật trong mạng truyền thống vẫn luôn nhận được sự quan
tâm thì với kiến trúc mạng mới SDN vẫn còn tôn tại nhiều lỗ hổng bảo mật cần lưu ý khi hệ thống mang SDN dé bị tắn công ác ý hơn Để đối phó với những van
dé bảo mật ngày càng nguy hiểm và phức tap, các chuyên gia đã nghiên cứu về việc phát triển một nền tảng phát hiện các mối đe dọa theo thời gian thực áp dụng
mô hình Machine Learning (ML — học máy) |
tác giả Farah Kandah [12] có đề cập, việc săn tìm mối de doa trong hệ thống của
] Theo như nghiên cứu của nhóm
một công ty cần trung bình 170 ngày để phát hiện Tuy nhiên, nhóm tác giả đã
dé xuất một mô hình săn tìm mối đe doa bằng việc áp dụng các kỹ thuật và mô
hình học máy cơ sở hạ tầng mạng SDN với hiệu quả vượt trội hơn với độ chính
xác 93,4% và thời gian phát hiện dưới 10 giây Ngoài ra cũng có nhiều nghiên cứu khác chứng minh được sử hiệu quả của việc áp dụng ML vào trong các hệ thống
bảo mật mạng như IDS,TH,
1.2.2 Học liên kết và đảm bảo quyền riêng tư trong học liên kết
Ở hầu hết các nghiên cứu hiện tại, các mô hình ML được huấn luyện tập trung với
dir liệu được lay từ các thiết bị đầu cuối không đồng nhat! Việc truyền
tải lượng dữ liệu khổng 16 như vậy làm cho dữ liệu dé bi tan công cũng như gây
ra độ trễ lớn Để làm giảm áp lực trong việc thu thập và xử lý dữ liệu, phương pháp Federated Learning (học liên kết) là hướng tiếp cận có thể giải quyết được van dé này Phương pháp học liên kết cho phép các mô hình ML được huấn luyện phân tán (huấn luyện trực tiếp tại các thiết bi) thay vì huấn luyện tập trung tai máy chủ như trước Các thiết bị tham gia sử dụng Local Data (dữ liệu cục bộ) để huấn luyện tự động Global Model được cung cấp từ máy chủ Trong quá trình huấn luyện, các thiết bị chia sẻ Local Update (cập nhật cục bộ) thay vì dữ liệu thô
giúp đảm bảo quyền riêng tư của dữ liệu tại thiết bị ia
Trang 16model (® Stent model ®) >) client
taining @|Cjdeviee raining QẢCJdeee
#6 2
5 & & sẻ:
Task script Local Global " System
model model ele ‘owner
HÌNH 11: Kiến trúc mô hình học liên kết
Học liên kết 6| 6] là một phương pháp tiếp cận máy học mà không cần phải thu
thập dir liệu Học liên kết (kiến trúc tham khảo hình 1.2}
viên tham gia hợp tác đào tạo một mô hình bằng cách dùng dir liệu cục bộ của
cho phép nhiều thành
họ và huấn luyện mô hình cục bộ, sau đó trao đổi các tham số của mô hình thay
vì trao đổi dir liệu Cách tiếp cận này giúp các bên tham gia vẫn đảm bảo được tính riêng tư của dữ liệu (không cần phải upload dữ liệu của họ lên một server tập trung của bên thứ ba) sao cho kết quả đạt được so với cách tiếp cận truyền thống (tập trung dir liệu về một nơi và tiền hành huấn luyện mô hình) không quá
chênh lệch.
Mô hình học liên kết có thể cải thiện nhiều vẻ tính riêng tư của dữ liệu so với mô hình học máy thông thường, tuy nhiên dựa vào các nghiên cứu gần đây học liên kết vẫn có những nguy cơ về tính riêng tư bởi sự xuất hiện của các cuộc tắn công dich ngược dit liệu Kẻ tan công có thể tiết lộ một phan đữ liệu huấn luyện chỉ dựa vào các tham số được gởi lên khi tổng hợp Cụ thể hơn, nhóm tác giả trong
đã khai thác được lỗ hổng tiết lộ đữ liệu không chủ ý và thanh công tái tạo lại dữ liệu gốc của các bên tham gia khác thông qua tan công suy luận (inference attack) Hay trong [4] các bên tham gia có chủ ý xấu sử dung mô hình toàn cục và tham số để tái cầu trúc lại dữ liệu của các bên tham gia khác Chính vì vậy, tính
5
Trang 17Chương 1 Tổng quan
riêng tư trong học liên kết là một chủ đề cần được khai thác nhiều hơn để giảmthiểu rủi ro về tính riêng tư của dit liệu
1.2.3 Hệ thống săn tìm mối đe doa trong mang kha lập trình
Nhóm tác giả Mohamed Abdel-Basset [1] đã dé xuất một mô hình săn tìm mối de
doa áp dụng kỹ thuật FL (Fed-TH).
Eee eee eee , Broadcast global Parameter
Services, microservices, apps Ì parameters 1Í aggregation
ry ve tc Pan Se by Edge Tier (containerized)
Dockenengingd $ đồ £ * + Local Deep-TH training
` »_ ®.> YF A> See + Send local updates
nh ` Host operating system + 1 + Get global updates
) h * Update local
Infrastructure mn, wee | gl h parameters
\ i a k⁄⁄4 3 + Run microservice
HINH 1.2: Sơ dé hệ thống săn tìm mối de doa
Sơ đồ trên chỉ ra mô hình hệ thống được đề xuất để phát triển nền tảng săntìm mối đe dọa dựa trên microservice (dịch vụ vi mô), trong đó các mô hình săn
tìm mối đe dọa được triển khai cục bộ tại Edge Tier (Container) và Global Model(mô hình toàn cục) được triển khai đồng bộ tại Cloud Tier (Cloud Server) Cả
Edge Tier, Cloud Tier và các Agent đều giao tiếp thông qua IoT network (mạngIo) bằng cách sử dụng kết hợp các công nghệ truyền thông và giao thức truyền
tin khác nhau Cloud Tier đảm nhận trách nhiệm quản lý các dịch vụ vi mô tại
Edge Server bằng cách sử dụng đa dạng các module Bài nghiên cứu cũng cho
thấy được hiệu quả của mô hình này với chỉ số accuracy và chỉ số F1 rất khả quantrong 2 lần đo lường Cụ thể với accuracy là 92.97% và 92.84%; f1-scores là 91.61%
và 90.49% Các cuộc thử nghiệm mở rộng cũng đã chứng minh sự hiệu quả vượt
Trang 18qua van dé này, đã có nhiều giải pháp được đưa ra như trong [3| |5||7Ì|17] Trong
s6 đó, mã hóa dang câu (homomorphic encryption) va differential privacy (DP)
là một trong những giải pháp tiềm năng nhất trong việc đảm bảo tính riêng tư
trong học liên kết mã hóa đẳng câu là loại mã hóa cho phép ta tính toán trên các
dit liệu đã được mã hóa mà không cần giải mã chúng trước DP là kĩ thuật đảm
bảo riêng tư cho mỗi mẫu đơn lẻ trong tập dữ liệu bằng cách chèn thêm nhiễu
Trong khóa luận này, chúng tôi sẽ tập trung vào việc đảm bảo tính riêng tư cho
học liên kết trong hệ thống phát hiện xâm nhập bằng việc sử dụng mã hóa đẳngcấu, differential Privacy
1.3 Tinh wng dung
Cơ chế săn tim mối de doa liên kết giúp cho các tổ chức có thể tham gia quá trình
xây dựng mô hình mà không cần phải cung cấp dit liệu riêng của họ Ngoài raquyền riêng tư dir liệu cũng được dam bảo hơn khi ứng dựng kỹ thuật quyền
riêng tư khác biệt và mã hoá đẳng cấu.
cũng tăng theo, tiêu tốn RAM nhiều hơn Còn kỹ thuật quyền riêng tư khác biệt
thì lại làm giảm đi độ chính xác của mô hình, sự suy giảm càng thể hiện rõ rệt
hơn đối với mô hình phức tạp có nhiều trọng số
Trang 19và kỹ thuật mã hoá đẳng cấu để đảm bảo quyên riêng tư dữ liệu Ngoài ra chúng
tôi sẽ thực hiện các kịch bản thí nghiệm khác nhau để đánh giá hiệu suất, ưu vànhược điểm của từng giải pháp
1.5.2 Phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Hệ thống mạng SDN và cách giám sát luồng dữ liệu trong mạng
- Các mô hình huấn luyện học máy (mô hình LSTM, DNN, ) và các thư viện hỗ
trợ (ví dụ: Keras, Tensorflow, )
- Phương pháp Federated Learning (học liên kết) cho hệ thống phát hiện xâm
nhập (IDS) trong mang SDN (mang khả lập trình).
Phạm vi nghiên cứu:
- Phương pháp Federated Learning (học liên kết) cho hệ thống phát hiện xâm
nhập (IDS) trong mang SDN (mạng kha lập trình).
- Dữ liệu tấn công: Tập dtr liệu CIC-ToN-IOT2018, CICIDS2018
1.6 Cau trúc Khóa luận tốt nghiệp
Qua những gì đã giới thiệu về tổng quan của đề tài thực hiện trong khoá luận tốt
nghiệp, tôi xin đưa ra nội dung của Khoá luận tốt nghiệp sẽ được tổ chức như sau:
° Chương] Giới thiệu tổng quan về khóa luận và các nghiên cứu liên quan
Trang 20Chương 1 Tổng quan
° Chương |4} Trình bày môi trường thực nghiệm, tập dữ liệu, phương pháp
đánh giá và kết quả thực nghiệm
« Chương BỊ Kết luận và hướng phát triển của khóa luận.
Trang 212.1 Tổng quan về học máy (Machine Learning) và hoc
sâu (Deep Learning)
Cả ba khái niệm trên đều có mồi quan hệ mật thiết đến nhau và đều có ý nghĩa
riêng biệt tuy rằng chúng dễ bị nhằm lẫn với nhau
2.1.1 Trí tuệ nhân tạo:
Trí tuệ nhân tạo, vốn được dùng rộng rãi trong cộng đồng công nghệ thôngtin (CNTT), tiếng anh là Artificial Intelligence (AI) Là một lĩnh vực về khoa học
công nghệ dựa trên nhiều ngành khác nhau như khoa học máy tính, toán học,
sinh học, kỹ thuật, nhằm làm cho máy tính có khả năng trí tuệ và thông minhcủa con người, tiêu biểu như biết suy nghĩ, lập luận để giải quyết van dé, biết
giao tiếp do hiểu ngôn ngữ và tiếng nói, biết học va tự thích nghị,
Với mong muốn làm cho máy móc có được trí thông minh như con người đãxuất hiện từ nhiều thế kỉ trước, tuy nhiên AI chỉ xuất hiện khi con người phát
minh ra máy tính điện Alan Turing - nhà toán học lỗi lạc người Anh, người được
10
Trang 22Chương 2 CƠ SỞ LY THUYET
xem như là cha đẻ của Tin học do đưa ra cách hình thức hóa các khái niệm thuật
toán cà tính toán trên máy turing - một mô hình trừu tượng mô tả việc xử lý các
ký hiệu hình thức, gọi là phép thử Turing
Phép thử Turing là một cách để trả lời câu hỏi “máy tính có biết nghĩ không?”được phát biểu dưới dạng một trò chơi Hình dung có ba người tham gia trò chơi,
một người đàn ông (A), một người đàn bà (B) và một người chơi (C) Người chơi
ngồi ở một phòng tách biệt với A và B, không biết gì về A và B (như hai đối tượng
ẩn X và Y) và chỉ đặt các câu hỏi cũng như nhận trả lời từ A và B qua một mànhình máy tính Người chơi cần kết luận trong X và Y ai là đàn ông ai là đàn bà.Trong phép thử nay, A luôn tìm cách làm cho C bị nhầm lẫn va B luôn tìm cách
giúp C tìm được câu trả lời đúng Phép thử Turing thay A bằng một máy tính, và
bài toán trở thành liệu C có thể phân biệt được trong X và Y đâu là máy tính đâu là
người đàn bà Phép thử Turing cho rằng máy tính là thông minh (qua được phépthử) néu như biết cách làm sao cho C không thể chắc chắn kết luận của mình là
đúng Phép thử này là một đóng góp quan trọng và có ý nghĩa lớn đối với AI
Trải qua hàng chục năm phát triển AI đã đạt được những bước tiến to lớn
AI được ứng dụng trong nhiều hoạt động của thời hiện đại Từ những hệ thống,
day chuyền sản xuất khổng 16 trong các ngành công nghiệp, tới các hoạt động
nghiên cứu khoa học kĩ thuật hay những thậm chí là những công việc hàng ngày
của chúng ta như lướt web, xem phim, v.v Việc AI ngày càng hiện diện nhiều
xung quanh chúng ta đã và đang làm cuộc sống của con người ngày càng được
cải thiện Thật không quá khi nói rằng AI chính là nac thang đến với tương lai
của chúng ta.
2.1.2 Máy học:
Machine learning (ML) hay máy học là một nhánh của trí tuệ nhân tạo (AN),
nó là một lĩnh vực nghiên cứu cho phép máy tính có khả năng cải thiện chính
bản thân chúng dựa trên dữ liệu mẫu (training data) hoặc dựa vào kinh nghiệm
(những gì đã được học) Machine learning có thể tự dự đoán hoặc đưa ra quyết
11
Trang 23Chương 2 CƠ SỞ LY THUYET
định mà không cần được lập trình cụ thể
Bài toán machine learning thường được chia làm hai loại là dự đoán tion) và phân loại (classification) Các bài toán dự đoán như dự đoán giá nhà, giá
(predic-xe Các bài toán phân loại như nhận diện chữ viết tay, nhận diện đồ vật
Có rất nhiều cách phân loại machine learning, thông thường thì machine
learning sẽ được phân làm hai loại chính sau:
- Supervised learning: học có giám sát
- Unsupervised learning: học không giám sat
Ngoài ra, machine learning còn có thể phân làm các loại sau:
- Semi-supervised learning: học bán giám sát
- Deep learning: học sâu (về một van dé nao đó)
- Reinforce learning: học củng c6/tang cường
Supervised learning
12
Trang 24Chương 2 CƠ SỞ LÝ THUYET
HINH 2.1: Minh hoa Supervised learning
Supervised learning là việc cho máy tính học trên dữ liệu đã được gan nhãn
(label), hay nói cách khác, với mỗi đầu vào Xi, chúng ta sẽ có nhãn Yi tương ứng
Trang 25Chương 2 CƠ SỞ LY THUYET
2.1.3 Deep learning
Deep Learning là định nghĩa thuộc về một phan các thuật toán trong Machine
Learning (máy học) với đặc thù mang độ phức tạp cao hơn Vì vậy có thể nói hai
khái niệm giữa Deep Learning và Machine Learning hoàn toàn có liên hệ mật
thiết với nhau
Deep Learning là một nhánh của Machine Learning sử dụng mạng lưới thầnkinh với nhiều lớp Một mạng lưới thần kinh sâu phân tích dữ liệu với các biểu
diễn đã học tương tự như cách một người nhìn vào một van đề Trong Machine
Learning truyền thống, thuật toán được cung cấp một tập hợp các tính năng có
liên quan để phân tích Tuy nhiên, trong nghiên cứu sâu, thuật toán được cung
cấp dữ liệu thô và tự quyết định các tính năng có liên quan Mạng Deep Learning
thường sẽ cải thiện khi tăng lượng dữ liệu được sử dụng để đào tạo chúng.
@)-Machine learning
Deep learning
Cat
reed: Russian Blue
seeoooeooo sooooe ° ies]
HINH 2.3: Minh hoa Deep Learning
Cách thức hoạt động của thuật toán Deep Learning diễn ra như sau: Các dong
thông tin sẽ được trải qua nhiều lớp cho đến lớp sau cùng Lấy quy trình học củacon người làm ví dụ cụ thể Qua các lớp đầu tiên sẽ tập trung vào việc học các
14
Trang 26Chương 2 CƠ SỞ LY THUYET
khái niệm cụ thể hơn trong khi các lớp sâu hơn sẽ sử dụng thông tin đã học để
nghiên cứu và phân tích sâu hơn trong các khái niệm trừu tượng Quy trình xây
dựng biểu diễn đữ liệu nay được gọi là trích xuất tính năng
Kiến trúc phức tạp của việc học sâu được cung cấp từ mạng lưới thần kinh
sâu với khả năng thực hiện trích xuất tính năng tự động Ngược lại, trong học
máy thông thường còn gọi là học nông, nhiệm vụ này được thực hiện khi truy
xuất các thuật toán cụ thể
2.2 Học liên kết (Federated learning - FL)
2.2.1 Định nghĩa
Cách tiếp cận tiêu chuẩn để xây dựng mô hình học máy ngày nay là tập hợp tất
cả dữ liệu đào tạo ở một nơi, thường là trên đám mây, và sau đó đào tạo mô hình
trên dir liệu Nhưng cách tiếp cận này không khả thi đối với phần lớn di liệu trênthế giới, vì lý do riêng tư và bảo mật không thể chuyển đến kho lưu trữ dữ liệutrung tâm Điều này làm cho nó vượt quá giới hạn đối với các kỹ thuật AI truyềnthống
Để giải quyết điều này, khái niệm học liên kết đã được ra đời Lần đầu đượccác nhà nghiên cứu tại Google đưa ra vào đầu năm 2017.Federated leaning (học
liên kết) là một kỹ thuật máy học (machine learning), đào tạo một thuật toán trên
nhiều thiết bị hoặc máy chủ biên phi tập trung (decentralized) đang giữ các mẫu
dữ liệu cục bộ, mà không trao đổi các dữ liệu đó Kỹ thuật này trái ngược với kỹ
thuật máy học tập trung truyền thống, với các mẫu dữ liệu được tải lên chung
một máy chủ Federated learning cho phép xây dựng mô hình máy học phổ biến,mạnh mẽ mà không can chia sẻ dữ liệu, nhờ đó giải quyết được các vấn dé quantrọng như bảo mật, quyền truy cập và truy cập dữ liệu không đồng nhất
15
Trang 27Chương 2 CƠ SỞ LY THUYET
2.2.2 Ung dụng
Ung dụng di động: Học liên kết có thể được sử dung để xây dựng các mô hình
về hành vi của người dùng từ nhóm dit liệu của điện thoại thông minh mà khônglàm rò ri dữ liệu cá nhân, chẳng hạn như dự đoán từ tiếp theo, nhận điện khuôn
mặt, nhận dạng giọng nói, v.v Ví dụ: Google sử dụng học liên kết để cải thiện
trên thiết bị các mô hình học máy như “Hey Google” trong Trợ lý Google chophép người dùng ra lệnh bằng giọng nói
Chăm sóc sức khỏe: Ngành chăm sóc sức khỏe và bảo hiểm sức khỏe có thểtận dụng lợi thế của việc học liên hợp, vì nó cho phép bảo vệ dữ liệu nhạy cảmtrong nguồn gốc Mô hình học tập liên kết có thể cung cấp sự đa dang dữ liệu tốt
hơn bằng cách thu thập dữ liệu từ các địa điểm khác nhau (ví dụ: bệnh viện, cơ
sở dữ liệu hồ sơ sức khỏe điện tử) để chẩn đoán các bệnh hiếm gặp
Xe tự hành: Học tập liên kết có thể cung cấp trải nghiệm xe tự lái tốt hơn và
an toàn hơn với dt liệu và dự đoán theo thời gian thực Các phương tiện tự hành
cần những điều này để ứng phó với các tình huống mới:
- Thông tin thời gian thực về giao thông và đường xá
- Ra quyết định thời gian thực
- Học liên tục
Sản xuất - bảo trì dự đoán: Các công ty sản xuất có thể sử dụng mô hình học
tập liên hợp để phát triển các mô hình bảo trì dự đoán cho thiết bị Bảo trì dự
đoán có thể gặp một số rào cản như khách hàng không muốn chia sẻ dữ liệu cánhân của họ hoặc các vấn đề xuất dữ liệu từ các quốc gia / trang web khác nhau
Hoc tập liên tục có thể xử lý những thách thức này bang cách sử dụng bộ dữ liệu
cục bộ.
16
Trang 28Chương 2 CƠ SỞ LÝ THUYET
2.2.3 Phương thức hoạt động
FEDERATED MACHINE LEARNING IN STEPS
/ X/ `
HINH 2.4: Cách hoạt động của học liên kết
- Chọn một mô hình được đào tạo trước trên máy chủ trung tâm hoặc hoàn
toàn không được đào tạo.
- Bước tiếp theo sẽ là phân phối mô hình ban đầu cho các máy khách (client)
- Mỗi máy khách tiếp tục đào tạo mô hình nhận được tại chỗ bằng cách sử
dụng dữ liệu cục bộ của chính máy khách.
- Khi được đào tạo cục bộ, thông số của các mô hình đã cập nhật được gửi trở
lại máy chủ trung tâm thông qua các kênh liên lạc được mã hóa.
- Cuối cùng, mô hình này được gửi trở lại tất cả các thiết bị và máy chủ
2.2.4 Ưu điểm và thách thức
Ưu điểm
Bảo mật dữ liệu: tập dữ liệu được giữ ở máy khác mà không cần được gửi cho
máy chủ trung tâm.
17
Trang 29Chương 2 CƠ SỞ LY THUYET
Đa dạng dữ liệu: Học liên kết tạo điều kiện truy cập vào dữ liệu không đồng
nhất ngay cả trong trường hợp các nguồn dữ liệu chỉ có thể giao tiếp trong những
thời gian nhất địn.h
Học liên tục trong thời gian thực: Các mô hình được cải tiến liên tục bằng cách
sử dụng dữ liệu khách hàng mà không cần tổng hợp dữ liệu để học liên tục
Hiệu quả phần cứng: Cách tiếp cận này sử dụng phần cứng ít phức tạp hơn,
vì các mô hình học liên kết không cần một máy chủ trung tâm phức tạp để phân
tích dữ liệ.u
Thách thức
Yêu cầu đầu tư: Các mô hình học liên kết có thể yêu cầu giao tiếp thường xuyêngiữa các nút Điều này có nghĩa là dung lượng lưu trữ và băng thông cao nằm
trong số các yêu cầu của hệ thống
Bảo mật dữ liệu: Dữ liệu không được thu thập trên một thực thể / máy chủ
duy nhất trong họcliên kết, có nhiều thiết bị để thu thập va phân tích dữ liệu.Điều này có thể làm tăng bé mặt tan công Mặc dù chỉ có các mô hình, không phải
đữ liệu thô, được giao tiếp với máy chủ trung tâm, vẫn có các truy ngược các mô
hình để xác định dữ liệu khách hàng Các công nghệ nâng cao quyển riêng tưnhư quyền riêng tư khác biệt, tính toán đa bên an toàn và mã hóa đồng cấu hình
có thể được sử dụng để tăng khả năng bảo mật dữ liệu của học liên hg
Các giới hạn về hiệu suất:
+ Dữ liệu không đồng nhất: Các mô hình từ các thiết bị khác nhau được hợpnhất để xây dựng một mô hình tốt hơn trong học tập liên kết Các đặc tính cụ thểcủa thiết bị có thể hạn chế tính tổng quát của các mô hình từ một số thiết bị và có
thể làm giảm độ chính xác của phiên bản tiếp theo của mô hình
18
Trang 30Chương 2 CƠ SỞ LY THUYET
+ Rò rỉ thông tin gián tiếp: Các nhà nghiên cứu đã xem xét các tình huốngtrong đó một trong các máy khách có thể bị tan công và chèn các backdoor vào
mô hình chung.
+ Học liên kết là một lĩnh vực học máy tương đối mới Cần phải có những
nghiên để cải tiến hiệu suất trong tương lai
Tính tập trung: Vẫn có một mức độ tập trung trong học liên kết, nơi một mô
hình trung tâm sử dụng kết quả đầu ra của các thiết bị khác để xây dựng một mô
hình mới Các nhà nghiên cứu đề xuất sử dụng phương pháp học liên kết đượctạo khối (BlockFL) và các phương pháp tiếp cận khác để xây dựng các mô hìnhhọc tập liên kết không tin cậy
2.3 Săn tìm mối đe doa (Threat hunting - TH)
2.3.1 Định nghĩa:
Ngày nay, với việc công nghệ thông tin phát triển thần tốc và ngày càng đóngvai trò quan trọng trong quá trình vận hành của thế giới Kéo theo đó là nhiềuđiểm yếu chí mạng trong hệ thống có thể bị khai thác Kéo theo đó các cuộc tấncông ngày càng tăng cả về số lượng và mức độ tỉnh vi Theo thông kê của Cục
An toàn thông tin thuộc Bộ thông tin và Truyền thông trong năm 2021, ở Việt
Nam đã ghi nhận hơn 9700 cuộc tan công mạng, tăng 42,42% so với nam 2020 (2).
Các cuộc tan công còn có thể tận dung các phương thức, công nghệ, mã chương
trình chưa bị phát hiện bởi các công nghệ bảo mật truyền thống như tường lửa,AntiVirus, khiến cho người dùng, tổ chức, doanh nghiệp rất khó phát hiện ramình đã bị tấn công
Để đối phó với sự gia tăng nhanh chóng của các cuộc tấn công, săn tìm mối đedoa (Threat hunting) được đã ra đời Thay vì chờ đợi cảnh báo từ một nền tangbảo mật nào đó hay cuộc tấn công đã diễn ra rồi mới tìm cách đối phó Săn tìm
mối de doa sẽ chủ động “đón đầu”, tích cực tìm kiếm các dấu hiệu của những
19
Trang 31Chương 2 CƠ SỞ LY THUYET
hoạt động nguy hiểm và dé ra phương pháp ngăn chan
2.3.2 Phân loại:
Có 4 loại threat hunting (TH):
- TH dựa trên đữ liệu Tạo các giả thuyết dựa trên các dữ liệu quan sát được
để xem xét các dữ liệu đã có sẵn từ đó kích thích TH Ví dụ như nhật ký proxy,thống kê lưu lượng, Các nhà phân tích có thể sử dụng bat kỳ nguồn dữ liệunào để làm cơ sở tạo ra giả thuyết, truy van hoặc các báo cáo xác định hành vi bat
thườn.
- TH dựa trên khai thác dữ liệu Dữ liệu và phân tích các mối đe dọa có thểcung cấp và chia sẻ cho các tổ chức khác nhau Tuy vậy đây là cách khó nhất do
các tổ chức cần nhận thức được mức độ tin cậy của thông tin, tính hữu ích và bản
chất hiếm có của việc thu thập thông tin nội bộ dựa trên những thứ như ứng phó
sự cô.
TH dựa trên thực thể: tập trung vào các thực thể có giá trị/ rủirocao
-TH dựa trên chiến thuật, kỹ thuật và quy trình (tatics, technoques and procedures
- TTP) Thay vì tập trung vào các thực thé tĩnh ( static indicators) như domains,
ip, address, hashes thì sé là các phương pháp, chiến thuật và quy trình (methods,
tactics and procedures) của kẻ tấn công Các quan sát này sẽ là những đữ liệutuyệt vời vì chúng được cung cấp theo những ngữ cảnh phù hợp với phân tích
của con người hơn là phân giải tự động.
- Loại thứ 4 là TH lai: bất cứ TH nào là sự kết hợp của 2 hay nhiều loại TH
trên.
20
Trang 32Chương 2 CƠ SỞ LY THUYET
2.3.3 Diamond model và Pyramid of pain:
Diamond model:
La một cách tiếp cận được nhiều chuyên gia bao mật thông tin sử dụng để xác
thực và theo dõi các mối đe dọa mạng Theo cách tiếp cận này, mọi sự cố có thểđược mô tả như một viên kim cương Phương pháp luận này nhân mạnh các mối
quan hệ và đặc điểm của bốn thành phần của viên kim cương - đối thủ
(adver-sary), năng lực (capability), cơ sở hạ tang (infrastructure) và nạn nhân (victim).Bốn yếu tố cốt lõi này được kết nối để xác định mối quan hệ giữa nhau và có thểđược kiểm tra phân tích để khám phá thêm thông tin chỉ tiết và có được kiến thức
HINH 2.5: Mô hình kim cương
Đối thủ: Kẻ thù là một tổ chức hoặc là tác nhân đe dọa sử dụng khả năngchống lại nạn nhân để thực hiện các mục tiêu của mình
21
Trang 33Chương 2 CƠ SỞ LY THUYET
Khả năng: Các khả năng đề cập đến các công cụ và kỹ thuật được sử dụng bởiđối thủ trong một sự kiện
Cơ sở hạ tầng: Cơ sở hạ tầng bao gồm các cấu trúc giao tiếp vật lý hoặc logic
như địa chỉ IP hoặc e-mail, tên mién và các cấu trúc khác, được đối thủ sử dụng
Day là mô hình được dua ra bởi David Bianco nham thé hién méi quan hé cua
các thành phan có thể được sử dụng dé phát hiện mối đe doa va mức độ đau đớn
“Pain” mà chúng gây ra.
22
Trang 34Chương 2 CƠ SỞ LÝ THUYET
Tough!
° Challenging
NETWORK/HOST ARTIFACTS Annoying
DOMAIN NAMES Simple
IP ADDRESSES o——~ Easy
HASH VALUES -° Trivial
- Hash value: xác xuất để 2 hash value giống nhau là cực kì thấp cho nên đây
là chỉ báo chính xác nhất Tuy nhiên giá tri này rat dé bị thay đổi nên trong nhiều
trường hợp ko cần phải theo dõi chúng
- Ip address: phần lớn những kẻ tan công đều cần kết nối mang để tấn công.Tuy nhiên ip address rất dé để thay đổi mà ko tốn nhiều công sức nên việc chặn
các cuộc tân công bang ip thường ko dem lại kết quả
- Domains: khó thay đổi hơn so với ip và phải được đăng kí và trả phí để hoạt
động nhưng nhiều dns được đăng kí ko nghiêm nghặt thậm chí là miễn phí nên
việc thay đổi là không hề khó - Network/host artifacts: nếu có thể phát hiện vàphản ứng, kẻ tấn công buộc phải thay đổi cài đặt và biên dịch công cụ của chúng
- Tools: các phần mềm đc kẻ tấn công sử dụng mà họ tự cài đặt, không phải
các phần mềm độc hại trên máy người dùng Các new gen antivirus signature
23
Trang 35Chương 2 CƠ SỞ LY THUYET
hoặc hệ thống có thể phát hiện các biến thể của 1 tệp dù với cả các thay đổi nhỏnhư giao thức, hash „ có thể tước đi một vài phần mềm mà kẻ tấn công có thế
sử dụng, kéo theo đó kẻ tan công cần nhiều thời gian nghiên cứu (tìm công cu
mới có khả năng phù hợp), phát triển ( nếu họ có đủ kiến thức) và học hỏi để cóthể tiền hành tân công
- TTP: thay vì tập trung vào các công cụ của kẻ tấn công thì sẽ hướng trực tiếpvào hành vi của họ xét về mức hiệu quả thì đây là lý tưởng nhất Nếu 1 chuyên
gia có thể đáp ứng đủ nhanh với các TTP đáng ngờ thì kẻ tan công phải đào tạo
lại từ đầu
2.3.4 Trình tự của hệ thong Threat hunting:
Bao gồm 5 giai đoạn - hay còn gọi là vòng lặp săn lùng:
- Bước 1: Giả thuyết Các cuộc săn tìm mối đe dọa bắt đầu bằng một giảthuyết hoặc tuyên bố về ý tưởng của chuyên gia về những mối đe dọa có thể cótrong môi trường và cách tiếp tục tìm kiếm chúng Một giả thuyết có thể bao gồm
các chiến thuật, kỹ thuật va thủ tục (TTP) của kẻ tan công bị nghỉ ngờ Những kẻ
săn lùng mối đe dọa sử dụng thông tin tình báo về mối đe đọa, kiến thức về môitrường cũng như kinh nghiệm và sự sáng tạo của chính họ để xây dựng một conđường hợp lý để phát hiện
- Bước 2: Thu thập và xử lý thông tin Đối với các mối đe dọa yêu cầu phải
có thông tin và đữ liệu chất lượng Cần có kế hoạch thu thập, tập trung và xử lý
đữ liệu Phần mềm Quản lý Sự kiện và Thông tin Bảo mật (SIEM) có thể cung cấpthông tin chỉ tiết và hỗ sơ theo đõi các hoạt động trong môi trường CNTT của
Trang 36Chương 2 CƠ SỞ LY THUYET
- Bước 4: Điều tra Công nghệ điều tra, có thể truy lùng hoặc tìm kiếm sâuvào các điểm bất thường có khả năng gây hại trong hệ thống hoặc mạng, cuối
cùng được xác định là lành tính hoặc được xác nhận là độc hại.
- Bước 5: Phản hồi / Giải quyết Dữ liệu thu thập từ hoạt động độc hại đã
được xác nhận có thể được nhập vào công nghệ bảo mật tự động để phản hồi,
giải quyết và giảm thiểu các mối đe dọa Các hành động có thể bao gồm xóa cáctệp phần mềm độc hại, khôi phục các tệp đã bị thay đổi hoặc bị xóa về trạng
thái ban đầu, cập nhật các quy tắc tường lửa / IPS, triển khai các bản vá bảo
mật và thay đổi cau hình hệ thống - déng thời hiểu rõ hơn điều gì đã xảy ra và
cách cải thiện bảo mật nhằm chồng lại các cuộc tan công tương tự trong tương lai
2.4 Differential Privacy (Quyên riêng tư khác biệt):
2.41 Định nghĩa:
Quyền riêng tư khác biệt hay Differential privacy là một hệ thống chia sẻ công
khai thông tin về tập dữ liệu bằng các mẫu của các nhóm trong tập dữ liệu trong
khi giữ lại thông tin về các cá nhân trong tập dữ liệu Ý tưởng của hệ thống này là
nếu hiệu ứng khi của việc thay thé một lần tùy ý trong dữ liệu đủ nhỏ, thì kết quảtruy vấn không thể được sử dụng để suy ra về bat kì cá nhân đơn lẻ nào, ngay
cả khi dữ liệu đã được phân tích Trong trường hợp học liên kết, quyền riêng tư
khác biệt được triển khai bằng các thêm các dữ liệu gây nhiễu đã được điều chỉnh
(đặc trưng bởi chỉ số epsilon E) vào các mô hình trước khi được gửi đi để tổng
hợp Tuy nhiên việc này có thể giảm độ chính xác của mô hình Độ chính xác của
mô hình càng cao thì quyền riêng tư càng bị giảm
25
Trang 37Chương 2 CƠ SỞ LY THUYET
2.4.2 Nhiễu Laplace
Xác suất của phân phối Laplace với location 0 va scale b được định nghĩa là:
1 Ix|
Lap(x |b) = 3p XP >
Location va scale là tên được dùng khi nói về phân bó này: location thì tương
đương với mean, va scale thì tương ứng với variance 07 theo công thức 0? = 2b?.
Thêm nhiễn với location 0 va scale Af /£ :
4L(X,ƒ(-),£) = ƒ(x) + (Yl, ,Yx), Yi~ Lap(Af/e)
2.4.3 Nhiễu Gauss
Azƒ=, max |ƒ(x)—ƒ(y)ll
lIx-yll:=1
Với nhiễu Gauss ,phương pháp tương tự như Laplace, nhưng thay nhiễu từ Lap (A1ƒ/£)
với nhiễu tir’ NV (0, CA2(f) /£), trong đó c2 > 2 In(1.25 /ð) Tuy nhiên, Gaussian
noise chỉ áp dụng được với £ € (0, 1), và không cho chính xác ô = 0.
2.5 Mã hóa:
2.5.1 Dinh nghĩa:
Mã hóa dữ liệu là quá trình chuyển dữ liệu từ dạng này sang dạng khác hoặc
sang dang code ma chỉ có người có quyền truy cập vào key giải mã hoặc có mật
khẩu mới có thể đọc được đữ liệu đó Có 2 loại mã hóa được triển khai phổ biến
hiện nay là mã hóa đối xứng và bắt đối xứng Sự khác biệt cơ bản giữa 2 loại hình
mã hóa này nằm ở chỗ mã hóa đối xứng sử dụng một key duy nhất cho cả hoạt
động mã hóa và giải mã, trong khi mã hóa bat đối xứng sử dung public key để
mã hóa và private key để giải mã.
26
Trang 38Chương 2 CƠ SỞ LY THUYET
2.5.2 Mã hóa dang cau (Homomorphic Encryption)
Bat kể khi đang làm việc với dữ liệu nghỉ ngơi hay dt liệu dang truyền thi dữ
liệu đều bắt buộc phải được giải mã trước khi có thể được phân tích hoặc thao
tác Day là lỗ hổng vốn có trong tat cả các phương pháp bảo vệ dit liệu Từ đây,
mã hóa đồng câu (Homomorphic encryption) được phát minh để giải quyết lỗ
hổng này Mã hóa đồng cấu là một phương thức mã hóa cho phép mọi dữ liệu
được mã hóa trong khi nó đang được xử lý và thao tác Cho phép chúng ta hoặc
bên thứ ba ( như các nhà cung cấp cloud) áp dụng các chức năng trên dữ liệu màkhông cần tiết lộ các giá trị của dự liệu Hệ thống mã hóa đồng cấu giống như các
hình thức mã hóa công khai khác là nó sử dụng khóa chung để mã hóa dữ liệu và
chỉ cho phép cá nhân có khóa riêng phù hợp truy cập vào dữ liệu không được mã
hóa Tuy nhiên nó sử dụng hệ thống đại số cho phép bạn hoặc người khác thực
hiện tính toán hoặc thao tác trên dữ liệu được mã hóa [1].
2.5.3 Partially Homomorphic encryption
Mã hóa đồng nhất một phan (PHE) giúp đữ liệu nhạy cảm được giữ bi mật
bằng cách chỉ cho phép các chức năng toán học được chọn được thực hiện trêncác giá trị được mã hóa Điều này có nghĩa là một thao tác có thể được thực hiện
không giới hạn số lần trên bản mã Mã hóa đồng hình một phần (liên quan đếncác hoạt động nhân) là nền tang cho mã hóa RSA, thường được sử dụng để thiết
lập các kết nối an toàn thông qua SSL / TLS Một số ví dụ về PHE bao gồm mã
hóa ElGamal (so dé nhân) và mã hóa Paillier (sơ đồ bổ sung)
2.5.4 Somewhat Homomorphic Encryption
Lược dé mã hóa hơi đồng hình (SHE) là một lược dé hỗ trợ các hoạt động hanchế (ví dụ: cộng hoặc nhân) lên đến một độ phức tạp nhất định, nhưng các thaotác này chỉ có thể được thực hiện một số lần đã đặt Đây là tiền thân của mã hóađồng hình hoàn toàn
27
Trang 39Chương 2 CƠ SỞ LY THUYET
2.5.5 Fully Homomorphic Encryption:
Mã hóa hoàn toàn đồng hình (FHE), trong khi van đang trong giai đoạn pháttriển, có rất nhiều tiềm năng để làm cho chức năng phù hợp với quyền riêng tư
bằng cách giúp giữ an toàn thông tin mà vẫn có thể truy cập được Được sinh ra
từ một sơ đồ mã hóa tương đồng, loại mật mã thần thánh này có khả năng sử
dụng bất kỳ chức năng tính toán hiệu quả nào (như cộng và nhân, không chỉ một
hay nhiều lần) bất kỳ số lần nào và giúp tính toán đa bên an toàn hiệu quả hơn
2.6 Mạng khả lập trình và giao thức Openflow
2.6.1 Mạng khả lập trình
Với logic điều khiển phi tập trung, rất khó quản lý và phát triển của mạng truyềnthống Mạng SDN (Software Define Networking) hay mạng điều khiển bằng phầnmềm là một phương pháp tiếp cận mới, tách đôi thành phần điều khiển (ControlPlane) và thành phần dữ liệu (Data Plane) để đạt được kiến trúc điều khiển tậptrung logic cho phép lập trình để cầu hình mạng Một hệ thống mạng bao gồmnhiều thực thể (thiết bị định tuyến, thiết bị chuyển mạch,các đường kết nối, cácmáy chủ cuối ) có thể được quản lý và lập trình riêng với các logic chuyển tiếpkhác nhau Tuy nhiên vì vậy nên quản lý khó khăn đã làm ra đời 1 số giao thức
quản lý như: SNMP, RESTCONF, NETCONF và OpenFlow.
SDN Software Defined Networking (SDN) hay mạng được định nghĩa bằng
phần mềm là một kiến trúc mạng mới nổi (2011) là một phương pháp tiếp cận
mới cho phép quản lý mạng và cau hình mạng hiệu quả theo chương trình nhằmtăng hiệu xuất và theo đõi mạng SDN quan lý mạng bằng cách tách đôi luồng
điều khiển (Control Plane) và luồng dif liệu (Data Plane) Control Plane chịu tráchnhiệm về định tuyến /chuyển 6 mạch, control plane tập trung ở lớp điều khiển
Data plane chịu trách nhiệm chuyển tiếp dữ liệu theo hướng dẫn của Controller
Việc tách biệt hai thành phần này cho phép SDN lập trình điều khiển mạng vàquản lý tập trung tại thành phần điều khiển Đây là khác biệt lớp nhất giữa kiếntrúc mang SDN và mang IP truyền thống, nơi mà việc điều khiển mang và chuyển
28