Một vấn đề lớn của học máy là dữ liệu đầu vào được sử dụng, dit liệu đầu vào phải đủ các tính năng để mô hình học máy có hiệu suất tốt nhất.. Từ đó, trong khóa luận này, chúng tôi đề xuấ
Trang 1VÕ HOÀI NAM - 19521876
KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN VÀ
NGAN CHAN MÃ ĐỘC MÃ HÓA TONG TIEN
AN INVESTIGATION ON TECHNIQUES OF RANSOMWARE
DETECTION AND PREVENTION
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUGNG DAN:
TS Nguyén Tan Cam
ThS Nghi Hoang Khoa
TP.H6 Chi Minh - 2023
Trang 2LỜI CẢM ƠN
Trong quá trình nghiên cứu và hoàn thành khóa luận, nhóm đã nhận được sự
định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời động viên của
các giáo viên hướng dẫn, giáo viên bộ môn, các thành viên trong lớp, inseclab.
Nhóm xin bày tỏ lời cảm ơn tới thầy Phan Thế Duy, thầy Nguyễn Tấn Cẩm,
thầy Nghi Hoàng Khoa đã tận tình trực tiếp hướng dẫn, giúp đỡ trong quá trình
Võ Hoài Nam
Trang 3CHUGNG 1 TONG QUAN 2
1 Giới thiệu van dé 2 ee 2
.2 Giới thiệu những nghiên cứu liên quan 3
2.1 CABE Sandbox ‹ỌẹB.J / 3 2.2 Mô hình hoc máy đa phương thức 3
3 Tính ứng dụng 0Q 0.002 00 0000 3
4 Những thách thức sa 3
5 Mục tiêu, đối tượng, và phạm vi nghiên cứu 4
5.1 Muc tiêu nghiên ctu ) ee 4
5.3 Phạm vi nghiên đỨU Ặ ch 4
.ð.4 Cau trúc khóa luận tốt nghiệp - 4
CHƯƠNG 2 CƠ SỞ LÝ THUYET 6
2.1 Quy trình tấn công chung của mã độc mã hóa tống tiền 6
2.1.1 Ransomware - Mã độc mã hóa tống tiền 6 2.1.2 Cyber Kill Chain - Quy trình tấn cong 8 2.1.3 Quy trình tấn công đối với mã độc mã hóa tống tiền 10
Trang 42.21 Tongquan 0.000.000 eee 11
2.2.2 Tưởng lửa pfšense ees 13
2.2.3 Squid Proxy -Q eee 14
2.3 Phương pháp phân tích động va Sandbox 16
24 Học sâu ee 19 24.1 Tổng quan c2 2 ee 19 2.4.2 LSTM - Long short term memory 20
24.3 BrGru 2 ee 22 244 SMOTE 002 0000000000000 0000 23 2.5 Mulitmodal Learning 00000000005 24 2.6 Sysmon - Hệ thống lưu trữ nhật kí trên Windows 26
27 Tẹptinbấy gag NN .” À 27
2.8 Các công trình nghiên cứu liên quan 29
CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN 30 3.1 Mô hình tổng quất ee ee eee 30 3.2 Luồng hoat động chính 2 0 ee 31 3.3 Phương pháp xây dựng mô hình 33
3.3.1 Tường lửa tích hợp proxy để giám sát các tệp tin được tải 10 ee 33 3.3.2 Phân tích động bằng Sandbox 34
3.3.3 Học máy đa phương thức 35
3.3.4 Hành động ngăn chặn mã độc - 37
CHƯƠNG 4 XÂY DỰNG MÔ HÌNH, THỰC NGHIỆM VÀ ĐÁNH GIÁ 40 4.1 Hiện thực, xây dựng mô hình 40
4.1.1 Firewall Pfsense tích hợp Squid Proxy 40
4.1.2 Quá trình phân tích của Sandbox 42
4.1.3 Học máy đa phương thức 43
Trang 54.1.4 Hành động xử lý ñle co 49
4.1.5 Môi trường thực nghiệm 51
42 Kêt quả thực nghiệm ẶẶ Q So 51 4.2.1 Giám sát thông quá Firewall- Proxy 51
4.2.2 Kết quả phan tích từ Sandbox 53
4.2.3 Hiệu suất của mô hình học máy đa phương thức 54
4.2.4 Hành động ngăn chặn file 54
4.2.5 Kết quả toàn bộ mô hình 56
CHƯƠNG 5 KET LUẬN 59
5.1 Kétluan @<—-—“_.sue, www ww we 59
5.2 Hướng phát trien 2 eee 60
TAI LIEU THAM KHAO 61
Trang 6DANH MỤC CAC KÝ HIỆU, CÁC CHU VIET TAT
Ransomware Mã độc mã hóa tống tiền
API Application Programming Interface
LSTM Long Short Term Memory Gru Gated Recurrent Unit
Bi-LSTM Bi-directional Long Short Term Memory
Bi-Gru Bi-directional Gated Recurrent Unit PE
Portable Executable DLL Dynamic Link Library
1D5 Mmessage-Digest Algorithm SHA Secure Hashing Algorithm CKC Cyber Kill Chain
Trang 7DANH MUC CAC HINH VE
inh 2.1 Ransomware Family So 7
inh 2.2 Các giai đoạn trong CKC đối với Ransomware 10
inh 2.3 Luồng hoạt động của Proxy co 12 inh 2.4 MôhìnhhLSTM Ặ.ẶẶcSSỢ 21 inh 2ð Cách nhận biết một đối tượng 25
inh 2.6 Sysmon ee 27 inh 3.1 Mô hình tong quát 30
ình 3.2 Luồng hoạt động của mô hình - 32
ình 3.3 Luong hành động ngăn chặn file - 39
inh 4.1 Mô hình Pfsense - Squid Proxy - 40
inh 4.2 Tích hợp Squid trong Pfsense 41
inh 4.3 Đưa têp tin phân tích trên Web UI 42
inh 4.4 Mô hình học máy đa phương thức 43
inh 45 Ty lệ nhãn của Dataset 44
inh 4.6 Thông tin API lấy từ báo cáo phân tích của Sandbox 45
inh 47 Các lớp củaLSTM 46
inh 4.8 Thông tin Process Memory lấy từ báo cáo phân tích của Sandbox 2 - - daa a AT inh 4.9 Các lớp cla BL-GRU 48
inh 4.10 Các lớp sử dụng Concatenate để kết hợp thành MultiModal 49 inh 4.11 Câu lệnh chạy Sysmon 50
ình 4.12 Nhật ký giám sát được Sysmon ghi nhận trong Event Viewer 50 inh 4.13 Mô hình mạng tổng quát 52
ình 4.14 Các tệp tin thực PE được lưu lại và gửi trực tiếp lên Sandbox 52
Trang 8Hình 4.15 Sandbox dang tiền hành phan tích 53 Hình 4.16 Kết quả phan tích được lưu ở tệp JSON 54
Hình 4.17 Confusion Matrix của mô hình học máy đa phương thức 55
Hình 4.18 Sysmon ghỉ các hoạt động của tệp khả nghỉ 56
Hình 4.19 Tệp bay được rải trên toàn bộ thư mục của máy người dùng 57 Hình 4.20 R-Locker cảnh báo tệp bẫy đang bị truy cập 57
Trang 9DANH MUC CAC BANG BIEU
Bang 4.1 Cau hình các máy chủ
Bảng 4.2 Thời gian phân tích của các tệp thử nghiệm
Bang 4.3 Hiệu suất của mô hình hoc máy đa phương thức
Trang 10TÓM TẮT KHÓA LUẬN
Trong những năm gần đây, với sự phát triển chóng mặt của công nghệ, nhiều
công nghện tiên tiến, hiện tại xuất hiện, phục vụ nhu cầu của con người trên
Internet thì đi kèm theo đó là sự nguy hiểm, tác động của các loại mã độc khác nhau cũng phát triển theo các công nghệ, đặc biệt là về Ransomware Với sự tiến
hóa không ngừng ấy, đòi hỏi các nhà nghiên cứu về lĩnh vực an toàn thông tin
phải nghiên cứu, áp dụng nhiều công nghệ khác nhau để phát hiện và ngăn chặn
mã độc mã hóa tống tiền này Một trong những cách được nhiều nhà nghiên cứu
là sử dụng học máy và các phương pháp phân tích.
Sau khi nghiên cứu hướng sử dụng học máy để phát hiện, ngăn chặn mã độc
tống tiền, chúng tôi nhận thấy đây là một hướng đi nhiều tiềm năng Một vấn
đề lớn của học máy là dữ liệu đầu vào được sử dụng, dit liệu đầu vào phải đủ
các tính năng để mô hình học máy có hiệu suất tốt nhất Một cách phân tích đầy đủ các hành vi của mã độc đó là phương pháp phân tích động Dé công
việc này thuận lợi, Sandbox xuất hiện Từ đó, trong khóa luận này, chúng tôi
đề xuất một mô hình phát hiện va năng chặn các tập tin nghi ngờ là mã độc
mã hóa tống tiền bằng cách sử dụng Sandbox phân tích động, trích xuất tính năng làm đữ liệu đầu vào cho các thuật toán học máy nhằm phát hiện mã độc.
Trang 11CHƯƠNG 1 TONG QUAN
Ở chương này, chúng tôi giới thiệu về vấn đề và các nghiên cứu liên quan.
Đồng thời, trong chương này chúng tôi cũng trình bày phạm vi và cấu trúc của
Khéa luận.
1.1 Giới thiệu vấn đề
Đi kèm theo sự phát triển của công nghệ thì mã độc mã hóa tống tiền cũng
xuất hiện nhiều không kém [6] Đối với các mã độc nói chung và mã độc tống
tiền nói riêng, hành vi tấn công đến mục tiêu luôn tuân theo các quy trình tấn
công nhất định gọi là Cyber Kill Chain [9] Việc nắm rõ các bước tấn công của
mã độc giúp ích rất lớn đối với việc phát hiện và ngăn ngừa chúng.
Trong bối cảnh đó, các nhà nghiên cứu đã và đang áp dụng các kĩ thuật học
máy vào các công cụ phát hiện va phân loại mã độc tống tiền nay [5] Nhờ sự
linh hoạt của các kỹ thuật trích xuất thuộc tính, các thuật toán khác nhau, sự
đa dạng trong dữ liệu đầu làm đã làm cho các kỹ thuật này ngày càng được áp dụng vào thực tế nhiều hơn.
Tuy nhiên, một loại mã độc luôn có nhiều nhiều thuộc tính khác nhau biễu
hiện sự độc hại của nó Một số nghiên cứu chỉ tập trung vào việc sử dụng một
loại thuộc tính để dùng cho mô hình học máy của mình Đôi lúc việc chỉ sử dụng một loại thuộc tính có thể không biễu diễn đủ hành vi độc hại của mã độc.
Nghiên cứu của Daniel Gibert, Carles Mateu và Jordi Planes đã áp dụng nhiều
loại thuộc tính của mã độc để phát hiện mã độc nói chung [2].
Sau khi thử nghiệm, việc sử dụng nhiều loại thuộc tính khác nhau, cho thấy
có hiệu quả tốt hơn so với việc dùng một loại thuộc tính Từ đó, nhóm quyết định dựa vào các quy trình tấn công chung của mã độc và hiệu suất cao đến từ
Trang 121.2.2 Mô hinh học may đa phương thức
Mô hình học máy đa phương thức là một trong các lĩnh vực trong trí tuệ nhân
tạo (AT) tập trung vào việc kết hợp và xử lý thông tin từ nhiều dạng thuộc tính
khác nhau như hình ảnh, văn bản, âm thanh, video, v.v Để có được hiểu biết
và khả năng tương tác thông qua nhiều cam quan Trong mô hình này, thông
tin của một đối tượng được biểu diễn qua nhiều cách khác nhau, từ đó kết hợp
với nhau từ đó cho ra mô hình có độ chính xác cao hơn khi nhận biết đối tượng.
1.3 Tính ứng dụng
Đề tài xây dựng mô hình phát hiện Ransomware có thể áp dụng vào mô hình mạng thường xuyên trao đổi thông tin qua Internet Mô hình bán tự động phát
hiện Ransomware dựa trên nhiều lớp khác nhau, đưa ra cảnh báo người dùng
về tính khả nghi của tệp tin.
1.4 Những thách thức
Sử dụng mô hình hoc máy đòi hỏi việc dữ liệu đầu vào cũng như phương pháp
sử lý dữ liệu, xây dựng mô hình để có được hiệu suất tốt rất quan trọng Ngoài
Trang 13ra việc chỉ sử dung Sandbox để phân tích động va đưa ra báo cáo để sử dung,
chưa sử dụng đầy đủ tính năng của sandbox.
1.5 Mục tiêu, đối tượng, và phạm vi nghiên cứu
1.5.1 Mục tiêu nghiên cứu
Xây dựng mô hình dựa trên sandbox, mô hình đa phương thức nhằm phát
hiện và ngăn chặn mã độc mã hóa tống tiền thực hiện các hành vi độc hại.
1.5.2 Đối tượng nghiên cứu
Đối tượng nghiên cứu:
e Mã độc mã hóa tống tiền
e Sandbox
e Trình phát hiện mã độc dựa trên học máy
e Sysmon, honeyfile
1.5.3 Pham vi nghiên cứu
Phân tích động bằng Sandbox, trích xuất thuộc tính từ báo cáo của Sandbox
va phát hiện têp tin khả nghi là Ransomware.
1.5.4 Cấu trúc khóa luận tốt nghiệp
Chúng tôi xin trình bày nội dung của Luận án theo cấu trúc như sau:
e Chương 1: Giới thiệu tổng quan về đề tài, lý do chọn đề tài của Khóa luận
và những nghiên cứu liên quan.
e Chương 2: Trình bày cơ sở lý thuyết và kiến thức nền tảng liên quan đến
phương pháp sử dụng trong đề tài.
Trang 14e Chương 3: Phương pháp thực hiện.
e Chương 4: Trình bày thực nghiệm và đánh giá.
e Chương 5: Kết luận và hướng phát triển của đề tài.
Trang 15CHƯƠNG 2 CƠ SỞ LÝ THUYET
Chương này trình bày cơ sở lý thuyết, các kiến thức nền tang của khóa luận.Bao gồm cái nhìn chung về quy trình tấn công của mã độc nói chung và mã độc
mã hóa tống tiền nói riêng Bên cạnh đó là các phương pháp phân tích mã độc,
mô hình học máy và mô hình đa phương thức.
2.1 Quy trình tan công chung của mã độc mã hóa tống
ox
tién
2.1.1 Ransomware - Mã độc mé hóa tống tiền
Ransomware hay còn được gọi là mã độc mã hóa tống tiền là một loại phần
mềm độc hai được thiết kế để tấn công và khóa chống lại dữ liệu hoặc hệ thống của một người dùng hoặc tổ chức Khi bị tan công bởi ransomware, các tệp tin
trên máy tính hoặc hệ thống mạng sẽ bị mã hóa hoặc khóa lại bởi phần mềm
độc hại này Để có thể đọc, ghi hay sử dụng lại các dữ liệu này thì người dùng phải chuyển một khoản tiền cho kẻ tấn công Sau đó kẻ tấn công gửi khóa để giải mã các dữ liệu Sự gia tăng của ransomware về số lượng và các biến thể của
chúng tăng theo cấp số nhân (Hình 2.1)
Cơ chế hoạt động chung của Ransomware:
e Bước 1: Lây nhiễm: Sau khi xâm nhập được vào máy của nạn nhân bằng
phương thức như thông qua mail, các trang web lừa đảo, lây nhiễm từ các
thiết bị cùng mạng, thì ransomware được tự động thực thi hoặc gián
tiếp do người dùng trên các thiết bị đầu cuối và có thể là tất cả các thiết
bị cùng mạng.
Trang 16* _ NewSimplocker + Lockerpin
© ScarePackage «© Fakelnst
®© LockDroid © - ScareMeNot * SMSSend *
«© Kovter © ColdBrother © = Agent
« Sypeng ? © Jisut * — Hidden App.
«© Pletor © LockerMaster © Slokcer
© — Fakedefender © Svpeng NewPo rnDroid
Kar To, Ix.Encoder.1 © ElGato
* a:
ar * — Cryptolocker ° Vdeek « — Troldesh © - Cerber© — SpySheritf «SMS ay
* Cryptolocker © Ophioniocker «— TeslaCrypt * Tve3n
Perfomance Ransomware 2 Oboes Ransomrab IS
laser «© — Bootlock « — Ransome rypt ie ColiVeutt 5 :
¬ Satine” ee
5 Km + Sypolocker 3 Goptowel's Hae
«— Dirty ẤT Torrentiocker + — Crytptowall 4 ay
Descrypt ie © Randamant
© Bitcrypt
¢ = Alpha Crypt
Hinh 2.1: Ransomware Family
e Bước 2: Tạo khóa: Các ransomware liên lạc với máy của chúng dé tạo các
khóa cryptographic để mã hóa dit liệu Các khóa này cũng có thể được tạo
từ các thư viện, các hàm có sẵn trên chính máy của nạn nhân.
e Bước 3 - Mã hóa: Sau khi tạo được khóa thì ransomware tiến hành mã
hóa dữ liệu của nạn nhân bằng thuật toán đã được xác định trước
e Bước 4 - Tống tiền: Với việc mã hóa được thực hiện thành công,
ran-somware hiển thị các thông báo về hành vi tống tiền của mình và các
phương thức thanh toán tiền chuộc dữ liệu, đe dọa đữ liệu nếu không thực
hiện.
e Bước 5 - Mỏ khóa: Sau khi được trả tiền chuộc thì có được khóa để giải
mã dữ liệu Nhưng không có gì chắc chắn là khi thanh toán tiền chuộc thì
kẻ tấn công đưa khóa cho nạn nhân
Co 2 loại mã độc mã hóa chính chính:
e Locker Ransomware - Khóa và cấp quyền truy cập máy tính hoặc thiết bi.
Locker Ransomware có thể dé dàng bi phá thông qua các kỹ thuật va cộng
cụ lưu trữ dữ liệu khác nhau.
Trang 17e Crypto Ransomware — ngăn chặn truy cập vào dữ liệu của nan nhân bằng
cách mã hóa có độ phức tạp cao hơn bởi về các mã độc tống tiền này được
mã hóa bằng các thuật toán mã hóa có cấu trúc phức tạp, hiện đại hầu như
rất khó có thể giải mã hay khôi phục lại dữ liệu trong thời gian ngắn nếu
không có khóa giải mã.
Từ đấy việc phòng ngừa Ransomware xâm nhập là phương pháp đầu tiên và
được khuyến khích nhất trong việc phòng chống ransomware,
2.1.2 Cyber Kill Chain - Quy trành tấn công
2.1.2.1 Quy trinh đối uới mã độc
Theo nghiên cứu của Tooska Dargahi và nhóm của anh [9], đối với các cuộc
tấn công của mã độc nói chung và ransomware thì các cuộc tấn công thường
tuân theo một quy trình gọi là Cyber Kill Chain Cyber Kill Chain thường có
các giai đoạn Cyber Kill Chain được phát triển bởi Lockheed Martin Cyber
Kill Chain hoạt động như một phương pháp theo dõi hoạt động tấn công mang
từ giai đoạn trinh sát ban đầu cho đến khi đánh cắp dữ liệu Nhờ có nó mà cácquản trị viên có thêm kiến thức về ransomware, tấn công APT, vi phạm bao
mật và tìm ra phương án để ngăn chặn chúng.
e Reconnaissance: Giai đoạn quan sát và thu thập thông tin là giai đoạn
quan trọng trong quá trình tấn công Trong giai đoạn này, những kẻ tấn
công thường đánh giá tình hình hệ thống từ bên ngoài và bên trong để xác
định mục tiêu và chiến thuật cho cuộc tấn công Mục tiêu của họ là tìm
kiếm thông tin về các lỗ hong bảo mật và điểm yếu trong hệ thống Dé
thu thập thông tin, những kẻ tấn công thường tập trung vào các mục tiêu
như firewall, hệ thống IPS và tài khoản mang xã hội Họ sử dụng các công
cụ giúp giai đoạn quan sát và thu thập thông tin, ví dụ như việc quét các
mạng của công ty để tìm kiếm lỗ hồng và điểm tiềm năng có thể xâm nhập
và khai thác
Trang 18e Weaponization:Khi mà kẻ tấn công lên kế hoạch cho cuộc tấn công dựa
vào các lỗ hồng, thông tin mà đã thu thập được từ giai đoạn trước đó Giai
đoạn này được gọi là Weaponization, khi này kẻ tấn công sẽ tạo ra mã độc
hoặc các payload độc hại để sử dụng cho các bước tấn công tiếp theo Tiến trình này có thể bao gồm:
— Thiét kế ra mẫu mã độc mới.
— Sửa đổi chương trình đã tồn tại trước đó để phù hợp hơn với lỗ hổng
của đối tượng đang được nhắm tới nhằm cố gắn khai thác nó
e Delivery: Giai đoạn này kẻ tan công sẽ thực hiện xâm nhập vào hệ thống
mạng của mục tiêu nhằm phát tán mã độc được chuẩn bị trước đó Ỏ
đây các ké tấn công thường sẽ sử dụng những kĩ thuật liên quan tới social
hacking để có thể dễ dàng lây nhiễm vào hệ thống Ví dụ như phát tán qua
email, MSWord hoặc pdf,
e Exploitation: Sau khi phát tan thành công mã độc qua mail hoặc các
dang tấn công khác, bước tiếp theo chúng sẽ thực hiện khai thác các 16 hong
được tìm thấy ở giai đoạn do thám Lúc này kẻ tấn công sẽ thâm nhập sâu
hơn vào mạng của mục tiêu và nghiên cứu thêm nhiều lỗ hổng chưa được
tìm thấy trước đó Đây cũng là bước lây lan ngang sang các máy ở trongcùng mạng với máy mục tiêu nhằm lây lan sức ảnh hưởng rộng khác mạng
Ze
lưới.
e Installation: Đây là giai đoạn được gọi là giai đoạn leo thang đặc quyền
(privilege escalation), là giai đoạn mà kẻ tấn công cố gắng cài mã độc hoặc
triển khai các công cụ khai thác in mạng của mục tiêu để nhận được nhiều
quyền kiểm soát nhất có thể với nhiều hệ thống, tài khoản và dữ liệu Chiến
lược này bao gồm cài cắm mã độc thông qua:
— TroJan horses.
— Access token manipulation.
Trang 19— Backdoors.
e Command and Control: Diéu quan trọng của cuộc tấn công là việc phát
triển lệnh hoặc kênh kiểm soát nhằm giữ sự kết nối giữa server của kẻ tấn công với máy mục tiêu Sau khi kiểm soát được phần hệ thống hoặc các tài khoản có quyền hạn cao, kẻ tấn công có thể truy vết, giám sát và dẫn dắt người dùng triển khai các công cụ khai thác từ xa.
e Actions on Objectives: Sau khi đã thành lập C2 (C&C) thì đây là lúc mà
hành động chính của cuộc tấn công diễn ra Kẻ tấn công có thể có các mục
tiêu khác ngoài việc truy cập và đánh cắp thông tin riêng tư (exfiltratinginformation private) mà còn mã hoá tệp và từ chối quyền truy cập đối với
dữ liệu của ho Sau khi mã hoá dữ liệu, ké tấn công thường sẽ thực hiệntống tiền của nạn nhân bằng cách tạo ra một thông báo tống tiền cho nạn
Our considered stops for Ransomware feature taxonomy
Cyber Kill Chain (CKC) seven steps
Hình 2.2: Các giai đoạn trong CKC đối uới Ransomware
Nhưng đối với việc phòng chống, phan ứng trước Ransonware thi chỉ tập trung
chủ yêu vào 2 giai đoạn Delivery và Exploitation bởi vì: Ransomware không cần
bước Reconnaissance bởi vì cách thức hoạt chính của nó là đọc và chỉnh sửa file
Trang 20Việc thăm dò, tìm hiểu các thông tin, lỗ hỏng về mục tiêu là không
cần thiết Các bước quan trọng của Ransomware được khoanh đỏ trong Hình
2.2.
Bước ð hình 2.2: Đối với ransomware thì chỉ cần được kích hoạt thì sẽ tự động
đọc và sửa đổi dữ liệu, không cần cài đặt hay cần cấu hình cái gì cả
Bước 6 hình 2.2: Cách thức tấn công của Ransomware là đọc và chỉnh sửa,
mã hóa các tệp khiến người dùng không thể đọc được dữ liệu ghi trong chúng Ransomware không có khả năng thực hiện các câu lệnh điều khiển Việc che dấu
hay xóa dấu vết là một điều vô nghĩa đối với Ransomware vì mục đích của nó
là mã hóa và tống tiền
Dé phan ứng trước Ransomware, bước 2 va 3 là hai bước cần phải
tập trung ào
e Weaponization: Cần có kiến thức về các thuật toán mã hóa tiên tiến,
cũng như nắm được hành vi của Ransomware
e Delivery: Việc Ransomware xâm nhập vào thiết bị của nạn nhân của yếu
là thông qua Internet Thường cách Ransomware thường được đính kèm
qua các mail, các tệp tải xuống trên Internet Từ đó việc phan ứng ở bướcnày chủ yếu dựa trên ý thức của người dùng
e Exploitation: Cần liệt kê tất cả các cách thức mà Ransomware đọc tệp dé
phan ứng dựa trên từng cách
2.2 Proxy
2.2.1 Tổng quan
Một proxy server hoạt động như một cổng kết nối giữa người dùng và mạng
internet (Hình 4.1) Nó đóng vai trò là một máy chủ trung gian, phân tách người
dùng cuối và các trang web mà họ truy cập thông qua trình duyệt của mình.Ngoài việc chỉ đơn thuần chuyển tiếp các yêu cầu web, các máy chủ proxy hiện
Trang 21TTF i
Client Proxy Server Internet
Hình 2.3: Luông hoạt động của Proxy
đại còn có nhiều chức năng khác nhằm dam bảo an toàn dữ liệu và tăng hiệusuất mạng
Máy chủ proxy hoạt động như một tường lửa và bộ lọc web, giúp bảo vệ mạng
và người dùng khỏi các mối đe doa từ internet Nó cung cấp các kết nối mạng
chia sẻ và lưu trữ dữ liệu trong bộ nhớ cache để tăng tốc độ truy cập cho các
yêu cầu phổ biến Một máy chủ proxy hiệu quả giúp bảo vệ người dùng và mạng
nội bộ khỏi những nguy cơ không được biết trước ton tại trên internet
Ngoài ra, máy chủ proxy cũng có thể cung cấp mức độ riêng tư cao Nó có thể an danh thông tin cá nhân của người dùng, giấu di địa chi IP thực tế và mã hóa dữ liệu truyền đi để ngăn chặn việc theo dõi truy cập của người dùng.
Tóm lại, máy chủ proxy đóng vai trò quan trọng trong việc cung cấp an ninh
và hiệu suất cho mạng N6 giúp người dùng và mang nội bộ truy cập internetmột cách an toàn hơn, đồng thời bảo vệ sự riêng tư và cải thiện tốc độ truy cập
Proxy server thực tế là một máy tính có địa chỉ IP riêng trên internet Khi
Trang 22người dùng gửi yêu cầu tới một trang web, yêu cầu đó sẽ trước tiên đi qua proxyserver Proxy server sẽ tiếp nhận yêu cầu từ người dùng và thay mặt người dùnggửi yêu cầu đó tới trang web đích Tương tự, khi website dich gửi lại dit liệu,
proxy server sẽ tiếp nhận và chuyển tiếp dữ liệu đó cho người dùng cuối để hiển
thị trên trình duyệt.
Proxy server có khả năng thay đổi dữ liệu gửi đi từ người dùng mà vẫn giữ được thông tin mà người dùng mong muốn xem Nó có thể thay đổi địa chỉ IP,
vì vậy web server không thể chính xác biết được vị trí địa lý của người dùng
trên thế giới Ngoài ra, proxy server cũng có khả năng mã hoá dữ liệu, đảm bảo
rằng dữ liệu trong kênh truyền đã được mã hoá và không thể đọc được Cuối cùng, proxy server có thể chặn truy cập tới một trang web cụ thể bằng cách dựa
vào dia chi IP.
Tom lai, proxy server thực hiện vai tro trung gian giữa người dùng và trang
web, cho phép thay đổi địa chi IP, mã hoá dữ liệu và chặn truy cập tới các trang
web nhất định
2.2.2 Tưởng lửa pfsense
pfSense là một phần mềm mã nguồn mở, được phát triển dựa trên hệ điều
hành FreeBSD, với mục đích biến một máy tính thông thường thành một thiết
bị tường lửa và bộ định tuyến mạnh mẽ Nó cung cấp một loạt các tính năngmạng như tường lửa, VPN, bộ lọc nội dung, cân bằng tải, proxy và nhiều tính
năng khác.
pfSense ban đầu được phát triển bởi một công ty mang cùng tên, nhưng phiên
bản mã nguồn mở của nó cũng được cung cấp cho cộng đồng sử dụng N6 cómột giao diện quản lý web dễ sử dụng, cung cấp các công cụ và tùy chọn cấu
hình để quản lý và bảo vệ mạng của bạn.
pfSense có kha năng linh hoạt và mở rộng, cho phép người dùng tùy chỉnh và
mở rộng chức năng của nó thông qua việc cài đặt các gói mở rộng (packages).
Điều này giúp pfSense phù hợp cho nhiều môi trường mạng khác nhau, từ mạng
Trang 23nhỏ đến mạng doanh nghiệp lớn
Các tính năng chính của pfSense bao gồm:
e Tường lửa: pfSense cung cấp khả năng kiểm soát và giám sát lưu lượng
mạng vào ra từ và đến các vùng mạng trong hệ thống mạng của bạn Bạn
có thể thiết lập các quy tắc tường lửa để cho phép hoặc chặn các kết nối dựa trên các tiêu chí như địa chỉ IP, cổng, giao thức và nguồn/nơi đến.
e Bộ lọc nội dung: pfSense có tích hợp các tính năng bộ lọc nội dung, cho
phép bạn kiểm soát và giám sát nội dung truy cập trên mạng Bạn có thể
chặn hoặc hạn chế truy cập vào các trang web, ứng dụng và dịch vụ cụ thể.
e Cân bằng tải: pfSense cho phép bạn phân phối tải trên nhiều đường truyền
mạng hoặc máy chủ, gia tăng hiệu suất và khả năng mở rộng của hệ thống
mạng.
2.2.8 Squid Proxy
Squid proxy là một giải pháp proxy phan mềm mã nguồn mở va tu do, được
sử dụng rộng rãi trong cộng đồng mạng Nó đóng vai trò là một máy chủ proxy,
chuyển tiếp các yêu cầu từ phía client và đồng thời kiểm soát và bảo vệ việc
truy cập Internet của client.
Squid được sử dụng chủ yếu như một caching proxy cho các giao thức nhưHTTP, HTTPS, FTP và nhiều giao thức khác Khi client truy cập vào một tài
nguyên trên Internet, Squid sẽ lưu trữ nội dung của trang web đó vào bộ nhớ
cache Khi có yêu cầu truy cập tiếp theo đến cùng một trang web, Squid có thể
cung cấp nội dung từ bộ nhớ cache mà không cần truy cập lại trang web gốc.Điều này giúp cải thiện thời gian phan hồi và giảm việc sử dụng băng thông
Bên cạnh việc hoạt động như một caching proxy, Squid cũng có khả năng hỗ
trợ các tính năng khác như kiểm soát truy cập và bảo mật No có thể xác thực người dùng, kiểm soát quyền truy cập dựa trên địa chi IP hoặc thông tin xác
Trang 24thực, giới hạn băng thông, cấu hình quy tắc bộ loc và nhiều tính năng khác để
đảm bảo an toàn và quản lý truy cập Internet của client.
Squid Porxy có thể được triển khai đa dạng ở nhiều mô hình khác nhau Từ
làm Forward proxy đến Transparent proxy hay Reverse Proxy Ngoài ra Squid
Proxy đươc tích hợp trên các hệ thống tường lửa như Pfsense,
Các tính năng chính của Squid Proxy trong pfSense bao gồm:
e Lưu trữ bộ nhớ cache: Squid Proxy trong pfSense cho phép lưu trữ bộ nhớ
cache của các trang web đã được truy cập trước đó Điều này giúp cải thiệnhiệu suất truy cập web bằng cách cung cấp dữ liệu từ bộ nhớ cache thay vìtải lại từ máy chủ gốc Điều này giảm băng thông và tăng tốc độ truy cập
e Kiểm soát truy cập: Squid Proxy trong pfSense cho phép người dùng cấu
hình các quy tắc để kiểm soát truy cập vào web, ứng dụng và dịch vụ cụ thể Người dùng có thể chặn hoặc hạn chế truy cập dựa trên IP, tên miền,
từ khóa, giao thức, cổng và nhiều yếu tố khác.
e Quản lý băng thông: Squid Proxy trong pfSense cung cấp khả năng quản lý
băng thông, cho phép bạn kiểm soát và giám sát việc sử dụng băng thông của các ứng dụng và người dùng trên mạng Bạn có thể thiết lập các giới
hạn băng thông, ưu tiên lưu lượng và quản lý sử dụng băng thông theo
nhóm người dùng hoặc ứng dụng.
e Xác thực người dùng: Squid Proxy trong pfSense hỗ trợ xác thực người
dùng thông qua các phương pháp như xác thực thông qua địa chỉ IP, tên
người dùng và mật khẩu Điều này cho phép bạn áp dụng các chính sách
truy cập dựa trên danh tính người dùng và quản lý quyền truy cập vào các
tai nguyên mang.
e Báo cáo và giám sát: Squid Proxy trong pfSense cung cấp các công cụ va
báo cáo để giám sát và phân tích hoạt động của proxy Bạn có thể xem các
Trang 25bản ghi nhật ký, thống kê về việc sử dụng băng thông, truy cập web và các
hoạt động khác.
2.3 Phương pháp phân tích động và Sandbox
Kỹ thuật phân tích động là một phương pháp phát hiện mã độc dựa trên theo dõi hành vi của tập tin được thực thi trong thời gian thực Trình chống mã độc
sẽ giám sát các hành động và luồng lệnh của tập tin này Dé thực hiện kỹ thuật
y, cần thiết lập một môi trường thử nghiệm để thực thi mã độc va theo doi
h vi của nó trong môi trường đó Các hành động đáng chú ý bao gồm hoạt
động của các tiến trình, thông tin về thanh ghi, sự thay đổi của các tập tin, thư
mục
lại
, lưu lượng mạng và các kết nối Tat cả các hành vi của mã độc sẽ được ghi
ưới dạng nhật ký để phục vụ cho công việc phân tích và điều tra sau này
Theo cách này, phân tích động tìm cách thu được một số thông tin về thực
Processes va process trees.
Modified system registries
Files va directories created, modified, hoặc deleted
Các kết nối mang
Các giao thức mạng được sử dụng
hân tích động cung cấp gốc nhìn sâu hơn về khả năng của các mã độc so với phân tích tĩnh Phân tích tĩnh sẽ tốt hơn đối với các loại mã độc đã biết, nhưng không cung cấp thông tin cho mã độc phức tạp và mới xuất hiện So với
phân tích tĩnh, phân tích động cho một số ưu điểm:
Trang 26e Nhận biết được các hành vi độc hại trong môi trường an toàn.
e Các công cụ có thể thực hiện phân tích tự động.
e Phân tích mà không cần xem xét kĩ mã nguồn.
e Phát hiện các mã độc chưa được phát hiện.
e Hỗ trợ việc tìm hiểu khả năng của chương trình, phần mềm mới.
e Dưa ra các báo cáo rõ ràng sau khi phân tích.
Sử dụng Sandbox được coi là một phương pháp tốt nhất để thực hiện phương
pháp phân tích động thuận tiện nhất Sandbox là môitrường được cách ly độc
lập với máy chủ, cho phép thực thi các phần mềm độc hại bằng cách triển khai các cơ chế bảo mật để dam bảo tính toàn vẹn của môi trường thực thi Sandbox
có thể lưu trữ các hành vi của các đối tượng thực thi trên nó Các thông tin này
sẽ được lưu trữ trên Sandbox.
Việc triển khai Sandbox tùy thuộc vào mục đích giám sát Thông thường
Sandbox thường được triển khai trên môi trường ảo hóa Áo hóa được coi là
nhúng một máy ảo trên máy ảo khác N6 có một hệ điều hành máy chủ quản
lý một hoặc nhiều máy khách khác nhau để hệ thống khách không có tác động
đến tính toàn vẹn của hệ thống máy chủ Chức năng đáng chú ý là lưu lại trạng thái hiện tại của máy tại một thời điểm cụ thể Chức năng này có thể giúp máy
ảo có thể khôi phục nguyên trạng trạng thái của máy ảo tại thời điểm nhất định
mà không cần khắc phục các sự cố đã sẵn ra Day là tính năng quan trọng trong
việc phân tích hoạt động của mã độc.
Quy trình hoạt động của Sandbox:
1 Tìm kiểm máy ảo tích hợp đến khởi chạy.
2 Lưu lại trạng thái của máy ảo.
3 Thiết lập các kênh liên lạc, theo dõi hệ thống.
Trang 274 Tải các phần mềm cần phân tích lên máy ảo và tiến hành thực thi.
5 Sử dụng các công cụ giám sát để giám sát, theo doi hoạt động của phần mềm Kết quả được lưu trữ để sử dụng cho các báo cáo, công việc sau này.
Để quá trình phân tích hiệu quả tốt nhất, Sandbox cần phải mô phỏng chính
xác hệ thống đang được sử dụng trong thực tế Nếu không, các phần mềm độc
hại có thể phát hiện được.
Sử dụng Sandbox đem lại nhiều khả năng khác nhau:
e Môi trường cô lập: Sandbox tạo ra một môi trường cô lập và độc lập
để chạy mã độc Nó giới hạn các tác động của mã độc chỉ trong phạm vi
sandbox mà không tác động đến hệ thống hoặc mạng bên ngoài Diều này giúp ngăn chặn mã độc gây hại lan truyền và tấn công vào hệ thống chính.
e Giám sát hoạt động: Sandbox theo dõi và ghi lại các hoạt động của mã
độc trong quá trình chạy Ñó ghi lại các tệp tin, registry, mang, và các hoạt
động hệ điều hành khác được thực hiện bởi mã độc Thông tin này sau đó
có thể được phân tích để hiểu cách mã độc hoạt động, phương thức lây lan
và tác động tới hệ thống.
e Báo cáo: Sandbox thực hiện các phân tích động về mã độc, sau đó được
ra báo cáo tổng quát về mã độc đó Từ báo cáo có thể cho biết tổng quan
về các hành vi độc hại của mã độc.
Tuy nhiên, Sandbox không phải là một giải pháp tuyệt đối Các kẻ tấn công
có thể phát triển mã độc nhận biết và tránh những môi trường sandbox thông
thường Do đó, việc sử dụng một số kỹ thuật sandboxing tiên tiến và kết hợp
với các phương pháp phân tích khác nhau là cần thiết để đảm bảo tính hiệu quả
và đáng tin cậy trong quá trình phân tích mã độc.
Trang 282.4 Học sâu
2.4.1 Tổng quan
Deep Learning, hay còn được gọi là học sâu, là một lĩnh vực trong học may
tập trung vào xây dựng và huấn luyện các mạng nơ-ron có khả năng tự học và
cải thiện thông qua việc sử dụng các thuật toán phức tạp Mục tiêu của deep
learning là mô phỏng hành vi của não người để có khả năng "học" từ một lượng lớn dit liệu Trong khi mạng no-ron đơn giản có thể đưa ra dự đoán gần đúng, việc sử dụng các lớp ẩn bổ sung cho phép tối ưu hóa và điều chỉnh mạng để đạt
được độ chính xác cao hơn.
Deep learning hoạt động bằng cách khám phá các cấu trúc phức tạp trong
di liệu mà nó được huấn luyện Điều này thường được thực hiện bằng cách xây
dựng các mô hình tính toán gồm nhiều lớp xử lý, tạo ra một mạng nơ-ron có
khả năng tạo ra nhiều mức độ tritu tượng để biểu diễn dữ liệu.
Lợi thế của học sâu so với học máy cổ điển:
e Khả năng học biểu diễn đặc trưng tự động: Trong học sâu, mạng nơ-ron
sâu có khả năng tự học và tạo ra các biểu diễn đặc trưng phức tạp từ dữ liệu đầu vào Điều này giúp loại bỏ hoặc giảm thiểu sự phụ thuộc vào việc chọn và thiết kế các đặc trưng bằng tay, như trong học máy cổ điển Trong học máy cổ điển, việc tao ra các đặc trưng phức tạp thường đồi hỏi sự can
thiệp của các chuyên gia trong lĩnh vực đó.
e Xử lý dữ liệu không cấu trúc: Học sâu có khả năng làm việc trực tiếp trên
dữ liệu không cầu trúc như hình ảnh, âm thanh va văn bản Trong khi đó,
học máy cổ điển thường yêu cầu việc rút trích đặc trưng và tiền xử lý dữ liệu để biểu diễn chúng dưới dạng các đặc trưng có cấu trúc.
e Hiệu suất và khả năng mở rộng: Mạng no-ron sâu có khả năng học từ dữ
liệu lớn và có thể tổng hợp tri thức phức tạp Nhờ vào cấu trúc lớp nhiều
Trang 29lớp và số lượng lớn các tham số, học sâu có thể học được các mô hình phức tạp hơn và có hiệu suất tốt hơn so với học máy cổ điển trong nhiều nhiệm
vụ như nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên.
e Tự động hóa: Học sâu cho phép tự động hóa quá trình học Một khi mô
hình đã được thiết lập, nó có khả năng tự động học từ dữ liệu mới và cải thiện hiệu suất mà không cần sự can thiệp thủ công Điều này giúp tiết
kiệm thời gian và công sức trong việc xây dựng và duy trì các mô hình máy học.
2.4.2 LSTM - Long short term memory
LSTM (Long Short-Term Memory) là một kiến trúc mang nơ-ron hồi quy
(recurrent neural network - RNN) LSTM được thiết kế để giải quyết nhược điểm của RNN truyền thống trong việc nắm bắt và ghi nhớ các phụ thuộc dai
hạn trong dữ liệu tuần tự.
Lợi thế chính của LSTM nằm ở khả năng lựa chọn giữ lại hoặc quên thông tin
qua các chuỗi dài, từ đó tránh van đề "mất mach gradient" (vanishing gradient)
thường xảy ra trong RNN thông thường.
Mạng LSTM có một cau trúc đặc biệt với các cong (gates) như cổng quên (forget gate), cổng đầu vào (input gate) và cổng đầu ra (output gate), nhằm điều khiển việc truyền thông tin và quyết định thông tin nào cần được lưu giữ
hoặc quên Điều này cho phép LSTM học và ứng dụng các mô hình dự đoán, phân loại hoặc sinh sản dữ liệu tuần tự, như dữ liệu ngôn ngữ tự nhiên, dữ liệu
am thanh, hay chuỗi thời gian.
Một đơn vị LSTM chung bao gồm một cell, một input gate, một output gate
và một forget gate Cell ghi nhớ các giá trị trong khoảng thời gian tùy ý và ba
gate điều chỉnh luồng thông tin input và output LSTM rất phù hợp để classify,
process, và predict có khoảng thời gian không xác định.
Thi tự hoạt động của LSTM(Hinh 2.4):
Trang 30ƒ, là giá trị của Forget Gate tại thời điểm t.
i, là giá trị của Input Gate tại thời điểm t.
uy, là giá trị của Update Gate tại thời điểm t.
Trang 31o; là giá trị của Output Gate tại thời điểm t.
h,_¡ là trạng thái an tại thời điểm trước đó
a, là đầu vào tại thời điểm t.
Wy, Wi, Wu, Wo là các ma trận trọng số
bự, bị, bu, bạ là các vector độ lệch
Bi-LSTM:
Mạng LSTM đã được giới thiệu để giải quyết vấn đề biến mất gradient trong
việc huấn luyện mạng RNN (Recurrent Neural Network) Mang LSTM có kha
năng ghi lại thông tin lâu dài và chủ động quyết định cách thông tin đó được
truyền qua các thời điểm Tuy nhiên, mạng LSTM truyền thống chỉ có thể nhìn thấy thông tin từ quá khứ đến hiện tại, và không thể xem trước được tương lai.
Để vượt qua hạn chế này, Bi-LSTM sử dung hai lớp LSTM song song: một
lớp LSTM truyền thống di từ trái sang phải (forward LSTM) và một lớp LSTM
đi theo hướng ngược lại từ phải sang trái (backward LSTM) Điều này cho phép
Bi-LSTM có khả năng nhìn thấy cả thông tin từ quá khứ và tương lai trong quá
trình dự đoán.
Lợi ích của Bi-LSTM so với mạng LSTM truyền thống là khả năng nắm bắtđược các mối quan hệ phụ thuộc ngữ nghĩa phức tạp hơn trong văn bản Đặc
biệt, Bi-LSTM giúp cho việc xử lý ngôn ngữ tự nhiên trở nên hiệu quả hơn trong
các nhiệm vụ như dịch máy, phân loại cẩm xúc, tạo tiêu đề tự động, và nhiều
ứng dụng khác.
2.4.8 Bi-Gru
Mô hình Bi-GRU (Bidirectional Gated Recurrent Unit) là một mô hình hoc
sâu trong lĩnh vực xử ly ngôn ngữ tự nhiên và chuỗi dữ liệu Nó là một biến thể
của mạng RNN (Recurrent Neural Network) và được sử dụng rộng rãi trong các
tác vụ như dịch máy, nhận dạng giọng nói, phân loại văn bản và phân tích cảm
2
XUCc.
Trang 32Trong mô hình Bi-GRU, chúng ta sử dụng đơn vị GRU làm khối xây dựng
cơ bản GRU là một biến thể của LSTM (Long Short-Term Memory) và được thiết kế để giải quyết vấn đề biến mất gradient trong mạng RNN truyền thống.
GRU giữ lại hai cổng quan trọng là cổng cập nhật (update gate) và cổng đặc
trưng (reset gate) để điều chỉnh luồng thông tin trong quá trình học.
Bi-GRU kết hợp hai mạng GRU song song, một mạng xử lý chuỗi theo thứ tự
xuôi (forward sequence) và một mạng xử lý chuỗi theo thứ tự ngược (backward
sequence) Mang forward sequence đọc di liệu từ trái sang phải trong chuỗi đầuvào, trong khi mang backward sequence đọc dt liệu từ phải sang trái Các đầu ra
từ hai mang này được kết hợp để tạo ra đầu ra cuối cùng của mô hình Bi-GRU.
Sự kết hợp của hai hướng đọc chuỗi cho phép mô hình Bi-GRU có khả năng
hiểu và tận dụng thông tin từ cả hai hướng trong chuỗi dữ liệu Điều này đặc
biệt hữu ích trong các tác vụ như dịch máy, khi một từ hoặc cụm từ trong câu
có thể phụ thuộc vào các từ hoặc cụm từ trước và sau nó Bi-GRU có khả năng
nắm bắt được các mối quan hệ phụ thuộc dài hạn trong ngữ cảnh
Quá trình huấn luyện mô hình Bi-GRU thường sử dụng giải thuật lan truyềnngược (backpropagation) và gradient descent để điều chỉnh các trọng số của
mạng Diều này cho phép mô hình học cách ánh xạ từng phần của chuỗi đầuvào tới đầu ra tương ứng Sau quá trình huấn luyện, mô hình Bi-GRU có khảnăng dự đoán đầu ra cho các đầu vào mới mà nó chưa từng thấy
2.4.4 SMOTE
Phương pháp Synthetic Minority Over-sampling Technique (SMOTE) là một
kỹ thuật oversampling, được sử dung để cân bằng mất cân bằng giữa các lớp trong bài toán phân loại dữ liệu bằng cách tạo ra các mẫu dữ liệu tổng hợp (synthetic samples) SMOTE được phát triển bởi Chawla, Bowyer va Hall vào
năm 2002 va đã trở thành một phương phap quan trọng trong lĩnh vực học máy.
Mat cân bằng dữ liệu xảy ra khi phân phối các lớp trong tập dữ liệu bị lệch,
nghĩa là một số lớp có số lượng ví dụ đáng kể ít hơn so với các lớp khác Điều
Trang 33này có thể gây khó khăn vì nhiều thuật toán máy học thường hoạt động kém
hiệu quả khi các lớp không cân bằng.
SMOTE được sử dụng để tạo ra các mẫu dit liệu nhân tạo cho lớp thiểu số
trong tập dữ liệu Phương pháp này hoạt động bằng cách chọn ngẫu nhiên một
số lượng các ví dụ từ lớp thiểu số và sau đó tạo ra các mẫu tổng hợp mới bằng
cách kết hợp các ví dụ này với các láng giềng gần nhất trong không gian đặctrưng Quá trình này giúp cân bằng số lượng ví dụ giữa các lớp và đồng thờicung cấp thêm đa dạng cho tập dữ liệu
SMOTE hoạt động bằng cách tạo ra các mẫu tổng hợp mới dựa trên một cách kết hợp của các mẫu thiểu số gốc Cu thé, quá trình SMOTE bao gồm các
bước sau:
1 Chon một mẫu ngẫu nhiên thuộc lớp thiểu số.
2 Chọn k-nearest neighbors (k láng giềng gần nhất) của mẫu đó trong không
gian đặc trưng.
3 Chọn một trong các láng giềng gần nhất và tạo ra một mẫu tổng hợp mới
bằng cách lẫy một tỉ lệ giữa mẫu thiểu số gốc và láng giềng đó.
4 Lặp lại các bước trên cho đến khi đạt được số lượng mẫu tổng hợp mong
muốn
2.5 Mulitmodal Learning
Moi thứ xung quanh đều liên quan đến nhiều phương thức khác nhau - chúng
ta nhìn thấy, nghe, cảm nhận, 2.5 Mỗi phương thức đề cập đến đến cách mà
đối tượng tác động đến
Mô hình học may đa phương thức là một lĩnh vực của học máy, nghiên cứu
tập trung về việc xây dựng các thuật toán và mô hình xử lý dữ liệu từ nhiềuthuộc tính khác nhau của một đối tượng nhằm tăng tính hiệu quả, chính xác
Trang 34Attention
Memories
aw pearance
Hình 2.5: Cách nhận biết một đối tượng
hơn so với sử dụng các mô hình học máy đơn lẻ Học máy đa phương thức là
một hướng tiếp cạnh tốt hơn đối với việc sử dụng học máy vào các lĩnh vực khác
nhau [Multimodal Machine Learning: A Survey and Taxonomy]
Trong các phương thức thường thấy của học máy, mỗi mô hình chi sử dung
môi loại dữ liệu để xử lý, đưa ra kết quả Mỗi đối tượng như mã độc đều có nhiều loại thuộc tính khác nhau để biểu hiện hành vi độc lại của mình Việc chỉ
sử dụng một loại thuộc tính chưa thể khái quát được hành vi độc hại của chúng Học máy đa phương thức có thể kết hợp nhiều loại thuộc tính khác nhau và mô
hình chung các thuộc tính của mã độc cho cái hình tổng quan hơn về các hành
vi độc hại của chúng [2]
Sử dụng kết hợp nhiều loại thuộc tính khác nhau đưa ra một vấn đề khác là
về sự đa dạng của dữ liệu được sử dụng Để xây dựng được mô hình học máy đa phương thức cần có tệp dữ liệu biểu diễn được đầy đủ các đặc trưng của từng
loại thuộc tính Việc kết hợp các loại thuộc tính cần sự căn chỉnh và kết hợp cácthuộc tính, đảm bảo rằng thông tin từ các thuộc tính khác nhau được kết hợp
một cách thích hợp để trích xuất các đặc trưng có ý nghĩa.
Trang 352.6 Sysmon - Hệ thống lưu trữ nhật kí trên Windows
Sysmon Monitor ( hay Sysmon) là một tện ích giám sát hệ thống được phát
triển bởi Microsoft Được thiết kế để giám sát và ghi lại hoạt động trên hệ thông
Windows cung cấp chi tiết về quá trình va sự kiện xảy ra trên máy tính
Sysmon theo dõi và ghi lại các hoạt động như khởi động, tắt máy, các sự
kiện mạng, thay đổi quyền truy cập tệp, sự thay đổi trong Registry (cơ sở dữ
liệu đăng ký của Windows), quá trình thực thi của các ứng dụng, và nhiều hoạt
động hệ thống khác Dữ liệu được ghi lại bởi Sysmon có thể được sử dụng để
phân tích bảo mật, giám sát hệ thống và phát hiện các hoạt động đáng ngờ hoặc
không mong muốn trên một máy tính.
Các tính năng mà sysmon đem lại (Hình 2.6):
e Theo dõi sự kiện hệ thống: Sysmon cho phép theo đõi các sự kiện quan
trọng trong hệ thống như quá trình tiến trình (process), tạo và xóa tệp
(file), kết nối mang (network connection), sự thay đổi trạng thái dịch vụ (service state), sự thay đổi Registry và nhiều hon nữa.
e Ghi lai thông tin chi tiết: Sysmon có thể ghi lại thông tin chỉ tiết về các
sự kiện, bao gồm thông tin về quá trình (process) được tạo, tệp (file) được
thao tác, kết nối mạng được thiết lập, và các thay đổi hệ thống Thông tin
này giúp phân tích và phát hiện các hành vi đáng ngờ hoặc các hoạt động
độc hại trong hệ thống
e Giám sát và phát hiện xâm nhập: Sysmon có thể được sử dụng như một
công cụ giám sát hệ thống để phát hiện các hành vi xâm nhập hoặc các hoạt động đáng ngờ Nó có thể cung cấp thông tin về việc thay đổi quyền truy cập tệp, thay đổi thiết lap Registry, kết nối mang không được phép và
các sự kiện khác liên quan đến việc xâm nhập hoặc hoạt động độc hại
e Tích hợp với hệ thống giám sát: Sysmon có thể được tích hợp với các hệ
thống giám sát và phân tích log (log analysis) khác để cung cấp thông tin