1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Nghiên cứu phương pháp phát hiện và ngăn chặn mã độc mã hóa tống tiền

71 7 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương pháp phát hiện và ngăn chặn mã độc mã hóa tống tiền
Tác giả Vừ Hoài Nam
Người hướng dẫn TS. Nguyễn Tấn Cẩm, ThS. Nghi Hoàng Khoa
Trường học Đại học Công nghệ Thông tin - ĐHQG TP.HCM
Chuyên ngành An toàn thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 71
Dung lượng 34,05 MB

Nội dung

Một vấn đề lớn của học máy là dữ liệu đầu vào được sử dụng, dit liệu đầu vào phải đủ các tính năng để mô hình học máy có hiệu suất tốt nhất.. Từ đó, trong khóa luận này, chúng tôi đề xuấ

Trang 1

VÕ HOÀI NAM - 19521876

KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN VÀ

NGAN CHAN MÃ ĐỘC MÃ HÓA TONG TIEN

AN INVESTIGATION ON TECHNIQUES OF RANSOMWARE

DETECTION AND PREVENTION

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUGNG DAN:

TS Nguyén Tan Cam

ThS Nghi Hoang Khoa

TP.H6 Chi Minh - 2023

Trang 2

LỜI CẢM ƠN

Trong quá trình nghiên cứu và hoàn thành khóa luận, nhóm đã nhận được sự

định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời động viên của

các giáo viên hướng dẫn, giáo viên bộ môn, các thành viên trong lớp, inseclab.

Nhóm xin bày tỏ lời cảm ơn tới thầy Phan Thế Duy, thầy Nguyễn Tấn Cẩm,

thầy Nghi Hoàng Khoa đã tận tình trực tiếp hướng dẫn, giúp đỡ trong quá trình

Võ Hoài Nam

Trang 3

CHUGNG 1 TONG QUAN 2

1 Giới thiệu van dé 2 ee 2

.2 Giới thiệu những nghiên cứu liên quan 3

2.1 CABE Sandbox ‹ỌẹB.J / 3 2.2 Mô hình hoc máy đa phương thức 3

3 Tính ứng dụng 0Q 0.002 00 0000 3

4 Những thách thức sa 3

5 Mục tiêu, đối tượng, và phạm vi nghiên cứu 4

5.1 Muc tiêu nghiên ctu ) ee 4

5.3 Phạm vi nghiên đỨU Ặ ch 4

.ð.4 Cau trúc khóa luận tốt nghiệp - 4

CHƯƠNG 2 CƠ SỞ LÝ THUYET 6

2.1 Quy trình tấn công chung của mã độc mã hóa tống tiền 6

2.1.1 Ransomware - Mã độc mã hóa tống tiền 6 2.1.2 Cyber Kill Chain - Quy trình tấn cong 8 2.1.3 Quy trình tấn công đối với mã độc mã hóa tống tiền 10

Trang 4

2.21 Tongquan 0.000.000 eee 11

2.2.2 Tưởng lửa pfšense ees 13

2.2.3 Squid Proxy -Q eee 14

2.3 Phương pháp phân tích động va Sandbox 16

24 Học sâu ee 19 24.1 Tổng quan c2 2 ee 19 2.4.2 LSTM - Long short term memory 20

24.3 BrGru 2 ee 22 244 SMOTE 002 0000000000000 0000 23 2.5 Mulitmodal Learning 00000000005 24 2.6 Sysmon - Hệ thống lưu trữ nhật kí trên Windows 26

27 Tẹptinbấy gag NN .” À 27

2.8 Các công trình nghiên cứu liên quan 29

CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN 30 3.1 Mô hình tổng quất ee ee eee 30 3.2 Luồng hoat động chính 2 0 ee 31 3.3 Phương pháp xây dựng mô hình 33

3.3.1 Tường lửa tích hợp proxy để giám sát các tệp tin được tải 10 ee 33 3.3.2 Phân tích động bằng Sandbox 34

3.3.3 Học máy đa phương thức 35

3.3.4 Hành động ngăn chặn mã độc - 37

CHƯƠNG 4 XÂY DỰNG MÔ HÌNH, THỰC NGHIỆM VÀ ĐÁNH GIÁ 40 4.1 Hiện thực, xây dựng mô hình 40

4.1.1 Firewall Pfsense tích hợp Squid Proxy 40

4.1.2 Quá trình phân tích của Sandbox 42

4.1.3 Học máy đa phương thức 43

Trang 5

4.1.4 Hành động xử lý ñle co 49

4.1.5 Môi trường thực nghiệm 51

42 Kêt quả thực nghiệm ẶẶ Q So 51 4.2.1 Giám sát thông quá Firewall- Proxy 51

4.2.2 Kết quả phan tích từ Sandbox 53

4.2.3 Hiệu suất của mô hình học máy đa phương thức 54

4.2.4 Hành động ngăn chặn file 54

4.2.5 Kết quả toàn bộ mô hình 56

CHƯƠNG 5 KET LUẬN 59

5.1 Kétluan @<—-—“_.sue, www ww we 59

5.2 Hướng phát trien 2 eee 60

TAI LIEU THAM KHAO 61

Trang 6

DANH MỤC CAC KÝ HIỆU, CÁC CHU VIET TAT

Ransomware Mã độc mã hóa tống tiền

API Application Programming Interface

LSTM Long Short Term Memory Gru Gated Recurrent Unit

Bi-LSTM Bi-directional Long Short Term Memory

Bi-Gru Bi-directional Gated Recurrent Unit PE

Portable Executable DLL Dynamic Link Library

1D5 Mmessage-Digest Algorithm SHA Secure Hashing Algorithm CKC Cyber Kill Chain

Trang 7

DANH MUC CAC HINH VE

inh 2.1 Ransomware Family So 7

inh 2.2 Các giai đoạn trong CKC đối với Ransomware 10

inh 2.3 Luồng hoạt động của Proxy co 12 inh 2.4 MôhìnhhLSTM Ặ.ẶẶcSSỢ 21 inh 2ð Cách nhận biết một đối tượng 25

inh 2.6 Sysmon ee 27 inh 3.1 Mô hình tong quát 30

ình 3.2 Luồng hoạt động của mô hình - 32

ình 3.3 Luong hành động ngăn chặn file - 39

inh 4.1 Mô hình Pfsense - Squid Proxy - 40

inh 4.2 Tích hợp Squid trong Pfsense 41

inh 4.3 Đưa têp tin phân tích trên Web UI 42

inh 4.4 Mô hình học máy đa phương thức 43

inh 45 Ty lệ nhãn của Dataset 44

inh 4.6 Thông tin API lấy từ báo cáo phân tích của Sandbox 45

inh 47 Các lớp củaLSTM 46

inh 4.8 Thông tin Process Memory lấy từ báo cáo phân tích của Sandbox 2 - - daa a AT inh 4.9 Các lớp cla BL-GRU 48

inh 4.10 Các lớp sử dụng Concatenate để kết hợp thành MultiModal 49 inh 4.11 Câu lệnh chạy Sysmon 50

ình 4.12 Nhật ký giám sát được Sysmon ghi nhận trong Event Viewer 50 inh 4.13 Mô hình mạng tổng quát 52

ình 4.14 Các tệp tin thực PE được lưu lại và gửi trực tiếp lên Sandbox 52

Trang 8

Hình 4.15 Sandbox dang tiền hành phan tích 53 Hình 4.16 Kết quả phan tích được lưu ở tệp JSON 54

Hình 4.17 Confusion Matrix của mô hình học máy đa phương thức 55

Hình 4.18 Sysmon ghỉ các hoạt động của tệp khả nghỉ 56

Hình 4.19 Tệp bay được rải trên toàn bộ thư mục của máy người dùng 57 Hình 4.20 R-Locker cảnh báo tệp bẫy đang bị truy cập 57

Trang 9

DANH MUC CAC BANG BIEU

Bang 4.1 Cau hình các máy chủ

Bảng 4.2 Thời gian phân tích của các tệp thử nghiệm

Bang 4.3 Hiệu suất của mô hình hoc máy đa phương thức

Trang 10

TÓM TẮT KHÓA LUẬN

Trong những năm gần đây, với sự phát triển chóng mặt của công nghệ, nhiều

công nghện tiên tiến, hiện tại xuất hiện, phục vụ nhu cầu của con người trên

Internet thì đi kèm theo đó là sự nguy hiểm, tác động của các loại mã độc khác nhau cũng phát triển theo các công nghệ, đặc biệt là về Ransomware Với sự tiến

hóa không ngừng ấy, đòi hỏi các nhà nghiên cứu về lĩnh vực an toàn thông tin

phải nghiên cứu, áp dụng nhiều công nghệ khác nhau để phát hiện và ngăn chặn

mã độc mã hóa tống tiền này Một trong những cách được nhiều nhà nghiên cứu

là sử dụng học máy và các phương pháp phân tích.

Sau khi nghiên cứu hướng sử dụng học máy để phát hiện, ngăn chặn mã độc

tống tiền, chúng tôi nhận thấy đây là một hướng đi nhiều tiềm năng Một vấn

đề lớn của học máy là dữ liệu đầu vào được sử dụng, dit liệu đầu vào phải đủ

các tính năng để mô hình học máy có hiệu suất tốt nhất Một cách phân tích đầy đủ các hành vi của mã độc đó là phương pháp phân tích động Dé công

việc này thuận lợi, Sandbox xuất hiện Từ đó, trong khóa luận này, chúng tôi

đề xuất một mô hình phát hiện va năng chặn các tập tin nghi ngờ là mã độc

mã hóa tống tiền bằng cách sử dụng Sandbox phân tích động, trích xuất tính năng làm đữ liệu đầu vào cho các thuật toán học máy nhằm phát hiện mã độc.

Trang 11

CHƯƠNG 1 TONG QUAN

Ở chương này, chúng tôi giới thiệu về vấn đề và các nghiên cứu liên quan.

Đồng thời, trong chương này chúng tôi cũng trình bày phạm vi và cấu trúc của

Khéa luận.

1.1 Giới thiệu vấn đề

Đi kèm theo sự phát triển của công nghệ thì mã độc mã hóa tống tiền cũng

xuất hiện nhiều không kém [6] Đối với các mã độc nói chung và mã độc tống

tiền nói riêng, hành vi tấn công đến mục tiêu luôn tuân theo các quy trình tấn

công nhất định gọi là Cyber Kill Chain [9] Việc nắm rõ các bước tấn công của

mã độc giúp ích rất lớn đối với việc phát hiện và ngăn ngừa chúng.

Trong bối cảnh đó, các nhà nghiên cứu đã và đang áp dụng các kĩ thuật học

máy vào các công cụ phát hiện va phân loại mã độc tống tiền nay [5] Nhờ sự

linh hoạt của các kỹ thuật trích xuất thuộc tính, các thuật toán khác nhau, sự

đa dạng trong dữ liệu đầu làm đã làm cho các kỹ thuật này ngày càng được áp dụng vào thực tế nhiều hơn.

Tuy nhiên, một loại mã độc luôn có nhiều nhiều thuộc tính khác nhau biễu

hiện sự độc hại của nó Một số nghiên cứu chỉ tập trung vào việc sử dụng một

loại thuộc tính để dùng cho mô hình học máy của mình Đôi lúc việc chỉ sử dụng một loại thuộc tính có thể không biễu diễn đủ hành vi độc hại của mã độc.

Nghiên cứu của Daniel Gibert, Carles Mateu và Jordi Planes đã áp dụng nhiều

loại thuộc tính của mã độc để phát hiện mã độc nói chung [2].

Sau khi thử nghiệm, việc sử dụng nhiều loại thuộc tính khác nhau, cho thấy

có hiệu quả tốt hơn so với việc dùng một loại thuộc tính Từ đó, nhóm quyết định dựa vào các quy trình tấn công chung của mã độc và hiệu suất cao đến từ

Trang 12

1.2.2 Mô hinh học may đa phương thức

Mô hình học máy đa phương thức là một trong các lĩnh vực trong trí tuệ nhân

tạo (AT) tập trung vào việc kết hợp và xử lý thông tin từ nhiều dạng thuộc tính

khác nhau như hình ảnh, văn bản, âm thanh, video, v.v Để có được hiểu biết

và khả năng tương tác thông qua nhiều cam quan Trong mô hình này, thông

tin của một đối tượng được biểu diễn qua nhiều cách khác nhau, từ đó kết hợp

với nhau từ đó cho ra mô hình có độ chính xác cao hơn khi nhận biết đối tượng.

1.3 Tính ứng dụng

Đề tài xây dựng mô hình phát hiện Ransomware có thể áp dụng vào mô hình mạng thường xuyên trao đổi thông tin qua Internet Mô hình bán tự động phát

hiện Ransomware dựa trên nhiều lớp khác nhau, đưa ra cảnh báo người dùng

về tính khả nghi của tệp tin.

1.4 Những thách thức

Sử dụng mô hình hoc máy đòi hỏi việc dữ liệu đầu vào cũng như phương pháp

sử lý dữ liệu, xây dựng mô hình để có được hiệu suất tốt rất quan trọng Ngoài

Trang 13

ra việc chỉ sử dung Sandbox để phân tích động va đưa ra báo cáo để sử dung,

chưa sử dụng đầy đủ tính năng của sandbox.

1.5 Mục tiêu, đối tượng, và phạm vi nghiên cứu

1.5.1 Mục tiêu nghiên cứu

Xây dựng mô hình dựa trên sandbox, mô hình đa phương thức nhằm phát

hiện và ngăn chặn mã độc mã hóa tống tiền thực hiện các hành vi độc hại.

1.5.2 Đối tượng nghiên cứu

Đối tượng nghiên cứu:

e Mã độc mã hóa tống tiền

e Sandbox

e Trình phát hiện mã độc dựa trên học máy

e Sysmon, honeyfile

1.5.3 Pham vi nghiên cứu

Phân tích động bằng Sandbox, trích xuất thuộc tính từ báo cáo của Sandbox

va phát hiện têp tin khả nghi là Ransomware.

1.5.4 Cấu trúc khóa luận tốt nghiệp

Chúng tôi xin trình bày nội dung của Luận án theo cấu trúc như sau:

e Chương 1: Giới thiệu tổng quan về đề tài, lý do chọn đề tài của Khóa luận

và những nghiên cứu liên quan.

e Chương 2: Trình bày cơ sở lý thuyết và kiến thức nền tảng liên quan đến

phương pháp sử dụng trong đề tài.

Trang 14

e Chương 3: Phương pháp thực hiện.

e Chương 4: Trình bày thực nghiệm và đánh giá.

e Chương 5: Kết luận và hướng phát triển của đề tài.

Trang 15

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Chương này trình bày cơ sở lý thuyết, các kiến thức nền tang của khóa luận.Bao gồm cái nhìn chung về quy trình tấn công của mã độc nói chung và mã độc

mã hóa tống tiền nói riêng Bên cạnh đó là các phương pháp phân tích mã độc,

mô hình học máy và mô hình đa phương thức.

2.1 Quy trình tan công chung của mã độc mã hóa tống

ox

tién

2.1.1 Ransomware - Mã độc mé hóa tống tiền

Ransomware hay còn được gọi là mã độc mã hóa tống tiền là một loại phần

mềm độc hai được thiết kế để tấn công và khóa chống lại dữ liệu hoặc hệ thống của một người dùng hoặc tổ chức Khi bị tan công bởi ransomware, các tệp tin

trên máy tính hoặc hệ thống mạng sẽ bị mã hóa hoặc khóa lại bởi phần mềm

độc hại này Để có thể đọc, ghi hay sử dụng lại các dữ liệu này thì người dùng phải chuyển một khoản tiền cho kẻ tấn công Sau đó kẻ tấn công gửi khóa để giải mã các dữ liệu Sự gia tăng của ransomware về số lượng và các biến thể của

chúng tăng theo cấp số nhân (Hình 2.1)

Cơ chế hoạt động chung của Ransomware:

e Bước 1: Lây nhiễm: Sau khi xâm nhập được vào máy của nạn nhân bằng

phương thức như thông qua mail, các trang web lừa đảo, lây nhiễm từ các

thiết bị cùng mạng, thì ransomware được tự động thực thi hoặc gián

tiếp do người dùng trên các thiết bị đầu cuối và có thể là tất cả các thiết

bị cùng mạng.

Trang 16

* _ NewSimplocker + Lockerpin

© ScarePackage «© Fakelnst

®© LockDroid © - ScareMeNot * SMSSend *

«© Kovter © ColdBrother © = Agent

« Sypeng ? © Jisut * — Hidden App.

«© Pletor © LockerMaster © Slokcer

© — Fakedefender © Svpeng NewPo rnDroid

Kar To, Ix.Encoder.1 © ElGato

* a:

ar * — Cryptolocker ° Vdeek « — Troldesh © - Cerber© — SpySheritf «SMS ay

* Cryptolocker © Ophioniocker «— TeslaCrypt * Tve3n

Perfomance Ransomware 2 Oboes Ransomrab IS

laser «© — Bootlock « — Ransome rypt ie ColiVeutt 5 :

¬ Satine” ee

5 Km + Sypolocker 3 Goptowel's Hae

«— Dirty ẤT Torrentiocker + — Crytptowall 4 ay

Descrypt ie © Randamant

© Bitcrypt

¢ = Alpha Crypt

Hinh 2.1: Ransomware Family

e Bước 2: Tạo khóa: Các ransomware liên lạc với máy của chúng dé tạo các

khóa cryptographic để mã hóa dit liệu Các khóa này cũng có thể được tạo

từ các thư viện, các hàm có sẵn trên chính máy của nạn nhân.

e Bước 3 - Mã hóa: Sau khi tạo được khóa thì ransomware tiến hành mã

hóa dữ liệu của nạn nhân bằng thuật toán đã được xác định trước

e Bước 4 - Tống tiền: Với việc mã hóa được thực hiện thành công,

ran-somware hiển thị các thông báo về hành vi tống tiền của mình và các

phương thức thanh toán tiền chuộc dữ liệu, đe dọa đữ liệu nếu không thực

hiện.

e Bước 5 - Mỏ khóa: Sau khi được trả tiền chuộc thì có được khóa để giải

mã dữ liệu Nhưng không có gì chắc chắn là khi thanh toán tiền chuộc thì

kẻ tấn công đưa khóa cho nạn nhân

Co 2 loại mã độc mã hóa chính chính:

e Locker Ransomware - Khóa và cấp quyền truy cập máy tính hoặc thiết bi.

Locker Ransomware có thể dé dàng bi phá thông qua các kỹ thuật va cộng

cụ lưu trữ dữ liệu khác nhau.

Trang 17

e Crypto Ransomware — ngăn chặn truy cập vào dữ liệu của nan nhân bằng

cách mã hóa có độ phức tạp cao hơn bởi về các mã độc tống tiền này được

mã hóa bằng các thuật toán mã hóa có cấu trúc phức tạp, hiện đại hầu như

rất khó có thể giải mã hay khôi phục lại dữ liệu trong thời gian ngắn nếu

không có khóa giải mã.

Từ đấy việc phòng ngừa Ransomware xâm nhập là phương pháp đầu tiên và

được khuyến khích nhất trong việc phòng chống ransomware,

2.1.2 Cyber Kill Chain - Quy trành tấn công

2.1.2.1 Quy trinh đối uới mã độc

Theo nghiên cứu của Tooska Dargahi và nhóm của anh [9], đối với các cuộc

tấn công của mã độc nói chung và ransomware thì các cuộc tấn công thường

tuân theo một quy trình gọi là Cyber Kill Chain Cyber Kill Chain thường có

các giai đoạn Cyber Kill Chain được phát triển bởi Lockheed Martin Cyber

Kill Chain hoạt động như một phương pháp theo dõi hoạt động tấn công mang

từ giai đoạn trinh sát ban đầu cho đến khi đánh cắp dữ liệu Nhờ có nó mà cácquản trị viên có thêm kiến thức về ransomware, tấn công APT, vi phạm bao

mật và tìm ra phương án để ngăn chặn chúng.

e Reconnaissance: Giai đoạn quan sát và thu thập thông tin là giai đoạn

quan trọng trong quá trình tấn công Trong giai đoạn này, những kẻ tấn

công thường đánh giá tình hình hệ thống từ bên ngoài và bên trong để xác

định mục tiêu và chiến thuật cho cuộc tấn công Mục tiêu của họ là tìm

kiếm thông tin về các lỗ hong bảo mật và điểm yếu trong hệ thống Dé

thu thập thông tin, những kẻ tấn công thường tập trung vào các mục tiêu

như firewall, hệ thống IPS và tài khoản mang xã hội Họ sử dụng các công

cụ giúp giai đoạn quan sát và thu thập thông tin, ví dụ như việc quét các

mạng của công ty để tìm kiếm lỗ hồng và điểm tiềm năng có thể xâm nhập

và khai thác

Trang 18

e Weaponization:Khi mà kẻ tấn công lên kế hoạch cho cuộc tấn công dựa

vào các lỗ hồng, thông tin mà đã thu thập được từ giai đoạn trước đó Giai

đoạn này được gọi là Weaponization, khi này kẻ tấn công sẽ tạo ra mã độc

hoặc các payload độc hại để sử dụng cho các bước tấn công tiếp theo Tiến trình này có thể bao gồm:

— Thiét kế ra mẫu mã độc mới.

— Sửa đổi chương trình đã tồn tại trước đó để phù hợp hơn với lỗ hổng

của đối tượng đang được nhắm tới nhằm cố gắn khai thác nó

e Delivery: Giai đoạn này kẻ tan công sẽ thực hiện xâm nhập vào hệ thống

mạng của mục tiêu nhằm phát tán mã độc được chuẩn bị trước đó Ỏ

đây các ké tấn công thường sẽ sử dụng những kĩ thuật liên quan tới social

hacking để có thể dễ dàng lây nhiễm vào hệ thống Ví dụ như phát tán qua

email, MSWord hoặc pdf,

e Exploitation: Sau khi phát tan thành công mã độc qua mail hoặc các

dang tấn công khác, bước tiếp theo chúng sẽ thực hiện khai thác các 16 hong

được tìm thấy ở giai đoạn do thám Lúc này kẻ tấn công sẽ thâm nhập sâu

hơn vào mạng của mục tiêu và nghiên cứu thêm nhiều lỗ hổng chưa được

tìm thấy trước đó Đây cũng là bước lây lan ngang sang các máy ở trongcùng mạng với máy mục tiêu nhằm lây lan sức ảnh hưởng rộng khác mạng

Ze

lưới.

e Installation: Đây là giai đoạn được gọi là giai đoạn leo thang đặc quyền

(privilege escalation), là giai đoạn mà kẻ tấn công cố gắng cài mã độc hoặc

triển khai các công cụ khai thác in mạng của mục tiêu để nhận được nhiều

quyền kiểm soát nhất có thể với nhiều hệ thống, tài khoản và dữ liệu Chiến

lược này bao gồm cài cắm mã độc thông qua:

— TroJan horses.

— Access token manipulation.

Trang 19

— Backdoors.

e Command and Control: Diéu quan trọng của cuộc tấn công là việc phát

triển lệnh hoặc kênh kiểm soát nhằm giữ sự kết nối giữa server của kẻ tấn công với máy mục tiêu Sau khi kiểm soát được phần hệ thống hoặc các tài khoản có quyền hạn cao, kẻ tấn công có thể truy vết, giám sát và dẫn dắt người dùng triển khai các công cụ khai thác từ xa.

e Actions on Objectives: Sau khi đã thành lập C2 (C&C) thì đây là lúc mà

hành động chính của cuộc tấn công diễn ra Kẻ tấn công có thể có các mục

tiêu khác ngoài việc truy cập và đánh cắp thông tin riêng tư (exfiltratinginformation private) mà còn mã hoá tệp và từ chối quyền truy cập đối với

dữ liệu của ho Sau khi mã hoá dữ liệu, ké tấn công thường sẽ thực hiệntống tiền của nạn nhân bằng cách tạo ra một thông báo tống tiền cho nạn

Our considered stops for Ransomware feature taxonomy

Cyber Kill Chain (CKC) seven steps

Hình 2.2: Các giai đoạn trong CKC đối uới Ransomware

Nhưng đối với việc phòng chống, phan ứng trước Ransonware thi chỉ tập trung

chủ yêu vào 2 giai đoạn Delivery và Exploitation bởi vì: Ransomware không cần

bước Reconnaissance bởi vì cách thức hoạt chính của nó là đọc và chỉnh sửa file

Trang 20

Việc thăm dò, tìm hiểu các thông tin, lỗ hỏng về mục tiêu là không

cần thiết Các bước quan trọng của Ransomware được khoanh đỏ trong Hình

2.2.

Bước ð hình 2.2: Đối với ransomware thì chỉ cần được kích hoạt thì sẽ tự động

đọc và sửa đổi dữ liệu, không cần cài đặt hay cần cấu hình cái gì cả

Bước 6 hình 2.2: Cách thức tấn công của Ransomware là đọc và chỉnh sửa,

mã hóa các tệp khiến người dùng không thể đọc được dữ liệu ghi trong chúng Ransomware không có khả năng thực hiện các câu lệnh điều khiển Việc che dấu

hay xóa dấu vết là một điều vô nghĩa đối với Ransomware vì mục đích của nó

là mã hóa và tống tiền

Dé phan ứng trước Ransomware, bước 2 va 3 là hai bước cần phải

tập trung ào

e Weaponization: Cần có kiến thức về các thuật toán mã hóa tiên tiến,

cũng như nắm được hành vi của Ransomware

e Delivery: Việc Ransomware xâm nhập vào thiết bị của nạn nhân của yếu

là thông qua Internet Thường cách Ransomware thường được đính kèm

qua các mail, các tệp tải xuống trên Internet Từ đó việc phan ứng ở bướcnày chủ yếu dựa trên ý thức của người dùng

e Exploitation: Cần liệt kê tất cả các cách thức mà Ransomware đọc tệp dé

phan ứng dựa trên từng cách

2.2 Proxy

2.2.1 Tổng quan

Một proxy server hoạt động như một cổng kết nối giữa người dùng và mạng

internet (Hình 4.1) Nó đóng vai trò là một máy chủ trung gian, phân tách người

dùng cuối và các trang web mà họ truy cập thông qua trình duyệt của mình.Ngoài việc chỉ đơn thuần chuyển tiếp các yêu cầu web, các máy chủ proxy hiện

Trang 21

TTF i

Client Proxy Server Internet

Hình 2.3: Luông hoạt động của Proxy

đại còn có nhiều chức năng khác nhằm dam bảo an toàn dữ liệu và tăng hiệusuất mạng

Máy chủ proxy hoạt động như một tường lửa và bộ lọc web, giúp bảo vệ mạng

và người dùng khỏi các mối đe doa từ internet Nó cung cấp các kết nối mạng

chia sẻ và lưu trữ dữ liệu trong bộ nhớ cache để tăng tốc độ truy cập cho các

yêu cầu phổ biến Một máy chủ proxy hiệu quả giúp bảo vệ người dùng và mạng

nội bộ khỏi những nguy cơ không được biết trước ton tại trên internet

Ngoài ra, máy chủ proxy cũng có thể cung cấp mức độ riêng tư cao Nó có thể an danh thông tin cá nhân của người dùng, giấu di địa chi IP thực tế và mã hóa dữ liệu truyền đi để ngăn chặn việc theo dõi truy cập của người dùng.

Tóm lại, máy chủ proxy đóng vai trò quan trọng trong việc cung cấp an ninh

và hiệu suất cho mạng N6 giúp người dùng và mang nội bộ truy cập internetmột cách an toàn hơn, đồng thời bảo vệ sự riêng tư và cải thiện tốc độ truy cập

Proxy server thực tế là một máy tính có địa chỉ IP riêng trên internet Khi

Trang 22

người dùng gửi yêu cầu tới một trang web, yêu cầu đó sẽ trước tiên đi qua proxyserver Proxy server sẽ tiếp nhận yêu cầu từ người dùng và thay mặt người dùnggửi yêu cầu đó tới trang web đích Tương tự, khi website dich gửi lại dit liệu,

proxy server sẽ tiếp nhận và chuyển tiếp dữ liệu đó cho người dùng cuối để hiển

thị trên trình duyệt.

Proxy server có khả năng thay đổi dữ liệu gửi đi từ người dùng mà vẫn giữ được thông tin mà người dùng mong muốn xem Nó có thể thay đổi địa chỉ IP,

vì vậy web server không thể chính xác biết được vị trí địa lý của người dùng

trên thế giới Ngoài ra, proxy server cũng có khả năng mã hoá dữ liệu, đảm bảo

rằng dữ liệu trong kênh truyền đã được mã hoá và không thể đọc được Cuối cùng, proxy server có thể chặn truy cập tới một trang web cụ thể bằng cách dựa

vào dia chi IP.

Tom lai, proxy server thực hiện vai tro trung gian giữa người dùng và trang

web, cho phép thay đổi địa chi IP, mã hoá dữ liệu và chặn truy cập tới các trang

web nhất định

2.2.2 Tưởng lửa pfsense

pfSense là một phần mềm mã nguồn mở, được phát triển dựa trên hệ điều

hành FreeBSD, với mục đích biến một máy tính thông thường thành một thiết

bị tường lửa và bộ định tuyến mạnh mẽ Nó cung cấp một loạt các tính năngmạng như tường lửa, VPN, bộ lọc nội dung, cân bằng tải, proxy và nhiều tính

năng khác.

pfSense ban đầu được phát triển bởi một công ty mang cùng tên, nhưng phiên

bản mã nguồn mở của nó cũng được cung cấp cho cộng đồng sử dụng N6 cómột giao diện quản lý web dễ sử dụng, cung cấp các công cụ và tùy chọn cấu

hình để quản lý và bảo vệ mạng của bạn.

pfSense có kha năng linh hoạt và mở rộng, cho phép người dùng tùy chỉnh và

mở rộng chức năng của nó thông qua việc cài đặt các gói mở rộng (packages).

Điều này giúp pfSense phù hợp cho nhiều môi trường mạng khác nhau, từ mạng

Trang 23

nhỏ đến mạng doanh nghiệp lớn

Các tính năng chính của pfSense bao gồm:

e Tường lửa: pfSense cung cấp khả năng kiểm soát và giám sát lưu lượng

mạng vào ra từ và đến các vùng mạng trong hệ thống mạng của bạn Bạn

có thể thiết lập các quy tắc tường lửa để cho phép hoặc chặn các kết nối dựa trên các tiêu chí như địa chỉ IP, cổng, giao thức và nguồn/nơi đến.

e Bộ lọc nội dung: pfSense có tích hợp các tính năng bộ lọc nội dung, cho

phép bạn kiểm soát và giám sát nội dung truy cập trên mạng Bạn có thể

chặn hoặc hạn chế truy cập vào các trang web, ứng dụng và dịch vụ cụ thể.

e Cân bằng tải: pfSense cho phép bạn phân phối tải trên nhiều đường truyền

mạng hoặc máy chủ, gia tăng hiệu suất và khả năng mở rộng của hệ thống

mạng.

2.2.8 Squid Proxy

Squid proxy là một giải pháp proxy phan mềm mã nguồn mở va tu do, được

sử dụng rộng rãi trong cộng đồng mạng Nó đóng vai trò là một máy chủ proxy,

chuyển tiếp các yêu cầu từ phía client và đồng thời kiểm soát và bảo vệ việc

truy cập Internet của client.

Squid được sử dụng chủ yếu như một caching proxy cho các giao thức nhưHTTP, HTTPS, FTP và nhiều giao thức khác Khi client truy cập vào một tài

nguyên trên Internet, Squid sẽ lưu trữ nội dung của trang web đó vào bộ nhớ

cache Khi có yêu cầu truy cập tiếp theo đến cùng một trang web, Squid có thể

cung cấp nội dung từ bộ nhớ cache mà không cần truy cập lại trang web gốc.Điều này giúp cải thiện thời gian phan hồi và giảm việc sử dụng băng thông

Bên cạnh việc hoạt động như một caching proxy, Squid cũng có khả năng hỗ

trợ các tính năng khác như kiểm soát truy cập và bảo mật No có thể xác thực người dùng, kiểm soát quyền truy cập dựa trên địa chi IP hoặc thông tin xác

Trang 24

thực, giới hạn băng thông, cấu hình quy tắc bộ loc và nhiều tính năng khác để

đảm bảo an toàn và quản lý truy cập Internet của client.

Squid Porxy có thể được triển khai đa dạng ở nhiều mô hình khác nhau Từ

làm Forward proxy đến Transparent proxy hay Reverse Proxy Ngoài ra Squid

Proxy đươc tích hợp trên các hệ thống tường lửa như Pfsense,

Các tính năng chính của Squid Proxy trong pfSense bao gồm:

e Lưu trữ bộ nhớ cache: Squid Proxy trong pfSense cho phép lưu trữ bộ nhớ

cache của các trang web đã được truy cập trước đó Điều này giúp cải thiệnhiệu suất truy cập web bằng cách cung cấp dữ liệu từ bộ nhớ cache thay vìtải lại từ máy chủ gốc Điều này giảm băng thông và tăng tốc độ truy cập

e Kiểm soát truy cập: Squid Proxy trong pfSense cho phép người dùng cấu

hình các quy tắc để kiểm soát truy cập vào web, ứng dụng và dịch vụ cụ thể Người dùng có thể chặn hoặc hạn chế truy cập dựa trên IP, tên miền,

từ khóa, giao thức, cổng và nhiều yếu tố khác.

e Quản lý băng thông: Squid Proxy trong pfSense cung cấp khả năng quản lý

băng thông, cho phép bạn kiểm soát và giám sát việc sử dụng băng thông của các ứng dụng và người dùng trên mạng Bạn có thể thiết lập các giới

hạn băng thông, ưu tiên lưu lượng và quản lý sử dụng băng thông theo

nhóm người dùng hoặc ứng dụng.

e Xác thực người dùng: Squid Proxy trong pfSense hỗ trợ xác thực người

dùng thông qua các phương pháp như xác thực thông qua địa chỉ IP, tên

người dùng và mật khẩu Điều này cho phép bạn áp dụng các chính sách

truy cập dựa trên danh tính người dùng và quản lý quyền truy cập vào các

tai nguyên mang.

e Báo cáo và giám sát: Squid Proxy trong pfSense cung cấp các công cụ va

báo cáo để giám sát và phân tích hoạt động của proxy Bạn có thể xem các

Trang 25

bản ghi nhật ký, thống kê về việc sử dụng băng thông, truy cập web và các

hoạt động khác.

2.3 Phương pháp phân tích động và Sandbox

Kỹ thuật phân tích động là một phương pháp phát hiện mã độc dựa trên theo dõi hành vi của tập tin được thực thi trong thời gian thực Trình chống mã độc

sẽ giám sát các hành động và luồng lệnh của tập tin này Dé thực hiện kỹ thuật

y, cần thiết lập một môi trường thử nghiệm để thực thi mã độc va theo doi

h vi của nó trong môi trường đó Các hành động đáng chú ý bao gồm hoạt

động của các tiến trình, thông tin về thanh ghi, sự thay đổi của các tập tin, thư

mục

lại

, lưu lượng mạng và các kết nối Tat cả các hành vi của mã độc sẽ được ghi

ưới dạng nhật ký để phục vụ cho công việc phân tích và điều tra sau này

Theo cách này, phân tích động tìm cách thu được một số thông tin về thực

Processes va process trees.

Modified system registries

Files va directories created, modified, hoặc deleted

Các kết nối mang

Các giao thức mạng được sử dụng

hân tích động cung cấp gốc nhìn sâu hơn về khả năng của các mã độc so với phân tích tĩnh Phân tích tĩnh sẽ tốt hơn đối với các loại mã độc đã biết, nhưng không cung cấp thông tin cho mã độc phức tạp và mới xuất hiện So với

phân tích tĩnh, phân tích động cho một số ưu điểm:

Trang 26

e Nhận biết được các hành vi độc hại trong môi trường an toàn.

e Các công cụ có thể thực hiện phân tích tự động.

e Phân tích mà không cần xem xét kĩ mã nguồn.

e Phát hiện các mã độc chưa được phát hiện.

e Hỗ trợ việc tìm hiểu khả năng của chương trình, phần mềm mới.

e Dưa ra các báo cáo rõ ràng sau khi phân tích.

Sử dụng Sandbox được coi là một phương pháp tốt nhất để thực hiện phương

pháp phân tích động thuận tiện nhất Sandbox là môitrường được cách ly độc

lập với máy chủ, cho phép thực thi các phần mềm độc hại bằng cách triển khai các cơ chế bảo mật để dam bảo tính toàn vẹn của môi trường thực thi Sandbox

có thể lưu trữ các hành vi của các đối tượng thực thi trên nó Các thông tin này

sẽ được lưu trữ trên Sandbox.

Việc triển khai Sandbox tùy thuộc vào mục đích giám sát Thông thường

Sandbox thường được triển khai trên môi trường ảo hóa Áo hóa được coi là

nhúng một máy ảo trên máy ảo khác N6 có một hệ điều hành máy chủ quản

lý một hoặc nhiều máy khách khác nhau để hệ thống khách không có tác động

đến tính toàn vẹn của hệ thống máy chủ Chức năng đáng chú ý là lưu lại trạng thái hiện tại của máy tại một thời điểm cụ thể Chức năng này có thể giúp máy

ảo có thể khôi phục nguyên trạng trạng thái của máy ảo tại thời điểm nhất định

mà không cần khắc phục các sự cố đã sẵn ra Day là tính năng quan trọng trong

việc phân tích hoạt động của mã độc.

Quy trình hoạt động của Sandbox:

1 Tìm kiểm máy ảo tích hợp đến khởi chạy.

2 Lưu lại trạng thái của máy ảo.

3 Thiết lập các kênh liên lạc, theo dõi hệ thống.

Trang 27

4 Tải các phần mềm cần phân tích lên máy ảo và tiến hành thực thi.

5 Sử dụng các công cụ giám sát để giám sát, theo doi hoạt động của phần mềm Kết quả được lưu trữ để sử dụng cho các báo cáo, công việc sau này.

Để quá trình phân tích hiệu quả tốt nhất, Sandbox cần phải mô phỏng chính

xác hệ thống đang được sử dụng trong thực tế Nếu không, các phần mềm độc

hại có thể phát hiện được.

Sử dụng Sandbox đem lại nhiều khả năng khác nhau:

e Môi trường cô lập: Sandbox tạo ra một môi trường cô lập và độc lập

để chạy mã độc Nó giới hạn các tác động của mã độc chỉ trong phạm vi

sandbox mà không tác động đến hệ thống hoặc mạng bên ngoài Diều này giúp ngăn chặn mã độc gây hại lan truyền và tấn công vào hệ thống chính.

e Giám sát hoạt động: Sandbox theo dõi và ghi lại các hoạt động của mã

độc trong quá trình chạy Ñó ghi lại các tệp tin, registry, mang, và các hoạt

động hệ điều hành khác được thực hiện bởi mã độc Thông tin này sau đó

có thể được phân tích để hiểu cách mã độc hoạt động, phương thức lây lan

và tác động tới hệ thống.

e Báo cáo: Sandbox thực hiện các phân tích động về mã độc, sau đó được

ra báo cáo tổng quát về mã độc đó Từ báo cáo có thể cho biết tổng quan

về các hành vi độc hại của mã độc.

Tuy nhiên, Sandbox không phải là một giải pháp tuyệt đối Các kẻ tấn công

có thể phát triển mã độc nhận biết và tránh những môi trường sandbox thông

thường Do đó, việc sử dụng một số kỹ thuật sandboxing tiên tiến và kết hợp

với các phương pháp phân tích khác nhau là cần thiết để đảm bảo tính hiệu quả

và đáng tin cậy trong quá trình phân tích mã độc.

Trang 28

2.4 Học sâu

2.4.1 Tổng quan

Deep Learning, hay còn được gọi là học sâu, là một lĩnh vực trong học may

tập trung vào xây dựng và huấn luyện các mạng nơ-ron có khả năng tự học và

cải thiện thông qua việc sử dụng các thuật toán phức tạp Mục tiêu của deep

learning là mô phỏng hành vi của não người để có khả năng "học" từ một lượng lớn dit liệu Trong khi mạng no-ron đơn giản có thể đưa ra dự đoán gần đúng, việc sử dụng các lớp ẩn bổ sung cho phép tối ưu hóa và điều chỉnh mạng để đạt

được độ chính xác cao hơn.

Deep learning hoạt động bằng cách khám phá các cấu trúc phức tạp trong

di liệu mà nó được huấn luyện Điều này thường được thực hiện bằng cách xây

dựng các mô hình tính toán gồm nhiều lớp xử lý, tạo ra một mạng nơ-ron có

khả năng tạo ra nhiều mức độ tritu tượng để biểu diễn dữ liệu.

Lợi thế của học sâu so với học máy cổ điển:

e Khả năng học biểu diễn đặc trưng tự động: Trong học sâu, mạng nơ-ron

sâu có khả năng tự học và tạo ra các biểu diễn đặc trưng phức tạp từ dữ liệu đầu vào Điều này giúp loại bỏ hoặc giảm thiểu sự phụ thuộc vào việc chọn và thiết kế các đặc trưng bằng tay, như trong học máy cổ điển Trong học máy cổ điển, việc tao ra các đặc trưng phức tạp thường đồi hỏi sự can

thiệp của các chuyên gia trong lĩnh vực đó.

e Xử lý dữ liệu không cấu trúc: Học sâu có khả năng làm việc trực tiếp trên

dữ liệu không cầu trúc như hình ảnh, âm thanh va văn bản Trong khi đó,

học máy cổ điển thường yêu cầu việc rút trích đặc trưng và tiền xử lý dữ liệu để biểu diễn chúng dưới dạng các đặc trưng có cấu trúc.

e Hiệu suất và khả năng mở rộng: Mạng no-ron sâu có khả năng học từ dữ

liệu lớn và có thể tổng hợp tri thức phức tạp Nhờ vào cấu trúc lớp nhiều

Trang 29

lớp và số lượng lớn các tham số, học sâu có thể học được các mô hình phức tạp hơn và có hiệu suất tốt hơn so với học máy cổ điển trong nhiều nhiệm

vụ như nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên.

e Tự động hóa: Học sâu cho phép tự động hóa quá trình học Một khi mô

hình đã được thiết lập, nó có khả năng tự động học từ dữ liệu mới và cải thiện hiệu suất mà không cần sự can thiệp thủ công Điều này giúp tiết

kiệm thời gian và công sức trong việc xây dựng và duy trì các mô hình máy học.

2.4.2 LSTM - Long short term memory

LSTM (Long Short-Term Memory) là một kiến trúc mang nơ-ron hồi quy

(recurrent neural network - RNN) LSTM được thiết kế để giải quyết nhược điểm của RNN truyền thống trong việc nắm bắt và ghi nhớ các phụ thuộc dai

hạn trong dữ liệu tuần tự.

Lợi thế chính của LSTM nằm ở khả năng lựa chọn giữ lại hoặc quên thông tin

qua các chuỗi dài, từ đó tránh van đề "mất mach gradient" (vanishing gradient)

thường xảy ra trong RNN thông thường.

Mạng LSTM có một cau trúc đặc biệt với các cong (gates) như cổng quên (forget gate), cổng đầu vào (input gate) và cổng đầu ra (output gate), nhằm điều khiển việc truyền thông tin và quyết định thông tin nào cần được lưu giữ

hoặc quên Điều này cho phép LSTM học và ứng dụng các mô hình dự đoán, phân loại hoặc sinh sản dữ liệu tuần tự, như dữ liệu ngôn ngữ tự nhiên, dữ liệu

am thanh, hay chuỗi thời gian.

Một đơn vị LSTM chung bao gồm một cell, một input gate, một output gate

và một forget gate Cell ghi nhớ các giá trị trong khoảng thời gian tùy ý và ba

gate điều chỉnh luồng thông tin input và output LSTM rất phù hợp để classify,

process, và predict có khoảng thời gian không xác định.

Thi tự hoạt động của LSTM(Hinh 2.4):

Trang 30

ƒ, là giá trị của Forget Gate tại thời điểm t.

i, là giá trị của Input Gate tại thời điểm t.

uy, là giá trị của Update Gate tại thời điểm t.

Trang 31

o; là giá trị của Output Gate tại thời điểm t.

h,_¡ là trạng thái an tại thời điểm trước đó

a, là đầu vào tại thời điểm t.

Wy, Wi, Wu, Wo là các ma trận trọng số

bự, bị, bu, bạ là các vector độ lệch

Bi-LSTM:

Mạng LSTM đã được giới thiệu để giải quyết vấn đề biến mất gradient trong

việc huấn luyện mạng RNN (Recurrent Neural Network) Mang LSTM có kha

năng ghi lại thông tin lâu dài và chủ động quyết định cách thông tin đó được

truyền qua các thời điểm Tuy nhiên, mạng LSTM truyền thống chỉ có thể nhìn thấy thông tin từ quá khứ đến hiện tại, và không thể xem trước được tương lai.

Để vượt qua hạn chế này, Bi-LSTM sử dung hai lớp LSTM song song: một

lớp LSTM truyền thống di từ trái sang phải (forward LSTM) và một lớp LSTM

đi theo hướng ngược lại từ phải sang trái (backward LSTM) Điều này cho phép

Bi-LSTM có khả năng nhìn thấy cả thông tin từ quá khứ và tương lai trong quá

trình dự đoán.

Lợi ích của Bi-LSTM so với mạng LSTM truyền thống là khả năng nắm bắtđược các mối quan hệ phụ thuộc ngữ nghĩa phức tạp hơn trong văn bản Đặc

biệt, Bi-LSTM giúp cho việc xử lý ngôn ngữ tự nhiên trở nên hiệu quả hơn trong

các nhiệm vụ như dịch máy, phân loại cẩm xúc, tạo tiêu đề tự động, và nhiều

ứng dụng khác.

2.4.8 Bi-Gru

Mô hình Bi-GRU (Bidirectional Gated Recurrent Unit) là một mô hình hoc

sâu trong lĩnh vực xử ly ngôn ngữ tự nhiên và chuỗi dữ liệu Nó là một biến thể

của mạng RNN (Recurrent Neural Network) và được sử dụng rộng rãi trong các

tác vụ như dịch máy, nhận dạng giọng nói, phân loại văn bản và phân tích cảm

2

XUCc.

Trang 32

Trong mô hình Bi-GRU, chúng ta sử dụng đơn vị GRU làm khối xây dựng

cơ bản GRU là một biến thể của LSTM (Long Short-Term Memory) và được thiết kế để giải quyết vấn đề biến mất gradient trong mạng RNN truyền thống.

GRU giữ lại hai cổng quan trọng là cổng cập nhật (update gate) và cổng đặc

trưng (reset gate) để điều chỉnh luồng thông tin trong quá trình học.

Bi-GRU kết hợp hai mạng GRU song song, một mạng xử lý chuỗi theo thứ tự

xuôi (forward sequence) và một mạng xử lý chuỗi theo thứ tự ngược (backward

sequence) Mang forward sequence đọc di liệu từ trái sang phải trong chuỗi đầuvào, trong khi mang backward sequence đọc dt liệu từ phải sang trái Các đầu ra

từ hai mang này được kết hợp để tạo ra đầu ra cuối cùng của mô hình Bi-GRU.

Sự kết hợp của hai hướng đọc chuỗi cho phép mô hình Bi-GRU có khả năng

hiểu và tận dụng thông tin từ cả hai hướng trong chuỗi dữ liệu Điều này đặc

biệt hữu ích trong các tác vụ như dịch máy, khi một từ hoặc cụm từ trong câu

có thể phụ thuộc vào các từ hoặc cụm từ trước và sau nó Bi-GRU có khả năng

nắm bắt được các mối quan hệ phụ thuộc dài hạn trong ngữ cảnh

Quá trình huấn luyện mô hình Bi-GRU thường sử dụng giải thuật lan truyềnngược (backpropagation) và gradient descent để điều chỉnh các trọng số của

mạng Diều này cho phép mô hình học cách ánh xạ từng phần của chuỗi đầuvào tới đầu ra tương ứng Sau quá trình huấn luyện, mô hình Bi-GRU có khảnăng dự đoán đầu ra cho các đầu vào mới mà nó chưa từng thấy

2.4.4 SMOTE

Phương pháp Synthetic Minority Over-sampling Technique (SMOTE) là một

kỹ thuật oversampling, được sử dung để cân bằng mất cân bằng giữa các lớp trong bài toán phân loại dữ liệu bằng cách tạo ra các mẫu dữ liệu tổng hợp (synthetic samples) SMOTE được phát triển bởi Chawla, Bowyer va Hall vào

năm 2002 va đã trở thành một phương phap quan trọng trong lĩnh vực học máy.

Mat cân bằng dữ liệu xảy ra khi phân phối các lớp trong tập dữ liệu bị lệch,

nghĩa là một số lớp có số lượng ví dụ đáng kể ít hơn so với các lớp khác Điều

Trang 33

này có thể gây khó khăn vì nhiều thuật toán máy học thường hoạt động kém

hiệu quả khi các lớp không cân bằng.

SMOTE được sử dụng để tạo ra các mẫu dit liệu nhân tạo cho lớp thiểu số

trong tập dữ liệu Phương pháp này hoạt động bằng cách chọn ngẫu nhiên một

số lượng các ví dụ từ lớp thiểu số và sau đó tạo ra các mẫu tổng hợp mới bằng

cách kết hợp các ví dụ này với các láng giềng gần nhất trong không gian đặctrưng Quá trình này giúp cân bằng số lượng ví dụ giữa các lớp và đồng thờicung cấp thêm đa dạng cho tập dữ liệu

SMOTE hoạt động bằng cách tạo ra các mẫu tổng hợp mới dựa trên một cách kết hợp của các mẫu thiểu số gốc Cu thé, quá trình SMOTE bao gồm các

bước sau:

1 Chon một mẫu ngẫu nhiên thuộc lớp thiểu số.

2 Chọn k-nearest neighbors (k láng giềng gần nhất) của mẫu đó trong không

gian đặc trưng.

3 Chọn một trong các láng giềng gần nhất và tạo ra một mẫu tổng hợp mới

bằng cách lẫy một tỉ lệ giữa mẫu thiểu số gốc và láng giềng đó.

4 Lặp lại các bước trên cho đến khi đạt được số lượng mẫu tổng hợp mong

muốn

2.5 Mulitmodal Learning

Moi thứ xung quanh đều liên quan đến nhiều phương thức khác nhau - chúng

ta nhìn thấy, nghe, cảm nhận, 2.5 Mỗi phương thức đề cập đến đến cách mà

đối tượng tác động đến

Mô hình học may đa phương thức là một lĩnh vực của học máy, nghiên cứu

tập trung về việc xây dựng các thuật toán và mô hình xử lý dữ liệu từ nhiềuthuộc tính khác nhau của một đối tượng nhằm tăng tính hiệu quả, chính xác

Trang 34

Attention

Memories

aw pearance

Hình 2.5: Cách nhận biết một đối tượng

hơn so với sử dụng các mô hình học máy đơn lẻ Học máy đa phương thức là

một hướng tiếp cạnh tốt hơn đối với việc sử dụng học máy vào các lĩnh vực khác

nhau [Multimodal Machine Learning: A Survey and Taxonomy]

Trong các phương thức thường thấy của học máy, mỗi mô hình chi sử dung

môi loại dữ liệu để xử lý, đưa ra kết quả Mỗi đối tượng như mã độc đều có nhiều loại thuộc tính khác nhau để biểu hiện hành vi độc lại của mình Việc chỉ

sử dụng một loại thuộc tính chưa thể khái quát được hành vi độc hại của chúng Học máy đa phương thức có thể kết hợp nhiều loại thuộc tính khác nhau và mô

hình chung các thuộc tính của mã độc cho cái hình tổng quan hơn về các hành

vi độc hại của chúng [2]

Sử dụng kết hợp nhiều loại thuộc tính khác nhau đưa ra một vấn đề khác là

về sự đa dạng của dữ liệu được sử dụng Để xây dựng được mô hình học máy đa phương thức cần có tệp dữ liệu biểu diễn được đầy đủ các đặc trưng của từng

loại thuộc tính Việc kết hợp các loại thuộc tính cần sự căn chỉnh và kết hợp cácthuộc tính, đảm bảo rằng thông tin từ các thuộc tính khác nhau được kết hợp

một cách thích hợp để trích xuất các đặc trưng có ý nghĩa.

Trang 35

2.6 Sysmon - Hệ thống lưu trữ nhật kí trên Windows

Sysmon Monitor ( hay Sysmon) là một tện ích giám sát hệ thống được phát

triển bởi Microsoft Được thiết kế để giám sát và ghi lại hoạt động trên hệ thông

Windows cung cấp chi tiết về quá trình va sự kiện xảy ra trên máy tính

Sysmon theo dõi và ghi lại các hoạt động như khởi động, tắt máy, các sự

kiện mạng, thay đổi quyền truy cập tệp, sự thay đổi trong Registry (cơ sở dữ

liệu đăng ký của Windows), quá trình thực thi của các ứng dụng, và nhiều hoạt

động hệ thống khác Dữ liệu được ghi lại bởi Sysmon có thể được sử dụng để

phân tích bảo mật, giám sát hệ thống và phát hiện các hoạt động đáng ngờ hoặc

không mong muốn trên một máy tính.

Các tính năng mà sysmon đem lại (Hình 2.6):

e Theo dõi sự kiện hệ thống: Sysmon cho phép theo đõi các sự kiện quan

trọng trong hệ thống như quá trình tiến trình (process), tạo và xóa tệp

(file), kết nối mang (network connection), sự thay đổi trạng thái dịch vụ (service state), sự thay đổi Registry và nhiều hon nữa.

e Ghi lai thông tin chi tiết: Sysmon có thể ghi lại thông tin chỉ tiết về các

sự kiện, bao gồm thông tin về quá trình (process) được tạo, tệp (file) được

thao tác, kết nối mạng được thiết lập, và các thay đổi hệ thống Thông tin

này giúp phân tích và phát hiện các hành vi đáng ngờ hoặc các hoạt động

độc hại trong hệ thống

e Giám sát và phát hiện xâm nhập: Sysmon có thể được sử dụng như một

công cụ giám sát hệ thống để phát hiện các hành vi xâm nhập hoặc các hoạt động đáng ngờ Nó có thể cung cấp thông tin về việc thay đổi quyền truy cập tệp, thay đổi thiết lap Registry, kết nối mang không được phép và

các sự kiện khác liên quan đến việc xâm nhập hoặc hoạt động độc hại

e Tích hợp với hệ thống giám sát: Sysmon có thể được tích hợp với các hệ

thống giám sát và phân tích log (log analysis) khác để cung cấp thông tin

Ngày đăng: 05/10/2024, 00:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN