Phương pháp này có thé phát hiện được các hành vi bất thường thông qua phân tích trích xuất các thuộc tính của từng tiến trình từ đó nhanh chóng phát hiện mã độc.. Chương II: Phương pháp
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA CÔNG NGHỆ THÔNG TIN 1
ĐÈ TÀI: NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC
DUA TREN HANH VI SỬ DỤNG HOC MAY
Giảng viên hướng dan: TS Đỗ Xuân Chợ Sinh viên thực hiện : Nguyễn Thị Hoa
Mã sinh viên : BI17DCA T077
D17CQAT01-B 2017-2022
Đại học chính quy
Hà Nội, 2021
Trang 2HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA CÔNG NGHỆ THÔNG TIN 1
ĐÈ TÀI: NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC
DUA TREN HANH VI SỬ DỤNG HOC MAY
Giang viên hướng dan: TS Đỗ Xuân Chợ
Sinh viên thực hiện : Nguyễn Thị Hoa
Mã sinh viên : B17DCA T077
D17CQAT01-B
2017-2022
Đại học chính quy
Hà Nội, 2021
Trang 3ĐỎ AN TOT NGHIỆP
LỜI CẢM ƠN
Trước tiên, em xin gửi lời biết ơn sâu sắc nhất tới Thầy giáo TS Đỗ Xuân Chợ,người đã tận tình chi bảo và hướng dẫn trong suốt quá trình thực hiện đồ án tốt nghiệpnày Thay luôn là động lực thúc đây em phải cô gắng và chịu khó tim tdi nghiên cứu hơnnữa, giúp em tích lũy được nhiều kiến thức và kinh nghiệm quý báu
Em xin chân thành cảm ơn các Thay, Cô trong Khoa Công nghệ Thông tin 1 nóiriêng và toàn thê các cán bộ của Học viện Công nghệ Bưu chính Viễn thông nói chung đãtạo điều kiện để em có thể học tập và phát triển bản thân trong một môi trường rất tốt.Cảm ơn các Thầy Cô đã mang lại cho em không chỉ kiến thức mà còn cả những kỹ năngsống và làm việc Tất cả sẽ là hành trang hữu ích cho em trên chặng đường dài trong
tương lai.
Em xin gửi lời cảm ơn đến Trung tâm Dịch vụ Công nghệ Thông tin (Viettel
Software Service) đã cung cấp cho em những kiến thức về lập trình, trí tuệ nhân tạo vàtạo điều kiện cho em hoàn thiện đồ án này
Em xin gửi lời cảm ơn tới anh Hoàng Tiến Công, người đã giúp đỡ, hỗ trợ và đưa
ra lời khuyên quý báu giúp em hoàn thành đồ án
Cuối cùng, em xin cảm ơn gia đình, bạn bè, những người anh, người chị đã luônbên cạnh quan tâm, ủng hộ và giúp đỡ nhiệt tình dé bản thân em có thé hoàn thành đồ án
này.
Qua đây, em cũng mong muốn nhận được những ý kiến đóng góp quý báu từ phíaThay Cô giáo phản biện và Hội đồng bảo vệ đồ án tốt nghiệp
Xin chân thành cảm on!
Hà Nội, ngày 04 tháng 01 năm 2022
Sinh viên thực hiện
Nguyễn Thị Hoa
NGUYEN THỊ HOA - D17CQAT01-B 1
Trang 4ĐỎ AN TOT NGHIỆP
NHAN XÉT, ĐÁNH GIA, CHO DIEM
(Của Người hướng dẫn)
Điểm: (bằng chữ: 2 c2: )Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp?
Hà Nội, ngày thang năm 20
CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN
(ký và ghi rõ họ tên)
NGUYEN THỊ HOA - D17CQAT01-B
Trang 5ĐỎ AN TOT NGHIỆP
NHAN XÉT, ĐÁNH GIÁ, CHO DIEM
(Của Người phản biện)
Điểm: (bằng chữ: 2 c2: )Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp?
Hà Nội, ngày thang năm 20
CÁN BỘ - GIẢNG VIÊN PHẢN BIỆN
(ký và ghi rõ họ tên)
NGUYEN THỊ HOA - D17CQAT01-B
Trang 6ĐỎ AN TOT NGHIỆP
MỤC LỤC
LOT CAM ƠN, 55-55 212221 22122112712211211221121121111211011211011.1011.111.1 11.1 ee 1
NHAN XÉT, DANH GIA, CHO DIEM o.0 ccccccccsscssscsssessessesssessesssessesssessesssessessesseesses 2
NHAN XÉT, DANH GIA, CHO DIEM 0 ccccccccsccsssesssessessecssessesssessesssessesssessesssesseesses 3
MỤC LLỤC 2-252 S222 2E22211221222127112711271.22112T112211211211211111211 0110 erree 4
DANH MỤC BẢNG 2-5-2221 22122122112711211221121102112111112111121121101 11.1 ye 6
DANH MỤC HÌNH ẢNH 22-22 222 EEE22112211 221121121121 E1 Eeerree 7
DANH MỤC CÁC TỪ VÀ THUẬT NGỮ VIET TẮTT 2 z+2zz+2zz2z+zz+ 8 LOT MO DAU 22-222 221222122712711 7112712 2711221121121121121.11 11.1 ree 9 CHUONG I: TONG QUAN VE MÃ ĐỘC VÀ PHƯƠNG PHÁP PHÁT HIỆN 11
1.1 Tổng quan về mã độc 2-2 + ++2+Ex+2EE+EEt2EE27X2E1571122171122171 221 111.LI Khái niệm về mã d66 cccceccccceccecsessessessesssssssssssessessessessessessecsessesssssssessesscess 11VU T7: ro n.a ĂHĂ))) 11
1.1.3 Các nguy cơ về An toàn thông tin liên quan đến mã độc 16
1.2 Phuong pháp phát hiện - Án ng HH HH Hư nh 20
1.3 Kết chương 52- S2 2E 2E222211211221211211 1111212121121 cre 21
CHUONG II: PHƯƠNG PHÁP PHAT HIỆN MA DOC TREN MAY TRAM SU
DỤNG HỌC MÁY -22- 2< 2222211221122112221221121121121112111 2110111101 22
2.1 Tổng quan phương pháp tiếp cận ¿2c 2c t2 2221021211212 222.2 Phương pháp tổng hợp và trích xuất hành vi mã độc - 222.2.1 Kiến trúc mô hÌHÏ - 5-55 SE E E2 21221 221121121211211.11211 ke ea 232.2.2 Xây dựng NO sơ tiễn trình -+©5¿+Sz+E SE 2221121111112 re 24
2.2.3 Tổng hợp và trích xuất thuộc tính dựa trên mô hình Sạn2Vec 28 2.2.4 Tổng hop và trích xuất thuộc tính dựa trên mô hình Graph2Vee 29
NGUYEN THỊ HOA - D17CQAT01-B 4
Trang 7ĐỎ AN TOT NGHIỆP
2.3 Phương pháp phát hiện mã độc . - Gà SH Hit 33
VI NcL nu, an nen e < ồ 33
2.3.2 Multi-layer Perceptron (ÌM[LP), 1S Sky ớt 35
2.4 Kết chương 2-2 sex 2 19E12112712111112111112111111111121121111 110111 37
CHƯƠNG III: THỰC NGHIỆM VÀ DANH GIÁ 22-2©5222++£x2zxczzze 383.1 BO dif ligu thre 1/0 1 e 38
3.2 Kịch bản thử nghiệm - HH HH HH HH TT ng HH 39
KKSM u62 nan 40
3.4 Một số kết quả thực nghiệm 2 2© 2+SE‡EESEEEEEEEEE211271211 712112 40
3.4.1 Kết quả thực nghiệm kịch bản l -2- 55+ SScSEcEEEeSEEEkeErerkrererrree 403.4.2 Kết quả thực nghiệm kịch bản 2 (S5 St TT E122 433.5 Kết c€hương - 2 sex 2E 212112112112112112111111111111111111211111111 211 11 1 H0 46009.9507575 ố 41
DANH MỤC TAI LIEU THAM KHAO 22 52+2E2+2E£+£EE+£EEt£EEtzEErrrxrrrrcee 49
NGUYEN THỊ HOA - D17CQAT01-B 5
Trang 8DANH MUC BANG
Danh sách thuộc tính trong một tiến trình -. :c+sx+xvx£EcEeEtrEerxreererrsree 26Thống kê số lượng mẫu mã độc 2-2 2 2+ +E+£E££E££E£2E++EE2EE+EE+Exerxsred 38Thống kê thành phan và số lượng file bình thường - 2-2 s2 s22 38Kết quả thực nghiệm sử dụng thuật toán Sequence-RF -s- 2-52 41Kết quả thực nghiệm sử dung mô hình Sequence-MLP 2- 5-52 42Kết quả thực nghiệm sử dụng mô hình Graph2Vec-RE -¿-5- 44Kết quả thực nghiệm sử dụng mô hình Graph2Vec-MLP -«- + 44
NGUYEN THỊ HOA - D17CQAT01-B 6
Trang 9ĐỎ AN TOT NGHIỆP
DANH MỤC HINH ANH
Hình 1.1: Báo cáo dự đoán về thiệt hại do tội phạm mạng gây ra (Cybersecurity
Hình 1.2: Thống kê tổng số mã độc trong 10 năm qua (AV-TEST Security Report
°\IbJ0)20) Sr‹c ÔỎ 18
Hình 1.3: Tỷ lệ tấn công đào tiền ảo theo khu vực trên thế giới (Theo báo cáo an ninh
mang Quy I/2021 của Vina SpIT€) + 2 11991 21991 TH nh ng ngàng nà 19
Hình 2.1: Mô hình phát hiện mã độc trên máy người dung dựa trên phân tích hồ sơ tiến
trình sử dụng học MAY - - «+ kg HT nh nhà 23
Hình 2.2: Ví dụ về kiến trúc của hồ sơ tiến trình dạng cây tiến trình - 27
Hình 2.3: Mô hình Sqn2Vec-SIM và Sqn2Vec-SEPP - - cà kiệt 29
Hình 2.4: Mô hình phân tích và phân loại hồ sơ tiến trình :-¿zz+c5z: 30
Hình 2.5: Mô hình dao tao skip ØTa1m - + 111v HH HH HH ng ng 32
Hình 2.6: Ví dụ về việc học bang cách kết hợp nhiều mô hình của thuật toán RE 34Hình 2.7: Một ví dụ đơn giản về thuật toán Random FOrest - - + + ecx+xvzx+xezees 35
Hình 2.8: Cách MLP hoạt động - - t9 99191112 911g HH HH ng ng 36Hình 3.1 Kết quả confusion matrix của thuật toán RF và MLP trên mô hình Sqn2Vec 42Hình 3.2 Kết qua confusion matrix của thuật toán RF và MLP trên mô hình Graph2Vec
NGUYEN THỊ HOA - D17CQAT01-B 7
Trang 10ĐỎ AN TOT NGHIỆP
DANH MỤC CÁC TỪ VÀ THUẬT NGỮ VIET TAT
Ký hiệu Tên Tiếng Anh Ý nghĩa Tiếng Việt
Dos Denial of Service Từ chối dịch vụ
loT Internet of things Internet van vat
MD5 Message- Digest algorithm 5 Thuật toán Tiêu hóa-tin nhắn 5
NPM Node Package Manager Trình quản lý gói nút
PV Paragraph Vector Vecto tham số
SP Sequential pattern satisfying Mẫu tuân tự đáp ứng
USB Universal Serial Bus Bus nối tiếp đa năng
WH Weights hidden layer Trọng số lớp ân
NGUYEN THỊ HOA - D17CQAT01-B
Trang 11ĐỎ AN TOT NGHIỆP CHUONG I
LOI MO ĐẦU
Xã hội ngày càng hiện đại hóa cùng với đó là sự bùng nỗ của Internet kéo theo sựgia tăng của các cuộc tấn công của các hacker nhằm vào các cá nhân, tô chức Theo đó sốlượng các loại mã độc cũng nhân lên nhanh chóng Các phương pháp phát hiện cảnh báo
mã độc hiện nay chủ yếu là sử dụng signature-based thông qua tập luật và anomaly-baseddựa vào hành vi tìm ra bất thường Tuy nhiên, chúng còn ton tại một số hạn chế và chưađược hiệu quả Đồ án này tập trung nghiên cứu phương pháp phát hiện mã độc dựa trênhành vi sử dụng học máy Phương pháp này có thé phát hiện được các hành vi bất thường
thông qua phân tích trích xuất các thuộc tính của từng tiến trình từ đó nhanh chóng phát
hiện mã độc Đồ án sử dụng mô hình phân loại dựa trên Graph2Vec xây dựng đồ thị cóhướng từ đó thé hiện được mối liên kết giữa các node trong đồ thị Phương pháp này cókhả năng phát hiện mã độc cao hơn, dé duy trì và phát triển dé có khả năng đạt độ chính
xác cao.
Do án gôm có ba chương với nội dung như sau:
Chương I: Tổng quan về mã độc và phương pháp phát hiện: Đưa ra các kháiniệm về mã độc cũng như thông tin liên quan như phân loại mã độc, các loại mã độc phổbiến Ngoài ra, các nguy cơ về An toàn thông tin liên quan đến mã độc cũng như thựctrạng về An toàn thông tin trên thế giới liên quan cũng được đề cập
Chương II: Phương pháp phát hiện mã độc trên máy trạm sử dụng học máy:Tại đây sẽ trình bày về phương pháp phát hiện mã độc với hai hướng tiếp cận xử lý dựatrên Sqn2Vec và Graph2Vec sau đó thực hiện phân loại sử dung RF và MLP.
Chương III: Thực nghiệm đánh giá: Cài đặt và thử nghiệm: giới thiệu tập dữ
liệu sử dụng, trình bày quá trình tiền xử lý dữ liệu và quá trình huấn luyện cũng như pháthiện tan công Qua đó đưa ra các kết quả đánh giá chung cho tính hiệu quả của mô hình
Do còn nhiêu hạn chê vê kiên thức chuyên sâu cũng như thời gian thực hiện nên
đồ án không thê tránh khỏi những sai sót Vì vậy em rất mong nhận được ý kiến đóng góp
NGUYEN THỊ HOA - D17CQAT01-B 9
Trang 12ĐỎ AN TOT NGHIỆP CHUONG I
cua thay cô va các bạn sinh viên đê em có thé nâng cao kiên thức phục vu cho quá trình làm việc sau này.
NGUYEN THỊ HOA - D17CQAT01-B 10
Trang 13ĐỎ AN TOT NGHIỆP CHUONG I
CHUONG I: TONG QUAN VE MA DOC VA PHUONG PHAP PHAT HIEN
Chương I trình bày khái nhiệm về mã độc và các thông tin liên quan như: phânloại mã độc, các loại mã độc phổ biến Ngoài ra, các nguy cơ về An toàn thông tin liênquan đến mã độc cũng như thực trạng về An toàn thông tin trên thé giới liên quan cũng
máy tính Phần mềm độc hại là một thuật ngữ chung được sử dụng dé mô tả vi rút, phần
mềm tống tiền, phần mềm gián điệp, Trojan và bất kỳ loại mã hoặc phần mềm nào khácđược xây dựng với mục đích xấu
1.1.2 Phân loại ma độc
Ban đầu các phần mềm độc hại được tạo ra bằng cách sống kí sinh và lây nhiễmtrên các vật chủ là các chương trình có chứa các nội dung thực thi Các dạng chương trìnhđộc hại kiêu khác là các chương trình mã độc mà tự chúng có khả năng thực thi một cáchđộc lập trên các phần mềm hệ thống mà không cần kí sinh trên các vật chủ là các chương
- Sự tăng trưởng về số lượng của phần mềm độc hại mô tả sự thay đổi tổng thé
trong đó có số lượng lớn các trường hợp là do tự nhân bản.
- Phần mềm độc hại ký sinh yêu cầu một số chương trình mã thực thi khác dé tồn
tại.
NGUYEN THỊ HOA - D17CQAT01-B 11
Trang 14ĐỎ AN TOT NGHIỆP CHUONG I
Dưới đây là một số loại mã độc phô biến [28]:
- Virus boot: Boot virus hay còn gọi là virus boot, là loại virus lây vào boot sector
hoặc master boot record của 6 đĩa cứng Day là các khu vực đặc biệt chứa các dữ
liệu dé khởi động hệ thống, nạp các phân vùng Boot Virus được thực thi trước
khi hệ điều hành được nạp lên vì vậy nó hoàn toàn độc lập với hệ điều hành Virus có nhược điểm là khó viết do không thể sử dụng các dịch vụ, chức năng cósẵn của hệ điều hành và kích thước virus bị hạn chế bởi kích thước của cácsector (mỗi sector chỉ có 512 byte) Ngày nay gần không còn thấy sự xuất hiện
B-của Boot Virus do đặc điểm lây lan chậm và không phù hợp với thời đại Internet.
- Macro virus: Day là loại virus đặc biệt tan công vào chương trình trong bộ
Microsoft Office của Microsoft: Word, Excel, Powerpoint Macro là tính nang
hỗ trợ trong bộ công cụ văn phòng Microsoft Office cho phép người sử dung lưu
lại các công việc cần thực hiện lại nhiều lần Thực tế hiện nay cho thấy virus
macro gan nhu da “tuyét chung”.
- Scripting virus: Scripting virus là loại virus được viết bang các ngôn ngữ script(kịch ban) như VBScript, JavaScript, Batch script Những loại virus nay thường
có đặc điểm dễ viết, dé cài đặt Chúng thường ty lây lan sang các file script khác,
thay đổi nội dung cả các file html dé thêm các thông tin quảng cáo, chèn banner Day cũng là một loại virus phát triển nhanh chóng nhờ sự phổ biến của
Internet.
- File virus: Virus này chuyên lây vào các file thực thi (ví dụ file có phan mở rộng.com, exe, dll) một đoạn mã dé khi file được thực thi, đoạn mã virus sẽ đượckích hoạt trước và tiếp tục thực hiện các hành vi phá hoại, lây nhiễm Loại virusnày có đặc điểm lây lan nhanh và khó diệt hơn các loại virus khác do phải xử lýcắt bỏ, chỉnh sửa file bị nhiễm File Virus có nhược điểm là chỉ lây vào một sốđịnh dang file nhất định và phụ thuộc vào hệ điều hành F-Virus vẫn t6n tại tớingày nay với những biến thé ngày càng trở nên nguy hiểm, phức tạp hơn
NGUYEN THỊ HOA - D17CQAT01-B 12
Trang 15ĐỎ AN TOT NGHIỆP CHUONG I
- Trojan horse: Tên của loại virus này được lay theo một điền tích cổ Trong cuộcchiến với người To-roa, các chiến binh Hy Lạp sau nhiều ngày không thể chiếmđược thành đã nghĩ ra một kế, giảng hòa rồi tặng người dân thành Tơ-roa một
con ngựa gỗ không lồ Sau khi ngựa gỗ được đưa vào thành, đêm đến các chiến
binh Hy Lạp từ trong ngựa gỗ chui ra đánh chiếm thành Đây cũng chính là cách
mà các Trojan horse (gọi tắt là Trojan) áp dụng: các đoạn mã của Trojan được
“che giấu” trong các loại virus khác hoặc trong các phần mềm máy tính thông
thường để bí mật xâm nhập vào máy nạn nhân Khi tới thời điểm thuận lợi chúng
sẽ tiến hành các hoạt động ăn cắp thông tin cá nhân, mật khẩu, điều khiển máy
tính nạn nhân Bản chất của Trojan là không tự lây lan mà phải sử dụng phần
khiển — Botnet — rồi thực hiện các vụ tan công từ chối dịch vụ (DoS — Denial of
Service).
- Adware va Spyware: Day là loại Trojan khi xâm nhập vào máy tinh với mục đích quảng cáo hoặc “gián điệp” Chúng đưa ra các quảng cáo, mở ra các trang web,thay đồi trang mặc định của trình duyệt (homepage) gây khó chịu cho người
sử dụng Các phần mềm này cài đặt các phần mềm ghi lại thao tác bàn phím(keylogger), ăn cắp mật khẩu và thông tin cá nhân
- Worm (sâu máy tính): Cùng với các loại mã độc máy tính như Trojan,WannaCry, Worm (sâu máy tính) là loại virus phát triển và lây lan mạnh mẽ nhất
hiện nay nhờ mang Internet Vào thời diém ban đâu, Worm được tao ra chỉ với
NGUYEN THỊ HOA - D17CQAT01-B 13
Trang 16ĐỎ AN TOT NGHIỆP CHUONG I
mục đích phat tán qua thư điện tử — email Khi lây vào máy tinh, chúng thực hiện
tìm kiếm các số địa chỉ, danh sách email trên máy nạn nhân rồi giả mạo cácemail để gửi bản thân chúng tới các địa chỉ thu thập được Các email do wormtạo ra thường có nội dung “giật gân”, hoặc “hấp dẫn”, hoặc trích dẫn một emailnào đó ở máy nạn nhân dé ngụy trang Điều này khiến các email giả mạo trở nên
“thật” hơn và người nhận dễ bị đánh lừa hơn Nhờ những email giả mạo đó mà
Worm lây lan mạnh mẽ trên mạng Internet theo cấp số nhân Bên cạnh Wormlây lan theo cách truyền thống sử dụng email, Worm hiện nay còn sử dụngphương pháp lân lan qua ô USB Thiết bị nhớ USB đã trở nên phô biến trên toànthế giới do lợi thế kích thước nhỏ, cơ động và trở thành phương tiện lây lan lýtưởng cho Worm Dựa đặc điểm lây lan mạnh mẽ của Worm, những kẻ viết virus
đã đưa thêm vào Worm các tính năng phá hoại, ăn cắp thông tin , Worm đã trởthành “bạn đồng hành” của những phần mềm độc hại khác như BackDoor,
Adware
- Rootkit: Rootkit ra đời sau các loại virus khác, nhưng rootkit lại được coi là mộttrong những loại virus nguy hiểm nhất Bản thân rootkit không thực sự là virus,đây là phần mềm hoặc một nhóm các phần mềm máy tinh được giải pháp dé canthiệp sâu vào hệ thống máy tính (nhân của hệ điều hành hoặc thậm chí là phầncứng của máy tính) với mục tiêu che giấu bản thân nó va các loại phần mềm độchại khác Với sự xuất hiện của rootkit, các phần mềm độc hại như trở nên “vôhình” trước những công cụ thông thường thậm chí vô hình cả với các phần mềmdiệt virus Việc phát hiện mã độc và tiêu diệt virus trở nên khó khăn hơn rấtnhiều trước sự bảo vệ của rootkit — vốn được trang bị nhiều kỹ thuật mới hiệnđại Xuất hiện lần đầu trên hệ thống Unix từ khá lâu, nhưng ké từ lần xuất hiện
“chính thức” trên hệ điều hành Windows vào năm 2005, Rootkit đang dần trởnên phô biến và trở thành công cụ che giấu hữu hiệu cho các loại phần mềm độc
hại khác.
NGUYEN THỊ HOA - D17CQAT01-B 14
Trang 17ĐỎ AN TOT NGHIỆP CHUONG I
- Botnet: là những máy tính bị nhiễm virus và điều khiển boi Hacker thông quaTrojan, virus Hacker lợi dụng sức mạnh của những máy tính bị nhiễm virus déthực hiện các hành vi tấn công, phá hoại, ăn cắp thông tin Thiệt hại do Botnet
gây ra thường rat lớn.
- Biến thể: Một hình thức trong cơ chế hoạt động của virus là tạo ra các biến thểcủa chúng Biến thé của virus là sự thay đổi mã nguồn nhằm các mục đích tránh
sự phát hiện của phần mềm diệt virus hoặc làm thay đôi hành động của nó
- Virus Hoax: Đây là các cảnh báo giả về virus Các cảnh bảo giả này thường núp dưới dạng một yêu cầu khân cấp để bảo vệ hệ thống Mục tiêu của cảnh báo
virus giả là cố gang lôi kéo mọi người gửi cảnh báo càng nhiều càng tốt quaemail Bản thân cảnh báo giả là không gây nguy hiểm trực tiếp nhưng những thưgửi để cảnh báo có thé chữa mã độc hại hoặc trong cảnh báo giả có chứa các chỉdẫn về thiết lập lại hệ điều hành, xóa file làm nguy hại tới hệ thống Kiểu cảnhbáo giả này cũng gây tốn thời gian và quấy rối bộ phận hỗ trợ kỹ thuật khi cóquá nhiêu người gọi đên và yêu câu dịch vụ.
Các mã độc này thường được sử dụng rộng rãi với nhiều mục đích khác nhaunhắm vào các cơ quan chính phủ, các công ty để thu thập các thông tin được bảo vệ hoặclàm gián đoạn các hoạt động của các cơ quan tổ chức Ngoài ra các dữ liệu thông tin nhạycảm của người dùng như chỉ tiết nhận dạng cá nhân, tài khoản ngân hang thẻ tín dung,
cũng thường xuyên trở thành mục tiêu của các phần mềm mã độc Vì vậy cần thực hiện
một số các biện pháp thích hợp dé ngăn chặn chúng
NGUYEN THỊ HOA - D17CQAT01-B 15
Trang 18ĐỎ AN TOT NGHIỆP CHUONG I
1.1.3 Các nguy cơ về An toàn thông tin liên quan đến mã độc
1.1.3.1 Thực trang An toàn thông tin năm 2021
Cuộc cách mạng công nghiệp lần thứ tư đang diễn ra mạnh mẽ trên toàn cầu và cótác động đến mọi mặt đời sống kinh tế, xã hội, tạo nên nhiều động lực mới cho sự pháttriển của mỗi quốc gia, t6 chức Trong bối cảnh các hệ thống công nghệ thông tin, dịch
vụ gia tăng với tốc độ nhanh chóng, kèm theo những thách thức không nhỏ về các van déđảm bảo an toàn thông tin cho các hệ thống
Tội phạm mạng luôn là mối đe dọa lớn nhất đối với mọi công ty, tô chức trên thếgiới Theo Cybersecurity Ventures dự đoán, tội phạm mạng sẽ tiêu tốn của thế giới 6.000
tỷ USD mỗi năm vào năm 2021, tăng từ 3.000 tỷ USD vào năm 2015 [29] Con số rat lớnnày thê hiện sự phát triển mạnh mẽ về mặt công nghệ, đồng nghĩa với kéo theo các rủi ro
ngay càng gia tăng trên môi trường mạng.
O TRILLION
Hình 1.1: Báo cáo dự doan về thiệt hai do tội phạm mang gây ra (Cybersecurity
Ventures)
Theo Báo cáo Rui ro Toàn cầu của Diễn đàn Kinh tế Thé giới năm 2021, rủi ro
mạng tiếp tục được xếp hạng trong số các rủi ro toàn cầu [30] Đại dịch COVID-19 đã
NGUYEN THỊ HOA - D17CQAT01-B 16
Trang 19ĐỎ AN TOT NGHIỆP CHUONG I
đây nhanh việc áp dụng công nghệ, nhưng đồng thời cũng bộc lộ các lỗ hồng an ninh
mạng lớn và vô cùng nghiêm trọng.
Trong những thang đầu năm, hàng loạt vụ tan công mạng quy mô lớn diễn ra trêntoàn cầu, điển hình như vụ việc tin tặc Triều Tiên đã cố găng đột nhập vào hệ thống máytính của công ty dược phâm Pfizer đề lấy thông tin về vắc-xin và phương pháp điều trịCOVID-I9; hay sự việc tin tặc Trung Quốc đã nhắm mục tiêu vào phần mềm emaildoanh nghiệp của Microsoft để đánh cắp dữ liệu từ hơn 30.000 tổ chức trên khắp thégidi; [31] Thang 4/2021, Forbes cho biết số điện thoại va dữ liệu cá nhân của 533 triệu
người dùng Facebook đã bị rò rỉ [32] Bên cạnh đó, các cuộc tấn công gần đây chống lại
FireEye và SolarWinds nhân mạnh mức độ nhạy cảm của các vấn đề chuỗi cung ứng và
sự phụ thuộc vào các nhà cung cấp chức năng và dịch vụ công nghệ thông tin Mới đây10/2021, thư viện Javascript trên NPM bị hacker tan cong dé cai dat phan mềm độc hai
[33] UAParse.Js là một thư viện JavaScript phổ biến với hơn 6 triệu lượt tải xuống hàng tuần đã bị tan công và chèn phần mềm độc hại, nhằm đánh cắp tiền điện tử và mật khẩu
của người dùng.
Theo báo cáo của tô chức AV-TEST (AV-TEST Security Report 2019/2020)[34],
số lượng mã độc ngày càng tăng cao theo mỗi năm Với tổng số mã độc tính đến tháng
3-2020 đã đạt tới 677,66 triệu mã độc các loại.
NGUYEN THỊ HOA - D17CQAT01-B 17
Trang 20ĐỎ AN TOT NGHIỆP CHUONG I
AVTESTTa letepssdssl [T“besrffy Amiififu
thầm xâm nhập và khống chế thiết bị của nạn nhân, biến nó thành một công cụ dưới sự
kiểm soát của chúng Một trong những xu hướng hiện nay là tin tặc thường lợi dụng tàinguyên của những máy tinh mà chúng đã chiếm quyền kiểm soát dé thực hiện việc đàotiên ảo, hoặc dùng đê tân công từ chôi dịch vụ vào hệ thông mạng, dịch vụ của tô chức.
NGUYEN THỊ HOA - DI7CQAT01-B 18
Trang 21ĐỎ AN TOT NGHIỆP CHUONG I
Hình 1.3: Tỷ lệ tắn công dao tién ảo theo khu vực trên thé giới (Theo báo cáo an ninh
mang Quy I⁄202] cua VinaAspire)
Thi trường an ninh thông tin toàn cầu được dự báo sẽ trị giá trên 170 tỷ USD vào
năm 2022 và trong năm 2021 [35], các thiết bị được kết nối dự kiến sẽ đạt 27 tỷ thiết bịtrên toàn cầu, được thúc day bởi các xu hướng như sự gia tăng của 5G, IoT và các hệthống thông minh
Với diễn biến khó lường của đại dịch COVID-19, xu hướng chuyên đổi không
gian làm việc, làm việc từ xa, từ công sở thành làm việc tại nhà (work from home), càng
làm phức tạp, gia tăng thêm các mối nguy hiểm trên không gian mạng Thậm chí, ngay cả
khi giai đoạn hoạt động của dịch COVID-19 có thể được kiểm soát vào các năm sau đó
thì những mối de dọa an ninh liên quan đến van đề này vẫn có thé tiếp tục trong một thờigian đài tiếp theo Việc xây dựng mô hình đảm bảo an toàn thông tin trong toàn bộ chuỗicung ứng kỹ thuật số trở thành nhiệm vụ quan trọng hàng đầu
NGUYEN THỊ HOA - D17CQAT01-B 19
Trang 22ĐỎ AN TOT NGHIỆP CHUONG I
1.1.3.2 Những nguy cơ và hậu quả khi mất An toàn thông tin
Nguy cơ bị mat, hỏng, sửa đồi thông tin: Khi có sự cố về an ninh mạng xảy ra,thiết bi phần cứng của cá nhân hoặc tô chức có thé bị hư hỏng, chập chon, không hoạtđộng bình thường.
Nguy cơ bị tấn công bởi các phần mềm độc hại: Hacker có thé sử dụng nhiều kỹthuật tan công khác nhau dé xâm nhập vào bên trong hệ thống như: Phishing, virus, phần
mêm gián điệp, man in middle.
Nguy cơ mất An toàn thông tin do sử dụng Email, mạng xã hội: Phương pháp tấncông của Hacker ngày nay rất tinh vi và đa dạng Chúng có thé sử dụng kỹ thuật Phishinggửi file đính kèm trong email chứa mã độc, sau đó yêu cầu người dùng click vào đườnglink /tệp và làm theo hướng dẫn Hậu quả, nạn nhân có thể bị Hacker bắt chuyên tiền
hoặc máy tính của nạn nhân bị lộ lọt dữ liệu, nhiễm mã độc.
Ngoài ra, nguy co lộ lot thông tin trên mạng xã hội là rất cao nếu người dùngkhông bảo mật toàn diện tài khoản cá nhân trên Facebook, Youtube
Nguy cơ mất An toàn thông tin đối với Website: Một số thiệt hai do mat an toànthông tin đối với Website có thé là bị chiếm quyền điều khiến, bi hack web, website bịtreo không truy cập được, bị thay đôi giao diện website, bị chèn link ban, bị tan congDos, bị mắt tài liệu dự án, mat danh sách khách hang
1.2 Phuong pháp phát hiện.
Hai phương pháp chính để phát hiện mã độc thường được nghiên cứu và áp dụng
là phương pháp sử dụng signature-based thông qua tập luật và phương pháp based dựa vào phân tích hành vi để tìm ra đặc điểm bất thường [3] Các hướng tiếp cậnphát hiện mã độc sử dụng anomaly based kết hợp với các kỹ thuật học máy đã mang lại
anomaly-hiệu quả cao trong việc nhận dạng các mẫu mã độc mới Trong nghiên cứu [2, 4, 5] đã
liệt kê 2 phương pháp chính để trích xuất thuộc tính và hành vi của mã độc bao gồm:
phương pháp phân tích tĩnh và phương pháp phân tích động Xu hướng phát hiện tấn
NGUYEN THỊ HOA - D17CQAT01-B 20
Trang 23ĐỎ AN TOT NGHIỆP CHUONG I
công mang sử dung hoc máy hiện nay thường áp dụng phương pháp phân tích động với
sự hỗ trợ của công cụ Sandbox dé phan tich va trich xuất thuộc tính, hành vi của mã độc
Tuy nhiên, các hướng tiêp cận này các van đê:
- _ Thuộc tinh và hành vi của mã độc: các công cụ ảo hóa như Sandbox [2] hỗ trợ
thu thập và trích xuất thuộc tính của mã độc thường hoạt động tốt với những mẫuđơn giản, nhưng không mang lại hiệu quả cao với các loại mã độc vì một số loại
mã độc này thường có chức năng nhận diện và anti Sandbox, ngủ đông Chính
vì vậy các thuộc tính mã độc được thu thập và trích xuất từ log sandbox thườngkhông mang nhiều ý nghĩa [25]
- _ Thời điển phát hiện mã độc: việc áp dung các phương pháp hoc máy hoặc học
sâu dựa trên các thuộc tính và hành vi bất thường thường chỉ phát hiện được mã
độc ở các giai đoạn sau của chiến dịch tấn công Tức là lúc này những kẻ tấn công đã có thể đánh cắp được thông tin từ nạn nhân.
- Thiếu sự tương quan giữa các sự kiện [6, 7, 8, 9, 10]: Việc tiến hành thu thập
dấu hiệu và hành vi của mã độc dựa trên các công cụ ảo hóa ngoài việc khó thu
thập được đầy đủ các thuộc tính và hành vi của mã độc còn dẫn đến tình trạng hệ
thống không thể tìm kiếm và tổng hợp được sự tương quan giữa các sự kiện đơn
lẻ của mã độc Bởi vì trong thực tế, mã độc thường sử dụng nhiều kỹ thuật khai
thác và phát tán tại những mốc thời gian khác nhau mà các dấu hiệu và hành vi thu thập được hoàn toàn lành tính Tuy nhiên, nếu ghép chuỗi các sự kiện lại thì
mới thây được đây là hành vi che giâu và ân mình của mã độc.
1.43 Kết chương
Chương 1 đã trình bày khái quát về mã độc, phân loại các loại mã độc phổ biến
hiện nay cũng như các nguy cơ về An toàn thông tin liên quan tới mã độc; trình bày, mô
tả tổng quan về các phương pháp phát hiện mã độc thường được sử dụng
NGUYEN THỊ HOA - D17CQAT01-B 21
Trang 24ĐỎ AN TOT NGHIỆP CHƯƠNG II
CHUONG II: PHƯƠNG PHÁP PHAT HIỆN MÃ ĐỘC TREN MAY TRAM SU
DỤNG HỌC MÁY
2.1 Tổng quan phương pháp tiếp cận
Mô hình nghiên cứu phát hiện mã độc dựa trên hành vi sử dụng học máy được đềxuất gồm 3 giai đoạn chính:
Bước 1: Xây dựng hé sơ tiễn trình dạng đồ thị: Quá trình này sẽ bao gồm 2 giai
đoạn: giai đoạn 1: chuẩn hóa dữ liệu: trước hết các tiễn trình sinh ra từ nhân hệ điềuhành của máy người dùng sẽ được thu thập và chuẩn hóa Đề thực hiện được mục tiêunày, công cụ sysmon [11] được sử dụng trên máy người dùng dé thu thập thông tin về cáctiến trình do máy người dùng sinh ra Sau đó, dựa trên các thông tin về các tiễn trình màsysmon cung cấp, tiến hành chuẩn hóa chúng thành các thuộc tính của từng tiến trình Chitiết quá trình thu thập và chuẩn hóa thông tin về các tiến trình được mô tả trong bang | taimục 2.2.2.1 Giai đoạn 2: xây dựng hồ sơ tiến trình: Dựa trên thuộc tính của từng tiễntrình được trích xuất ở giai đoạn 1, tiễn hành xây dựng hồ sơ tiến trình dạng đồ thị Đặcđiểm trong phương pháp xây dựng hồ sơ tiến trình dạng đồ thị này là: mỗi tiến trình làmột node của đồ thị, cạnh của đồ thị là tiến trình cha gọi tiễn trình con Chỉ tiết quá trìnhxây dựng hồ sơ tiến trình dạng đồ thị được trình bày trong mục 2.2.2.2
Bước 2: Phân tích hồ sơ tiễn trình: Tại bước này, sẽ tìm cách phân tích hồ sơ tiễntrình vừa được xây dựng tại bước 1 nhằm tìm kiếm dấu hiệu của các hành vi bất thườngcủa mã độc Đề thực hiện nhiệm vụ này, dé xuất sử dụng thuật toán Graph2vec [12] nhằmbiến đồi hồ sơ tiến trình dạng đồ thị thành một vector đại điện cho đồ thị đó Đồng thời,hướng thứ hai sử dụng thuật toán Sqn2Vec từ hồ sơ tiến trình có tính chất tuần tự xây
dựng được vector tương ứng Quá trình phân tích hồ sơ tiến trình dựa trên thuật toán
Graph2vec và Sqn2Vec chính là quá trình trích xuất thuộc tính của hồ sơ tiến trình
Bước 3: Phân loại hồ sơ tiên trình: Cuôi cùng dé kêt luận vê dâu hiệu mã độctrong tiễn trình sử dụng một số thuật toán như RF và MLP
2.2 Phương pháp tổng hợp và trích xuất hành vi mã độc
NGUYEN THỊ HOA — D17CQAT01-B 22
Trang 25ĐỎ AN TOT NGHIỆP CHƯƠNG II
2.2.1 Kiến trúc mô hình
Xây dựng hồ sơ tiến trình
Trích xuất thuộc tính hỗ sơ tiến trình sử dụng
Graph2Vec/Sqn2Vec Phân loại sử dung học máy
- Máy trạm: là các máy người dùng cần giám sát Theo đó, dé thu thập các tiến
trình trên nhân hệ điều hành của máy người dùng thì cần phải có công cụ thuthập, xử lý và chuyên tiến trình về trung tâm phân tích Tiến hành thu thập tiếntrình trên nhân hệ điều hành sử dụng hệ điều hành Window bằng công cụ
Sysmon [12] Công cụ Sysmon là công cụ được giới thiệu bởi Micmicrosoft
team.
- Event ID: là một số event được công cụ Sysmon thu thập trên nhân hệ điều
hành Theo tài liệu [20] thì công cụ Sysmon sẽ thu thập được tổng số 23 loạievent từ nhân hệ điều hành Trong tài liệu [12] đã liệt kê và mô tả chỉ tiết vềcác tiến trình này Sau đó sẽ tìm cách thu thập các tiến trình này làm cơ sở đểxây dựng hệ thống phát hiện mã độc
NGUYEN THỊ HOA — D17CQAT01-B 23
Trang 26ĐỎ AN TOT NGHIỆP CHƯƠNG II
- _ Xây dựng hồ sơ tiến trình: Theo đó, các Event được sinh ra từ hệ điều hành sẽ
được tiến hành kiểm tra và đánh giá dé biết được Event này liên quan đến cáctiến trình nào đã được thu thập trước đó hay không Nếu Event này có liên
quan thì chúng sẽ được tiếp tục gắn vào các Event trước đó Nếu Event đó
không liên quan đến các Event ID trước đó thì Event đó sẽ được xây dựngthành một hồ sơ mới
- _ Phân tích hồ sơ tiến trình: ở giai đoạn này các hồ sơ tiến trình sẽ được phân
tích nhằm trích xuất ra các hành vi thê hiện sự khác biệt giữa các mã độc vàfile bình thường Trong đồ án này sẽ sử dụng mô hình Graph2Vec và Sqn2Vec
dé phân tích và trích xuất đặc trưng trong hồ sơ tiến trình
- Phan loại ho sơ tiến trình: Quá trình phân loại các hé sơ tiến trình dựa vào các
đặc trưng (được biểu diễn dưới dạng một vector) đã được trích xuất ở giai đoạn
trước Sử dụng mô hình RF và MLP dé dự đoán về dấu hiệu của mã độc trong
hồ sơ tiến trình
2.2.2 Xây dựng hé sơ tiễn trình
2.2.2.1 Chuẩn hóa dữ liệu
Như đã trình bày ở trên, công cụ sysmon sẽ thu thập 23 loại Event ID khác nhau
trên nhân hệ điều hành Window [12] Dựa trên các Event ID thu thập được, tiễn hànhphân tích và đánh giá chúng dé xây dựng được hồ sơ tiến trình của mã độc Trong nghiêncứu [17] đã chỉ ra một số hành vi quan trọng thường được các loại mã độc tiễn hành sửdụng dé khai thác và tan công vào hệ thống Chính vì vậy, lựa chọn sử dụng 3 thành phanchính đưới đây dé phân tích và xây dựng hồ sơ tiến trình của mã độc:
- Process Create: cung cap thông tin mở rộng về tiễn trình mới được tạo Tại
đây sẽ tìm cách phân tích tiến trình này vì thực tế cho thấy tiến trình này chứanhiều thông tin quan trọng định danh tiến trình Và từ những thông tin đó sẽđược dùng dé phân tích va theo dõi các hành vi tiếp theo (các Event ID) Một
số thành phan chính trong Process Create là ProcessID; ProcessGuid, mã tiến
NGUYEN THỊ HOA — D17CQAT01-B 24
Trang 27ĐỎ AN TOT NGHIỆP CHƯƠNG II
trình cha, đường dẫn tuyệt đối của file thực thi, mã hash, Trong đó
ProcessID được tái cấp bởi hệ điều hành với mục đích quản lý và theo dõi các
hành vi tiếp theo Còn ProcessGuid là giá trị duy nhất xác định cho từng tiếntrình Mã tiến trình cha dùng dé xác định các mối quan hệ giữa các tiến trìnhđược sinh ra từ một đối tượng
- Process Terminated: báo cáo khi một tiến trình kết thúc Sau khi nhận event
này thực hiện cập nhật hoàn thiện thông tin 21 event còn lại cho tiến trình
- Mitre ATT&CK: MITER ATT & CK là một cơ sở kiến thức có thé truy cập
toàn cầu về các chiến thuật và kỹ thuật của đối thủ dựa trên các quan sát trong
thực tế [13] Framework tập trung vào các chiến thuật, kỹ thuật và quy trìnhcủa đối thủ thay vì các chỉ số điển hình như file hashes, địa chỉ IP, tên miền,
v.v Nhu vậy, MITRE ATT&CK xác định các hành vi trong một vòng đời,
mối liên hệ giữa hành động này với hành động khác và trình tự của chúng đốivới mục tiêu của mã độc.Ngoài ra, MITRE ATT&CK cũng cung cấp một cấutrúc liên kết với dữ liệu về các mối đe dọa, nó cho biết ngữ cảnh về cách cácphần mềm độc hại được sử dung[13] MITRE ATT&CK matrix mô ta tổngquan mối quan hệ giữa tactics, techniques, và sub-techniques Mỗi tactic có thểđược thực hiện bởi nhiều techniques riêng lẻ Một số technique có thể có mặt ở
nhiều tactic khác nhau với mục đích khác nhau Một technique có thể được
phân rã thành các sub-techniques cụ thé hơn dé đạt được mục đích tan công.Dựa trên mô tả đặc điểm và cách thức hoạt động của từng technique doMITRE ATT&CK cung cấp, định nghĩa các tập điều kiện tương ứng với một
kỹ thuật tan công Trong đồ án này, sử dung mitre attack dé đánh giá tat cả cácthông tin của các tiến trình từ đó xác định và đánh giá Với mỗi một technique
được phát hiện sẽ đại diện cho một hành vi bat thường của mã độc với File,
Network, RemoteThread.
NGUYEN THI HOA — D17CQATO1-B 25