MỤC LỤC
- Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi tương tác của mã độcIoTBotnetvớicácthiếtbịIoThạnchếtàinguyênthôngquamôitrườngSandboxtựxâydựng. - Nghiên cứu, kết hợp hệ thống thu thập dữ liệu bằng Sandbox tự xây dựng vớimô hình học máy đề xuất thành hệ thống phát hiện mã độc IoT Botnet hoàn chỉnh ứngdụngđượctrongthực tế.
- Lựa chọn nghiên cứu phát hiện các mẫu mã độc IoT Botnet xuất hiện trên cácthiết bị IoT hạn chế tài nguyên với lý do: mặc dù có nhiều dòng mã độc lây nhiễm trênthiếtbịIoT(nhưTrojan,Ransomware,Spyware,…)nhưngvớiđặcđiểmhạnchếvềmặttài nguyên, xuất hiện rộng khắp trên toàn thế giới và tồn tại các lỗ hổng bảo mật cơ bảnthìtỉlệmãđộcBotnet chiếmtỉlệđasốtheothốngkêcủaKaspersky[4].Dođó,vấnđềnghiêncứugiải. - Theo cách phân loại của Bencheton [9], thiết bị IoT được chia làm 2 loại chínhgồmthiếtbịhạnchếtàinguyên(constrained)vàhiệunăngcao(high-capacity).Cácthiếtbị IoT hạn chế tài nguyên có thể kể đến như IP Camera, Wifi Router, Smart Hub,…Cũng theo thống kê của Kaspersky [4, 10].
Cácđónggópchínhcủaluậnán
MãđộcIoTBotnetkhôngchỉlâylantrênthiếtbịcủangườidùngcánhânmàcònnhắm vào các doanh nghiệp, tổ chức và chính phủ với tính chất và mức độ ngày càngnghiêmtrọng[21].ThốngkêcủaKasperskychothấyđãcóhơn100triệucuộctấncôngvào các thiết bị IoT trong nửa đầu năm 2019, tăng gấp 7 lần so với cùng kỳ năm 2018[10].Giảiquyếtcácnguycơnóitrên,cácnhànghiêncứuđãpháttriểncácphươngphápvà mô hình mới để phân tích và phát hiện hiệu quả các mẫu mã độc xuất hiện trên cácthiết bị IoT. Các phương pháp và mô hình có. những điểm khác biệt tạo nên điểm. StaticAnalysis)vàdựatrêndữliệuđộng(phântíchđộng –DynamicAnalysis). Để đạt được mục tiêu của luận án là “nghiên cứu, xây dựng mô hình học máynhằm nâng cao độ chính xác và giảm độ phức tạp trong phát hiện mã độc IoT Botnettrên các thiết bị IoT hạn chế tài nguyên”, nghiên cứu sinh thấy rằng với đầu vào là mộttệp thực thi có tính đa kiến trúc thì cần lựa chọn phương pháp hiệu quả giải quyết vấnđề này.
- QuátrìnhthuthậpdữliệuđộngphụcvụphântíchvàpháthiệnmãđộcIoTBotnettrêncácthi ếtbịIoThạnchếtàinguyêncòngặpnhiềukhókhăn,nhấtlàcácnhượcđiểmcủamôitrườngIoTSand boxhiệncó.Vìvậy,cầnxâydựngmộtmôitrườngIoTSandboxmới (đặt tên là V-Sandbox) cho phép mô phỏng đầy đủ các yêu cầu cần thiết để mã độcIoT Botnet có thể thực thi trọn vẹn vòng đời của mình. Ba vấn đề này sẽ lần lượt được giải quyết tại các chương tiếp theo của luận ánnày.Kếtquảkhảosát,phântíchđánhgiávàthựcnghiệmmôhìnhđềxuấttrongChương1 đã được trình bày, công bố trên các Tạp chí, Kỷ yếu Hội thảo uy tín trong nước.
Phát biểubàitoán
- Tiềnxửlýdữliệuthôthuthậpđược(RawDataPreprocessingcomponent-RDP):tiền xử lý, xác định sơ bộ các hành vi điển hình của tệp thực thi ELF, cung cấp dữ liệuthốngkêhànhvicho thànhphầntínhtoán khảnăngthực thilạicủaSandbox(SR). Đầu tiên, khối EME đọc tiêu đề (Header) tệp ELF cần thực thi để xác định kiếntrúcCPU,hệđiềuhànhcầnthiếtđểkhởichạymôitrườngcủaV-Sandbox.Sauđó,khốiSCG dựa vào thông tin đầu ra của khối EME để tạo một trong các cấu hình cơ bản chomôi trường Sandbox thực thi (dữ liệu đầu ra là. tệp cấu hình hoạt động của Sandbox. -“Configurationfile”).MôitrườngSandbox(SE)nàysẽthựcthivàthuthậpdữliệuhànhvi thô (Collected raw data) của tệp ELF bằng các tác tử với cấu hình môi trường chạyđược lưu trữ trong tệp “Configuration file”.
KhốiSRsửdụngdữliệutừđầuracủakhốiRDPbaogồmtổngsốlờigọihệthống(ts), tổng số gói tin mạng (tntp), tổng số lượng tương tác tệp (tfr), tỷ lệ phần trăm trungbình của CPU được sử dụng (avgCPU), tỷ lệ phần trăm trung bình của RAM được sửdụng(avgRAM).Kếtquảcủakhốinàylàlựachọncócầnthiếtphảichạylại môitrườngSandbox hay không để phục vụ mục đích thu thập thêm thông tin về hành vi tệp ELF.ThuậttoáncủakhốiSRđượcmôtảtrongThuậttoán2.1(ThuậttoánRDM).Thuậttoánvới đầu vào là thông số thống kê dữ liệu được trích xuất từ dữ liệu hành vi của mã độcđã được thu thập gồm: Tổng số lời gọi hệ thống. Thử nghiệm được tiến hành trên máy chủ với cấu hình CPU Intel Xeon E5- 26892,6GHz,RAM32GB.V-SandboxhỗtrợnhiềukiếntrúcCPUkhácnhau,vềcơbảnbaogồm ARM, MIPS, MIPSEL, i386, x86-64, PowerPC (có thể được mở rộng với nhiềukiếntrúckhác)đượcminhhọatrongHình2.14.TấtcảcácmáyảoQEMUnàyđượckếtnối vớiVirtual Switchđể quản lý, cung cấp môi trường mạng mô phỏng cũng như khảnăng kết nối với máy chủ C&C, giám sát lưu lượng mạng, thêm thư viện liên kết độngbị thiếu.Main Controllerchịu trách nhiệm quản lý các tác vụ bao gồm nhận và chuyểntệp ELF sang máy chủ ảo, xác định kiến trúc CPU của ELF để chạy máy chủ ảo tươngứng,kíchhoạttệpELFvàtáctửgiámsát,cungcấptệpShareObject("so")khiELFyêucầu,tạokếtnốivớ imáychủC&Cmôphỏngkhicầnthiếtvàtổnghợpbáocáophântíchtừtác tử giámsáthànhvi.
Theo kết quả so sánh đã liệt kê ở trên, V-Sandbox được đề xuất với khả năng hỗtrợnhiềukiếntrúcvixửlýphổbiếncủathiếtbịIoThạnchếtàinguyên,tạomôitrườngkết nối và giao tiếp với máy chủ C&C, cung cấp các thư viện liên kết động để mã độcIoT Botnet thể hiện nhiều hành vi hơn so với các IoT Sandbox hiện có (tiêu biểu làCuckoo và LiSa sandbox). - “Xây dựng hệ thống phát hiện mã độc trong thiết bị định tuyến dựa trên môphỏng”,Tạpchí“NghiêncứuKhoahọcvàCôngnghệtronglĩnhvựcAntoànthôngtin”(Journal of Science and Technology on Information security) – Ban cơ yếu chính phủ(1.CS(05)2017),2017.
Cách xử lý này giúp cho vừa bảo toàn được thông tin lờigọi hệ thống, vừa giảm độ phức tạp của đồ thị trong những trường hợp như mã độc sửdụng vòng lặp để chờ kết nối với C&C server, tấn công rà quét mật khẩu các thiết bịkhác,thực hiệntấncôngtừ chốidịchvụ,. Sandbox(Logfile);MãđịnhdanhtiếntrìnhđầutiênmàtệpELFthựcthitạora(pid);Tênđỉnhdùngđểnối giữacácnhánhPIDtrongđồthịDSCG(u).Giátrịkhởitạobanđầuchobiếnpidvàulàgiátrị“None”.Đầu racủathuậttoánnàybaogồm:DanhsáchcácđỉnhcủaDSCG(V);DanhsáchcáccạnhcủaDSCG(E)tươ ngứngvớicácđỉnhcủađồthịDSCG.Thuậttoánsẽđọclầnlượtcácdòngtrongtệplưutrữchuỗilờigọihệthống(L ogfile)đểlấythôngtinvềlờigọihệthốnggồmtênlờigọi(name),thamsốcủalờigọi(args)vàlưuvàomảng đạidiệncholờigọihệthống(SC).Tiếptheo,cácđỉnhcủađồthịDSCGđượcxâydựngbởitậphợpcáclờigọih ệthốngkhácnhautrongchuỗilờigọiđãthunhậnđượcđược.MỗiđỉnhcủađồthịDSCGsẽbaogồmcácth ôngtin:MãđịnhdanhtiếntrìnhđượcghinhậntrongLogfile(pid);Tênlờigọihệthốngđượcgọi(SC.nam e);Thamsố của lời gọi hệ thống được gọi (SC.args).
Rozemberczki [106] trình bày phương pháp FEATHER được sử dụng để xâydựng các hàm đặc trưng (characteristic functions) của đồ thị dựa trên mối quan hệ phânbốcácnútlâncận(nodeneighborhoods).Tácgiảchứngminhrằng,cácđồthịđẳnghình(isomorphic)cócù ngmộtgiátrịhàmđặctrưng(pooledcharacteristicfunction)làgiátrịtrung bình của đặc trưng cho các nút (node characteristic functions). Từ kết quả thử nghiệm trên đã cho thấy, các đặc trưng được trích xuất từ đồ thịDSCGđạtđượchiệuquảtốtđốivớibàitoánpháthiệnmãđộcIoTBotnet(ACC≈96.89%,. TPR≈94.97%, FPR≈1.4%, AUC≈0.989).Đặc trưng này hoạt động tốtvới các bộ phân loại học máy đơn giản và phổ biến như KNN, SVM, Decision Tree,RandomForest.TrongphạmvibàitoánpháthiệnmãđộcIoTBotnetvớidatasetđãđượcxây dựng, thuật toán Random Forest cho thấy ưu thế khi sử dụng kết hợp với đặc trưngDSCGđượcđềxuất.Trongcáckịchbảnthửnghiệmđãtiếnhành,có 6/9trườnghợpsửdụng thuật toán Random Forest cho kết quả vượt trội hơn các thuật toán phổ biến khác.Ưu thế của đặc trưng được đề xuất là số chiều của vector đặc trưng được trích xuất từđồ thị cũng ít hơn so với các nghiên cứu đã công bố, góp phần làm giảm độ phức tạptính toán khi áp dụng vào các mô hình phát hiện, phân lớp mã độc IoT Botnet.
Trojan nhằm vào ngân hàng Zeus là một dạng mã độc nhắm vào hệđiều hành Windows và thường được sử dụng để lấy cắp tiền và thông tin đăng nhập tàikhoảnngânhàngtừnạnnhânbịlâynhiễm.Vớimụcđíchphânloại,mộttậphợp65đặctrưng từ các dữ liệu khác nhau được trích xuất bao gồm các tệp được tạo, sửa đổi hoặcxóa,khóaregistryđượctạo,sửađổihoặcxóa,địachỉIPđích,cổng,kếtnốiTCPvàUDP,yêucầu,bản ghiDNS,v.v.Sauđó,vectơđặctrưngkếtquảđượcsửdụngđểđánhgiáhiệusuấtcủacácthuậttoánhọcmá ykhácnhaunhưSVM,LR,DTvàKNN. Nghiên cứu của Pascanu và đồng nghiệp [134] là nhữngtrường hợp ngoại lệ với bộ dữ liệu lớn hơn nhiều, cả hai đều thu được thông qua quyềntruycậpvàokhodữliệumẫudocáccôngtycủacáctácgiảnắmgiữriêng.Phầnlớncácnghiên cứu không đề cập đến giới hạn thời gian thực thi tệp, trong những trường hợpnày,chúngtôicóthểchorằngtệpđượcthựcthichođếnkhihoạtđộngdừnglại.Khungthời gian thu thập dữ liệu trung bình cho những mô hình phát hiện sớm đã công bố là 5phút(xemBảng4.1). Dữ liệu đặctrưngsửdụ ng. Thờigianthuthậpd ữ liệu hành viđộng/mẫu Sốlượng. Khôngcógiớihạnthờigian tối thiểu được đềcập–. Khôngcógiớihạnthờigian tối thiểu được đềcập–. Dữ liệu đặctrưngsửdụ ng. Thờigianthuthậpd ữ liệu hành viđộng/mẫu Sốlượng. Với nội dung khảo sát và đánh giá được trình bày, hạn chế chính của mô hình đãđượcphân tích trênbaogồm:. vàđộchínhxácchưatốiưudochỉsửdụngcácđặctrưngđơnlẻvàyêucầuthuthậpdữ liệuchuỗihànhviđầyđủđểpháthiện;. 3) MôhìnhpháthiệnchưatậndụngtốiđacácdữliệuđặctrưngcủaIoTBotnetnhưlờig ọihệthống,luồng mạng,chiếmdụng tàinguyênthiếtbị.
Điểm khác biệt của phươngpháp này so với các phương pháp hiện có là chỉ cần sử dụng một lượng nhỏ (tối thiểu)dữ liệu được thu thập ban đầu từ V-Sandbox (không phải dữ liệu chuỗi toàn thời gian –full-time series data) để có thể đưa ra kết quả phát hiện với độ chính xác cao. Có nghĩalà không cần phải đợi mã độc IoT Botnet thực hiện đầy đủ các hành vi của mình để thuthậpdữliệurồimớitiềnxửlý,phântíchvàpháthiện.Từđó, môhìnhcókhảnăngpháthiện sớm mã độc IoT Botnet trong những bước cơ bản đầu tiên của vòng đời. Kiến trúcđềxuấtđượcmôtảtrongHình4.4,baogồmcác thànhphầnchính:. SC):môitrườngthựcthithíchhợpchophépgiámsáthànhvivàtạođiềukiệnchotệpthựcthiELFthểhiệ nđầyđủhànhvi. PPDC):thựchiệnquátrìnhtiềnxửlýcácdữliệuđượcthuthậptừmôitrườngSandbox(SC)đểcóthểch uẩnhóadữliệu. Tuynhiên, trong thực tiễn thì sử dụng các mẫu chữ ký (signature-based) trong phát hiện. mãđộcđơngiảnvàtiếtkiệmtàinguyênhệthốngtriểnkhaithựctế.Vìvậy,nghiêncứugiảipháptựđộng chuyểnđổilinhhoạtkếtquảpháthiệncủamôhìnhđềxuấtthànhcácmẫuchữ ký cho IDS cũng là một nội dung nghiên cứu mang tính ứng dụng trong tương laimànghiêncứusinh hướngtới. DANHMỤCCÔNG TRÌNH CỦATÁCGIẢ. Tất cả các nội dung, kết quả nghiên cứu trình bày trong luận án này đều đã đượccông bố trên các tạp chí, hội thảo uy tín ngành công nghệ thông tin trong nước và quốctế.Cụthểnhư sau:. 1) “Xây dựng hệ thống phát hiện mã độc trong thiết bị định tuyến dựa trên môphỏng”,Tạpchí“NghiêncứuKhoahọcvàCôngnghệtronglĩnhvựcAntoànthôngtin”(Journal of Science and Technology on Information security) – Ban cơ yếu chính phủ(1.CS(05)2017),2017. 2) “V-Sandbox for Dynamic Analysis IoT Botnet,”IEEE Access, vol. 4) “A collaborative approach to early detection of IoT Botnet” Computers. 1)“Xâydựngmôhìnhpháthiệnmãđộctrênthiếtbịđịnhtuyếnbằngtáctử”,Kỷyếu hội thảo quốc gia lần thứ 20: Một số vấn đề chọn lọc của Công nghệ thông tin vàtruyềnthông, 2017. 2)“Xây dựng mô hình thu thập, phát hiện tấn công mạng sử dụng thiết bị IoT”,Kỷyếuhộithảoquốcgialầnthứ2:Mộtsốvấnđềchọnlọcvềantoànanninhthôngtin(SoIS),201 7. 3)“Xây dựng hệ thống phát hiện xâm nhập mạng các thiết bị IoT dân sự trongnhàthôngminh”,Kỷyếuhộithảoquốcgialầnthứ21:MộtsốvấnđềchọnlọccủaCôngnghệthông tinvà truyềnthông,2018. 4) “Kết hợp CNN và LSTM trong nâng cao hiệu năng phát hiện tấn công mạngcủa HIDS với bộ dữ liệu ADFA”,Hội thảo quốc gia lần thứ 3: Một số vấn đề chọn lọcvề an toàn an ninh thông tin, 2018. 5) “Đề xuất phương pháp phát hiện IoT Botnet hiệu quả dựa trên lời gọi hệthống”, Kỷ yếu hội thảo quốc gia lần thứ 23: Một số vấn đề chọn lọc của Công nghệthôngtinvàtruyềnthông,2020.
Berlin, ‘Deep Neural Network Based Malware DetectionUsingTwoDimensionalBinaryProgramFeatures’,ArXiv150803096Cs,Au g.2015,Accessed:Aug.22,2018.[Online].Available:http://arxiv.org/abs/. [128] S.Tobiyama,Y.Yamaguchi,H.Shimada,T.Ikuse,andT.Yagi,‘MalwareDetection with Deep Neural Network Using Process Behavior’, in2016 IEEE40th Annual Computer Software and Applications Conference.