CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI
3.3 Nguồn dữ liệu của Dataset
3.3.1 Kho dữ liệu (Data repository)
Bên cạnh các tập dữ liệu truyền thống, một số kho dữ liệu cĩ thể dễ dàng tìm thấy trên internet. Vì loại và cấu trúc của những kho lưu trữ đĩ khác nhau rất nhiều, luận văn sẽ khĩ đưa ra so sánh tổng quan dạng bảng mà sẽ tổng quan ngắn gọn về các kho dữ liệu này sắp xếp theo thứ tự bảng chữ cái.
40
• AZSecure2. AZSecure là một kho về network data của đại học Arizona,
được sử dụng cho cộng đồng nghiên cứu. Nĩ bao gồm rất nhiều loại bộ dữ liệu định dạng pcap, arff cũng như các loại khác, một vài được gắn nhãn, một vài thì khơng.
• CAIDA3. CAIDA thu thập các loại tập dữ liệu khác nhau và việc tiếp cận
cũng khác nhau với mức độ sẵn cĩ khác nhau (truy cập cơng khai hoặc theo yêu cầu) và cĩ thêm một trang tìm kiếm. Đa phần các dataset của CAIDA đều yêu cầu điền 1 form dữ liệu mới được truy cập các dữ liệu cơng khai. Ngồi ra, hầu hết các network-based dataset chỉ cĩ thể được yêu cầu khi đăng nhập qua cổng IMPACT vì CAIDA hỗ trợ IMPACT với vai trị là một nhà cung cấp dữ liệu. Cĩ thể nĩi dữ liệu này cũng khơng dễ để tiếp cận.
• Covert.io4. Covert.io là một blog về security và machine learning của Jason
Trost. Blog này cĩ các bài hướng dẫn, Github repo, các bài báo nghiên cứu và các bài viết khác về chủ đề an tồn thơng tin, dữ liệu lớn, học máy nhưng cũng cĩ rất nhiều collection về data security. Bài viết mới nhất trên blog là ngày 16/1/2022.
• DEFCON CTF Archive5. DEFCON là một hội thảo thường niên của
hacker. Sự kiện này bao gồm một cuộc ghi đoạt cờ (capture the flag – CTF) mà mỗi đội phải phịng thủ hệ thống mạng của mình trước các đội khác mà cũng đồng thời tấn cơng hệ thống mạng của đối thủ. Traffic của cuộc thi được ghi lại dưới dạng packet-based và được cơng khai trên website. Vì bản chất của một cuộc tấn cơng phịng thủ thực chiến này, dữ liệu traffic thu được chứa hầu hết các traffic tấn cơng và một số ít hành vi người dùng. Website của DEF CON cũng được cập nhật hàng năm với dữ liệu mới từ các cuộc thi CTF.
• IMPACT6. IMPACT Cyber Trust, hay được biết tới là PREDICT, là một
cộng đồng các nhà cung cấp dữ liệu, chuyên gia nghiên cứu bảo mật cũng như người điều phối. IMPACT được quản lý và luơn cập nhật, website cĩ một chỉ mục các bộ dữ liệu được cung cấp bởi cộng đồng. Cĩ một số nhà cung cấp dữ liệu điển hình như DARPA, MIT Lincoln Laboratory, UCSD - Center for Applied Internet Data Analysis (CAIDA). Tuy nhiên các bộ dữ liệu này chỉ được tải về với tài khoản các nhà nghiên cứu thuộc 8 nước
2 https://www.azsecure-data.org/other-data.html 3 http://www.caida.org/data/overview/ 4 http://www.covert.io 5 https://www.defcon.org/html/links/dc-ctf.html 6 https://www.impactcybertrust.org/
41
được Bộ quốc phịng Mỹ lựa chọn. Việt Nam khơng nằm trong danh sách này nên luận văn khơng thể đào sâu tìm hiểu thêm.
Hình 3.3 Các quốc gia Impact Cyber Trust cho phép tham gia
• Internet Traffic Archive7. The Internet Traffic Archive là một kho internet
traffic được tài trợ bởi ACM SIGCOMM. Danh sách bao gồm 4 bộ dữ liệu packet-based được ẩn danh hĩa. Đặc biệt, payload đã được loại bỏ, tất cả timestamp được tương quan với gĩi tin đầu tiên, địa chỉ IP cũng được thay đổi sang dạng số. Bộ dữ liệu này được thu khoảng hơn 20 năm trước và cĩ thể được download tự do.
• Kaggle45. Kaggle là một nền tảng chia sẻ và cơng bố kho dữ liệu. Nền tảng
này cũng bao gồm các bộ dữ liệu về an tồn thơng tin như KDD CUP 99, và cũng cĩ tính năng tìm kiếm. Trang này cũng cho phép người dùng tải lên và khám phá các model phân tích dữ liệu.
• Malware Traffic Analysis8. Malware Traffic Analysis là một repository cĩ
các bài blog và bài tập thực hành liên quan đến phân tích network traffic, ví dụ như nhận diện các hành vi độc hại. Các bài thực hành này sẽ bao gồm packet-based network traffic được gán nhẵn gián tiếp thơng qua việ trả lời các câu trả lời. Dữ liệu ở đây vẫnđược cập nhật khá thường xuyên.
• Mid-Atlantic CCDC9. Tương tự như DEFCON CTF, MACCDC là một
cuộc thi thường niên tổ chức bởi US National CyberWatch Center, packet- based traffic của cuộc thi này cũng được cơng bố. Các đội thi cần đảm bảo cho các dịch vụ mạng của mình khơng bị gián đoạn. Dữ liệu này cũng tương tự như DEFCON CTF, nĩ bao gồm hầu hết là dữ liệu tấn cơng và một ít hành vi người dùng bình thường. Cuộc thi gần nhất được tổ chức năm 2022.
7
http://ita.ee.lbl.gov/html/traces.html 45
https://www.kaggle.com/ 8 http://malware-traffic-analysis.net/
42
• MAWILab10. Kho dữ liệu MAWILab bao gồm một lượng lớn network
traffic trong thời gian dài giữa Nhật bản và Mỹ. Kể từ 2007, repository này chứa 15 phút dữ liệu packet-based hàng ngày. Vì lý do quyền riêng tư, địa chỉ IP ở đây được ẩn danh và payload cũng bị loại bỏ. Dữ liệu thu được này được gán nhẵn bằng các phương pháp phát hiện bất thường khác nhau.
• MWS11. MWS là một workshop hàng năm về mã độc ở Nhật Bản.
Workshop này cĩ nhiều MWS dataset chứa packet-based network data cũng như host-based log file. Tuy nhiên bộ dữ liệu này chỉ được chia sẻ trong cộng đồng MWS (những người nghiên cứu, cộng đồng học thuật tại Nhật Bản). Workshop gần nhất udơcj tổ chức năm 2018.
• NETRECSEC12. NETRECSEC vận hành một danh sách chi tiết các pcap
file trên internet. Tương tự như SecRepo, NETRECSEC dẫn tới rất nhiều repository trong luận văn này, nhưng cũng kết hợp cả các nguồn khác như
honeypot dump hoặc các cuộc thi CTF.
Hình 3.4 Website Netrecsec
• OpenML13. OpenML là một nền tảng luơn cập nhật và chia sẻ các bộ dữ
liệu học máy và các thuật tốn, thí nghiệm. Nĩ bao gồm các bộ dữ liệu an tồn thơng tin như KDD CUP 99.
10 http://www.fukuda-lab.org/mawilab/ 11 https://www.iwsec.org/mws/2018/en.html 12
http://www.netresec.com/?page=PcapFiles 13 https://www.openml.org/home
43
Hình 3.5 Website OpenML
• RIPE Data Repository14. RIPE data repository chứa một loạt các dataset.
Tuy nhiên đã nhiều năm khơng thấy cập nhật các bộ dữ liệu mới.
• SecRepo15. Danh sách SecRepo chứa các sample về dữ liệu liên quan đến
an tồn thơng tin, được duy trì bởi Mike Sconzo. Danh sách này được chia theo các chuyên mục: Mạng, mã độc, hệ thống, file, mật khẩu, threat
feed, khác. Dữ liệu được cập nhật lần cuối năm 2021.
Hình 3.6 Dataset đăng tải trên SecRepo
• Simple Web16. Simple Web cung cấp một kho các dữ liệu và thơng tin về
các hướng dẫn quản trị mạng, các phần mềm. Repository này cũng bao gồm các dữ liệu định dạng khác nhau như packet-based và flow-based network traffic. Simple Web được vận hành bởi Đại học Twente và duy trì bởi thành viên của nhĩm DACS (Design and Analysis of Communication Systems).
• UMassTraceRepository17. UmassTraceRepository cung cấp cho cộng đồng
nghiên cứu các nhiều bộ dữ liệu network traffic của trường Đại học UMass.
14 https://labs.ripe.net/datarepository 15 http://www.secrepo.com/ 16
https://www.simpleweb.org/wiki/index.php/ 17 http://traces.cs.umass.edu/
44
Kho lưu trữ này bao gồm cả dữ liệu được tổng hợp và dữ liệu được người dùng ủng hộ. Kho này bao gồm 19 packet-based dataset với các nguồn khác nhau. . Kho lưu trữ bao gồm 19 bộ dữ liệu dựa trên gĩi từ các nguồn khác nhau. Các bộ dữ liệu gần nhất được thu thập vào năm 2018.
• VAST Challenge18. Cuộc thi IEEE Visual Analytics Science and
Technology (VAST) là một cuộc thi hàng năm với mục tiêu nâng cao lĩnh vực phân tích trực quan thơng qua sự cạnh tranh. Trong một vài thử thách, network traffic data cũng được cung cấp cho các đề bài của cuộc thi. Ví dụ như một thư thách nhỏ của cuộc thi VAST 2011 chứa một IDS log gồm packet-based network traffic định dạng pcap. Cách làm tương tự cũng được dùng cho cuộc thi năm 2012. Sang năm 2013 thì cuộc thi cho xử lý với flow-based network traffic.
• WITS: Waikato Internet Traffic Storage19 là một website nhắm tới việc liệt
kê tất cả bộ dữ liệu trên internet bởi nhĩm nghiên cứu WAND. Các bộ dữ liệu này thường cĩ dưới dạng packet-based và được tải về tự do từ máy chủ của Waikato. Tuy nhiên bộ dữ liệu này cũng khơng được cập nhật trong thời gian dài.