DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT APT Advanced Persistent Threat Mối đe dọa liên tục nâng cao IPS Internet Protocols Bộ giao thức liên mạng SSL Secure Sockets Layer Tiêu chuẩn của côn
Trang 1LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai đó công bố trong bất kỳ công trình nào khác
Tác giả luận văn
Nguyễn Thị Hòa
Trang 2Và cuối cùng em xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè những người đã ủng hộ, động viên tạo mọi điều kiện giúp đỡ để em có được kết quả như ngày hôm nay
Tác giả luận văn
Nguyễn Thị Hòa
Trang 3MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v
DANH MỤC CÁC BẢNG BIỂU vi
DANH MỤC CÁC HÌNH VẼ vii
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ CÔNG NGHỆ BIGDATA 4
1.1 Giới thiệu về công nghệ Bigdat 4
1.1.1 Khái niệm về Bigdata 4
1.1.2 Đặc trưng 5V của Big Data 6
1.1.3 Vai trò của Big data 9
1.2 Một số ứng dụng của bigdata 10
1.3 Ứng dụng của bigdata trong an toàn thông tin 20
1.3.1 Theo dõi và phát hiện Botnet 21
1.3.2 Phân tích mã độc 23
1.3.3 Phát hiện xâm nhập mạng 24
1.3.4 Phát hiện tấn công APT 25
1.3.5 Phát hiện tấn công Zero-day 26
1.3.6 Điều tra tội phạm công nghệ cao 26
KẾT LUẬN CHƯƠNG 1 27
CHƯƠNG 2 VẤN ĐỀ ỨNG DỤNG CÔNG NGHỆ BIGDATA TRONG PHÁT HIỆN XÂM NHẬP MẠNG 28
2.1 Tổng quan chung về phát hiện xâm nhập mạng 28
2.1.1 Khái niệm về xâm nhập mạng 28
2.1.2 Vấn đề phát hiện xâm nhập mạng 29
2.1.3 Một số công cụ phát hiện xâm nhập mạng 29
2.2 Một số công cụ của Bigdata trong phát hiện xâm nhập mạng 36
2.2.1 Hạn chế của các giải pháp phát hiện xâm nhập phổ biến 36
2.2.2 Công nghệ Big data trong phát hiện xâm nhập mạng 36
Trang 42.3 Triển khai ứng dụng Big data trong phát hiện xâm nhập mạng 44
2.3.1 Tổng quan mô hình ứng dụng Big data trong phát hiện xâm nhập mạng 44 2.3.2 Dữ liệu phục vụ phát hiện xâm nhập mạng 47
2.3.3 Một số thuật toán phát hiện xâm nhập mạng 55
KẾT LUẬN CHƯƠNG 2 64
CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 65
3.1 Thực hiện thực nghiệm 65
3.1.1 Lựa chọn thuật toán 65
3.1.2 Lựa chọn bộ dữ liệu và công cụ thực nghiệm 69
3.2 Một số kết quả thực nghiệm 72
3.2.1 Thực nghiệm huấn luyện 73
3.2.2 Thực nghiệm kiểm tra 79
KẾT LUẬN CHƯƠNG 3 82
KẾT LUẬN 83
TÀI LIỆU THAM KHẢO 85
Trang 5DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
APT Advanced Persistent Threat Mối đe dọa liên tục nâng cao IPS Internet Protocols Bộ giao thức liên mạng
SSL Secure Sockets Layer Tiêu chuẩn của công nghệ bảo
mật
IT Information Technology Công nghệ thông tin
FTP File Transfer Protocol Giao thức chuyển nhượng tập tin
SQL Structured Query Language Ngôn ngữ truy vấn mang tính
cấu trúc
IP Internet Protocol Giao thức kết nối Internet
DLP Data Leak Prevention Ngăn chặn rò rỉ dữ liệu
DNS Domain Name System Hệ thống tên miền
URL Uniform Resource Locator Tham chiếu tài nguyên mạng
Internet
SIEM Security Information Event
DDOS Distributed Denial Of Service Tấn công từ chối dịch vụ phân
tán DOS Denial of Service attack Tấn công từ chối dịch vụ
NIDS Network-based Intrusion
Detection System
Hệ thống phát hiện xâm nhập cho mạng
KDD99 Knowledge Discovery and Data
Mining 1999 R2L Remote to Local attack
U2R User to Root attack
Probe Surveillance
Trang 6DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1: Các nhóm xâm nhập trái phép trong dữ liệu DARPA 48
Bảng 2.2: Phân bố dữ liệu theo nhóm trong tập huấn luyện 49
Bảng 2.3: Phân bố dữ liệu theo nhóm trong tập thử nghiệm 50
Bảng 2.5: Các đặc trưng của máy chủ được kết nối 51
Bảng 2.6: Các đặc trưng về lưu lượng trong khoảng thời gian 2 giây 52
Bảng 2.7: Các đặc trưng về lưu lượng trong khoảng thời gian 256 giây 53
Bảng 3.1: Bảng số lượng các bản ghi trong tập dữ liệu KDD 99 69
Bảng 3.2: Bảng phân bố thuộc tính của các loại tấn công 69
Bảng 3.3: Các thuộc tính phát hiện tấn công DOS 70
Bảng 3.4: Các thuộc tính trong phát hiện tấn công Probe 70
Bảng 3.5: Các thuộc tính trong cuộc tấn công U2R, R2L 71
Bảng 3.6: Các giá trị đánh giá 72
Bảng 3.7: Các giá trị đánh giá theo tỉ lệ 81
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Sự đa dạng của Big data 5
Hình 1.2: Khối lượng dữ liệu trong Big Data 6
Hình 1.3: Sự tăng trưởng của dữ liệu 6
Hình 1.4: Tốc độ của dữ liệu trong Big Data 7
Hình 1.5: Sự đa dạng của dữ liệu trong Big Data 8
Hình 1.6: Dữ liệu cấu trúc và dữ liệu không cấu trúc 8
Hình 1.7: Hình ảnh thể hiện độ chắc chắn của dữ liệu 9
Hình 1.8: Mô hình ứng dụng Big data trong giao thông thông minh 12
Hình 1.9: Mô hình ứng dụng Big data trong y tế 13
Hình 1.10: Ứng dụng của Big data trong giám sát dịch bệnh 14
Hình 1.11: Công nghệ Match Insight của đội tuyển Đức 15
Hình 1.12: Mô hình ứng dụng của Big data trong ngân hang 16
Hình 1.13: Mô hình ứng dụng của Big data trong thương mại 17
Hình 1.14: Mô hình ứng dụng Bigdata trong viễn thông 18
Hình 1.15: Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet 22
Hình 1.16: Mô hình ứng dụng Big data trong phát hiện botnet 23
Hình 1.17: Mô hình ứng dụng Big data trong phân tích mã độc 23
Hình 1.18: Mô hình ứng dụng Big data trong phát hiện xâm nhập mạng 24
Hình 1.19: Kỹ thuật tấn công APT 26
Hình 2.1 Phát hiện xâm nhập mạng của IDS 30
Hình 2.2: Các thành phần của IDS 31
Hình 2.3: Kiến trúc của một Snort 34
Hình 2.4: Kiến trúc của HDFS 38
Hình 2.5: Công nghệ xử lý dòng trong Big Data 39
Hình 2.6: Giao diện của weka 40
Hình 2.7: Kiến trúc của Apache Hadoop 41
Hình 2.8: Mô hình quản lý của Spark 42
Hình 2.9: Mô hình hệ thống phát hiện xâm nhập 44
Hình 2.10: Quy trình học máy 47
Trang 8Hình 2.11: Một số dữ liệu phục vụ phát hiện xâm nhập mạng 47
Hình 2.12: Mô hình phân loại xâm nhập mạng 55
Hình 2.13: Mô hình cây quyết định 59
Hình 2.14: Cây quyết định cho phát hiện tấn công 60
Hình 2.15: Mô hình mạng nơ-ron trong phát hiện bất thường 61
Hình 3.1: Mô hình tổng quát MLP 65
Hình 3.2: Đường nét đứt thể hiện cơ chế lan truyền ngược để điều chỉnh lại trọng số 67
Hình 3.3: Giao diện của Weka khi chạy bộ dữ liệu 10% 74
Hình 3.4: Giao diện cấu hình tham số trong Weka 74
Hình 3.5: Kết quả xây dựng model 75
Hình 3.6: Lựa chọn thuật toán mạng neuron trong Weka 75
Hình 3.7: Kết quả huấn luyện dữ liệu xử dụng thuật toán mạng neuron 76
Hình 3.8: Giao diện của phần mềm 77
Hình 3.9: Giao diện của công cụ anaconda 78
Hình 3.10: Chọn dữ liệu huấn luyện 78
Hình 3.11: Kết quả huấn luyện 79
Hình 3.12: Load lại model đã lưu 79
Hình 3.13:Thực nghiệm kiểm tra dữ liệu 80
Hình 3.14: Kết quả kiểm tra bằng weka 80
Hình 3.15: Chọn dữ liệu kiểm tra 81
Hình 3.16: Kết quả kiểm tra 82
Trang 9MỞ ĐẦU
Các nguy cơ mất An toàn thông tin (ATTT) trên thế giới nói chung và Việt Nam nói riêng liên tục gia tăng và phát triển về cả số lượng cũng như mức độ nguy hiểm của các cuộc tấn công Theo ghi nhận của một số công ty bảo mật trên thế giới, trong vài năm trở lại đây Việt Nam luôn được coi là điểm nóng của mã độc và các cuộc xâm nhập mạng trái phép Hàng loạt các cuộc tấn công và xâm nhập mạng trái phép diễn ra với quy mô và mức độ nguy hiểm vào các hệ thống công nghệ thông tin của các doanh nghiệp, tổ chức chính phủ… đã gây mất ATTT và ảnh hưởng nghiêm trọng đến uy tín và doanh nghiệp, tổ chức chính phủ
Hiện nay, các cơ quan nhà nước, các tổ chức chính phủ đã và đang có nhiều biện pháp tích cực trong việc phòng chống và phát hiện xâm nhập mạng Rất nhiều biện pháp đã được ứng dụng và triển khai trong thực tế Tuy nhiên, các kỹ thuật tấn công và xâm nhập ngày càng được biến đổi tinh vi và phức tạp, dẫn đến một số hệ thống đảm bảo ATTT không phát hiện và ngăn chặn được kịp thời các tấn công này Chính vì vậy, để sớm phát hiện và ngăn chặn các cuộc tấn công và xâm nhập mạng thì yêu cầu các hệ thống đảm bảo ATTT phải liên tục cập nhật và thu thập thông tin
về tấn công từ nhiều nơi khác nhau Để làm được điều đó, hiện nay một số hãng bảo mật trên thế giới đang tiến hành nghiên cứu và ứng dụng công nghệ dữ liệu lớn (Bigdata) nhằm theo dõi và phát hiện sớm các cuộc tấn công và xâm nhập mạng Việc ứng dụng công nghệ Bigdata đòi hỏi các nhà nghiên cứu cần phải có các thuật toán để xử lý dữ liệu và có các công cụ để mô hình hóa quá trình phát hiện xâm nhập mạng từ những dữ liệu thu thập được Có nhiều công cụ và công nghệ được ứng dụng trong quá trình mô hình hóa phát hiện xâm nhập mạng Một số công cụ như Apache Spark; Weka, deepej… Để ứng dụng được các công cụ này đòi hỏi nhiều quy trình phức tạp cần thực hiện từ việc tiền xử lý dữ liệu đến việc sử dụng các thuật toán… Đây đều là những quy trình phức tạp với nhiều pha và kỹ thuật cần thực hiện Chính vì vậy, để áp dụng công nghệ Bigdata cho quá trình phát hiện xâm nhập mạng chính là quá trình nghiên cứu, tìm hiểu và ứng dụng các công cụ và kỹ thuật của môi trường Bigdata Từ những lý do trên, học viên với sự giúp đỡ của TS
Trang 10Đỗ Xuân Chợ đã lựa chọn đề tài: “Ứng dụng công nghệ Bigdata trong phát hiện xâm nhập mạng”
Tổng quan vấn đề cần nghiên cứu
Công nghệ Bigdata là công nghệ dữ liệu lớn bao gồm nhiều công cụ và kỹ thuật để có thể xử lý được luồng dữ liệu lớn trong thời gian thực hiện Một số công
cụ của Bigdata có thể kể đến như: Apache Spark; Weka, deepej; Hadoop; MapReduce…Trong luận văn, tác giả sẽ đi sâu vào việc nghiên cứu và tìm hiểu để
có thể ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập mạng
Để luận văn đạt được những kết quả trên, cần nghiên cứu và làm rõ các nội dung:
Nghiên cứu và tìm hiểu tổng quan về công nghệ Bigdata;
Tìm hiểu về một số ứng dụng của công nghệ Bigdata trong an toàn thông tin;
Tìm hiểu về một số công cụ trong công nghệ Bigdata trong việc phát hiện xâm nhập mạng;
Ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập mạng
Mục đích nghiên cứu:
Nghiên cứu và tìm hiểu tổng quan về công nghệ Bigdata;
Tìm hiểu về một số ứng dụng của công nghệ Bigdata trong an toàn thông tin;
Tìm hiểu về một số công cụ trong công nghệ Bigdata trong việc phát hiện xâm nhập mạng;
Ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập mạng
Đối tượng và phạm vi nghiên cứu
• Đối tượng nghiên cứu:
- Công cụ trong công nghệ Bigdata và kỹ thuật phát hiện xâm nhập mạng
Trang 11• Phạm vi nghiên cứu:
- Công cụ trong công nghệ Bigdata, kỹ thuật xâm nhập mạng, kỹ thuật theo dõi và phát hiện xâm nhập mạng
- Bộ dữ liệu chuẩn KDD99 DATASET
Phương pháp nghiên cứu:
- Dựa trên cơ sở lý thuyết của công cụ trong công nghệ Bigdatavà kỹ thuật phát hiện xâm nhập mạng; kỹ thuật theo dõi và phát hiện xâm nhập mạng
Trang 12CHƯƠNG 1 TỔNG QUAN VỀ CÔNG NGHỆ BIGDATA
1.1 Giới thiệu về công nghệ Bigdat
1.1.1 Khái niệm về Bigdata
Big Data là thuật ngữ dùng để chỉ các tập hợp dữ liệu lớn và phức tạp đến mức những công cụ hay những ứng dụng xử lí dữ liệu truyền thống không giải quyết được Big Data chứa nhiều thông tin quý giá mà nếu trích xuất thành công, những thông tin đấy sẽ giúp cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và cả việc xác định điều kiện giao thông theo thời gian thực
Do đó, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường Có rất nhiều khái niệm cũng như định nghĩa khác nhau về Bigdata Dựa trên những tiêu trí khác nhau mà mỗi tổ chức và doanh nghiệp đưa ra những khái niệm này [12], [13], [15]
Theo wikipedia: Big Data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp
mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này [11]
Theo Gartner: Big Data là những nguồn thông tin có đặc điểm chung khối lượng lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa quy trình [11]
Theo SAS: Big Data là một thuật ngữ dùng để miêu tả khối lượng lớn của dữ liệu – cả dữ lệu có cấu trúc và dữ liệu không có cấu trúc Nhưng độ to lớn của dữ liệu thì không phải điều quan trọng Việc các tổ chức làm gì, sử dụng các dữ liệu ấy như thế nào mới là điều quan trọng Big Data có thể được phân tích để đưa ra những thông tin cần thiết qua đó dẫn đến những quyết định và hướng đi tốt hơn trong kinh doanh [11]
Trang 13Trên đây luận văn đ
hiểu rõ hơn về Big data, lu
Big data
Nguồn hình thành d
Big data được hiể
luận văn sẽ trình bày một s
một dịch vụ hay thông tin khác,
• Dữ liệu từ các thông tin v
trên các phương ti
Hình 1.1: Sự đa dạng của Big data
ăn đã trình bày về một số khai niệm về Big data, tiBig data, luận văn sẽ đi vào mô tả một số đặc điểm đ
n hình thành dữ liệu Big Data:
ểu là tập hợi dữ liệu từ nhiều nguồn khác nhau Trên
t số nguồn dữ liệu hình thành Big data [3], [16]:
u hành chính (phát sinh từ chương trình của một tổ hay phi chính phủ) Ví dụ, hồ sơ y tế điện tử ở b
các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ
các hành vi, ví dụ như tìm kiếm trực tuyến về hay thông tin khác, đọc các trang mạng trực tuycác thông tin về ý kiến, quan điểm của các cá nhân, tương tiện thông tin xã hội
Big data, tiếp theo, để
m để hình thành
n khác nhau Trên đây, thành Big data [3], [16]:
chức, có thể là bệnh viện, hồ sơ
Trang 141.1.2 Đặc trưng 5V c
1.1.2.1.Khối lượng d
Kích thước của Big Data
Data đang tăng lên một cách m
khối lượng lớn dữ liệu chính là
ra nhiều khó khăn khi khố
kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên [3]
Hình 1.2 thể hiện kh
trong 7 tỉ dân trên thế giớ
khoảng 2.5 tỉ tỉ GigaBytes (108 Bytes) d
điểm tiêu biểu nhất của d
ưng 5V của Big Data
ng dữ liệu (Volume)
a Big Data được đo bằng khối lượng Dung lư
t cách mạnh mẽ theo từng ngày Lợi ích từ
u chính là điểm thu hút chính của Big Data, tuy nhiên khi khối lượng dữ liệu ngày càng phát triển thì các ứng dụng và kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên
Hình 1.2: Khối lượng dữ liệu trong Big Data
n khối lượng dữ liệu khổng lồ mà Big Data thu th
ới thì có 6 tỉ người sở hữu điện thoại, hay theo GigaBytes (108 Bytes) dữ liệu được tạo ra mỗi ngày
a dữ liệu lớn, khối lượng dữ liệu rất lớn
ng Dung lượng của Big
việc xử lý một
a Big Data, tuy nhiên cũng đặt
i lượng dữ liệu ngày càng phát triển thì các ứng dụng và kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên
mà Big Data thu thập được:
i, hay theo ước tính có
i ngày Đây là đặc
Trang 15Big Data cho phép liên k
với các bình luận của m
video được chia sẻ từ Youtube và
ộ (Velocity)
u theo 2 khía cạnh:
ữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 tri
p tìm kiếm trên web bán hàng của Amazon)
u nhanh ở mức thời gian thực (real-time), có ngh
lý ngay tức thời ngay sau khi chúng phát sinh (tính đ
ổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng Sức khỏe như hiện nay phần lớn dữ liệu lớn đư
lý dữ liệu lớn ngày nay đã cho phép xử lý tứvào cơ sở dữ liệu
Hình 1.4: Tốc độ của dữ liệu trong Big Data
ng (Variety) Big Data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau Ví d
a một nhóm người dùng nào đó trên Facebook vYoutube và Twitter
i 72.9 triệu các yêu
time), có nghĩa dữ liệu
i ngay sau khi chúng phát sinh (tính đến bằng mili
Trang 16hoặc các cơ sở dữ liệu quan h
sản phẩm) Tuy nhiên, trên th
cấu trúc và do đó rất khó ho
bức ảnh, các comment trên facbook, các
thác các loại dữ liệu khác nhau (c
gồm các tin nhắn, các cu
các video hay các file ghi âm, các file log, … và mang chúng l
liệu cấu trúc
Hình 1.
Hình 1.5: Sự đa dạng của dữ liệu trong Big Data
trên, Big Data được hình thành từ nhiều ngu
t đặc điểm không thể thiế Ngoài ra, đa dạng cnguồn mà còn là đa dạng về các kiểu dữ liệu thu th
có thể tiếp cận các dữ liệu có cấu trúc nằm trong các b
u quan hệ (ví dụ, các bảng bán hàng theo từng vùng hom) Tuy nhiên, trên thực tế, 80% dữ liệu trên thế giới này là d
t khó hoặc hầu như không thể đưa vào các bảng (ví d
nh, các comment trên facbook, các đoạn video, …) Big Data cho phép khai
u khác nhau (cấu trúc, bán cấu trúc và cả không c
n, các cuộc hội thoại trên mạng xã hội, hình ảnh, dữcác video hay các file ghi âm, các file log, … và mang chúng lưu tr
Hình 1.6: Dữ liệu cấu trúc và dữ liệu không cấu trúc
u trong Big Data
n video, …) Big Data cho phép khai
không cấu trúc) bao
ữ liệu cảm biến,
ưu trữ cùng các dữ
u trúc
Trang 171.1.2.4 Độ tin c
Một trong những tính ch
xác của dữ liệu Với xu hư
mạng xã hội (Social Net
chia sẻ của người dùng Mobile làm cho b
xác của dữ liệu ngày mộ
thông tin mang lại như th
lớn hay không Nếu có d
nên đầu tư phát triển dữ
giá trị của dữ liệu lớn mang l
khám, chữa bệnh sẽ giúp d
phí điều trị và các chi phí liên quan
1.1.3 Vai trò c
Big Data đang ngày càng
với nhiều mục đích khác nhau Ví d
- Các công ty sử dụ
từ đó đưa ra các đ
thông tin thu thập đư
tin cậy/chính xác (Veracity)
ng tính chất phức tạp nhất của dữ liệu lớn là đ
i xu hướng phương tiện truyền thông xã hội (Social Media) và
i (Social Network) ngày nay và sự gia tăng mạnh mẽ tính t
i dùng Mobile làm cho bức tranh xác định về độ tin c
ột khó khăn hơn Bài toán phân tích và loại bđang là tính chất quan trọng của Big Data
Hình 1.7:Hình ảnh thể hiện độ chắc chắn của dữ
(Value)
m quan trọng nhất của dữ liệu lớn, vì khi bắ
n thì việc đầu tiên cần phải làm đó là xác định đư
ư thế nào, khi đó mới có quyết định có nên tri
u có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ liệu lớn Kết quả dự báo chính xác thể hiện rõ nét nh
n mang lại Ví dụ, từ khối dữ liệu phát sinh trong quá trình giúp dự báo về sức khỏe được chính xác hơn, sẽ
và các chi phí liên quan đến y tế
Vai trò của Big data
đang ngày càng được sử dụng rộng rãi trong các lĩnh vđích khác nhau Ví dụ [12], [13], [14], [15]:
ụng Big Data để tìm hiểu hành vi tiêu dùng c
a ra các đề xuất mua sắm cá nhân hóa cho từng đối tư
p được từ họ (Ebay, Facebook, Google…)
n là độ tin cậy/chính
i (Social Media) và tính tương tác và tin cậy & chính
i bỏ dữ liệu thiếu
liệu
ắt đầu triển khai
nh được giá trị của
nh có nên triển khai dữ liệu
ừ nó, thì không
n rõ nét nhất về
u phát sinh trong quá trình
ẽ giảm được chi
ĩnh vực, tổ chức
u hành vi tiêu dùng của khách hàng
i tượng dựa trên
Trang 18- Các cơ sở nghiên cứu khoa học sử dụng Big Data để tìm ra những khám phá khoa học mới cho nhân loại, ví dụ như xây dựng bản đồ gene của con người, hay tiêu biểu như các nghiên cứu tại trong máy gia tốc Hadron của Tổ chức Nghiên cứu Nguyên tử Châu Âu, nếu các kết quả thu được từ các cảm biến trong máy được ghi nhận đầy đủ, luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, gấp 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp lại
- ứng dụng trong thương mại: Các nhà nghiên cứu Hsinchu & Chiang đã phân tích các ứng dụng của Big Data trong các lĩnh vực thương mại điện tử, chính phủ điện tử, khoa học công nghệ, chăm sóc sức khỏe Các phân tích trên lượng dữ liệu lớn còn góp phần cải tiến và tối ưu hóa quá trình ra quyết định, giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh nghiệp
- Quản lý cơ sở hạ tầng: O’Leary đề cập tới ứng dụng của Dữ liệu lớn trong trong quản lý cơ sở hạ tầng đường bộ Khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm
2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte Trong năm 2016, khi đài quan sát LSST thay thế cho SDSS đi vào hoạt động dự kiến sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày Trên đây, có thể thấy rằng: Big Data, dù mới được nhắc tới trong thời gian gần đây, vẫn đang ngày càng càng được nghiên cứu và ứng dụng rộng rãi trong nhiều lĩnh vực khác Trong phần tiếp theo của luận văn, tác giả sẽ đi sâu vào việc phân tích các ứng dụng của Big data trong thực tế hiện nay
- Ứng dụng của Big Data trong chính trị
Có thể lấy ví dụ như việc Tổng thống Mỹ Barack Obama dùng Data Mining trong cuộc chạy đua với Mitt Romney vào Nhà Trắng để thấy giá trị thật sự của Big Data Tại trụ sở của Obama ở Chicago, một đội ngũ gồm gần 150 kỹ thuật viên từ đầu năm 2012 đã liên tục thu thập và tạo ra một cơ sở Big Data chứa đầy đủ tất cả
Trang 19tiểu sử riêng của các cử tri tiềm năng, đặc biệt là những cử tri chưa rõ sẽ bầu cho ai
Họ thu thập dữ liệu từ nhiều nguồn khác nhau, nhất là các nguồn trên mạng như từ
16 triệu người đăng ký vào twitter của Obama (so với 500 nghìn của Romney), và gần 27 triệu người đăng ký vào facebook của Obama (so với 1.8 triệu của Romney) Các dữ liệu này cho biết nhiều chi tiết như mỗi cử tri thường đọc sách gì, mua sắm
ở đâu, công ăn việc làm là gì, bạn bè là ai, thậm chí mẹ của cử tri lần trước bầu cho ai… Nhờ vào việc tiếp cận và phân tích được nguồn dữ liệu khổng lồ và vô cùng quan trọng này, đội quân của Obama đã có những vận động thích hợp với cử tri, góp phần không nhỏ vào chiến thắng cuối cùng của Obama Hoặc chương trình CINDER (Cyber-Insider Threat) nhằm phát triển các phương pháp mới để phát hiện các hoạt động gián điệp trên mạng máy tính quân sự Một cách nhằm phát hiện các hoạt động gián điệp ẩn giấu là CINDER sẽ áp dụng rất nhiều mô hình hoạt động của đối phương để điều chỉnh các hoạt động trên mạng máy tính nội bộ [12], [13], [14], [15]
- Ứng dụng của Big Data trong giao thông
Big Data sử dụng các số liệu đã ghi được trong quá khứ để ước lượng các dòng giao thông trong thành phố vào các giờ cao điểm, từ đó có những kế hoạch phân luồng giao thông chi tiết, hợp lý giúp giảm thiểu kẹt xe Ngoài ra còn đưa ra thông tin cho người tham gia giao thông được biết nếu muốn đi từ nơi này đến nơi khác thì nên đi vào giờ nào để tránh kẹt xe, hoặc đi đường nào là ngắn nhất, v.v Việc thu thập và sử dụng thông tin có thể cải thiện dự báo và giúp tăng hiệu quả sử dụng của các cơ sở hạ tầng giao thông [12], [13], [14], [15]
Trang 20Hình 1.8: Mô hình ứng dụng Big data trong giao thông thông minh
Trên thực tế, hiện nay đã có một số quốc gia sử dụng Big Data trong lĩnh vực giao thông và cũng đã mang lại được nhiều kết quả quan trọng ngoài việc giảm thiểu ùn tắc giao thông, Big data còn giúp giảm thiểu được thời gian, chi phí cho quá trình vận chuyển [12], [13], [14], [15]
- Ứng dụng Big Data trong y tế
Big Data giúp các tổ chức y tế nắm được toàn vẹn các vấn đề sức khỏe của bệnh nhận, qua đó phát hiện được những diễn biến mới của bệnh cũng như tìm ra nhưng kế hoạch điều trị mới và đưa ra các chuẩn đoán chính xác hơn Không những thế, Big Data còn có ý nghĩa rất quan trọng trong việc dự đoán bệnh Khi điều trị các bệnh nhân, các tổ chức đã thu thập được một lương lớn các dữ liệu có giá trị, qua đó có thể sử dụng để dự đoán việc tái phát bệnh một cách chính xác Bên cạnh
đó, các tổ chức còn có thể đưa ra các nguyên nhân gây bệnh và các biện pháp để phòng tránh Ví dụ khi điều trị các bệnh nhân bệnh tim, Big Data sẽ lưu trữ các dữ liệu về thói quen vận động, ăn uống, nghỉ ngơi,… của các bệnh nhân; từ đó các bác
sĩ sẽ có những nhìn nhận rõ ràng hơn về tác nhân gây bệnh cũng như đưa ra các biện pháp điều trị hợp lý với từng bệnh nhân riêng biệt [12], [13], [14], [15]
Trang 21Hình 1.9: Mô hình ứng dụng Big data trong y tế
Một ví dụ khác đối với các bệnh nhân bị đột quỵ, các bác sĩ dựa trên những lần đã đột quỵ trước đấy của bệnh nhân, có phải đột quỵ khi đang vận động nặng hay không, bệnh nhân có sử dụng thuốc lá hay không, có tiền sử bệnh cao huyết áp hay không,… để đưa ra các nhận định chính xác chẳng hạn như nếu bệnh nhân có hút thuốc thì nên yêu cầu bệnh nhân bỏ thuốc vì hút thuốc lá là tác nhân của các bệnh mạch máu não từ đó dẫn đến tình trạng đột quỵ…
Ngoài ra Big Data có khả năng dự đoán các dịch bệnh sắp phát sinh cũng như tìm ra các phương pháp điều trị thích hợp Một số kết quả thực nghiệm cho thấy: việc phân tích Big Data có thể cho thấy điểm xuất phát cũng như xu hướng lây lan của bệnh cúm gia cầm Ví dụ vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 Dịch vụ này mang tên là Google Flu Trends Xu hướng mà Google rút
ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là gần như trùng với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới [12], [13], [14], [15]
Một số ứng dụng thực tế của Big data trong y tế:
Trang 22cần được xét nghiệm trong phòng thí nghi
thay đổi nếu một bệnh nhân
bước nhảy vọt lớn với 94% s
ra, 1 ứng dụng dễ thấy nữ
bị đeo sẽ liên tục thu thậ
bác sĩ sẽ dựa trên các dữ
bệnh nhân có dấu hiệu tă
uống, nghĩ ngơi hợp lý hơ
Hình 1.
Theo hình 1.10 đư
số từ khóa tìm kiếm liên quan
phòng chống dịch của Mỹ
- Ứng dụng Big Data trong th
Năm 2014, đội tuy
mang tính độc quyền của đ
cấu trúc sơ đồ chiến thuậ
trong cấu trúc của đội tuy
u tiên rõ ràng nhất về Big Data đó là “Hồ sơ
nh nhân có một hồ sơ điện tử riêng bao gồm các thông tin v
tuổi, thu nhập, trình độ giáo dục, tình trạng s
ch sử y khoa, dị ứng, kết quả kiểm tra trong phòng thí ũng có thể kích hoạt cảnh báo và nhắc nhở khi m
m trong phòng thí nghiệm mới hoặc theo dõi định kì
nh nhân đã thực hiện theo yêu cầu của bác sĩ M
i 94% số bệnh viện áp dụng EHRs, và theo sau là EU Ngoài
ữa đó là các thiết bị đeo thông báo thời gian th
ập dữ liệu sức khỏe của bệnh nhân và đưa lên Cloud Các
ữ liệu này để kiểm soát sức khỏe của bệnh nhân Ví d
u tăng huyết áp, bác sĩ sẽ yêu cầu bệnh nhân có các ch
ơn …
Hình 1.10: Ứng dụng của Big data trong giám sát dịch b
đường màu xanh là dự đoán của Google Flu Trends d
m liên quan đến các dịch cúm, màu vàng là dữ li
ỹ đưa ra
ng Big Data trong thể thao
i tuyển Đức sử dụng công nghệ Match Insight
a đội tuyển Đức khi đó – nhằm phân tích mô hình h
ật của đội tuyển Đức, từ đó đưa ra những đ
i tuyển Đức Hay như Slamtracker của IBM dành cho gi
sơ y tế điện tử”
m các thông tin về nhân
ng sở hữu nhà, tình
m tra trong phòng thí khi một bệnh nhân
nh kì để xem sự
ĩ Mỹ đã có một
ng EHRs, và theo sau là EU Ngoài
i gian thực Các thiết đưa lên Cloud Các
nh nhân Ví dụ nếu
nh nhân có các chế độ ăn
ch bệnh
a Google Flu Trends dựa trên
liệu do cơ quan
Match Insight - công nghệ
m phân tích mô hình hệ thống
ng điểm bất hợp lý
a IBM dành cho giải đầu
Trang 23quần vợt Wimbledon Có 3 ng
động viên chuyên nghiệp và có th
theo thời gian thực và theo dõi b
theo dõi được những dữ
lỗi của vận động viên trong khi thi
trong hoạt động kinh doanh, qu
thác về Big Data sẽ mang đ
Tiết giảm chi phí; tăng th
ban lãnh đạo, cán bộ ngân hàng
kiệm thời gian xử lý thông tin c
lận…[12], [13], [14], [15]
t Wimbledon Có 3 người trực thuộc Hiệp Hội Tennis (LTA)
p và có thứ hạng cao – sẽ theo dõi các dữ li
c và theo dõi bằng các thiết bị được tùy chỉnh riêng c liệu mà các máy tính hiện tại không theo dõi
ng viên trong khi thi đấu Bằng cách kết hợp Slamtracker v
c độ đánh bóng hoặc động tác của vận động viên
ả những gì nó cần trong một trận đấu [12], [13], [14], [15]
Hình 1.11: Công nghệ Match Insight của đội tuyển Đ
ủa Big Data trong tài chính – ngân hàng
ều nhận ra rằng Big Data có thể mang lại s
ng kinh doanh, quản lý của ngân hàng Tiếp cận, nghiên c
mang đến nhiều lợi ích cho ngân hàng trong kinh doanh nhăng thời gian phát triển và tối ưu hóa sản phẩm; đ
ngân hàng đưa ra những quyết định đúng và h
lý thông tin của khách hàng và phòng chống r[12], [13], [14], [15]
i Tennis (LTA) – là những vận
liệu của trận đấu
nh riêng của IBM Họ
i không theo dõi được như các
p Slamtracker với dữ liệu
ng viên - phần mềm [12], [13], [14], [15]
n Đức
i sự thay đổi lớn
n, nghiên cứu và khai rong kinh doanh như: m; đồng thời hỗ trợ đúng và hợp lý hơn; tiết
ng rủi ro gian
Trang 24Hình 1.12: Mô hình ứng dụng của Big data trong ngân hang
- Ứng dụng của Big Data trong thương mại
Trong thương mại Big Data giúp thực hiện một số công việc sau: Phân khúc thị trường và khách hàng; phân tích hành vi khách hàng tại cửa hàng; tiếp thị trên nền tảng định vị; phân tích tiếp thị chéo kênh, tiếp thị đa kênh; quản lý các chiến dịch tiếp thị và khách hàng thân thiết; So sánh giá; Phân tích và quản lý chuỗi cung ứng; Phân tích hành vi, thói quen người tiêu dùng Việc vận dụng Big Data sẽ giúp cho doanh nghiệp không chỉ nắm bắt được thị hiếu của khách hàng mà còn giúp họ kịp thời đưa ra những thay đổi nhằm cải thiện chất lượng sản phẩm Ví dụ: Mỗi chiếc xe do Tesla sản xuất đều được gắn một thiết bị cảm biến có khả năng gửi những thông tin liên quan đến vấn đề kỹ thuật, hoạt động của xe trở về nhà sản xuất
để xử lý kịp thời những trục trặc nếu có trước khi sự cố xảy ra Bằng việc kết nối với khách hàng thường xuyên, liên tục và trực tiếp, thay vì thông qua bên trung gian, Tesla luôn thu về những dữ liệu chính xác và kịp thời nhất, cho phép họ cải thiện trải nghiệm người dùng và cạnh tranh với những hãng sản xuất ô tô chạy bằng xăng vốn đang rất phổ biến khác
Trang 25Hình 1.13: Mô hình ứng dụng của Big data trong thương mại
- Trong kinh doanh
Một trong những vai trò được đề cập nhiều nhất của Big Data đó chính là các vai trò trong vấn đề kinh doanh Ngày nay khi mạng xã hội càng ngày càng phát triển, việc thu thập thông tin về sở thích, nhu cầu, thói quen của các khách hàng ngày càng trở nên dễ dàng hơn và từ đó các doanh nghiệp sẽ tìm ra những cách đầu
tư, quảng cáo, tiếp thi hợp lý hơn nhằm giảm các chi phí dư thừa cũng như hướng đến được đúng đối tượng mình cần Một nguyên tắc luôn đúng trong kinh doanh đó
là doanh nghiệp nắm rõ thông tin về một khách hàng bao nhiêu thì càng có khả năng phân tích và dự đoán hành vi mua hàng của khách hàng này bấy nhiêu, từ đó có thể đưa ra những chào hàng chính xác và kịp thời Về chiến lược tiếp thị, nếu như có những số liệu rõ ràng về hành vi người tiêu dùng, người làm marketing có thể đưa
ra các dự đoán chuẩn xác hơn so với việc chỉ võ đoán và thực hiện các chiến dịch tiếp thị quảng bá sản phẩm, với mong muốn tác động đến hành vi người tiêu dùng ở đời sống thực Thông qua nguồn Big Data của mạng xã hội, doanh nghiệp có thể trích xuất ra những thông tin về sở thích, thói quen, lịch sử mua sắm của người tiêu dùng, qua đó cung cấp cho từng người dùng những trải nghiệm nhãn hiệu phù hợp với riêng cá nhân họ trên chính môi trường mạng xã hội đó Một ví dụ đơn giản, khi
Trang 26người dùng tìm kiếm một sản phẩm trên google, trình duyệt sẽ lưu lại lịch sử tìm kiếm đó và các doanh nghiệp sẽ sử dụng dữ liệu đó để quảng cáo đến cho người dùng
- Ứng dụng Bigdata trong viễn thông
Với khối lượng dữ liệu gia tăng mạnh mẽ đi cùng sự phát triển của doanh nghiệp trong môi trường cạnh tranh gay gắt đòi hỏi doanh nghiệp phải quản lý hữu hiệu nguồn dữ liệu, xử lý thành thông tin chiến lược đưa ra những chiến lược kinh doanh đúng đắn Phân tích Big Data không chỉ là cơ hội cho các tổ chức, doanh nghiệp tìm kiếm những thông tin chiến lược để đảm bảo việc kinh doanh bền vững, các chiến lược tiếp thị hiệu quả đồng thời việc khai thác tốt Big Data này còn là một thách thức lớn đối với doanh nghiệp sở hữu nguồn tài nguyên này
Hình 1.14: Mô hình ứng dụng Bigdata trong viễn thông
Một số lợi ích mà Big data mang lại trong lĩnh vực viễn thông [12], [13], [14], [15]:
• Nâng cao thương hiệu: Phân tích Big Data sẽ hỗ trợ các nhà cung cấp dịch vụ hiểu được thói quen người dùng và xây dựng chiến lược tiếp thị phù hợp với nhu cầu thực tế Nhà mạng có thể phân tích khối dữ liệu sản sinh liên tục để thấu hiểu hơn về đặc điểm nhân khẩu học (demographic) và tâm lý học của khách hàng cũng như những phản hồi thông qua các phương tiện truyền thông xã hội nhằm bảo vệ hình ảnh,
Trang 27thương hiệu của mình Ngoài ra, nhà mạng cũng có thể đánh giá được phản ứng người dùng về sản phẩm mới ra mắt, đưa ra đề xuất hoặc chiến dịch quảng bá mới với chi phí hợp lý, hiệu quả hoặc chủ động tạo ra những đơn đặt hàng sử dụng dịch vụ nhằm nâng cao thương hiệu
• Nghiên cứu thói quen người dùng: Big Data mang nhiều cơ hội đến doanh nghiệp giúp thấu hiểu người dùng hơn qua các kênh tương tác Chẳng hạn người dùng thường bắt đầu quan tâm đến một sản phẩm, dịch vụ nào đó qua các phương tiện truyền thông, sau đó gọi tới trung tâm chăm sóc khách hàng để hỏi thông tin chi tiết và cuối cùng là mua hàng tại cửa hàng bán lẻ Trong bối cảnh hiện nay, nhà cung cấp dịch
vụ phải đảm bảo tính liền mạch của những tương tác với khách hàng Thông qua việc phân tích dữ liệu về khách hàng ở nhiều cấp độ tương tác khác nhau như điện thoại, website, trung tâm khách hàng, đại lý, cửa hàng bán lẻ, v.v… Nhà cung cấp có thể xác định xem dịch vụ mình cung cấp có làm hài lòng khách hàng và họ đang chia sẻ, nhận xét gì về sản phẩm
• Quảng cáo theo ngữ cảnh, thời gian thực: Với một bộ dữ liệu chi tiết
về từng khách hàng, các nhà mạng có thể giới thiệu sản phẩm và dịch
vụ tùy thuộc vào từng ngữ cảnh liên quan đến nội dung mà người dùng quan tâm khi họ đọc một bài viết nào đó Tương tự, tính logic của sản phẩm có thể được tổng hợp thông qua các kênh tương tác khác nhau để hiểu được khách hàng tốt hơn Thông tin phản hồi về quảng cáo, địa điểm và quá trình sử dụng dịch vụ được thu thập và phân tích theo thời gian thực Sử dụng các giải pháp kinh doanh thông minh để xử lí sự kiện phức tạp nhằm xác định phân khúc thị trường hướng đến và lợi nhận biên trước khi đưa ra quyết định kinh doanh sẽ cải thiện chi phí quảng cáo và tiếp thị
• Hoạt động tiếp thị theo địa điểm: Việc phân tích Big Data sẽ giúp nhà mạng ghi nhận vị trí của khách hàng khi họ bước vào một khu vực nhất
Trang 28định (“geo-fencing”) và đưa ra những đề xuất, thông tin liên quan tới địa điểm họ đang ở cho các nhà cung cấp dịch vụ truyền thông (CSP’s) cùng các đối tác CSP’s có thể phân tích dữ liệu vị trí người dùng thông qua kết nối Internet, hệ thống định vị toàn cầu (GPS) mà người
đó sử dụng trong một quãng thời gian nhất định để chọn lọc những thông tin giá trị cho hoạt động quảng cáo, tiếp thị
• Tối ưu hóa hệ thống: Big Data có thể được dùng để thu thập dữ liệu hệ thống theo thời gian thực nhằm phát hiện thời điểm hệ thống gặp sự cố quá tải, hoạt động dưới công suất hoặc đã đạt đến công suất tối đa Những thông tin hệ thống sẽ được phân tích để nhận dạng điểm cung cấp kết nối hệ thống và xác định cần thực hiện đầu tư vốn vào đâu để
có thể hỗ trợ các dịch vụ giá trị gia tăng và những ứng dụng nội dung Các nhà cung cấp dịch vụ mạng thường quản trị băng tần thông qua giới hạn gói dữ liệu hoặc theo từng cấp độ dựa trên mức phí sử dụng Việc sử dụng Big Data giúp hỗ trợ hoạch định các chính sách sử dụng được cá nhân hóa bằng cách kết hợp nguồn dữ liệu có tính cấu trúc với nguồn dữ liệu phi cấu trúc nhằm phát hiện các hành vi đặc trưng của khách hàng Các chính sách sử dụng áo dụng riêng cho từng khách hàng nhằm đáp ứng tốt nhất nhu cầu khách hàng đồng thời đạt được doanh thu cao với cùng một dung lượng dữ liệu
Việc phân tích các bản ghi dữ liệu sinh ra từ các thiết bị mạng, ứng dụng, gói tin mạng và các sự kiện hệ thống được phục vụ cho mục đích điều tra và phát hiện xâm nhập trong ATTT Tuy nhiên, các công nghệ truyền thống thực sự rất khó khăn trong việc cung cấp các công cụ phân tích dài hạn, quy mô lớn, vì việc lưu trữ số lượng lớn dữ liệu là không hề khả thi về mặt kinh tế Kết quả là hầu hết các bản ghi nhật ký sự kiện trên các hệ thống và thiết bị thường được xóa sau một thời gian duy trì cố định [12], [13], [14], [15]
Sự ra đời của Big Data sẽ chuyển đổi phân tích ATTT bằng cách thu thập các
dữ liệu ở một quy mô lớn từ nhiều nguồn, từ các bản ghi nhật kí hệ thống đến các
Trang 29cơ sở dữ liệu về lỗ hổng bảo mật, dữ liệu về tấn công mạng, dữ liệu về mã độc… Sau đó nó sẽ phân tích sâu hơn trên những dữ liệu đã có, qua đó cung cấp một cái nhìn bao quát, hợp nhất các thông tin liên quan đến an toàn và đảm bảo được việc phân tích thực hiện theo thời gian thực của luồng dữ liệu Chính vì thế, Big Data rất phù hợp để sử dụng với các ứng dụng như: theo dõi botnet, phát hiện xâm nhập mạng, phân tích mã độc, phát hiện tấn công APT Yêu cầu mới được đặt ra, trong khi những phương pháp truyền thống không thể đáp ứng được, thì việc phân tích Big Data đang mở ra nhiều hướng nghiên cứu mới trong lĩnh vực ATTT Có thể xem đây là một bước tiến quan trọng trong việc xây dựng các chương trình giám sát
an toàn mạng, đáp ứng được việc phân tích sâu hơn trên lượng lớn dữ liệu thu thập được, từ đó tăng khả năng phát hiện và ngăn chặn các nguy cơ, mối đe dọa, các cuộc tấn công tinh vi trên không gian mạng Tiếp theo, luận văn sẽ trình bày về các ứng dụng của Big data trong ATTT
1.3.1 Theo dõi và phát hiện Botnet
Mạng botnet là một mạng rất lớn gồm hàng trăm hàng ngàn máy tính Zombie kết nối với một máy chủ IRC (Internet Replay Chat) qua các máy chủ DNS để nhận lệnh từ hacker một cách nhanh nhất Các mạng bot gồm hàng ngàn “thành viên” (gọi tắt là bot hay robot) là một công cụ lý tưởng cho các cuộc giao tranh trên mạng như DDOS, spam, cài đặt các chương trình quảng cáo.Nếu như máy tính là một thành phần trong mạng botnet thì có nghĩ máy tính đã bị nhiễm virus: trojan, worm… Hacker tạo ra mạng botnet để điều khiển, sử dụng hàng trăm thậm chí hàng ngàn các máy tính để phục vụ cho mục đích xấu của chúng [15]
Trang 30Hình 1.15: Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet
Botnet đang là một trong những mối đe dọa lớn nhất trên Internet và là một thách thức đối với các chuyên gia ATTT Việc phát hiện Botnet đòi hỏi phải thu thập một lượng lớn dữ liệu mạng để phân tích Với việc ứng dụng Big Data, dự án nghiên cứu Botcloud do nhóm Jerome Fracois và đồng nghiệp tại đại học Luxembourg thực hiện đã sử dụng mô hình MapReduce để phân tích một số lượng lớn các dữ liệu Netflow để xác định các máy tính bị lây nhiễm đang tham gia trong một mạng Botnet Dự án này đã mở ra nhiều hướng mới trong công việc xây dựng các hệ thống thông minh để phát hiện Botnet Botcloud được xây dựng dựa trên kiến trúc BotTrack Kiến trúc này được thiết kế để theo dõi và phát hiện Botnet bằng việc sử dụng Netflow và thuật toán PageRan, thực hiện việc theo dõi các kênh C&C (Command and Control) trong Botnet
Dự án này đã mở ra nhiều hướng mới trong việc xây dựng các hệ thống thông minh để phát hiện Botnet MapReduce được sử dụng cho dự án này, vì một lượng lớn các dữ liệu Netflow được thu thập cần phải phân tích 720 triệu bản ghi Netflow (77GB) được thu thập chỉ trong 23 giờ đồng hồ
Trang 3117: Mô hình ứng dụng Big data trong phân tích mã
i, Sourcefire sử dụng Big Data analysis để cung cấp công c
ng phần mềm độc hại với FireAMP FireAMP là m
i FireAMP FireAMP là một phát hiện
nh các mối đe dọa tiên
Trang 32tiến, và cung cấp các dữ liệu cần thiết để hiểu được phạm vi của các mối đe dọa, và lưu trữ nó Sourcefire sử dụng một công cụ nhỏ trên thiết bị đầu cuối để chuyển tiếp
dữ liệu tới FireCLOUD - một công cụ phân tích dựa trên đám mây sử dụng phân tích dữ liệu lớn để xác định và ghi các mối đe dọa được bỏ qua bởi các công cụ bảo mật khác
1.3.3 Phát hiện xâm nhập mạng
Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một
hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự
cố có thể xảy ra, đó là các vi phạm hoặc các mối đe dọa sắp xảy ra vi phạm các chính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc thực hành bảo mật tiêu chuẩn Trước sự gia tăng của các cuộc tấn công ngày càng tinh vi thì ngược lại các giải pháp phát hiện và ngăn chặn có vẻ như đang không đáp ứng được các nhu cầu thực tế Mặc dù hầu hết các hãng đã trang bị những giải pháp phòng chống, phát hiện xâm nhập, tường lửa tiên tiến nhưng kết quả là vẫn có nhiều các cuộc tấn công và các dữ liệu vẫn bị lấy cắp [15]
Hình 1.18: Mô hình ứng dụng Big data trong phát hiện xâm nhập mạng
Trên hình 1.8 chỉ ra quy trình xây dựng mô hình và quy trình kiểm tra mô hình trong hệ thống IDS Qúa trình xây dựng mô hình diễn ra như sau:
- Đầu tiên, dữ liệu truy cập đi vào sẽ được tiền xử lý, để loại bỏ các dấu hiệu
và tín hiệu nhiễu Tiếp theo, dữ liệu này sẽ qua mô hình huấn luyện Qúa
Trang 33trình huấn luyện sẽ xây dựng được mô hình để sau này phục vụ cho việc phát hiện xâm nhập
- Sau khi xây dựng mô hình huấn luyện xong, hệ thống sẽ kiểm tra việc xây dựng mô hình có hợp lý và chính xác hay không Toàn bộ quá trình này cũng được tiến hành như trong quá trình huấn luyện
Chính vì vậy, việc áp dụng công nghệ Big Data vào việc phân tích, giám sát
và phát hiện ra các sự bất thường trong hệ thống sẽ kịp thời cảnh báo chúng ta những vụ tấn công tinh vi Đặc biệt, Big Data cho phép có thể thực thi các thuật toán Data Mining để gom nhiều sự kiện lại vào các ngữ cảnh, nên có thể phát hiện những bất thường xảy ra: bất thường trong các giao thức, bất thường về các kết nối, bất thường về băng thông, hay bất thường về các tên miền/ địa chỉ IP,…
Như vậy, với sự hỗ trợ của Big Data, các hệ thống giám sát an ninh mạng có thể giải quyết được những hạn chế về tính toán, phát hiện các sự bất thường trong
hệ thống dẫn đến những cảnh báo quan trọng về các vụ xâm nhập Big Data sẽ giải quyết được phần lớn các đòi hỏi về tính thời gian thực cao, lưu lượng dữ liệu cần xử
lí rất lớn (cả quá khứ và hiện tại), các thuật toán phức tạp nhằm phát hiện sự bất thường
1.3.4 Phát hiện tấn công APT
Thuật ngữ APT (Advanced Persistent Threat) được dùng để chỉ kiểu tấn công dai dẳng và có chủ đích vào một thực thể Kẻ tấn công có thể được hỗ trợ bởi chính phủ của một nước nào đó nhằm tìm kiếm thông tin tình báo từ một chính phủ nước khác Tuy nhiên không loại trừ mục tiêu tấn công có thể chỉ là một tổ chức tư nhân Tấn công APT thường do những đối tượng có trình độ chuyên môn cao thực hiện, được hậu thuẫn bởi những tổ chức có tiềm lực Một thách thức trong việc dò tìm các cuộc tấn công APT là việc lọc toàn bộ số lượng dữ liệu nhằm phát hiện những bất thường đang xảy ra Vì thế phân tích dữ liệu lớn là một tiếp cận phù hợp trong việc
dò tìm các cuộc tấn công APT [13], [15]
Trang 34Tại RSA Labs mộ
Beehive Các kết quả nghiên c
chặn mã độc từ xa, tiến hành phân tích các tr
triệu máy chủ (host) trên kh
tháng Hơn nữa, 60% các l
khai thác trong các tấn công zero
1.3.6 Điều tra tội phạ
Công việc điều tra ph
lớn cần thu thập, phân tích và x
ứng việc truy vết cũng nh
PRISM của cơ quan tình báo M
dựng nhằm thu thập lượng thông tin kh
Hình 1.19: Kỹ thuật tấn công APT
ột hệ thống dò tìm tấn công APT được nghiên cnghiên cứu ban đầu cho thấy Beehive cung cấcác thông điệp bản ghi sự kiện trong một giờ và nh
m chính sách, cũng như sự lây nhiễm phần mềm độc h
ệ ấn công Zero-day
ng việc ứng dụng Big data, các kỹ sư an toàn m
ng WINE (Worldwide Intelligence Network Enviornment) cho vi
liệu, trên phạm vi rộng, sử dụng các dữ liệu thu th
ng được sử dụng để đo thời gian của 18 cuộc t
p các hệ nhị phân tin cậy và tập dữ liệu về các d
n hành phân tích các trường dữ liệu được thu th(host) trên khắp thế giới, các tấn công này kéo dài từ
a, 60% các lỗ hổng bảo mật được xác định trong nghiên c
n công zero-day mà trước đó chưa tìm ra
ội phạm công nghệ cao
u tra phải đối mặt với những thách thức mới khi lư
p, phân tích và xử lý nhanh trong khoảng thời gian nhũng như phát hiện những dấu hiệu tấn công Chình báo Mỹ NSA đã ứng dụng công nghệ dữ
ng thông tin khổng lồ trên khắp thế giới (dữ
c nghiên cứu có tên là
ấp khả năng để
và nhận diện các
c hại
ư an toàn mạng đã đưa nment) cho việc
u thu thập được
c tấn công các dấu hiệu ngăn
zero-c thu thập trên 11
19 ngày đến 30
nh trong nghiên cứu này đã bị
i khi lượng dữ liệu
i gian nhất định, đáp
n công Chương trình liệu lớn để xây liệu điện thoại,
Trang 35email, hình ảnh, video, trạng thái trên các trang mạng xã hội…) Từ đó phân tích và đưa ra các cảnh báo về các dấu hiệu khủng bố có thể xảy ra
KẾT LUẬN CHƯƠNG 1
- Nghiên cứu về tổng quan về Big Data Kết quả nghiên cứu cho thấy Big Data là một công nghệ mới, đáp ứng được việc lưu trữ khối dữ liệu vô cùng lớn Các dữ liệu được lưu trữ trong Big data thể hiện sự phong phú về
cả nguồn gốc và cấu trúc Chính sự phong phú này giúp cho người nghiên cứu có thể ứng dụng công nghệ Big data cho việc phân tích và dự đoán
- Trình bày một số ứng dụng của Big data đang được triển khai trong thực
tế Kết quả cho thấy rằng, hầu hết tất cả các lĩnh vực trong cuộc sống đều
có thể ứng dụng công nghệ Big data để giải quyết những vấn đề khó khăn đang gặp phải
- Trình bày một số ứng dụng cơ bản Big Data trong ATTT: Với nguồn dữ liệu vô cùng lớn, Big Data rất hữu ích trong việc đánh giá và phát hiện xâm nhập Big Data là phát hiện công nghệ mới trong các nguy cơ mất ATTT như phát hiện Botnet, phát hiện tấn công APT, phát hiện lỗ hổng Zero-Day, phát hiện xâm nhập mạng trái phép, điều tra tội phạm công nghệ cao
Trang 36CHƯƠNG 2 VẤN ĐỀ ỨNG DỤNG CÔNG NGHỆ BIGDATA
TRONG PHÁT HIỆN XÂM NHẬP MẠNG
2.1.1 Khái niệm về xâm nhập mạng
Trong thực tế có rất nhiều cách diễn giải khác nhau về tấn công mạng, theo Sandeep Gutta thì tấn công mạng (cyber attack hay intrusion) có thể được hiểu là một loạt các hoạt động máy tính nguy hiểm đe dọa và làm tổn hại tới sự bảo mật và tính toàn vẹn của một máy tính hay hệ thống mạng Tấn công mạng phá vỡ hoạt động bình thường của hệ thống máy tính và có thể truy nhập trái phép hoặc phá hủy thông tin trong các hệ thống máy tính Theo một cách định nghĩa khác tấn công mạng có thể được hiểu là bất kì hành động nào cố gắng làm tổn hại sự toàn vẹn, bí mật, tính sẵn sàng của một tài nguyên hoặc đi ngược lại mục tiêu bảo mật của một tài nguyên nào đó
Trong lịch sử tồn tại của mạng máy tính đã từng xảy ra rất nhiều các cuộc tấn công mạng với qui mô lớn, nhỏ khác nhau và cũng để lại nhiều thiệt hại nghiêm trọng Có nhiều cách thức tấn công nhưng có thể phân thành bốn loại hình tấn công mạng chính như sau [16]:
DoS- Denial of Service attack : Là những tấn công làm cho tài nguyên máy tính không phục vụ được theo yêu cầu của người dùng thực sự hay còn gọi là tấn công từ chối dịch vụ Dạng phổ biến nhất của tấn DoS là làm cho tài nguyên máy tính quá bận vì bị sử dụng toàn bộ với rất nhiều yêu cầu vô ích đến mức người dùng thực sự không thể sử dụng nó Có rất nhiều biến thể của tấn công DoS bao gồm TCP-SYN Flood, ICMP/UDP Flood, Smurf, Ping of Death, Teardrop, Mailbomb, Apache2
R2L - Remote to Local attack : Trong loại tấn công này, tin tặc cố gắng đạt được quyền truy cập vào khu vực hệ thống máy tính bằng việc gửi các gói tin tới hệ thống thông qua mạng Một vài cách phổ biến mà loại này thực hiện là đoán mật khẩu thông qua phương pháp từ điển brute-force, FTP Write,
U2R - User to Root attack: Trong kiểu tấn công này, tin tặc với quyền của
Trang 37một người dùng bình thường cố gắng để đạt được quyền truy nhập cao nhất (đặc quyền của người quản trị) vào hệ thống một cách bất hợp pháp Cách thức phổ biến của kiểu tấn công này là gây tràn bộ đệm
Probe - Surveillance: Trong loại tấn công này, tin tặc quét mạng hoặc máy tính để tìm ra điểm yếu dễ tấn công mà thông qua đó tin tặc có thể khai thác hệ thống Điều này có phần giống như theo dõi, giám sát hệ thống Một cách phổ biến của loại tấn công này là thực hiện thông qua việc quét các cổng của hệ thống máy tính Bằng việc này, tin tặc có thể lấy được thông tin về cổng đang mở, dịch vụ đang chạy, và rất nhiều thông tin chi tiết nhạy cảm khác như địa chỉ IP, địa chỉ MAC, các luật tường lửa đang sử dụng
2.1.2 Vấn đề phát hiện xâm nhập mạng
Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một
hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự
cố có thể xảy ra, đó là các hành vi hoặc các mối đe dọa sắp xảy ra vi phạm các chính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc dựa trên bảo mật tiêu chuẩn
Trong thực tế, khi một máy tính hay một hệ thống máy tính hoạt động trên môi trường mạng, sẽ có rất nhiều kết nối giữa nó và các máy tính, các thiết bị khác
Có thể trong những kết nối đó có những kết nối đang tìm cách tấn công hệ thống để đạt được mục đích nào đó Bản thân mỗi máy tính đều có những biện pháp để tự bảo vệ nhưng nó có những điểm yếu và thực sự không đủ sức chống lại các cuộc tấn công mới với mức độ ngày càng tinh vi hơn Bên cạnh đó các máy tính hay hệ thống cũng phải chịu các nguy cơ đến từ việc vi phạm chính sách ATTT một cách
vô tình hay cố ý Vấn đề phát hiện xâm nhập mạng được đặt ra là cần có cơ chếphát hiện sớm các cuộc tấn công để từ đó có những biện pháp ngăn chặn hoặc giảm thiểu tối đa những thiệt hại, tác động do các cuộc tấn công gây ra
2.1.3 Một số công cụ phát hiện xâm nhập mạng
Trang 38Hệ thống phát hiện xâm nhập (Intrusion Detection System - IDS) là hệ thống phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật và đưa ra cảnh báo cho nhà quản trị [1], [2], [3]
IDS cũng có thể phân biệt giữa những tấn công vào hệ thống từ bên trong (từ những người trong công ty) hay tấn công từ bên ngoài (từ các hacker) IDS phát hiện dựa trên các dấu hiệu đặc biệt về các nguy cơ đã biết (giống như cách các phần mềm diệt virus dựa vào các dấu hiệu đặc biệt để phát hiện và diệt virus) hay dựa trên so sánh lưu thông mạng hiện tại với baseline (thông số đo đạc chuẩn của hệ thống) để tìm ra các dấu hiệu khác thường
Hình 2.1 Phát hiện xâm nhập mạng của IDS
Các thành phần của IDS:
Trang 39Hình 2.2: Các thành phần của IDS
- Trung tâm điều khiển (The Command Console): Trung tâm điều khiển là nơi mà IDS được giám sát và quản lí Nó duy trì kiểm soát thông qua các thành phần của IDS, và Trung tâm điều khiển có thể được truy cập từ bất cứ nơi nào Tóm lại Trung tâm điều khiển duy trì một số kênh mở giữa Bộ cảm biến (Network Sensor) qua một đường mã hóa, và nó là một máy hoặc phần mềm chuyên dụng
- Bộ cảm biến (Network Sensor): Bộ cảm biến là chương trình chạy trên các thiết bị mạng hoặc máy chuyên dụng trên các đường mạng thiết yếu Bộ cảm biến
có một vai trò quan trọng vì có hàng nghìn mục tiêu cần được giám sát trên mạng
Khi hệ thống mạng dùng các hub, có thể đặt các bộ cảm biến trên bất kì port nào của hub vì mọi luồng traffic được gửi ra tất cả các port trên hub, và có thể phát hiện ra các luồng traffic bất thường Nhưng khi hệ thống cần sử dụng các switch, các switch chỉ gửi gói tin đến chính xác địa chỉ cần gửi trên từng port Để giải quyết vấn đề này, một kỹ thuật thông dụng là sử dụng những con switch có port mở rộng (expansion port) - khá nhiều thiết bị mạng ngày nay có cái này, và kết nối IDS vào port này Port này được gọi là Switched Port Analyzer (SPAN) port SPAN port cần được cấu hình bởi các chuyên gia bảo mật để nhân bản mọi luồng dữ liệu của switch
- Bộ phân tích gói tin(Network Trap): Bộ phân tích gói tin là một thiết bị phần cứng hoặc phần mềm được kết nối trên mạng, không có địa chỉ IP, kiểm soát các luồng dữ liệu trên mạng và gửi cảnh báo khi phát hiện ra hành động xâm nhập
Trang 40- Thành phần cảnh báo (Alert Notification): Thành phần cảnh báo có chức năng gửi những cảnh báo tới người quản trị Trong các hệ thống IDS hiện đại, lời cảnh báo có thể ở dưới nhiều dạng như: cửa sổ pop-up, tiếng chuông, email, SNMP
Phân loại các hệ thống IDS
Hệ thống phát hiện xâm nhập được chia làm nhiều loại khác nhau, có thể
dựa theo loại và vị trí đặt của các Sensor hoặc phương pháp sử dụng choEngine để sinh ra các cảnh báo Hầu hết các IDS đơn giản đều kết hợp ba thành phần Sensor,
Console, Engine vào trong một thiết bị phần cứng hoặc một ứng dụng
Network-based Intrusion Detection System (NIDS): Network-based
InstrusionDetection System (hệ thống phát hiện xâm nhập cho mạng) là một giải pháp độc lập để cảnh báo các xâm nhập trái phép thông qua việcphân tích các gói tin trên mạng và giám sát hoạt động của nhiều máy trạm nội bộ, NIDSkiểm soát các
luồng thông tin trên mạng bằng cách kết nối vào các Hub, Switchđược cấu hình Port
mirroringhoặc Network tapđể có thể bắt các gói tin, phân tích nội dung nhận được
và từ đó sinh ra các cảnh báo
Trong hệ thống NIDS, các Sensor được đặt ở các điểm cần kiểm tra trong
mạng, thường là trước miền DMZ hoặc ở vùng biên của mạng, các Sensorbắt tất cả
các gói tin lưu thông trên mạng và phân tích nội dung bên trong của từng gói tin để phát hiện các dấu hiệu tấn công trong mạng
Theo chức năng sử dụng, hệ thống NIDS còn được phân thành hai hệ thống nhỏ đó là Protocol-based Intrusion Detection System (PIDS - Hệ thống phát hiện truy cập dựa trên giao thức) và Application Protocol-based Intrusion Detection System (APEDS - hệ thống phát hiện truy nhập dựa trên ứng dụng) PEDS và APIDS được sử dụng để giám sát các giao vận và giao thức không hợp lệ hoặc không mong muốn trên luồng dữ liệu hoặc hạn chế các ngôn ngữ giao tiếp Hệ thống Protocol-based Intrusion Detection System (PIDS) chứa một hệ thống (System) hoặc một thành phần (Agent) thường được đặt ngay trước một máy chủ, giám sát và phân tích các giao thức trao đổi giữa các thiết bị được nối mạng (một máy trạm hoặc một hệ thống)
Một hệ thống Application Protocol-based Intrusion Detection System