1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng bigdata trong phát hiện xâm nhập mạng

94 436 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 94
Dung lượng 6 MB

Nội dung

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT APT Advanced Persistent Threat Mối đe dọa liên tục nâng cao IPS Internet Protocols Bộ giao thức liên mạng SSL Secure Sockets Layer Tiêu chuẩn của côn

Trang 1

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai đó công bố trong bất kỳ công trình nào khác

Tác giả luận văn

Nguyễn Thị Hòa

Trang 2

Và cuối cùng em xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè những người đã ủng hộ, động viên tạo mọi điều kiện giúp đỡ để em có được kết quả như ngày hôm nay

Tác giả luận văn

Nguyễn Thị Hòa

Trang 3

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v

DANH MỤC CÁC BẢNG BIỂU vi

DANH MỤC CÁC HÌNH VẼ vii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ CÔNG NGHỆ BIGDATA 4

1.1 Giới thiệu về công nghệ Bigdat 4

1.1.1 Khái niệm về Bigdata 4

1.1.2 Đặc trưng 5V của Big Data 6

1.1.3 Vai trò của Big data 9

1.2 Một số ứng dụng của bigdata 10

1.3 Ứng dụng của bigdata trong an toàn thông tin 20

1.3.1 Theo dõi và phát hiện Botnet 21

1.3.2 Phân tích mã độc 23

1.3.3 Phát hiện xâm nhập mạng 24

1.3.4 Phát hiện tấn công APT 25

1.3.5 Phát hiện tấn công Zero-day 26

1.3.6 Điều tra tội phạm công nghệ cao 26

KẾT LUẬN CHƯƠNG 1 27

CHƯƠNG 2 VẤN ĐỀ ỨNG DỤNG CÔNG NGHỆ BIGDATA TRONG PHÁT HIỆN XÂM NHẬP MẠNG 28

2.1 Tổng quan chung về phát hiện xâm nhập mạng 28

2.1.1 Khái niệm về xâm nhập mạng 28

2.1.2 Vấn đề phát hiện xâm nhập mạng 29

2.1.3 Một số công cụ phát hiện xâm nhập mạng 29

2.2 Một số công cụ của Bigdata trong phát hiện xâm nhập mạng 36

2.2.1 Hạn chế của các giải pháp phát hiện xâm nhập phổ biến 36

2.2.2 Công nghệ Big data trong phát hiện xâm nhập mạng 36

Trang 4

2.3 Triển khai ứng dụng Big data trong phát hiện xâm nhập mạng 44

2.3.1 Tổng quan mô hình ứng dụng Big data trong phát hiện xâm nhập mạng 44 2.3.2 Dữ liệu phục vụ phát hiện xâm nhập mạng 47

2.3.3 Một số thuật toán phát hiện xâm nhập mạng 55

KẾT LUẬN CHƯƠNG 2 64

CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 65

3.1 Thực hiện thực nghiệm 65

3.1.1 Lựa chọn thuật toán 65

3.1.2 Lựa chọn bộ dữ liệu và công cụ thực nghiệm 69

3.2 Một số kết quả thực nghiệm 72

3.2.1 Thực nghiệm huấn luyện 73

3.2.2 Thực nghiệm kiểm tra 79

KẾT LUẬN CHƯƠNG 3 82

KẾT LUẬN 83

TÀI LIỆU THAM KHẢO 85

Trang 5

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

APT Advanced Persistent Threat Mối đe dọa liên tục nâng cao IPS Internet Protocols Bộ giao thức liên mạng

SSL Secure Sockets Layer Tiêu chuẩn của công nghệ bảo

mật

IT Information Technology Công nghệ thông tin

FTP File Transfer Protocol Giao thức chuyển nhượng tập tin

SQL Structured Query Language Ngôn ngữ truy vấn mang tính

cấu trúc

IP Internet Protocol Giao thức kết nối Internet

DLP Data Leak Prevention Ngăn chặn rò rỉ dữ liệu

DNS Domain Name System Hệ thống tên miền

URL Uniform Resource Locator Tham chiếu tài nguyên mạng

Internet

SIEM Security Information Event

DDOS Distributed Denial Of Service Tấn công từ chối dịch vụ phân

tán DOS Denial of Service attack Tấn công từ chối dịch vụ

NIDS Network-based Intrusion

Detection System

Hệ thống phát hiện xâm nhập cho mạng

KDD99 Knowledge Discovery and Data

Mining 1999 R2L Remote to Local attack

U2R User to Root attack

Probe Surveillance

Trang 6

DANH MỤC CÁC BẢNG BIỂU

Bảng 2.1: Các nhóm xâm nhập trái phép trong dữ liệu DARPA 48

Bảng 2.2: Phân bố dữ liệu theo nhóm trong tập huấn luyện 49

Bảng 2.3: Phân bố dữ liệu theo nhóm trong tập thử nghiệm 50

Bảng 2.5: Các đặc trưng của máy chủ được kết nối 51

Bảng 2.6: Các đặc trưng về lưu lượng trong khoảng thời gian 2 giây 52

Bảng 2.7: Các đặc trưng về lưu lượng trong khoảng thời gian 256 giây 53

Bảng 3.1: Bảng số lượng các bản ghi trong tập dữ liệu KDD 99 69

Bảng 3.2: Bảng phân bố thuộc tính của các loại tấn công 69

Bảng 3.3: Các thuộc tính phát hiện tấn công DOS 70

Bảng 3.4: Các thuộc tính trong phát hiện tấn công Probe 70

Bảng 3.5: Các thuộc tính trong cuộc tấn công U2R, R2L 71

Bảng 3.6: Các giá trị đánh giá 72

Bảng 3.7: Các giá trị đánh giá theo tỉ lệ 81

Trang 7

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Sự đa dạng của Big data 5

Hình 1.2: Khối lượng dữ liệu trong Big Data 6

Hình 1.3: Sự tăng trưởng của dữ liệu 6

Hình 1.4: Tốc độ của dữ liệu trong Big Data 7

Hình 1.5: Sự đa dạng của dữ liệu trong Big Data 8

Hình 1.6: Dữ liệu cấu trúc và dữ liệu không cấu trúc 8

Hình 1.7: Hình ảnh thể hiện độ chắc chắn của dữ liệu 9

Hình 1.8: Mô hình ứng dụng Big data trong giao thông thông minh 12

Hình 1.9: Mô hình ứng dụng Big data trong y tế 13

Hình 1.10: Ứng dụng của Big data trong giám sát dịch bệnh 14

Hình 1.11: Công nghệ Match Insight của đội tuyển Đức 15

Hình 1.12: Mô hình ứng dụng của Big data trong ngân hang 16

Hình 1.13: Mô hình ứng dụng của Big data trong thương mại 17

Hình 1.14: Mô hình ứng dụng Bigdata trong viễn thông 18

Hình 1.15: Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet 22

Hình 1.16: Mô hình ứng dụng Big data trong phát hiện botnet 23

Hình 1.17: Mô hình ứng dụng Big data trong phân tích mã độc 23

Hình 1.18: Mô hình ứng dụng Big data trong phát hiện xâm nhập mạng 24

Hình 1.19: Kỹ thuật tấn công APT 26

Hình 2.1 Phát hiện xâm nhập mạng của IDS 30

Hình 2.2: Các thành phần của IDS 31

Hình 2.3: Kiến trúc của một Snort 34

Hình 2.4: Kiến trúc của HDFS 38

Hình 2.5: Công nghệ xử lý dòng trong Big Data 39

Hình 2.6: Giao diện của weka 40

Hình 2.7: Kiến trúc của Apache Hadoop 41

Hình 2.8: Mô hình quản lý của Spark 42

Hình 2.9: Mô hình hệ thống phát hiện xâm nhập 44

Hình 2.10: Quy trình học máy 47

Trang 8

Hình 2.11: Một số dữ liệu phục vụ phát hiện xâm nhập mạng 47

Hình 2.12: Mô hình phân loại xâm nhập mạng 55

Hình 2.13: Mô hình cây quyết định 59

Hình 2.14: Cây quyết định cho phát hiện tấn công 60

Hình 2.15: Mô hình mạng nơ-ron trong phát hiện bất thường 61

Hình 3.1: Mô hình tổng quát MLP 65

Hình 3.2: Đường nét đứt thể hiện cơ chế lan truyền ngược để điều chỉnh lại trọng số 67

Hình 3.3: Giao diện của Weka khi chạy bộ dữ liệu 10% 74

Hình 3.4: Giao diện cấu hình tham số trong Weka 74

Hình 3.5: Kết quả xây dựng model 75

Hình 3.6: Lựa chọn thuật toán mạng neuron trong Weka 75

Hình 3.7: Kết quả huấn luyện dữ liệu xử dụng thuật toán mạng neuron 76

Hình 3.8: Giao diện của phần mềm 77

Hình 3.9: Giao diện của công cụ anaconda 78

Hình 3.10: Chọn dữ liệu huấn luyện 78

Hình 3.11: Kết quả huấn luyện 79

Hình 3.12: Load lại model đã lưu 79

Hình 3.13:Thực nghiệm kiểm tra dữ liệu 80

Hình 3.14: Kết quả kiểm tra bằng weka 80

Hình 3.15: Chọn dữ liệu kiểm tra 81

Hình 3.16: Kết quả kiểm tra 82

Trang 9

MỞ ĐẦU

Các nguy cơ mất An toàn thông tin (ATTT) trên thế giới nói chung và Việt Nam nói riêng liên tục gia tăng và phát triển về cả số lượng cũng như mức độ nguy hiểm của các cuộc tấn công Theo ghi nhận của một số công ty bảo mật trên thế giới, trong vài năm trở lại đây Việt Nam luôn được coi là điểm nóng của mã độc và các cuộc xâm nhập mạng trái phép Hàng loạt các cuộc tấn công và xâm nhập mạng trái phép diễn ra với quy mô và mức độ nguy hiểm vào các hệ thống công nghệ thông tin của các doanh nghiệp, tổ chức chính phủ… đã gây mất ATTT và ảnh hưởng nghiêm trọng đến uy tín và doanh nghiệp, tổ chức chính phủ

Hiện nay, các cơ quan nhà nước, các tổ chức chính phủ đã và đang có nhiều biện pháp tích cực trong việc phòng chống và phát hiện xâm nhập mạng Rất nhiều biện pháp đã được ứng dụng và triển khai trong thực tế Tuy nhiên, các kỹ thuật tấn công và xâm nhập ngày càng được biến đổi tinh vi và phức tạp, dẫn đến một số hệ thống đảm bảo ATTT không phát hiện và ngăn chặn được kịp thời các tấn công này Chính vì vậy, để sớm phát hiện và ngăn chặn các cuộc tấn công và xâm nhập mạng thì yêu cầu các hệ thống đảm bảo ATTT phải liên tục cập nhật và thu thập thông tin

về tấn công từ nhiều nơi khác nhau Để làm được điều đó, hiện nay một số hãng bảo mật trên thế giới đang tiến hành nghiên cứu và ứng dụng công nghệ dữ liệu lớn (Bigdata) nhằm theo dõi và phát hiện sớm các cuộc tấn công và xâm nhập mạng Việc ứng dụng công nghệ Bigdata đòi hỏi các nhà nghiên cứu cần phải có các thuật toán để xử lý dữ liệu và có các công cụ để mô hình hóa quá trình phát hiện xâm nhập mạng từ những dữ liệu thu thập được Có nhiều công cụ và công nghệ được ứng dụng trong quá trình mô hình hóa phát hiện xâm nhập mạng Một số công cụ như Apache Spark; Weka, deepej… Để ứng dụng được các công cụ này đòi hỏi nhiều quy trình phức tạp cần thực hiện từ việc tiền xử lý dữ liệu đến việc sử dụng các thuật toán… Đây đều là những quy trình phức tạp với nhiều pha và kỹ thuật cần thực hiện Chính vì vậy, để áp dụng công nghệ Bigdata cho quá trình phát hiện xâm nhập mạng chính là quá trình nghiên cứu, tìm hiểu và ứng dụng các công cụ và kỹ thuật của môi trường Bigdata Từ những lý do trên, học viên với sự giúp đỡ của TS

Trang 10

Đỗ Xuân Chợ đã lựa chọn đề tài: “Ứng dụng công nghệ Bigdata trong phát hiện xâm nhập mạng”

Tổng quan vấn đề cần nghiên cứu

Công nghệ Bigdata là công nghệ dữ liệu lớn bao gồm nhiều công cụ và kỹ thuật để có thể xử lý được luồng dữ liệu lớn trong thời gian thực hiện Một số công

cụ của Bigdata có thể kể đến như: Apache Spark; Weka, deepej; Hadoop; MapReduce…Trong luận văn, tác giả sẽ đi sâu vào việc nghiên cứu và tìm hiểu để

có thể ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập mạng

Để luận văn đạt được những kết quả trên, cần nghiên cứu và làm rõ các nội dung:

Nghiên cứu và tìm hiểu tổng quan về công nghệ Bigdata;

Tìm hiểu về một số ứng dụng của công nghệ Bigdata trong an toàn thông tin;

Tìm hiểu về một số công cụ trong công nghệ Bigdata trong việc phát hiện xâm nhập mạng;

Ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập mạng

Mục đích nghiên cứu:

Nghiên cứu và tìm hiểu tổng quan về công nghệ Bigdata;

Tìm hiểu về một số ứng dụng của công nghệ Bigdata trong an toàn thông tin;

Tìm hiểu về một số công cụ trong công nghệ Bigdata trong việc phát hiện xâm nhập mạng;

Ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập mạng

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu:

- Công cụ trong công nghệ Bigdata và kỹ thuật phát hiện xâm nhập mạng

Trang 11

Phạm vi nghiên cứu:

- Công cụ trong công nghệ Bigdata, kỹ thuật xâm nhập mạng, kỹ thuật theo dõi và phát hiện xâm nhập mạng

- Bộ dữ liệu chuẩn KDD99 DATASET

Phương pháp nghiên cứu:

- Dựa trên cơ sở lý thuyết của công cụ trong công nghệ Bigdatavà kỹ thuật phát hiện xâm nhập mạng; kỹ thuật theo dõi và phát hiện xâm nhập mạng

Trang 12

CHƯƠNG 1 TỔNG QUAN VỀ CÔNG NGHỆ BIGDATA

1.1 Giới thiệu về công nghệ Bigdat

1.1.1 Khái niệm về Bigdata

Big Data là thuật ngữ dùng để chỉ các tập hợp dữ liệu lớn và phức tạp đến mức những công cụ hay những ứng dụng xử lí dữ liệu truyền thống không giải quyết được Big Data chứa nhiều thông tin quý giá mà nếu trích xuất thành công, những thông tin đấy sẽ giúp cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và cả việc xác định điều kiện giao thông theo thời gian thực

Do đó, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường Có rất nhiều khái niệm cũng như định nghĩa khác nhau về Bigdata Dựa trên những tiêu trí khác nhau mà mỗi tổ chức và doanh nghiệp đưa ra những khái niệm này [12], [13], [15]

Theo wikipedia: Big Data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp

mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này [11]

Theo Gartner: Big Data là những nguồn thông tin có đặc điểm chung khối lượng lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa quy trình [11]

Theo SAS: Big Data là một thuật ngữ dùng để miêu tả khối lượng lớn của dữ liệu – cả dữ lệu có cấu trúc và dữ liệu không có cấu trúc Nhưng độ to lớn của dữ liệu thì không phải điều quan trọng Việc các tổ chức làm gì, sử dụng các dữ liệu ấy như thế nào mới là điều quan trọng Big Data có thể được phân tích để đưa ra những thông tin cần thiết qua đó dẫn đến những quyết định và hướng đi tốt hơn trong kinh doanh [11]

Trang 13

Trên đây luận văn đ

hiểu rõ hơn về Big data, lu

Big data

Nguồn hình thành d

Big data được hiể

luận văn sẽ trình bày một s

một dịch vụ hay thông tin khác,

• Dữ liệu từ các thông tin v

trên các phương ti

Hình 1.1: Sự đa dạng của Big data

ăn đã trình bày về một số khai niệm về Big data, tiBig data, luận văn sẽ đi vào mô tả một số đặc điểm đ

n hình thành dữ liệu Big Data:

ểu là tập hợi dữ liệu từ nhiều nguồn khác nhau Trên

t số nguồn dữ liệu hình thành Big data [3], [16]:

u hành chính (phát sinh từ chương trình của một tổ hay phi chính phủ) Ví dụ, hồ sơ y tế điện tử ở b

các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ

các hành vi, ví dụ như tìm kiếm trực tuyến về hay thông tin khác, đọc các trang mạng trực tuycác thông tin về ý kiến, quan điểm của các cá nhân, tương tiện thông tin xã hội

Big data, tiếp theo, để

m để hình thành

n khác nhau Trên đây, thành Big data [3], [16]:

chức, có thể là bệnh viện, hồ sơ

Trang 14

1.1.2 Đặc trưng 5V c

1.1.2.1.Khối lượng d

Kích thước của Big Data

Data đang tăng lên một cách m

khối lượng lớn dữ liệu chính là

ra nhiều khó khăn khi khố

kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên [3]

Hình 1.2 thể hiện kh

trong 7 tỉ dân trên thế giớ

khoảng 2.5 tỉ tỉ GigaBytes (108 Bytes) d

điểm tiêu biểu nhất của d

ưng 5V của Big Data

ng dữ liệu (Volume)

a Big Data được đo bằng khối lượng Dung lư

t cách mạnh mẽ theo từng ngày Lợi ích từ

u chính là điểm thu hút chính của Big Data, tuy nhiên khi khối lượng dữ liệu ngày càng phát triển thì các ứng dụng và kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên

Hình 1.2: Khối lượng dữ liệu trong Big Data

n khối lượng dữ liệu khổng lồ mà Big Data thu th

ới thì có 6 tỉ người sở hữu điện thoại, hay theo GigaBytes (108 Bytes) dữ liệu được tạo ra mỗi ngày

a dữ liệu lớn, khối lượng dữ liệu rất lớn

ng Dung lượng của Big

việc xử lý một

a Big Data, tuy nhiên cũng đặt

i lượng dữ liệu ngày càng phát triển thì các ứng dụng và kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên

mà Big Data thu thập được:

i, hay theo ước tính có

i ngày Đây là đặc

Trang 15

Big Data cho phép liên k

với các bình luận của m

video được chia sẻ từ Youtube và

ộ (Velocity)

u theo 2 khía cạnh:

ữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 tri

p tìm kiếm trên web bán hàng của Amazon)

u nhanh ở mức thời gian thực (real-time), có ngh

lý ngay tức thời ngay sau khi chúng phát sinh (tính đ

ổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng Sức khỏe như hiện nay phần lớn dữ liệu lớn đư

lý dữ liệu lớn ngày nay đã cho phép xử lý tứvào cơ sở dữ liệu

Hình 1.4: Tốc độ của dữ liệu trong Big Data

ng (Variety) Big Data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau Ví d

a một nhóm người dùng nào đó trên Facebook vYoutube và Twitter

i 72.9 triệu các yêu

time), có nghĩa dữ liệu

i ngay sau khi chúng phát sinh (tính đến bằng mili

Trang 16

hoặc các cơ sở dữ liệu quan h

sản phẩm) Tuy nhiên, trên th

cấu trúc và do đó rất khó ho

bức ảnh, các comment trên facbook, các

thác các loại dữ liệu khác nhau (c

gồm các tin nhắn, các cu

các video hay các file ghi âm, các file log, … và mang chúng l

liệu cấu trúc

Hình 1.

Hình 1.5: Sự đa dạng của dữ liệu trong Big Data

trên, Big Data được hình thành từ nhiều ngu

t đặc điểm không thể thiế Ngoài ra, đa dạng cnguồn mà còn là đa dạng về các kiểu dữ liệu thu th

có thể tiếp cận các dữ liệu có cấu trúc nằm trong các b

u quan hệ (ví dụ, các bảng bán hàng theo từng vùng hom) Tuy nhiên, trên thực tế, 80% dữ liệu trên thế giới này là d

t khó hoặc hầu như không thể đưa vào các bảng (ví d

nh, các comment trên facbook, các đoạn video, …) Big Data cho phép khai

u khác nhau (cấu trúc, bán cấu trúc và cả không c

n, các cuộc hội thoại trên mạng xã hội, hình ảnh, dữcác video hay các file ghi âm, các file log, … và mang chúng lưu tr

Hình 1.6: Dữ liệu cấu trúc và dữ liệu không cấu trúc

u trong Big Data

n video, …) Big Data cho phép khai

không cấu trúc) bao

ữ liệu cảm biến,

ưu trữ cùng các dữ

u trúc

Trang 17

1.1.2.4 Độ tin c

Một trong những tính ch

xác của dữ liệu Với xu hư

mạng xã hội (Social Net

chia sẻ của người dùng Mobile làm cho b

xác của dữ liệu ngày mộ

thông tin mang lại như th

lớn hay không Nếu có d

nên đầu tư phát triển dữ

giá trị của dữ liệu lớn mang l

khám, chữa bệnh sẽ giúp d

phí điều trị và các chi phí liên quan

1.1.3 Vai trò c

Big Data đang ngày càng

với nhiều mục đích khác nhau Ví d

- Các công ty sử dụ

từ đó đưa ra các đ

thông tin thu thập đư

tin cậy/chính xác (Veracity)

ng tính chất phức tạp nhất của dữ liệu lớn là đ

i xu hướng phương tiện truyền thông xã hội (Social Media) và

i (Social Network) ngày nay và sự gia tăng mạnh mẽ tính t

i dùng Mobile làm cho bức tranh xác định về độ tin c

ột khó khăn hơn Bài toán phân tích và loại bđang là tính chất quan trọng của Big Data

Hình 1.7:Hình ảnh thể hiện độ chắc chắn của dữ

(Value)

m quan trọng nhất của dữ liệu lớn, vì khi bắ

n thì việc đầu tiên cần phải làm đó là xác định đư

ư thế nào, khi đó mới có quyết định có nên tri

u có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ liệu lớn Kết quả dự báo chính xác thể hiện rõ nét nh

n mang lại Ví dụ, từ khối dữ liệu phát sinh trong quá trình giúp dự báo về sức khỏe được chính xác hơn, sẽ

và các chi phí liên quan đến y tế

Vai trò của Big data

đang ngày càng được sử dụng rộng rãi trong các lĩnh vđích khác nhau Ví dụ [12], [13], [14], [15]:

ụng Big Data để tìm hiểu hành vi tiêu dùng c

a ra các đề xuất mua sắm cá nhân hóa cho từng đối tư

p được từ họ (Ebay, Facebook, Google…)

n là độ tin cậy/chính

i (Social Media) và tính tương tác và tin cậy & chính

i bỏ dữ liệu thiếu

liệu

ắt đầu triển khai

nh được giá trị của

nh có nên triển khai dữ liệu

ừ nó, thì không

n rõ nét nhất về

u phát sinh trong quá trình

ẽ giảm được chi

ĩnh vực, tổ chức

u hành vi tiêu dùng của khách hàng

i tượng dựa trên

Trang 18

- Các cơ sở nghiên cứu khoa học sử dụng Big Data để tìm ra những khám phá khoa học mới cho nhân loại, ví dụ như xây dựng bản đồ gene của con người, hay tiêu biểu như các nghiên cứu tại trong máy gia tốc Hadron của Tổ chức Nghiên cứu Nguyên tử Châu Âu, nếu các kết quả thu được từ các cảm biến trong máy được ghi nhận đầy đủ, luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, gấp 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp lại

- ứng dụng trong thương mại: Các nhà nghiên cứu Hsinchu & Chiang đã phân tích các ứng dụng của Big Data trong các lĩnh vực thương mại điện tử, chính phủ điện tử, khoa học công nghệ, chăm sóc sức khỏe Các phân tích trên lượng dữ liệu lớn còn góp phần cải tiến và tối ưu hóa quá trình ra quyết định, giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh nghiệp

- Quản lý cơ sở hạ tầng: O’Leary đề cập tới ứng dụng của Dữ liệu lớn trong trong quản lý cơ sở hạ tầng đường bộ Khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm

2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte Trong năm 2016, khi đài quan sát LSST thay thế cho SDSS đi vào hoạt động dự kiến sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày Trên đây, có thể thấy rằng: Big Data, dù mới được nhắc tới trong thời gian gần đây, vẫn đang ngày càng càng được nghiên cứu và ứng dụng rộng rãi trong nhiều lĩnh vực khác Trong phần tiếp theo của luận văn, tác giả sẽ đi sâu vào việc phân tích các ứng dụng của Big data trong thực tế hiện nay

- Ứng dụng của Big Data trong chính trị

Có thể lấy ví dụ như việc Tổng thống Mỹ Barack Obama dùng Data Mining trong cuộc chạy đua với Mitt Romney vào Nhà Trắng để thấy giá trị thật sự của Big Data Tại trụ sở của Obama ở Chicago, một đội ngũ gồm gần 150 kỹ thuật viên từ đầu năm 2012 đã liên tục thu thập và tạo ra một cơ sở Big Data chứa đầy đủ tất cả

Trang 19

tiểu sử riêng của các cử tri tiềm năng, đặc biệt là những cử tri chưa rõ sẽ bầu cho ai

Họ thu thập dữ liệu từ nhiều nguồn khác nhau, nhất là các nguồn trên mạng như từ

16 triệu người đăng ký vào twitter của Obama (so với 500 nghìn của Romney), và gần 27 triệu người đăng ký vào facebook của Obama (so với 1.8 triệu của Romney) Các dữ liệu này cho biết nhiều chi tiết như mỗi cử tri thường đọc sách gì, mua sắm

ở đâu, công ăn việc làm là gì, bạn bè là ai, thậm chí mẹ của cử tri lần trước bầu cho ai… Nhờ vào việc tiếp cận và phân tích được nguồn dữ liệu khổng lồ và vô cùng quan trọng này, đội quân của Obama đã có những vận động thích hợp với cử tri, góp phần không nhỏ vào chiến thắng cuối cùng của Obama Hoặc chương trình CINDER (Cyber-Insider Threat) nhằm phát triển các phương pháp mới để phát hiện các hoạt động gián điệp trên mạng máy tính quân sự Một cách nhằm phát hiện các hoạt động gián điệp ẩn giấu là CINDER sẽ áp dụng rất nhiều mô hình hoạt động của đối phương để điều chỉnh các hoạt động trên mạng máy tính nội bộ [12], [13], [14], [15]

- Ứng dụng của Big Data trong giao thông

Big Data sử dụng các số liệu đã ghi được trong quá khứ để ước lượng các dòng giao thông trong thành phố vào các giờ cao điểm, từ đó có những kế hoạch phân luồng giao thông chi tiết, hợp lý giúp giảm thiểu kẹt xe Ngoài ra còn đưa ra thông tin cho người tham gia giao thông được biết nếu muốn đi từ nơi này đến nơi khác thì nên đi vào giờ nào để tránh kẹt xe, hoặc đi đường nào là ngắn nhất, v.v Việc thu thập và sử dụng thông tin có thể cải thiện dự báo và giúp tăng hiệu quả sử dụng của các cơ sở hạ tầng giao thông [12], [13], [14], [15]

Trang 20

Hình 1.8: Mô hình ứng dụng Big data trong giao thông thông minh

Trên thực tế, hiện nay đã có một số quốc gia sử dụng Big Data trong lĩnh vực giao thông và cũng đã mang lại được nhiều kết quả quan trọng ngoài việc giảm thiểu ùn tắc giao thông, Big data còn giúp giảm thiểu được thời gian, chi phí cho quá trình vận chuyển [12], [13], [14], [15]

- Ứng dụng Big Data trong y tế

Big Data giúp các tổ chức y tế nắm được toàn vẹn các vấn đề sức khỏe của bệnh nhận, qua đó phát hiện được những diễn biến mới của bệnh cũng như tìm ra nhưng kế hoạch điều trị mới và đưa ra các chuẩn đoán chính xác hơn Không những thế, Big Data còn có ý nghĩa rất quan trọng trong việc dự đoán bệnh Khi điều trị các bệnh nhân, các tổ chức đã thu thập được một lương lớn các dữ liệu có giá trị, qua đó có thể sử dụng để dự đoán việc tái phát bệnh một cách chính xác Bên cạnh

đó, các tổ chức còn có thể đưa ra các nguyên nhân gây bệnh và các biện pháp để phòng tránh Ví dụ khi điều trị các bệnh nhân bệnh tim, Big Data sẽ lưu trữ các dữ liệu về thói quen vận động, ăn uống, nghỉ ngơi,… của các bệnh nhân; từ đó các bác

sĩ sẽ có những nhìn nhận rõ ràng hơn về tác nhân gây bệnh cũng như đưa ra các biện pháp điều trị hợp lý với từng bệnh nhân riêng biệt [12], [13], [14], [15]

Trang 21

Hình 1.9: Mô hình ứng dụng Big data trong y tế

Một ví dụ khác đối với các bệnh nhân bị đột quỵ, các bác sĩ dựa trên những lần đã đột quỵ trước đấy của bệnh nhân, có phải đột quỵ khi đang vận động nặng hay không, bệnh nhân có sử dụng thuốc lá hay không, có tiền sử bệnh cao huyết áp hay không,… để đưa ra các nhận định chính xác chẳng hạn như nếu bệnh nhân có hút thuốc thì nên yêu cầu bệnh nhân bỏ thuốc vì hút thuốc lá là tác nhân của các bệnh mạch máu não từ đó dẫn đến tình trạng đột quỵ…

Ngoài ra Big Data có khả năng dự đoán các dịch bệnh sắp phát sinh cũng như tìm ra các phương pháp điều trị thích hợp Một số kết quả thực nghiệm cho thấy: việc phân tích Big Data có thể cho thấy điểm xuất phát cũng như xu hướng lây lan của bệnh cúm gia cầm Ví dụ vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 Dịch vụ này mang tên là Google Flu Trends Xu hướng mà Google rút

ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là gần như trùng với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới [12], [13], [14], [15]

Một số ứng dụng thực tế của Big data trong y tế:

Trang 22

cần được xét nghiệm trong phòng thí nghi

thay đổi nếu một bệnh nhân

bước nhảy vọt lớn với 94% s

ra, 1 ứng dụng dễ thấy nữ

bị đeo sẽ liên tục thu thậ

bác sĩ sẽ dựa trên các dữ

bệnh nhân có dấu hiệu tă

uống, nghĩ ngơi hợp lý hơ

Hình 1.

Theo hình 1.10 đư

số từ khóa tìm kiếm liên quan

phòng chống dịch của Mỹ

- Ứng dụng Big Data trong th

Năm 2014, đội tuy

mang tính độc quyền của đ

cấu trúc sơ đồ chiến thuậ

trong cấu trúc của đội tuy

u tiên rõ ràng nhất về Big Data đó là “Hồ sơ

nh nhân có một hồ sơ điện tử riêng bao gồm các thông tin v

tuổi, thu nhập, trình độ giáo dục, tình trạng s

ch sử y khoa, dị ứng, kết quả kiểm tra trong phòng thí ũng có thể kích hoạt cảnh báo và nhắc nhở khi m

m trong phòng thí nghiệm mới hoặc theo dõi định kì

nh nhân đã thực hiện theo yêu cầu của bác sĩ M

i 94% số bệnh viện áp dụng EHRs, và theo sau là EU Ngoài

ữa đó là các thiết bị đeo thông báo thời gian th

ập dữ liệu sức khỏe của bệnh nhân và đưa lên Cloud Các

ữ liệu này để kiểm soát sức khỏe của bệnh nhân Ví d

u tăng huyết áp, bác sĩ sẽ yêu cầu bệnh nhân có các ch

ơn …

Hình 1.10: Ứng dụng của Big data trong giám sát dịch b

đường màu xanh là dự đoán của Google Flu Trends d

m liên quan đến các dịch cúm, màu vàng là dữ li

ỹ đưa ra

ng Big Data trong thể thao

i tuyển Đức sử dụng công nghệ Match Insight

a đội tuyển Đức khi đó – nhằm phân tích mô hình h

ật của đội tuyển Đức, từ đó đưa ra những đ

i tuyển Đức Hay như Slamtracker của IBM dành cho gi

sơ y tế điện tử”

m các thông tin về nhân

ng sở hữu nhà, tình

m tra trong phòng thí khi một bệnh nhân

nh kì để xem sự

ĩ Mỹ đã có một

ng EHRs, và theo sau là EU Ngoài

i gian thực Các thiết đưa lên Cloud Các

nh nhân Ví dụ nếu

nh nhân có các chế độ ăn

ch bệnh

a Google Flu Trends dựa trên

liệu do cơ quan

Match Insight - công nghệ

m phân tích mô hình hệ thống

ng điểm bất hợp lý

a IBM dành cho giải đầu

Trang 23

quần vợt Wimbledon Có 3 ng

động viên chuyên nghiệp và có th

theo thời gian thực và theo dõi b

theo dõi được những dữ

lỗi của vận động viên trong khi thi

trong hoạt động kinh doanh, qu

thác về Big Data sẽ mang đ

Tiết giảm chi phí; tăng th

ban lãnh đạo, cán bộ ngân hàng

kiệm thời gian xử lý thông tin c

lận…[12], [13], [14], [15]

t Wimbledon Có 3 người trực thuộc Hiệp Hội Tennis (LTA)

p và có thứ hạng cao – sẽ theo dõi các dữ li

c và theo dõi bằng các thiết bị được tùy chỉnh riêng c liệu mà các máy tính hiện tại không theo dõi

ng viên trong khi thi đấu Bằng cách kết hợp Slamtracker v

c độ đánh bóng hoặc động tác của vận động viên

ả những gì nó cần trong một trận đấu [12], [13], [14], [15]

Hình 1.11: Công nghệ Match Insight của đội tuyển Đ

ủa Big Data trong tài chính – ngân hàng

ều nhận ra rằng Big Data có thể mang lại s

ng kinh doanh, quản lý của ngân hàng Tiếp cận, nghiên c

mang đến nhiều lợi ích cho ngân hàng trong kinh doanh nhăng thời gian phát triển và tối ưu hóa sản phẩm; đ

ngân hàng đưa ra những quyết định đúng và h

lý thông tin của khách hàng và phòng chống r[12], [13], [14], [15]

i Tennis (LTA) – là những vận

liệu của trận đấu

nh riêng của IBM Họ

i không theo dõi được như các

p Slamtracker với dữ liệu

ng viên - phần mềm [12], [13], [14], [15]

n Đức

i sự thay đổi lớn

n, nghiên cứu và khai rong kinh doanh như: m; đồng thời hỗ trợ đúng và hợp lý hơn; tiết

ng rủi ro gian

Trang 24

Hình 1.12: Mô hình ứng dụng của Big data trong ngân hang

- Ứng dụng của Big Data trong thương mại

Trong thương mại Big Data giúp thực hiện một số công việc sau: Phân khúc thị trường và khách hàng; phân tích hành vi khách hàng tại cửa hàng; tiếp thị trên nền tảng định vị; phân tích tiếp thị chéo kênh, tiếp thị đa kênh; quản lý các chiến dịch tiếp thị và khách hàng thân thiết; So sánh giá; Phân tích và quản lý chuỗi cung ứng; Phân tích hành vi, thói quen người tiêu dùng Việc vận dụng Big Data sẽ giúp cho doanh nghiệp không chỉ nắm bắt được thị hiếu của khách hàng mà còn giúp họ kịp thời đưa ra những thay đổi nhằm cải thiện chất lượng sản phẩm Ví dụ: Mỗi chiếc xe do Tesla sản xuất đều được gắn một thiết bị cảm biến có khả năng gửi những thông tin liên quan đến vấn đề kỹ thuật, hoạt động của xe trở về nhà sản xuất

để xử lý kịp thời những trục trặc nếu có trước khi sự cố xảy ra Bằng việc kết nối với khách hàng thường xuyên, liên tục và trực tiếp, thay vì thông qua bên trung gian, Tesla luôn thu về những dữ liệu chính xác và kịp thời nhất, cho phép họ cải thiện trải nghiệm người dùng và cạnh tranh với những hãng sản xuất ô tô chạy bằng xăng vốn đang rất phổ biến khác

Trang 25

Hình 1.13: Mô hình ứng dụng của Big data trong thương mại

- Trong kinh doanh

Một trong những vai trò được đề cập nhiều nhất của Big Data đó chính là các vai trò trong vấn đề kinh doanh Ngày nay khi mạng xã hội càng ngày càng phát triển, việc thu thập thông tin về sở thích, nhu cầu, thói quen của các khách hàng ngày càng trở nên dễ dàng hơn và từ đó các doanh nghiệp sẽ tìm ra những cách đầu

tư, quảng cáo, tiếp thi hợp lý hơn nhằm giảm các chi phí dư thừa cũng như hướng đến được đúng đối tượng mình cần Một nguyên tắc luôn đúng trong kinh doanh đó

là doanh nghiệp nắm rõ thông tin về một khách hàng bao nhiêu thì càng có khả năng phân tích và dự đoán hành vi mua hàng của khách hàng này bấy nhiêu, từ đó có thể đưa ra những chào hàng chính xác và kịp thời Về chiến lược tiếp thị, nếu như có những số liệu rõ ràng về hành vi người tiêu dùng, người làm marketing có thể đưa

ra các dự đoán chuẩn xác hơn so với việc chỉ võ đoán và thực hiện các chiến dịch tiếp thị quảng bá sản phẩm, với mong muốn tác động đến hành vi người tiêu dùng ở đời sống thực Thông qua nguồn Big Data của mạng xã hội, doanh nghiệp có thể trích xuất ra những thông tin về sở thích, thói quen, lịch sử mua sắm của người tiêu dùng, qua đó cung cấp cho từng người dùng những trải nghiệm nhãn hiệu phù hợp với riêng cá nhân họ trên chính môi trường mạng xã hội đó Một ví dụ đơn giản, khi

Trang 26

người dùng tìm kiếm một sản phẩm trên google, trình duyệt sẽ lưu lại lịch sử tìm kiếm đó và các doanh nghiệp sẽ sử dụng dữ liệu đó để quảng cáo đến cho người dùng

- Ứng dụng Bigdata trong viễn thông

Với khối lượng dữ liệu gia tăng mạnh mẽ đi cùng sự phát triển của doanh nghiệp trong môi trường cạnh tranh gay gắt đòi hỏi doanh nghiệp phải quản lý hữu hiệu nguồn dữ liệu, xử lý thành thông tin chiến lược đưa ra những chiến lược kinh doanh đúng đắn Phân tích Big Data không chỉ là cơ hội cho các tổ chức, doanh nghiệp tìm kiếm những thông tin chiến lược để đảm bảo việc kinh doanh bền vững, các chiến lược tiếp thị hiệu quả đồng thời việc khai thác tốt Big Data này còn là một thách thức lớn đối với doanh nghiệp sở hữu nguồn tài nguyên này

Hình 1.14: Mô hình ứng dụng Bigdata trong viễn thông

Một số lợi ích mà Big data mang lại trong lĩnh vực viễn thông [12], [13], [14], [15]:

• Nâng cao thương hiệu: Phân tích Big Data sẽ hỗ trợ các nhà cung cấp dịch vụ hiểu được thói quen người dùng và xây dựng chiến lược tiếp thị phù hợp với nhu cầu thực tế Nhà mạng có thể phân tích khối dữ liệu sản sinh liên tục để thấu hiểu hơn về đặc điểm nhân khẩu học (demographic) và tâm lý học của khách hàng cũng như những phản hồi thông qua các phương tiện truyền thông xã hội nhằm bảo vệ hình ảnh,

Trang 27

thương hiệu của mình Ngoài ra, nhà mạng cũng có thể đánh giá được phản ứng người dùng về sản phẩm mới ra mắt, đưa ra đề xuất hoặc chiến dịch quảng bá mới với chi phí hợp lý, hiệu quả hoặc chủ động tạo ra những đơn đặt hàng sử dụng dịch vụ nhằm nâng cao thương hiệu

• Nghiên cứu thói quen người dùng: Big Data mang nhiều cơ hội đến doanh nghiệp giúp thấu hiểu người dùng hơn qua các kênh tương tác Chẳng hạn người dùng thường bắt đầu quan tâm đến một sản phẩm, dịch vụ nào đó qua các phương tiện truyền thông, sau đó gọi tới trung tâm chăm sóc khách hàng để hỏi thông tin chi tiết và cuối cùng là mua hàng tại cửa hàng bán lẻ Trong bối cảnh hiện nay, nhà cung cấp dịch

vụ phải đảm bảo tính liền mạch của những tương tác với khách hàng Thông qua việc phân tích dữ liệu về khách hàng ở nhiều cấp độ tương tác khác nhau như điện thoại, website, trung tâm khách hàng, đại lý, cửa hàng bán lẻ, v.v… Nhà cung cấp có thể xác định xem dịch vụ mình cung cấp có làm hài lòng khách hàng và họ đang chia sẻ, nhận xét gì về sản phẩm

• Quảng cáo theo ngữ cảnh, thời gian thực: Với một bộ dữ liệu chi tiết

về từng khách hàng, các nhà mạng có thể giới thiệu sản phẩm và dịch

vụ tùy thuộc vào từng ngữ cảnh liên quan đến nội dung mà người dùng quan tâm khi họ đọc một bài viết nào đó Tương tự, tính logic của sản phẩm có thể được tổng hợp thông qua các kênh tương tác khác nhau để hiểu được khách hàng tốt hơn Thông tin phản hồi về quảng cáo, địa điểm và quá trình sử dụng dịch vụ được thu thập và phân tích theo thời gian thực Sử dụng các giải pháp kinh doanh thông minh để xử lí sự kiện phức tạp nhằm xác định phân khúc thị trường hướng đến và lợi nhận biên trước khi đưa ra quyết định kinh doanh sẽ cải thiện chi phí quảng cáo và tiếp thị

• Hoạt động tiếp thị theo địa điểm: Việc phân tích Big Data sẽ giúp nhà mạng ghi nhận vị trí của khách hàng khi họ bước vào một khu vực nhất

Trang 28

định (“geo-fencing”) và đưa ra những đề xuất, thông tin liên quan tới địa điểm họ đang ở cho các nhà cung cấp dịch vụ truyền thông (CSP’s) cùng các đối tác CSP’s có thể phân tích dữ liệu vị trí người dùng thông qua kết nối Internet, hệ thống định vị toàn cầu (GPS) mà người

đó sử dụng trong một quãng thời gian nhất định để chọn lọc những thông tin giá trị cho hoạt động quảng cáo, tiếp thị

• Tối ưu hóa hệ thống: Big Data có thể được dùng để thu thập dữ liệu hệ thống theo thời gian thực nhằm phát hiện thời điểm hệ thống gặp sự cố quá tải, hoạt động dưới công suất hoặc đã đạt đến công suất tối đa Những thông tin hệ thống sẽ được phân tích để nhận dạng điểm cung cấp kết nối hệ thống và xác định cần thực hiện đầu tư vốn vào đâu để

có thể hỗ trợ các dịch vụ giá trị gia tăng và những ứng dụng nội dung Các nhà cung cấp dịch vụ mạng thường quản trị băng tần thông qua giới hạn gói dữ liệu hoặc theo từng cấp độ dựa trên mức phí sử dụng Việc sử dụng Big Data giúp hỗ trợ hoạch định các chính sách sử dụng được cá nhân hóa bằng cách kết hợp nguồn dữ liệu có tính cấu trúc với nguồn dữ liệu phi cấu trúc nhằm phát hiện các hành vi đặc trưng của khách hàng Các chính sách sử dụng áo dụng riêng cho từng khách hàng nhằm đáp ứng tốt nhất nhu cầu khách hàng đồng thời đạt được doanh thu cao với cùng một dung lượng dữ liệu

Việc phân tích các bản ghi dữ liệu sinh ra từ các thiết bị mạng, ứng dụng, gói tin mạng và các sự kiện hệ thống được phục vụ cho mục đích điều tra và phát hiện xâm nhập trong ATTT Tuy nhiên, các công nghệ truyền thống thực sự rất khó khăn trong việc cung cấp các công cụ phân tích dài hạn, quy mô lớn, vì việc lưu trữ số lượng lớn dữ liệu là không hề khả thi về mặt kinh tế Kết quả là hầu hết các bản ghi nhật ký sự kiện trên các hệ thống và thiết bị thường được xóa sau một thời gian duy trì cố định [12], [13], [14], [15]

Sự ra đời của Big Data sẽ chuyển đổi phân tích ATTT bằng cách thu thập các

dữ liệu ở một quy mô lớn từ nhiều nguồn, từ các bản ghi nhật kí hệ thống đến các

Trang 29

cơ sở dữ liệu về lỗ hổng bảo mật, dữ liệu về tấn công mạng, dữ liệu về mã độc… Sau đó nó sẽ phân tích sâu hơn trên những dữ liệu đã có, qua đó cung cấp một cái nhìn bao quát, hợp nhất các thông tin liên quan đến an toàn và đảm bảo được việc phân tích thực hiện theo thời gian thực của luồng dữ liệu Chính vì thế, Big Data rất phù hợp để sử dụng với các ứng dụng như: theo dõi botnet, phát hiện xâm nhập mạng, phân tích mã độc, phát hiện tấn công APT Yêu cầu mới được đặt ra, trong khi những phương pháp truyền thống không thể đáp ứng được, thì việc phân tích Big Data đang mở ra nhiều hướng nghiên cứu mới trong lĩnh vực ATTT Có thể xem đây là một bước tiến quan trọng trong việc xây dựng các chương trình giám sát

an toàn mạng, đáp ứng được việc phân tích sâu hơn trên lượng lớn dữ liệu thu thập được, từ đó tăng khả năng phát hiện và ngăn chặn các nguy cơ, mối đe dọa, các cuộc tấn công tinh vi trên không gian mạng Tiếp theo, luận văn sẽ trình bày về các ứng dụng của Big data trong ATTT

1.3.1 Theo dõi và phát hiện Botnet

Mạng botnet là một mạng rất lớn gồm hàng trăm hàng ngàn máy tính Zombie kết nối với một máy chủ IRC (Internet Replay Chat) qua các máy chủ DNS để nhận lệnh từ hacker một cách nhanh nhất Các mạng bot gồm hàng ngàn “thành viên” (gọi tắt là bot hay robot) là một công cụ lý tưởng cho các cuộc giao tranh trên mạng như DDOS, spam, cài đặt các chương trình quảng cáo.Nếu như máy tính là một thành phần trong mạng botnet thì có nghĩ máy tính đã bị nhiễm virus: trojan, worm… Hacker tạo ra mạng botnet để điều khiển, sử dụng hàng trăm thậm chí hàng ngàn các máy tính để phục vụ cho mục đích xấu của chúng [15]

Trang 30

Hình 1.15: Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet

Botnet đang là một trong những mối đe dọa lớn nhất trên Internet và là một thách thức đối với các chuyên gia ATTT Việc phát hiện Botnet đòi hỏi phải thu thập một lượng lớn dữ liệu mạng để phân tích Với việc ứng dụng Big Data, dự án nghiên cứu Botcloud do nhóm Jerome Fracois và đồng nghiệp tại đại học Luxembourg thực hiện đã sử dụng mô hình MapReduce để phân tích một số lượng lớn các dữ liệu Netflow để xác định các máy tính bị lây nhiễm đang tham gia trong một mạng Botnet Dự án này đã mở ra nhiều hướng mới trong công việc xây dựng các hệ thống thông minh để phát hiện Botnet Botcloud được xây dựng dựa trên kiến trúc BotTrack Kiến trúc này được thiết kế để theo dõi và phát hiện Botnet bằng việc sử dụng Netflow và thuật toán PageRan, thực hiện việc theo dõi các kênh C&C (Command and Control) trong Botnet

Dự án này đã mở ra nhiều hướng mới trong việc xây dựng các hệ thống thông minh để phát hiện Botnet MapReduce được sử dụng cho dự án này, vì một lượng lớn các dữ liệu Netflow được thu thập cần phải phân tích 720 triệu bản ghi Netflow (77GB) được thu thập chỉ trong 23 giờ đồng hồ

Trang 31

17: Mô hình ứng dụng Big data trong phân tích mã

i, Sourcefire sử dụng Big Data analysis để cung cấp công c

ng phần mềm độc hại với FireAMP FireAMP là m

i FireAMP FireAMP là một phát hiện

nh các mối đe dọa tiên

Trang 32

tiến, và cung cấp các dữ liệu cần thiết để hiểu được phạm vi của các mối đe dọa, và lưu trữ nó Sourcefire sử dụng một công cụ nhỏ trên thiết bị đầu cuối để chuyển tiếp

dữ liệu tới FireCLOUD - một công cụ phân tích dựa trên đám mây sử dụng phân tích dữ liệu lớn để xác định và ghi các mối đe dọa được bỏ qua bởi các công cụ bảo mật khác

1.3.3 Phát hiện xâm nhập mạng

Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một

hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự

cố có thể xảy ra, đó là các vi phạm hoặc các mối đe dọa sắp xảy ra vi phạm các chính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc thực hành bảo mật tiêu chuẩn Trước sự gia tăng của các cuộc tấn công ngày càng tinh vi thì ngược lại các giải pháp phát hiện và ngăn chặn có vẻ như đang không đáp ứng được các nhu cầu thực tế Mặc dù hầu hết các hãng đã trang bị những giải pháp phòng chống, phát hiện xâm nhập, tường lửa tiên tiến nhưng kết quả là vẫn có nhiều các cuộc tấn công và các dữ liệu vẫn bị lấy cắp [15]

Hình 1.18: Mô hình ứng dụng Big data trong phát hiện xâm nhập mạng

Trên hình 1.8 chỉ ra quy trình xây dựng mô hình và quy trình kiểm tra mô hình trong hệ thống IDS Qúa trình xây dựng mô hình diễn ra như sau:

- Đầu tiên, dữ liệu truy cập đi vào sẽ được tiền xử lý, để loại bỏ các dấu hiệu

và tín hiệu nhiễu Tiếp theo, dữ liệu này sẽ qua mô hình huấn luyện Qúa

Trang 33

trình huấn luyện sẽ xây dựng được mô hình để sau này phục vụ cho việc phát hiện xâm nhập

- Sau khi xây dựng mô hình huấn luyện xong, hệ thống sẽ kiểm tra việc xây dựng mô hình có hợp lý và chính xác hay không Toàn bộ quá trình này cũng được tiến hành như trong quá trình huấn luyện

Chính vì vậy, việc áp dụng công nghệ Big Data vào việc phân tích, giám sát

và phát hiện ra các sự bất thường trong hệ thống sẽ kịp thời cảnh báo chúng ta những vụ tấn công tinh vi Đặc biệt, Big Data cho phép có thể thực thi các thuật toán Data Mining để gom nhiều sự kiện lại vào các ngữ cảnh, nên có thể phát hiện những bất thường xảy ra: bất thường trong các giao thức, bất thường về các kết nối, bất thường về băng thông, hay bất thường về các tên miền/ địa chỉ IP,…

Như vậy, với sự hỗ trợ của Big Data, các hệ thống giám sát an ninh mạng có thể giải quyết được những hạn chế về tính toán, phát hiện các sự bất thường trong

hệ thống dẫn đến những cảnh báo quan trọng về các vụ xâm nhập Big Data sẽ giải quyết được phần lớn các đòi hỏi về tính thời gian thực cao, lưu lượng dữ liệu cần xử

lí rất lớn (cả quá khứ và hiện tại), các thuật toán phức tạp nhằm phát hiện sự bất thường

1.3.4 Phát hiện tấn công APT

Thuật ngữ APT (Advanced Persistent Threat) được dùng để chỉ kiểu tấn công dai dẳng và có chủ đích vào một thực thể Kẻ tấn công có thể được hỗ trợ bởi chính phủ của một nước nào đó nhằm tìm kiếm thông tin tình báo từ một chính phủ nước khác Tuy nhiên không loại trừ mục tiêu tấn công có thể chỉ là một tổ chức tư nhân Tấn công APT thường do những đối tượng có trình độ chuyên môn cao thực hiện, được hậu thuẫn bởi những tổ chức có tiềm lực Một thách thức trong việc dò tìm các cuộc tấn công APT là việc lọc toàn bộ số lượng dữ liệu nhằm phát hiện những bất thường đang xảy ra Vì thế phân tích dữ liệu lớn là một tiếp cận phù hợp trong việc

dò tìm các cuộc tấn công APT [13], [15]

Trang 34

Tại RSA Labs mộ

Beehive Các kết quả nghiên c

chặn mã độc từ xa, tiến hành phân tích các tr

triệu máy chủ (host) trên kh

tháng Hơn nữa, 60% các l

khai thác trong các tấn công zero

1.3.6 Điều tra tội phạ

Công việc điều tra ph

lớn cần thu thập, phân tích và x

ứng việc truy vết cũng nh

PRISM của cơ quan tình báo M

dựng nhằm thu thập lượng thông tin kh

Hình 1.19: Kỹ thuật tấn công APT

ột hệ thống dò tìm tấn công APT được nghiên cnghiên cứu ban đầu cho thấy Beehive cung cấcác thông điệp bản ghi sự kiện trong một giờ và nh

m chính sách, cũng như sự lây nhiễm phần mềm độc h

ệ ấn công Zero-day

ng việc ứng dụng Big data, các kỹ sư an toàn m

ng WINE (Worldwide Intelligence Network Enviornment) cho vi

liệu, trên phạm vi rộng, sử dụng các dữ liệu thu th

ng được sử dụng để đo thời gian của 18 cuộc t

p các hệ nhị phân tin cậy và tập dữ liệu về các d

n hành phân tích các trường dữ liệu được thu th(host) trên khắp thế giới, các tấn công này kéo dài từ

a, 60% các lỗ hổng bảo mật được xác định trong nghiên c

n công zero-day mà trước đó chưa tìm ra

ội phạm công nghệ cao

u tra phải đối mặt với những thách thức mới khi lư

p, phân tích và xử lý nhanh trong khoảng thời gian nhũng như phát hiện những dấu hiệu tấn công Chình báo Mỹ NSA đã ứng dụng công nghệ dữ

ng thông tin khổng lồ trên khắp thế giới (dữ

c nghiên cứu có tên là

ấp khả năng để

và nhận diện các

c hại

ư an toàn mạng đã đưa nment) cho việc

u thu thập được

c tấn công các dấu hiệu ngăn

zero-c thu thập trên 11

19 ngày đến 30

nh trong nghiên cứu này đã bị

i khi lượng dữ liệu

i gian nhất định, đáp

n công Chương trình liệu lớn để xây liệu điện thoại,

Trang 35

email, hình ảnh, video, trạng thái trên các trang mạng xã hội…) Từ đó phân tích và đưa ra các cảnh báo về các dấu hiệu khủng bố có thể xảy ra

KẾT LUẬN CHƯƠNG 1

- Nghiên cứu về tổng quan về Big Data Kết quả nghiên cứu cho thấy Big Data là một công nghệ mới, đáp ứng được việc lưu trữ khối dữ liệu vô cùng lớn Các dữ liệu được lưu trữ trong Big data thể hiện sự phong phú về

cả nguồn gốc và cấu trúc Chính sự phong phú này giúp cho người nghiên cứu có thể ứng dụng công nghệ Big data cho việc phân tích và dự đoán

- Trình bày một số ứng dụng của Big data đang được triển khai trong thực

tế Kết quả cho thấy rằng, hầu hết tất cả các lĩnh vực trong cuộc sống đều

có thể ứng dụng công nghệ Big data để giải quyết những vấn đề khó khăn đang gặp phải

- Trình bày một số ứng dụng cơ bản Big Data trong ATTT: Với nguồn dữ liệu vô cùng lớn, Big Data rất hữu ích trong việc đánh giá và phát hiện xâm nhập Big Data là phát hiện công nghệ mới trong các nguy cơ mất ATTT như phát hiện Botnet, phát hiện tấn công APT, phát hiện lỗ hổng Zero-Day, phát hiện xâm nhập mạng trái phép, điều tra tội phạm công nghệ cao

Trang 36

CHƯƠNG 2 VẤN ĐỀ ỨNG DỤNG CÔNG NGHỆ BIGDATA

TRONG PHÁT HIỆN XÂM NHẬP MẠNG

2.1.1 Khái niệm về xâm nhập mạng

Trong thực tế có rất nhiều cách diễn giải khác nhau về tấn công mạng, theo Sandeep Gutta thì tấn công mạng (cyber attack hay intrusion) có thể được hiểu là một loạt các hoạt động máy tính nguy hiểm đe dọa và làm tổn hại tới sự bảo mật và tính toàn vẹn của một máy tính hay hệ thống mạng Tấn công mạng phá vỡ hoạt động bình thường của hệ thống máy tính và có thể truy nhập trái phép hoặc phá hủy thông tin trong các hệ thống máy tính Theo một cách định nghĩa khác tấn công mạng có thể được hiểu là bất kì hành động nào cố gắng làm tổn hại sự toàn vẹn, bí mật, tính sẵn sàng của một tài nguyên hoặc đi ngược lại mục tiêu bảo mật của một tài nguyên nào đó

Trong lịch sử tồn tại của mạng máy tính đã từng xảy ra rất nhiều các cuộc tấn công mạng với qui mô lớn, nhỏ khác nhau và cũng để lại nhiều thiệt hại nghiêm trọng Có nhiều cách thức tấn công nhưng có thể phân thành bốn loại hình tấn công mạng chính như sau [16]:

DoS- Denial of Service attack : Là những tấn công làm cho tài nguyên máy tính không phục vụ được theo yêu cầu của người dùng thực sự hay còn gọi là tấn công từ chối dịch vụ Dạng phổ biến nhất của tấn DoS là làm cho tài nguyên máy tính quá bận vì bị sử dụng toàn bộ với rất nhiều yêu cầu vô ích đến mức người dùng thực sự không thể sử dụng nó Có rất nhiều biến thể của tấn công DoS bao gồm TCP-SYN Flood, ICMP/UDP Flood, Smurf, Ping of Death, Teardrop, Mailbomb, Apache2

R2L - Remote to Local attack : Trong loại tấn công này, tin tặc cố gắng đạt được quyền truy cập vào khu vực hệ thống máy tính bằng việc gửi các gói tin tới hệ thống thông qua mạng Một vài cách phổ biến mà loại này thực hiện là đoán mật khẩu thông qua phương pháp từ điển brute-force, FTP Write,

U2R - User to Root attack: Trong kiểu tấn công này, tin tặc với quyền của

Trang 37

một người dùng bình thường cố gắng để đạt được quyền truy nhập cao nhất (đặc quyền của người quản trị) vào hệ thống một cách bất hợp pháp Cách thức phổ biến của kiểu tấn công này là gây tràn bộ đệm

Probe - Surveillance: Trong loại tấn công này, tin tặc quét mạng hoặc máy tính để tìm ra điểm yếu dễ tấn công mà thông qua đó tin tặc có thể khai thác hệ thống Điều này có phần giống như theo dõi, giám sát hệ thống Một cách phổ biến của loại tấn công này là thực hiện thông qua việc quét các cổng của hệ thống máy tính Bằng việc này, tin tặc có thể lấy được thông tin về cổng đang mở, dịch vụ đang chạy, và rất nhiều thông tin chi tiết nhạy cảm khác như địa chỉ IP, địa chỉ MAC, các luật tường lửa đang sử dụng

2.1.2 Vấn đề phát hiện xâm nhập mạng

Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một

hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự

cố có thể xảy ra, đó là các hành vi hoặc các mối đe dọa sắp xảy ra vi phạm các chính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc dựa trên bảo mật tiêu chuẩn

Trong thực tế, khi một máy tính hay một hệ thống máy tính hoạt động trên môi trường mạng, sẽ có rất nhiều kết nối giữa nó và các máy tính, các thiết bị khác

Có thể trong những kết nối đó có những kết nối đang tìm cách tấn công hệ thống để đạt được mục đích nào đó Bản thân mỗi máy tính đều có những biện pháp để tự bảo vệ nhưng nó có những điểm yếu và thực sự không đủ sức chống lại các cuộc tấn công mới với mức độ ngày càng tinh vi hơn Bên cạnh đó các máy tính hay hệ thống cũng phải chịu các nguy cơ đến từ việc vi phạm chính sách ATTT một cách

vô tình hay cố ý Vấn đề phát hiện xâm nhập mạng được đặt ra là cần có cơ chếphát hiện sớm các cuộc tấn công để từ đó có những biện pháp ngăn chặn hoặc giảm thiểu tối đa những thiệt hại, tác động do các cuộc tấn công gây ra

2.1.3 Một số công cụ phát hiện xâm nhập mạng

Trang 38

Hệ thống phát hiện xâm nhập (Intrusion Detection System - IDS) là hệ thống phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật và đưa ra cảnh báo cho nhà quản trị [1], [2], [3]

IDS cũng có thể phân biệt giữa những tấn công vào hệ thống từ bên trong (từ những người trong công ty) hay tấn công từ bên ngoài (từ các hacker) IDS phát hiện dựa trên các dấu hiệu đặc biệt về các nguy cơ đã biết (giống như cách các phần mềm diệt virus dựa vào các dấu hiệu đặc biệt để phát hiện và diệt virus) hay dựa trên so sánh lưu thông mạng hiện tại với baseline (thông số đo đạc chuẩn của hệ thống) để tìm ra các dấu hiệu khác thường

Hình 2.1 Phát hiện xâm nhập mạng của IDS

Các thành phần của IDS:

Trang 39

Hình 2.2: Các thành phần của IDS

- Trung tâm điều khiển (The Command Console): Trung tâm điều khiển là nơi mà IDS được giám sát và quản lí Nó duy trì kiểm soát thông qua các thành phần của IDS, và Trung tâm điều khiển có thể được truy cập từ bất cứ nơi nào Tóm lại Trung tâm điều khiển duy trì một số kênh mở giữa Bộ cảm biến (Network Sensor) qua một đường mã hóa, và nó là một máy hoặc phần mềm chuyên dụng

- Bộ cảm biến (Network Sensor): Bộ cảm biến là chương trình chạy trên các thiết bị mạng hoặc máy chuyên dụng trên các đường mạng thiết yếu Bộ cảm biến

có một vai trò quan trọng vì có hàng nghìn mục tiêu cần được giám sát trên mạng

Khi hệ thống mạng dùng các hub, có thể đặt các bộ cảm biến trên bất kì port nào của hub vì mọi luồng traffic được gửi ra tất cả các port trên hub, và có thể phát hiện ra các luồng traffic bất thường Nhưng khi hệ thống cần sử dụng các switch, các switch chỉ gửi gói tin đến chính xác địa chỉ cần gửi trên từng port Để giải quyết vấn đề này, một kỹ thuật thông dụng là sử dụng những con switch có port mở rộng (expansion port) - khá nhiều thiết bị mạng ngày nay có cái này, và kết nối IDS vào port này Port này được gọi là Switched Port Analyzer (SPAN) port SPAN port cần được cấu hình bởi các chuyên gia bảo mật để nhân bản mọi luồng dữ liệu của switch

- Bộ phân tích gói tin(Network Trap): Bộ phân tích gói tin là một thiết bị phần cứng hoặc phần mềm được kết nối trên mạng, không có địa chỉ IP, kiểm soát các luồng dữ liệu trên mạng và gửi cảnh báo khi phát hiện ra hành động xâm nhập

Trang 40

- Thành phần cảnh báo (Alert Notification): Thành phần cảnh báo có chức năng gửi những cảnh báo tới người quản trị Trong các hệ thống IDS hiện đại, lời cảnh báo có thể ở dưới nhiều dạng như: cửa sổ pop-up, tiếng chuông, email, SNMP

Phân loại các hệ thống IDS

Hệ thống phát hiện xâm nhập được chia làm nhiều loại khác nhau, có thể

dựa theo loại và vị trí đặt của các Sensor hoặc phương pháp sử dụng choEngine để sinh ra các cảnh báo Hầu hết các IDS đơn giản đều kết hợp ba thành phần Sensor,

Console, Engine vào trong một thiết bị phần cứng hoặc một ứng dụng

Network-based Intrusion Detection System (NIDS): Network-based

InstrusionDetection System (hệ thống phát hiện xâm nhập cho mạng) là một giải pháp độc lập để cảnh báo các xâm nhập trái phép thông qua việcphân tích các gói tin trên mạng và giám sát hoạt động của nhiều máy trạm nội bộ, NIDSkiểm soát các

luồng thông tin trên mạng bằng cách kết nối vào các Hub, Switchđược cấu hình Port

mirroringhoặc Network tapđể có thể bắt các gói tin, phân tích nội dung nhận được

và từ đó sinh ra các cảnh báo

Trong hệ thống NIDS, các Sensor được đặt ở các điểm cần kiểm tra trong

mạng, thường là trước miền DMZ hoặc ở vùng biên của mạng, các Sensorbắt tất cả

các gói tin lưu thông trên mạng và phân tích nội dung bên trong của từng gói tin để phát hiện các dấu hiệu tấn công trong mạng

Theo chức năng sử dụng, hệ thống NIDS còn được phân thành hai hệ thống nhỏ đó là Protocol-based Intrusion Detection System (PIDS - Hệ thống phát hiện truy cập dựa trên giao thức) và Application Protocol-based Intrusion Detection System (APEDS - hệ thống phát hiện truy nhập dựa trên ứng dụng) PEDS và APIDS được sử dụng để giám sát các giao vận và giao thức không hợp lệ hoặc không mong muốn trên luồng dữ liệu hoặc hạn chế các ngôn ngữ giao tiếp Hệ thống Protocol-based Intrusion Detection System (PIDS) chứa một hệ thống (System) hoặc một thành phần (Agent) thường được đặt ngay trước một máy chủ, giám sát và phân tích các giao thức trao đổi giữa các thiết bị được nối mạng (một máy trạm hoặc một hệ thống)

Một hệ thống Application Protocol-based Intrusion Detection System

Ngày đăng: 03/09/2018, 16:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Michael T. Simpson, Kent Backman, James Corley (2011). “Hands-on ethical hacking and network defense” (2nd ed.). Boston, MA Sách, tạp chí
Tiêu đề: Hands-on ethical hacking and network defense
Tác giả: Michael T. Simpson, Kent Backman, James Corley
Năm: 2011
[2] Sean-Phillip Oriyano (2016). “CEH v9: Certified Ethical Hacker Version 9 study guide” Sách, tạp chí
Tiêu đề: CEH v9: Certified Ethical Hacker Version 9 study guide
Tác giả: Sean-Phillip Oriyano
Năm: 2016
[3] V. Rao Vemuri (2006). “Enhancing computer security with smart technology”. New York, Auerbach Publications.2. Tài liệu từ Website Sách, tạp chí
Tiêu đề: Enhancing computer security with smart technology
Tác giả: V. Rao Vemuri
Năm: 2006
[4] SAS. (n.d.). “Machine Learning: What it is and why it matters”. Retrievedfromhttps://www.sas.com/en_us/insights/analytics/machine-learning.html.Accessed April 27, 2017 Sách, tạp chí
Tiêu đề: Machine Learning: What it is and why it matters
[5] Mutaz Alsallal (2017). “Applying machine learning to improve your intrusion detection system”. Retrieved from https://securityintelligence.com/applying-machine-learning-to-improve-your-intrusion-detection-system/. Accessed April 24, 2017 Sách, tạp chí
Tiêu đề: Applying machine learning to improve your intrusion detection system
Tác giả: Mutaz Alsallal
Năm: 2017
[9] Jason Brownlee (2015). “Machine learning Mastery: Machine learning tools”. Retrieved from http://machinelearningmastery.com/machine-learning-tools/.Accessed April 15, 2017 Sách, tạp chí
Tiêu đề: Machine learning Mastery: Machine learning tools
Tác giả: Jason Brownlee
Năm: 2015
[10] Docsity (n.d.). “Introduction to WEKA Part 1-Data Warehouse-Lecture Handout, Exercises for Data Warehousing”. Retrieved from Sách, tạp chí
Tiêu đề: Introduction to WEKA Part 1-Data Warehouse-Lecture Handout, Exercises for Data Warehousing
[12] Trieu Nguyen, “Tổng quan về dữ liệu lớn”, <URL: https://www.slideshare.net/tantrieuf31/tng-quan-v-d-liu-ln-bigdata>. [Ngày truy cập 20/08/2017] Sách, tạp chí
Tiêu đề: Tổng quan về dữ liệu lớn
[13] Ks. Nguyễn Công Hoan, “Tổng quan về dữ liệu lớn (BIGDATA)”, Trung Tâm Thông tin Khoa học thống kê (Viện KHTK), <URL:http://vienthongke.vn/attachments/article/2264/2.%20Bao%20cao%202_Tong%20quan%20ve%20Bigdata.pdf >. [ngày truy cập 21/08/2017] Sách, tạp chí
Tiêu đề: Tổng quan về dữ liệu lớn (BIGDATA)
[14] “Hà Nội triển khai xây dựng hệ thống giao thông thông minh”, <URL: http://www.baomoi.com/ha-noi-trien-khai-xay-dung-he-thong-giao-thong-thong-minh/c/22371734.epi > [ngày truy cập 25/08/2017] Sách, tạp chí
Tiêu đề: Hà Nội triển khai xây dựng hệ thống giao thông thông minh
[15] KS. Lê Công Phú, “Ứng dụng phân tích dữ liệu lớn trong an toàn thông tin”, Công ty Cổ phần AN ATTT CMC,<URL:http://antoanthongtin.vn/Detail.aspx?NewsID=e396251e-5c3c-4871-a365-3e44d2c94621&CatID=c251d538-7a3c-4fc7-81df-44a2de35883f>. [Ngày truy cập 24/08/2017] Sách, tạp chí
Tiêu đề: Ứng dụng phân tích dữ liệu lớn trong an toàn thông tin
[6] K-means clustering. Retrieved from https://en.wikipedia.org/wiki/K-means_clustering. Accessed March 14, 2017 Link
[7] Teknomo, Kardi. K-Nearest Neighbors Tutorial. Retrieved from http://people.revoledu.com/kardi/tutorial/KNN/KNN_Numerical-example.html.Accessed April 14, 2017 Link
[8] C4.5 Algorithm. Retrieved from https://en.wikipedia.org/wiki/C4.5_algorithm. Accessed April 15, 2017 Link
[11] Apache Spark. Retrieved from https://en.wikipedia.org/wiki/Apache_Spark. Accessed April 16, 2017 Link
[16] KDDCup99 Dataset, <URL: http://kdd.ics.uci.edu/databases/kddcup99/ kddcup99.html. 1999.> [Ngày truy cập 24/08/2017] Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w