1. Trang chủ
  2. » Trung học cơ sở - phổ thông

Sổ tay công nghệ chế tạo máy tập 1 part 7

7 14 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 437,95 KB

Nội dung

thành phần chính y (m) [13]. Trong [14], khoảng cách Mahalanobis dựa trên thành phần chính chủ yếu và thứ yếu được sử dụng để phân tích dấu hiệu bất thường. Hiệu quả của phương pháp[r]

(1)

Nguyễn Hà Dương, Hoàng Đăng Hải

PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN CHỨA NGOẠI LAI

Nguyễn Hà Dương*, Hồng Đăng Hải+

*Khoa Cơng nghệ thông tin, Trường Đại học Xây Dựng Hà Nội +Học viện Cơng nghệ Bưu Viễn thơng

Tóm tắt: Phát lưu lượng mạng bất thường đối mặt với nhiều khó khăn, thách thức như: xác định mức ngưỡng dùng để so sánh phát bất thường, trích chọn đặc trưng liệu, giảm số liệu cần xử lý, độ xác cần thiết Ngồi ra, ngoại lai gây sai lệch đáng kể trình phát Bài báo đề cập vấn đề phát lưu lượng mạng bất thường điều kiện liệu huấn luyện chứa ngoại lai đề xuất phương pháp cải tiến dựa thuật tốn phân tích thành phần PCA gọi tên dPCA Kết thử nghiệm đánh giá dựa tập liệu Kyoto Honeypot

Từ khóa:Phát lưu lượng mạng bất thường,

phát ngoại lai, an ninh mạng.1

I MỞ ĐẦU

Tính mở đa dạng hạ tầng mạng, dịch vụ ứng dụng tạo biến động, thăng giáng đáng kể lưu lượng mạng Mặt khác, hoạt động cơng tin tặc mạng góp phần không nhỏ việc tạo lưu lượng đột biến so với lưu lượng bình thường mạng Phát lưu lượng mạng bất thường chủ đề nghiên cứu quan tâm nhiều thời gian qua trở thành hướng nghiên cứu đặc biệt quan tâm phát triển lĩnh vực an ninh mạng [1] Lưu lượng mạng bất thường

Tác giả liên hệ: Nguyễn Hà Dương, email: nghaduong@gmail.com

Đến tòa soạn: 12/2/2016, chỉnh sửa: 12/4/2016, chấp nhận đăng: 12/5/2016

Một phần kết báo trình bày hội thảo quốc gia ECIT’2015

lưu lượng có biến đổi khơng bình thường, có thăng giáng đáng kể so với lưu lượng bình thường mạng Sự biến đổi bất thường nhiều ngun nhân, ví dụ điển hình cơng tin tặc mạng (như DoS, Scan) lỗi mạng Ví dụ, công DoS thường tạo lượng lưu lượng đột biến so với lưu lượng bình thường mạng

Phát nhanh sớm lưu lượng mạng bất thường giúp sớm phát dấu hiệu cơng mạng So với phương pháp truyền thống phát công mạng dựa dấu hiệu (signature-based) thường dùng hệ thống phát xâm nhập (Intrusion Detection System - IDS) [2,3,4], phương pháp dựa kiện bất thường (anomaly-based detection) có ưu cho phép phát kiểu công Nếu phát dựa mẫu dấu hiệu công biết, hệ thống phát tin tặc thay đổi vài chi tiết để biến cơng trở thành kiểu Vì vậy, hệ thống ADS (Anomaly Detection System) phát triển dựa phương pháp phát hành vi bất thường (ví dụ [1,2])

(2)

PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN khơng nằm tập bình thường bị coi bất

thường Các phương pháp phát lưu lượng mạng bất thường cho ADS phải đối mặt với số vấn đề chủ yếu sau:

1) Cần xácđịnh tập mẫu liệu không chứa bất

thường để từ phát kiện bất thường tập liệu thu từ mạng 2) Để tăng độ xác, tập mẫu liệu thường lớn với số lượng biến (thuộc tính liệu) lớn dẫn đến tốn tài nguyên hệ thống, thời gian xử lý dài, tốc độ phát chậm Vấn đề cần trích chọn đặc trưng liệu cho giảm yêu cầu lượng liệu phải xử lý bảo đảm độ xác cần thiết, tốc độ xử lý phát nhanh 3) Thực tế tập mẫu liệu bình thường chứa phần liệu bất thường (gọi chung ngoại lai) làm sai lệch trình huấn luyện kết phát Do cần phương pháp loại bỏ ngoại lai khỏi tập liệu huấn luyện Đã có nhiều cơng trình nghiên cứu phát lưu lượng mạng bất thường đề xuất tới nay, song phương pháp phát theo mơ hình thống kê, khai phá liệu, học máy coi hiệu khả thi (xem [5-12]) Một số nghiên cứu áp dụng thuật toán PCA (Principle Component Analysis) [13-17] cho thấy khả giảm lượng liệu cần xử lý, độ xác tương đối cao, khả phát nhanh Mặc dù vậy, vấn đề phát điều kiện liệu huấn luyện có chứa ngoại lai chưa quan tâm mức Ngoại lai phần tử bất thường lẫn vào tập liệu dùng để huấn luyện Những phần tử gây sai lệch tham số huấn luyện ảnh hưởng đến hiệu suất hoạt động hệ thống

Bài báo đề xuất phương pháp phát lưu lượng mạng bất thường điều kiện liệu huấn luyện chứa ngoại lai Phương pháp xây dựng dựa tảng thuật toán PCA với số cải tiến: giảm thiểu thành phần thứ yếu để tính đường sở, khử ngoại lai với chế độ không giám sát phân cụm, phân cấp phát Bài báo bố cục thành ba phần sau Phần II trình bày số nghiên cứu liên

quan Phần III trình bày phương pháp đề xuất báo Phần IV kết thử nghiệm Phần V kết luận

II CÁC NGHIÊN CỨU LIÊN QUAN

Các cơng trình nghiên cứu phát lưu lượng mạng bất thường tới chủ yếu dựa nguyên lý nhất, đặc tính lưu lượng mạng điều kiện hoạt động bình thường theo cách xác định khác biệt lưu lượng mạng so sánh với lưu lượng mạng bình thường nêu Ranh giới khác biệt mức ngưỡng (Threshold) thường có biến động theo thời gian ADS thường xây dựng theo mơ hình thống kê, khai phá liệu, học máy, [1-12] Mục tiêu đặt tạo đường sở (Baseline) bao gồm mức ngưỡng biến động theo thời gian Tuy nhiên, số lượng liệu số thuộc tính liệu lớn nên việc tạo đường sở so sánh với đường sở vấn đề phức tạp, phải xử lý nhiều khó khả thi

Một số nghiên cứu tập trung vào lựa chọn đặc trưng liệu nhằm giảm yêu cầu lượng liệu phải xử lý Thuật toán phân tích thành phần (PCA-Principle Component Analysis) [13-16] đề xuất áp dụng nhằm chuyển đổi tập liệu (p chiều) sang miền liệu

(m chiều, với m < p) nhằm giảm số chiều liệu

Trong phần này, báo tóm tắt số cơng trình điển hình [12-16] sử dụng phương pháp PCA có liên quan đến nội dung PCA thuật toán thường sử dụng để giảm số chiều liệu giữ phần lớn đặc tính liệu Mỗi trị riêng thành phần tương ứng phần với biến thiên thuộc tính hay biến liệu Trị riêng lớn chứa nhiều biến thiên vector riêng tương ứng phản ánh quy luật biến thiên lớn nên quan trọng Do vậy, thành phần quan trọng cần xếp trước thành phần không quan trọng [1-3][7][13-16]

(3)

Nguyễn Hà Dương, Hoàng Đăng Hải thay đổi bất thường thành phần

nhất định Các thành phần (Principal Component – PC) phân chia thành thành phần chủ yếu phản ánh quy luật biến thiên

của lưu lượng y(m) trạng thái bình thường

của hệ thống thành phần dư thừa phản

ánh biến thiên không theo quy luật y(p-m) Trong

[5,12], độ lớn phần dư tái tạo tương ứng với

y(p-m)được phân tích từ phát dấu hiệu bất thường dựa mức ngưỡng Một cách tương tự tính khoảng cách Euclidean

dữ liệu chuẩn hóa z liệu tái tạo từ

thành phần y(m) [13] Tuy nhiên tái tạo

lại z từ thành phần y(m) làm tăng mức độ xử lý hệ thống Trong [14], khoảng cách Mahalanobis dựa thành phần chủ yếu thứ yếu sử dụng để phân tích dấu hiệu bất thường Hiệu phương pháp phụ thuộc vào số lượng tỷ lệ PC chủ yếu thứ yếu Tác giả [15] sử dụng phương pháp Histogram Phương pháp đơn giản song đòi hỏi lượng liệu phải lớn để đạt tỷ lệ phát cao Cơng trình [16] đề xuất giảm bớt tập thuộc tính liệu nhằm giảm độ phức tạp thuật tốn phát

Qua nghiên cứu cơng trình liên quan, ta rút số nhận xét sau:

1) Các nghiên cứu áp dụng PCA sử dụng cách so sánh biến thiên lưu lượng với đường sở, song giảm liệu cần xử lý qua việc biến đổi sang miền liệu sử dụng thành phần Tuy nhiên, sử dụng thành phần vấn đề chưa nghiên cứu cụ thể Các thành phần chia thành thành phần chủ yếu (những thành phần đầu tiên, có trị riêng lớn nhất) thành phần thứ yếu (những thành phần cuối có trị riêng nhỏ nhất)

2) Các thành phần chủ yếu có xu hướng phản ánh biến thiên bình thường lưu lượng Trong điều kiện liệu huấn luyện sạch, bất thường có xu hướng xuất thành

phần thứ yếu Điều phù hợp với phương pháp phân tích phần dư Do vậy, lựa chọn thành phần phù hợp mang lại hiệu phát

3) PCA nhạy cảm với liệu ngoại lai Do đó, cần giảm thiểu tác động ngoại lai, cần lọc bớt liệu đầu vào ngoại lai cho tập huấn luyện PCA phát sinh ngoại lai khơng mong muốn Vì vậy, cần đánh giá tác động thành phần đến việc phát sinh ngoại lai, từ lựa chọn thành phần đặc tính lưu lượng mạng cần thiết để giảm tác động yếu tố

III PHƯƠNG PHÁP DPCA

A Cơ sở thuật toán PCA

PCA phương pháp chuyển đổi tập liệu (p

chiều) sang miền liệu (m chiều, với m

< p) nhằm giảm số chiều liệu [13-16] Thuật toán PCA sở sau

Gọi X tập liệu gồm n quan sát với p

biến X1, X2,… Xp được tổ chức thành ma trận nxp

(n hàng, p cột) Mỗi biến biểu thị thuộc tính

của liệu ban đầu Mỗi quan sát x=(x1, x2,…,xp)

T chứa p thuộc tính khác Gọi R ma trận

tương quan pxp tính từ X, (lk, ek)là cặp

trị riêng vector riêng R xếp theo

thứ tự giảm dần trị riêng (l1³ l2³…³ lp>0) Phép biến đổi thuật toán PCA sở chuyển điểm liệu ban đầu sang kết

thành phần Khi thành phần thứ i

của quan sát x

T

1 2

i i i i ip p

y = e z = e z e z+ + +e z (1)

trong đó: yi thành phần thứ i quan

sát x ban đầu, i=1…p, ei=(ei1,ei2,…,eip)T là vectơ riêng thứ i, z = (z1, z2,…,zp)T vectơ chuẩn hóa

của x, zk biến thứ k tính theo công thức

k k

k k

x x z

s

= (2)

với xk giá trị trung bình, sk phương sai

(4)

PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN Bài toán phát bất thường với PCA đưa

về tốn tính tốn khoảng cách d giữa liệu

chuẩn hóa z liệu tái tạo từ thành phần

chính yi quan sát Khoảng cách so

sánh với mức ngưỡng để xác định tập liệu bình thường hay bất thường Nhiều phương pháp tính khoảng cách áp dụng, điển hình như: Euclidean, Manhattan [13], Mahalanobis [14],… Việc xử lý lượng liệu lớn nhiều biến làm tăng thời gian xử lý liệu tốn tài nguyên hệ thống Vì vậy, áp dụng thuật tốn PCA giảm thiểu số chiều không cần thiết tăng hiệu tận dụng tài nguyên hệ thống

B Phương pháp dPCA

Trong phần này, báo đề xuất phương pháp dPCA (Distance-based anomaly detection method in PCA subspace) tảng thuật toán PCA sở với số cải tiến: giảm thiểu thành phần thứ yếu để tính đường sở, khử ngoại lai với chế độ không giám sát phân cụm, phân cấp phát Về bản, phương pháp dPCA sử dụng thuật toán PCA sở để giảm số chiều

liệu (p chiều), song giữ phần lớn đặc tính liệu

ban đầu cách giữ lại m thành phần

Tương tự [18], ta chia m thành phần thành

r thành phần chủ yếu m=p-q+1 thành

phần thứ yếu Từ kết nghiên cứu nêu phần 2, không thiết phải tính khoảng cách cho tồn thành phần Những liệu bất thường có xu hướng xuất thành phần cuối (thành phần thứ yếu) Theo cách này, ta cần quan sát liệu thành phần thứ yếu (miền PCA), qua giảm thiểu lượng liệu cần xử lý Các kết phần thử nghiệm chứng minh phương pháp bảo đảm độ xác cần thiết giảm thiểu độ phức tạp, tăng tốc độ xử lý

Cơng thức tính khoảng cách để phát dấu hiệu bất thường miền PCA phương pháp dPCA đề xuất sau:

q c i i i r

d w y

=

=∑ (3)

trong đó: 1≤ < ≤r q p, wi trọng số cho thành

phần yi, d độ lệch hình thành từ thành

phần yi trọng số tương ứng wi, c số

mũ yi c số, số thực

số nguyên wi, c lựa chọn dựa thực

nghiệm

Một giá trị ngưỡng dN xác định dựa vào

hàm phân bố tích lũy thực nghiệm độ lệch d

(empirical cumulative distribute function - ecdf) tính liệu huấn luyện Khi có

quan sát mới, giá trị d tính dựa

tham số huấn luyện sau:

Chuẩn hóa liệu dựa giá trị trung bình bậc hai phương sai cho thuộc tính (biến đầu vào)

• Sử dụng vectơ riêng để chuyển quan sát sang trục miền PCA

• Tính giá trị d dựa công thức (3) so sánh

với ngưỡng thiết lập dNkhi huấn luyện Nếu

d > dN, quan sát coi bất thường

Ngược lại quan sát coi bình thường Phương pháp dPCA hoạt động hai chế độ: bán giám sát không giám sát

dPCA chế độ không giám sát không yêu cầu huấn luyện mà phát trực tiếp với liệu có Chế độ có yêu cầu bổ sung lượng liệu bình thường phải lớn nhiều so với lượng liệu bất thường Nếu điều bị vi phạm khơng thể tạo trạng thái bình thường mạng để so sánh phát khác biệt quan sát có dấu hiệu bất thường dPCA chế độ bán giám sát hoạt động theo hai pha:

• Pha huấn luyện (Training phase): Pha hoạt động ngoại tuyến (offline) Hệ thống huấn luyện trước với liệu “sạch” (không chứa bất thường hay ngoại lai) Dữ liệu sau chuyển đổi PCA tạo thành hồ sơ trạng thái bình thường (normal profile) hệ thống Hồ sơ trạng thái chứa tham số huấn luyện vectơ riêng, trị riêng giá

(5)

Nguyễn Hà Dương, Hoàng Đăng Hải tính tất quan sát với liệu huấn

luyện tạo nên đường sở để phát

hiện ngoại lai Vì coi d độ lệch

của quan sát để xét quan sát bình thường hay bất thường

• Pha phát (Detection phase): Pha hoạt động trực tuyến (online) Mỗi quan sát vectơ chứa thuộc tính liệu cần chuyển sang miền PCA với vectơ riêng trị riêng có pha huấn luyện Bộ phát áp dụng phương pháp dPCA để tính độ lệch so sánh với giá trị ngưỡng Nếu độ lệch vượt giá trị ngưỡng, quan sát coi bất thường ngược lại bình thường

Các thành phần thứ yếu (dPCAL1) Phát bất

thường (dPCA)

Tất thành phần (dPCAL2) Hình Phương pháp dPCA chế độ bán giám sát Hình mơ tả phương pháp dPCA chế độ bán giám sát Khi dPCA thực với thành phần thứ yếu (gọi dPCAL1) coi kiểm tra nhanh xem có tượng bất thường mạng hay khơng Tuy nhiên, bất thường có xu hướng xuất thành phần thứ yếu, chúng xuất thành phần khác Vì dPCA kiểm tra với tất với thành phần với tần suất thấp để phát bất thường (dPCAL2) Cứ

sau x lần kiểm tra với dPCAL1 lại có lần

kiểm tra với dPCAL2 Số lần x tùy thuộc nhu cầu

giám sát mạng Thực nghiệm cho thấy dPCAL2 cần thực với PC (chiếm 70%-80% mức biến thiên tổng trị riêng) mà vấn bảo đảm độ xác cần thiết Do bỏ qua số PC khác cơng thức tính khoảng

cách d để tăng tốc độ xử lý phát với

dPCAL2 Nếu thấy số lượng bất thường phát với dPCAL2 tăng đột biến tăng tần suất dPCAL2 Mỗi xuất bất thường

dPCAL1 kiểm tra lại dPCAL2 Lý sử dụng tất PC thường có độ ổn định phát cao

C Phương pháp dPCA với thành phần thứ yếu chế độ bán giám sát (dPCAL1)

Trong nghiên cứu Lakhina [5] Wang [13],

thực chất phần dư khoảng cách z

zN zN tái tạo từ thành phần chủ

yếu Khi chuyển sang không gian PCA, công thức trở thành:

2

( )A ( (N)) (T ( )N )

q i i r

d z z z z z y

=

= = − − =∑ (4)

Trong cơng thức trên, d tổng bình

phương thành phần thứ yếu (1 < r < q ≤ p)

Như cách thiết lập wi = số

c = công thức (3), phương pháp dPCA

sẽ đạt kết tương tự nghiên cứu

của Lakhina [5] Wang [13] Khi tính d với

thành phần chính thứ yếu, phương pháp dPCA tương đương với phương pháp tính phần dư nêu [5,13] song thay vì phải chuyển đổi

liệu trở lại z trong không gian ban đầu

[13], dPCA cho phép thực trực tiếp với y

trong miền PCA, giảm bớt độ phức tạp

Nếu thiết lập d với trọng số wi= 1/λi số

c =2 công thức (4), ta kết tương

(6)

PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN

Với trọng số wi= 1/li số c =2, công thức

(3) cho kết quả:

2

q i i r i y

d

l

=

=∑ (5)

Để chuẩn hóa cho giá trị thành phần

thứ yếu, thiết lập wi= 1/ 1/2

i

l số c

=1 Kết đạt tương tự (5) song công thức đơn giản khơng cần tính bình phương giá trị thành phần chính, bậc hai trị riêng phải tính lần pha huấn luyện

q i i r i

y

d

l

=

=∑ (6)

Nếu thiết lập trọng số wi= 1/li số c =1,

cơng thức tính d đạt kết gần tương đương

với (5), (6) song không cần tính bậc hai trị riêng pha huấn luyện

q i i r i

y

d

l

=

=∑ (7)

Trong thực tế trị riêng thành phần thứ yếu khơng có khác biệt đáng kể

có thể thiết lập wi= số c = cho

thành phần chính thứ yếu Kết tính d tương

đương với (4), (5), (6), (7) song công thức đơn giản nhiều

q i i r

d y

=

=∑ (8)

Độ phức tạp thuật tốn tính khoảng cách d

với cơng thức (4) (5) O(n2) tương đương

với độ phức tạp [5,13,14] Các công thức (6), (7), (8) có độ phức tạp O(n), giảm độ phức tạp so với (4), (5) Lưu ý d độ phức tạp thuật tốn tính khoảng cách dPCA chưa tính đến độ phức tạp thuật tốn PCA Trong pha huấn luyện, thuật tốn PCA có độ

phức tạp O(np2) tính ma trận tương quan

O(p3) tính cặp trị riêng/vectơ riêng Độ

phức tạp thuật toán PCA khơng thay đổi (trong cơng trình nghiên cứu trước phải chấp nhận điều này) nên giảm số chiều liệu p cần thiết Trong pha phát hiện, dPCAL1

sử dụng thành phần thứ yếu nên giảm u cầu tính tốn

D Phương pháp dPCA với tất thành phần chính chế độ bán giám sát (dPCAL2)

Khi sử dụng đầy đủ thành phần chính, số r công thức (3) Thường trường hợp liệu huấn luyện chứa ngoại lai, dùng tất thành phần cơng thức tính

khoảng cách tốt Nếu tính d với toàn

giá trị p thành phần chính công thức

(5), kết cho lại tương đương với khoảng

cách Mahalanobis thống kê T2, c2

(Chi-square) Tuy nhiên, vấn đề độ phức tạp cao phải tính tốn nhiều Bài báo đề xuất cách giảm độ phức tạp tính tốn sử dụng cơng thức (6) (7) So với (5), công thức (6), (7) có hiệu tương đương lại đơn

giản Do tính bình phương cho

yi tính d nên phép tính đơn giản (wi

chỉ phải tính lần pha huấn luyện,

pha phát wi số) Khi thiết lập cặp giá

trị này, cần lưu ý không áp dụng phương pháp

thống kê tham số theo phân bố biết trước (T2, c2)

để tìm mức ngưỡng cách tra bảng phân bố tương ứng

E Khử ngoại lai liệu huấn luyện với dPCA chế độ không giám sát

dPCA chế độ bán giam sát địi hỏi liệu hay nói cách khác cần tập liệu huấn luyện không chứa ngoại lai ngoại lai dẫn đến sai lệch kết phát Vì vậy, dPCA chế độ khơng giám sát sử dụng để phát bất thường cịn có mục đích sử dụng để lọc bỏ bớt ngoại lai liệu huấn luyện cho chế độ bán giám sát

(7)

Nguyễn Hà Dương, Hoàng Đăng Hải tăng lên Do vậy, đặt mức ngưỡng phù hợp cần

thiết Việc loại bỏ liệu bình thường có khoảng cách lớn liệu bình thường khác rõ ràng cần thiết chúng ảnh hưởng đến ma trận hiệp phương sai, giá trị trung bình, tập liệu miền PCA, bao gồm vectơ riêng, trị riêng giá trị thành phần chính Việc khử ngoại lai liệu huấn luyện với dPCA thực sau:

• Dữ liệu đầu vào ánh xạ sang miền PCA

• Tính khoảng cách d dựa

công thức (5), (6), (7) với tất thành phần

• Xác định mức ngưỡng dựa hàm phân bố tích lũy thực nghiệm phân bố biết trước (phân bố F, c2).

• Loại bỏ tất quan sát có khoảng cách lớn mức ngưỡng

• Những liệu cịn lại tập liệu dùng cho huấn luyện

F Khử ngoại lai liệu huấn luyện bằng phương pháp K-Means

Một phương pháp khử ngoại lai khác đề xuất báo sử dụng kỹ thuật phân cụm dựa thuật toán K-means Trước thực phân cụm với K-means, liệu đầu vào chuẩn hóa theo cơng thức (2) Q trình phân cụm thuật tốn K-means bao gồm bước sau:

Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho

K cụm (cluster) Mỗi cụm đại diện

tâm cụm C1, C2, … CK

Bước 2: Tính khoảng cách điểm đến K

tâm (thường dùng khoảng cách Euclidean)

Bước 3: Nhóm đối tượng vào cụm gần

Bước 4: Xác định lại tâm cho cụm

Bước 5: Thực lại bước sai số bình phương khơng thay đổi

Việc xác định giá trị K ảnh hưởng nhiều đến kết

quả phân cụm phát bất thường Phát ngoại lai dựa phân loại liệu vào cụm

Phân loại cho biết điểm liệu thuộc cụm Để phát ngoại lai phân loại, cần thiết lập cụm liệu bình thường ngoại lai

Trong trường hợp K=2, có cụm bình

thường cụm lại ngoại lai

Để phát điểm ngoại lai, cần thiết

lập khoảng cách tối đa (dmax) Khi khoảng cách

từ điểm đến tâm cụm bình thường vượt

quá dmax, điểm xét coi ngoại lai

Những điểm bị loại bỏ khỏi tập liệu huấn luyện

IV THỬ NGHIỆM

Mục tiêu thử nghiệm đánh giá khả phát phương pháp đề xuất, khả loại bỏ ngoại lai ảnh hưởng ngoại lai đến hiệu suất hệ thống trước sau khử ngoại lai Quá trình thử nghiệm thực dựa

phần mềm Matlab R2013a.

A Dữ liệu dùng cho thử nghiệm

Cách thức chung để thử nghiệm hệ thống phát lưu lượng mạng bất thường (hay rộng phát công mạng) là: 1) Thu thập liệu mạng điều kiện hoạt động bình thường (dữ liệu sạch, chưa có cơng hay bất thường); 2) Thiết lập tập liệu mẫu cho lưu lượng bình thường, tạo đường sở; 3) Thu thập liệu mạng thực tế so sánh với tập mẫu bình thường (đường sở) để phát

Ngày đăng: 01/04/2021, 17:58

TỪ KHÓA LIÊN QUAN

w