Phân loại luồng dữ liệu mạng sử dụng mạng nơ-ron

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	554,89 KB

Nội dung

Bài viết Phân loại luồng dữ liệu mạng sử dụng mạng nơ-ron trình bày mô hình phân loại luồng dữ liệu mạng dựa trên mạng nơ-ron. Trong bài viết này, nhóm tác giả sử dụng mạng nơ-ron để phát triển một mô hình có thể đạt được độ chính xác cao trong việc phân loại luồng dữ liệu mạng.

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 5, 2019 39 PHÂN LOẠI LUỒNG DỮ LIỆU MẠNG SỬ DỤNG MẠNG NƠ-RON NETWORK TRAFFIC CLASSIFICATION USING NEURAL NETWORK Trần Văn Líc, Phan Trần Đăng Khoa Trường Đại học Bách khoa – Đại học Đà Nẵng; tvlic@dut.udn.vn, ptdkhoa@dut.udn.vn Tóm tắt - Với phát triển hạ tầng mạng Internet, năm gần tầm quan trọng việc phân loại luồng liệu mạng nhằm nâng cao chất lượng, bảo mật cho hệ thống mạng ngày thu hút quan tâm nghiên cứu Trong đó, phương pháp phân loại luồng liệu dựa mơ hình học máy nghiên cứu đạt kết đáng ý Trong báo này, nhóm tác giả sử dụng mạng nơ-ron để phát triển mơ hình đạt độ xác cao việc phân loại luồng liệu mạng Các phương pháp xử lý liệu áp dụng để tối ưu thời gian thực tài nguyên cho hệ thống, đồng thời nâng cao tỉ lệ phân loại cho nhóm có tần số xuất thấp sở liệu Kết thực nghiệm sở liệu mở cho thấy, mơ hình đề xuất có độ ổn định theo thời gian tỉ lệ phân loại cho nhóm thiểu số tốt so với mơ hình khác Abstract - With the rapid development of the Internet infrastructure, in recent years, Internet traffic classification has been intensively researched in order to improve the quality and security of the network In particular, methods of traffic classification based on machine learning models are being studied and have achieved remarkable results In this paper, we use neural networks to develop a model that can achieve high accuracy in classifying network traffic flows Data processing methods are also applied to improve the classification ability for minority groups Experimental results have shown that the proposed model has better stability and classification rate for minority groups than other models Từ khóa - luồng liệu; phân loại; mạng nơ-ron Key words - traffic flow; classification; neural network Giới thiệu Phân loại luồng liệu mạng (Network traffic classification) việc nhận dạng loại ứng dụng giao thức mạng khác tồn hệ thống mạng Với chức giám sát, khám phá, điều khiển tối ưu hệ thống mạng, mục tiêu chung phân loại luồng liệu mạng cải thiện hiệu hoạt động mạng Khi gói tin phân loại giúp cho định tuyến (router) tính tốn sách (policy) dịch vụ thích hợp Điều cho phép dự đoán tốt luồng liệu mạng, phát ngăn chặn luồng liệu mạng bất thường nhằm tăng bảo mật liệu cá nhân Ngoài ra, dựa phân loại này, sách dịch vụ áp dụng với VoIP (Voice over Internet Protocol), dịch vụ giải trí trực truyến cam kết chất lượng [1] Tuy nhiên, với phát triển liên tục đa dạng ứng dụng, số lượng host khối lượng luồng liệu mạng Internet tạo nên thách thức lớn cho phương pháp phân loại luồng liệu mạng ứng với ứng dụng mức độ phát triển dự đoán tiếp tục tăng tương lai Mặc dù số phương pháp phân loại luồng liệu truyền thống áp dụng phổ biến phương pháp phân loại dựa số định danh cổng (port number) phương pháp phân tích gói liệu (deep packet inspection), tồn số vấn đề chưa giải [2] Đầu tiên, phần lớn luồng liệu mạng khơng dễ dàng phân loại dựa vào chuẩn IANA (International Assigned Number Authority) theo danh sách cổng ứng dụng, ứng dụng khẩn cấp proxy thường tránh sử dụng cổng chuẩn Thứ hai, cổng ứng dụng ký hiệu giao thức khơng đủ để xác định ứng dụng thực tế Về ngun tắc, khơng có ràng buộc rõ ràng ứng dụng giao thức Ví dụ, ứng dụng MSN Messenger, BitTorrent Gnutella sử dụng giao thức HTTP (HyperText Transfer Protocol) cổng 80, Skype hoạt động cổng 80 443 Thứ ba, việc mã hóa đóng gói luồng liệu ngày tăng SOCKS proxy hay VPN (Virtual Private Network) làm thay đổi mơ hình giao thức gốc, mã hóa gói làm cho việc kiểm tra, đào sâu vào liệu khơng sử dụng Do đó, phương pháp phân loại dựa số định danh cổng hiệu cho ứng dụng dịch vụ sử dụng cổng cố định; phương pháp phân tích gói liệu địi hỏi tài ngun thời gian lớn để phân tích liệu gói tin lớn Nhìn chung, hướng tiếp cận có hạn chế định độ xác việc phân loại tài nguyên sử dụng Trong năm gần đây, việc giải vấn đề phân loại luồng liệu mạng sử dụng mô hình học máy thu hút quan tâm nghiên cứu [2-9] Dựa thuộc tính gói tin tần suất byte (byte frequency), kích thước gói tin (packet size), khe thời gian đến gói tin (packet inter-arrival time), v.v… kết hợp với mô hình học máy định (decision tree), phân loại Naïve Bayes, mạng nơ-ron, phương pháp có ưu điểm độ xác cao xử lý nhanh so với phương pháp phân loại nêu khơng đào sâu tới phần nội dung (content) gói liệu mà sử dụng header gói liệu để phân tích [5] Các phương pháp sử dụng công cụ phân loại thống kê để xây dựng mơ hình phân loại dựa sở liệu huấn luyện gắn nhãn Các mơ hình cho kết nhóm đối tượng phân bố xác suất nhóm mẫu Khác với phương pháp truyền thống, phương pháp học máy sử dụng đặc trưng đầu vào thành phần siêu liệu liệu (payload metadata) nên thường gặp phải vấn đề khớp (overfitting), tương ứng với tỷ lệ phân loại cao (99%-100%) q trình huấn luyện, nhiên khơng ổn định áp dụng kết mơ hình cho sở liệu thu thập từ mạng khác từ mạng thời điểm khác [5] Trong nghiên cứu [5], nhóm tác giả sử dụng phương pháp học máy có giám sát với mạng nơ-ron để xây dựng mơ hình phân loại luồng liệu có độ xác cao Nghiên cứu đánh giá độ ổn định mơ hình mạng khác Trần Văn Líc, Phan Trần Đăng Khoa 40 thời điểm khác Tuy nhiên, kết nghiên cứu cho thấy tỷ lệ phân loại thấp nhóm có tần suất xuất thấp (được gọi nhóm thiểu số) sở liệu huấn luyện Trong nghiên cứu khác hướng, nhóm tác giả sử dụng mạng nơ-ron để phân loại luồng liệu giao thức TCP (Transmission Control Protocol) với giao thức khác dựa vào giá trị thống kê thông tin thuộc tính lớp IP (Internet Protocol) [6] Trong nghiên cứu [4], nhóm tác giả khai thác mơ hình mạng nơ-ron Bayes đạt độ xác 99,3% giảm xuống 95,3% kiểm thử với nguồn liệu khác Kỹ thuật học sâu (Deep learning) áp dụng để phân loại luồng liệu mạng có vài nghiên cứu năm gần Wang Z sử dụng 1000 bytes luồng liệu TCP làm liệu đầu vào Kết huấn luyện bytes quan trọng cho việc phân loại Tỷ lệ phân loại 55% lấy ngưỡng 90% [7] Nhóm tác giả nghiên cứu [8] áp dụng so sánh phương pháp học máy khác để phân loại luồng liệu IP thời gian thực Nghiên cứu cho kết phân loại với độ xác 91,875%, kết thấp nghiên cứu ban đầu nhóm tác giả tập trung phát triển thuật toán hoạt động thời gian thực Qua phân tích nêu trên, thấy rằng, phương pháp phân loại luồng liệu dựa học máy, đặc biệt mạng nơ-ron, có tỷ lệ nhận dạng cao Tuy nhiên, vấn đề cần giải tránh việc khớp tăng tỷ lệ phân loại nhóm thiểu số Ngồi ra, khả thực thi mơ hình thời gian thực vấn đề cần nghiên cứu Trong báo này, nhóm tác giả trình bày mơ hình phân loại luồng liệu mạng dựa mạng nơ-ron So với nghiên cứu khác, nghiên cứu có đóng góp sau: + Chọn lọc đặc trưng với số chiều khơng gian thích ứng với mơ hình mạng nơ-ron, nhiên trì độ xác độ ổn định mơ hình + Nâng cao khả phân loại mơ hình nhóm thiểu số dựa số kỹ thuật xử lý liệu Mơ hình phân loại luồng liệu mạng 2.1 Mơ hình mạng nơ-ron Mạng nơ-ron bao gồm lớp bản: Lớp đầu vào (Input layer), lớp ẩn (Hidden layer) lớp đầu (Output layer) Mạng nơ-ron có nhiều lớp ẩn Mỗi lớp cấu tạo từ nhiều nơ-ron, nơ-ron lớp trước kết nối với tất nơ-ron lớp Hình Đầu vào lớp ẩn ký hiệu 𝒛, đầu nơ-ron thường ký hiệu 𝒂 Đầu nơ-ron (𝒍) thứ 𝑖 lớp thứ 𝑙 ký hiệu 𝒂𝒊 Vector biểu diễn (𝒍) lớp đầu lớp thứ 𝑙 ký hiệu 𝒂(𝒍) ∈ 𝑹𝒅 Có 𝐿 ma trận trọng số cho mạng nơ-ron có 𝐿 lớp (𝒍−𝟏) 𝒙 𝒅(𝒍) Các ma trận ký hiệu 𝑾(𝒍) ∈ 𝑹𝒅 , (𝒍) 𝑙 = 1,2, … , 𝐿, 𝑾 thể kết nối từ lớp thứ 𝑙 − tới layer thứ 𝑙 Các độ lệch lớp thứ 𝑙 ký hiệu (𝒍) 𝒃(𝒍) ∈ 𝑹𝒅 Các trọng số ký hiệu Hình Tập hợp trọng số độ lệch ký hiệu 𝑾 𝒃 Hình Mơ hình mạng nơ-ron ký hiệu sử dụng mạng nơ-ron [10] Mỗi lớp đầu nơ-ron tính dựa vào cơng thức: (𝑙) (𝑙)𝑇 (𝑙−1) 𝐚𝑖 = 𝒇(𝐰𝑖 𝐚 (𝑙) + 𝒃𝑖 ) (1) 𝑓(∙) hàm kích hoạt phi tuyến Gọi 𝒚 ̂ = 𝒂(𝐿) đầu dự đoán mạng nơ-ron, tương ứng với đầu nơ-ron thuộc lớp đầu (lớp thứ 𝐿) Đối với toán phân loại, đầu dự đoán 𝑦̂ chuyển đổi sang dạng xác suất, 𝑦̂𝑖 xác suất mẫu thuộc nhóm 𝑖 Việc biến đổi cần phải đảm bảo xác suất đầu dương tổng chúng Hàm biến đổi sử dụng nghiên cứu hàm softmax với biểu thức sau: (𝐿) 𝑎𝑖 (𝐿) = exp(𝑧𝑖 ) (𝐿) ∑𝐶 𝑗=1 exp(𝑧𝑗 ) (2) (𝐿)𝑇 đó, 𝑧𝑖𝐿 = 𝐰𝑖 𝐚(𝐿−1) đầu vào nơ-ron lớp đầu ra; 𝐶 – số đầu Việc huấn luyện mạng nơ-ron tương ứng với việc tối ưu hàm mát theo trọng số 𝑾 độ lệch 𝒃 Gọi 𝒚 ̂ = 𝒂(𝑳) đầu dự đoán mạng nơ-ron, tương ứng với đầu nơ-ron thuộc lớp đầu (lớp thứ 𝐿) Hàm mát toán phân loại cross-entropy biểu diễn biểu thức: ℒ(𝐖, 𝐛, 𝐗, 𝐘) = (𝑦̂𝑖 ) − ∑𝑁 [𝑦𝑖 log ] + 𝜆Φ(𝑾) (3) 𝑁 𝑖=1 +(1 − 𝑦𝑖 ) log(1 − 𝑦̂𝑖 ) đó, 𝐗 = {𝐱1 , 𝐱 , … , 𝐱 𝑁 } tập hợp biến đầu vào 𝐘 = {𝐲1 , 𝐲2 , … , 𝐲𝑁 } tập hợp nhãn tương ứng; hàm Φ(𝑾) thành phần ổn định hóa (regularization) Phương pháp Gradient Descent áp dụng để tối ưu hàm mát theo các trọng số 𝑾 độ lệch 𝒃 𝑙 𝐰𝑡+1 = 𝐰𝑡𝑙 − η 𝐛𝑙𝑡+1 = 𝐛𝑙𝑡 − η 𝜕ℒ 𝜕𝐰 (𝑙) 𝜕ℒ 𝜕𝐛 (𝑙) (4) (5) đó, 𝜂 hệ số học (learning rate) Đối với phương pháp này, ta cần tính gradient hàm 𝜕ℒ 𝜕ℒ mát theo trọng số độ lệch, tức (𝑙) (𝑙) 𝜕𝐰 𝜕𝐛 Một phương pháp phổ biến để tính gradient thuật tốn lan truyền ngược (back-propagation) cho phép tính ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 5, 2019 gradient ngược từ lớp cuối đến lớp đầu 2.2 Phân tích sở liệu Một phần quan trọng mơ hình học máy sở liệu Việc phân tích sở liệu cho phép làm rõ tính chất đặc thù liệu từ đưa phương pháp, kỹ thuật xử lý liệu, mơ hình phù hợp để nâng cao khả phân loại Hiện nay, để phục vụ cho việc nghiên cứu mơ hình phân loại luồng liệu mạng, số sở liệu mở với số lượng mẫu lớn (lên đến vài trăm ngàn mẫu) xây dựng sử dụng rộng rãi để làm sở phát triển so sánh mô hình Việc phân tích sở liệu cho thấy đặc thù vấn đề gặp phải triển khai mơ hình Cơ sở liệu sử dụng cho mơ hình mạng nơ-ron bao gồm mẫu (example), mẫu chứa đặc trưng dùng để phân loại nhãn mẫu Các sở liệu dùng để phân loại luồng liệu mạng thu thập sở mạng thường gặp phải vấn đề cân (unbalanced) số lượng mẫu nhóm, tức số nhóm chiếm số lượng mẫu đa số sở liệu (được gọi nhóm đa số), cịn lại số lượng mẫu thuộc phần lớn nhóm cịn lại (được gọi nhóm thiểu số) Sự chênh lệch sở liệu lớn, nhóm đa số có số lượng mẫu lên đến vài trăm ngàn, nhóm thiểu số có vài mẫu Hiện tượng xảy thói quen sử dụng người dùng sở mạng, thấy rằng, đa số sở liệu mở để phục vụ cho việc nghiên cứu thuật toán phân loại luồng liệu bị cân [11] Do đó, việc thu thập sở liệu với số lượng mẫu lớn, đồng thời đảm bảo cân nhóm khó khăn Việc cân sở liệu dễ dẫn đến việc chênh lệch khả phân loại nhóm đa số nhóm thiểu số Các mơ hình học máy có xu hướng phân loại nhóm đa số để tối thiểu hóa hàm mát mà không trọng đến việc phân loại nhóm thiểu số Các kết phân tích báo cho thấy, mẫu nhóm đa số đóng góp vào sai số phân loại, mẫu nhóm thiểu số gần khơng phân loại Do đó, việc tập trung nâng cao khả phân loại nhóm thiểu số cần thiết Trong sở liệu mở để phục vụ cho nghiên cứu mơ hình phân loại luồng liệu, đặc trưng thường xuất server port client port (ví dụ, port 80) Các đặc trưng mang tính chất định danh, tức giá trị chúng khơng mang ý nghĩa đo lường Rõ ràng rằng, đặc trưng định danh không phù hợp để đưa trực tiếp vào mơ hình khơng thể đối sánh định lượng tương đối giá trị định danh Ví dụ, so với port 1280, port 80 khơng phải gần port 20 Các sở liệu thường thu thập số lượng lớn đặc trưng (lên đến vài trăm) Tuy nhiên, mối quan hệ tương quan đặc trưng thường không xem xét Việc đưa đặc trưng có mối quan hệ tương quan dẫn tới thừa thông tin, tăng độ phức tạp mơ hình Ngồi ra, lượng thừa đặc trưng làm giảm độ ổn định mơ hình Từ phân tích trên, nhóm tác giả đề xuất số kỹ 41 thuật xử lý sở liệu nhằm khắc phục vấn đề nêu trên, bao gồm phân bố sở liệu, biến đổi đặc trưng định danh, chuẩn hóa liệu, chọn lọc đặc trưng Kết thực nghiệm sở liệu mở cho thấy hiệu kỹ thuật 2.3 Xử lý sở liệu 2.3.1 Biến đổi đặc trưng định danh Như trình bày trên, ta cần phải biến đổi đặc trưng định danh, cụ thể server port client port, sang giá trị định lượng để sử dụng làm đầu vào mơ hình Việc biến đổi cần đảm bảo tầm quan trọng tương đối giá trị định danh Qua khảo sát, nhóm tác giả thấy tần số xuất đặc trưng sở liệu phù hợp để làm sở cho biến đổi đặc trưng định danh Giá trị định lượng đặc trưng định danh xác định biểu thức sau: 𝑛𝑖 𝑅𝑖 = ∑𝑁 𝑖=1 𝑛𝑖 (6) đó, 𝑛𝑖 – số lượng mẫu chứa đặc trưng định danh 𝑖 Việc biến đổi đảm bảo Port có tần số xuất lớn có giá trị định lượng lớn tương ứng, giá trị chuẩn hóa khoảng [0 1] 2.3.2 Chuẩn hóa liệu đầu vào Cơ sở liệu bao gồm đặc trưng có giá trị nằm tỷ lệ (scale) khác Để đảm bảo công đặc trưng, ta cần phải chuẩn hóa giá trị sở liệu đặc trưng Việc chuẩn hóa nhằm đảm bảo giá trị đặc trưng có giá trị trung bình độ lệch chuẩn Biểu thức để chuẩn hóa sở liệu sau: 𝑗 𝑥𝑖 = 𝑗 𝑥𝑖 𝑗 𝑥𝑖 −𝜇 𝑗 𝜎𝑗 (7) đó, – giá trị thứ 𝑖 đặc trưng thứ 𝑗; 𝜇 𝑗 𝜎 𝑗 giá trị trung bình độ lệch chuẩn giá đặc trưng thứ 𝑗 2.3.3 Phân chia sở liệu Do sở liệu không cân nên việc phân chia sở liệu thành tập huấn luyện (train set) kiểm tra (test set) cần đảm bảo có mặt mẫu thuộc nhóm thiểu số Nếu nhóm thiểu số khơng xuất tập kiểm tra mơ hình khơng học đặc trưng để phân loại nhóm Để giải vấn đề này, tỉ lệ số mẫu nhóm tập huấn luyện kiểm thử xác định tỉ lệ chúng toàn sở liệu Điều đảm bảo số lượng mẫu tất nhóm tập huấn luyện tập kiểm thử có mặt với số lượng phù hợp 2.3.4 Chọn lọc đặc trưng Việc chọn lọc đặc trưng cho phép lấy đặc trưng có ảnh hưởng nhất, từ làm giảm số chiều không gian đặc trưng thừa thơng tin Các đặc trưng hữu ích giúp cho mơ hình học huấn luyện hiệu có độ ổn định cao Trong nghiên cứu [4], đại lượng đo lường Symmetrical Uncertainty sử dụng để xác định độ tương quan đặc trưng Từ đó, lựa chọn đặc trưng có ảnh hưởng Tuy nhiên, phương pháp khơng dựa mơ hình học sử dụng mà dựa vào mối quan hệ tương 42 quan đặc trưng Trong đó, q trình huấn luyện mơ hình học máy q trình tối ưu hóa hàm mát, mức độ ảnh hưởng đặc trưng mơ hình khó dự đốn trước Chính vậy, nghiên cứu này, chúng tơi đề xuất thực phương pháp chọn lọc đặc trưng (Sequential Feature Selection) nhằm thích nghi với mơ hình sử dụng Phương pháp chọn lọc đặc trưng lựa chọn tập đặc trưng cho dự đoán tốt sở liệu thông qua đánh giá ảnh hưởng đặc trưng đến khơng thể cải thiện thêm kết dự đốn Phương thức chọn lọc đặc trưng bắt đầu tập đặc trưng rỗng đưa đặc trưng chưa lựa chọn vào Đối với đặc trưng, ta huấn luyện đánh giá mơ hình mạng nơ-ron theo phương pháp 𝑘-fold cross-validation, tức chia tập huấn luyện thành 𝑘 tập lấy tập làm tập kiểm tra (𝑘 − 1) tập lại làm tập huấn luyện Việc đảm bảo đặc trưng đánh giá toàn liệu Tiêu chí đánh giá tỷ lệ phân loại sai tập kiểm thử Quy trình thực tìm tập đặc trưng tối ưu hóa tiêu chí đánh giá Phương pháp chọn lọc đặc trưng cho phép lựa chọn đặc trưng có ảnh hưởng mơ hình học cụ thể Tuy nhiên, phương pháp đòi hỏi khối lượng tính tốn lớn cần phải đánh giá ảnh hưởng đặc trưng mơ hình Do đó, sở liệu có số lượng đặc trưng lớn ta cần phải chọn lọc sơ đặc trưng tốt trước thực phương pháp chọn lọc đặc trưng Để thực bước này, chúng tơi áp dụng thuật tốn Neighborhood Component Analysis (NCA) Thuật toán NCA thực phân nhóm liệu dựa tiêu chí khoảng cách để xác định điểm liệu lân cận [12] 2.3.5 Gia tăng liệu Đối với sở liệu khơng cân bằng, mơ hình học máy có xu hướng phân loại nhóm đa số để tối thiểu hóa hàm mát mà khơng trọng đến việc phân loại nhóm thiểu số Để khắc phục vấn đề này, ta cần phải tăng trọng số mẫu nhóm thiểu số Như vậy, trình tối ưu hàm mát mạng nơ-ron, mơ hình buộc phải điều chỉnh để tăng khả phân loại cho nhóm thiểu số Trong nghiên cứu này, chúng tơi tăng trọng số nhóm thiểu số cách chép mẫu nhóm kết hợp với việc thêm nhiễu, từ làm tăng đáng kể số lượng mẫu nhóm thiểu số Kết thực nghiệm cho thấy, kỹ thuật gia tăng liệu góp phần cải thiện đáng kể tỷ lệ phân loại nhóm thiểu số Kết thí nghiệm 3.1 Cơ sở liệu Cơ sở liệu sử dụng nghiên cứu lấy từ nguồn [11] Đây sở liệu nhiều nghiên cứu liên quan sử dụng, việc sử dụng sở liệu tạo điều kiện thuận lợi cho việc đánh giá so sánh với nghiên cứu khác Cơ sở liệu thu thập từ máy chủ trung tâm nghiên cứu Đại học Cambridge với khoảng 1000 người dùng kết nối với Internet thông qua đường kết nối Fullduplex Gigabit Ethernet Tổng số mẫu sở liệu Trần Văn Líc, Phan Trần Đăng Khoa 190748 mẫu Dữ liệu ghi lại với hỗ trợ phần mềm Weka lưu trữ vào ổ đĩa với độ phân giải lớn 35 nano giây Thời gian lấy mẫu 24 liệu phân chia thành 10 tập tương ứng với thời điểm khác ngày Ngoài ra, sở liệu cung cấp tập liệu thu thập máy chủ sau 12 tháng để đánh giá độ ổn định mô hình Cơ sở liệu cung cấp 248 đặc trưng luồng liệu [11] Các đặc trưng bao gồm giá trị thống kê liên quan đến gói liệu chiều dài gói liệu (packet length), khe thời gian gói liệu (inter-packet timings) thông tin khác suy từ giao thức lớp vận chuyển (transport protocol) TCP số lượng SYN ACK, Nhiều thông tin thống kê gói tin trực tiếp suy đếm gói tin kích thước header Các đặc trưng liên quan đến băng thông sử dụng (effective bandwidth utilization) tính dựa entropy nhằm đánh giá đặc tính thơng tin luồng liệu Ngồi ra, thông tin liên quan đến thời gian đến gói tin (2 chiều) thể thơng qua 10 thành phần tần số biến đổi Fourier Các luồng liệu phân loại thành 12 nhóm đươc gắn nhãn Việc gắn nhãn cho luồng liệu thực tay thông qua giám sát nội dung luồng liệu thông tin biết trước hệ thống Danh sách 12 nhóm số lượng mẫu nhóm thể Bảng Bảng cho thấy, nhóm WWW (World Wide Web) chiếm số lượng mẫu đa số (84,9%), số nhóm thiểu số GAMES INTERACTIVE có 33 mẫu Do đó, việc huấn luyện mơ hình để phân loại nhóm thiểu số khó khăn 3.2 Điều kiện thiết lập tiến hành thí nghiệm Việc xử lý sở liệu thực thi mơ hình mạng nơ-ron thực mơi trường Matlab Thí nghiệm thực máy tính có cấu sau: CPU Xeon E5-2630 2.40 GHz, RAM: 32 GB, GPU Nvidia Titan V 12Gb Theo định lý xấp xỉ tổng quát (Universal Approximation Theorem) [12], hàm số liên tục 𝑓(𝑥) số 𝜀 > 0, luôn tồn mạng nơ-ron lớp ẩn với đầu có dạng 𝑔(𝑥) (với số nơ-ron lớp ẩn đủ lớn hàm kích hoạt phù hợp) cho với 𝑥, |𝑓(𝑥) − 𝑔(𝑥)| < 𝜀 Nói cách khác, mạng nơ-ron lớp ẩn có khả xấp xỉ hầu hết hàm liên tục Thông qua thực nghiệm với mục tiêu giảm thời gian thực thi mơ hình, chúng tơi nhận thấy rằng, mơ hình mạng nơ-ron lớp ẩn phù hợp sở liệu lựa chọn Do đó, phần thí nghiệm nhóm tác giả xem xét đánh giá kiến trúc mạng nơ-ron lớp ẩn Các siêu tham số cần điều chỉnh để đạt mơ hình mạng nơ-ron tối ưu bao gồm: số nơ-ron lớp ẩn, số đặc trưng đầu vào, loại hàm kích hoạt Để tránh vấn đề khớp, nhóm tác giả áp dụng kỹ thuật dừng học sớm (Early Stopping) sử dụng thành phần ổn định hóa (𝑙2 -norm regularization) với hệ số 𝜆 = 10−3 Tiêu chí đánh giá lựa chọn tỷ lệ phân loại tính tỷ số số mẫu phân loại tổng số mẫu Tỷ lệ đánh giá khơng cho tồn tập liệu mà cịn cho nhóm ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 5, 2019 Bảng Danh sách nhóm số lượng mẫu nhóm 43 lượng đặc trưng đầu vào khác tập huấn luyện tập kiểm tra, tập kiểm tra thu thập sau 12 tháng nhằm đánh giá độ ổn định mơ hình Đối với trường hợp, nhóm tác giả lựa chọn số lượng nơ-ron lớp ẩn cho kết phân loại tốt Nhóm Tần số xuất Tỷ lệ phần trăm (%) MAIL 15789 8,277 FTP-CONTROL 2835 1,486 FTP-PASV 917 0,481 ATTACK 851 0,446 P2P 932 0,489 DATABASE 817 0,428 FTP-DATA 4729 2,479 MULTIMEDIA 543 0,285 SERVICES 1330 0,697 10 INTERACTIVE 33 0,017 11 GAMES 0,002 Bảng cho thấy, sử dụng toàn đặc trưng cho kết phân loại tốt tập huấn luyện kiểm tra Tuy nhiên tập liệu sau 12 tháng kết giảm đáng kể Điều giải thích dư thừa thơng tin dẫn đến việc mơ hình học đặc trưng khơng hữu ích nên kết phân loại giảm áp dụng cho liệu (sau 12 tháng) có phân bố khác với tập huấn luyện Bộ 70 đặc trưng cho kết ổn định với độ chênh lệch sau 12 tháng vào khoảng 2,5% Kiến trúc mạng đặc trưng nhỏ (12 nơ-ron lớp ẩn) 12 WWW 161968 84,912 Bảng Bảng so sánh ảnh hưởng số lượng đặc trưng STT 3.3 Kết thí nghiệm đánh giá 3.3.1 Khảo sát đánh giá kiến trúc mạng nơ-ron Để đánh giá kiến trúc mạng khác nhau, ta thay đổi số lượng nơ-ron lớp ẩn loại hàm kích hoạt nhóm tác giả xem xét loại hàm kích hoạt sử dụng phổ biến Sigmoid, Tanh ReLu Hình thể tỉ lệ phân loại hàm kích hoạt thay đổi số nơ-ron lớp ẩn Kết cho thấy, hàm kích hoạt Sigmoid cho kết phân loại tốt Do vậy, nhóm tác giả sử dụng hàm cho thí nghiệm để đánh giá mơ hình Hình Sự phụ thuộc kết phân loại vào số lượng nơ-ron lớp ẩn hàm kích hoạt 3.3.2 Khảo sát đánh giá ảnh hưởng số lượng đặc trưng Trong phần này, tập đặc trưng chọn lọc sơ dựa thuật toán Neighborhood Component Analysis (NCA) Tiếp theo, tập đặc trưng tiếp tục chọn lọc phương thức chọn lọc đặc trưng để chọn nhóm 10, 20, 30, 40 50 đặc trưng có ảnh hưởng nhất, đặt tên Top 10, Top 20, Top 30, Top 40, Top 50 Nhóm tác giả so sánh phương pháp chọn lọc đặc trưng với phương pháp giảm số chiều không gian PCA (Principal Component Analysis) Biết rằng, PCA thuật tốn biến đổi khơng gian đặc trưng dựa phương sai giá trị đặc trưng, từ lựa chọn khơng gian với số chiều để thể liệu [14] Ngồi ra, mơ hình mạng nơ-ron với tồn số lượng đặc trưng (248) đưa vào so sánh Bảng thể kết phân loại số Số lượng đặc trưng Tỉ lệ phân Tỉ lệ phân Tỉ lệ phân Số nơloại đối loại đối loại ron lớp với tập huấn với tập kiểm sau 12 ẩn luyện (%) tra (%) tháng (%) 10 94,52 88,37 18 83,87 20 98,79 95,32 24 89,10 30 99,07 97,43 16 84,05 40 99,38 97,38 26 86,68 50 99,06 97,17 12 92,09 60 99,34 97,1 14 92,13 70 99,44 97,29 20 94,77 80 99,54 97,19 22 91,39 90 99,65 98,27 20 79,47 PCA 98,43 96,4 18 88,27 Tất (248) 99,73 98,29 24 79,46 3.3.3 So sánh với mơ hình khác Nhóm tác giả tiến hành so sánh mơ hình đề xuất với mơ hình định (DCM) nghiên cứu khác [2, 3] Bảng thể kết phân loại mơ hình tập liệu huấn luyện, kiểm tra sau 12 tháng Kết cho thấy, mơ hình đề xuất có độ ổn định cao kiểm tra tập liệu thu thập sau 12 tháng Bảng So sánh mô hình phân loại luồng liệu Tỉ lệ phân loại Tỉ lệ phân loại Tỉ lệ phân Số lượng tập tập loại sau đặc trưng huấn luyện (%) kiểm tra (%) 12 tháng (%) DCM 99,94 97,50 79,38 Mơ hình đề xuất 99,44 97,29 94,77 Phân tích khả phân loại cụ thể nhóm cho thấy, mơ hình DCM khơng phân loại nhóm thiểu số INTERACTIVE (nhóm 10) GAMES (nhóm 11) với tỉ lệ phân loại 10,71% 0,39% (Bảng 4) Biết rằng, số lượng mẫu nhóm 33 4, phân chia cho tập huấn luyện kiểm thử theo số lượng 23-10 3-1 Do áp dụng kỹ thuật gia tăng liệu q trình huấn luyện mơ hình Trần Văn Líc, Phan Trần Đăng Khoa 44 mạng nơ-ron nên khả phân loại cho nhóm thiểu số cải thiện đáng kể, với tỉ lệ 50% cho nhóm INTERACTIVE 100% cho nhóm GAMES Bảng Tỉ lệ phân loại nhóm mơ hình định (DCM) mơ hình đề xuất STT Nhóm DCM Mơ hình đề xuất MAIL 97,73 96,72 FTP-CONTROL 100 84,25 FTP-PASV 85,71 94,54 ATTACK 19 54,90 P2P 61,71 58,57 DATABASE 100 90,20 FTP-DATA 100 90,83 MULTIMEDIA 96,36 80,98 SERVICES 96,41 91,97 10 INTERACTIVE 10,71 50,00 11 GAMES 0,39 100 12 WWW 99,65 98,87 Kết luận Trong báo này, nhóm tác giả trình bày mơ hình phân loại luồng liệu dựa mạng nơ-ron Để nâng cao tỷ lệ nhận dạng tốc độ thực thi mơ hình, nhóm tác giả sử dụng phương pháp chọn lọc đặc trưng để giảm số chiều không gian đặc trưng thích ứng với mơ hình Ngồi ra, kỹ thuật gia tăng liệu áp dụng để nâng cao tỷ lệ phân loại nhóm có số lượng mẫu Trong phần thí nghiệm, nhóm tác giả đánh giá ảnh hưởng yếu tố khác (số nơ-ron lớp ẩn, hàm kích hoạt, số lượng đặc trưng, kỹ thuật gia tăng liệu) vào hiệu phân loại mơ hình Mơ hình nghiên cứu đối sánh với mơ hình khác Mơ hình đề xuất đánh giá với mơ hình nghiên cứu khác Kết cho thấy mơ hình đề xuất có độ ổn định tốt thực kiểm tra với liệu thu thập sau 12 tháng Ngoài ra, kết phân loại nhóm thiểu số mơ hình đề xuất cải thiện đáng kể so với mơ hình khác nhờ vào các bước xử lý liệu Lời cảm ơn: Chúng gửi lời cảm ơn tới hãng NVIDIA gửi tặng GPU Titan V cho nhóm nghiên cứu CIVIC để phục vụ nghiên cứu Bài báo tài trợ Trường Đại học Bách khoa – ĐHĐN với đề tài có mã số: T2019-02-26 TÀI LIỆU THAM KHẢO [1] Shaikh, Z A., and D Harkut "An overview of network traffic classification methods” Int J Recent Innovation Trends Comput Commun 3.2 (2015): 482-488 [2] Li, Wei, et al "Efficient application identification and the temporal and spatial stability of classification schema” Computer Networks 53.6 (2009): 790-809 [3] Li, Wei, and Andrew W Moore "A machine learning approach for efficient traffic classification” 2007 15th International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems IEEE, 2007 [4] Auld, Tom, Andrew W Moore, and Stephen F Gull "Bayesian neural networks for internet traffic classification” IEEE Transactions on neural networks 18.1 (2007): 223-239 [5] Michael, Ang Kun Joo, et al Network traffic classification via neural networks No UCAM-CL-TR-912 University of Cambridge, Computer Laboratory, 2017 [6] Trivedi, Chintan, et al Classification of Internet traffic using artificial neural networks North Carolina State University Center for Advanced Computing and Communication, 2002 [7] Wang, Zhanyi "The applications of deep learning on traffic identification” BlackHat USA 24 (2015) [8] Singh, Kuldeep, S Agrawal, and B S Sohi "A near real-time IP traffic classification using machine learning” International Journal of Intelligent Systems and Applications 5.3 (2013): 83 [9] Smit, Daniel, et al "Looking deeper: Using deep learning to identify internet communications traffic” 2017 Australasian Conference of Undergraduate Research (ACUR) 2017 [10] Vũ Hữu Tiệp, Machine Learning bản, Nhà xuất khoa học kỹ thuật, 2018 [11] Andrew Moore, Denis Zuev and Michael Crogan, Discriminators for use in ﬂow-based Classification, Department of Computer Science, University of London, ISSN 1470-5559 [12] Qin, Chen, et al "Unsupervised neighborhood component analysis for clustering” Neurocomputing 168 (2015): 609-617 [13] Hornik, Kurt, Maxwell Stinchcombe, and Halbert White "Multilayer feedforward networks are universal approximators” Neural networks 2.5 (1989): 359-366 [14] Jolliffe, Ian Principal component analysis Springer Berlin Heidelberg, 2011 (BBT nhận bài: 23/4/2019, hoàn tất thủ tục phản biện: 13/5/2019) ... độ ổn định mơ hình + Nâng cao khả phân loại mơ hình nhóm thiểu số dựa số kỹ thuật xử lý liệu Mơ hình phân loại luồng liệu mạng 2.1 Mơ hình mạng nơ-ron Mạng nơ-ron bao gồm lớp bản: Lớp đầu vào... hình mạng nơ-ron Bayes đạt độ xác 99,3% giảm xuống 95,3% kiểm thử với nguồn liệu khác Kỹ thuật học sâu (Deep learning) áp dụng để phân loại luồng liệu mạng có vài nghiên cứu năm gần Wang Z sử dụng. .. cho thấy tỷ lệ phân loại thấp nhóm có tần suất xuất thấp (được gọi nhóm thiểu số) sở liệu huấn luyện Trong nghiên cứu khác hướng, nhóm tác giả sử dụng mạng nơ-ron để phân loại luồng liệu giao thức

Ngày đăng: 16/07/2022, 12:58