1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kỹ thuật học máy trong việc phát hiện xâm nhập mạng

62 1,2K 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,98 MB

Nội dung

Kỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạngKỹ thuật học máy trong việc phát hiện xâm nhập mạng

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Lê Minh Kha ĐỀ TÀI KỸ THUẬT HỌC MÁY TRONG VIỆC PHÁT HIỆN XÂM NHẬP MẠNG LUẬN VĂN THẠC SĨ KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH - 2016 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Lê Minh Kha ĐỀ TÀI KỸ THUẬT HỌC MÁY TRONG VIỆC PHÁT HIỆN XÂM NHẬP MẠNG Chuyên ngành: Hệ thống Thông tin Mã số: 60.48.01.04 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĂN LĂNG THÀNH PHỐ HỒ CHÍ MINH - 2016 i LỜI CAM ĐOAN Trong trình thực luận văn, hướng dẫn trực tiếp PGS.TS Trần Văn Lăng, nghiên cứu hoàn thành luận văn với nổ lực nghiên cứu thân Do đó, xin cam đoan nội dung luận văn thực hướng dẫn PGS.TS Trần Văn Lăng tham khảo sử dụng luận văn có trích dẫn nguồn cụ thể, rõ ràng, trung thực tên tác giả, tên công trình nghiên cứu, thời gian địa điểm công bố Mọi chép không hợp lệ vi phạm quy chế đào tạo xin chịu hoàn toàn trách nhiệm./ TP HCM, ngày 27 tháng 06 năm 2016 HỌC VIÊN THỰC HIỆN LUẬN VĂN Lê Minh Kha ii LỜI CẢM ƠN Trong trình thực luận văn này, xin gửi lời cảm ơn chân thành đến PGS.TS Trần Văn Lăng, Viện phó Viện học Tin học ứng dụng TP HCM, người trực tiếp hướng dẫn để hoàn thành luận văn Đồng thời, xin gửi lời cảm ơn đếnquý thầy cô thuộc Học Viện Bưu Viễn thông nói chung, sở Thành phố Hồ Chí Minh nói riêng tạo điều kiện thuận lợi cho hoàn thành luận văn tiến độ Một lần xin gửi lời cảm ơn chân thành đến quý Thầy Cô TP HCM, ngày 27 tháng 06 năm 2016 HỌC VIÊN THỰC HIỆN LUẬN VĂN Lê Minh Kha iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC VIẾT TẮT v DANH SÁCH CÁC BẢNG vi DANH SÁCH HÌNH ẢNH vii MỞ ĐẦU CHƯƠNG 1- CƠ SỞ LÝ THUYẾT 1.1.Vai trò IDS/IPS hệ thống mạng: 1.1.1.Tổng quan bảo mật: 1.1.2 Những mối đe doạ: 1.1.3 Các phương thức công: 1.1.4 Hệ thống phát xâm nhập: 1.2 Đặc điểm hệ thống IDS/IPS: 1.2.1.Cấu trúc chung: 1.2.2 Cơ chế hoạt động: 10 1.2.3 Các phương pháp nhận diện: 11 1.3 SNMP hệ thống giám sát mạng: 12 1.3.1 Giới thiê ̣u giao thức SNMP: 12 1.3.2 Các yêu cầ u giám sát ̣ thố ng ma ̣ng: 14 TIỂU KẾT CHƯƠNG 15 CHƯƠNG - TỔNG QUAN VỀ KỸ THUẬT MÁY HỌC 16 2.1 Máy học: 16 2.1.1 Giới thiệu máy học: 16 2.1.2 Các phân loại giải thuật máy học: 16 2.2 Các mô hình máy học bản: 17 2.2.1 Mạng nơ-ron: 17 2.2.1.1 Khái niêm: 17 iv 2.2.1.2 Kiến trúc mạng kết nối đầy đủ: 18 2.2.1.3 Phương thức suy luận thông tin mạng: 19 2.2.1.4 Mô hình học: 21 2.2.2 Cây định: 22 2.2.2.1 Giới thiệu chung: 22 2.2.2.2 Các thuật toán: 23 2.2.2.3 Giới thiệu thuật toán ID3: 24 2.2.3 Máy vectơ hỗ trợ: 31 2.2.3.1 Giới thiệu máy vectơ hỗ trợ: 31 2.2.3.2 Mô hình SVM: 31 2.2.3.3 Thuật toán phát công mạng dựa máy vectơ hỗ trợ: 32 2.3 Tập liệu KDD99: 33 TIỂU KẾT CHƯƠNG 34 CHƯƠNG – MÔ HÌNH PHÁT HIỆN XÂM NHẬP MẠNG VÀ KẾT QUẢ THỰC NGHIỆM 35 3.1 Giới thiệu công cụ TensorFlow: 35 3.2 Phương pháp huấn luyện Tensorflow: 36 3.3 Thuật toán lan truyền ngược – back propagation để huấn luyện mạng nơron: 38 3.3.1 Mô tả thuật toán: 38 3.3.2 Hàm kích hoạt để chuyển liệu lớp: 40 3.3.3 Giải thuật gradient descent để tối ưu hóa hàm mát: 42 3.4 Mô hình cài đặt thực nghiệm: 44 3.4.1 Thu thập xử lý tập liệu: .44 3.4.2 Các module chương trình: 45 KẾT LUẬN 49 DANH MỤC TÀI LIỆU THAM KHẢO 51 v DANH MỤC CÁC VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt IDS Intrusion Detection System SNMP giản Simple Network Management Protocol Giao thức quản lý mạng đơn OID Object Identifier Định danh đối tượng NIDS Network Based IDS IDS mạng HIDS Host Based IDS IDS máy tính OSI Open Systems Interconnection Mô hình tham chiếu UDP User Datagram Protocol Giao thức cốt lỗi TCP/IP HTTP HyperText Transfer Protocol Giao thức truyền tải siêu văn FTP File Transfer Protoco Giao thức truyền file API dụng Application Programming Interface Giao diện chương trình ứng Hệ thống phát xâm nhập vi DANH SÁCH CÁC BẢNG Bảng 1.1: Mô tả phương thức SNMP 14 Bảng 2.1: Tập liệu ví dụ thời tiết định chơi Tennis 25 vii DANH SÁCH HÌNH ẢNH Hình 1.1: Các thành phần hệ IDS 10 Hình 1.2: Các thành phần giao thức SNMP 13 Hình 1.3: Minh họa phương thức SNMP 14 Hình 2.1: Minh họa cho kết nối lớp mạng nơ-ron 19 Hình 2.2: Sơ đồ khối mô hình học với người dạy 22 Hình 2.3: Cây định theo giải thuật ID3 26 Hình 2.4: Phân vùng định 27 Hình 2.5: Cây định sau phân vùng 27 Hình 2.6: Phân vùng định sau tính Gain 29 Hình 2.7: Cây định hoàn chỉnh 30 Hình 2.8: Tập luật tạo thành từ định 31 Hình 2.9: Hình ảnh record dataset 34 Hình 3.1: Chương trình tensorflow 36 Hình 3.2: Ma trận điểm ảnh liệu số 37 Hình 3.3: Đơn vị xử lý 37 Hình 3.4: Minh họa thuật toán Gradient descent 43 Hình 3.5: Các module chương trình 46 Hình 3.6: Kết huấn luyện sau 100 bước học 47 Hình 3.7: Dữ liệu trước phân loại 47 Hình 3.8: Dữ liệu sau phân loại dán nhãn 48 Hình 3.9: Kết đánh giá qua TensorBoard 48 MỞ ĐẦU Hiện nay, tình hình an ninh mạng Việt Nam giới ngày trở nên phức tạp Thế giới chứng kiến nhiều website tên tuổi tập đoàn lớn bị hacker công gây hậu lớn JP Morgan, Bank of America, Citigroup, Ebay Chính điều này, vấn đề bảo mật thông tin ngày nhiều người quan tâm tìm hiểu Các nghiên cứu giải pháp bảo mật, an toàn thông tin giới phát triển ngày mạnh mẽ Hàng loạt công ty đưa giải pháp an toàn hệ thống, bảo mật thông tin cung cấp nhiều sản phẩm cho thị trường : số có PIX, ASA Cisco, O2Security, Microsoft [1] Với mục đích đưa phương pháp phát xâm nhập bất hợp pháp vào môi trường mạng nhằm giúp cho liệu bảo mật, vấn đề an ninh mạng đảm bảo, nghiên cứu “kỹ thuật máy học việc phát xâm nhập mạng” vấn đề đặt Trong nước có số nghiên cứu liên quan đến xâm nhập mạng Chẳng hạn, báo cáo luận văn thạc sĩ kỹ thuật máy tính đề tài “Xây dựng hệ thống hỗ trợ giám sát mạng” tác giả Nguyễn Đăng Bảo Phúc – Đại học Đà Nẵng tháng 3/2012 Nội dung luận văn tác giả hướng dẫn cách cài đặt cấu hình chương trình mã nguồn mở Nagios để theo dõi giám sát hệ thống mạng kết hợp Gammu để gửi tin nhắn đến quản trị mạng [2] Báo cáo luận văn thạc sĩ kỹ thuật với đề tài “Hệ thống phát chống xâm nhập mạng(IDS/IPS): Khảo sát lý thuyết & ứng dụng” tác giả Huỳnh Nguyên Chính – Học Viện Công nghệ Bưu Viễn Thông tháng 1/2010 Nội dung luận văn nhằm xây dựng công cụ giám sát mạng tích hợp từ: Snort – Fwsnort – Nagios – Cacti, kết hợp với hệ thống báo động linh hoạt qua: web, audio, email SMS [3] Báo cáo nghiên cứu khoa học đề tài “Xây dựng hệ thống giám sát mạng dựa mã nguồn mở” tác giả nhóm sinh viên Khoa Công nghệ thông tin Đại học Đà 39 điểm bắt đầu phương trình phía Đầu lớp cuối xem đầu mạng: a=am Ta cần tính nốt ma trận độ nhậy cảm sm Để thực điều cần sử dụng áp dụng khác luật xích Quá trình cho ta khái niệm “lan truyền ngược” mô tả mối quan hệ hồi quy độ nhậy cảm sm tính qua độ nhậy cảm sm+1 lớp m + Bây ta viết lại quan hệ hồi quy cho độ nhậy cảm dạng ma trận: Sm= Fm(nm)(Wm+1)TSm+1 Đến thấy độ nhậy cảm lan truyền ngược qua mạng từ lớp cuối trở lớp đầu tiên: SM→ SM-1→ →S1 Bây giờ, ta phát biểu thuật toán giảm theo hướng (gradient descent) dạng ma trận sau, với α hệ số học: Wm(k+1)=Wm(k)-αsm(am-1)T bm(k+1)=bm(k)-asm Thuật toán lan truyền ngược sử dụng để xấp xỉ hàm số học ta có đủ số nơron lớp ẩn Mặc dù vậy, phát biểu chưa cho ta số cụ thể lớp số nơron lớp cần sử dụng Lan truyền ngược thực chất là kỹ thuật toán học sử dụng để tính toán lỗi hệ thống toán học phức tạp, chẳng hạn mạng nơron Nó thuật toán gradient tương tự thuật toán theo gradient theo cách tiếp cận Trí tuệ nhân tạo Các thuật toán ánh xạ hàm vào bề mặt ba chiều, với mặt lồi, lõm Phụ thuộc vào toán cụ thể, điểm lõm (cực tiểu) bề mặt thể hiệu tốt cho đầu [22][23] Việc luyện mạng theo phương pháp học có thầy liên quan đến cách thức đưa mẫu học từ miền toán vào mạng, mẫu phân chia thành tập huấn luyện tập kiểm định Mạng khởi tạo trọng số số ngẫu nhiên, sau đó, trọng số điều chỉnh cho phù hợp với tập huấn luyện Tập kiểm định dùng để xác định xem liệu mạng có thành công việc xác định đầu từ đầu vào mà chưa luyện Mạng đưa vào tập mẫu, mẫu lần, sau “nhìn” tất mẫu, phải thực điều chỉnh trọng số cách tính toán lỗi xảy Quá trình lặp lại mạng luyện đủ Kích thước tập giới 40 hạn số lần lặp, trùng với kích thước tập mẫu học, không cần phải xác định thứ tự đưa mẫu vào cho mạng học cách ngẩu nhiên Giá trị lỗi tính phương pháp trung bình bình phương giá trị kích hoạt; nghĩa tính cách bình phương hiệu giá trị đầu mong muốn đầu thực sự, sau tính trung bình tất nơron đầu Có thể xác định cách điều chỉnh trọng số để giảm lỗi cách tính đạo hàm phần (đạo hàm theo hướng) lỗi Số bước cần thực theo hướng gọi mức độ học (tham số học-learning rate), lớn, giá trị cực trị bị bỏ qua, nhỏ phải nhiều thời gian để đạt tới điểm cực trị [22][23] [24][25] 3.3.2 Hàm kích hoạt để chuyển liệu lớp: Activation function hàm nhận vector đầu vào, sau biến đổi để trả vector đầu Có nhiều hàm activation function tanh, sigmoid function, hay ReLUs Trong thực nghiệm này, ta dùng hàm Hàm hữu dụng vài trường hợp Ví dụ, đạo hàm tanh(x) 1-tanh(x)2, ta cần tính tanh(x) sử dụng tiếp giá trị cho đạo hàm bậc Do ta cần giá trị đầu xác suất khoảng [0, 1] nên ta sử dụng hàm softmax để làm activation function output layer Hàm kích hoạt có vai trò vô quan trọng mạng Trên thực tế, tiến gần nghiên cứu mạng công thức cho f, giúp tăng khả mô mạng đơn giản hoá trình huấn luyện mạng Phần giải thích vai trò hàm kích hoạt giới thiệu số hàm kích hoạt thường dùng Hàm kích hoạt sử dụng để loại bỏ khả tuyến tính hoá mạng Để hiểu rõ điều này, ta thử bỏ hàm f thuật toán Chú ý điều tương đương với việc sử dụng hàm kích hoạt f(x) = x Khi đó, ta nhận thấy kết suy luận mạng ánh xạ tuyến tính liệu vào Thật vậy, ta có: x(L) = W (L−1) · x(L−1) = · · · = W (L−1) · · · W (0)| {z }W·x(0) = W · x(0) (3.3) 41 Trong trường hợp này, việc học tất L ma trận W (l) không cần thiết tập hợp tất hàm mà mạng biểu diễn ánh xạ tuyến tính, biểu diễn thông qua phép nhân ma trận với: W = W (L−1) · W (L−2) · · · W (0) (3.4) Điều làm suy giảm nhiều khả mô hình hóa mạng Để biểu diễn nhiều hàm số hơn, ta phải phi tuyến hoá mạng cách đưa kết phép nhân ma trậnvector W (l−1) · x(l−1) qua hàm không tuyến tính f Một số hàm kích hoạt thường sử dụng là: Hàm sigmoid: f(x) = sigm(x) = 1+exp⁡(𝑥) Hàm tanh: f(x) = tanh(x); Hàm đơn vị tuyến tính đứng: f(x) = max(0,x); (3.5) Hàm đơn vị tuyến tính đứng mát: f(x) = f(x) = 𝑓 (𝑥) = { 𝑥, 𝑥 > , 𝑘𝑥, 𝑥 ≤ với k số chọn trước, thông thường k ≈ 0,01 Hàm maxout: f(x1…,xn) = max1< i < n xi.⁡ Mạng nơ-ron dự đoán dựa forward propagation phép nhân ma trận với activation function để thu kết đầu Nếu input x vector chiều ta tính kết dự đoán 𝑦̂ công thức sau: z1=xW1+b1 a1=tanh(z1) (3.6) z2=a1W2+b2 a2=𝑦̂=softmax(z2) ai=𝑦̂=softmax(zi) Trong đó, zi input layer thứ i, output layer thứ i sau áp dụng activation function w1,b1,w2,b2 thông số (parameters) cần tìm mô hình mạng nơ-ron 42 Huấn luyện để tìm thông số cho mô hình tương đương với việc tìm thông số w1,b1,w2,b2 cho độ lỗi mô hình đạt thấp Ta gọi hàm độ lỗi mô hình loss function Đối với softmax function, ta dùng cross-entropy loss (còn gọi negative log likelihood) Nếu ta có N dòng liệu huấn luyện, C nhóm phân lớp, loss function giá trị dự đoán 𝑦̂ y tính sau: L(y,𝑦̂) = - 𝑁 ∑𝑛∈𝑁 ∑𝑖∈𝐶 𝑦n,ilog𝑦̂n,i (3.7) Ý nghĩa công thức nghĩa là: lấy tổng toàn tập huấn luyện cộng dồn vào hàm loss kết phân lớp sai Độ dị biệt hai giá trị y 𝑦̂ lớn độ lỗi cao Mục tiêu tối thiểu hóa hàm lỗi Ta sử dụng phương pháp gradient descent để tối tiểu hóa hàm lỗi Có hai loại gradient descent, loại với fixed learning rate gọi batch gradient descent, loại lại có learning rate thay đổi theo trình huấn luyện gọi SGD (stochastic gradient descent) hay minibatch gradient descent Gradient descent cần gradient vector có cách lấy đạo hàm loss function theo thông số 𝜕𝐿 ,⁡ 𝜕𝐿 ,⁡ 𝜕𝐿 ,⁡ 𝜕𝐿 𝜕𝑊1 𝜕𝑏1 𝜕𝑊2 𝜕𝑏2 Để tính gradient này, ta sử dụng thuật toán backpropagation (lan truyền ngược) Đây cách hiệu để tính gradient khởi điểm từ output layer 3.3.3 Giải thuật gradient descent để tối ưu hóa hàm mát: Quay lại với kiến thức cực tiểu hóa hàm số dạy trung học phổ thông, hẳn ta quen thuộc với nhận xét giá trị đạo hàm hàm số điểm cực trị cục Vậy điểm cực trị, giá trị nói với ta điều ? Thuật toán Gradient descent 1: function GRADDESC(∇Xf,𝛼) 2: Khởi tạo x0 tùy ý 3: While ||∇xf(x0)|| > 𝜀 4: x0← x0 - 𝛼∇xf(x0) 43 5: Tùy chọn: cập nhật 𝛼 6: end while 7: return x0 8: end funtion Hình 3.4: Minh họa thuật toán Gradient descent Xem xét việc cực tiểu hóa hàm số f(x) Nhiệm vụ ta di từ chuyển giá trị biến thời x0 (điểm xanh) đến giá trị biến điểm cực tiểu f, xopt (điểm đỏ) Dễ thấy x0 < xopt đạo hàm x0 mang dấu âm Ngược lại, đạo hàm điểm x0 > xopt cho dấu dương Trong hai trường hợp, ta thấy cần ngược lại với dấu đạo hàm để đến gần với xopt Cụ thể hơn, f‘(x0) < ta phải tăng x0, f‘(x0) > ta phải giảm x0 Khi input x không số thực mà vector l chiều x = (x0, x1, , xl-1), f(x) trở thành hàm nhiều biến Đạo hàm riêng (partial derivative) f theo chiều xi kí hiệu 𝜕𝑥 𝜕𝑓𝑖 Gradient f theo vector x, ký hiệu ∇xf, vector bao gồm đạo hàm riêng theo chiều x: xf=( 𝜕𝑓 , 𝜕𝑓 𝜕𝑥0 𝜕𝑥1 ,… 𝜕𝑓 𝜕𝑥𝑙−1 ) (3.8) Gradient đóng vai trò dấu đạo hàm trường hợp chiều Hướng ngược lại với gradient vector điểm hướng mà hàm số tăng/giảm nhanh di chuyển đoạn cực nhỏ khỏi điểm Thuật toán gradient descent tìm đến điểm cực tiểu cách dịch chuyển tham số theo hướng ngược lại với vector gradient đoạn nhỏ vừa đủ lần cập nhật Thuật toán mô tả bước gradient descent Tại bước vòng lặp while, thuật toán dịch chuyển x0 lượng phụ thuộc vào gradient f x0, ∇xf(x0) Dấu trừ thể việc di chuyển ngược lại với hướng gradient vector α dùng để kiểm soát độ lớn bước dịch chuyển x0, gọi độ dịch Độ dịch quan trọng ảnh hưởng đến tốc độ hội tụ x0 đến xopt Nếu độ dịch lớn, ta có khả di chuyển vượt khỏi giá trị tối ưu không hội tụ Ngược lại, di chuyển với độ dịch nhỏ, ta phải tốn nhiều bước đến đích, khiến tốc độ hội tụ giảm Có số điểm cần lưu ý cài đặt thuật toán Thứ nhất, 44 dòng 4, phép tính x0 − α∇xf(x0) phép trừ hai vector chiều Thứ hai, phép nhân α∇xf(x0) hiểu tùy theo ngữ cảnh thực tế ta dùng độ dịch cho tất chiều ∇xf(x0) (α số thực), dùng độ dịch khác cho chiều (α vector) Cuối cùng, điều kiện dừng thuật toán ta tìm điểm cực trị cục bộ, tức norm (độ dài vector) gradient vector, kí hiệu ||∇xf(x0)||, xấp xỉ với sai số α Ta minh họa thuật toán gradient descent với ví dụ mô hàm XOR Gradient hàm mát theo w là: wLoss(w) = ∑d D(pd-yd)pd(1-pd)xd (3.9) Sau ta việc áp dụng thuật toán huấn luyện với ∇xf(x) ≡ ∇wLoss(w) để huấn luyện mạng nơ-ron [20][26] Mặc dù phương pháp tối ưu gradient giảm (gradient descent) dùng thuật toán lantruyền ngược chuẩn sử dụng rộng rãi thực tế chứng minh thành công nhiều ứng dụng, tồn nhược điểm: 1) Hội tụ chậm 2) Không đảm bảo hội tụ điểm cực trị toàn cục Rất nhiều nhà nghiên cứu [22][23]đã đưa cải tiến cho phương pháp gradient là: sửa đổi động tham số học hay điều chỉnh độ dốc hàm sigmoid, 3.4 Mô hình cài đặt thực nghiệm: 3.4.1 Thu thập xử lý tập liệu: Tập liệu bao gồm kiểu bình thường, 22 kiểu công Tập liệu gồm 42 thuộc tính, ta chia thành lọai: bao gồm 40 thuộc tính tập dataset thuộc tính lại chia thành label cho dataset Trong label ta chia thành label loại dịch vụ ( dịch vụ ftp), label lại loại công, ta xử lý chuyển từ đinh dạng text sang định dạng số nhị phân label này, cách dùng one hot vector, theo định dạng đầu thuộc tính dataset, có dạng sau : A[xxxxxxxxxx], x đại diện cho thuộc tính dataset có 13 thuộc tính, với thuộc tính, cờ flag x bật (mặc định giá trị x la 0) 45 3.4.2 Các module chương trình: Sau trích xuất xử lý tập liệu, nhiệm vụ xây dựng mô hình phân lớp nhị phân để dự đoán xác mẫu liệu thuộc loại công cho trước số huấn luyện Mô hình mạng nơ-ron với input 42 giá trị thuộc tính tập liệu output 13 giá trị đầu tương úng với 13 loại công mạng tập liệu data cup 99 Ta điều chỉnh tuỳ ý số node hidden layer Tuy nhiên, số node hidden layer nhiều, nghĩa số chiều feature lớn chi phí tính toán tăng lên, thời gian hội tụ hàm gradient descent để tìm thông số cho mô hình lâu Để chọn số node hidden layer nghệ thuật tuỳ theo toán cụ thể mà đặt Chương trình viết ngôn ngữ Python 2.7 hệ điều hành Ubuntu 16.04 kết hợp thư viện nguồn mở Tensorflow version 0.7 python API only sử dụng trình huấn luyện liệu 46 Hình 3.5: Các module chương trình 47 Kết đạt được: Chương trình huấn luyện đạt 93% sau 100 bước học, sử dụng giao diện Tensorboard điều thấy rõ Hình 3.6: Kết huấn luyện sau 100 bước học Trích lọc liệu sau học từ tập liệu mẫu, ta không gán nhãn cho liệu Hình 3.7: Dữ liệu trước phân loại 48 Dữ liệu sau phân loại dán nhãn Hình 3.8: Dữ liệu sau phân loại dán nhãn Mở cổng 6060 trình duyệt, sau vào đường link http://0.0.0.0:6060 kiểm tra TensorBoard Hình 3.9: Kết đánh giá qua TensorBoard 49 KẾT LUẬN Những đóng góp luận văn: Luận văn nghiên toán đề xuất phương pháp phát công mạng thông qua kỹ thuật máy học, cụ thể sau: Luận văn đưa phương pháp xử lý liệu dạng text dạng số để sử dụng khả huấn luyện công cụ tensorflow Sử dụng công cụ nguồn mở tensorflow đáp ứng yêu cầu đặt Bên cạnh đó, ưu điểm tensorflow vấn đề thư viện nguồn mở miễn phí, có nhiều hỗ trợ phát triển từ cộng đồng mạng, nhà nghiên cứu có độ phân lớp xác cao, tỉ lệ loss thấp khả học nhanh tập liệu giúp cho hệ thống phát công phát sớm công mạng giảm thiểu cảnh báo sai Như việc sử dụng tensorflow vào việc phát công mạng hoàn toàn phù hợp Luận văn trình bày cách nhìn nhận tổng quát toán học máy, phân loại toán học máy số thuật toán Nội dung tổng quan tập hợp từ nhiều nguồn tài liệu khác nhau, nước nước Một số vấn đề tồn tại: Độ xác tensorflow nhạy cảm với tham số lớp nơ-ron netwok thuộc tính đầu vào người sử dụng lựa chọn Thời gian huấn luyện kiểm tra kỹ thuật tensorflow cần phải cải thiện để đáp ứng việc xây dựng hệ thống phát xâm nhập mạng có khả xử lý khối lượng liệu ngày lớn Bên cạnh đó, luận văn cần kiểm tra khả học với lượng lớn liệu KD CUP 99, cụ thể tạo nhiều ghi so với triệu bảng ghi có huấn luyện số bảng ghi nhiều tập giao thức ftp có Ngoài ra, luận văn dừng lại mức độ huấn luyện liệu phân loại mẫu liệu thuộc loại để đánh giá khả học công cụ nguồn mở Tensorflow, chưa đưa cảnh báo phát bất thường hệ thống, hi vọng thời gian tới, luận văn cần phát triển thêm tính cảnh báo, đưa nhận xét gói tin bất thường 50 xâm nhập vào hệ thống mạng, để đáp ứng yêu cầu thực tiễn vấn đề an ninh mạng 51 DANH MỤC TÀI LIỆU THAM KHẢO [1] KS.Nguyễn Thanh Sơn (2015), Hệ thống chống xâm nhập, Available https://anninhmang.net/bao-mat/thong-ids/ [2] Nguyễn Đăng Bảo Phúc (2012), Xây dựng hệ thống hỗ trợ giám sát mạng, Đại học Đà Nẵng [3] Huỳnh Nguyên Chính (2010), Hệ thống phát chống xâm nhập mạng(IDS/IPS) :Khảo sát lý thuyết & Phát triển ứng dụng, Nhà xuất Học Viện Công nghệ Bưu Viễn Thông [4] Nhóm sinh viên Khoa Công nghệ thông tin (2010), Xây dựng hệ thống giám sát mạng dựa mã nguồn mở, Đại học Đà Lạt năm 2010 [5] Jayveer Singh1, Manisha J Nene2 (2013), “A Survey on Machine Learning Techniques for Intrusion Detection Systems”, International Journal of Advanced Research in Computer and Communication Engineering, Vol 2, Issue 11 [6] Deepika P Vinchurkar, Alpa Reshamwala (2012) , “A Review of Intrusion Detection System Using Neural Network and Machine Learning Technique”, International Journal of Engineering Science and Innovative Technology (IJESIT), Volume 1, Issue [7] Mohammad Saniee Abadeh, Jafar Habibi(2010), “A Hybridization of Evolutionary Fuzzy Systems andAnt Colony Optimization for IntrusionDetection”, The ISC Int'l Journal of Information Security, 1, pp 33–46 [8] Asghar Ali Shah, Malik Sikander Hayat, Muhammad Daud Awan (2015), “Analysis of Machine Learning Techniques for Intrusion Detection System: A Review”, International Journal of Computer Applications (0975 – 8887) ,Volume 119 – No.3 [9] Website https://vi.wikipedia.org/wiki/FTP truy nhập ngày 30/10/2015 [10] J P Anderson (1980), Computer security threat monitoring andsurveillance, technical Report 98-17, James P Anderson Co., Fort Washing ton, Pennsylvania, USA, April 52 [11] Harrington, D., Presuhn, R and B Wijnen (2002), An Architecture for describing Simple Network Management Protocol (SNMP) Management Frameworks, RFC 3411, STD 62 [12] H C Wu and S H S Huang (2010) Neural networks-based detection of stepping-stone intrusion, Expert Systems with Applications, 37(2): 1431 -1437 [13] J Hertz, A Krogh, and R.G Palmer (1991), Introduction to the Theory of Neural Computation, New York: Addison-Wesley [14] Nelson, M.C and Illingworth, W.T (1991), A Practical Guide to Neural Nets, Reading, MA: Addison-Wesley [15] D.E Rumelhart; G.E Hinton and R.J Williams (1986), Learning internal representations by error propagation, Rumelhart, D.E et al (eds.): Parallel distributed processing: Explorations in the microstructure of cognition (Cambridge MA.: MIT Press), 318-362 [16] S.W Lin, K.C Ying C Y Lee and Z J Lee (2012), An intelligent algorithm with feature selection and decision rules applied to anomaly intrusion detection, Applied Soft Computing, 12(10): 3285-3290 [17] Quinlan JR (1993), C4.5: Programs for machine learning, Morgan Kaufmann Publishers, San Mateo [18] Tran Thi Dung , Trinh Ngoc Minh and Tran Van Lang (2013), “Data Classification for Recognizing the Web Application”, International Journal of Computer Science and Telecommunications Volume 4, Issue 3, March 2013 [19] Website: http://kdd.ics.uci.edu/ truy cập ngày30/10/2015 [20] Website: http://www.tensorflow.org [21] Steve Lawrence and C Lee Giles (2000), Overfitting and Neural Networks: Conjugate Gradient and Backpropagation, International Joint onference on Neural Networks, Como, Italy, July 24–27, 114–119, 2000 [22] Drucker H., Cun Y L (1992), “ Improving Generalization Performance using Double Backpropagation”, IEEE Transactions on neural netwoks, Vol 3, No 6, November [23] Lawrence S., C L Giles, a C Tsoj (1996), What size Neural Netwwork Gives optimal Generalization? Convergence Properties of Backpropagation, Technical 53 Report, Institute for Advanced Computer Studies - University of Maryland College Park, June [24] Oh S.H., Lee Yj.( 1995), “A modified error function to improve the error Back-Propagationalgorithm for Multi-layer perceptrons”, ETRI Journal Vol 17, No 1, April [25] Ooyen A V., Nienhuis B.( 1992), Improving the Convergence of the BackPropagation algorithm, Neural Networks, Vol 5, pp 465-471 [26] UdoSeiffert, Michaelis B.( 2000), “ On the gradient descent in backpropagation and its substitution by a genetic algorithm”, Proceedings of the IASTED International Conference Applied informatics 14-17/02/2000, InnsBruck, Austria [...]... 5 loi bn tin nh sau : 14 Bng 1.1: Mụ t cỏc phng thc SNMP Mi bn tin u cú cha OID cho bit object mang trong nú l gỡ OID trong GetRequest cho bit nú mun ly thụng tin ca object no OID trong GetResponse cho bit nú mang giỏ tr ca object no OID trong SetRequest ch ra nú mun thit lp giỏ tr cho object no OID trong Trap ch ra nú thụng bỏo s kin xy ra i vi object no Hỡnh 1.3: Minh ha cỏc phng thc ca SNMP i vi... cnh cú trng s c biu din bi mt ma trn trng s Kt cu ny gi liờn tng n mụ hỡnh trong b nóo con ngi vi cỏc trong mng cú vai trũ nh cỏc trong nóo ngi, cũn cỏc cnh ni ng vi cỏc ng truyn synapse [12][13] 2.2.1.2 Kin trỳc ca mng kt ni y : Nh ó núi phn gii thiu, cỏc n-ron trong mt mng n-ron kt ni y c phõn chia thnh nhiu lp Mi n-ron trong mt lp nhn giỏ tr tr ra t cỏc n-ron lp lin trc, kt hp cỏc giỏ tr ny thnh... hin xõm nhp vo mng khi cỏc kt ni s dng giao thc cú liờn quan n ftp s l ng dng c khai thỏc trong ti ny CHNG 1- C S Lí THUYT 1.1.Vai trũ ca IDS/IPS trong h thng mng: 1.1.1.Tng quan v bo mt: Bo mt l mt vn ln i vi tt c cỏc mng trong mụi trng doanh nghip ngy nay Hacker v Intruder (k xõm nhp) ó nhiu ln thnh cụng trong vic xõm nhp vo mng cụng ty v em ra ngoi rt nhiu thụng tin giỏ tr ó cú nhiu phng phỏp... thuc lp L(L) khụng truyn d liu ra cho cỏc n-ron khỏc Hỡnh 1 minh ho liờn kt xung quanh mt n-ron mu trong mt mng n-ron Gia hai lp liờn tip Ll v Ll+1 trong mng kt ni y , ta thit lp mt ma trn trng s W (l) vi kớch thc l |Ll+1|ì|Ll| 2 Phn t Wij (l) ca ma trn ny th hin nh hng ca n-ron j trong lp l lờn n-ron i trong lp l + 1 Tp hp cỏc ma trn trng s W = {W (0), W (1), ã ã ã , W (L1)} c gi l tp hp cỏc tham s... mt mng n-ron quan h vi mụi trng trong quỏ trỡnh hc Trong khớa cnh ny, chỳng ta núi ti mt mụ hỡnh hc ỏm ch mt mụ hỡnh ca mụi trng trong ú mng neuron hot ng Cú hai mụ hỡnh hc chớnh Mụ hỡnh hc khụng cú ngi dy liờn quan n quỏ trỡnh t tớch lu t cỏc vớ d khụng c gỏn nhón ca mng n-ron Hc vi mt ngi dy Hỡnh 2.5 cho ta mt s khi minh ho mụ hỡnh hc thng c gi l hc cú giỏm sỏt ny Trong s cỏc thut ng mang tớnh khỏi... cỏc vớ d trong tp ny, ng thi hy vng trong tng lai, nú cng s phõn loi ỳng cỏc vớ d khụng 26 nm trong tp ny Mt cõy quyt nh vớ d m gii thut ID3 cú th quy np c l: (Ngun: tailieu.vn ) Hỡnh 2.3: Cõy quyt nh theo gii thut ID3 ID3 xõy dng cõy quyt nh (cõy Q) theo cỏch t trờn xung Lu ý rng i vi bt k thuc tớnh no, chỳng ta cng cú th phõn vựng tp hp cỏc vớ d rốn luyn thnh nhng tp con tỏch ri, m ú mi vớ d trong. .. tng cng: trong ú, thut toỏn hc mt chớnh sỏch hnh ng tựy theo cỏc quan sỏt v th gii Mi hnh ng u cú tỏc ng ti mụi trng, v mụi trng cung cp thụng tin phn hi hng dn cho thut toỏn ca quỏ trỡnh hc 17 Chuyn i: tng t hc cú giỏm sỏt nhng khụng xõy dng hm mt cỏch rừ rng Thay vỡ th, c gng oỏn kt qu mi da vo cỏc d liu hun luyn, kt qu hun luyn, v d liu th nghim cú sn trong quỏ trỡnh hun luyn Hc cỏch hc: trong ú... ú vi mt s lng tham s va phi m mỏy tớnh cú kh nng tớnh toỏn ra c trong thi gian hp lý Tu vo ng dng c th, mng n-ron cú th mang cỏc kin trỳc khỏc nhau, cho phộp thụng tin gia cỏc n-ron trong mng c lan truyn theo nhiu phng phỏp v nh hng thớch hp kin trỳc ny, mng 18 n-ron gm nhiu lp n-ron(n-ron layer) c sp xp theo th t tuyn tớnh Cỏc n-ron trong cựng mt lp khụng c kt ni vi nhau Gia hai lp liờn tip c kt... no trong h thng Ngi dựng trờn ton th gii thụng qua Internet u cú th thc hin cỏc cuc tn cụng nh vy Cỏc h thng bo v vnh ai l tuyn bo v u tiờn chng li external threat Bng cỏch gia tng h thng bo v vnh ai, ta cú th gim tỏc ng ca kiu tn cụng ny xung ti thiu Mi e da t bờn ngoi l mi e da m cỏc cụng ty thng phi b nhiu tin v thi gian ngn nga d) Mi e da t bờn trong( Internal threat): Cỏc cỏch tn cụng t bờn trong. .. threat): Cỏc cỏch tn cụng t bờn trong c thc hin t mt khu vc c tin cy trong mng Mi e da ny khú phũng chng hn vỡ cỏc nhõn viờn cú th truy cp mng v d liu bớ mt ca cụng ty Khi mt k xõm nhp vt qua v bc bo mt cng cỏp ca mng, mi chuyn cũn li thng l rt n gin 6 ụi khi cỏc cuc tn cụng dng structured vo h thng c thc hin vi s giỳp ca ngi bờn trong h thng Trong trng hp ú, k tn cụng tr thnh structured internal threat, ... Kha TI K THUT HC MY TRONG VIC PHT HIN XM NHP MNG Chuyờn ngnh: H thng Thụng tin Mó s: 60.48.01.04 NGI HNG DN KHOA HC: PGS.TS TRN VN LNG THNH PH H CH MINH - 2016 i LI CAM OAN Trong quỏ trỡnh thc... ton trỏch nhim./ TP HCM, ngy 27 thỏng 06 nm 2016 HC VIấN THC HIN LUN VN Lờ Minh Kha ii LI CM N Trong quỏ trỡnh thc hin lun ny, tụi xin gi li cm n chõn thnh n PGS.TS Trn Vn Lng, Vin phú Vin c... d liu c bo mt, an ninh mng c m bo, nghiờn cu v k thut mỏy hc vic phỏt hin xõm nhp mng l mt t Trong nc cng cú mt s nghiờn cu liờn quan n xõm nhp mng Chng hn, bỏo cỏo lun thc s k thut mỏy tớnh

Ngày đăng: 17/12/2016, 23:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w