Nghiên cứu thuật toán máy học ứng dụng trong phát hiện bất thường (đồ án full)

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CƠNG NGHỆ THƠNG TIN NGHIÊN CỨU CÁC THUẬT TỐN MÁY HỌC ỨNG DỤNG TRONG PHÁT HIỆN BẤT THƯỜNG GVHD: TRẦN ĐẮC TỐT SVTH: NGUYỄN THỊ THU HÀ MSSV: 2033180 ĐINH TRƯƠNG THANH TUYỀN MSSV: 2033180137 TP HỒ CHÍ MINH, 2021 PHIẾU GIAO NHIỆM VỤ Trang đính kèm phiếu giao nhiệm vụ GVHD BẢN NHẬN XÉT CỦA GVHD Trang đính kèm nhận xét GVHD LỜI CAM ĐOAN Chúng cam đoan báo cáo đồ án chúng tơi thực hướng dẫn Thầy Trần Đắc Tốt Các số liệu kết phân tích báo cáo trung thực, không chép từ đề tài nghiên cứu khoa học TP.HCM, tháng 06 năm 2021 SINH VIÊN THỰC HIỆN (Kí ghi rõ họ tên) NGUYỄN THỊ THU HÀ ĐINH TRƯƠNG THANH TUYỀN TÓM TẮT ĐỒ ÁN Học máy (Machine learning) kỹ thuật cho phép giải vấn để định dựa liệu kinh nghiệm Với học máy, chương trình máy tính sử dụng kinh nghiệm, quan sát, liệu khứ để cải thiện công việc tương lai thay thực theo quy tắc lập trình sẵn Chính thế, việc ứng dụng Học máy phát bất thường, đặc biệt phát bất thường, phù hợp cần thiết bối cảnh Chính vậy, nhóm em chọn đề tài “Nghiên cứu thuật toán máy học ứng dụng phát bất thường”, tập trung nghiên cứu ứng dụng học máy phát xâm nhập mạng bất thường MỤC LỤC DANH MỤC HÌNH ẢNH MỞ ĐẦU Đặt vấn đề Hiện công nghiệp 4.0 ngày phát triển, việc chuyển đổi số tất phương diện từ kinh doanh, buôn bán nhỏ lẻ, đến giáo dục, trị… tiện lợi khả tăng doanh số, giải vấn đề nhanh chóng mà mang lại, song song với mối lo vấn đề an tồn thơng tin quan tâm, việc phát triển nhanh chóng mạng Internet tạo nhiều hacker muốn lợi dụng lỗ hổng không gian mạng, kĩ thuật công ngày tinh vi, để đánh cắp thơng tin người dùng, bí mật thương mại… mục đích tống tiền hay phá hoại… ảnh hưởng đến công việc, doanh thu đời sống người bị cơng… Có nhiều phương pháp đước áp dụng để đảm bảo việc an toàn hệ thống mạng : hệ thống tường lửa (firewall), hệ thống xác thực, hệ thống bảo mật thiết bị đầu cuối(endpoint)… Trong phát bất thường hệ thống quan trọng khơng thể thiếu việc đảm bảo an tồn mạng an tồn thơng tin Có nhiều phương pháp kỹ thuật để triển khai hệ thống, phát bất thường dựa hệ thống nhật ký nhiều nhà nghiện cứu quan tâm phát triển Mục tiêu đề tài Nghiên cứu phương pháp học máy; Nghiên cứu số cách thức phát xâm nhập trái phép Từ ứng dụng phương pháp học máy phát bất thường nhật ký Cuối xây dựng tài liệu hệ thống cách sử dụng dành cho người dùng Đối tượng nghiên cứu Đối tượng nghiên cứu: Các phương pháp học máy; phương pháp phát xâm nhập trái phép đặc biệt phát bất thường nhật ký (deeplog); luồng liệu mạng Phạm vi nghiên cứu: Phát bất thường nhật ký (deeplog) Bố cục đồ án gồm có phần Chương 1: Tổng quan Chương 2: Phát chẩn đoán bất thường từ Nhật ký hệ thống (Deeplog) Chương 3: Đánh giá Phạm vi nghiên cứu(Khảo sát): Đọc, phân tích, tổng hợp tài liệu phương phương pháp học máy Đọc, phân tích, tổng hợp tài liệu cách thức phát xâm nhập trái phép cách tiếp cận phương pháp học máy luồng liệu CHƯƠNG TỔNG QUAN 1.1 Phát bất thường 1.1.1 Định Nghĩa Phát bất thường hoạt động theo dõi, phân tích giám sát qt tồn hệ thống để phát mối đe dọa như: gia tăng đột ngột lượng truy cập mức bình thường so với phạm vi liệu khứ 1.1.2 Chức -Theo dõi nguồn liệu thiết bị, nhật kí, máy chủ, mạng -Dự đốn xác định mối đe dọa -Theo dõi báo cáo hành vi bất thường nguồn không thuộc radar - Khai thác người dùng lừa đảo -Phân tích thơng tin máy chủ, người dung… 1.2 Hệ thống nhật ký 1.2.1 Định nghĩa Hệ thống nhật ký (logs) nơi ghi lại tất hoạt động, trạng thái kiện hệ thống 1.2.2 Chức Hệ thống nhật kí giải vấn đề lỗi hiệu suất, mối đe dọa đến an tồn hệ thống, phân tích ngun nhân gốc rễ cảnh báo đến người quản trị hệ thống 1.2.3 Phát bất thường với hệ thống nhật ký Việc sử dụng hệ thống nhật ký phát bất thường quan tâm… Các phương pháp chia thành loại: - dựa PCA tiếp cận qua đếm thông báo nhật ký dựa khai thác bất biến phương pháp để nắm bắt mẫu đồng xuất nhật ký khác khóa phương pháp dựa quy trình làm việc để xác định dị thường thực thi luồng logic chương trình 1.3 Máy học 1.3.1 Định nghĩa Máy học nhánh trí tuệ nhân tạo khoa học máy tính sử dụng liệu thuật toán để bắt chước cách người học, cải thiện độ xác 1.3.2 Chức Học máy thành phần quan trọng lĩnh vực khoa học liệu phát triển Thông qua 10 Nếu xếp chồng lên nhiều lớp sử dụng trạng thái ẩn lớp trước làm đầu vào khối LSTM tương ứng lớp tiếp theo, trở thành mạng nơ-ron LSTM sâu, phần cuối Hình Để đơn giản, bỏ qua lớp đầu vào lớp đầu xây dựng sơ đồ mã hóa-giải mã tiêu chuẩn Lớp đầu vào mã hóa n khóa nhật ký có từ K dạng vectơ nóng Nghĩa là, vectơ n chiều xây dựng cho khóa log , cho với j, i khác Lớp đầu chuyển trạng thái ẩn € nal thành hàm phân phối xác suất cách sử dụng hàm đa thức chuẩn để biểu diễn 2.5.2 Giá trị tham số bất thường hiệu xuất Chuỗi khóa nhật ký hữu ích để phát bất thường đường dẫn thực thi Tuy nhiên, số điểm bất thường không hiển thị dạng độ lệch so với đường dẫn thực thi bình thường mà giá trị tham số khơng Các vectơ giá trị tham số (đối với khóa nhật ký) tạo thành chuỗi vectơ giá trị tham số chuỗi từ khóa nhật ký khác tạo thành khơng gian đặc trưng đa chiều quan trọng để giám sát hiệu suất phát bất thường DeepLog train mô hình bất thường giá trị tham số cách xem chuỗi vectơ giá trị tham số (đối với khóa nhật ký) chuỗi thời gian riêng biệt.Trong Bảng Chuỗi thời gian chuỗi vector tham số k2 là: Do đó, vấn đề rút gọn thành phát bất thường từ liệu chuỗi thời gian nhiều biến thể Có thể áp dụng lại cách tiếp cận dựa LSTM Sử dụng mạng LSTM tương tự Hình để lập mơ hình liệu chuỗi thời gian nhiều biến thể Lưu ý mạng LSTM riêng biệt xây dựng cho chuỗi vectơ giá trị tham số giá trị khóa nhật ký riêng biệt Input Đầu vào bước thời gian vectơ giá trị tham số từ dấu thời gian Output Đầu vectơ giá trị thực làm dự đoán cho vectơ giá trị tham số tiếp theo, dựa chuỗi vectơ giá trị tham số từ lịch sử Chức mục tiêu để train Đối với liệu chuỗi thời gian nhiều biến thể, trình train cố gắng điều chỉnh trọng số mơ hình LSTM để giảm thiểu sai số dự đoán vectơ giá trị tham số quan sát Do đó, suy hao bình phương trung bình sử dụng để giảm thiểu sai số trình cài đặt Phát bất thường Phân vùng liệu train thành hai tập con: model training set validation set Đối với vectơ tập validation set, áp dụng mơ hình tạo tập model training set để tính toán MSE hành động trước (sử dụng chuỗi vectơ từ trước tập xác nhận) Tại bước thời gian, sai số vectơ dự đoán vectơ thực tế nhóm xác nhận mơ hình hóa dạng phân phối Gaussian Khi triển khai, sai số dự đoán vectơ giá trị phục vụ nằm khoảng tin cậy cấp cao phân phối Gaussian trên, vectơ giá trị tham số mục nhập nhật ký đến coi bình thường coi bất thường Vì giá trị tham số thơng báo nhật ký ghi lại số trạng thái hệ 21 thống quan trọng, nên phương pháp phát nhiều dạng bất thường hiệu suất Ví dụ: bất thường hiệu suất phản ánh "chậm lại" 2.5.3 Cập nhật trực tuyến mơ hình phát bất thường Dữ liệu train không bao gồm tất chức thực thi bình thường có Hành vi hệ thống thay đổi theo thời gian Nên DeepLog cần cập nhật bước trọng số mô hình LSTM để kết hợp thích ứng với mẫu nhật ký DeepLog cung cấp chế để người dùng cung cấp phản hồi Điều cho phép DeepLog sử dụng giá trị false positives để điều chỉnh trọng lượng 2.5.3.1 Ví dụ Giả sử h=3 =>chuỗi lịch sử gần là: , deeplog dự đốn khóa nhật ký với khả xác suất 1, giá trị khóa nhật ký , gắn nhãn bất thường Nếu người dùng phản hồi false positives => input-output dùng để cập nhật trọng số xuất với xác suất cập nhật Lưu ý: DeepLog không cần phải train lại từ đầu Sau q trình train ban đầu, mơ hình DeepLog tồn dạng vectơ trọng lượng đa chiều sev-eral Quá trình cập nhật cung cấp liệu train điều chỉnh trọng số để giảm thiểu sai số đầu mơ hình giá trị quan sát thực tế từ trường hợp false positives 2.6 Workflow Construction from Multi-task Execution 2.6.1 Tách mục nhật ký khỏi nhiều tác vụ Tách mục nhật ký cho tác vụ khác tệp nhật ký, sau xây dựng mơ hình dịng cơng việc cho tác vụ dựa chuỗi khóa nhật ký Cho thấy, đầu vào vấn đề tồn chuỗi khóa nhật ký phân tích cú pháp từ tệp nhật ký thô đầu tập hợp mơ hình quy trình làm việc, mơ hình cho tác vụ xác định Ví dụ: Đối với phiên VM, vịng đời bao gồm tạo máy ảo, dừng máy ảo, xóa máy ảo thứ khác Các tác vụ không chồng chéo lên nhau, tức VM dừng bắt đầu sau q trình tạo VM hồn tất Tuy nhiên, phím nhật ký xuất tác vụ khác 2.6.2 Sử dụng mơ hình phát bất thường deeplog 2.6.2.1 Tách khóa nhật kí Input: chuỗi khóa nhật ký Output: xác suất tất giá trị khóa nhật ký có Trong đó: - h: độ dài - w; chuỗi - k: khóa nhật ký 22 Nếu w theo sau giá trị k cụ thể trình train  Ngược lại  Ví dụ: Giả sử chuỗi “25 → 54”, dự output “{57: 1.00}”  “25 → 54 → 57” từ nhiệm vụ Hoặc dãy w theo sau giá trị khóa log từ nhóm khóa khác nhau; xác suất khóa xuất tổng Xét chuỗi nhật ký “54 → 57” giả sử phân phối xác suất dự đoán “{18: 0.8, 56: 0.2}” => bước “18” “56” Ví dụ: Nếu hai tác vụ chia sẻ phân đoạn công việc “54 → 57”, tác vụ có cụm từ “18 → 54 → 57 → 18” thực thi 80% thời gian tác vụ thứ hai có mẫu “31 → 54 → 57 → 56” thực 20% thời gian Điều dẫn đến mơ hình dự đốn “{18: 0.8, 56: 0.2}” dựa chuỗi “54 → 57” Chúng ta giải vấn đề cách huấn luyện mơ hình có độ dài chuỗi lịch sử khác nhau, ví dụ: sử dụng h = thay h = trường hợp Trong trình xây dựng quy trình làm việc, sử dụng độ dài trình tự nhật ký dẫn đến dự đốn chắn hơn, ví dụ: ví dụ trên, chuỗi “18 → 54 → 57” dẫn đến dự đoán {18: 1.00} chuỗi “31 → 54 → 57” dẫn đến dự đốn {56: 1.00} Hình 2.4Các ví dụ việc sử dụng LSTM để phân tách nhiệm vụ xây dựng quy trình làm việc Nếu loại trừ chuỗi nhỏ phân đoạn chia sẻ từ nhiệm vụ khác (việc tăng độ dài chuỗi để huấn luyện dự đốn khơng dẫn đến dự đốn chắn hơn), mục tiêu tìm liệu đa -đầu dự đốn khóa gây đồng thời tác vụ bắt đầu tác vụ khác Gọi điểm phân kỳ Quan xát Hình 2.4a, điểm phân kỳ gây đồng thời nhiệm vụ, mơ hình chung khóa có xác suất cao 23 kết dự đoán xuất độ chắn (được đo xác suất số lượng khóa hơn) cho dự đốn sau tăng lên, khóa cho số chủ đề đồng thời xuất Dự đoán cuối chắn sau tất khóa từ chuỗi đồng thời đưa vào chuỗi lịch sử Mặt khác, điểm phân kỳ bắt đầu nhiệm vụ mới, Hình 4b, nhật ký dự đốn (“24” “26” ví dụ) không xuất Nếu kết hợp khóa nhật ký vào chuỗi lịch sử, dự đoán dự đoán xác định khóa nhật ký (ví dụ: “24 → 60”, “26 → 37”) 2.6.2.2 Xây dựng mơ hình quy trình làm việc Khi phân biệt điểm diver gence gây đồng thời (nhiều luồng) nhiệm vụ tác vụ mới, dễ dàng xây dựng mơ hình dịng cơng việc minh họa Hình 4a Hình 4b Cần phải bổ sung để xác định vòng lặp Việc phát vòng lặp thực đơn giản Một vịng lặp ln hiển thị mơ hình dịng cơng việc ban đầu dạng chuỗi chưa cuộn; ví dụ hình 2.4c Trong chuỗi quy trình cơng việc ban đầu “26 → 37 → 39 → 40 → 39 → 40”, xác định đoạn lặp lại dạng thực thi vòng lặp (39 → 40 ví dụ này) 2.6.3 Sử dụng phương pháp phân nhóm dựa mật độ 2.6.3.1 Tách khóa nhật ký Phân cụm khóa nhật ký dựa mẫu đồng xuất tách khóa thành tác vụ khác tỷ lệ đồng xuất thấp Xây dựng ma trận đồng xuất Bảng 2, phần tử (i, j) đại diện cho xác suất xuất hai khóa log khoảng cách d chuỗi đầu vào Cụ thể, đặt f () tần số ki chuỗi đầu vào fd (, kj) tần số cặp (, ) xuất khoảng cách xa chuỗi đầu vào Xác định , cho thấy tầm quan trọng … … … … Bảng 2: Ma trận đồng xuất khoảng cách d Ví dụ, d =1, có nghĩa lần xuất phải có bên 24 cạnh Lưu ý f () mẫu số chia tỷ lệ d đếm tần số đồng xuất phạm vi d, khóa ki đếm d lần Chia tỷ lệ f () theo hệ số d đảm bảo với i Với ma trận đồng xuất cho giá trị khoảng cách d xây dựng, xuất nhiệm vụ TASK = (, , ) Quy trình phân cụm hoạt động sau: Với d = 1, kiểm tra xem có (i, j) lớn ngưỡng τ (giả sử τ = 0.9) hay khơng, đó, nối , với để tạo thành = [, ] Kiểm tra đệ quy xem mở rộng hay khơng.Ví dụ, tồn ∈ K cho (, )> τ, kiểm tra thêm (, )> τ, tức là, có xác suất đồng xuất lớn khoảng cách Nếu có, = [, , ], khơng thêm = [, ] sang TASK Quy trình tiếp tục mở rộng nhiệm vụ T TASK 2.6.4 Sử dụng mơ hình quy trình làm việc 2.6.4.1 Đặt tham số cho mơ hình deeplog DeepLog yêu cầu số tham số đầu vào, cụ thể là, cần độ dài cửa sổ trình tự lịch sử h (để đào tạo phát hiện) số lượng khóa g nhật ký hàng đầu phân phối xác suất đầu dự đoán chức coi bình thường Việc đặt giá trị thích hợp cho h g tùy thuộc vào vấn đề Nói cách bình thường, giá trị h lớn làm tăng khả dự đốn xác nhiều thơng tin lịch sử sử dụng LSTM, đạt đến điểm mà khóa có từ xa lịch sử khơng góp phần vào việc dự đốn khóa xuất Tại thời điểm này, việc tiếp tục tăng h khơng làm ảnh hưởng đến độ xác dự đốn LSTM, LSTM biết có lịch sử gần chuỗi dài quan trọng, bỏ qua phần dài Tuy nhiên, giá trị h lớn có tác động đến hiệu suất Cần nhiều tính tốn cho train dự đoán, điều làm chậm hiệu suất DeepLog Mặt khác, giá trị g quy định cân true positive (tỷ lệ phát bất thường) false positive (tỷ lệ báo động sai) Mô hình dịng cơng việc cung cấp hướng dẫn để đặt giá trị thích hợp cho h g Theo trực giác, h cần vừa đủ lớn để kết hợp phụ thuộc cần thiết để đưa dự đốn tốt, đặt h độ dài quy trình làm việc ngắn Số đường dẫn thực thi có đại diện cho giá trị tốt cho g, đó, đặt g số nhánh tối đa tất điểm phân kỳ từ quy trình làm việc tất tác vụ 2.6.4.2 Sử dụng quy trình làm việc để chẩn đoán bất thường phát Bất DeepLog phát điều bất thường, mô hình quy trình làm việc sử dụng để giúp chẩn đoán bất thường hiểu cách thức lý xảy Hình cho thấy ví dụ Sử dụng chuỗi lịch sử [26, 37, 38], dự đoán hàng đầu từ DeepLog khóa nhật ký 39 (giả sử д = 1), nhiên khóa nhật ký thực xuất 67, điều bất thường 25 Hình 2.5Chẩn đốn bất thường quy trình làm việc Với trợ giúp mơ hình dịng cơng việc cho tác vụ này, người dùng dễ dàng xác định điểm thực thi dịng cơng việc tương ứng phát thêm lỗi xảy sau “Phiên bị hủy thành công” trước “Xóa tệp phiên *”, có nghĩa lỗi xảy trình dọn dẹp sau phá hủy máy ảo 26 CHƯƠNG THỰC NGHIỆM VÀ KÉT LUẬN 3.1 Thực nghiệm 3.1.1 Quá trình chuẩn bị Trong q trình thực nghiệm cần có cơng cụ phần mềm hỗ trợ: - Bộ công cụ logparser có yêu cầu sau: - Python 2.7 - Scipy : tập hợp thuật toán số hộp công cụ dành riêng cho miền, bao gồm xử lý tín hiệu, tối ưu hóa, thống kê … - Numpy: gói để tính tốn số Nó xác định loại mảng ma trận số hoạt động chúng - - - Scikit-lear: tập hợp thuật tốn cơng cụ để học máy - Pandas: cung cấp cấu trúc liệu hiệu suất cao, dễ sử dụng Một số cơng cụ có yêu cầu phụ thuộc bổ sung: - SLCT: gcc 4.8.5 - LogCluster: perl 5.22 - MoLFI: python 3.6, deap 1.2.2 - POP: pyspark Chạy deeplog cần yêu cầu: - Python >=3.6 - Pytorch >=1.1.0 Ngồi cơng cụ phần mềm cịn có: keras, tensorflow, anaconda … Bộ liệu dataset: HDFS 3.1.2 Quá trình thực nghiệm Logparser: 27 Sử dụng python 2.7.12 Cài đặt pip Pip trình quản lý thư viện python, cho phép cài đặt, cài đặt lại, gỡ cài đặt cách dễ dàng: pip Cài đặt pip thành công Kết kiểm tra version cài đặt cho thấy sử dụng pip version 8.1.1 Cài đặt git Git thư viện python sử dụng để tương tác với kho lưu trữ cách dễ dàng, việc triển khai đối tượng tối ưu hóa để xử lý số lượng lớn đối tượng liệu lớn, việc sử dụng cấu trúc cấp thấp phân luồng của: git Cài đặt git thành công Kết kiểm tra version cài dadwjt cho thấy sử dụng git version 2.7.4 Cài đặt docker Docker tảng mở để phát triển, vận chuyển chạy ứng dụng, cho phép tách ứng dụng khỏi sở hạ tầng, phân phối phần mềm cách nhanh chóng Chúng tơi sử dung docker thử nghiệm dễ dàng tái tạo kết điểm chuẩn, dễ dàng chạy images docker tạo Cài đặt docker thành công Kết cho thấy sử dụng docker version 18.09.7 Kiểm tra trạng thái docker Sử dụng dòng lệnh: systemctl status docker 28 Cho thấy thông số tại, thời gian kết nối, trạng thái kết nối tại, PID… - Như hình kết nối thành công Xác minh Docker CE cài đặt Ta chạy dòng lệnh: docker run hello-world 29 Kiểm tra list images Thấy thông tin images - REPOSITORY: kho chứa - TAG - ID IMAGES - CREATED: thời gian tạo - SIZE: kích thước Buitl Docker Images Chạy vùng chứa gán tên cho vùng chứa Update Cài đặt bzip2 Cài đặt ngôn ngữ Perl Tạo thư mục anaconda tải từ đường dẫn https://repo.anaconda.com/archive/Anaconda2-5.2.0Linux-86_64.sh Việc sử dụng ananconda hữu ích q trình thực nghiệm tích hợp sẵn modules cần có : numpy, pandas, scipy, scikit-lear, sử dung cài đặt dễ dàng, thay cài đặt nhiều bước tảng python truyền thống 30 Login docker Chạy logparser Tạo folder logparser chạy logparser_py2 Clone logparser từ github Thực chạy chương trình Drain_demo Drain thuật tốn đại diện cho phân tích cú pháp nhật ký Nó phân tích nhật ký cách trực tuyến kịp thời Để đẩy nhanh q trình phân tích cú pháp, Drain sử dụng phân tích cú pháp độ sâu cố định, mã hóa quy tắc thiết kế đặc biệt để phân tích cú pháp Deeplog File HDFS_2k.log_templates.csv, sau trình logparser 31 File HDFS_2k.log_structured.csv sau trình logparser Đưa log qua trình regex để lọc lại EventId sau đưa qua deeplog thực q trình train ta kết hình: 3.1.3 Đánh giá kết Sau trình train kết thúc deeplog số thơng số hình phần thực 32 nghiệm Mỗi thơng số có ý nghĩa q trình dự đốn sau: False Positive (FP): gọi dương tính giả thể phần trăm dị thường ảo dị thường gửi giúp phát bất thường tập liệu sau deeplog train.Tỉ lệ cao khả phát bất thường xác False Negative (FN): gọi âm tính giả True Positive (TP): dduowcj gọi dương tính thật cho biết tỷ lệ phần trăm dị thường thực số tất dị thường phát Precision: gọi độ xác giúp chuẩn đốn khả dự đốn sai số deeplog Được tính cơng thức Độ xác (precision) = Recall: sử dụng đo tỷ lệ phần trăm bất thường liệu thiết lập (giả sử biết thật bản) phát Được tính cơng thức Recall = F-measure: trung bình hài hịa Precision Recall Được tính cơng thức F-measure = Elapsed_time: khoảng thời gian dự đốn hồn tất Kết trình ghi lại bảng sau: False Positive (FP) 743 False Negative (FN) 1144 Precision 95,480% Recall 93,206% F-measure 94,329% Với khoảng thời gian dự đốn hồn tất : 313,68521547317505 33 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning https://www.cs.utah.edu/~lifeifei/papers/deeplog.pdf https://www.coursera.org/specializations/deep-learning Franois Chollet 2015 keras https://github.com/fchollet/keras (2015) [Online; accessed 08-May-2017] Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin 2003 A ´ neural probabilistic language model Journal of machine learning research 3, Feb (2003), 1137–1155 Tomas Mikolov, Martin Karaat, Lukas Burget, Jan Cernock ´ y, and Sanjeev Khu- ` danpur 2010 Recurrent neural network based language model In Interspeech, Vol Martin Sundermeyer, Ralf Schluter, and Hermann Ney 2012 LSTM Neural ă Networks for Language Modeling In Interspeech 194–197 Shilin He, Jieming Zhu, Pinjia He, and Michael R Lyu 2016 Experience Report: System Log Analysis for Anomaly Detection In Proc International Symposium on Soware Reliability Engineering (ISSRE) 207–218 Qiang Fu, Jian-Guang Lou, Yi Wang, and Jiang Li 2009 Execution anomaly detection in distributed systems through unstructured log analysis In Proc IEEE International Conference on Data Mining (ICDM) 149–158 Christopher Olah 2015 Understanding LSTM Networks (2015) hp://colah github.io/posts/2015-08-Understanding-LSTMs [Online; accessed 16-May2017] Alina Oprea, Zhou Li, Ting-Fang Yen, Sang H Chin, and Sumayah Alrwais 2015 Detection of early-stage enterprise infection by mining large-scale log data In Proc International Conference on Dependable Systems and Networks (DSN) 45–56 Sudip Roy, Arnd Christian Konig, Igor Dvorkin, and Manish Kumar 2015 Per- ă faugur: Robust diagnostics for performance anomalies in cloud services In Proc IEEE International Conference on Data Engineering (ICDE) IEEE, 1167–1178 Xiao Yu, Pallavi Joshi, Jianwu Xu, Guoliang Jin, Hui Zhang, and Guofei Jiang 2016.CloudSeer: Workflow Monitoring of Cloud Infrastructures via Interleaved Logs In Proc ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS) 489–502 Robert Ricci, Eric Eide, and the CloudLab Team 2014 Introducing CloudLab: Scientific Infrastructure for Advancing Cloud Architectures and Applications USENIX ;login: 39, (Dec 2014) 34 [14] https://www.usenix.org/publications/login/ dec14/ricci Qingwei Lin, Hongyu Zhang, Jian-Guang Lou, Yu Zhang, and Xuewei Chen 2016 Log clustering based problem identiFIcation for online service systems In Proc International Conference on Software Engineering (ICSE ) 102–111 [15] Jian-Guang Lou, Qiang Fu, Shengqi Yang, Jiang Li, and Bin Wu 2010 Mining program workflow from interleaved traces In Proc ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD) [16] VAST Challenge 2011 2011 MC2 - Computer Networking Operations (2011).http://hcil2.cs.umd.edu/newvarepository/VAST%20Challenge %202011/ challenges/MC2%20-%20Computer%20Networking %20Operations/ [Online; ac-cessed 08-May-2017] [17] Franois Chollet 2015 keras https://github.com/fchollet/keras (2015) [Online; accessed 08-May-2017] [18] Mart´ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, and others 2016 TensorFlow: A system for large-scale machine learning In Proc USENIX Symposium on Operating Systems Design and Implementation (OSDI) 264–285 PHỤ LỤC 35 ... việc ứng dụng Học máy phát bất thường, đặc biệt phát bất thường, phù hợp cần thiết bối cảnh Chính vậy, nhóm em chọn đề tài ? ?Nghiên cứu thuật toán máy học ứng dụng phát bất thường? ??, tập trung nghiên. .. pháp kỹ thuật để triển khai hệ thống, phát bất thường dựa hệ thống nhật ký nhiều nhà nghiện cứu quan tâm phát triển Mục tiêu đề tài Nghiên cứu phương pháp học máy; Nghiên cứu số cách thức phát xâm... phép Từ ứng dụng phương pháp học máy phát bất thường nhật ký Cuối xây dựng tài liệu hệ thống cách sử dụng dành cho người dùng Đối tượng nghiên cứu Đối tượng nghiên cứu: Các phương pháp học máy;

Tiêu đề	Nghiên Cứu Thuật Toán Máy Học Ứng Dụng Trong Phát Hiện Bất Thường
Tác giả	Nguyễn Thị Thu Hà, Đinh Trương Thanh Tuyền
Người hướng dẫn	GVHD: Trần Đắc Tốt
Trường học	Trường Đại Học Công Nghiệp Thực Phẩm Tp. Hcm
Chuyên ngành	Khoa Công Nghệ Thông Tin
Thể loại	đồ án
Năm xuất bản	2021
Thành phố	Tp Hồ Chí Minh

Định dạng
Số trang	35
Dung lượng	1,97 MB
File đính kèm	04_TranVanTho.rar (5 MB)

Tài liệu tham khảo	Loại	Chi tiết
[1] DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning. https://www.cs.utah.edu/~lifeifei/papers/deeplog.pdf	Link
[3] Franois Chollet. 2015. keras. https://github.com/fchollet/keras. (2015).[Online; accessed 08-May-2017]	Link
[5] Tomas Mikolov, Martin Karaat, Lukas Burget, Jan Cernock ´ y, and Sanjeev Khu- ` danpur. 2010. Recurrent neural network based language model.. In Interspeech, Vol. 2. 3	Khác
[6] Martin Sundermeyer, Ralf Schluter, and Hermann Ney. 2012. LSTM Neural ¨ Networks for Language Modeling.. In Interspeech. 194–197	Khác
[7] Shilin He, Jieming Zhu, Pinjia He, and Michael R Lyu. 2016. Experience Report: System Log Analysis for Anomaly Detection. In Proc. International Symposium on Soware Reliability Engineering (ISSRE). 207–218	Khác
[8] Qiang Fu, Jian-Guang Lou, Yi Wang, and Jiang Li. 2009. Execution anomaly detection in distributed systems through unstructured log analysis. In Proc.IEEE International Conference on Data Mining (ICDM). 149–158	Khác
[9] Christopher Olah. 2015. Understanding LSTM Networks. (2015). hp://colah.github.io/posts/2015-08-Understanding-LSTMs [Online; accessed 16-May- 2017]	Khác
[11] Sudip Roy, Arnd Christian Konig, Igor Dvorkin, and Manish Kumar. 2015.Per- ¨ faugur: Robust diagnostics for performance anomalies in cloud services.In Proc. IEEE International Conference on Data Engineering (ICDE). IEEE, 1167–1178	Khác
[12] Xiao Yu, Pallavi Joshi, Jianwu Xu, Guoliang Jin, Hui Zhang, and Guofei Jiang. 2016.CloudSeer: Workflow Monitoring of Cloud Infrastructures via Interleaved Logs. In Proc. ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS).489–502	Khác
[13] Robert Ricci, Eric Eide, and the CloudLab Team. 2014. Introducing CloudLab: Scientific Infrastructure for Advancing Cloud Architectures and Applications. USENIX ;login: 39, 6 (Dec. 2014)	Khác