Lựa chọn đặc trưng từ payload

Một phần của tài liệu (Luận văn thạc sĩ) nâng cao hiệu quả phát hiện mã độc sử dụng các kỹ thuật học máy001 (Trang 43 - 44)

Theo bài báo số [4] thì trong học máy có thể nhận thấy rằng khi số lượng đặc trưng lớn sẽ gặp khó khăn trong việc xử lý cũng như chất lượng mô hình. Các véc tơ đặc trưng trong phương pháp này có số chiều rất lớn lên đến gần hai triệu chiều, tương ứng với số điểm dữ liệu rất lớn vì vậy nếu thực hiện lưu trữ và tính toán trực tiếp trên dữ liệu có số chiều lớn như vậy sẽ gặp khó khăn cả về việc lưu trữ, tài nguyên và tốc độ tính toán. Do đó giảm số chiều dữ liệu là bước quan trọng trong nhiều bài toán học máy, trong phần tiếp theo bên dưới tôi sẽ giới thiệu khái niệm về giảm số chiều và lựa chọn đặc trưng Giảm số chiều (demension reduction) là việc đi tìm một hàm số, hàm số này lấy đầu vào là một điểm dữ liệu ban đầu với D rất lớn và tạo ra một điểm dữ liệu mới có số chiều K < D. Có một số thuật toán thực hiện giảm chiều dữ liệu như thuật toán phân tích thành phần chính (PCA), phân tích phân biệt tuyến tính (LDA) ... nhưng trong phạm vi của luận văn này tôi chọn thuật toán PCA. Cách đơn giản nhất để giảm chiều dữ liệu từ D về K<D là chỉ giữ lại K phần tử quan trọng nhất. Tuy nhiên, việc làm này chắc chắn chưa phải tốt nhất vì chúng ta chưa biết xác định thành phần nào là quan trọng hơn. Hoặc trong trường hợp xấu nhất, lượng thông tin mà mỗi thành phần mang là như nhau, bỏ đi thành phần nào cũng dẫn đến việc mất một lượng thông tin lớn. Tuy nhiên, nếu chúng ta có thể biểu diễn các vector dữ liệu ban đầu trong một hệ cơ sở mới mà trong hệ cơ sở mới đó, tầm quan trọng giữa các thành phần là khác nhau rõ rệt, thì chúng ta có thể bỏ qua những thành phần ít quan trọng nhất.

Lấy một ví dụ về việc có hai camera đặt dùng để chụp một con người, một camera đặt phía trước người và một camera đặt trên đầu. Rõ ràng là hình ảnh thu được từ camera đặt phía trước người mang nhiều thông tin hơn so với hình ảnh nhìn từ phía trên đầu. Vì vậy, bức ảnh chụp từ phía trên đầu có thể được bỏ qua mà không có quá nhiều thông tin về hình dáng của người đó bị mất. PCA chính là phương pháp đi tìm một hệ cơ sở mới sao cho thông tin

của dữ liệu chủ yếu tập trung ở một vài toạ độ, phần còn lại chỉ mang một lượng nhỏ thông tin và để cho đơn giản trong tính toán, PCA sẽ tìm một hệ trực chuẩn để làm cơ sở mới.

Một phần của tài liệu (Luận văn thạc sĩ) nâng cao hiệu quả phát hiện mã độc sử dụng các kỹ thuật học máy001 (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(50 trang)