Phương pháp hoc máy, học sâu

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Mô hình phát hiện xâm nhập dựa trên kỹ thuật học sâu và thích ứng miền (Trang 20 - 23)

CƠ SỞ LÝ THUYET

Chương 2. Chương 2. CƠSỞ LÝ THUYẾT

2.2. Phương pháp hoc máy, học sâu

2.2.1 Học máy

Học máy hay máy học (machine learning) là một nhánh trong lĩnh vực trí tuệ

nhân tạo cho phép các ứng dụng, phần mềm tự học hỏi dựa trên dữ liệu đưa vào, trở nên chính xác hơn trong việc dự đoán kết quả mà không cần được lập trình

rõ ràng để làm như vậy. Học máy đem lại nhiều ứng dụng mà đã phổ biến hiện nay như các hệ thống dé xuất (hệ thống đề xuất quảng cáo dựa trên hành vi của người dùng), hệ thống phát hiện, phân loại bat thường, xâm nhập, phần mềm độc hại, hệ thống lọc thư rác.

Cách phổ biến nhất phân nhóm các thuật toán học máy là dựa trên phương thức học cũng như loại dữ liệu được đưa vào huấn luyện mô hình.

Đối với phân loại dựa trên phương thức học, có bón cách tiếp cận cơ bản của các

mô hình học máy

¢ Học giám sat (Supervised Learning): Trong phương pháp học này, dữ liệu

đưa vào học đã được gán nhãn trước, tức là thuật toán sẽ dự đoán đầu ra của một dữ liệu mới đưa vào và so sánh đầu ra với nhãn sẵn có của dữ liệu

đó (tức là các cặp (dữ liệu, nhãn)). Mục đích của việc học này nhằm tìm mối tương quan của đầu vào và đầu ra để có thể dự đoán được nhãn của một

dur liệu chưa được học.

Sử dụng toán học có thể mô tả như sau: chúng ra có một tập hợp biến đầu vào X =X1,X¿,... ,Xw và tap hợp nhãn tương ứng Y= V1,Y2,... ,YN,

trong đó xi, yÍ là các vector, và các cặp dữ liệu (xj, Yi) EX x YVi=1,2,... ,N

là các dữ liệu huấn luyện. Mô hình cần tao ra được ánh xạ ƒ :

Ýi=ƒ(xi),Vi=1,2,....,N (2.1)

sao cho Yi ¥ Yi, va Yi càng gần y¡ thì mô hình càng chính xác và khi có một

dữ liệu mới Xo, chúng ta có thể tim được nhãn tương ứng của nó Yo =f (Xo) Một bài toán học có giám sát mà có số lượng hữu hạn rời rạc các nhãn đầu

ra còn gọi là bài toán phân loại (classification), còn các nhãn là rời rạc vô

hạn là bài toán héi quy (regression)

11

Chương 2. CƠSỞ LÝ THUYẾT

¢ Hoc không giám sát (Unsupervised Learning): Trong phương pháp học này,

dữ liệu đưa vào đào tạo không được gắn nhãn, chúng ta không biết câu trả lời chính xác cho mỗi dir liệu đầu vào. Thuật toán học qua các dữ liệu trong tập để tìm kiếm bắt kỳ kết nói có ý nghĩa nhằm để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (đimension reduction) để thuận tiện trong việc lưu trữ và tính toán.

* Học bán giám sát (Semi-Supervised Learning): Phương pháp này kết hợp

đặt tính của cả hai phương pháp học có và không có giám sát, lượng lớn dữ

liệu huấn luyện đưa vào mô hình nhưng chỉ một phần trong chúng được gan nhãn. Dữ liệu huấn luyện có nhẫn có thể cung cấp một góc nhìn cho mô hình học máy, nhưng mô hình có thể tự do khám phá dw liệu và phát triển

sự hiểu biết của riêng mình về tập dữ liệu. Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh (trong bài toán nhận dạng và phân loại khuôn mặt trong ảnh) và phần lớn các bức ảnh được thu thập bởi một nền tảng mạng xã hội, sau đó đưa vào huấn luyện mô hình để tự động nhận dạng và gan nhãn 1 người trong bức ảnh mới. Vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chỉ phí cao, nên phương pháp học có thể ứng dụng nhiều tuy nhiên có thể đánh đổi bởi độ chính xác, hiệu năng phân loại. Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh

y học chẳng hạn). Ngược lại, dur liệu chưa có nhãn có thể được thu thập với chỉ phí thấp từ internet.

¢ Hoc tăng cường (Reinforcement Learning): Phương pháp hoc dùng để dạy

mô hình hoàn thành một quy trình gồm nhiều bước trong đó có các quy tắc được xác định rõ ràng, có một thuật toán để hoàn thành một nhiệm vụ và cung cấp cho nó những dau hiệu tích cực hoặc tiêu cực khi nó tìm ra cách hoàn thành một nhiệm vụ, giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất khi hoàn thành nhiệm vụ. Reinforcement learning chủ yêu được áp dụng vào Lý Thuyết Trò Chơi, các thuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất.

Chương 2. CƠSỞ LÝ THUYẾT

2.2.2 Hoc sau

Học sâu là một phân nhánh của các phương pháp học máy, trong đó phan nền tảng của học sâu là mô hình mạng thần kinh nhân tạo. Mạng thần kinh nhân tạo (Neural networks) là hệ thống lấy cảm hứng từ bộ não con người và cách mạng mạng thần kinh xử lý thông tin và tính toán [3]. Một mạng thần kinh truyền thẳng

cơ bản bao gồm các nơ-ron nhân tạo chứa các hàm tính toán toán học và được tổ chức thành các lớp. Các lớp nằm giữa lớp đầu vào và lớp đầu ra được gọi là các lớp ẩn. Mỗi lớp ẩn nhận các thông số từ lớp trước đó, tính toán, chuyển đổi trên

nó và truyền thông số đến lớp kế tiếp. Cứ như vậy, trong quá trình huấn luyện

mô hình, các nơ-ron học hỏi và tối ưu các trọng số của mô hình để giảm thiểu tối

đa các giá trị của hàm mat mát tính toán dựa trên giá trị đầu ra của mạng nơ-ron

và giá trị thực tế. Kỹ thuật học sâu (Deep Learning) là một nhánh con của các phương pháp học máy, trong đó dựa trên việc sử dụng mạng thần kinh sâu với nhiều hơn một lớp ẩn.

2.2.3. Mạng autoencoder

Autoencoder là một loại mang trong phương pháp DL, là mạng thần kinh nhân tạo có khả năng học hiệu quả các biểu diễn của dữ liệu đầu vào mà không cần nhãn, nói cách khác, giả sử từ một hình ảnh có thể tái tạo ra một bức ảnh có liên quan chặt chẽ với bức ảnh đầu vào đó. Vì vậy đầu vào của mạng autoencoder không có nhãn, và mạng autoencoder được huấn luyện theo phương pháp học

không giám sát.

Autoencoder bao gồm 3 phần chính

¢ Encoder: Mô hình này có nhiệm vụ nén dữ liệu đầu vào thành một biểu diễn được mã hóa (coding), có số chiều nhỏ hơn so với dữ liệu đầu vào. Mạng encoder tạo ra các biểu diễn mã hóa sao cho chỉ tập trung vào các đặc trưng quan trọng nhất, tùy vào bài toán cụ thể. Bởi vì số chiều của dạng mã hóa nhỏ hơn dữ liệu gốc nên Autoencoder có thể dùng trong các bài toán giảm chiều dữ liệu hoặc trích xuất đặc trưng. Tùy theo yêu cầu của bài toán, mô hình encoder có thể bao gồm tập hợp các lớp tích chập CNN (Convolutional Neural Network), và các lớp tổng hợp Polling; hoặc sử dụng các lớp kết nối nối đầy đủ (Fully Connected)

13

Chương 2. CƠSỞ LÝ THUYẾT

© Bottleneck: Chính là đầu ra của mô hình encoder, do encoder mã hóa tối

đa thông tin của dữ liệu đầu vào nên mang đặc trưng quan trọng nhất

của dữ liệu vào. Việc Bottleneck có kích thước nhỏ hơn và mang các thông

tin đặc trưng giúp ngăn cản mạng autoencoder ghi nhớ quá nhiều, giảm trường hợp quá khớp di liệu (overfitting), tuy nhiên, nếu kích thước quá nhỏ, mạng sẽ không học được nhiều cũng như gây khó khăn cho việc giải

mã ở khối Decoder

® Decoder: Mô hình này giúp giúp mạng giải nén các đặc trưng được lưu tại

Bottleneck và tái cầu trúc lại dữ liệu, mô hình học dựa trên việc so sánh đầu

ra của Decoder với đầu vào của Encoder. Mô hình Decoder bao gồm các lớp Upsampling, hay Fully Connected tùy thuộc bài toán để đưa đặc trưng nén

về dạng dữ liệu đầu vào ban đầu.

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Mô hình phát hiện xâm nhập dựa trên kỹ thuật học sâu và thích ứng miền (Trang 20 - 23)

Tải bản đầy đủ (PDF)

(95 trang)