Mơ phỏng thuật tốn SVM về Virus Máy tính

3.5.1. Mơ tả cơ sở dữ liệu

Để cĩ được cơ sở dữ liệu cho kiểm nghiệm này, tơi thu thập cơ sở dữ liệu trên 45 máy tính được truy xuất từ máy tính quản lý, bộ dữ liệu này do tơi truy xuất lấy từ ngày 29 đến ngày 31 tháng 1 năm 2019 trên phần mềm Symantec. Bộ dữ liệu tơi xây dựng với múc đích là dùng để xây dựng tập dữ liệu đào tạo nên tơi đã cĩ điều chỉnh so với bản gốc để phục vụ cho quá trình nghiên cứu. Tơi đã xây dựng và tạo mới dữ liệu với tập tin được đặt là trainingVirusComputer.csv.

Nội dung chi tiết của tệp tin được mơ tả như sau: Bộ dữ liệu mà tơi xử lý gồm cĩ 6 thuộc tính và cĩ 1000 trường hợp. Các thuộc tính gồm Event Time, Severity, Host Name, Category, Event Source, và Event Description.

Như chúng ta đã hiểu virus được xuất hiện ở mọi nơi, mỗi khi mà chúng ta sử dụng máy tính thì nơi đĩ sớm hay muộn sẽ xuất hiện các dạng virus tấn cơng đến máy tính của chúng ta. Chính vì điều này cũng dẫn tới nhiều khả năng khơng thể cĩ một phần mềm nào chu tồn để bảo mất tối đa cho máy tính của chúng ta, chưa kể chúng ta cũng phải cập nhật và thưởng xuyên kiểm tra, theo dõi khi đĩ thì phần mềm của chúng ta sẽ mang lại hiệu quả cao.

Như tơi đã nĩi bộ dữ liệu này do tơi thu thập trên hệ thống quản lý phần mềm Symantec cho nên nĩ cúng chưa hồn tồn là xác thực cao, vì để mơ phỏng nhiều hơn thì tơi cần thu thập các phần mềm khác nữa, chính ví vậy ở đây tơi chỉ vận dụng đề dùng tập này đào tạo, nếu cĩ thời gian tơi sẽ thu thập thêm từ nhiều nguồn khác, từ đĩ tơi sẽ tối ưu hơn cho mơ phỏng này của tơi. Tuy nhiên mục địch trong báo cáo này tơi muốn cho bạn đọc hiểu rằng SVM sẽ hỗ trợ phân lớp đối với tập dữ liệu này của tơi, cũng cho thấy SVM được thực hiện trong lĩnh vực này khá là phong phú và đa dạng.

3.5.2. Kết quả thực nghiệm cho quá trình

Trong báo cáo này tơi chỉ mơ phỏng hai thuật tốn NaiveBayes và SVM trên cùng một cơng cụ với tập dữ liệu đào tạo mà tơi tạo ra ở trên.

Tơi sữ dụng Use training set để kiểm thử cho tập dữ liệu của tơi, đối với bộ dữ liệu này tơi cần phải thực hiện tiền xử lý trước, tuy nhiên vì cũng khá dễ nên tơi khơng trình bài chi tiết ở đây mà tơi chuyển qua phần training và cho ra kết quả

Page 29 thực nghiệm của hai thuật tốn trên, kết quả thực nghiệm cho chúng ta thấy như sau:

Thuật tốn NaiveBayes SVM Độ chính xác 69.7 % 76.8 %

Độ sai phạm 30.3 % 23.2 % Bảng 3.4 Bảng kết quả kiểm nghiệm theo Virus máy tính Nhìn chung thì chúng ta thấy thuật tốn SVM luơn tốt hơn thuật tốn

NaiveBayes khơng những ở bộ dữ liệu này mà cịn ở lĩnh vực thư rác nêu ở trên. Để hiểu hơn chúng ta cĩ thể tham khảo độ nhập nhằn của hai thuật tốn trên được mơ phỏng như sau:

Hình 3.5 Ma trận nhầm lẫn của thuật tốn NaiveBayes

Page 30 Nhìn chung thì mỗi thuật tốn đề cĩ nhưng ưu điểm và nhực điểm riêng, điều này cũng dễ thấy khi chúng ta nhìn vào ma trận nhập nhằn của hai thuật tốn ở trên.

Lưu ý rằng đâu là bộ dữ liệu do tơi thu thập nên chưa đủ để xây dựng một bộ dữ liệu tối ưu cho kỹ thuật, để làm được điều này bạn đọc cĩ thể thu thập thêm các nguồn khác.

Mơ phỏng thuật tốn SVM về Virus Máy tính

Kết quả thực nghiệm cho quá trình

Mơ phỏng thuật tốn SVM về quan điểm