1. Trang chủ
  2. » Luận Văn - Báo Cáo

Big data về an toàn mạng máy tính

43 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Big Data Ứng Dụng Trong Giám Sát An Toàn Thông Tin
Tác giả Nhóm 11
Trường học Học Viện Kỹ Thuật Mật Mã
Thể loại Nghiên Cứu
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 43
Dung lượng 3,56 MB

Nội dung

THU NHẬP VÀ PHÂN TÍCH TTAN MẠNG Nhóm 11 NGHIÊN CỨU, TÌM HIỂU BIG DATA ỨNG DỰNG TRONG GIÁM SÁT ATTT Hà Nội 52022 MỤC LỤC MỤC LỤC 2 DANH MỤC HÌNH ẢNH 4 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT 5 MỞ ĐẦU 1 CHƯƠNG 1 TỔNG QUAN VỀ CÔNG NGHỆ BIG DATA 3 1 1 Giới thiệu về công nghệ Big data 3 1 1 1 Khái niệm về Bigdata 3 1 1 2 Đặc trưng 5V của Big Data 4 1 1 3 Vai trò của Big data 8 1 2 Một số ứng dụng của bigdata 8 1 3 Ứng dụng của bigdata trong an toàn thông ti.

BAN CƠ YẾU CHÍNH PHỦ HỌC VIỆN KỸ THUẬT MẬT MÃ THU NHẬP VÀ PHÂN TÍCH TTAN MẠNG Nhóm 11 NGHIÊN CỨU, TÌM HIỂU BIG DATA ỨNG DỰNG TRONG GIÁM SÁT ATTT Hà Nội - 5/2022 MỤC LỤC DANH MỤC HÌNH ẢNH Hình 1.1 Sự đa dạng Bigdata .3 Hình 1.2 Khối lượng liệu Big Data .5 Hình 1.3 Sự tăng trưởng liệu Hình 1.4 Tốc độ liệu Big Data Hình 1.5 Sự đa dạng liệu Big Data .6 Hình 1.6 Dữ liệu cấu trúc liệu không cấu trúc Hình 1.7 Hình ảnh thể độ chắn liệu .7 Hình 1.8 Mơ hình ứng dụng Big data y tế Hình 1.9 Mơ hình ứng dụng Big data ngân hang .10 Hình 1.10 Mơ hình ứng dụng Bigdata viễn thông 11 Hình 1.11 Mơ hình cơng từ chối dịch vụ xử dụng mạng Botnet 12 Hình 1.12 Mơ hình ứng dụng Big data phát botnet 13 Hình 1.13 Mơ hinhg ứng dụng Bigdata phân tích mã độc 14 Hình 1.14 Mơ hình ứng dụng Big data phát xâm nhập mạng 15 Hình 1.15 Kỹ thuật công APT 16 Hình 2.1 Chu trình giám sát an toàn mạng 20 Hình 2.2 Kiến trúc HDFS 23 Hình 2.3 Cơng nghệ xử lý dịng Big Data 24 Hình 2.4 Giao diện weka .25 Hình 2.5 Kiến trúc Apache Hadoop 26 Hình 2.6 Mơ hình quản lý Spark 28 Hình 2.7 Mơ hình hệ thống phát xâm nhập 29 Hình 2.8 Quy trinh học máy 31 Hình 3.1 Mối quan hệ trí tuệ nhân tạo, Machine Learning Deep Learning 32 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng việt APT Advanced Persistent Threat Mối đe dọa liên tục nâng cao IPS Internet Protocols Bộ giao thức liên mạng IT Information Technology Công nghệ thông tin Structured Query Language Ngơn ngữ truy vấn mang tính SQL cấu trúc IP Internet Protocol Giao thức kết nối Internet DNS Domain Name System Hệ thống tên miền SIEM Security Information Event Giám sát an toàn mạng Managemet DDOS Distributed Denial Of Service Tấn công từ chối dịch vụ phân tán DOS Denial of Service attack Tấn công từ chối dịch vụ NIDS Network-based Intrusion Detection System Hệ thống phát xâm nhập cho mạng MỞ ĐẦU Các nguy An tồn thơng tin (ATTT) giới nói chung Việt Nam nói riêng liên tục gia tăng phát triển số lượng mức độ nguy hiểm công Theo ghi nhận số công ty bảo mật giới, vài năm trở lại Việt Nam ln coi điểm nóng mã độc xâm nhập mạng trái phép Hàng loạt công xâm nhập mạng trái phép diễn với quy mô mức độ nguy hiểm vào hệ thống công nghệ thông tin doanh nghiệp, tổ chức phủ… gây ATTT ảnh hưởng nghiêm trọng đến uy tín doanh nghiệp, tổ chức phủ Hiện nay, quan nhà nước, tổ chức phủ có nhiều biện pháp tích cực việc phịng chống phát xâm nhập mạng Rất nhiều biện pháp ứng dụng triển khai thực tế Tuy nhiên, kỹ thuật công xâm nhập ngày biến đổi tinh vi phức tạp, dẫn đến số hệ thống đảm bảo ATTT không phát ngăn chặn kịp thời cơng Chính vậy, để sớm phát ngăn chặn công xâm nhập mạng yêu cầu hệ thống đảm bảo ATTT phải liên tục cập nhật thu thập thông tin công từ nhiều nơi khác Để làm điều đó, số hãng bảo mật giới tiến hành nghiên cứu ứng dụng công nghệ liệu lớn (Bigdata) nhằm theo dõi phát sớm công xâm nhập mạng Việc ứng dụng cơng nghệ Bigdata địi hỏi nhà nghiên cứu cần phải có thuật tốn để xử lý liệu có cơng cụ để mơ hình hóa q trình phát xâm nhập mạng từ liệu thu thập Có nhiều cơng cụ cơng nghệ ứng dụng q trình mơ hình hóa phát xâm nhập mạng Một số công cụ Apache Spark; Weka, deepej… Để ứng dụng cơng cụ địi hỏi nhiều quy trình phức tạp cần thực từ việc tiền xử lý liệu đến việc sử dụng thuật toán… Đây quy trình phức tạp với nhiều pha kỹ thuật cần thực Chính vậy, để áp dụng cơng nghệ Bigdata cho q trình phát xâm nhập mạng q trình nghiên cứu, tìm hiểu ứng dụng công cụ kỹ thuật môi trường Bigdata Tổng quan vấn đề cần nghiên cứu Công nghệ Bigdata công nghệ liệu lớn bao gồm nhiều công cụ kỹ thuật để xử lý luồng liệu lớn thời gian thực Một số công cụ Bigdata kể đến như: Apache Spark; Weka, deepej; Hadoop; MapReduce…Bài báo cáo sâu vào việc nghiên cứu tìm hiểu để ứng dụng số công cụ công nghệ Bigdata để giám sát ATTT Để báo cáo đạt kết trên, cần nghiên cứu làm rõ nội dung:  Nghiên cứu tìm hiểu tổng quan cơng nghệ Bigdata;  Tìm hiểu hệ khai phá tri thức dựa big data  Nghiên cứu tìm hiểu ứng dụng big data hệ chuyên gia phân tích giám sát an tồn thơng tin  Nghiên cứu ứng dụng Big data phân tích liệu an tồn thơng tin kết hợp thuật tốn máy học để đưa định giám sát an tồn thơng tin Mục đích nghiên cứu:  Nghiên cứu tìm hiểu tổng quan cơng nghệ Bigdata;  Tìm hiểu hệ khai phá tri thức dựa big data  Nghiên cứu tìm hiểu ứng dụng big data hệ chun gia phân tích giám sát an tồn thông tin  Nghiên cứu ứng dụng Big data phân tích liệu an tồn thơng tin kết hợp thuật toán máy học để đưa định giám sát an tồn thơng tin Đối tượng phạm vi nghiên cứu : • Đối tượng nghiên cứu: Cơng cụ cơng nghệ Bigdata kỹ thuật phân tích giám sát an ninh mạng Phương pháp nghiên cứu: - Dựa sở lý thuyết công cụ công nghệ Bigdata kỹ thuật giám sát an ninh mạng, kết hợp với thuật toán học máy để đưa định giám sát an ninh mạng CHƯƠNG 1: TỔNG QUAN VỀ CÔNG NGHỆ BIG DATA 1.1 Giới thiệu công nghệ Big data 1.1.1 Khái niệm Bigdata Big Data thuật ngữ dùng để tập hợp liệu lớn phức tạp đến mức cơng cụ hay ứng dụng xử lí liệu truyền thống không giải Big Data chứa nhiều thơng tin q trích xuất thành công, thông tin giúp cho việc kinh doanh, nghiên cứu khoa học, dự đoán dịch bệnh phát sinh việc xác định điều kiện giao thơng theo thời gian thực Do đó, liệu phải thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo cách khác so với bình thường Có nhiều khái niệm định nghĩa khác Bigdata Dựa tiêu trí khác mà tổ chức doanh nghiệp đưa khái niệm Theo wikipedia: Big Data thuật ngữ liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu Theo Gartner: Big Data nguồn thơng tin có đặc điểm chung khối lượng lớn, tốc độ nhanh liệu định dạng nhiều hình thức khác nhau, muốn khai thác địi hỏi phải có hình thức xử lý để đưa định, khám phá tối ưu hóa quy trình Theo SAS: Big Data thuật ngữ dùng để miêu tả khối lượng lớn liệu – lệu có cấu trúc liệu khơng có cấu trúc Nhưng độ to lớn liệu khơng phải điều quan trọng Việc tổ chức làm gì, sử dụng liệu điều quan trọng Big Data phân tích để đưa thơng tin cần thiết qua dẫn đến định hướng tốt kinh doanh [11] Hình 1.1 Sự đa dạng Hình Hình của1.1 1.1 BigSự Sự data đa đa dạng dạng Bigdata Big data Nguồn hình thành liệu Big Data: Big data hiểu tập hợp liệu từ nhiều nguồn khác Trên đây, luận văn trình bày số nguồn liệu hình thành Big data [3], [16]: Dữ liệu hành (phát sinh từ chương trình tổ chức, phủ hay phi phủ) Ví dụ, hồ sơ y tế điện tử bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng • Dữ liệu từ hoạt động thương mại (phát sinh từ giao dịch hai thực thể) Ví dụ, giao dịch thẻ tín dụng, giao dịch mạng, bao gồm từ thiết bị di động • Dữ liệu từ thiết bị cảm biến thiết bị chụp hình ảnh vệ tinh, cảm biến đường, cảm biến khí hậu • Dữ liệu từ thiết bị theo dõi, ví dụ theo dõi liệu từ điện thoại di động, GPS • Dữ liệu từ hành vi, ví dụ tìm kiếm trực tuyến sản phẩm, dịch vụ hay thông tin khác, đọc trang mạng trực tuyến • Dữ liệu từ thông tin ý kiến, quan điểm cá nhân, tổ chức, phương tiện thông tin xã hội 1.1.2 Đặc trưng 5V Big Data 1.1.2.1 Khối lượng liệu (Volume): Kích thước Big Data đo khối lượng Dung lượng Big Data tăng lên cách mạnh mẽ theo ngày Lợi ích từ việc xử lý khối lượng lớn liệu điểm thu hút Big Data, nhiên đặt nhiều khó khăn khối lượng liệu ngày phát triển ứng dụng kiến trúc xây dựng để hỗ trợ liệu cần phải đánh giá lại thường xuyên [3] Hình 1.2 Khối lượng liệu Big Data Hình 1.2 thể khối lượng liệu khổng lồ mà Big Data thu thập được: tỉ dân giới có tỉ người sở hữu điện thoại, hay theo ước tính có khoảng 2.5 tỉ tỉ GigaBytes (108 Bytes) liệu tạo ngày Đây đặc điểm tiêu biểu liệu lớn, khối lượng liệu lớn Hình 1.3 Sự tăng trưởng liệu 1.1.2.2 Tốc độ (Velocity) Tốc độ hiểu theo khía cạnh: • Khối lượng liệu gia tăng nhanh (mỗi giây có tới 72.9 triệu yêu cầu truy cập tìm kiếm web bán hàng Amazon) • Xử lý liệu nhanh mức thời gian thực (real-time), có nghĩa liệu xử lý tức thời sau chúng phát sinh (tính đến tên miền/ địa IP,…Như vậy, với hỗ trợ Big Data, hệ thống giám sát an ninh mạng giải hạn chế tính tốn, phát bất thường hệ thống dẫn đến cảnh báo quan trọng vụ xâm nhập Big Data giải phần lớn địi hỏi tính thời gian thực cao, lưu lượng liệu cần xử lí lớn (cả khứ tại), thuật toán phức tạp nhằm phát bất thường 2.2.2.1 Công nghệ xử lý liệu Big data Các công nghệ sử dụng Dữ liệu lớn chia thành hai nhóm: xử lý hàng loạt (Patch processing) xử lý dòng (Stream processing) Xử lý hàng loạt (Path processing): Xử lý hàng loạt dùng để xử lý liệu có khối lượng lớn Dữ liệu thu thập, lưu trữ xử lý hàng loạt Hadoop công nghệ phổ biến cho xử lý hàng loạt Nền tảng Hadoop cung cấp cho nhà phát triển thành phần hệ thống tệp phân tán Hadoop (Hadoop Distributed File System - HDFS) mơ hình lập trình Map Reduce, cho phép xử lý liệu phân tán song song, giúp giải vấn đề thường xuyên xảy việc xử lý liệu quy mơ lớn Nó cung cấp truy cập hiệu suất cao đến liệu cụm Hadoop Nó thường triển khai phần cứng chi phí thấp Các máy chủ chi phí thấp dễ xảy lỗi phần cứng Vì lý mà HDFS xây dựng để có khả chịu lỗi cao Tốc độ truyền liệu nodes HDFS cao, dẫn đến giảm thiểu nguy lỗi HDFS tạo mảnh nhỏ liệu lớn phân tán nodes khác Nó chép miếng liệu nhỏ nhiều lần nhiều nodes khác Do node có liệu lỗi, hệ thống tự động dùng liệu từ node khác tiếp tực xử lí Đây tính quan trọng HDFS Hình 2.2 Kiến trúc HDFS Kiến trúc HDFS master/slave Một HDFS cluster gồm mộ NameNode NameNode master server quản lý hệ thống tập tin điều chỉnh truy cập đến tập tin khác Bổ sung cho NameNode có nhiều DataNodes Ln có DataNode cho máy chủ liệu Trong HDFS, tập tin lớn chia thành nhiều khối khối lưu tập DataNodes Tác vụ NameNode mở, đóng, đổi tên tập tin, thư mục điều chỉnh truy cập đến hệ thống tập tin, tác vụ DataNode đọc ghi vào hệ thống tập tin DataNode làm nhiệm vụ tạo, xóa, nhân rộng liệu dựa dẫn từ NameNode Một NameNode kết nối trực tiếp đến DataNode, đơn giản trả giá trị từ chức gọi DataNode Mỗi DataNode trì server socket mở để mã khách hàng DataNode khác đọc ghi liệu Các NameNode trì quản lý thay đổi không gian tên hệ thống tập tin Nhiều DataNode chứa khối liệu trường hợp DataNode gặp thảm họa, toàn xử lý tiếp tục, DataNode khác thay vai trò để xử lý khối liệu cụ thể node bị lỗi Hệ thống cung cấp tính chịu lỗi cao để đối phó với thảm họa cung cấp tính sẵn sàng cao Xử lý dịng (Stream processing): Hình 2.3 Cơng nghệ xử lý dịng Big Data Xử lý dòng trọng đến tốc độ xử lý liệu, liệu phát sinh truyền tải liên tục, xử lý khoảng thời gian nhỏ đáp ứng tính thời gian thực liệu Xử lý dịng chưa có cơng nghệ chủ đạo nào, lĩnh vực nghiên cứu phát triển Một mơ hình xử lý dịng Complex Event Processing, coi dịng thơng tin thơng báo kiện (kiểu mẫu) cần tổng hợp kết hợp để tạo kiện cấp cao 2.2.2.1 Một số công cụ hỗ trợ Big data phát xâm nhập mạng WEKA: Weka công cụ phần mềm khai phá liệu viết Java, nhà khoa học thuộc Đại học Waitako, New Zealand phát triển đóng góp nhiều nhà nghiên cứu giới [10] Weka phần mềm mã nguồn mở, cung cấp công cụ trực quan sinh động cho người tìm hiểu khai phá liệu Weka cịn tích hợp giải thuật vào mơi trường chạy hầu hết hệ điều hành Weka cung cấp nhiều giải thuật khác với nhiều phương thức cho trình xử lý để ước lượng kết sơ đồ cho liệu Weka có nhiều cơng cụ đa dạng để tiền xử lý liệu, giải thuật học máy, khai phá liệu phương pháp đánh giá, cung cấp giao diện đồ họa ( GUI) môi trường để so sánh giải thuật học máy khai phá liệu.Weka đọc liệu từ file arff ( Attribute-Relation File Format) csv ( Comma-Separated Values) Hình 2.4 Giao diện weka Những tính Weka: Explorer: sử dụng menu lựa chọn, dùng cho liệu vừa nhỏ Bao gồm: • Preprocess: tiền xử lý liệu • Classify: phân loại liệu • Cluster: phân cụm liệu • Associate: tạo luật kết hợp cho liệu đánh giá • Select attributes: lựa chọn thuộc tính liên quan tập liệu • Visualize: đồ thị biểu khác hai chiều liệu tương tác chúng Experimeter: Cho phép thực tập ứng dụng phân lớp kĩ thuật hồi quy, với cơng việc có giá trị, phương pháp tham số tốt cho vấn đề cho Cho phép tự động hóa xử lý, làm cho phân lớp lọc dễ dàng với cách thiết lập tham số khác toàn thể bảng liệu KnowledgeFlow: cho phép người dùng kéo thả hộp tượng trưng cho giải thuật liệu để kết nối chúng lại với đưa cấu trúc Simple CLI: sử dụng giao diện dòng lệnh ( Command Line Interface) APACHE HADOOP [11]:Hadoop Apache framework mã nguồn mở, dựa Java, cung cấp tảng phân tán mạnh để lưu trữ quản lý Big Data Hadoop cho phép chạy ứng dụng cụm phần cứng lớn xử lý hàng ngàn terabytes liệu hàng ngàn nodes, cung cấp độ tin cậy tính sẵn sàng cao Hadoop framework gồm module, sơ đồ dây mơ tả bốn thành phần có Hadoop framework Hình 2.5 Kiến trúc Apache Hadoop Hai thành phần lỗi tảng Hadoop : • Hadoop Mapreduce: hệ thống dựa YARN, chia vấn đề lớn thành đoạn nhỏ phân tán nhiều máy chủ Mỗi máy chủ có tập tài nguyên riêng máy chủ xử lý liệu cục bộ, liệu xử lý xong gửi trở máy chủ (xử lý song song tập liệu lớn) Procedures: Map: filter and sort, làm nhiệm vụ đầu tiên, liệu đầu vào chuyển đổi thành tập liệu key/value Reduce: nhận kết đầu từ Map, tổng hợp liệu thành tập liệu nhỏ • Hadoop Distributed File System (HDFS): hệ thống file phân tán cung cấp truy cập thông lượng cao cho ứng dụng khai thác liệu Khi di chuyển tập tin HDFS, tự động chia thành nhiều mảnh nhỏ, đoạn nhỏ tập tin nhân rộng (replication) lưu trữ nhiều máy chủ (thường 3) để tăng sức chịu lỗi tính sẵn sàng cao Bên cạnh thành phần lõi module: • Hadoop Common: thư viện tiện ích thơng dụng Java để module khác sử dụng, cung cấp hệ thống file lớp OS, đồng thời chứa mã lệnh Java để khởi động Hadoop • Hadoop YARN: tảng cho việc lập lịch quản lý tài nguyên cụm (cluster) Từ năm 2012, Hadoop không đề cập tới module sở mà cịn gói phần mềm mở rộng (additional software packages) cài đặt bên cạnh Hadoop như: Apache Spark, Apache Hbase, Apache Pig, Apache Hive - APACHE SPARK [11] Apache Spark https://spark.apache.org/ mã nguồn mở khuôn khổ xử lý liệu lớn xây dựng xung quanh tốc độ, dễ sử dụng, phân tích tinh vi.Ban đầu phát triển vào năm 2009 AMPLab UC Berkeley năm 2010 Apache Spark dự án mã nguồn mở Apache Spark cơng nghệ điện tốn cụm, thiết kế để tính tốn nhanh.Nó dựa Hadoop MapReduce mở rộng mơ hình MapReduce để sử dụng cách hiệu cho nhiều loại tính tốn, bao gồm truy vấn tương tác xử lí dịng Spark thiết kế để bao gồm loạt khối lượng công việc ứng dụng hàng loạt, thuật toán lặp lặp lại, truy vấn tương tác trực tuyến Ngoài việc hỗ trợ tất khối lượng công việc hệ thống tương ứng, làm giảm gánh nặng quản lý việc trì cơng cụ riêng biệt Hình 2.6 Mơ hình quản lý Spark Một số tính điển hình Spark: - - - Cho phép xây dựng phân tích nhanh mơ hình dự đốn Hơn nữa, khả truy xuất tồn liệu lúc giúp cho việc không cần phải lấy mẫu liệu Cung cấp tính streaming dùng để xây dựng mơ hình real-time cách nạp toàn liệu vào nhớ Cho phép phân chia tác vụ q lớn mà khơng thể xử lý laptop hay server thành phần dễ quản lý Sau đó, Spark chạy tác vụ nhớ, cluster nhiều server khác để khai thác tốc độ truy xuất nhanh từ RAM Spark cung cấp khả tính tốn nhanh nhiều thư viện hữu ích kèm như: SparkSQL với kiểu liệu Dataframes; Spark Streaming; MLlib; GraphX: biểu diễn kết đồ thị với tính tốn song song 2.3 Triển khai ứng dụng Big data giám sát an ninh mạng Tổng quan mô hình ứng dụng Big data giám sát an ninh mạng Hình 2.7 Mơ hình hệ thống phát xâm nhập Từ mơ hình 2.7 thấy quy trình làm việc mơ hình giám sát an ninh mạng sau: Bước 1: Các log sau thu thập từ máy chủ gửi lưu lại sở liệu Dữ liệu sau trải qua module module Data Mining, liệu xử lý làm mượt, gán nhãn, gửi lưu lại dạng: Data.txt , qua module machine learning lưu lại : Hocmay.txt , qua module Test lưu lại : Test.txt … Một số công cụ giám sát, thu thập phân tích logs Big data sau:  Splunk: Là phần mềm giám sát mạng dựa sức mạnh việc phân tích Log Splunk thực cơng việc tìm kiếm, giám sát phân tích liệu lớn sinh từ ứng dụng, hệ thống thiết bị hạ tầng mạng Nó thao tác tốt với nhiều loại dịnh dạng liệu khác (Syslog, csv, apachelog, access_combined…)  Syslog-NG: Là công cụ thu thập Log hiệu linh hoạt lựa chọn nhiều nhà quản trị mạng việc xây dựng hệ thống log tập trung Syslog-ng xây dựng dựa chuẩn syslog tảng Unix hệ điều hành tương tự Gồm xây dựng với thành phần Syslog-ng client Syslog-ng Server Các Client thực việc thu thập log quan trọng gửi tới máy chủ tập trung lưu trữ Nagios: Là hệ thống dùng để giám sát hệ thống mạng Nagios thực việc theo dõi đưa cảnh báo trạng thái host dịch vụ Nó xây dựng Linux hỗ trợ hầu hết hệ điều hành tương tự Linux Một điểm khác so với cơng cụ khác Nagios giám sát dựa tình trạng hoạt động máy trạm dịch vụ Nó sử dụng Plug-in cài đặt máy trạm, thực việc kiểm tra máy trạm dịch vụ theo định kỳ gửi thông tin trạng thái Nagios Server sau thơng tin đưa lên với giao diện Web (Sử dụng Nagvis) gửi thơng tin trạng thái tới nhà quản trị qua email, SMS… có cố xảy Việc theo dõi cấu hình cách chủ động bị động dựa mục đích sử dụng người quản trị Bước 2: Module Datamining: Data minining trình tìm kiếm mẫu từ tập liệu lớn (Data Set) phân tích liệu từ quan điểm khác Nó cho phép người dùng dùng để phân tích liệu từ nhiều góc độ khác Mặc dù có nhiều cách để định nghĩa hay diễn đạt Datamining chất q trình tự động trích xuất thơng tin có giá trị ẩn chứa khối lượng liệu khổng lồ thực tế.Nhiệm vụ Data Mining Predictive Descriptive Trong Predictive gồm có: Classification (phân lớp), Regression (hồi quy), Deviation Detection (phát độ lệch) Còn Descriptive gồm: Clustering phân cụm), Association Rule Discovery (phát luật kết hợp) Một số thuật toán phổ biến dùng Data Mining Chi tiết số thuật tốn trình bày phần sau báo cáo Một số công cụ Data Mining điển hình như: - SQL Analyzer - Intelligence Miner (IBM) - SPSS Bước 3:Module Machine Learning q trình xây dựng mơ hình dự đốn dựa vào liệu cho trước đánh giá hiệu suất độ đo Hình 2.8 mơ tả tổng quan cấu trúc mơ hình học máy Hình 2.8 Quy trinh học máy Bước 4: Module Test: Các liệu sau trình học máy lưu trữ sở liệu Dữ liệu tiếp tục qua Module Test để kiểm tra lại độ xác.Trong Module Test sử dụng số công cụ để kiểm tra như: - Weka - Hadoop - Spark CHƯƠNG 3: ỨNG DỤNG BIG DATA KẾT HỢP THUẬT TOÁN MACHINE LEARNING TRONG GIÁM SÁT AN NINH MẠNG 3.1 Tổng quan thuật toán machine learning: Machine learning lĩnh vực Trí tuệ nhân tạo(Artificial Intelligence) sử dụng thuật tốn cho phép máy tính học từ liệu để thực cơng việc thay lập trình cách rõ ràng Hình 3.1 Mối quan hệ trí tuệ nhân tạo, Machine Learning Deep Learning Lĩnh vực phổ biến mà machine learing góp mặt: 3.1.1 Xử lý ảnh Bài toán xử lý ảnh(Image Processing) giải vấn đề phân tích thơng tin từ hình ảnh hay thực số phép biến đổi Một số ví dụ là: • Gắn thẻ hình ảnh(Image Tagging), giống Facebook, thuật tốn tự động phát khn mặt bạn bạn bè ảnh Về bản, thuật toán học từ ảnh mà bạn tự gắn thẻ cho trước • Nhận dạng ký tự(Optical Character Recognition), thuật toán chuyển liệu giấy tờ, văn thành liệu số hóa Thuật tốn phải học cách nhận biết ảnh chụp ký tự ký tự 3.1.2 Phân tích văn Phân tích văn bản(Text analysis) cơng việc trích xuất phân lọi thơng tin từ văn Các văn facebook posts, emails, đoạn chats, tài liệu,… Một số ví dụ phổ biến là: • Lọc spam(Spam filtering), ứng dụng phân loại văn biết sử dụng nhiều Ở đây, phân loại văn xác định chủ đề cho văn Bộ lọc spam học cách phân loại email có phải spam khơng dựa nội dung tiêu đề email • Phân tích ngữ nghĩa(Sentiment Analysis), học cách phân loại ý kiến tích cực, trung tính hay tiêu cực dựa nội dung văn người viết • Khai thác thơng tin(Information Extraction), từ văn bản, học cách để trích xuất thơng tin hữu ích Chẳng hạn trích xuất địa chỉ, tên người, từ khóa,… 3.1.3 Khai phá liệu Khai phá liệu(Data mining) trình khám phá thơng tin có giá trị đưa dự đốn từ liệu Định nghĩa bao quát, bạn nghĩ việc tìm kiếm thơng tin hữu ích từ bảng liệu lớn Mỗi ghi đối tượng cần phải học, cột đặc trưng Chúng ta dự đốn giá trị cột ghi dựa ghi học Hoặc phân nhóm ghi Sau ứng dụng khai phá liệu: • Phát bất thường(Anomaly detection), phát ngoại lệ, ví dụ phát gian lận thẻ tín dụng Bạn phát giao dịch khả nghi dựa giao dịch thông thường người dùng • Phát quy luật(Association rules), ví dụ, siêu thị hay trang thương mại điện tử Bạn khám phá khách hàng thường mua hàng Dễ hiểu hơn, khách hàng bạn mua hàng A thường mua kèm hàng nào? Các thơng tin hữu ích cho việc tiếp thị sản phẩm • Gom nhóm(Grouping), ví dụ, tảng SaaS, người dùng phân nhóm theo hành vi thơng tin hồ sơ họ • Dự đốn(Predictions), cột giá trị(của ghi database) Ví dụ, bạn dự đốn giá hộ dựa liệu giá hộ bạn có 3.1.4 Trị chơi điện tử & Robot Trò chơi điện tử(Video games) robot(Robotics) lĩnh vực lớn có góp mặt machine learning Nếu ta có nhân vật cần di chuyển tránh chướng ngại vật game Machine learning học giải công việc thay bạn Một kỹ thuật phổ biến áp dụng trường hợp Học tăng cường(Reinforcement learning) Ở đó, máy học tăng cường với mục tiêu giải nhiệm vụ Học tăng cường tiêu cực va phải chướng ngại vật, tích cực chạm tới đích 3.2 Machine learing (Deep Learning) áp dụng để phát bất thường hệ thống Kỹ thuật phát bất thường Deep Learning thường hoạt động phân loại giúp phân biệt lớp bình thường bất thường Các kỹ thuật hoạt động ba chế độ sau: Được giám sát : phát yêu cầu tập liệu với lưu lượng truy cập gắn nhãn bình thường bất thường Vấn đề làm để xây dựng đào tạo thực toàn diện với tất lưu lượng truy cập bất thường dán nhãn thích hợp Những liệu thường khơng có sẵn chúng khó thu thập trì [20] Có số lý cho điều này, chẳng hạn nỗ lực mức cần thiết để thu thập liệu vậy, mức độ kiến thức chuyên môn cần thiết cho việc phân tích chí vấn đề quyền riêng tư người dùng Trên thực tế, có khía cạnh pháp lý khác việc thu thập tất lưu lượng truy cập từ mạng công ty tổ chức Không giám sát: phát không yêu cầu đào tạo dán nhãn Mục tiêu kỹ thuật thường khám phá nhóm mẫu tương tự liệu (phân cụm) Một câu hỏi đặt làm để chắn lớp xác định tương ứng với lớp mong muốn Ngay chúng tơi có lượng lớn liệu bao gồm tất tình mơ hình lưu lượng truy cập khác nhau, tin tưởng cách mù quáng vào kết Tuy nhiên, sử dụng để giảm thứ nguyên, phương pháp phù hợp để trích xuất tính cấp cao mang tính phân biệt cải thiện hiệu suất phân loại thuật toán giám sát bán giám sát Bán giám sát: phát cố gắng ước tính phân phối xác suất lưu lượng truy cập bình thường từ lượng mẫu thu thập đủ Điều xác định ranh giới chặt chẽ xung quanh vùng (không thiết phải lồi) nơi mẫu phân loại bình thường Sự khác biệt phương pháp có giám sát khơng có thơng tin hình dạng vùng dị thường không gian mẫu Lưu lượng truy cập phân loại bất thường trường hợp vượt khoảng cách ngưỡng Trong số phương pháp học tập không giám sát, Mạng niềm tin sâu (DBN) [21] Bộ mã tự động xếp chồng (SAE) [22] tỏ hiệu việc học tính bất biến từ tập liệu phức tạp nhiều chiều Máy Boltzmann hạn chế (RBM) khối xây dựng DBN, lớp đào tạo riêng biệt theo cách tham lam RBM, lấy đầu vào từ lớp đặc trưng học lớp trước SAE sử dụng ý tưởng tương tự để đào tạo mã tự động xếp chồng lên theo cách không giám sát, một, để có tập hợp tính kích thước thấp mang tính mơ tả nhiều Cả hai tinh chỉnh lớp backpropagation Support Vector Machine (SVM) theo cách giám sát Chúng định cấu phương thức lớp bán giám sát, ví dụ, thêm SVM lớp làm lớp cuối [23, 24] Các thuật toán lớp bán giám sát thích hợp việc phát bất thường, tập hợp lưu lượng truy cập bất thường thu thập thường nhỏ nhiều so với tập lưu lượng bình thường Chúng sử dụng giai đoạn trước để phát ngoại lệ lưu lượng truy cập nền, điều cung cấp cho số thông tin chi tiết hữu ích đặc điểm lưu lượng Đào tạo phương pháp Deep Learning trình tốn chúng cần lượng lớn liệu lặp lại để hội tụ Tuy nhiên, phương pháp thường hoạt động tốt thuật toán cổ điển khác Ngoài ra, chúng thể mẫu tính tốn song song cao chế độ dự đốn tận dụng sức mạnh tính tốn GPU TÀI LIỆU THAM KHẢO 1.Tài liệu tiếng anh : [1] DATA ANALYSIS FOR NETWORK CYBER-SECURITY [2] DATA ANALYSIS FOR NETWORK CYBER-SECURITY [3] Machine Learning for Computer and Cyber Security Principles, Algorithms, and Practic 2.Tài liệu từ web: [4] https://123docz.net//document/5074637-ung-dung-bigdata-trong-phat-hien-xamnhap-mang.htm [5] https://www.slideshare.net/tantrieuf31/tng-quan-v-d-liu-ln-bigdata.htm [6] https://niithanoi.edu.vn/tat-tan-tat-ve-big-data-phan-1.html [7] https://insight.isb.edu.vn/data-mining-la-gi-cac-cong-cu-khai-pha-du-lieu/ [8] https://vjst.vn/vn/tin-tuc/2653/big-data-va-ung-dung-trong-bao-mat-thong-tin.aspx [9]https://phulc.wordpress.com/2015/05/11/ung-dung-phan-tich-du-lieu-lon-trong-antoan-thong-tin/ ... công nghệ Bigdata kỹ thuật giám sát an ninh mạng, kết hợp với thuật toán học máy để đưa định giám sát an ninh mạng CHƯƠNG 1: TỔNG QUAN VỀ CÔNG NGHỆ BIG DATA 1.1 Giới thiệu công nghệ Big data 1.1.1... chúng có tính dự báo cao CHƯƠNG 2: ỨNG DỤNG CÔNG NGHỆ BIGDATA TRONG GIÁM SÁT AN NINH MẠNG 2.1 Tổng quan chung giám sát an ninh mạng: 2.1.1 Khái niệm giám sát an ninh mạng: Giám sát mạng trình... điệp mạng máy tính quân Một cách nhằm phát hoạt động gián điệp ẩn giấu CINDER áp dụng nhiều mơ hình hoạt động đối phương để điều chỉnh hoạt động mạng máy tính nội -Ứng dụng Big Data y tế Big Data

Ngày đăng: 04/06/2022, 15:40

HÌNH ẢNH LIÊN QUAN

lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai thác được đòi hỏi phải có hình  thức xử lý  mới  để đưa ra quyết định, khám phá  và tối ưu hóa quy trình. - Big data về an toàn mạng máy tính
l ớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa quy trình (Trang 8)
Hình 1.2 Khối lượng dữ liệu trong BigData - Big data về an toàn mạng máy tính
Hình 1.2 Khối lượng dữ liệu trong BigData (Trang 10)
Hình 1.2 thể hiện khối lượng dữ liệu khổng lồ mà BigData thu thập được: trong 7 tỉ dân trên thế giới thì có 6 tỉ người sở hữu điện thoại, hay theo ước tính có  khoảng 2.5 tỉ tỉ GigaBytes  (108  Bytes) dữ  liệu được tạo ra  mỗi ngày - Big data về an toàn mạng máy tính
Hình 1.2 thể hiện khối lượng dữ liệu khổng lồ mà BigData thu thập được: trong 7 tỉ dân trên thế giới thì có 6 tỉ người sở hữu điện thoại, hay theo ước tính có khoảng 2.5 tỉ tỉ GigaBytes (108 Bytes) dữ liệu được tạo ra mỗi ngày (Trang 10)
Hình 1.4 Tốc độ của dữ liệu trong BigData - Big data về an toàn mạng máy tính
Hình 1.4 Tốc độ của dữ liệu trong BigData (Trang 11)
Hình 1.5 Sự đa dạng của dữ liệu trong BigData - Big data về an toàn mạng máy tính
Hình 1.5 Sự đa dạng của dữ liệu trong BigData (Trang 11)
liệu quan hệ (ví dụ, các bảng bán hàng theo từng vùng hoặc từng sản phẩm). Tuy nhiên, trên thực tế, 80% dữ liệu trên thế giới này là dữ liệu không  cấu trúc và do đó rất khó  hoặc hầu như không thể đưa vào các bảng (ví dụ như các bức ảnh, các comment trên - Big data về an toàn mạng máy tính
li ệu quan hệ (ví dụ, các bảng bán hàng theo từng vùng hoặc từng sản phẩm). Tuy nhiên, trên thực tế, 80% dữ liệu trên thế giới này là dữ liệu không cấu trúc và do đó rất khó hoặc hầu như không thể đưa vào các bảng (ví dụ như các bức ảnh, các comment trên (Trang 12)
Hình 1.6 Dữ liệu cấu trúc và dữ liệu không cấu trúcHình 1.6 Dữ liệu cấu trúc và dữ liệu không cấu trúc - Big data về an toàn mạng máy tính
Hình 1.6 Dữ liệu cấu trúc và dữ liệu không cấu trúcHình 1.6 Dữ liệu cấu trúc và dữ liệu không cấu trúc (Trang 12)
Hình 1.8 Mô hình ứng dụng Bigdata tron gy tế - Big data về an toàn mạng máy tính
Hình 1.8 Mô hình ứng dụng Bigdata tron gy tế (Trang 15)
Hình 1.10 Mô hình ứng dụng Bigdata trong viễn thông - Big data về an toàn mạng máy tính
Hình 1.10 Mô hình ứng dụng Bigdata trong viễn thông (Trang 16)
Hình 1.9 Mô hình ứng dụng của Bigdata trong ngân hàng - Big data về an toàn mạng máy tính
Hình 1.9 Mô hình ứng dụng của Bigdata trong ngân hàng (Trang 16)
Hình 1.11 Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet.Hình 1.11 Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet. - Big data về an toàn mạng máy tính
Hình 1.11 Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet.Hình 1.11 Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet (Trang 18)
Hình 1.13 Mô hinhg ứng dụng Bigdata trong phân tích mã độc - Big data về an toàn mạng máy tính
Hình 1.13 Mô hinhg ứng dụng Bigdata trong phân tích mã độc (Trang 19)
Hình 1.12 Mô hình ứng dụng Bigdata trong phát hiện botnet. - Big data về an toàn mạng máy tính
Hình 1.12 Mô hình ứng dụng Bigdata trong phát hiện botnet (Trang 19)
Hình 1.14 Mô hình ứng dụng Bigdata trong phát hiện xâm nhập mạng - Big data về an toàn mạng máy tính
Hình 1.14 Mô hình ứng dụng Bigdata trong phát hiện xâm nhập mạng (Trang 20)
xây dựng mô hình có hợp lý và chính xác hay không. Toàn bộ quá trình này cũng được tiến hành như trong quá trình huấn luyện. - Big data về an toàn mạng máy tính
x ây dựng mô hình có hợp lý và chính xác hay không. Toàn bộ quá trình này cũng được tiến hành như trong quá trình huấn luyện (Trang 21)
Hoạt động giám sát an toàn mạng nhằm mục đích thu thập, phân tích tình hình để xác định nguy cơ đe dọa an ninh mạng, sự cố an ninh mạng, điểm yếu, lỗ hổng bảo mật, mã độc tồn tại trong hệ thống mạng, giúp cảnh báo, khắc phục, xử lý kịp thời - Big data về an toàn mạng máy tính
o ạt động giám sát an toàn mạng nhằm mục đích thu thập, phân tích tình hình để xác định nguy cơ đe dọa an ninh mạng, sự cố an ninh mạng, điểm yếu, lỗ hổng bảo mật, mã độc tồn tại trong hệ thống mạng, giúp cảnh báo, khắc phục, xử lý kịp thời (Trang 26)
Hình 2.2 Kiến trúc của HDFS - Big data về an toàn mạng máy tính
Hình 2.2 Kiến trúc của HDFS (Trang 30)
Hình 2.3 Côngnghệ xử lý dòng trong BigDataHình 2.3 Công nghệ xử lý dòng trong Big Data - Big data về an toàn mạng máy tính
Hình 2.3 Côngnghệ xử lý dòng trong BigDataHình 2.3 Công nghệ xử lý dòng trong Big Data (Trang 31)
Hình 2.4 Giao diện của weka - Big data về an toàn mạng máy tính
Hình 2.4 Giao diện của weka (Trang 31)
Hình 2.5 Kiến trúc của Apache Hadoop - Big data về an toàn mạng máy tính
Hình 2.5 Kiến trúc của Apache Hadoop (Trang 33)
Một số tính năng điển hình của Spark: - Big data về an toàn mạng máy tính
t số tính năng điển hình của Spark: (Trang 35)
Từ mô hình 2.7 thấy quy trình làm việc của mô hình giám sát an ninh mạng như sau: - Big data về an toàn mạng máy tính
m ô hình 2.7 thấy quy trình làm việc của mô hình giám sát an ninh mạng như sau: (Trang 36)
Hình 2.8 Quy trinh học máy - Big data về an toàn mạng máy tính
Hình 2.8 Quy trinh học máy (Trang 38)
Bài toán xử lý ảnh(Image Processing) giải quyết các vấn đề phân tích thông tin từ hình ảnh hay thực hiện một số phép biến đổi - Big data về an toàn mạng máy tính
i toán xử lý ảnh(Image Processing) giải quyết các vấn đề phân tích thông tin từ hình ảnh hay thực hiện một số phép biến đổi (Trang 39)

TỪ KHÓA LIÊN QUAN

w