Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
8,29 MB
Nội dung
NGUYỄN XUÂN MINH Trang 1/69 NGUYỄN XUÂN MINH Trang 2/69 NGUYỄN XUÂN MINH Trang 3/69 NGUYỄN XUÂN MINH Trang 4/69 NGUYỄN XUÂN MINH Trang 5/69 NGUYỄN XUÂN MINH MỤC LỤC MỤC LỤC DANH MỤC HÌNH THUẬT NGỮ VIẾT TẮT LỜI MỞ ĐẦU CHƯƠNG GIỚI THIỆU HADOOP 1.1 Giới thiệu Framework Hadoop 1.1.1 Hadoop gì? 1.1.2 Lịch sử phát triển Hadoop 1.1.3 Kiến trúc Hadoop 1.1.4 Ứng dụng Hadoop số công ty 1.1.5 Tổng quan cụm Hadoop 1.2 Hệ thông tệp phân tán 1.2.1 Giới thiệu 1.2.2 Kiến trúc HDFS 1.2.2.1 Quá trình tương tác máy khách HDFS 1.2.2.1.1 Q trình đọc tệp 1.2.2.1.2 Ghi tệp 1.2.2.2 Kích thước khối 1.2.2.3 Metadata 1.2.3 Khả chịu sửa lỗi HDFS 1.2.3.1 Khả tự phục hồi nhanh chóng 1.2.3.2 Nhân khối 1.2.3.3 Nhân Metadata 1.2.3.4 Toàn vẹn liệu HDFS 1.2.4 Lập lịch Hadoop 1.2.4.1 Lập lịch FIFO 1.2.4.2 Lập lịch công suất 1.2.4.3 Lập lịch cân 1.3 MapReduce 1.3.1 Giới thiệu Trang 6/69 NGUYỄN XUÂN MINH 1.3.2 Kiến trúc chế MapReduce 1.3.3 MapReduce với toán Word Count 1.3.4 Ưu điểm MapReduce 1.3.4.1 Xử lý song song 1.3.4.2 Vị trí liệu 1.3.5 Kết luận chương CHƯƠNG TỔNG QUAN VỀ SPARK STREAMING 2.1 Giới thiệu Spark 2.2 Các thành phần Spark 2.2.1 Lõi Apache Spark 2.2.2 Spark SQL 2.2.3 Spark Streaming 2.2.4 Thư viện Machine Learning 2.2.5 GraphX 2.3 Kiến trúc Spark 2.3.1 Trình điều khiển Spark 2.3.2 Spark Executors 2.3.3 Quản lý cụm 2.3.4 Nút công nhân 2.3.5 Phương thức thực 2.4 Các tính Spark 2.5 Ưu điểm Apache Spark 2.6 Kết luận chương CHƯƠNG XÂY DỰNG LUỒNG SPARK STREAMING LƯU TRỮ TRÊN HDFS 3.1 Bài toán xây dựng luồng Spark streaming lưu trữ HDFS 3.2 Một số công cụ liên quan 3.2.1 Apache Kafka 3.2.1.1 Kiến trúc Kafka 3.2.1.2 Ưu nhược điểm của Kafka 3.2.1.3 Ứng dụng Kafka 3.2.2 Superset 3.3 Triển khai toán kết đạt 3.3.1 Triển khai toán Trang 7/69 NGUYỄN XUÂN MINH 3.3.1.1 Cài đặt Hadoop 3.3.1.2 Cài đặt Kafka 3.3.1.3 Cài đặt Spark 3.3.1.4 Cài đặt Superset 3.3.2 Kết đạt 3.4 Kết Luận chương KẾT LUẬN TÀI LIỆU THAM KHẢO Trang 8/69 NGUYỄN XUÂN MINH DANH MỤC HÌNH VẼ Hình 1-1 Các thành phần Hadoop Hình 1-2 Kiến trúc tổng quan cụm Hadoop Hình 1-3 Kiến trúc HDFS Hình 1-4 Quá trình đọc tệp HDFS Hình 1-5 Quá trình ghi tệp HDFS Hình 1-6 Các khối HDFS Hình 1-7 Lập lịch FIFO Hình 1-8 Lập lịch cơng suất Hình 1-9 Lập lịch cân Hình 1-10 Kiến trúc MapReduce Hình 1-11 MapReduce xử lý tốn Word Count Hình 1-12 Xử lý thơng thường MapReduce Hình 2-1 Các thành phần Spark Hình 2-2 Spark RDD - Narrow Transformation Hình 2-3 Spark RDD - Wide Transformation Hình 2-4 Hạn chế Apache Spark RDD Hình 2-5 Luồng xử lý Spark Streaming Hình 2-6 Đồ thị đa hướng Hình 2-7 Hệ thống phát thảm họa Hình 2-8 Hệ thống phát gian lận tài Hình 2-9 Hệ thống phân tích kinh doanh Hình 2-10 Hệ thống thơng tin địa lý Hình 2-11 Hệ thống Google Pregel Hình 2-12 Kiến trúc Apache Spark Hình 2-13 Tính Apache Spark Hình 3-1 Luồng xử lý liệu Hình 3-2 Thành phần hệ thống Kafka Hình 3-3 Kiến trúc Kafka Hình 3-4 Phân vùng Kafka Trang 9/69 NGUYỄN XUÂN MINH Hình 3-5 Thứ tự ghi đọc tới chủ đề Hình 3-6 Hoạt động gửi liệu nhà sản xuất Hình 3-7 Hoạt động đọc liệu khách hàng Hình 3-8 Hoạt động nhóm khách hàng Hình 3-9 Cơ chế giao tiếp chủ đề khách hàng Hình 3-10 Giao diện vẽ Dashboard Superset Hình 3-11 Trạng thái Hadoop Hình 3-12 Thơng tin cụm Hadoop Hình 3-13 Khởi tạo Zookeeper thành cơng Hình 3-14 Khởi tạo Apache Kafka thành cơng Hình 3-15 Khởi tạo Spark thành cơng Hình 3-16 Giao diện Superset sau khởi tạo Hình 3-17 Cấu hình Producer Kafka Hình 3-18 Cấu hình tệp SparkStreaming Hình 3-19 Chọn trường DataFrame Hình 3-20 Cấu hình đường dẫn lưu liệu HDFS Hình 3-21 Dữ liệu đẩy vào kafka Hình 3-22 Dữ liệu lưu HDFS Hình 3-23 Tổng số ca mắc bệnh tim theo giai đoạn Hình 3-24 Số ca mắc bệnh tim theo tuổi Hình 3-25 Tương quan bệnh tim với số Huyết áp, Thuốc lá, Cân nặng Trang 10/69