Apache Spark là một hệ thống phân tán mã nguồn mở được sử dụng để xử lý và phân tích dữ liệu lớn. Nó được thiết kế để xử lý dữ liệu trên một cụm máy tính phân tán, cho phép xử lý song song và tăng tốc độ xử lý. Apache Spark có khả năng xử lý dữ liệu lớn bằng cách sử dụng mô hình tính toán trong bộ nhớ (inmemory computing), cho phép truy cập dữ liệu từ bộ nhớ chứ không phải từ đĩa cứng. Điều này giúp giảm thời gian truy cập và xử lý dữ liệu, đồng thời tăng tốc độ xử lý. Spark cung cấp một API linh hoạt để xử lý dữ liệu lớn, bao gồm các thư viện cho xử lý dữ liệu phân tán, xử lý dữ liệu đồ thị, xử lý dữ liệu trực tuyến và học máy. Bạn có thể sử dụng Spark để thực hiện các tác vụ như xử lý dữ liệu, truy vấn dữ liệu, phân tích dữ liệu, xây dựng mô hình học máy và thực hiện các tác vụ tính toán phức tạp khác trên dữ liệu lớn. Một trong những đặc điểm nổi bật của Apache Spark là khả năng chạy trên nhiều nguồn dữ liệu khác nhau, bao gồm Hadoop Distributed File System (HDFS), Apache Cassandra, Apache HBase, Amazon S3 và nhiều nguồn dữ liệu khác. Điều này cho phép Spark làm việc với dữ liệu từ nhiều nguồn khác nhau mà không cần sao chép dữ liệu sang nơi lưu trữ khác. Spark cung cấp mô hình xử lý dữ liệu linh hoạt, gọi là Resilient Distributed Dataset (RDD), cho phép bạn thực hiện các phép biến đổi và hành động trên dữ liệu phân tán. RDD là một tập hợp không thay đổi của các đối tượng phân tán có thể được xử lý song song. Bên cạnh RDD, Spark cũng hỗ trợ các cấu trúc dữ liệu khác như DataFrame và Dataset để thao tác dữ liệu dễ dàng hơn.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO THỰC TẬP CƠ SỞ ĐỀ TÀI : TÌM HIỂU VỀ APACHE SPARK TRONG VIỆC LƯU TRỮ VÀ XỬ LÝ DỮ LIỆU LỚN Họ Tên : Lớp : CNTTK19_CLC Giảng viên hướng dẫn : Thái Nguyên , Tháng , Năm 2023 MỤC LỤC LỜI CAM ĐOAN CHƯƠNG I TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA) A.GIỚI THIỆU VỀ DỮ LIỆU LỚN Dữ liệu lớn ? Các định dạng liệu thường dùng Cách thức hoạt động Cách thức xử lý B ỨNG DỤNG CỦA DỮ LIỆU LỚN Các trường hợp sử dụng Dữ liệu lớn Một số lĩnh vực thường sử dụng Dữ liệu lớn .9 CHƯƠNG II TỔNG QUAN VỀ HADOOP - APACHE SPARK VÀ NGÔN NGỮ R 11 A HADOOP 11 Kiến trúc HDFS ( Hệ thống phân tán Hadoop ) 11 2.NameNode 11 3.NameNode phụ: 13 4.DataNode 14 5.Blocks 14 6.Replication Management ( Quản lý chép ) 15 7.Rack Awareness 16 8.HDFS Read / Write Architecure ( Kiến trúc đọc / ghi HDFS) 18 B APACHE SPARK 26 Apache Spark ? 26 Câu tạo Apache Spark ? 27 Kiến trúc Apache Spark ? 28 Ưu điểm ? 29 C NGÔN NGỮ R 30 Ngôn ngữ R ? .30 Tính R ? 30 3.Ưu điểm R ? 30 CHƯƠNG III KẾT NỐI R VÀ SPARK 33 A KẾT NỐI R VÀ SPARK 33 B PHÂN TÍCH VÀ TRỰC QUAN DỮ LIỆU 33 C XÂY DỰNG MƠ HÌNH DỮ LIỆU 34 CHƯƠNG IV XỬ LÝ DỮ LIỆU LỚN .37 A TẢI DỮ LIỆU OKCUPID VÀ CÀI ĐẶT NHỮNG GÓI CẦN THIẾT TRONG R STUDIO .37 B XỬ LÝ DỮ LIỆU LỚN 39 CÁC NGUỒN TÀI LIỆU THAM KHẢO : .54 MỤC LỤC ẢNH Hình - Kiến trúc HDFS 11 Hình - Vịng tuần hồn HDFS 12 Hình - Vị trí NameNode phụ HDFS .14 Hình - Ví dụ minh hoạ Block .15 Hình - Quản lý chép 16 Hình - Thuật tốn mơ block nằm rack 17 Hình - Quá trình chép Dữ liệu 20 Hình - Quá trình thiết lập đường ống 21 Hình - Quá trình truyền chép liệu 22 Hình 10 - Quá trình kết thúc 24 Hình 11 - Quá trình ghi liệu 25 Hình 12 - Kiến trúc đọc HDFS 26 Hình 13 - Apache Spark đơn vị kết nối 28 Hình 14 - Cấu tạo Apache Spark 29 Bảng - Hiển thị giá trị đầu tập liệu mtcars .36 Hình 15 - Trực quan liệu biến hp ~ mpg 36 Hình 16 - So sánh giá trị dự đoán thực tế thơng qua mơ hình 38 Hình 17 - Cài đặt gói liệu cần thiết Tool 41 Hình 18 - Cài đặt gói liệu cần thiết Tool (2) 41 Hình 19 - Phân bố biến age 45 Bảng - Dữ liệu biến tôn giáo 46 Hình 20 - Tỉ lệ cá nhân thất nghiệp theo biến tôn giáo 47 Bảng - Dữ liệu người sử dụng rượu ma tuý .48 Hình 21 - Biểu đồ khảm sử dụng rượu ma tuý 49 Hình 22 - Biểu đồ toạ độ ứng với người sử dụng rượu ma tuý .51 Bảng - Giá trị trung bình độ lệch chuẩn biến tuổi .52 Hình 23 - Phân bố tuổi theo tỉ lệ 53 Bảng - Bảng liệu biến giả 54 Hình 24 - Phân bố độ dài luận .55 LỜI CAM ĐOAN Bài Thực tập sở sản phẩm tổng hợp toàn kiến thức mà học nghiên cứu thời gian học tập trường Ý thức điều đó, với tinh thần nghiêm túc, tự giác cố gắng miệt mài thân hướng dẫn tận tình thầy Trần Quang Quý Tơi hồn thành thực tập sở Tơi xin cam đoan: Nội dung làm tơi cơng sức tơi tìm hiểu, khơng chép từ nội dung thực tập khác, có tham khảo mẫu đồ án thư viện nhà trường nội dung hình thức trình bày để trình bày vào thực tập sở Mọi thơng tin sai lệch tơi xin hồn toàn chịu trách nhiệm trước hội đồng bảo vệ CHƯƠNG I TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA) A.GIỚI THIỆU VỀ DỮ LIỆU LỚN Dữ liệu lớn ? Dữ liệu lớn đề cập đến liệu có cấu trúc phi cấu trúc phức tạp, với lượng liệu khổng lồ tao truywwnf nhanh tróng từ nhiều nguồn khác Dữ liệu lớn định nghĩa “3 chữ V”, thuộc tính tạo nên : - Volume (Khối lượng) : lượng DL khổng lồ lưu trữ - Velocity (Tốc độ) : Tốc độ cực nhanh mà luồng liệu phải xử lý phân tích - Variety ( Sự đa dạng ) : Các nguồn hình thức khác mà liệu thu thập, VD : số, văn bản, hình ảnh,video, âm #Các công cụ xử lý liệu truyền thống không đủ công để xử lý liệu lớn phực tạp Điều dẫn đến xuất loạt giải pháp kiến trúc phần mềm liệu lớn chuyên dụng đời Các định dạng liệu thường dùng - Dữ liệu không cấu trúc: Dữ liệu bao gồm thơng tin khơng có tổ chức khơng thuộc mơ hình định dạng xác định từ trước, liệu thu thập từ nguồn truyền thông xã hội, giúp doanh nghiệp thu thập thông tin nhu cầu khách hàng - Dữ liệu có cấu trúc: Dữ liệu bao gồm thông tin tổ chức quản lý sở liệu bảng tính, thường số tự nhiên - Dữ liệu bán cấu trúc: Dữ liệu tổ chức theo định dạng không cố định Cách thức hoạt động Big Data thu thập từ bình luận chia sẻ công khai mạng xã hội trang web, thu thập từ thiết bị điện tử ứng dụng cá nhân thông qua bảng câu hỏi thông qua mua sản phẩm đăng ký điện tử Sự diện cảm biến đầu vào khác thiết bị thông minh cho phép thu thập liệu nhiều trường hợp hoàn cảnh Big Data thường lưu trữ sở liệu máy tính phân tích phần mềm thiết kế đặc biệt để xử lý tập liệu lớn phức tạp Cách thức xử lý - Xử lý hàng loạt: Thường sử dụng ta lo ngại khối lượng đa dạng liệu Trước tiên, lưu trữ tất liệu cần thiết thực xử lý chung lần (điều dẫn đến độ trễ cao) - Xử lý luồng: Thường sử dụng ta quan tâm đến thời gian phản hồi nhanh Các liệu xử lý nhận (độ trễ thấp) B ỨNG DỤNG CỦA DỮ LIỆU LỚN Các trường hợp sử dụng Dữ liệu lớn Phát triển sản phẩm Các công ty Netflix Procter & Gamble sử dụng Big Data để dự đốn nhu cầu khách hàng Họ xây dựng mơ hình dự đốn cho sản phẩm dịch vụ cách phân loại thuộc tính sản phẩm dịch vụ khứ tại, đồng thời mơ hình hóa mối quan hệ thuộc tính Ngồi ra, Big Data cịn sử dụng phân tích nhóm tập trung, phương tiện truyền thông xã hội, thị trường để lập kế hoạch sản xuất bán hàng hiệu Trải nghiệm khách hàng Big Data cho phép thu thập liệu từ mạng xã hội, lượt truy cập web, nhật ký gọi nguồn khác để cải thiện trải nghiệm tương tác tối đa hóa giá trị cung cấp Thực chương trình khuyến cho khách hàng, giảm bớt rời bỏ khách hàng xử lý vấn đề cách chủ động Máy học (Machine Learning) Máy học chủ đề bật nay, Big Data vấn đề Hiện nay, dạy máy móc thay lập trình chúng, sẵn có Big Data đào tạo mơ hình máy học trở nên khả thi Bảo trì dự đốn Các yếu tố dự đốn nằm sâu liệu có cấu trúc phi cấu trúc Bằng cách sử dụng Big Data phân tích dấu hiệu vấn đề tiềm ẩn trước xảy cố, từ tổ chức triển khai bảo trì hiệu chi phí thời gian Hiệu hoạt động Với Big Data, phân tích đánh giá hoạt động sản xuất, yếu tố khác để giảm tình trạng ngừng hoạt động dự đốn nhu cầu tương lai Big Data sử dụng để cải thiện việc định phù hợp cho nhu cầu thị trường thời điểm khác Thúc đẩy đổi mổi Big Data đổi cách nghiên cứu phụ thuộc lẫn người, tổ chức, thực thể quy trình, sau định hướng cách sử dụng thơng tin chi tiết Sử dụng thơng tin chi tiết liệu để cải thiện định cân nhắc tài lập kế hoạch.Xem xét xu hướng khách hàng cần cung cấp cho sản phẩm dịch vụ Một số lĩnh vực thường sử dụng Dữ liệu lớn Y học Các bệnh viện, nhà nghiên cứu công ty dược phẩm áp dụng giải pháp Big Data để cải thiện nâng cao chất lượng chăm sóc sức khỏe Với quyền truy cập vào lượng Big Data bệnh nhân người dân, y học tăng cường phương pháp điều trị, thực nghiên cứu hiệu bệnh ung thư Alzheimer Phát minh loại thuốc có hiểu biết quan trọng mơ hình sức khỏe người dân Nơng nghiệp Từ hạt giống dự đốn suất trồng với độ xác cao, Big Data cơng cụ tự động hóa bước nâng cao hiệu ngành nông nghiệp Các nhà nghiên cứu nhà khoa học giới sử dụng Big Data để giải nạn đói suy dinh dưỡng Với nhóm liệu mở tồn cầu Nơng nghiệp Dinh dưỡng (GODAN) thúc đẩy quyền truy cập mở, không hạn chế vào liệu nông nghiệp dinh dưỡng toàn cầu Một số cải tiến thực cơng chấm dứt nạn đói giới Truyền thơng – Giải trí Nếu mà sử dụng Netflix hay dịch vụ phát trực tuyến khác cung cấp đề xuất, nơi Big Data hoạt động Các công ty truyền thông phân tích thói quen đọc, xem nghe cơng chúng để xây dựng trải nghiệm cá nhân Netflix chí cịn sử dụng liệu đồ họa tiêu đề màu sắc để đưa định sở thích khách hàng Tài Nếu mà sử dụng Netflix hay dịch vụ phát trực tuyến khác cung cấp đề xuất, nơi Big Data hoạt động Các công ty truyền thơng phân tích thói quen đọc, xem nghe công chúng để xây dựng trải nghiệm cá nhân Netflix chí cịn sử dụng liệu đồ họa tiêu đề màu sắc để đưa định sở thích khách hàng 10