Công nghệ trong lớp này bao gồm: - Một hệ thống tập tin phân phối: cần thiết để thích ứng với sựphân tách của các luồng dữ liệu và cung cấp khả năng lưu trữ.. Nó cung cấp cơ sởcho nhiều
BỘ TÀI CHÍNH TRƯỜNG ĐẠI HỌC TÀI CHÍNH MARKETING KHOA CÔNG NGHỆ THÔNG TIN - - BÀI TIỂU LUẬN HỌC PHẦN TIN HỌC ĐẠI CƯƠNG ĐỀ TÀI: BIG DATA Giảng viên phụ trách Sinh viên thực Lớp học phần : ThS Lê Thị Kim Thoa : Nguyễn Thị Ánh Tuyết – 2121012131 : Thái Thị Hợp – 2121013027 : Nguyễn Thị Thu Nhàn – 2121013336 : 2231702029606 TPHCM, tháng 10 năm 2022 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết Từ đầy đủ Diễn giải API XML SQL HDFS Application Programming Interfaces Extensible Markup Language Structured Query Language Hadoop Distributed File System Giao diện lập trình ứng dung Ngơn ngữ đánh dấu mở rơng Ngơn ngữ truy vấn có cấu trúc Hệ thống phân tán tập tin SaaS Software as a Service Hadoop Triển khai phần mềm IaaS Infrastructure as a Service dịch vụ Triển khai sở hạ tầng Paas Platform as a Service dịch vụ Triển khai tảng DaaS Data as a Service dịch vụ Triển khai liệu RDBMS Relational Database Management dịch vụ Hệ thống quản lý sở liệu KVP System Key-Value pair quan hệ Cặp khóa – giá trị tắt ii MỤC LỤC CHƯƠNG 1: CƠNG NGHỆ QUẢN LÍ DỮ LIỆU LỚN 1-1 1.1 Công nghệ tảng áp dụng cho big data 1-1 1.1.1 Thành phần big data 1-1 1.1.1.1 Các đặc tính 1-1 1.1.1.2 Cơ sở hạ tầng an ninh .1-1 1.1.1.3 Cơ sở liệu hoạt động 1-2 1.1.1.4 Tổ chức dịch vụ cà công cụ liệu 1-3 1.1.1.5 Phân tích Big Data 1-3 1.1.1.6 Những ứng dụng Big Data 1-4 1.1.2 Ảo hóa .1-5 1.1.2.1 Đặc điểm 1-6 1.1.2.2 Quản lí ảo hóa Hypervisor 1-7 1.1.2.3 Trừu tượnghóa ảo hóa 1-7 1.1.3 Kiểm tra đám mây big data 1-8 1.1.3.1 Tìm hiểu triển khai đám mây mơ hình phân tán .1-8 1.1.3.1.a Mơ hình triển khai điện tốn đám mây .1-9 1.1.3.1.b Mơ hình cung cấp điện tốn đám mây 1-10 1.1.3.2 Sử dụng điện toan đám mây cho Big Data .1-11 1.1.3.2.a Dịch vụ liệu lớn Google .1-13 1.1.3.2.b Microsoft Azure 1-13 1.1.3.2.c OpenStack .1-14 1.2 Quản lí liệu lớn 1-14 1.2.1 Cơ sở liệu hoạt động 1-14 CHƯƠNG 2: 1.2.1.1 Cơ sở dữu liệu không quan hệ 1-14 1.2.1.2 Cơ sở liệu cặp khóa – giá trị 1-15 1.2.1.3 Cơ sở liệu tài liệu 1-15 1.2.1.4 Cơ sở liệu cột 1-16 1.2.1.5 Cơ sở liệu đồ thị 1-17 XÂY DỰNG KHO DỮ LIỆU VĂN BẢN 2-1 2.1 Attensity 2-1 2.2 IBM 2-1 2.3 Open Text 2-2 iii CHƯƠNG 3: HADOOP VÀ THỰC NGHIỆM .3-1 3.1 Giới thiệu hệ thống Hadoop 3-1 3.1.1 Mơ hình xử lí liệu phân tích Mapreduce 3-1 3.1.1.1 Giới thiệu chung .3-1 3.1.1.2 Qua trình Split 3-2 3.1.1.3 Quá trình Map Shuffle 3-2 3.1.1.4 Quá trình Reduce 3-2 3.1.1.5 Một số toan ứng dụng mơ hình Mapreduce 3-3 3.1.2 Hadoop – tảng lập trinh theo mơ hình Mapreduce 3-4 3.1.2.1 Giới thiệu chung .3-4 3.1.2.2 Mapreduce Layer 3-5 3.1.2.2.a Lỗi đĩa, thông điệp HeartBeat nhân block 3-6 3.1.2.2.b Truy xuất liệu HDFS 3-7 3.1.2.2.c Secondary NameNode 3-7 3.1.3 Xây dựng chương trình chạy Hadoop 3-7 3.1.3.1 Các lớp Hadoop 3-7 3.1.3.1.a Các kiểu liệu .3-7 3.1.3.1.b Lip Mapper .3-8 3.1.3.1.c Lop Partitioner 3-8 3.1.3.1.d Lớp hỗ trợ Combiner 3-8 3.1.3.1.e Lớp Reduce .3-9 3.2 Hướng dẫn cài đặt Hadoop cluser 3-9 3.2.1 Cài đặt Java .3-9 3.2.2 Tạo người dùng riêng cho Hadoop 3-9 3.2.3 Cấu hình ssh 3-9 3.2.4 Cài đặt cấu hình Hadoop 3-10 iv DANH MỤC CÁC SƠ ĐỒ HÌNH Hình 1-1 Bảo mật Big data 1-1 Hình 1-2 Vai trị Big data lĩnh vực khác 1-5 Hình 1-3 Ảo hóa 1-5 Hình 1-4 Mơ hình điện tốn đám mây 1-8 Hình 2-1 Phần mềm khổng lồ IBM 2-1 Hình 2-2 OpenText .2-2 Hình 3-1 Mơ hình tổng qt Mapreduce 3-1 Hình 3-2 Quá trình Map Shuffle 3-2 Hình 3-3 Quá trình Reduce 3-3 Hình 3-4 Các thành phần Hadoop cluser .3-5 Hình 3-5 Kiến trúc Master/Slaver hệ thống tập tin phân tán Hadoop 3-6 Hình 3-6 Đăng nhập vào tài khoản người dùng hduser 3-12 Hình 3-7 Khởi động Hadoop 3-13 Hình 3-8 Kiểm tra Hadoop 3-13 v Hệ thống sở hạ tầng Logistics bao gồm sở hạ tầng vật lý (physical infrastructure) hệ thống giao thông, cầu cảng… sở hạ tầng mềm (soft infrastructure) nguồn nhân lực, hệ thống sách, luật lệ, thủ tục… Để phát triển, quản lý tốt hiệu tất hệ thống hạ tầng đó, khơng thể khơng quan tâm vấn đề ứng dụng CNTT Cơ sở hạ tầng mềm kỹ thuật số.(Digital soft infrastructure) đóng vai trị quan trọng thương mại kỷ XXI thông tin di chuyển hàng hóa quan trọng Theo đánh giá VIFFAS, trình độ cơng nghệ hoạt động Logistics VN cịn thấp Việc liên lạc cơng ty Logistics với khách hàng, hải quan chủ yếu thủ công, giấy tờ Mặc dù năm 2010-2011 ghi nhận có bước đột phá thực khai hải quan điện tử, số lượng doanh nghiệp tham gia chiếm tỷ lệ thấp Mặt khác, phương tiện vận tải cịn lạc hậu, cũ kĩ, trình độ giới hóa bốc đỡ hàng hóa cịn yếu kém, lao động thủ công phổ biến Công tác lưu kho lạc hậu, chưa áp dụng phổ biến tin học quản trị kho mã vạch, chương trình phần mềm quản trị kho Đặc biệt việc triển khai áp dụng sở thơng tin vào quản trị hệ thống Logistics Big Data xu hướng với triển khai rộng rãi doanh nghiệp Logistics lớn với quy mơ tồn cầu Tuy nhiên, Việt Nam phần lớn doanh nghiệp ngành chưa triển khai triển khai mức độ nhất, thiếu đồng thiếu tối ưu nguồn lực Document continues below Discover more from: ke toan tai chinh Trường Đại học Tài… 8 documents Go to course BÀI LÀM BT NHÓM dfgerhhhhhhhe None BÀI TẬP NHÓM sadfffffffdsgs None Dạng kinh tế vĩ 20 mô Kinh Tế Vĩ Mô 98% (129) Microeconomics multiple choice… Kinh Tế Vĩ Mô 100% (6) UNIT - TA Kinh Tế Vĩ Mô 100% (2) Trắc nghiệm kinh tế 76 vi mô Mankiw… Kinh Tế Vĩ Mơ Trên sở nhóm thực nghiên cứu thực tế áp dụng đưa khuyến nghị việc ứng dụng Big Data vào doanh nghiệp Logistics Việt Nam tương lai 75% (4) CHƯƠNG 1: CƠNG NGHỆ QUẢN LÍ DỮ LIỆU LỚN CHƯƠNG 1: CƠNG NGHỆ QUẢN LÍ DỮ LIỆU LỚN 1.1 Công nghệ tảng áp dụng cho big data 1.1.1 Thành phần big data 1.1.1.1 Các đặc tính - Availability (Tính sẵn có) Bạn có cần đảm bảo thời gian dịch vụ 100%? Công ty bạn chở trường hợp dịch vụ gián đoạn không đạt yêu cầu? Cơ sở hạ tầng đảm bảo tính sẵn sàng cao tốn - Scalability (Khả mở rộng): Cơ sở hạ tầng bạn cần mở rộng nào? Dung lượng đĩa cần để đảm bao yêu cầu thời điểm tương lai? Flexibility (Linh hoạt): Bạn thêm tài nguyên vào sở hạ tầng sớm nào? Cơ sở hạ tầng khôi phục sau thất bại nhanh mức nào? Cơ sở hạ tầng đạt mức linh hoạt tốn kiểm sốt dịch vụ điện toán đảm mây, nơi bạn trả tiền cho bạn thực sử dụng - Cost (Chi phí): Bạn dù khả tra cho gì? Bởi sở hạ tầng tập hợp nhiều thành phần, bạn mua hệ thống mạng tốt tiết kiệm tiền cho việc lưu trữ ngược lại Bạn cần lập yêu cầu lĩnh vực hoàn cảnh ngân sách cụ thể trả cho nơi cần thiết 1.1.1.2 Cơ sở hạ tầng an ninh An ninh bảo mật Big data tương tự yêu cầu môi trường liệu thông thưởng Các yêu cầu an ninh phải liên kết chặt chẽ với nhu cầu nghiệp vụ cụ thể Một Hnh 1-1: Bả o mậ t Big data CHƯƠNG 1: CƠNG NGHỆ QUẢN LÍ DỮ LIỆU LỚN số thách thức phát sinh Big data trở thành phần chiến lược bao gồm: - Truy cập liệu: Khả truy cập liệu người dùng để tính tốn liệu lớn có mức độ u cầu kỹ thuật triển khai liệu không lớn Dữ liệu cần có dành cho người có nhu cầu nghiệp vụ để kiểm tra tương tác với Hầu hết tảng lưu trữ liệu có hệ thống an ninh nghiêm ngặt thưởng tăng cường với mộ khả nhận dạng hợp nhất, cung cấp truy cập thích hợp nhiều lớp kiến trúc - Truy cập ứng dụng: Truy cập liệu ứng dụng tương đối đơn giản từ góc độ kĩ thuật Hầu hết giao diện lập trình ứng dụng (API) cung cấp bảo vệ từ việc sử dụng trái phép truy cập Mức độ bảo vệ thích hợp cho triển khai thực Big data - Mã hóa liệu: Mã hóa liệu thách thức lớn bảo mật môi trường Big data Trong mơi trường truyền thống, mã hóa giải mã liệu thực cần nguồn lực lớn hệ thống Với khối lượng, tốc độ đa dạng Big data, vấn đề khó khăn Mã hóa liệu cách tốt để cung cấp khả tính tốn nhiều nhanh Tuy nhiên điều kèm với bảng giá Do cần xác định phần liệu cần bảo mật lễ mã hóa mục cần thiết - Phát đe dọa: Bao gồm thiết bị di động mạng xã hội theo cấp số nhân tăng số lượng liệu mối đe dọa an ninh Do điều quan trọng tổ chức có cách tiếp cận vịng an ninh 1.1.1.3 Cơ sở liệu hoạt động Ở lõi môi trường Big data sở liệu chứa phản liệu liên quan đến cơng ty bạn Khơng có lựa chọn