1. Trang chủ
  2. » Tất cả

Phân tích dữ liệu lớn

25 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC TIỂU LUẬN MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài Phân tích dữ liệu lớn Giảng viên hướng dẫn LÊ CHÍ NGỌC Lớp Hệ thống thông tin quản lý – K61 MỤC[.]

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC TIỂU LUẬN MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài: Phân tích liệu lớn Giảng viên hướng dẫn: LÊ CHÍ NGỌC Lớp: Hệ thống thơng tin quản lý – K61 MỤC LỤC LỜI NÓI ĐẦU .2 CHƯƠNG I KHÁI NIỆM DỮ LIỆU LỚN 1.1 Thuật ngữ “Dữ liệu lớn” 1.2 Khái niệm ”V” định nghĩa Dữ liệu lớn .4 CHƯƠNG II CÁC NGUYÊN TẮC CƠ BẢN TRONG PHÂN TÍCH DỮ LIỆU LỚN 10 CHƯƠNG III CÁC CÔNG NGHỆ CHO DỮ LIỆU LỚN .13 3.1 MapReduce .13 3.2 Hadoop 16 3.3 NoSQL 20 CHƯƠNG IV DỮ LIỆU LỚN VÀ KHO DỮ LIỆU 21 4.1 Trường hợp sử dụng Hadoop 21 4.2 Trường hợp sử dụng kho liệu 21 4.3 Vùng chung Hadoop kho liệu .22 KẾT LUẬN 23 LỜI NÓI ĐẦU Trong thời đại bùng nổ thơng tin, phân tích liệu trở thành ngành công nghệ tiên phong ưu tiên hàng đầu thập kỷ Các công ty IBM, Oracle, Microsoft, … đầu tư tổ chức tập trung vào phân tích liệu, mà giúp cải thiện suất việc vận hành công ty Phân tích liệu lớn, khơng phải khái niệm gần đây, nhiên ưu tiên hàng đầu doanh nghiệp, có tiềm thay đổi sâu sắc bối cảnh cạnh tranh kinh tế hội nhập toàn cầu Ngoài ra, cung cấp giải pháp sáng tạo để vượt qua thách thức kinh doanh Phân tích liệu lớn thúc đẩy cách giúp chuyển đổi quy trình kinh doanh, vận hành tổ chức, tồn ngành cơng nghiệp chí xã hội Trong đề tài này, mục tiêu em cung cấp kiến thức cách khái quát tồn diện Dữ liệu lớn, cơng nghệ khái niệm liên quan giúp nắm bắt khả giới hạn mơ hình Các công nghệ nhắc tới đề tài sau khái niệm Dữ liệu lớn bao gồm Hadoop, MapReduce NoSQL Thêm phân tích, so sánh Kho liệu Phân tích liệu lớn CHƯƠNG I KHÁI NIỆM DỮ LIỆU LỚN 1.1 Thuật ngữ “Dữ liệu lớn” Sử dụng liệu để hiểu khách hàng hoạt động kinh doanh nhằm trì thúc đẩy tăng trưởng lợi nhuận nhiệm vụ ngày khó khăn tập đoàn Khi liệu ngày nhiều đa dạng Việc xử lý liệu theo cách truyền thống thời gian cho chấp nhận trở nên không thực tế Vấn đề ngày gọi Dữ liệu lớn, khái niệm mà nhận quan tâm đáng kể từ doanh nghiệp chuyên gia công nghệ thông tin Hậu từ “Dữ liệu lớn” trở nên phổ biến bị lạm dụng mức Ban đầu, thuật ngữ “Dữ liệu lớn” dùng để mô tả khối lượng liệu khổng lồ phân tích với tổ chức lớn Google dùng để nghiên cứu dự án khoa học NASA Nhưng với hầu hết doanh nghiệp, từ “lớn” phụ thuộc vào quy mơ doanh nghiệp Dữ liệu lớn liệu mà vượt phạm vi thông thường môi trường phần cứng / khả công cụ phần mềm để lưu trữ, quản lý xử lý khoảng thời gian chấp nhận Dữ liệu lớn trở thành thuật ngữ phổ biến để mô tả liệu với tăng trưởng theo cấp số mũ, sẵn có bao gồm liệu có cấu trúc khơng cấu trúc Một câu hỏi có Dữ liệu lớn từ đâu? Câu trả lời đơn giản “khắp nơi” Các nguồn liệu từ xưa bị lãng quên giới hạn mặt phần cứng khai thác mỏ vàng Dữ liệu lớn thu tập từ nhật ký web (Web logs), RFID, hệ thống GPS, mạng lưới cảm biến, mạng xã hội, tài liệu văn internet, mục tìm kiếm, chi tiết ghi âm gọi, thiên văn học, liệu thời tiết, sinh học, địa lý, vật lý hạt nhân, thí nghiệm sinh hố, hồ sơ y tế, nghiên cứu khoa học, nhiếp ảnh, video, thông tin sàn thương mại điện tử nhiều lĩnh vực khác Dữ liệu lớn khơng cịn mới, điều định nghĩa cấu trúc Dữ liệu lớn liên tục thay đổi Các công ty, tổ chức thực lưu trữ phân tích khối lượng lớn liệu kể từ đời kho liệu vào năm 1990 Từ lúc terabyte dùng làm đơn vị cho kho liệu lớn đến petabyte tốc độ tăng trưởng liệu liên tục tăng đáng kể cơng ty, tổ chức tìm cách lưu trữ phân tích theo mức độ chi tiết cho giao dịch họ liệu sản sinh từ hoạt động web vận hành máy móc, để hiểu rõ hành vi khách hàng vận hành doanh nghiệp Nhiều người (bao gồm nhà phân tích, học thuật lãnh đạo) cho thuật ngữ “Dữ liệu lớn” bị hiểu sai Dữ liệu lớn không lớn Khối lượng liệu khổng lồ nhiều đặc trưng thường thấy gắn với Dữ liệu lớn, kể đến đặc trưng khác đa dạng, vận tốc gia tăng, tính xác thực, … 1.2 Khái niệm ”V” định nghĩa Dữ liệu lớn Dữ liệu lớn thường định nghĩa khái niệm 3V: Volume (khối lượng), Variety (tính đa dạng) Velocity (tốc độ tăng trưởng) Ngoài ra, vài tổ chức cung cấp nghiên cứu Dữ liệu lớn đưa thêm vài V bao gồm: Veracity (tính chân thực) từ IBM, Variability (tính biến động) từ SAS Volume (dung lượng khối lượng) Dung lượng rõ ràng đặc điểm thường thấy Dữ liệu lớn Có nhiều yếu tố góp phần làm tăng khối lượng liệu theo cấp số nhân, liệu giao dịch lưu trữ hàng năm, liệu văn truyền phát từ phương tiện truyền thông, gia tăng cảm biến thu thập liệu, liệu tự động phát sinh từ RFIP GPS, … Trong khứ, khối lượng liệu tải tạo đế lưu trữ, kỹ thuật tài Nhưng với ngày nay, công nghệ lưu trữ tân tiến với việc giảm đáng kể chi phí lưu trữ, vấn đề cũ khơng cịn đáng kể; thay vào đó, vài vấn đề xuất hiện, bao gồm cách xác định mức độ phù hợp khối lượng lớn liệu làm để tìm giá trị hữu dụng có liên quan từ liệu Như đề cập từ trước, “lớn” thuật ngữ mang tính tương đối Nó thay đổi theo thời gian xác định khác tổ chức Với gia tăng đáng kinh ngạc khối lượng liệu, chí việc đặt tên cho đơn vị liệu Dữ liệu lớn thách thức Đơn vị giữ vị trí cao liệu gọi petabyte (PB) bị thay zettabyte (ZB), đơn vị tương đương với nghìn tỷ gigabyte (GB) tỷ terabyte (TB) Kích thước liệu ngày lớn lớn Việc đong đếm cho kích thước liệu gặp khó khăn việc theo kịp đơn vị Chúng ta biết kilobyte (KB, 1.000 byte), megabyte (MB, 1.000.000 byte), gigabyte (GB, 1.000.000.000 byte) terabyte (TB, 1.000.000.000.000 byte) Ngồi ra, tên đặt cho kích thước liệu tương đối hầu hết Bảng trình bày đơn vị đến sau terabyt Hình 1.1: Bảng đơn vị kích thước liệu Với việc exabyte liệu tạo internet ngày, tương đương với 250 triệu đĩa DVD giá trị thông tin Và ý tưởng việc lượng liệu lớn zettabyte khơng q xa nói đến lượng liệu thơng qua web năm Trên thực tế, chuyên gia ước tính thấy lưu lượng liệu vào khoảng 1,3 zettabytes internet vào 2016, sớm bắt đầu nói đơn vị liệu lớn Khi đề cập đến yottabytes, vài chuyên gia Dữ liệu lớn nói việc NSA FBI lưu trữ liệu nhân Nếu lưu trữ đĩa DVD, yottabyte cần 250 nghìn tỷ đĩa Brontobyte, đơn vị khơng có hệ SI cách thức, công nhận với số người cộng đồng đo lường liệu, đơn vị mà có ý nghĩa số theo sau 27 số Với kích thước liệu dùng để mơ tả lượng liệu cảm biến thu từ internet tập kỷ tới, chí sớm Để tìm hiểu Dữ liệu lớn đến từ đâu, vài ví dụ:  Máy va chạm Hadron lớn CERN tạo petabyte giây  Các cảm biến từ động phản lực động Boeing tạo 20 terabytes giây  500 terabytes liệu ngày thêm vào sở liệu Facebook  Trên YouTube, 72 tiếng video tải lên phút, tương đương với terabyte phút  Kính thiên văn học lớn giới – Square Kilometre Array, tạo exabyte ngày Với góc nhìn lịch ngắn giới internet đại, giới năm 2009 có khoảng 0.8ZB liệu; năm 2010 vượt mốc 1ZB; vào cuối năm 2011, số khoảng 1.8ZB Con số ước tính IBM sau 6,7 năm từ năm 2013 35ZB Mặc dù với khối lượng đáng kinh ngạc số liệu này, thách thức hội từ khơng cạnh Variety (tính đa dạng) Dữ liệu ngày xuất tất loại định dạng khác nhau, từ sở liệu truyền thống để lưu trữ liệu phân cấp tạo người dùng cuối hệ thống OLAP, đến tài liệu văn bản, e-mail, XML, liệu cảm biến, liệu video, âm chứng khốn Theo số ước tính, 80 đến 85% liệu tất tổ chức liệu loại định dạng không cấu trúc bán cấu trúc (một định dạng không phù hợp với lược đồ sở liệu truyền thống) Nhưng khơng thể phủ nhận giá trị nó, phải đưa vào phân tích để hỗ trợ việc định Velocity (vận tốc) Theo Gartner, vận tốc Dữ liệu lớn có ý nghĩa tốc độ sản sinh liệu liệu cần phải xử lý nhanh (nắm bắt, lưu trữ phân tích) để đáp ứng nhu cầu Vận tốc có lẽ đặc điểm dễ bị bỏ qua Dữ liệu lớn Phản ứng đủ nhanh để đối phó với vận tốc liệu thách thức hầu hết tổ chức Đối với môi trường nhạy cảm với thời gian, đồng hồ chi phí hội bắt đầu chạy vào lúc liệu tạo Khi thời gian trôi qua, giá trị liệu giảm xuống cuối trở nên khơng cịn hữu dụng Cho dù đối tượng liệu sức khỏe bệnh nhân, tình trạng hệ thống giao thơng, tình trạng danh mục đầu tư, tiếp cận phản ứng nhanh với liệu hoàn cảnh khác tạo kết thuận lợi Trong bão liệu lớn nay, hầu hết người cố định phân tích phần cịn lại, sử dụng phần mềm hệ thống phần cứng tối ưu hóa để khai thác số lượng lớn nguồn liệu đa dạng Mặc dù điều quan trọng có giá trị cao, có lớp phân tích khác điều khiển từ chất vận tốc Dữ liệu lớn, gọi luồng liệu phân tích, mà hầu hết bị bỏ qua Nếu thực đúng, liệu phân tích luồng có giá trị số mơi trường kinh doanh có giá trị hơn, phân tích cịn lại Veracity (tính xác thực) Tính xác thực thuật ngữ sử dụng “V” thứ dùng để mô tả Dữ liệu lớn IBM Nó đề cập đến phù hợp với thật: tính xác, chất lượng, tính trung thực độ tin cậy liệu Các công cụ kỹ thuật thường sử dụng để xử lý tính xác Dữ liệu lớn cách chuyển đổi liệu thành hiểu biết đáng tin cậy có ý nghĩa Variability (tính khơng qn) Ngồi vận tốc tính đa dạng liệu ngày tăng, luồng liệu khơng qn cách rõ rệt Liệu điều có xu hướng mạnh phương tiện truyền thông xã hội? Dữ liệu theo ngày, theo mùa liệu kích hoạt theo kiện thách thức để quản lý, đặc biệt phương tiện truyền thông xã hội có liên quan CHƯƠNG II CÁC NGUYÊN TẮC CƠ BẢN TRONG PHÂN TÍCH DỮ LIỆU LỚN Với đầu tư cho công nghệ thông tin nào, thành cơng việc phân tích Dữ liệu lớn phụ thuộc vào vài yếu tố then chốt Hình 1.2: Các nhân tố then chốt cho việc phân tích Dữ liệu lớn Nhu cầu kinh doanh rõ ràng (phù hợp với tầm nhìn chiến lược doanh nghiệp, tổ chức) Đầu tư kinh doanh nên thực lợi ích doanh nghiệp, khơng phải tiến cơng nghệ Do đó, mục tiêu 10 phân tích Dữ liệu lớn phải giải nhu cầu doanh nghiệp cấp độ chiến lược, chiến thuật vận hành Lời cam kết tài trợ vững Có thực tế tiếng bạn khơng có nhà tài trợ vững chắc, khó (có thể nói không thể) để thành công Nếu phạm vi dự án một vài ứng dụng phân tích, cấp độ tài trợ cấp phịng ban Tuy nhiên mục tiêu chuyển đổi toàn diện tập tổ chức, thường sáng kiến thường gặp làm với Dữ liệu lớn, mức tài trợ cần phải cấp cao với toàn tổ chức Sự cân đối chiến lược kinh doanh công nghệ thông tin Đây điều cần thiết để đảm bảo cơng việc phân tích Dữ liệu lớn hỗ trợ trực tiếp chiến lược kinh doanh cách vịng khác Việc phân tích đóng vai trị then chốt thành công chiến lược kinh doanh Văn hoá doanh nghiệp: định dựa thực tế Trong văn hoá định dựa thực tế, số quan trọng trực giác Ngoài có văn hố định mang tính thử nghiệm để xem có tác dụng khơng Để tạo nên văn hố tổ chức định dựa thực tế, nhà quản lý cấp cao cần phải:  Nhận nhân khơng thể làm việc thích ứng với thay đổi công nghệ  Trở thành người hỗ trợ phát biểu  Sự căng thẳng phương pháp lỗi thời cần phải loại bỏ 11  Cần thảo luận để xem phân tích cần thiết cho việc định  Kết hợp phần thưởng với kết khả quan Một sở hạ tầng liệu mạnh mẽ Các kho liệu cung cấp sở hạ tầng liệu cho việc phân tích Cơ sở hạ tầng thay đổi cải tiến kỷ nguyên Dữ liệu lớn với cơng nghệ Sự thành cơng địi hỏi kết nối cũ cho sở hạ tầng hoạt động cách toàn diện Với mục tiêu bắt kịp nhu cầu tính tốn cho phân tích Dữ liệu lớn, vài kĩ thuật tảng tính tốn phát triển Những kĩ thuật thường gọi tính tốn hiệu cao, bao gồm kĩ thuật sau:  Phân tích nhớ trong: Giải vấn đề phức tạp gần thời gian thực với độ xác cao xác cách cho phép tính tốn phân tích Dữ liệu lớn xử lý nhớ phân phối tập hợp nút chuyên dụng  Phân tích sở liệu  Tính toán lưới  Tận dụng thiết bị  Gia tăng khối lượng liệu  Tích hợp liệu  Khả xử lý  Quản lý liệu  Quản lý chi phí 12 CHƯƠNG III CÁC CƠNG NGHỆ CHO DỮ LIỆU LỚN 3.1 MapReduce Giới thiệu Mapreduce mơ hình lập trình nghiên cứu Google, với mục đích thực q trình xử lý tập liệu lớn cụm lớn máy Kết tốt thu lại từ việc chia nhỏ quy trình xử lý thành việc nhỏ chạy hàng trăm, chí hàng nghìn node (nốt) cụm qua vịng lặp Mapreduce gồm pha: map reduce Hàm Map: Các xử lý cặp (key, value) để sinh cặp (keyI, valueI) - key value trung gian Dữ liệu input vào hàm Reduce Hàm Reduce: Tiếp nhận (keyI, valueI) trộn cặp (keyI, valueI) trung gian, lấy valueI có keyI Việc lập trình viên quan tâm tới hàm Map Reduce Còn vấn đề khác như: phân chia liệu đầu vào, lịch trình thực thi máy con, xử lý lỗi máy con, quản lý việc giao tiếp máy việc hệ thống Lập trình viên khơng có kinh nghiệm hệ thống song song phân tán dễ dàng vận hành hệ thống phân tán lớn Áp dụng mơ hình MapReduce chạy lượng lớn hệ thống cỡ hàng ngàn máy liệu lên đến mức Terabytes Một vài phân tích, quy trình xử lý xử dụng mơ hình MapReduce dễ dàng hiệu quả: 13  Thống kê số từ khoá xuất văn (bài tốn wordcount)  Thống kê số tài liệu có chứa từ khoá  Thống kê số câu phù hợp với mẫu cho trước văn  Thống kê số URLs xuất trang web  Thống kê số lượt truy cập URLs  Sắp xếp phân tán Hình 1.3: Sơ đồ hoạt động MapReduce 14 Lợi ích MapReduce MapReduce hỗ trợ tổ chức xử lý phân tích khối lượng lớn liệu đa cấu trúc Các ứng dụng ví dụ bao gồm lập mục tìm kiếm, phân tích biểu đồ, phân tích văn bản, học máy, chuyển đổi liệu, v.v Những ứng dụng thường khó thực cách sử dụng SQL (ngôn ngữ truy vấn cấu trúc) tiêu chuẩn thực thi hệ quản trị sở liệu quan hệ Bản chất MapReduce làm cho dễ hiểu lập trình viên Nó có lợi giúp nhà phát triển khơng phải quan tâm triển khai tính tốn song song, điều hệ thống xử lý minh bạch rõ ràng Mặc dù MapReduce thiết kế cho lập trình viên, người khơng ràng lập trình khai thác giá trị ứng dụng thư viện hàm dựng sẵn MapReduce Cả thương mại nguồn mở, thư viện MapReduce có sẵn cung cấp loạt khả phân tích Chẳng hạn, Apache Mahout thư viện máy học mã nguồn mở có thuật tốn hỗ trợ phân cụm, phân loại lọc cộng tác dựa hàng loạt triển khai sử dụng MapReduce 15 3.2 Hadoop Giới thiệu Hadoop framework nguồn mở viết Java cho phép phát triển ứng dụng phân tán có cường độ liệu lớn cách miễn phí Nó cho phép ứng dụng làm việc với hàng ngàn node khác hàng petabyte liệu Hadoop lấy phát triển dựa ý tưởng từ cơng bố Google mơ hình MapReduce hệ thống file phân tán Google File System (GFS) Như mơ hình lập trình Map Reduce tảng ý tưởng Hadoop Bản thân Hadoop framework cho phép phát triển ứng dụng phân tán phần cứng thơng thường Các phần cứng thường có khả hỏng hóc cao Khác với loại phần cứng chuyên dụng đắt tiền, khả xảy lỗi thấp supermicrocomputer chẳng hạn Hadoop viết Java Tuy nhiên, nhờ chế streaming, Hadoop cho phép phát triển ứng dụng phân tán java lẫn số ngơn ngữ lập trình khác C++, Python, Pearl Các thành phần Hadoop  Core: cung cấp công cụ giao diện cho hệ thống phân tán tiện ích vào Đây phần lõi để xây dựng nên HDFS MapReduce 16  MapReduce (MapReduce Engine): framework giúp phát triển ứng dụng phân tán theo mơ hình MapReduce cách dễ dàng mạnh mẽ, ứng dụng phân tán MapReduce chạy cụm lớn với nhiều node  HDFS (Hadoop Distributed File System): hệ thống file phân tán, cung cấp khả lưu trữ liệu khổng lồ tính tối ưu hố việc sử dụng băng thơng node HDFS sử dụng để chạy cluster lớn với hàng chục ngàn node  HBase: sở liệu phân tán, theo hướng cột (colunm-oriented) HBase sử dụng HDFS làm hạ tầng cho việc lưu trữ liệu bên cung cấp khả tính tốn song song dựa MapReduce  Hive: data warehouse phân tán Hive quản lý liệu lưu trữ HDFS cung cấp ngôn ngữ truy vấn dựa SQL  Chukwa: hệ thống tập hợp phân tích liệu Chukwa chạy collector (các chương trình tập hợp liệu), collector lưu trữ liệu HDFS sử dụng MapReduce để phát sinh báo cáo Cách vận hành Hadoop Ban đầu MapReduce job chia tác vụ, tổng hợp chúng vào trình daemon quản lý nhớ, quản lý đọc ghi file giảm sát trạng thái HDFS,  MapReduce job: đơn vị công việc mà client muốn thực hiện: bao gồm liệu đầu vào, chương trình MapReduce, thơng tin cấu hình Hadoop chạy cơng việc (job) cách chia thành 17 nhiệm vụ (task), có hai kiểu là: nhiệm vụ map (map task) nhiệm vụ reduce (reduce task)  NameNode: Là trình quan trọng Hadoop - NameNode Hadoop sử dụng kiển trúc master/slave cho lưu trữ phân tán xử lý phân tán Hệ thống lưu trữ phân tán gọi Hadoop File System hay HDFS NameNode master HDFS để đạo trình DataNode slave để thực nhiệm vụ vào mức thấp NameNode theo dõi HDFS, cách tập tin phân chia thành block, node lưu khối đó, “kiểm tra sức khỏe” tổng thể hệ thống tệp phân tán Chức NameNode nhớ (memory) vào chuyên sâu Như vậy, máy chủ lưu trữ NameNode thường không lưu trữ liệu người dùng thực tính tốn cho ứng dụng MapReduce để giảm khổi lượng công việc máy Điều có nghĩa máy chủ NameNode khơng gấp đơi (double) DataNode hay TaskTracker  DataNode: Mỗi máy slave cluster lưu trữ (host) trình DataNode để thực cơng việc hệ thống file phân tán đọc ghi khối HDFS tới file thực tế hệ thống file cục (local filesytem) Khi muốn đọc hay ghi file HDFS, file chia nhỏ thành khối NameNode nói cho client nơi khối trình DataNode nằm Client liên lạc trực tiếp với trình DataNode để xử lý file cục tương ứng với block Hơn nữa, DataNode giao tiếp với DataNode khác để nhân khối liệu để dự phịng 18  JobTracker: Trình JobTracker liên lạc ứng dụng bạn Hadoop Một bạn gửi mã nguồn bạn tới cụm, JobTracker định kế hoạch thực cách xác định tập tin xử lý, nút giao nhiệm vụ khác nhau, theo dõi tất nhiệm vụ chúng chạy Nếu nhiệm vụ (task) thất bại (fail), JobTracker tự động chạy lại nhiệm vụ đó, node khác, giới hạn định sẵn việc thử lại Chỉ có JobTracker cụm Hadoop Nó thường chạy máy chủ nút master cụm  TaskTrachker: Như với trình lưu trữ, trình tính tốn phải tuân theo kiến trúc master/slave: JobTracker giám sát tổng việc thực chung công việc MapRecude TaskTracker quản lý việc thực nhiệm vụ riêng node slave Mỗi TaskTracker chịu trách nhiệm thực tác vụ riêng mà JobTracker giao cho Mặc dù có TaskTracker cho node slave, TaskTracker sinh nhiều JVM để xử lý nhiệm vụ Map Reduce song song Ưu nhược điểm Hadoop Lợi ích Hadoop cho phép doanh nghiệp xử lý phân tích khối lượng lớn liệu khơng có cấu trúc bán cấu trúc, theo cách truy cập theo cách hiệu mặt thời gian Bởi cụm Hadoop mở rộng thành petabyte chí exabyte liệu, doanh nghiệp khơng cịn phải dựa vào tập liệu mẫu mà xử lý phân tích tất liệu liên quan Các nhà khoa học liệu áp dụng cách tiếp cận lặp lại 19 ... CHƯƠNG I KHÁI NIỆM DỮ LIỆU LỚN 1.1 Thuật ngữ ? ?Dữ liệu lớn? ?? 1.2 Khái niệm ”V” định nghĩa Dữ liệu lớn .4 CHƯƠNG II CÁC NGUYÊN TẮC CƠ BẢN TRONG PHÂN TÍCH DỮ LIỆU LỚN ... người (bao gồm nhà phân tích, học thuật lãnh đạo) cho thuật ngữ ? ?Dữ liệu lớn? ?? bị hiểu sai Dữ liệu lớn không lớn Khối lượng liệu khổng lồ nhiều đặc trưng thường thấy gắn với Dữ liệu lớn, kể đến đặc... Hadoop, MapReduce NoSQL Thêm phân tích, so sánh Kho liệu Phân tích liệu lớn CHƯƠNG I KHÁI NIỆM DỮ LIỆU LỚN 1.1 Thuật ngữ ? ?Dữ liệu lớn? ?? Sử dụng liệu để hiểu khách hàng hoạt động kinh doanh nhằm

Ngày đăng: 26/02/2023, 18:30

w