1. Trang chủ
  2. » Tất cả

Đề xuất giá trị hứa hẹn nhất của phân tích dữ liệu lớn

44 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC ĐỀ TÀI KHAI PHÁ DỮ LIỆU CHUYÊN NGÀNH TOÁN TIN CHUYÊN SÂU TIN HỌC GIẢNG VIÊN HƯỚNG DẪN LÊ CHÍ NGỌC SINH VIÊN THỰC HIỆN ĐINH VĂN HÙNG MỤC LỤ[.]

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC ĐỀ TÀI: KHAI PHÁ DỮ LIỆU CHUYÊN NGÀNH: TOÁN TIN CHUYÊN SÂU: TIN HỌC GIẢNG VIÊN HƯỚNG DẪN: LÊ CHÍ NGỌC SINH VIÊN THỰC HIỆN: ĐINH VĂN HÙNG MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG 1: ĐỊNH NGHĨA VỀ DỮ LIỆU LỚN .4 CHƯƠNG 2: NGUYÊN TẮC CƠ BẢN CỦA PHÂN TÍCH DỮ LIỆU LỚN 10 CHƯƠNG 3: CÔNG NGHỆ DỮ LIỆU LỚN 16 CHƯƠNG 4: DỮ LIỆU LỚN VÀ KHO DỮ LIỆU 24 CHƯƠNG 5: DỮ LIỆU LỚN VÀ PHÂN TÍCH LUỒNG 31 CHƯƠNG 6: CÁC ỨNG DỤNG CỦA STREAM ANALYTICS .36 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41 LỜI MỞ ĐẦU Dữ liệu lớn, có nghĩa nhiều thứ nhiều người, mốt cơng nghệ Đó ưu tiên kinh doanh có tiềm thay đổi sâu sắc bối cảnh cạnh tranh kinh tế hội nhập toàn cầu ngày Ngoài việc cung cấp giải pháp sáng tạo để vượt qua thách thức kinh doanh, Dữ liệu lớn phân tích thúc đẩy cách để chuyển đổi quy trình, tổ chức, tồn ngành chí xã hội Tuy nhiên, phương tiện truyền thông rộng rãi làm cho khó phân biệt cường điệu với thực tế Chương nhằm cung cấp phạm vi bao quát toàn diện Dữ liệu lớn, công nghệ cho phép khái niệm phân tích liên quan để giúp hiểu khả hạn chế công nghệ Chương bắt đầu với định nghĩa khái niệm liên quan đến Dữ liệu lớn, theo sau chi tiết kỹ thuật công nghệ cho phép bao gồm Hadoop, MapReduce NoQuery Sau mô tả nhà khoa học liệu vai trị / cơng việc tổ chức thời trang mới, chúng tơi cung cấp phân tích so sánh kho liệu phân tích Dữ liệu lớn Phần cuối chương dành riêng cho phân tích luồng, đề xuất giá trị hứa hẹn phân tích Dữ liệu lớn Báo cáo gồm chương sau:  Chương 1: Định nghĩa liệu lớn  Chương 2: Nguyên tắc phân tích liệu lớn  Chương 3: Công nghệ liệu lớn  Chương 4: Dữ liệu lớn kho liệu  Chương 5: Dữ liệu lớn phân tích luồng  Chương 6: Các ứng dụng Stream Analytics Em xin gửi lời cảm ơn sâu sắc tới thầy Lê Chí Ngọc tận tình hướng dẫn em hồn thành tập CHƯƠNG 1: ĐỊNH NGHĨA VỀ DỮ LIỆU LỚN Sử dụng liệu để hiểu khách hàng / khách hàng hoạt động kinh doanh để trì tăng trưởng (và thúc đẩy) tăng trưởng lợi nhuận nhiệm vụ ngày khó khăn doanh nghiệp Khi ngày có nhiều liệu có sẵn hình thức thời trang khác nhau, việc xử lý kịp thời liệu phương tiện truyền thống trở nên không thực tế Hiện tượng ngày gọi Big Data, nhận bao phủ báo chí đáng kể thu hút quan tâm ngày tăng từ người dùng doanh nghiệp chuyên gia CNTT Kết Big Data trở thành từ thông dụng tiếp thị mức bị lạm dụng Dữ liệu lớn có nghĩa thứ khác cho người có tảng sở thích khác Theo truyền thống, thuật ngữ xuất liệu lớn sử dụng để mô tả khối lượng liệu khổng lồ phân tích tổ chức lớn Google nghiên cứu dự án khoa học NASA Nhưng hầu hết doanh nghiệp, có thuật ngữ tương đối: Big Big phụ thuộc vào quy mô tổ chức Vấn đề tìm kiếm giá trị ngồi nguồn liệu thông thường Việc vượt qua ranh giới phân tích liệu khám phá hiểu biết hội mới, Lớn big Phụ thuộc vào nơi bạn bắt đầu cách bạn tiến hành Xem xét mô tả phổ biến Dữ liệu lớn: Dữ liệu lớn vượt phạm vi môi trường phần cứng / khả thường sử dụng công cụ phần mềm để nắm bắt, quản lý xử lý khoảng thời gian chấp nhận dân số người dùng Dữ liệu lớn trở thành thuật ngữ phổ biến để mô tả tăng trưởng theo cấp số nhân, tính sẵn có sử dụng thơng tin, có cấu trúc không cấu trúc Phần lớn viết xu hướng Dữ liệu lớn làm làm sở cho đổi mới, phân biệt tăng trưởng Dữ liệu lớn đến từ đâu? Một câu trả lời đơn giản khắp nơi Các nguồn bị bỏ qua hạn chế kỹ thuật coi mỏ vàng Dữ liệu lớn đến từ nhật ký web, RFID, hệ thống GPS, mạng cảm biến, mạng xã hội, tài liệu văn Internet, mục tìm kiếm Internet, hồ sơ gọi chi tiết, thiên văn học, khoa học khí quyển, sinh học, genomics, vật lý hạt nhân, thí nghiệm sinh hóa, hồ sơ y tế , nghiên cứu khoa học, giám sát quân sự, lưu trữ nhiếp ảnh, lưu trữ video thực hành thương mại điện tử quy mô lớn Dữ liệu lớn Điều định nghĩa cấu trúc Dữ liệu lớn liên tục thay đổi Các công ty lưu trữ phân tích khối lượng liệu lớn kể từ kho liệu đời vào đầu năm 1990 Mặc dù terabyte trước đồng nghĩa với kho Dữ liệu lớn, petabyte tốc độ tăng trưởng khối lượng liệu tiếp tục leo thang tổ chức tìm cách lưu trữ phân tích mức độ chi tiết giao dịch cao hơn, liệu Web máy tạo ra, để có hiểu biết tốt hành vi khách hàng trình điều khiển kinh doanh Nhiều người (các nhà phân tích / nhà phân tích học thuật nhà lãnh đạo ngành công nghiệp) cho rằng, Dữ liệu Lớn Lớn cách hiểu sai Những nói có nghĩa khơng hồn tồn giống Đó là, Dữ liệu lớn khơng lớn, liệu Khối lượng liệu tuyệt đối nhiều đặc điểm thường liên kết với Dữ liệu lớn, chẳng hạn tính đa dạng, vận tốc, tính xác thực, tính biến đổi giá trị, số đặc điểm khác Ba V xác định liệu lớn Dữ liệu lớn thường xác định V: volume (khối lượng), variety (sự đa dạng) , velocity (vận tốc) Ngồi ba yếu tố này, chúng tơi thấy số nhà cung cấp giải pháp Dữ liệu lớn hàng đầu bổ sung Vs khác, chẳng hạn tính xác thực (IBM), tính biến thiên (SAS) đề xuất giá trị Khối lượng Khối lượng rõ ràng đặc điểm chung Dữ liệu lớn Nhiều yếu tố góp phần làm tăng khối lượng liệu theo cấp số nhân, chẳng hạn liệu dựa giao dịch lưu trữ qua nhiều năm, liệu văn liên tục truyền phát từ phương tiện truyền thông xã hội, tăng lượng liệu cảm biến thu thập, tự động tạo liệu RFID GPS, v.v Trong khứ, khối lượng liệu mức tạo vấn đề lưu trữ, kỹ thuật tài Nhưng với ngày nay, công nghệ tiên tiến với việc giảm chi phí lưu trữ, vấn đề khơng cịn đáng kể nữa; thay vào đó, vấn đề khác xuất hiện, bao gồm cách xác định mức độ liên quan khối lượng liệu lớn cách tạo giá trị từ liệu coi có liên quan Như đề cập trước đây, lớn thuật ngữ tương đối Nó thay đổi theo thời gian tổ chức khác cảm nhận khác Với gia tăng đáng kinh ngạc khối lượng liệu, việc đặt tên cho tiếng vang Big Data thách thức Khối lượng liệu cao gọi petabyte (PB) rời vị trí thành zettabyte (ZB), nghìn tỷ gigabyte (GB) tỷ terabyte (TB) Thông tin chi tiết công nghệ 6.1 cung cấp tổng quan kích thước cách đặt tên khối lượng Dữ liệu lớn Kích thước liệu ngày lớn lớn Việc đo kích thước liệu gặp khó khăn việc theo kịp tên Chúng ta biết kilobyte (KB, 1.000 byte), megabyte (MB, 1.000.000 byte), gigabyte (GB, 1.000.000.000 byte) terabyte (TB, 1.000.000.000.000 byte) Ngồi ra, tên đặt cho kích thước liệu tương đối hầu hết Bảng cho thấy đến sau terabyte Hãy xem xét exabyte liệu tạo Internet ngày, tương đương với 250 triệu đĩa DVD có giá trị thơng tin Và ý tưởng số lượng liệu lớn nữa, Zettabyte, xa vời nói đến lượng thơng tin truyền tải Web năm Trên thực tế, chuyên gia ngành ước tính thấy 1,3 zettabyte lưu lượng truy cập hàng năm qua Internet vào năm 2016 sau đó, bắt đầu nói khối lượng chí lớn Khi đề cập đến yottabyte, số nhà khoa học Dữ liệu lớn thường tự hỏi việc NSA FBI có liệu người Đặt dạng DVD, yottabyte cần 250 nghìn tỷ Một brontobyte, khơng phải tiền tố SI thức rõ ràng số người cộng đồng đo lường nhận ra, số theo sau 27 số khơng Kích thước cường độ sử dụng để mô tả lượng liệu cảm biến mà nhận từ Internet thập kỷ tới, không sớm Một gegobyte 10 đến sức mạnh 30 Đối với nguồn gốc Dữ liệu lớn, xem xét điều sau: Tên Ký hiệu Giá trị Kilobyte kB 103 Megabyte MB 106 Gigabyte GB 109 Terabyte TB 1012 Petabyte PB 1015 Exabyte EB 1018 Zettabyte ZB 1021 Yottabyte YB 1024 Brontobyte* BB 1027 Gegobyte* GeB 1030 * Chưa phải tên / ký hiệu SI (Hệ thống đơn vị quốc tế) thức  Máy va chạm Hadron lớn Cern tạo petabyte giây  Các cảm biến từ động phản lực Boeing tạo 20 terabyte liệu  500 terabyte liệu ngày nhập vào sở liệu Facebook  Trên YouTube, 72 video tải lên phút, dịch sang terabyte sau phút  Kính thiên văn Square Kilometre đề xuất (kính thiên văn lớn giới đề xuất) tạo exabyte liệu ngày Đa dạng Dữ liệu ngày có tất loại định dạng khác nhau, từ sở liệu truyền thống đến kho lưu trữ liệu phân cấp tạo người dùng cuối hệ thống OLAP tài liệu văn bản, e-mail, XML, liệu thu thập liệu thu từ cảm biến, đến video, âm liệu đánh dấu chứng khoán Theo số ước tính, 80 đến 85 phần trăm tất tổ chức Dữ liệu liệu dạng định dạng không cấu trúc bán cấu trúc (một định dạng không phù hợp với lược đồ sở liệu truyền thống) Nhưng phủ nhận giá trị nó, đó, phải đưa vào phân tích để hỗ trợ cho việc định Vận tốc Vận tốc có lẽ đặc điểm bị bỏ qua Dữ liệu lớn Phản ứng đủ nhanh để đối phó với vận tốc thách thức hầu hết tổ chức Đối với môi trường nhạy cảm với thời gian, đồng hồ chi phí hội liệu bắt đầu đánh dấu thời điểm liệu tạo Thời gian trôi qua, đề xuất giá trị liệu xuống cấp cuối trở nên vô giá trị Cho dù đối tượng sức khỏe bệnh nhân, sức khỏe hệ thống giao thông hay sức khỏe danh mục đầu tư, truy cập liệu phản ứng nhanh với hoàn cảnh tạo kết thuận lợi Trong bão liệu lớn mà chứng kiến, hầu hết người cố định vào phân tích nghỉ ngơi, sử dụng hệ thống phần mềm phần cứng tối ưu hóa để khai thác số lượng lớn nguồn liệu biến thể Mặc dù điều quan trọng có giá trị cao, có loại phân tích khác, điều khiển từ vận tốc Dữ liệu lớn, gọi phân tích luồng liệu Google, hay phân tích chuyển động, mà hầu hết bị bỏ qua Nếu thực xác, phân tích luồng liệu có giá trị số mơi trường kinh doanh có giá trị so với phân tích phần cịn lại Độ xác Veracity thuật ngữ đặt IBM sử dụng V V thứ tư để mơ tả Dữ liệu lớn Nó đề cập đến phù hợp với thật: tính xác, chất lượng, tính trung thực độ tin cậy liệu Các công cụ kỹ thuật thường sử dụng để xử lý tính xác Big Data, cách chuyển đổi liệu thành hiểu biết đáng tin cậy chất lượng Sự thay đổi Ngoài vận tốc giống liệu ngày tăng, luồng liệu khơng qn cao với đỉnh định kỳ Là xu hướng lớn phương tiện truyền thông xã hội? Có lẽ có IPO cao cấp lờ mờ Có lẽ bơi lợn Bahamas hoạt động nghỉ mát phải làm Tải liệu cao điểm hàng ngày, theo mùa kích hoạt kiện thách thức để quản lý, đặc biệt với phương tiện truyền thông xã hội liên quan Đề xuất giá trị Sự phấn khích xung quanh Big Data đề xuất giá trị Một khái niệm định sẵn liệu Big big chứa (hoặc có tiềm lớn để chứa) nhiều mẫu bất thường thú vị so với liệu YouTube Do đó, cách phân tích liệu lớn giàu tính năng, tổ chức đạt giá trị kinh doanh lớn mà họ khơng có Mặc dù người dùng phát mẫu tập liệu nhỏ phương pháp thống kê học máy đơn giản công cụ báo cáo truy vấn đặc biệt, Dữ liệu lớn có nghĩa phân tích big big Phân tích lớn có nghĩa nhìn sâu sắc định tốt hơn, điều mà tổ chức cần Do định nghĩa xác Dữ liệu lớn vấn đề thảo luận liên tục giới học thuật cơng nghiệp, nên có nhiều đặc điểm (có lẽ nhiều Vs) thêm vào danh sách Bất kể điều xảy ra, tầm quan trọng giá trị Big Data Hình 6.1 cho thấy kiến trúc khái niệm liệu lớn (ở phía bên trái hình) chuyển đổi thành hiểu biết kinh doanh thông qua việc sử dụng kết hợp phân tích nâng cao phân phối cho nhiều người dùng / vai trò khác để đưa định nhanh / tốt CHƯƠNG 2: NGUYÊN TẮC CƠ BẢN CỦA PHÂN TÍCH DỮ LIỆU LỚN Dữ liệu lớn tự nó, kích thước, loại tốc độ, vơ giá trị trừ người dùng doanh nghiệp làm điều với mang lại giá trị cho tổ chức họ Đó nơi mà phân tích lớn Edward vào hình ảnh Mặc dù tổ chức chạy báo cáo bảng điều khiển chống lại kho liệu, hầu hết không mở kho lưu trữ để thăm dò theo yêu cầu chuyên sâu Điều phần công cụ phân tích phức tạp người dùng trung bình kho lưu trữ thường không chứa tất liệu cần thiết người dùng điện Nhưng điều thay đổi (và thay đổi, số người) theo cách ấn tượng, nhờ vào mơ hình phân tích Dữ liệu lớn Với đề xuất giá trị, Big Data mang lại thách thức lớn cho tổ chức Các phương tiện truyền thống để thu thập, lưu trữ phân tích liệu khơng có khả xử lý Dữ liệu lớn cách hiệu hiệu Do đó, giống cơng nghệ cần phát triển (hoặc mua / thuê / thuê ngoài) để thực thách thức Dữ liệu lớn Trước thực đầu tư vậy, tổ chức nên biện minh cho phương tiện Dưới số câu hỏi giúp làm sáng tỏ tình Nếu tuyên bố sau đúng, bạn cần nghiêm túc xem xét bắt tay vào hành trình Dữ liệu lớn  Bạn xử lý số lượng liệu mà bạn muốn hạn chế đặt tảng môi trường bạn  Bạn muốn liên quan đến nguồn liệu / đại (ví dụ: phương tiện truyền thơng xã hội, RFID, cảm giác, Web, GPS, liệu văn bản) vào tảng phân tích bạn, bạn khơng thể không tuân thủ hàng xác định theo lược đồ lưu trữ liệu cột mà không hy sinh tính trung thực phong phú liệu  Bạn cần (hoặc muốn) tích hợp liệu nhanh tốt để có mặt phân tích bạn 10 ... VỀ DỮ LIỆU LỚN .4 CHƯƠNG 2: NGUYÊN TẮC CƠ BẢN CỦA PHÂN TÍCH DỮ LIỆU LỚN 10 CHƯƠNG 3: CÔNG NGHỆ DỮ LIỆU LỚN 16 CHƯƠNG 4: DỮ LIỆU LỚN VÀ KHO DỮ LIỆU 24 CHƯƠNG 5: DỮ LIỆU... liệu vai trị / cơng việc tổ chức thời trang mới, chúng tơi cung cấp phân tích so sánh kho liệu phân tích Dữ liệu lớn Phần cuối chương dành riêng cho phân tích luồng, đề xuất giá trị hứa hẹn phân. .. hẹn phân tích Dữ liệu lớn Báo cáo gồm chương sau:  Chương 1: Định nghĩa liệu lớn  Chương 2: Nguyên tắc phân tích liệu lớn  Chương 3: Cơng nghệ liệu lớn  Chương 4: Dữ liệu lớn kho liệu  Chương

Ngày đăng: 26/02/2023, 18:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w