Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
319,05 KB
Nội dung
Big data công nghệ đám mây Tốc độ, khối lượng, tính đa dạng xác thực liệu Dữ liệu lớn (Big Data) tính vốn có công nghệ đám mây cung cấp hội chưa có sử dụng hai loại sở liệu truyền thống mạng xã hội, liệu mạng báo hiệu xa liệu đa phương tiện Các ứng dụng liệu lớn yêu cầu kiến trúc trung tâm liệu nhiều giải pháp bao gồm API tảng đám mây để tích hợp với tìm kiếm nâng cao, giải thuật máy học phân tích nâng cao thị giác máy tính, phân tích phim ảnh công cụ phân tích trực quan Bài viết nghiên cứu cách sử dụng ngôn ngữ R công cụ phổ biến để phân tích liệu lớn phương pháp để mở rộng dịch vụ liệu lớn đám mây Nó cung cấp góc nhìn sâu sắc dịch vụ liệu lớn quản lý hình ảnh số, sử dụng yếu tố tìm kiếm, phân tích máy học cho liệu cấu trúc Bài viết tập trung vào ứng dụng sử dụng liệu lớn, đồng thời giải thích khái niệm đằng sau việc phân tích liệu lớn làm cách kết hợp với ứng dụng phân tích thị trường kỹ thuật xử lý song song thị giác máy tính (CV - Computer Vision) máy học, tất đề cập đến mục loạt "Cloud scaling (Mở rộng đám mây)" Sự khác biệt phân tích liệu lớn với phân tích video đa dạng liệu xử lý, so sánh công cụ hỗ trợ tìm kiếm phân tích, ta thấy sử dụng phương pháp khai phá liệu hay MapReduce phức tạp mà thời gian lâu nhiều so với việc dùng Google BigQuery Ví dụ Google BigQuery sử dụng tìm kiếm theo chiều dọc để nén đẩy nhanh trình tìm kiếm cho liệu lớn phi cấu trúc Thực tế, "An Inside Look at Google BigQuery (Tìm hiểu sâu Google BigQuery)" (xem phần Tài nguyên), Google giải thích, 10 giây BigQuery tìm kiếm đoạn chuỗi bảng liệu có khoảng 35 tỷ dòng 20TB Các công cụ dùng chức MapReduce nhiều thời gian để xử lý đem lại kết tốt Bất có tài khoản Google sử dụng BigQuery Ý tưởng nhanh phương pháp tìm kiếm liệu lớn khác, điển hình tải hình ảnh đưa ảnh lên trang Google Images Bạn thấy tất trang có hình ảnh (từ IBM, Đại học Colorado Boulder, v.v ), có sai sót nhỏ Tôi sử dụng ví dụ chủ yếu để đảm bảo hình ảnh tải hình ảnh phù hợp cho phép tái sử dụng nhiều lần Cùng với ví dụ khác khám phá, qua thấy ý nghĩa liệu lớn thực việc "mò kim đáy bể" dễ dàng mớ hỗn độn liệu phi cấu trúc Định nghĩa liệu lớn Dữ liệu lớn (Big data) định nghĩa khái quát thu thập, quản lý phân tích liệu, việc vượt xa liệu cấu trúc tiêu biểu (typical), truy vấn với hệ thống quản lý liệu quan hệ — thường với tệp phi cấu trúc (unstructured files), video kỹ thuật số, hình ảnh, liệu cảm biến, tệp lưu nhật ký, thực liệu hồ sơ với phạm vi tìm kiếm khác Trong số ý nghĩa, liệu phi cấu trúc liệu thú vị, khó tổng hợp vào BI (Business Intelligence) rút trích kết luận từ trừ tương quan với liệu có cấu trúc Dữ liệu lớn có nguồn mới, máy tính (vd: file log nhật ký hay mạng cảm biến), thiết bị di động (video, hình ảnh, tin nhắn), thiết bị máy móc kết nối với (vd xe, máy bay thiết bị giám sát từ xa) nhằm mục đích lên kế hoạch bảo trì kịp thời Có nột cách để làm việc dựa vào đặc tính volume (khối lượng) IBM ước lượng, có 2.5 nhân 10 mũ 18 bytes (2,500,000,000,000,000,000) liệu tạo ngày (xem phần Tài nguyên) Đặc điểm velocity (tốc độ), nơi có tỷ lệ liệu gia tăng băng thông mạng — điển tỷ lệ gigabit ngày (gigE, 10G, 40G, 100G) so sánh với tỷ lệ megabit Một đặc điểm khác variety (tính đa dạng), bao gồm nhiều kiểu liệu phi cấu trúc, dòng hình ảnh kỹ thuật số (digital video streams), liệu cảm biến, file log nhật ký Cuối veracity (tính xác thực) liệu, hay có liệu tin cậy định quan trọng cần thực số lượng lớn liệu thu thập tỷ lệ cao Đơn giản cần biết liệu không giả mạo, không bị hỏng, đến từ nguồn kỳ vọng khó khăn — đến từ 1000 máy quay an ninh, ngày có 1000 khung hình Vậy, phát thảo vài khía cạnh liệu lớn, ứng dụng hệ thống để hiểu tốt chúng Có lẽ cách tốt để hiểu liệu lớn xem lại lịch sử nó, Tạp chí Forbes làm (xem phần Tài nguyên) Quy mô liệu lớn tăng 2.5 exabyte ngày Điều thú vị, phần lớn liệu không xem lại người (chỉ với tỷ người Mỹ, chúng tả phải xem nhiều 300 MB thông tin ngày) Thực thử thách này, cách để sử dụng nhiều liệu tự động hóa từ máy tính đến máy tính (machine-to-machine) truy vấn thông tin liệu lớn Hơn nữa, liệu lưu trữ thời gian dài, làm biết liệu bị hỏng? Chúng ta kiểm tra phân loại liệu lưu trữ (chẳng hạn MD5, hình thức kiểm tra) sử dụng mảng dự phòng ổ đĩa độc lập (RAID—mirrors, XOR parity, mã tẩy xóa để phát phục hồi liệu bị lỗi), đáng lo có số liệu bị lỗi mà không phát (xem phần Tài nguyên) Lưu trữ trực tuyến, người phụ trách liệu điều tra nghiên cứu mối quan tâm Trên hết, tính xác thực liệu lớn thách thức, có mã tẩy xóa phương thức phân loại liệu nâng cao Những phương thức truyền thống XOR RAID simple mirroring — chúng cung cấp bảo vệ chống lại liệu thiết bị lưu trữ lỗi không xử lý kịch lỗi gây lỗi phần mềm, lỗi toán tử trung tâm liệu, thất bại truyền thông tin thời gian chờ cho phép — thay RAID-6 mã tẩy xóa nâng cao Các khái niệm độ bền liệu cho liệu lớn trở nên quan trọng, chủ đề nghiên cứu kết nối mô hình liệu này, khả người xem lại để xác thực không thể, lỗi liệu không ý cuối truy cập truy vấn tương lai xa Dữ liệu lớn đến từ đâu? Dữ liệu lớn đề cập đến chủ yếu tiến thiết bị di động, bao gồm video kỹ thuật số, hình ảnh, âm thanh, thư điện tử tiên tiến tính văn Những người dùng lựa chọn liệu số không nhìn thấy thập kỷ trước; nữa, ứng dụng Google Translate cung cấp tính máy chủ liệu lớn — dịch ngôn ngữ tự nhiên cho người dùng nói đánh thiết bị di động IBM nhận thấy liệu lớn dùng di động lần đầu Global Technology Outlook vào năm 2013 (xem phần Tài nguyên) đặc trưng liệu lớn volume (khối lượng), variety (tính đa dạng), velocity (tốc độ), veracity (tính xác thực) Dữ liệu có cấu trúc tự nhiên so với ghi liệu quan hệ tương quan với liệu Bài viết cung cấp chi tiết tạo nên liệu lớn Thiết kế hệ thống liệu lớn Những kiến trúc bảo vệ liệu quy mô lớn nên bao gồm việc chống mát, hư hỏng ngầm, phần mềm độc hại, ý đồ chỉnh sửa liệu tội phạm mạng thông qua chiến tranh mạng Dữ liệu tài sản ngày sử dụng nhiều phủ kinh doanh để đưa định quan trọng, độ trung thực liệu không biết, giá trị liệu bị giảm chí bị tệ là: khiến cho việc đưa định sai lầm Chủ đề nằm ngoại phạm vi thảo luận viết, rõ ràng bảo vệ mát sửa đổi hỏng hóc liệu cần thiết Một cách để hiểu liệu lớn rõ đơn giản tiếp cận gần trang web điện toán đám mây, trang web có đủ liệu (thông thường petabytes) với công cụ truy vấn (thường terabytes) cho ứng dụng sử dụng Hầu hết truy vấn Google hàng ngày, Google cung cấp BigQuery, BigQuery sử dụng việc lưu trữ tìm kiếm theo dạng cột phức tạp (đã thảo luận kỹ thông qua ví dụ) Những ví dụ tiếng khác Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát liệu kỹ thuật số), DigitalGlobe (hệ thống thông tin địa lý [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS), đông đảo nhà cung cấp dịch vụ liệu lớn Các công ty có liệu lớn nội hệ thống điện toán đám mây riêng Nhiều hệ thống liệu lớn cho phép người truy vấn đọc (với từ nguồn tạo máy tính), gồm chứng thực mạnh họ cho phép cập nhật tới sở liệu liệu cấu trúc, sử dụng đoạn mã, yêu cầu người dùng xác thực thông qua mã xác nhận tin nhắn văn điện thoạị Với kiểm tra hình ảnh để xác minh việc nhập liệu người sử dụng xác thực sinh trắc học nhiều tương lai Những ứng dụng liệu lớn Mỗi ngày, người ta nghĩ đến ứng dụng hàng đầu để phân tích phim ảnh lĩnh vực thị giác máy tính phân tích phim ảnh, số năm có lẽ thực yêu cầu tính toán chi phí thực Tuy nhiên, danh sách ứng dụng thú vị: Phân tích tâm lý thị trường chứng khoán sử dụng Google Trends tương quan tốt cho tăng giảm mục theo thời gian, mà có lẽ không đáng ngạc nhiên thú vị tính trọng đại ứng dụng liệu lớn Bài viết "Quantifying Trading Behavior in Financial Markets Using Google Trends (Dự đoán xu hướng thương mại thị trường tài sử dụng Google Trends)" (xem phần Tài nguyên) cung cấp chứng việc sử dụng phân tích tâm lý để kéo dài hay rút ngắn định mua bán cổ phiếu nắm giữ tốt việc mua nắm giữ chiến lược đơn giản quỹ đầu tư index Nghiên cứu phân tích chi tiết kết thuyết phục Một nghiên cứu thú vị dự đoán khả xảy hệ thống cho lĩnh vực hình thức kinh doanh thực tế Phân loại hình ảnh Picasa từ Google công cụ hữu ích cho phép người dùng xếp, truy vấn, nhận dạng khuôn mặt tự động sử dụng công nghệ thị giác máy tính kết hợp với máy học Đây kết tuyệt vời có từ giá trị ứng dụng dịch vụ liệu lớn Công cụ làm rõ việc phân tích liệu lớn đòi hỏi phân tích nâng cao thị giác máy tính phương pháp thị giác máy tính Những hệ thống khuyến cáo Pandora (âm nhạc), Netflix (phim ảnh), Amazon (sách sản phẩm) dùng liệu khách hàng nhiều đại lý phương pháp tiếp cận biết đến collaborative filtering (phương pháp lọc cộng tác) Dịch vụ liệu lớn chủ đề nhiều nghiên cứu tiên tiến máy học khai phá liệu Rõ ràng khả thực gợi ý tốt tăng doanh số bán hàng hài lòng khách hàng Những phân tích dựa khách hàng phân tích tâm lý cho khách hàng bạn dựa liệu mạng xã hội (Facebook Twitter) liệu văn có liên quan đến BI (Business Intelligence) thu thập từ thông tin giao dịch khách hàng truyền thống Phân tích tâm lý cho phép doanh nghiệp biết nhu cầu khách hàng muốn sản phẩm họ, quan tâm khách hàng sản phẩm họ hay đối thủ cạnh tranh, khách hàng thích không thích, v.v Dữ liệu tạo từ máy tính có nguồn gốc từ hệ thống mạng báo hiệu (ví dụ: cảm biến nhúng hệ thống lớn giao thông đô thị, đèn giao thông, sở hạ tầng); liệu thiết bị máy móc, theo mà thiết bị cảm biến hay liệu đăng nhập từ máy (thường lĩnh vực này) truyền đến máy khác; tập tin nhật ký, thường sử dụng nhiều công nghệ thông tin để gỡ lỗi nhiều vấn đề xử lý cố hệ thống ý muốn (bỏ qua vấn đề cần can thiệp người để khôi phục tiếp tục hoạt động) Hệ thống đặt chỗ cho du lịch cải thiện cách kết hợp sở thích khách hàng, hậu cần tiền sử trước đưa đề nghị hữu ích, nhiệm vụ khó khăn Giải trí mạng xã hội thay đổi khía cạnh xã hội việc phát sóng truyền hình đoạn phim, nơi mà kỹ thuật số đáp ứng yêu cầu nội dung lúc nơi, việc chia sẻ kinh nghiệm phải thông qua mạng xã hội Mặc dù vậy, điều giúp khán giả cảm thấy thú vị hơn, cho phép khán giả sáng tạo nội dung, biên kịch, nghệ sĩ biết nhiều khán giả họ Hệ chuẩn đoán y học bao gồm hệ thống có hỗ trợ hệ chuyên gia dựa luật (gọi DSSes: Rule-based Expert Decision Support Systems), với liệu lớn, chứng tồn hệ thống khỏi nghiên cứu trở thành người phụ tá y tế Ví dụ: Một Hệ chuyên gia để hỗ trợ đánh giá tâm lý người bệnh có nguy tự tử đề cập nghiên cứu (xem phần Tài nguyên) Phần chứng minh hệ thống để so sánh với liệu lịch sử Những hệ thống thay người định làm mà cải thiện việc sử dụng công cụ hỗ trợ Đây chưa phải tất ứng dụng liệu lớn, bạn khám phá thêm phần Tài nguyên Ứng dụng truy vấn cột, phân tích liệu phi cấu trúc, MapReduce, biểu diễn suy luận liệu lớn vừa bắt đầu Những điều cân nhắc quyền riêng tư ứng dụng liệu lớn Nếu công ty, phủ, tổ chức cần cẩn thận thu thập, phân tích sử dụng liệu lớn, giá trị cộng đồng rõ ràng Nếu khả phân tích liệu lớn bị lạm dụng, lòng tin công chúng bị mất, giá trị không Tình cảm người sử dụng phải tự nguyện, giá trị mang lại hiểu cảm nhận họ với mà họ tương tác, họ đâu, hay họ đọc Nếu cảm biến đọc ý nghĩ phát minh, người ta lâm vào tình cảnh tiến thoái lưỡng nan đạo đức Ngay lúc này, việc sử dụng máy thu hình, nhận dạng giọng nói hay khai phá liệu thư điện tử nên tuân thủ cẩn thận vấn đề riêng tư theo cách để giữ lòng tin tự tin người dùng Một ví dụ điển hình cho trường hợp là, thời điểm viết báo này, vấn đề sở liệu thoại Cơ quan An ninh Quốc gia Mỹ, bị khai thác mối đe dọa quốc gia, tạo nên quan ngại lớn (xem phần Tài nguyên) Rõ ràng, nhiều chi tiết đặt tình ngắn, cân nhắc cẩn trọng thiết kế hệ thống liệu lớn giúp tránh vụ kiện tụng rắc rối Ví dụ: Sử dụng kịch R Dự án R Toolkit InfoSphere Streams InfoSphere Streams tảng điện toán tiên tiến, cho phép người dùng phát triển ứng dụng để tiếp cận, phân tích so sánh thông tin cách nhanh chóng có từ hàng nghìn nguồn tài nguyên thực, xử lý lưu lượng liệu tốc độ cao: triệu kiện tin nhắn giây Phiên 3.1 bao gồm dự án R Toolkit cho phép bạn áp dụng thuật toán khai phá liệu phức tạp để phát mẫu quan tâm dòng liệu Hãy tìm hiểu thêm dùng thử Phân tích trực quan (Visual analytics) thuật ngữ sử dụng để mô tả hình dung liệu lớn (phân biệt với phân tích video (video analytics), việc phân tích hình ảnh để hiểu chứa gì) Trong lịch sử, việc hình dung việc làm thường xuyên tìm thấy tính toán hiệu cao (highperformance computing), với phát triển liệu phi cấu trúc từ thiết bị di động, mạng xã hội, hệ thống máy móc (machine to machine), liệu cảm biến khởi tạo mạng (network-generated), hình dung cần thiết cho phát triển lĩnh vực liệu lớn Biểu đồ hình tròn đơn giản, nguyên tắc Pareto, biểu đồ X-Y biểu đồ cột cách biểu diễn trực quan truyền thống thường sử dụng kinh doanh, định dường không hiệu việc hiểu liệu lớn Tìm hiểu thêm vấn đề này, thực thi phương trình Lorenz C ngôn ngữ kịch R (một công cụ phân tích liệu lớn) Sử dụng C Microsoft Excel để hiểu phương trình phức tạp bị hạn chế, hầu hết việc mô hình hóa phân tích không tích hợp bảng tính thường không cung cấp tính phức tạp hình dung nhiều chiều Với C Excel, thực thi biểu đồ chiều phương trình Lorenz với đối lưu khí hình Có thể có cách tốt để hình dung liệu Excel, cách quan sát trực quan tốt biểu đồ chiều Hình Biểu đồ chiều mô hình Lorenz Các phân tích trực quan với R Sử dụng R, bạn import (nhập vào) số lượng lớn phân tích gói thư viện trực quan sử dụng chúng với ngôn ngữ kịch trực quan Chẳng hạn, phương trình Lorenz trực quan tốt hơn, import gói scatterplot3d, thể hình 2, cho ta thấy nhìn trực quan chiều phương trình Lorenz, so sánh với bảng tính đơn giản Bạn sử dụng công cụ trực quan khoa học khác MATLAB chí GNU cho kiểu phân tích mô hình Nhưng R có nhiều gói phù hợp với việc phân tích tập hợp liệu nhiều chiều mà khoa học tự nhiên, chẳng hạn trực quan BI, bạn tìm thấy nhiều ví dụ phần Tài nguyên Ví dụ Lorens giới thiệu đơn giản cho khả R Hình Import gói trực quan vào R cho Windows Khá giống MATLAB cung cấp môi trường phân tích tương tác khoa học kỹ thuật cho khám phá liệu mô hình cho nhà khoa học, R cung cấp tương tự tất loại cho nhà phân tích kinh doanh phân tích liệu lớn (xem Hình Liệt kê 1) Sự khám phá tương tác liệu lớn với công cụ R BigQuery công cụ khác phân tích liệu lớn từ việc phân tích theo bó (batch-oriented) khai phá liệu, thường thực MapReduce Dù có cách nào, mục tiêu tạo mô hình hỗ trợ định từ khối lượng khổng lồ liệu Hình Một mô hình R 3D phương trình Lorenz Liệt kê Mẫu kịch R cho phương trình Lorenz library(scatterplot3d) library(gdata) getwd() [1] "C:/Users/ssiewert/Documents" mydata = read.csv("lorenz.csv") scatterplot3d(mydata, highlight.3d=TRUE, col.axis="blue", col.grid="lightblue", main="Lorenz Equations", pch=20) Để giúp bạn hiểu tìm hiểu trực quan này, ví dụ Lorenz cho C, Excel R sẵn sàng để tải Để tìm hiểu thêm, bạn sử dụng R để để hình dung liệu trả từ Google BigQuery Tương lai liệu lớn Bài báo tạo tranh luận giá trị liệu lớn, đặt câu hỏi, đặc biệt độ tin cậy liệu xác nhận, cung cấp đề xuất cho phát triển độ tin cậy với khái niệm đối mặt với khối lượng, đa dạng tốc độ liệu Các kinh nghiệm cho ta thấy scale-out, sử dụng phương pháp độ bền liệu tiên tiến, việc kết hợp mạng tốc độ cao cho clusters, giải thuật scale-out MapReduce cột tìm kiếm cho thấy hứa hẹn xử lý hiệu cho liệu lớn Tuy nhiên, vấn đề mà chí không xem xét, sai lạc liệu cách âm thầm (silent data corruption), trở thành vấn đề quan tâm tăng trưởng khối lượng, mức độ đa dạng nhiều liệu, trước quan tâm mà tỷ lệ lỗi bit đĩa so với số lượng bytes truyền lưu trữ Do đó, kiến trúc liệu lớn ngày nay, cần phải thông minh việc bảo vệ tính xác thực giá trị liệu phải thiết kế dịch vụ hỗ trợ dễ dàng thực thi hữu dụng ngày có nhiều người xem xét vấn đề hàng ngày [...]... thiết cho sự phát triển trong lĩnh vực dữ liệu lớn Biểu đồ hình tròn đơn giản, nguyên tắc Pareto, biểu đồ X-Y và biểu đồ cột là những cách biểu diễn trực quan truyền thống thường được sử dụng trong kinh doanh, ra quyết định dường như không hiệu quả trong việc hiểu dữ liệu lớn Tìm hiểu thêm về vấn đề này, tôi đã thực thi các phương trình Lorenz trong C và ngôn ngữ kịch bản R (một công cụ phân tích dữ... library(scatterplot3d) library(gdata) getwd() [1] "C:/Users/ssiewert/Documents" mydata = read.csv("lorenz.csv") scatterplot3d(mydata, highlight.3d=TRUE, col.axis="blue", col.grid="lightblue", main="Lorenz Equations", pch=20) Để giúp bạn hiểu và tìm hiểu về sự trực quan này, ví dụ Lorenz cho C, Excel và R đã sẵn sàng để tải về Để tìm hiểu thêm, bạn có thể sử dụng R để để hình dung dữ liệu trả về từ Google BigQuery Tương... phức tạp để phát hiện mẫu quan tâm trong dòng dữ liệu Hãy tìm hiểu thêm và dùng thử nó Phân tích trực quan (Visual analytics) là một thuật ngữ được sử dụng để mô tả sự hình dung dữ liệu lớn (phân biệt với phân tích video (video analytics), việc phân tích các hình ảnh tuần tự để hiểu nó chứa những gì) Trong lịch sử, việc hình dung là một việc làm thường xuyên tìm thấy trong tính toán hiệu năng cao (highperformance... dụ: Một Hệ chuyên gia để hỗ trợ đánh giá tâm lý người bệnh có nguy cơ tự tử đã được đề cập trong bài nghiên cứu (xem phần Tài nguyên) Phần chứng minh những hệ thống này để so sánh với dữ liệu trong lịch sử Những hệ thống có thể thay con người quyết định làm mà còn có thể cải thiện nó khi việc sử dụng như một công cụ hỗ trợ Đây chưa phải là tất cả các ứng dụng dữ liệu lớn, bạn có thể khám phá thêm... cho các nhà khoa học, R cung cấp tương tự tất cả các loại cho các nhà phân tích kinh doanh và phân tích dữ liệu lớn (xem Hình 3 và Liệt kê 1) Sự khám phá tương tác dữ liệu lớn với các công cụ như R và BigQuery là những công cụ khác nhau phân tích dữ liệu lớn từ việc phân tích theo bó (batch-oriented) và khai phá dữ liệu, thường được thực hiện bằng MapReduce Dù có bằng cách nào, mục tiêu là tạo ra các... diễn và suy luận về dữ liệu lớn chỉ vừa mới bắt đầu Những điều cân nhắc về quyền riêng tư trong ứng dụng dữ liệu lớn Nếu các công ty, chính phủ, và các tổ chức cần cẩn thận thu thập, phân tích và sử dụng dữ liệu lớn, giá trị cộng đồng sẽ được rõ ràng Nếu những khả năng phân tích dữ liệu lớn bị lạm dụng, lòng tin công chúng sẽ bị mất, và giá trị không còn Tình cảm của người sử dụng phải là tự nguyện,... xem xét, như sự sai lạc dữ liệu một cách âm thầm (silent data corruption), đã trở thành vấn đề quan tâm mới bởi vì sự tăng trưởng về khối lượng, mức độ đa dạng và nhiều dữ liệu, trước đây ít được quan tâm khi mà tỷ lệ lỗi bit trong đĩa thì ít hơn so với số lượng bytes truyền và lưu trữ Do đó, kiến trúc dữ liệu lớn ngày nay, cần phải thông minh hơn trong việc bảo vệ tính xác thực và giá trị của dữ liệu... sánh với các bảng tính đơn giản Bạn cũng có thể sử dụng công cụ trực quan khoa học khác như MATLAB hoặc thậm chí là GNU cho kiểu phân tích này trên mô hình Nhưng R cũng có rất nhiều các gói phù hợp với việc phân tích các tập hợp dữ liệu nhiều chiều mà không phải là khoa học tự nhiên, chẳng hạn như các trực quan BI, bạn có thể tìm thấy nhiều ví dụ trong phần Tài nguyên Ví dụ Lorens là một giới thiệu đơn... với quốc gia, đã tạo nên một sự quan ngại lớn (xem phần Tài nguyên) Rõ ràng, rất nhiều những chi tiết có thể đặt ra trong những tình huống ngắn, nhưng sự cân nhắc cẩn trọng khi thiết kế hệ thống dữ liệu lớn sẽ giúp tránh những vụ kiện tụng rắc rối Ví dụ: Sử dụng kịch bản R Dự án R Toolkit trong InfoSphere Streams InfoSphere Streams là một nền tảng điện toán tiên tiến, nó cho phép người dùng phát triển... nội dung mọi lúc mọi nơi, nhưng việc chia sẻ kinh nghiệm vẫn phải thông qua mạng xã hội Mặc dù vậy, điều này giúp khán giả cảm thấy thú vị hơn, cho phép khán giả sáng tạo nội dung, biên kịch, và những nghệ sĩ có thể biết nhiều hơn về khán giả của họ Hệ chuẩn đoán y học bao gồm những hệ thống có sự hỗ trợ của hệ chuyên gia dựa trên luật (gọi là DSSes: Rule-based Expert Decision Support Systems), nhưng ...Tốc độ, khối lượng, tính đa dạng xác thực liệu Dữ liệu lớn (Big Data) tính vốn có công nghệ đám mây cung cấp hội chưa có sử dụng hai loại sở liệu truyền thống mạng xã hội, liệu... điện toán đám mây, trang web có đủ liệu (thông thường petabytes) với công cụ truy vấn (thường terabytes) cho ứng dụng sử dụng Hầu hết truy vấn Google hàng ngày, Google cung cấp BigQuery, BigQuery... Google BigQuery Ví dụ Google BigQuery sử dụng tìm kiếm theo chiều dọc để nén đẩy nhanh trình tìm kiếm cho liệu lớn phi cấu trúc Thực tế, "An Inside Look at Google BigQuery (Tìm hiểu sâu Google BigQuery)"