Big data công nghệ đám mây Tốc độ, khối lượng, tính đa dạng xác thực liệu Sam B Siewert Trợ lý giám đốc Đại học Alaska Anchorage 26 07 2013 Dữ liệu lớn (Big Data) tính vốn có cơng nghệ đám mây cung cấp hội chưa có sử dụng hai loại sở liệu truyền thống mạng xã hội, liệu mạng báo hiệu xa liệu đa phương tiện Các ứng dụng liệu lớn yêu cầu kiến trúc trung tâm liệu nhiều giải pháp bao gồm API tảng đám mây để tích hợp với tìm kiếm nâng cao, giải thuật máy học phân tích nâng cao thị giác máy tính, phân tích phim ảnh cơng cụ phân tích trực quan Bài viết nghiên cứu cách sử dụng ngôn ngữ R công cụ phổ biến để phân tích liệu lớn phương pháp để mở rộng dịch vụ liệu lớn đám mây Nó cung cấp góc nhìn sâu sắc dịch vụ liệu lớn quản lý hình ảnh số, sử dụng yếu tố tìm kiếm, phân tích máy học cho liệu khơng có cấu trúc Bài viết tập trung vào ứng dụng sử dụng liệu lớn, đồng thời giải thích khái niệm đằng sau việc phân tích liệu lớn làm cách kết hợp với ứng dụng phân tích thị trường kỹ thuật xử lý song song thị giác máy tính (CV - Computer Vision) máy học, tất đề cập đến mục loạt "Cloud scaling (Mở rộng đám mây)" Sự khác biệt phân tích liệu lớn với phân tích video đa dạng liệu xử lý, so sánh cơng cụ hỗ trợ tìm kiếm phân tích, ta thấy sử dụng phương pháp khai phá liệu hay MapReduce phức tạp mà cịn thời gian lâu nhiều so với việc dùng Google BigQuery Ví dụ Google BigQuery sử dụng tìm kiếm theo chiều dọc để nén đẩy nhanh trình tìm kiếm cho liệu lớn phi cấu trúc Thực tế, "An Inside Look at Google BigQuery (Tìm hiểu sâu Google BigQuery)" (xem phần Tài ngun), Google giải thích, 10 giây BigQuery tìm kiếm đoạn chuỗi bảng liệu có khoảng 35 tỷ dịng 20TB Các cơng cụ dùng chức MapReduce nhiều thời gian để xử lý đem lại kết tốt Bất có tài khoản Google sử dụng BigQuery Ý tưởng nhanh phương pháp tìm kiếm liệu lớn khác, điển hình tơi tải hình ảnh đưa ảnh lên trang Google Images Bạn thấy tất trang có hình ảnh tơi (từ IBM, Đại học Colorado © Copyright IBM Corporation 2013 Big data cơng nghệ đám mây Nhẫn hiệu đăng ký Trang 13 developerWorks® ibm.com/developerWorks/vn/ Boulder, v.v ), có sai sót nhỏ Tơi sử dụng ví dụ chủ yếu để đảm bảo hình ảnh tơi tải hình ảnh phù hợp cho phép tái sử dụng nhiều lần Cùng với ví dụ khác tơi khám phá, qua thấy ý nghĩa liệu lớn thực việc "mò kim đáy bể" dễ dàng mớ hỗn độn liệu phi cấu trúc Định nghĩa liệu lớn Dữ liệu lớn (Big data) định nghĩa khái quát thu thập, quản lý phân tích liệu, việc vượt xa liệu cấu trúc tiêu biểu (typical), truy vấn với hệ thống quản lý liệu quan hệ — thường với tệp phi cấu trúc (unstructured files), video kỹ thuật số, hình ảnh, liệu cảm biến, tệp lưu nhật ký, thực liệu khơng có hồ sơ với phạm vi tìm kiếm khác Trong số ý nghĩa, liệu phi cấu trúc liệu thú vị, khó tổng hợp vào BI (Business Intelligence) rút trích kết luận từ trừ tương quan với liệu có cấu trúc Dữ liệu lớn có nguồn mới, máy tính (vd: file log nhật ký hay mạng cảm biến), thiết bị di động (video, hình ảnh, tin nhắn), thiết bị máy móc kết nối với (vd xe, máy bay thiết bị giám sát từ xa) nhằm mục đích lên kế hoạch bảo trì kịp thời Có nột cách để làm việc dựa vào đặc tính volume (khối lượng) IBM ước lượng, có 2.5 nhân 10 mũ 18 bytes (2,500,000,000,000,000,000) liệu tạo ngày (xem phần Tài nguyên) Đặc điểm velocity (tốc độ), nơi có tỷ lệ liệu gia tăng băng thơng mạng — điển tỷ lệ gigabit ngày (gigE, 10G, 40G, 100G) so sánh với tỷ lệ megabit Một đặc điểm khác variety (tính đa dạng), bao gồm nhiều kiểu liệu phi cấu trúc, dòng hình ảnh kỹ thuật số (digital video streams), liệu cảm biến, file log nhật ký Cuối veracity (tính xác thực) liệu, hay có liệu tin cậy định quan trọng cần thực số lượng lớn liệu thu thập tỷ lệ cao Đơn giản cần biết liệu khơng giả mạo, không bị hỏng, đến từ nguồn kỳ vọng khó khăn — đến từ 1000 máy quay an ninh, ngày có 1000 khung hình Vậy, phát thảo vài khía cạnh liệu lớn, ứng dụng hệ thống để hiểu tốt chúng Dữ liệu lớn đến từ đâu? Dữ liệu lớn đề cập đến chủ yếu tiến thiết bị di động, bao gồm video kỹ thuật số, hình ảnh, âm thanh, thư điện tử tiên tiến tính văn Những người dùng lựa chọn liệu số khơng nhìn thấy thập kỷ trước; nữa, ứng dụng Google Translate cung cấp tính máy chủ liệu lớn — dịch ngơn ngữ tự nhiên cho người dùng nói đánh thiết bị di động IBM nhận thấy liệu lớn dùng di động lần đầu Global Technology Outlook vào năm 2013 (xem phần Tài nguyên) đặc trưng liệu lớn volume (khối lượng), variety (tính đa dạng), velocity (tốc độ), veracity (tính xác thực) Dữ liệu có cấu trúc tự nhiên so với ghi liệu quan hệ tương quan với liệu Bài viết cung cấp chi tiết tạo nên liệu lớn Có lẽ cách tốt để hiểu liệu lớn xem lại lịch sử nó, Tạp chí Forbes làm (xem phần Tài nguyên) Quy mô liệu lớn tăng 2.5 exabyte ngày Điều thú vị, phần lớn liệu không xem lại người (chỉ với tỷ người Mỹ, chúng tả phải xem nhiều 300 MB thông tin ngày) Thực thử thách này, cách để sử dụng nhiều liệu tự động hóa từ máy tính đến máy tính (machine-to-machine) truy vấn Big data công nghệ đám mây Trang 13 ibm.com/developerWorks/vn/ developerWorks® thơng tin liệu lớn Hơn nữa, liệu lưu trữ thời gian dài, làm biết liệu bị hỏng? Chúng ta kiểm tra phân loại liệu lưu trữ (chẳng hạn MD5, hình thức kiểm tra) sử dụng mảng dự phòng ổ đĩa độc lập (RAID—mirrors, XOR parity, mã tẩy xóa để phát phục hồi liệu bị lỗi), đáng lo có số liệu bị lỗi mà không phát (xem phần Tài nguyên) Lưu trữ trực tuyến, người phụ trách liệu điều tra nghiên cứu mối quan tâm Trên hết, tính xác thực liệu lớn thách thức, có mã tẩy xóa phương thức phân loại liệu nâng cao Những phương thức truyền thống XOR RAID simple mirroring — chúng cung cấp bảo vệ chống lại liệu thiết bị lưu trữ lỗi không xử lý kịch lỗi gây lỗi phần mềm, lỗi toán tử trung tâm liệu, thất bại truyền thông tin thời gian chờ cho phép — thay RAID-6 mã tẩy xóa nâng cao Các khái niệm độ bền liệu cho liệu lớn trở nên quan trọng, chủ đề tơi nghiên cứu kết nối mơ hình liệu này, khả người xem lại để xác thực khơng thể, lỗi liệu khơng ý cuối truy cập truy vấn tương lai xa Thiết kế hệ thống liệu lớn Những kiến trúc bảo vệ liệu quy mô lớn nên bao gồm việc chống mát, hư hỏng ngầm, phần mềm độc hại, ý đồ chỉnh sửa liệu tội phạm mạng thông qua chiến tranh mạng Dữ liệu tài sản ngày sử dụng nhiều phủ kinh doanh để đưa định quan trọng, độ trung thực liệu không biết, giá trị liệu bị giảm chí bị tệ là: khiến cho việc đưa định sai lầm Chủ đề nằm ngoại phạm vi thảo luận viết, rõ ràng bảo vệ mát sửa đổi hỏng hóc liệu cần thiết Một cách để hiểu liệu lớn rõ đơn giản tiếp cận gần trang web điện tốn đám mây, trang web có đủ liệu (thông thường petabytes) với công cụ truy vấn (thường terabytes) cho ứng dụng sử dụng Hầu hết truy vấn Google hàng ngày, Google cung cấp BigQuery, BigQuery sử dụng việc lưu trữ tìm kiếm theo dạng cột phức tạp (đã thảo luận kỹ thông qua ví dụ) Những ví dụ tiếng khác Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát liệu kỹ thuật số), DigitalGlobe (hệ thống thơng tin địa lý [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS), đông đảo nhà cung cấp dịch vụ liệu lớn Các cơng ty có liệu lớn nội hệ thống điện toán đám mây riêng Nhiều hệ thống liệu lớn cho phép người truy vấn đọc (với từ nguồn tạo máy tính), gồm chứng thực mạnh họ cho phép cập nhật tới sở liệu liệu khơng có cấu trúc, sử dụng đoạn mã, yêu cầu người dùng xác thực thông qua mã xác nhận tin nhắn văn điện thoạị Với kiểm tra hình ảnh để xác minh việc nhập liệu người sử dụng xác thực sinh trắc học nhiều tương lai Big data công nghệ đám mây Trang 13 developerWorks® ibm.com/developerWorks/vn/ Những ứng dụng liệu lớn Mỗi ngày, người ta nghĩ đến ứng dụng hàng đầu để phân tích phim ảnh lĩnh vực thị giác máy tính phân tích phim ảnh, số năm có lẽ thực u cầu tính tốn chi phí thực Tuy nhiên, danh sách ứng dụng thú vị: • Phân tích tâm lý thị trường chứng khoán sử dụng Google Trends tương quan tốt cho tăng giảm mục theo thời gian, mà có lẽ khơng đáng ngạc nhiên thú vị tính trọng đại ứng dụng liệu lớn Bài viết "Quantifying Trading Behavior in Financial Markets Using Google Trends (Dự đốn xu hướng thương mại thị trường tài sử dụng Google Trends)" (xem phần Tài nguyên) cung cấp chứng việc sử dụng phân tích tâm lý để kéo dài hay rút ngắn định mua bán cổ phiếu nắm giữ tốt việc mua nắm giữ chiến lược đơn giản quỹ đầu tư index Nghiên cứu phân tích chi tiết kết thuyết phục Một nghiên cứu thú vị dự đoán khả xảy hệ thống cho lĩnh vực hình thức kinh doanh thực tế • Phân loại hình ảnh Picasa từ Google cơng cụ hữu ích cho phép người dùng xếp, truy vấn, nhận dạng khuôn mặt tự động sử dụng cơng nghệ thị giác máy tính kết hợp với máy học Đây kết tuyệt vời có từ giá trị ứng dụng dịch vụ liệu lớn Công cụ làm rõ việc phân tích liệu lớn địi hỏi phân tích nâng cao thị giác máy tính phương pháp thị giác máy tính • Những hệ thống khuyến cáo Pandora (âm nhạc), Netflix (phim ảnh), Amazon (sách sản phẩm) dùng liệu khách hàng nhiều đại lý phương pháp tiếp cận biết đến collaborative filtering (phương pháp lọc cộng tác) Dịch vụ liệu lớn chủ đề nhiều nghiên cứu tiên tiến máy học khai phá liệu Rõ ràng khả thực gợi ý tốt tăng doanh số bán hàng hài lòng khách hàng • Những phân tích dựa khách hàng phân tích tâm lý cho khách hàng bạn dựa liệu mạng xã hội (Facebook Twitter) liệu văn có liên quan đến BI (Business Intelligence) thu thập từ thông tin giao dịch khách hàng truyền thống Phân tích tâm lý cho phép doanh nghiệp biết nhu cầu khách hàng muốn sản phẩm họ, quan tâm khách hàng sản phẩm họ hay đối thủ cạnh tranh, khách hàng thích khơng thích, v.v • Dữ liệu tạo từ máy tính có nguồn gốc từ hệ thống mạng báo hiệu (ví dụ: cảm biến nhúng hệ thống lớn giao thông đô thị, đèn giao thông, sở hạ tầng); liệu thiết bị máy móc, theo mà thiết bị cảm biến hay liệu đăng nhập từ máy (thường lĩnh vực này) truyền đến máy khác; tập tin nhật ký, thường sử dụng nhiều công nghệ thông tin để gỡ lỗi nhiều vấn đề xử lý cố hệ thống ý muốn (bỏ qua vấn đề cần can thiệp người để khôi phục tiếp tục hoạt động) • Hệ thống đặt chỗ cho du lịch cải thiện cách kết hợp sở thích khách hàng, hậu cần tiền sử trước đưa đề nghị hữu ích, ln nhiệm vụ khó khăn • Giải trí mạng xã hội thay đổi khía cạnh xã hội việc phát sóng truyền hình đoạn phim, nơi mà kỹ thuật số đáp ứng yêu cầu nội dung lúc nơi, việc chia sẻ kinh nghiệm phải thông qua mạng xã hội Mặc dù vậy, điều giúp khán giả cảm thấy Big data công nghệ đám mây Trang 13 ibm.com/developerWorks/vn/ developerWorks® thú vị hơn, cho phép khán giả sáng tạo nội dung, biên kịch, nghệ sĩ biết nhiều khán giả họ • Hệ chuẩn đốn y học bao gồm hệ thống có hỗ trợ hệ chuyên gia dựa luật (gọi DSSes: Rule-based Expert Decision Support Systems), với liệu lớn, chứng tồn hệ thống khỏi nghiên cứu trở thành người phụ tá y tế Ví dụ: Một Hệ chuyên gia để hỗ trợ đánh giá tâm lý người bệnh có nguy tự tử đề cập nghiên cứu (xem phần Tài nguyên) Phần chứng minh hệ thống để so sánh với liệu lịch sử Những hệ thống thay người định làm mà cịn cải thiện việc sử dụng công cụ hỗ trợ Đây chưa phải tất ứng dụng liệu lớn, bạn khám phá thêm phần Tài nguyên Ứng dụng truy vấn cột, phân tích liệu phi cấu trúc, MapReduce, biểu diễn suy luận liệu lớn vừa bắt đầu Dữ liệu lớn an tồn an ninh cơng cộng Việc tích hợp phân tích liệu lớn với thơng tin công cộng (hoặc thông tin riêng tư cung cấp cách tự nguyện người giám sát ủy thác thơng tin đó) giúp tìm kiếm nhanh liệu lớn phim ảnh, giọng nói, liệu cảm biến, văn thư điện tử để cải thiện độ an toàn chung cho phục hồi sau cố, để ngăn ngừa mối đe dọa khủng bố, để hiểu mối quan tâm cộng đồng Người ta nghĩ tới điều phản hồi so sánh với hệ thống phát cảnh báo khẩn cấp Tất nhiên, mối quan tâm mảng đen tối tiềm tàng hữu liệu lớn phân tích phim ảnh, giọng nói, thư điện tử trở thành truy cập trái phép vào thông tin cá nhân Những hệ thống đòi hỏi phải sử dụng cách có trách nhiệm, hồn tồn kín đáo, phải kiểm duyệt thông tin thu thập từ nguồn cơng cộng mạng máy tính Những điều cân nhắc quyền riêng tư ứng dụng liệu lớn Nếu cơng ty, phủ, tổ chức cần cẩn thận thu thập, phân tích sử dụng liệu lớn, giá trị cộng đồng rõ ràng Nếu khả phân tích liệu lớn bị lạm dụng, lịng tin cơng chúng bị mất, giá trị khơng cịn Tình cảm người sử dụng phải tự nguyện, giá trị mang lại hiểu cảm nhận họ với mà họ tương tác, họ đâu, hay họ đọc Nếu cảm biến đọc ý nghĩ phát minh, người ta lâm vào tình cảnh tiến thoái lưỡng nan đạo đức Ngay lúc này, việc sử dụng máy thu hình, nhận dạng giọng nói hay khai phá liệu thư điện tử nên tuân thủ cẩn thận vấn đề riêng tư theo cách để giữ lịng tin tự tin người dùng Một ví dụ điển hình cho trường hợp là, thời điểm viết báo này, vấn đề sở liệu thoại Cơ quan An ninh Quốc gia Mỹ, bị khai thác mối đe dọa quốc gia, tạo nên quan ngại lớn (xem phần Tài nguyên) Rõ ràng, nhiều chi tiết đặt tình ngắn, cân nhắc cẩn trọng thiết kế hệ thống liệu lớn giúp tránh vụ kiện tụng rắc rối Ví dụ: Sử dụng kịch R Dự án R Toolkit InfoSphere Streams InfoSphere Streams tảng điện tốn tiên tiến, cho phép người dùng phát triển ứng dụng để tiếp cận, phân tích so sánh thơng tin cách nhanh chóng có từ hàng nghìn nguồn tài ngun thực, xử lý lưu lượng liệu tốc độ cao: triệu kiện tin nhắn giây Phiên 3.1 bao gồm dự án R Toolkit cho phép bạn áp dụng Big data công nghệ đám mây Trang 13 developerWorks® ibm.com/developerWorks/vn/ thuật toán khai phá liệu phức tạp để phát mẫu quan tâm dịng liệu Hãy tìm hiểu thêm dùng thử Phân tích trực quan (Visual analytics) thuật ngữ sử dụng để mơ tả hình dung liệu lớn (phân biệt với phân tích video (video analytics), việc phân tích hình ảnh để hiểu chứa gì) Trong lịch sử, việc hình dung việc làm thường xun tìm thấy tính tốn hiệu cao (high-performance computing), với phát triển liệu phi cấu trúc từ thiết bị di động, mạng xã hội, hệ thống máy móc (machine to machine), liệu cảm biến khởi tạo mạng (network-generated), hình dung cần thiết cho phát triển lĩnh vực liệu lớn Biểu đồ hình trịn đơn giản, nguyên tắc Pareto, biểu đồ X-Y biểu đồ cột cách biểu diễn trực quan truyền thống thường sử dụng kinh doanh, định dường không hiệu việc hiểu liệu lớn Tìm hiểu thêm vấn đề này, tơi thực thi phương trình Lorenz C ngơn ngữ kịch R (một cơng cụ phân tích liệu lớn) Sử dụng C Microsoft Excel để hiểu phương trình phức tạp bị hạn chế, hầu hết việc mơ hình hóa phân tích khơng tích hợp bảng tính thường khơng cung cấp tính phức tạp hình dung nhiều chiều Với C Excel, tơi thực thi biểu đồ chiều phương trình Lorenz với đối lưu khí hình Có thể có cách tốt để hình dung liệu Excel, khơng có cách quan sát trực quan tốt biểu đồ chiều Hình Biểu đồ chiều mơ hình Lorenz Các phân tích trực quan với R Sử dụng R, bạn import (nhập vào) số lượng lớn phân tích gói thư viện trực quan sử dụng chúng với ngôn ngữ kịch trực quan Chẳng hạn, phương trình Lorenz trực quan tốt hơn, tơi import gói scatterplot3d, thể hình 2, cho ta thấy nhìn trực quan chiều phương trình Lorenz, so sánh với bảng tính đơn giản Bạn sử dụng công cụ trực quan khoa học khác MATLAB chí GNU cho kiểu phân tích mơ hình Nhưng R có nhiều gói phù hợp với việc phân tích tập hợp liệu nhiều chiều mà khoa học tự nhiên, chẳng hạn trực quan BI, bạn có Big data công nghệ đám mây Trang 13 ibm.com/developerWorks/vn/ developerWorks® thể tìm thấy nhiều ví dụ phần Tài nguyên Ví dụ Lorens giới thiệu đơn giản cho khả R Hình Import gói trực quan vào R cho Windows Khá giống MATLAB cung cấp mơi trường phân tích tương tác khoa học kỹ thuật cho khám phá liệu mơ hình cho nhà khoa học, R cung cấp tương tự tất loại cho nhà phân tích kinh doanh phân tích liệu lớn (xem Hình Liệt kê 1) Sự khám phá tương tác liệu lớn với công cụ R BigQuery công cụ khác phân tích liệu lớn từ việc phân tích theo bó (batch-oriented) khai phá liệu, thường thực MapReduce Dù có cách nào, mục tiêu tạo mơ hình hỗ trợ định từ khối lượng khổng lồ liệu Big data công nghệ đám mây Trang 13 developerWorks® ibm.com/developerWorks/vn/ Hình Một mơ hình R 3D phương trình Lorenz Liệt kê Mẫu kịch R cho phương trình Lorenz library(scatterplot3d) library(gdata) getwd() [1] "C:/Users/ssiewert/Documents" mydata = read.csv("lorenz.csv") scatterplot3d(mydata, highlight.3d=TRUE, col.axis="blue", col.grid="lightblue", main="Lorenz Equations", pch=20) Để giúp bạn hiểu tìm hiểu trực quan này, ví dụ Lorenz cho C, Excel R sẵn sàng để tải Để tìm hiểu thêm, bạn sử dụng R để để hình dung liệu trả từ Google BigQuery Tương lai liệu lớn Bài báo tạo tranh luận giá trị liệu lớn, đặt câu hỏi, đặc biệt độ tin cậy liệu xác nhận, cung cấp đề xuất cho phát triển độ tin cậy với khái niệm đối mặt với khối lượng, đa dạng tốc độ liệu Các kinh nghiệm cho ta thấy scale-out, sử dụng phương pháp độ bền liệu tiên tiến, việc kết hợp mạng tốc độ cao cho clusters, giải thuật scale-out MapReduce cột tìm kiếm cho thấy hứa hẹn xử lý hiệu cho liệu lớn Tuy nhiên, vấn đề mà chí cịn khơng xem xét, sai lạc liệu cách âm thầm (silent data corruption), trở thành vấn đề quan tâm tăng trưởng khối lượng, mức độ đa dạng nhiều liệu, trước quan tâm mà tỷ lệ lỗi bit đĩa so với số lượng bytes truyền lưu trữ Do đó, kiến trúc liệu lớn ngày nay, cần phải thông minh việc bảo vệ tính xác thực giá trị liệu Big data cơng nghệ đám mây Trang 13 ibm.com/developerWorks/vn/ developerWorks® phải thiết kế dịch vụ hỗ trợ dễ dàng thực thi hữu dụng ngày có nhiều người xem xét vấn đề hàng ngày Big data công nghệ đám mây Trang 13 developerWorks® ibm.com/developerWorks/vn/ Các tải Mơ tả Tên Kích thước Scripted analytics examples script-examples.zip 702KB Big data công nghệ đám mây Trang 10 13 ibm.com/developerWorks/vn/ developerWorks® Tài ngun Học tập • Hãy bạn xem qua loạt "Cloud scaling (Mở rộng đám mây)" để biết thêm thơng tin • IBM Global Technology Outlook 2013 nơi tuyệt vời để bắt đầu hiểu làm mà hệ thống di động giúp ổ đĩa điện toán đám mây liệu lớn với sách tìm hiểu liệu lớn IBM Các kết hợp khác đám mây liệu lớn, lĩnh vực thú vị, cung cấp nhìn sâu sắc vào hệ thống ứng dụng bao gồm "Oracle Information Architecture: An Architect's Guide to Big Data," "Big Data Analytics: Advanced Analytics in Oracle Database, An Inside Look at Google BigQuery," "Amazon Web Services' Big Data on AWS," Intel big data Dĩ nhiên là, nhiều tổ chức khác tham gia liệu lớn, lớn nhỏ Và Cloud Computing and Big Data Expo CloudCon 2013 tài liệu tham khảo tốt để giúp bạn hiểu kết hợp cách mạng điện tốn • Hãy đọc Tìm hiểu sâu Google BigQuery để tìm hiểu thơng tin cơng cụ tìm kiếm Google • Đọc thêm ước tính liệu sáng tạo IBM • Gil Press viết "một tiểu sử Big Data" cho tạp chí Forbes vào tháng 5/2013 • Đọc "Quantifying Trading Behavior in Financial Markets Using Google Trends (Định lượng hành vi giao dịch thi trường tài sử dụng Google Trends)" tác giả Tobias Preis, Helen Susannah Moat, H Eugene Stanley (Nature, 25 Tháng Hai 2013) • Việc liệu bị hư hỏng cách âm thầm thách thức thú vị liệu lớn, soạn thảo tốt nhà quản lý liệu lớn Internet Archive Bạn tìm hiểu nhiều qua "Disk Failure Investigations at the Internet Archive," "Bit Preservation: A Solved Problem?," "Revolutionary Methods to Handle Data Durability Challenges for Big Data." • NPR có viết DSS "Phân tích ngơn ngữ Suicide Notes đến Help Save Lives" (16 Tháng năm 2013) • Xem viết tạp chí Time "7 điều cần biết sở liệu bí mật điện thoại phủ." • Những phương trình Lorens sử dụng ví dụ minh họa kịch C R xây dựng Edward Lorenz để mơ hình đối lưu khí quyển, tóm tắt kho thư viện Wikipedia Lorenz System wiki Ví dụ ngôn ngữ kịch R chọn đơn giản để trình bày giá trị R cho trực quan tập liệu phức tạp so sánh với, nói rằng, bảng tính, phân tích đa chiều khó khăn Bạn học nghệ thuật phân tích hình ảnh cho liệu lớn nhiều cách nhìn vào cơng việc nhà phân tích khác blog Visual Insights Tom Sawyer • Trong vùng tài nguyên dành nhà phát triển đám mây developerWorks, khám phá chia sẻ kiến thức, kinh nghiệm ứng dụng dịch vụ phát triển xây dựng dự án triển khai điện toán đám mây • Tìm hiểu thêm liệu lớn developerWorks Tìm tài liệu kỹ thuật, hướng dẫn, giáo dục, tải sản phẩm, thông tin sản phẩm, • Tìm tài liệu hướng dẫn làm quen với InfoSphere BigInsights, Hadoop IBM mở rộng giá trị mã nguồn mở Hadoop với tính Big SQL, phân tích văn bản, BigSheets Big data công nghệ đám mây Trang 11 13 developerWorksđ ibm.com/developerWorks/vn/ ã Xem cỏc hng dn t hc học cách quản lý môi trường liệu lớn bạn, nhập liệu cho việc phân tích, phân tích liệu với BigSheets, phát triển ứng dụng liệu lớn bạn, phát triển truy vấn Big SQL lớn để phân tích liệu lớn, tạo trình giải nén để lấy tài liệu văn từ bên với BigInsights InfoSphere • Tìm tài liệu hướng dẫn làm quen với InfoSphere Streams, tảng điện toán hiệu suất cao IBM cho phép người phát triển ứng dụng cách nhanh chóng, phân tích, tương quan thơng tin đến từ hàng ngàn nguồn tin thời gian thực • Luôn cập nhật kiện công nghệ webcast developerWorks • Theo dõi developerWorks Twitter Lấy sản phẩm cơng nghệ • Tìm hiểu thêm R project tải phiên R dành cho Windows phiên R dành cho Mac OS X hay Linux® Giống hầu hết ngơn ngữ, cách tốt để tìm hiểu R thơng qua ví dụ mơ ví dụ trực quan cụ thể ví dụ R scatter plot thơng qua tài liệu Như làm, bạn thường muốn nhập liệu vào R — trường hợp tôi, từ mơ hình C Excel — làm R sử dụng Data Import Bạn xem hướng dẫn đầy đủ R • Một lựa chọn cho việc thiết lập dịch vụ điện toán đám mây ứng dụng liệu lớn OpenStack IBM nhà phân phối sản phẩm điện toán đám mây nguồn mở Nhiều phần mềm điện tốn đám mây cơng ty giải pháp có sản phẩm tuyệt vời dựa OpenStack — vài công ty để thấy chuyên nghiệp tìm kiếm liệu lớn OpenStack: • Mirantis • AMD SeaMicro • Cloudera • Tất khơng biết có số lượng lớn liệu phi cấu trúc máy tính cá nhân định dạng ảnh số video Bạn tải Google Picasa hệ thống bạn sử dụng để tạo danh mục hình ảnh để nhận diện khn mặt dạy cho hệ thống khả việc nhận dạng khuôn mặt Bạn hiểu nhiều hiệu máy học việc thừa nhận điều khoản receiver operator curve qua "Receiver Operating Characteristic Analysis: A Tool for the Quantitative Evaluation of Observer Performance and Imaging Systems." • Tải ấn InfoSphere BigInsights Quick Start, có sẵn cài đặt trực tiếp hay tải file ảnh dành cho VMware • Tải InfoSphere Streams, có sẵn phần mềm cài đặt tập tin Vmware • Sử dụng InfoSphere Streams IBM SmartCloud Enterprise • Xây dựng dự án phát triển bạn với phần mềm dùng thử IBM, cho phép tải trực tiếp từ developerWorks Thảo luận • Tham gia thảo luận diễn đàn InfoSphere BigInsights • Tham gia thảo luận diễn đàn InfoSphere Streams • Xem blog developerWorks tham gia vào cộng đồng developerWorks Big data công nghệ đám mây Trang 12 13 ibm.com/developerWorks/vn/ developerWorks® Đơi nét tác giả Sam B Siewert Tiến sĩ Sam Siewert trợ lý giáo sư Khoa Khoa học máy tính kỹ thuật Đại học Alaska Anchorage Ông trợ giảng Đại học Colorado Boulder dạy nhiều khóa học hè khoa điện, máy tính phận kỹ thuật lượng Với vai trò kỹ sư thiết kế hệ thống máy tính, tiến sĩ Siewert làm việc ngành hàng không, viễn thông ngành công nghiệp lưu trữ từ năm 1988 Ông tiếp tục lĩnh vực nghiên cứu tư vấn hệ thống mở rộng, máy tính thị giác máy học, cấu hình lại kiến trúc lai hệ điều hành Liên quan đến lĩnh vực nghiên cứu bao gồm lý thuyết thời gian thực, phương tiện truyền thông kỹ thuật số, kiến trúc máy tính © Copyright IBM Corporation 2013 (www.ibm.com/legal/copytrade.shtml) Nhẫn hiệu đăng ký (www.ibm.com/developerworks/vn/ibm/trademarks/) Big data công nghệ đám mây Trang 13 13