Dữ liệu lớn (Bigdata) là tất cả các loại dữ liệu có dung lượng lớn; có giá trị lớn, nhưng khó khai thác và có thể rất nhạy cảm với thời gian. Bigdata đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó có thể được truy vấn với hệ thống quản lý dữ liệu quan hệ - thường với những tệp phi cấu trúc (unstructured files), video kỹ thuật số, hình ảnh, dữ liệu cảm biến, tệp lưu nhật ký, thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếm khác.
07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” TÌM HIỂU VỀ BIG DATA Nguyễn Gia Luyện Giám đốc Trung tâm Tin học thống kê KVI, TCTK Dữ liệu lớn (Bigdata) tất loại liệu có dung lượng lớn; có giá trị lớn, khó khai thác nhạy cảm với thời gian Bigdata vượt xa liệu cấu trúc tiêu biểu (typical), truy vấn với hệ thống quản lý liệu quan hệ - thường với tệp phi cấu trúc (unstructured files), video kỹ thuật số, hình ảnh, liệu cảm biến, tệp lưu nhật ký, thực liệu khơng có hồ sơ với phạm vi tìm kiếm khác Bigdata hình thành từ nhiều nguồn liệu khác Quan sát hình ta thấy nguồn hình thành nên liệu lớn khắp nơi, đặc biệt có sẵn mạng xã hội như: Facebook, Twitter… Theo tập đoàn SAS có vài số liệu Bigdata sau: + Trong vòng ngày “Black Friday” năm 2012, cửa hàng Walmart phải xử lí 10 triệu giao dịch tiền mặt, tức khoản 5.000 giao diện giây + Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầ u t khách hàng của ngày + Dịch vu ̣ th ẻ VISA xử lí 172.800.000 giao dịch thẻ vòng ngày mà thơi + Trên Twitter có 500 triệu dòng tweet ngày, Facebook có 1,15 tỉ thành viên tạo mớ khổ ng lồ liệu văn bản, tập tin, video… 79 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Theo Intel vào tháng 9/2013, giới tạo petabyte liệu 11 giây - tương đương với đoạn video HD dài 13 năm Ví dụ, eBay sử du ̣ng hai trung tâm d ữ liệu dung lượng lên đến 40 petabyte để chứa truy vấn, tìm kiếm, đề xuất cho khách hàng thông tin hàng hóa của Amazon.com phải xử lí hàng triệu hoạt động ngày, Facebook phải quản lí 50 tỉ ảnh từ người dùng t ải lên, YouTube hay Google phải lưu lại hết lượt truy vấn video của người dùng cùng nhiều loại thơng tin khác có liên quan Mặc dù nghiên cứu đưa vào ứng dụng, sử dụng thực tế chưa lâu, khơng phủ nhận phát triển mạnh mẽ Bigdata: từ liệu truyền thống (data warehousing) đến liệu phi cấu trúc (flat file) Dữ liệu truyền thống (dữ liệu dạng có cấu trúc) với tăng trưởng khở ng lồ tạo thách thức lớn cho tổ ch ức, tổ ch ức phải đưa giải pháp kho liệu, nơi liệu lưu trữ xử lý Vì vậy, xu hướng kinh doanh thông minh (business intelligence) trở thành nhu cầ u hàng ngày Mơ hình sở d ữ liệu quan hệ khái nhiệm kho liệu tất xây dựng dựa mơ hình sở d ữ liệu quan hệ truyền thống gặp phải thách thức có xuất liệu khơng có cấu trúc Trong tương lai nhu cầ u ngư ời dùng đòi h ỏi có nhiều thơng tin, đa dạng hóa khai thác thơng tin Còn dạng liệu phi cấu trúc, liệu khơng có khả truy xuất liệu hiệu việc tích hợp liệu khơng thể thực khơng có bất kỳ mơ hình hay c ấu trúc xung quanh Dữ liệu lưu flat file sẽ g ặp vấn đề khai thác, mặc dù ứng du ̣ng đư ợc phát triển thời điểm phù hợp với phát triển của kỹ thuật liệu Hiện nay, với phát triển ngày rộng Bigdata tạo nhiều hội, nhiên đôi với việc đó, có nhiều thách thức gặp phải… 80 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Trước Ngày - Mỗi tở chức có chun mơn để quản lý liệu có - Thế giới thay đổi thêm liệu khơng có cấu trúc - Có thơng tin thơng minh video, photos, SMS, tin nhắn mạng xã hội Tất điều cần phải mang đến tảng xây dựng hệ thống thống - Người dùng u cầu tính cơng nghệ phải xây dựng để hỗ trợ sửa dụng liệu Ngày nay, có lượng liệu lớn (Volume) tốc độ cao (Velocity) khác (Variety) thuộc tính d ữ liệu Hệ thống sở d ữ liệu truyền thống có giới hạn giải thách thức Đây nhu cầ u của khoa ho ̣c Bigdata Chúng ta đổi cách xử lý quản lý liệu, cần có sáng tạo thu thập trình bày liệu cho người dùng tin Vì vậy, nhu cầ u ứng du ̣ng thông minh thời gian th ực từ luồ ng d ữ liệu tố c đô ̣ cao trở nên cầ n thiết Những lợi ích từ việc sử dụng Bigdata Nhà nghiên cứu Danah Boyd đưa quan ngại việc sử dụng Bigdata việc chọn mẫu thống kê gây chủ quan, dù hay nhiều ảnh hưởn đến kết cuối Việc khai thác liệu từ số nguồn Bigdata, nguồn khác “dữ liệu lớn” đặt thách thức phân tích liệu Tóm lại, Bigdata thách thức đặt cho tổ ch ức, doanh nghiệp thời đại số Một làm chủ đư ợc liệu lớn họ sẽ có h ội thành công lớn bối cảnh cạnh tranh ngày nay, người dùng sẽ đư ợc hưởng lợi từ việc trích xuất thơng tin cách chính xác , hữu ích v ới chi phí th ấp Vẫn trích xoay quanh Bigdata , nhiên lĩnh vực chờ xem tương lai Bigdata sẽ phát triển 81 ... việc sử dụng Bigdata Nhà nghiên cứu Danah Boyd đưa quan ngại việc sử dụng Bigdata việc chọn mẫu thống kê gây chủ quan, dù hay nhiều ảnh hưởn đến kết cuối Việc khai thác liệu từ số nguồn Bigdata, ... thơng tin cách chính xác , hữu ích v ới chi phí th ấp Vẫn trích xoay quanh Bigdata , nhiên lĩnh vực chờ xem tương lai Bigdata sẽ phát triển 81 ... phát triển thời điểm phù hợp với phát triển của kỹ thuật liệu Hiện nay, với phát triển ngày rộng Bigdata tạo nhiều hội, nhiên đơi với việc đó, có nhiều thách thức gặp phải… 80 07/10/2015 Kỷ yếu