1. Trang chủ
  2. » Tất cả

2-160927100523

6 1 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA) Ks Nguyễn Công Hoan Trung Tâm Thông tin Khoa học thống kê (Viện KHTK) Trước đây, biết đến liệu có cấu trúc (structure data), ngày nay, với kết hợp liệu internet, xuất dạng khác liệu - Big data (dịch “dữ liệu lớn”) Dữ liệu từ nguồn như: hồ sơ hành chính,giao dịch điện tử, dịng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin chúng ta, nói cách khác chúng liệu sản sinh qua trình chia sẻ thông tin trực tuyến liên tục người sử dụng Để cung cấp nhìn tổng quan, chúng tơi xin giới thiệu tóm tắt nét liệu lớn hội thách thức mà liệu lớn mang lại Khái niệm, đặc trưng liệu lớn khác biệt với liệu truyền thống 1.1 Khái niệm liệu lớn - Theo wikipedia: Big data thuật ngữ liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu - Theo Gartner: Dữ liệu lớn nguồn thơng tin có đặc điểm chung khối lượng lớn, tốc độ nhanh liệu định dạng nhiều hình thức khác nhau, muốn khai thác địi hỏi phải có hình thức xử lý để đưa định, khám phá tối ưu hóa quy trình 1.2 Nguồn hình thành liệu phương pháp khai thác quản lý liệu lớn Qua thống kê tổng hợp, nguồn liệu lớn hình thành chủ yếu từ nguồn: (1) Dữ liệu hành (phát sinh từ chương trình tổ chức, phủ hay phi phủ) Ví dụ, hồ sơ y tế điện tử bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng ; (2) Dữ liệu từ hoạt động thương mại (phát sinh từ giao dịch hai thực thể) Ví dụ, giao dịch thẻ tín dụng, giao dịch mạng, bao gồm từ thiết bị di động; (3) Dữ liệu từ thiết bị cảm biến thiết bị chụp hình ảnh vệ tinh, cảm biến đường, cảm biến khí hậu; (4) Dữ liệu từ thiết bị theo dõi, ví dụ theo dõi liệu từ điện thoại di động, GPS; (5) Dữ liệu từ hành vi, ví dụ tìm kiếm trực tuyến (một sản phẩm, dịch vụ hay thông tin khác), đọc trang mạng trực tuyến ; (6) Dữ liệu từ thông tin ý kiến, quan điểm cá nhân, tổ chức, phương tiện thông tin xã hội Phương pháp khai thác quản lý liệu lớn thiết kế phù hợp dựa theo nguồn hình thành liệu lớn Mỗi nguồn liệu lớn khác có phương pháp khai thác quản lý liệu lớn khác Tuy nhiên, phần lớn tổ chức giới dùng Hadoop ecosystem giải pháp tối ưu để khai thác quản lý liệu lớn 1.3 Đặc trưng 5V liệu lớn Dữ liệu lớn có đặc trưng sau (mơ hình 5V): (1) Khối lượng liệu (Volume) Đây đặc điểm tiêu biểu liệu lớn, khối lượng liệu lớn Kích cỡ Big Data ngày tăng lên, tính đến năm 2012 nằm khoảng vài chục terabyte nhiều petabyte (1 petabyte = 1024 terabyte) cho tập hợp liệu Dữ liệu truyền thống lưu trữ thiết bị đĩa mềm, đĩa cứng Nhưng với liệu lớn sử dụng công nghệ “đám mây” đáp ứng khả lưu trữ liệu lớn (2) Tốc độ (Velocity) Tốc độ hiểu theo khía cạnh: (a) Khối lượng liệu gia tăng nhanh (mỗi giây có tới 72.9 triệu yêu cầu truy cập tìm kiếm web bán hàng Amazon); (b) Xử lý liệu nhanh mức thời gian thực (real-time), có nghĩa liệu xử lý tức thời sau chúng phát sinh (tính đến mili giây) Các ứng dụng phổ biến lĩnh vực Internet, Tài chính, Ngân hàng, Hàng khơng, Qn sự, Y tế – Sức khỏe phần lớn liệu lớn xử lý real-time Công nghệ xử lý liệu lớn ngày cho phép xử lý tức trước chúng lưu trữ vào sở liệu (3) Đa dạng (Variety) Đối với liệu truyền thống hay nói đến liệu có cấu trúc, ngày 80% liệu sinh phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, hát, liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…) Big Data cho phép liên kết phân tích nhiều dạng liệu khác Ví dụ, với bình luận nhóm người dùng Facebook với thơng tin video chia sẻ từ Youtube Twitter (4) Độ tin cậy/chính xác (Veracity) Một tính chất phức tạp Dữ liệu lớn độ tin cậy/chính xác liệu Với xu hướng phương tiện truyền thông xã hội (Social Media) mạng xã hội (Social Network) ngày gia tăng mạnh mẽ tính tương tác chia sẻ người dùng Mobile làm cho tranh xác định độ tin cậy & xác liệu ngày khó khăn Bài tốn phân tích loại bỏ liệu thiếu xác nhiễu tính chất quan trọng BigData (5) Giá trị (Value) Giá trị đặc điểm quan trọng liệu lớn, bắt đầu triển khai xây dựng liệu lớn việc cần phải làm xác định giá trị thông tin mang lại nào, có định có nên triển khai liệu lớn hay không Nếu có liệu lớn mà nhận 1% lợi ích từ nó, khơng nên đầu tư phát triển liệu lớn Kết dự báo xác thể rõ nét giá trị liệu lớn mang lại Ví dụ, từ khối liệu phát sinh trình khám, chữa bệnh giúp dự báo sức khỏe xác hơn, giảm chi phí điều trị chi phí liên quan đến y tế 1.4 Sự khác biệt liệu lớn với liệu truyền thống Dữ liệu lớn khác với liệu truyền thống (ví dụ, kho liệu - Data Warehouse) điểm bản: Dữ liệu đa dạng hơn; lưu trữ liệu lớn hơn; truy vấn nhanh hơn; độ xác cao (1) Dữ liệu đa dạng hơn: Khi khai thác liệu truyền thống (Dữ liệu có cấu trúc), thường phải trả lời câu hỏi: Dữ liệu lấy kiểu gì? định dạng liệu nào? Đối với liệu lớn, trả lời câu hỏi Hay nói khác, khai thác, phân tích liệu lớn khơng cần quan tâm đến kiểu liệu định dạng chúng; điều quan tâm giá trị mà liệu mang lại có đáp ứng cho cơng việc tương lai hay không (2) Lưu trữ liệu lớn hơn: Lưu trữ liệu truyền thống vô phức tạp đặt câu hỏi lưu nào? dung lượng kho lưu trữ đủ? gắn kèm với câu hỏi chi phí đầu tư tương ứng Công nghệ lưu trữ liệu lớn phần giải vấn đề nhờ công nghệ lưu trữ đám mây, phân phối lưu trữ liệu phân tán kết hợp liệu phân tán lại với cách xác xử lý nhanh thời gian thực (3) Truy vấn liệu nhanh hơn: Dữ liệu lớn cập nhật liên tục, kho liệu truyền thống cập nhật tình trạng khơng theo dõi thường xuyên gây tình trạng lỗi cấu trúc truy vấn dẫn đến khơng tìm kiếm thơng tin đáp ứng theo yêu cầu (4) Độ xác cao hơn: Dữ liệu lớn đưa vào sử dụng thường kiểm định lại liệu với điều kiện chặt chẽ, số lượng thông tin kiểm tra thông thường lớn, đảm bảo nguồn lấy liệu khơng có tác động người vào thay đổi số liệu thu thập Bức tranh tổng thể ứng dụng liệu lớn Dữ liệu lớn ứng dụng nhiều lĩnh vực như: hoạt động trị; giao thơng; y tế; thể thao; tài chính; thương mại; thống kê số ví dụ ứng dụng liệu lớn 2.1 Ứng dụng liệu lớn hoạt động trị Hình bên cho thấy Tổng thống Mỹ Obama sử dụng liệu liệu lớn để phục vụ cho tranh cử Tổng thống Ơng xây dựng đội ngũ nhân viên chuyên thu thập thông tin phân tích liệu thu dự án triển khai liệu lớn Đội ngũ nhân viên thu thập tất thông tin người dân khu vực, sau phân tích số thông tin quan trọng người dân Mỹ như: Thích đọc sách gì, thích mua loại thuốc gì, thích sử dụng phương tiện gì… Thậm chí cịn biết thơng tin mẹ cử tri bỏ phiếu tín nhiệm lần bầu cử trước Trên sở thông tin này, Tổng thống Obama đưa kế hoạch vận động phù hợp, giúp ông tái đắc cử Tổng thống nước Mỹ lần thứ Ngoài số ứng dụng khác lĩnh vực trị mà liệu lớn áp dụng như: Hệ thống phủ điện tử; phân tích quy định việc tuân thủ quy định; phân tích, giám sát, theo dõi phát gian lận, mối đe dọa, an ninh mạng 2.2 Ứng dụng liệu lớn giao thông Sử dụng số liệu CDR khứ để ước lượng dòng giao thông thành phố vào cao điểm, từ có kế hoạch phân luồng giao thơng chi tiết, hợp lý giúp giảm thiểu kẹt xe Ngoài cịn đưa thơng tin cho người tham gia giao thông biết muốn từ nơi đến nơi khác nên vào để tránh kẹt xe, đường ngắn nhất.v.v Ngồi liệu lớn cịn giúp phân tích định vị người dùng thiết bị di động, ghi nhận chi tiết gọi thời gian thực; giảm thiểu tình trạng ùn tắc giao thơng 2.3 Ứng dụng liệu lớn y tế Trong y học bác sĩ dựa vào số liệu bệnh án để đưa dự đoán nguy mắc bệnh Đồng thời đưa xu hướng lây lan bệnh Ví dụ, ứng dụng Google Flu Trend ứng dụng thành công Google ứng dụng dựa từ khóa tìm kiếm khu vực đó, sau máy phân tích google phân tích đối chiếu kết tìm kiếm đó, sau đưa dự báo xu hướng dịch cúm khu vực Qua cho biết tình hình cúm khu vực diễn để đưa giải pháp phòng tránh Những kết mà Google Flu Trend đưa ra, hoàn toàn phù hợp với báo cáo Tổ chức y tế giới WHO tình hình bệnh cúm khu vực 2.4 Ứng dụng liệu lớn thể thao Phân tích mơ hình hệ thống cấu trúc sơ đồ chiến thuật đội tuyển Đức (hình bên) đưa điểm bất hợp lý cấu trúc đội tuyển Đức, từ giúp cho đội tuyển Đức khắc phục điểm yếu dành World cup 2014 2.5 Ứng dụng liệu lớn tài Từ liệu xác, kịp thời thu thập thơng qua giao dịch khách hàng, tiến hành phân tích, xếp hạng quản lý rủi ro đầu tư tài chính, tín dụng 2.6 Ứng dụng liệu lớn thương mại Trong thương mại liệu lớn giúp cho thực số công việc sau: Phân khúc thị trường khách hàng; phân tích hành vi khách hàng cửa hàng; tiếp thị tảng định vị; phân tích tiếp thị chéo kênh, tiếp thị đa kênh; quản lý chiến dịch tiếp thị khách hàng thân thiết; So sánh giá; Phân tích quản lý chuỗi cung ứng; Phân tích hành vi, thói quen người tiêu dùng 2.7 Ứng dụng liệu lớn thống kê Nhận thấy lợi ích to lớn thách thức Bigdata thống kê thức, Ủy ban Thống kê Liên hợp quốc tổ chức thống kê khu vực quan thống kê quốc gia nhiều nước triển khai hàng loạt hoạt động Bigdata như: Hàn Quốc sử dụng ảnh vệ tinh để thống kê nông nghiệp số lĩnhvực khác;Australia sử dụng ảnh vệ tinh để thống kê diện tích đất nông nghiệp suất; Italia sử dụng liệu điện thoại di động để thống kê di cư; Bhutan dùng thiết bị di động để tính tốn số giá tiêu dùng; Estonia dùng điện thoại di động định vị vệ tinh để thống kê du lịch; EuroStat sử dụng liệu sử dụng điện thoại di động để thống kê du lịch1 Những hội thách thức ứng dụng Big data thống kê thức 3.1 Cơ hội (1) Tiếp cận nghiên cứu liệu lớn giúp cho có thêm phương án giải quyết, xử lý đối phó với thách thức đối sản xuất số liệu thống kê thức tương lai Những nghiên cứu thực nghiệm cần phải tiến hành để khám phá ứng dụng tiềm liệu lớn số liệu thống kê thức, nghiên cứu thực nghiệm phải phần quy trình sản xuất số liệu thống kê (2) Nghiên cứu liệu lớn cần phải có sở hạ tầng công nghệ thông tin đại, đáp ứng yêu cầu xử lý khối lượng lớn liệu nhanh, đồng thời tập hợp liệu từ nhiều nguồn khác Thực điều có đội ngũ nguồn nhân lực quản lý khai thác Big data vững vàng chuyên môn trải qua kinh nghiệm thực tế (3) Tiếp cận nghiên cứu liệu lớn giúp có văn pháp lý bổ sung giúp cho quan thống kê thức có điều kiện để thực khai thác liệu thơng qua hồ sơ hành chính, liệu bảo đảm giữ bí mật nhờ văn pháp lý bổ sung (4) Sử dụng liệu lớn đem lại niềm tin cộng đồng với thống kê thức q trình trình sản xuất số liệu thống kê thức với liệu lớn hồn tồn khơng có tác động chủ ý người 3.2 Thách thức (1)Tài Nhiều đơn vị, tổ chức khơng đo lường vấn đề phát sinh trình triển khai thực hiện, dự tốn kinh phí chưa xác, dự án không thực Để triển khai thành cơng, yếu tố tài có ý nghĩa quan trọng, số tập đoàn thương mại lớn có tiềm lực tài vững xây dựng thuận lợi hệ thống liệu Big data IBM, website bán hàng thương mại điện tử Amazon (2) Chính sách, quy định Luật pháp truy cập sử dụng liệu Việc sử dụng khai thác liệu lớn phụ thuộc vào luật quy định quốc gia Xem Báo cáo “Thống kê thức với Big data: Kinh nghiệm quốc tế định hướng Thống kê Việt Nam Ví dụ: Canada người dùng tiếp cận liệu từ hai tổ chức phủ phi phủ, nước khác Ireland phải cho phép từ quan phủ Điều dẫn đến hạn chế để truy cập vào số loại liệu lớn (3) Trình độ khai thác quản lý liệu Do luật pháp quy định sử dụng khai thác quốc gia khác nên cách quản lý khác nhiên, Một vấn đề liên quan đến quản lý thông tin nguồn nhân lực Khoa học liệu lớn phát triển mạnh tổ chức tư nhân, phận chưa liên kết với tổ chức phủ cách chặt chẽ dẫn đến việc quản lý nhiều vướng mắc (4) Hạ tầng Công nghệ thông tin Cần phải cải thiện tốc độ liệu truy cập vào liệu hành nghĩa sử dụng giao diện ứng dụng Chương trình chuyên sâu tiêu chuẩn (API) để truy cập liệu Bằng cách này, kết nối ứng dụng cho liệu thu xử lý liệu trực tiếp với liệu hành Ngồi hệ thống khai thác liệu lớn cần phải tính tốn để kết nối vào kho sở liệu truyền thống, thách thức lớn cần giải Tóm lại Trong nghiên cứu đưa thông tin Big data, lợi ích mà Big data mang lại cho Bên cạnh thách thức triển khai áp dụng khai thác Big data Điều quan trọng báo cáo đưa ưu điểm Big data cung cấpthơng tin để chung ta xử lý tình nhanh nhất, xác giá trị Big data mang lại ln có tính định hướng đến tương lai ? giải đáp câu hỏi việc lại xảy ra?; Sau chuyện điều sảy ra? nên ứng phó hồn cảnh đó? Tài liệu tham khảo Tài liệu hội thách thức với bigdata –E Liên Hợp Quốc: http://unstats.un.org/unsd/statcom/doc14/2014-11-BigData-E.pdf Báo cáo Hội thảo tương lai Thống kê học London: https://statistics.stanford.edu/statistics-and-science-london-workshop-report Tài liệu khái niệm đặc trưng Big data: https://viblo.asia/dovv/posts/3OEqGjWwv9bL

Ngày đăng: 30/11/2017, 21:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w