Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu – Big data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của chính chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng
BIG DATA – TỔNG QUAN VÀ ỨNG DỤNG I Mở đầu Trước đây, biết đến liệu có cấu trúc (structure data), ngày nay, với kết hợp liệu internet, xuất dạng khác liệu – Big data (dịch “dữ liệu lớn”) Dữ liệu từ nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin chúng ta, nói cách khác chúng liệu sản sinh qua trình chia sẻ thông tin trực tuyến liên tục người sử dụng(Hình 1) II Hình – Ví dụ nguồn liệu Khái niệm đặc trưng Khái niệm - Theo wikipedia: Big data thuật ngữ liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu - Theo Gartner: Dữ liệu lớn nguồn thơng tin có đặc điểm chung khối lượng lớn, tốc độ nhanh liệu định dạng nhiều hình thức khác nhau, muốn khai thác đòi hỏi phải có hình thức xử lý để đưa định, khám phá tối ưu hóa quy trình Đặc trưng Hình – Đặc trưng 5V Big Data Dữ liệu lớn có đặc trưng sau (mơ hình 5V)(Hình 2): (1) Khối lượng liệu (Volume) Đây đặc điểm tiêu biểu liệu lớn, khối lượng liệu lớn Kích cỡ Big Data ngày tăng lên, tính đến năm 2012 nằm khoảng vài chục terabyte nhiều petabyte (1 petabyte = 1024 terabyte) cho tập hợp liệu Dữ liệu truyền thống lưu trữ thiết bị đĩa mềm, đĩa cứng Nhưng với liệu lớn sử dụng công nghệ “đám mây” đáp ứng khả lưu trữ liệu lớn (2) Tốc độ (Velocity) Tốc độ hiểu theo khía cạnh: (a) Khối lượng liệu gia tăng nhanh (mỗi giây có tới 72.9 triệu u cầu truy cập tìm kiếm web bán hàng Amazon); (b) Xử lý liệu nhanh mức thời gian thực (real-time), có nghĩa liệu xử lý tứ c thời sau chúng phát sinh (tính đến mili giây) Các ứng dụng phổ biến lĩnh vực Internet, Tài chính, Ngân hàng, Hàng khơng, Qn sự, Y tế – Sức khỏe phần lớn liệu lớn xử lý real-time Công nghệ xử lý liệu lớn ngày cho phép xử lý tức trước chúng lưu trữ vào sở liệu (3) Đa dạng (Variety) Đối với liệu truyền thống hay nói đến liệu có cấu trúc, ngày 80% liệu sinh phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, hát, liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…) Big Data cho phép liên kết phân tích nhiều dạng liệu khác Ví dụ, với bình luận nhóm người dùng Facebook với thông tin video chia sẻ từ Youtube Twitter (4) Độ tin cậy/chính xác (Veracity) Một tính chất phức tạp Dữ liệu lớn độ tin cậy/chính xác liệu Với xu hướng phương tiện truyền thông xã hội (Social Media) mạng xã hội (Social Network) ngày gia tăng mạnh mẽ tính tương tác chia sẻ người dùng Mobile làm cho tranh xác định độ tin cậy & xác liệu ngày khó khăn Bài tốn phân tích loại bỏ liệu thiếu xác nhiễu tính chất quan trọng BigData (5) Giá trị (Value) Giá trị đặc điểm quan trọng liệu lớn, bắt đầu triển khai xây dự ng liệu lớn việc cần phải làm xác định giá trị thông tin mang lại nào, có định có nên triển khai liệu lớn hay khơng Nếu có liệu lớn mà nhận 1% lợi ích từ nó, khơng nên đầu tư phát triển liệu lớn Kết dự báo xác thể rõ nét giá trị liệu lớn mang lại Ví dụ, từ khối liệu phát sinh trình khám, chữa bệnh giúp dự báo sức khỏe xác hơn, giảm chi phí điều trị chi phí liên quan đến y tế III Phương pháp khai thác triển nghiên cứu Bigdata Phương pháp nghiên cứu Phương pháp khai thác quản lý liệu lớn thiết kế phù hợp dựa theo nguồn hình thành liệu lớn Mỗi nguồn liệu lớn khác có phương pháp khai thác quản lý liệu lớn khác Tuy nhiên, phần lớn tổ chức giới dùng Hadoop ecosystem giải pháp tối ưu để khai thác quản lý liệu lớn Hadoop, dự án phần mềm quản lý liệu Apache với nhân khung phần mềm MapReduce Google, thiết kế để hỗ trợ ứng dụng sử dụng đươ c số lượng lớn liệu cấu trúc phi cấu trúc Không giống hệ quản tri sở liệu truyền thống, Hadoop thiết kế để làm việc với nhiều loại liệu liệu nguồn Công nghệ HDFS Hadoop cho phép khối lượng lớn công việc chia thành khối liệu nhỏ nhân rộng phân phối phần cứng cluster đe xử lý nhanh Công nghệ sử dụng rộng rãi số trang web lớn giới, chẳng hạn Facebook, eBay, Amazon, Baidu, Yahoo… Hình – Các thành phần Hadoop ecosystem Hadoop cấu thành từ thành phần chính, – HDFS (Hadoop Distributed Files System): hệ thống lưu trữ liệu Hadoop – MapReduce: mơ hình lập trình Hadoop, giúp khai tác liệu cách tốt Hình – Cấu trúc Hadoop (HDFS MapReduce) Triển khai khai thác Big Data Quá trình triển khai khai thác Big Data chia làm giai đoạn Giai đoạn 1: Đánh giá thực trạng quản lý liệu đơn vị cần triển khai Đây bước trình bắt tay vào thực sử dụng liệu lớn Bước có vai trò quan trọng việc nhìn nhận thực trạng liệu đơn vị quản lý dựa vào đưa kế hoạch cụ thể điều chỉnh hoạt động quản lý khai thác liệu triển khai Big Data Ví dụ Nguồn thơng tin tổng hợp website lãnh đạo CNTT ANTT Đơng Nam Á CIO CSO 2014 hình 5: - Hình – Tổng qua tình hình sử dụng Big Data năm 2014 Dịch vụ tài năm 2015 đầu tư 6,4 tỷ đô la vào đầu tư liệu lớn : - tăng 22% Lập trình phần mềm năm 2015 đầu tư 2,8 tỷ đô la vào liệu lớn : tăng 26% - Hoạt động phủ năm 2015 đầu tư 2,8 tỷ đô la : tăng 22% Lĩnh vực đa phương tiện năm 2015 đầu tư 1,2 tỷ đô tăng 40% Giai đoạn 2: Đây bước thứ hai việc triển khai khai thác Big Data Từ việc đánh giá thực trạng cần xác định số nội dung quan sau đây: - Xác định có liệu hay không để triển khai Big Data vấn đề muốn giải - Xác định Big data có thực phù hợp để giải vấn đề Bước 3: Xây dựng cấu trúc tổng thể Big Data Cấu trúc tổng thể Big Data phải đảm bảo chức sau : Đa dạng nguồn liệu: Big data lấy từ nhỉều nguồn âm thanh, đoạn phim, hình ảnh, kho liệu Nguồn liệu đầu vào đa dạng Mã hóa liệu: Sau thu thập thơng tin từ nguồn liệu chuyển qua khâu data extract (giải nén liệu) Transfer… and intergrate process(chuyẻn đổi xử lý hợp liệu) Phân tích liệu: Sau liệu đưa vào kho lưu trữ phục vụ cho việc thực phân tích khai thác liệu Thông qua công cụ hỗ trợ Tổng hợp liệu (Báo cáo): Cuối mơ hình chức Big data đưa báo cáo cho người sử dụng Dựa vào thông tin báo cáo người dùng nắm bắt thơng tin Tình trạng vấn đề cần giải Quan trọng đưa định kịp thời xác dựa nhũng nguồn liệu phân tích Giai đoạn 4: IV Ứng dụng Big Data Dữ liệu lớn ứng dụng nhiều lĩnh vực như: hoạt động trị; giao thơng; y tế; thể thao; tài chính; thương mại; thống kê số ví dụ ứng dụ ng liệu lớn Ứng dụng liệu lớn hoạt động trị Hình cho thấy Tổng thống Mỹ Obama sử dụng liệu liệu lớn để phục vụ cho tranh cử Tổng thống Ơng xây dựng đội ngũ nhân viên chun thu thập thơng tin phân tích liệu thu dự án triển khai liệu lớn Đội ngũ nhân viên thu thập tất thông tin người dân khu vực, sau phân tích số thơng tin quan trọng người dân Mỹ như: Thích đọc sách gì, thích mua loại thuốc gì, thích sử dụng phương tiện gì… Thậm chí biết thơng tin mẹ cử tri bỏ phiếu tín nhiệm lần bầu cử trước Trên sở thông tin này, Tổng thống Obama đưa kế hoạch vận động phù hợp, giúp ông tái đắc cử Tổng thống nước Mỹ lần thứ Ngoài số ứng dụng khác lĩnh vực trị mà liệu lớn áp dụ ng như: Hệ thống phủ điện tử; phân tích quy định việc tuân thủ quy định; phân tích, giám sát, theo dõi phát gian lận, mối đe dọa, an ninh mạng Ứng dụng liệu lớn giao thông Sử dụng số liệu CDR khứ để ước lượng dòng giao thơng thành phố vào cao điểm, từ có kế hoạch phân luồng giao thông chi tiết, hợp lý giúp giảm thiểu kẹt xe Ngồi đưa thông tin cho người tham gia giao thông biết muốn từ nơi đến nơi khác nên vào để tránh kẹt xe, đường ngắn nhất.v.v Ngoài liệu lớn giúp phân tích định vị người dùng thiết bị di động, ghi nhận chi tiết gọi thời gian thực; giảm thiểu tình trạng ùn tắc giao thông Ứng dụng liệu lớn y tế Trong y học bác sĩ dựa vào số liệu bệnh án để đưa dự đoán nguy mắc bệnh Đồng thời đưa xu hướng lây lan bệnh Ví dụ, ứng dụng Google Flu Trend ứng dụng thành công Google ứng dụ ng dựa từ khóa tìm kiếm khu vực đó, sau máy phân tích google phân tích đối chiếu kết tìm kiếm đó, sau đưa dự báo xu hướng dịch cúm khu vực Qua cho biết tình hình cúm khu vực diễn để đưa giải pháp phòng tránh Những kết mà Google Flu Trend đưa ra, hoàn toàn phù hợp với báo cáo Tổ chức y tế giới WHO tình hình bệnh cúm khu vực Ứng dụng liệu lớn thể thao Phân tích mơ hình hệ thống cấu trúc sơ đồ chiến thuật đội tuyển Đức (hình dưới) đưa điểm bất hợp lý cấu trúc đội tuyển Đức, từ giúp cho đội tuyển Đức khắc phục điểm yếu dành World cup 2014 V Cơ hội thách thức triển khai khai thác Big Data Cơ hội (1) Tiếp cận nghiên cứu liệu lớn giúp cho có thêm phương án giải quyết, xử lý đối phó với thách thức đối sản xuất số liệu thống kê thức tương lai Những nghiên cứu thực nghiệm cần phải tiến hành để khám phá ứng dụng tiềm liệu lớn số liệu thống kê thức, nghiên cứu thực nghiệm phải phần quy trình sản xuất số liệu thống kê (2) Nghiên cứu liệu lớn cần phải có sở hạ tầng cơng nghệ thông tin đại, đáp ứng yêu cầu xử lý khối lượng lớn liệu nhanh, đồng thời tập hợp liệu từ nhiều nguồn khác Thực điều có đội ngũ nguồn nhân lực quản lý khai thác Big data vững vàng chuyên môn trải qua kinh nghiệm thực tế (3) Tiếp cận nghiên cứu liệu lớn giúp có văn pháp lý bổ sung giúp cho quan thống kê thức có điều kiện để thực khai thác liệu thơng qua hồ sơ hành chính, ngồi liệu bảo đảm giữ bí mật nhờ văn pháp lý bổ sung (4) Sử dụng liệu lớn đem lại niềm tin cộng đồng với thống kê thức q trình trình sản xuất số liệu thống kê thức với liệu lớn hồn tồn khơng có tác động chủ ý người Thách thức (1)Tài Nhiều đơn vị, tổ chức không đo lường vấn đề phát sinh trình triển khai thực hiện, dự tốn kinh phí chưa xác, dự án không thực Để triển khai thành công, yếu tố tài có ý nghĩa quan trọng, số tập đồn thương mại lớn có tiềm lực tài vững xây dựng thuận lợi hệ thống liệu Big data IBM, website bán hàng thương mại điện tử Amazon (2) Chính sách, quy định Luật pháp truy cập sử dụng liệu Việc sử dụng khai thác liệu lớn phụ thuộc vào luật quy định quốc gia Ví dụ: Canada người dùng tiếp cận liệu từ hai tổ chức phủ phi phủ, nước khác Ireland phải cho phép từ quan phủ Điều dẫn đến hạn chế để truy cập vào số loại liệu lớn (3) Trình độ khai thác quản lý liệu Do luật pháp quy định sử dụng khai thác quốc gia khác nên cách quản lý khác nhiên, Một vấn đề liên quan đến quản lý thông tin nguồn nhân lực Khoa học liệu lớn phát triển mạnh tổ chức tư nhân, phận chưa liên kết với tổ chức phủ cách chặt chẽ dẫn đến việc quản lý nhiều vướng mắc (4) Hạ tầng Công nghệ thông tin Cần phải cải thiện tốc độ liệu truy cập vào liệu hành nghĩa sử dụng giao diện ứng dụng Chương trình chuyên sâu tiêu chuẩn (API) để truy cập liệu Bằng cách này, kết nối ứng dụng cho liệu thu xử lý liệu trực tiếp với liệu hành Ngồi hệ thống khai thác liệu lớn cần phải tính tốn để kết nối vào kho sở liệu truyền thống, thách thức lớn cần giải VI Kết luận Trong nghiên cứu đưa thông tin Big data, lợi ích mà Big data mang lại cho Bên cạnh thách thức triển khai áp dụng khai thác Big data Điều quan trọng báo cáo đưa ưu điểm Big data cung cấpthơng tin để chung ta xử lý tình nhanh nhất, xác giá trị Big data mang lại ln có tính định hướng đến tương lai ... nghiên cứu đưa thông tin Big data, lợi ích mà Big data mang lại cho Bên cạnh thách thức triển khai áp dụng khai thác Big data Điều quan trọng báo cáo đưa ưu điểm Big data cung cấpthơng tin để... phù hợp để giải vấn đề Bước 3: Xây dựng cấu trúc tổng thể Big Data Cấu trúc tổng thể Big Data phải đảm bảo chức sau : Đa dạng nguồn liệu: Big data lấy từ nhỉều nguồn âm thanh, đoạn phim, hình... khai khai thác Big Data Từ việc đánh giá thực trạng cần xác định số nội dung quan sau đây: - Xác định có liệu hay khơng để triển khai Big Data vấn đề muốn giải - Xác định Big data có thực phù