Tổng luận số 2/2015 1 Tổng luận số 2 /2015 DỮ LIỆU LỚN VÀ XU HƯỚNG ĐỔI MỚI SÁNG TẠO DỰA TRÊN DỮ LIỆU 2 CỤC THÔNG TIN KHOA HỌC VÀ CÔNG NGHỆ QUỐC GIA Địa chỉ 24, Lý Thường Kiệt, Hoàn Kiếm, Hà Nội Tel (0[.]
Tổng luận số /2015 DỮ LIỆU LỚN VÀ XU HƯỚNG ĐỔI MỚI SÁNG TẠO DỰA TRÊN DỮ LIỆU CỤC THÔNG TIN KHOA HỌC VÀ CÔNG NGHỆ QUỐC GIA Địa chỉ: 24, Lý Thường Kiệt, Hoàn Kiếm, Hà Nội Tel: (04)38262718, Fax: (04)39349127 Ban biên tập: TS Lê Xuân Định (Trưởng ban), KS Nguyễn Mạnh Quân, ThS Đặng Bảo Hà, ThS Phùng Anh Tiến Mục lục Trang Lời giới thiệu Các chữ viết tắt I ĐỔI MỚI DỰA TRÊN DỮ LIỆU - NGUỒN LỰC TĂNG TRƯỞNG VÀ PHÁT TRIỂN KINH TẾ 1.1 Dữ liệu lớn khái niệm liên quan 1.2 Giá trị liệu ngày gia tăng kinh tế 11 1.3 Đổi sáng tạo dựa liệu - nguồn lực tăng trưởng phát triển 19 II CÁC CƠNG NGHỆ VÀ CHÍNH SÁCH THÚC ĐẨY ĐỔI MỚI SÁNG TẠO DỰA TRÊN DỮ LIỆU 28 2.1 Các kênh khai thác đổi sáng tạo dựa liệu để phục vụ tăng trưởng kinh tế 28 2.2 Các công nghệ thúc đẩy đổi sáng tạo dựa liệu 39 3.3 Các vấn đề sách để khai thác đổi dựa sáng tạo liệu nguồn lực tăng trưởng 53 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 64 Lời giới thiệu Thế giới chứng kiến cách mạng công nghiệp thúc đẩy liệu số, tính tốn tự động hóa Sự giao thoa số xu hướng công nghệ kinh tế xã hội, bao gồm việc sử dụng Internet ngày tăng suy giảm chi phí thu thập, truyền tải, lưu trữ phân tích liệu, dẫn đến việc tạo khối lượng liệu khổng lồ - gọi chung "dữ liệu lớn" (Big Data), nguồn lực khai thác để thúc đẩy hình thành ngành cơng nghiệp mới, quy trình sản phẩm Các hoạt động kinh tế xã hội từ lâu dựa vào liệu Tuy nhiên đây, khối lượng, tốc độ chủng loại liệu sử dụng gia tăng mạnh mẽ phạm vi toàn kinh tế, quan trọng giá trị kinh tế xã hội lớn chúng mở hội thay đổi hướng tới mô hình kinh tế xã hội dựa liệu Trong mơ hình này, liệu tài sản cốt lõi tạo lợi cạnh tranh quan trọng, chi phối đổi sáng tạo, tăng trưởng phát triển bền vững Đổi sáng tạo dựa vào liệu có giá trị kinh tế to lớn, với doanh thu từ sản phẩm dịch vụ Dữ liệu lớn vượt 18 tỷ USD năm 2013, theo Feff Kelly (2014) giá trị đạt 50 tỷ USD vào năm 2017 Để thực hóa trọn vẹn tiềm liệu lớn, quốc gia cần có khn khổ sách quán, phù hợp thu thập, truyền tải, lưu trữ, cung cấp sử dụng liệu, đặc biệt lĩnh vực bảo vệ quyền riêng tư, tiếp cận liệu mở, kỹ việc làm, sở hạ tầng đo lường, v.v Đây nội dung thơng tin mà Tổng luận "Dữ liệu lớn xu hướng đổi sáng tạo dựa liệu" muốn cung cấp với độc giả Tài liệu biên soạn dựa báo cáo OECD vai trò tiềm liệu phân tích liệu việc tạo ưu cạnh tranh hình thành vốn tri thức, thúc đẩy đổi sáng tạo tăng trưởng bền vững Phần đầu Tài liệu cung cấp khái niệm định nghĩa công nhận rộng rãi Dữ liệu lớn, việc tạo sử dụng liệu lĩnh vực ứng dụng kinh tế Tiếp theo tài liệu mô tả cách thức khai thác liệu nguồn lực thúc đẩy tăng trưởng kinh tế phát triển bền vững, phần cuối, tài liệu đề cập đến vấn đề sách chủ yếu hoạch định sách cơng nhằm thúc đẩy đổi sáng tạo dựa vào liệu Xin trân trọng giới thiệu CỤC THÔNG TIN KH&CN QUỐC GIA Bảng chữ viết tắt API Giao diện lập trình ứng dụng BI Trí tuệ doanh nghiệp CAGR Tỷ lệ tăng trưởng tổng hợp lũy kế hàng năm DDI Đổi sáng tạo dựa vào tăng trưởng HDD Ổ đĩa cứng ICT Công nghệ thông tin - truyền thông IoT Internet kết nối vạn vật KBC Vốn tri thức M&A Mua bán sáp nhập M2M Giao tiếp máy tới máy NC&PT Nghiên cứu phát triển NoSQL Cơ sở liệu phân tán không quan hệ OECD Tổ chức hợp tác phát triển kinh tế PET Công nghệ bảo vệ quyền riêng tư PMNM Ứng dụng phần mềm nguồn mở PSI Thông tin khu vực công SHTT Sở hữu trí tuệ SMS Tin nhắn văn SSD Ổ đĩa thể rắn I ĐỔI MỚI DỰA TRÊN DỮ LIỆU - NGUỒN LỰC TĂNG TRƯỞNG VÀ PHÁT TRIỂN KINH TẾ 1.1 Dữ liệu lớn khái niệm liên quan Trong thời đại nay, liệu ngày thấm sâu vào sống người hết Chúng ta mong muốn sử dụng liệu để giải vấn đề, nâng cao phúc lợi tạo thịnh vượng kinh tế Việc thu thập, lưu trữ, phân tích liệu tuân theo quỹ đạo có xu hướng lên dường khơng có ranh giới, hoạt động thúc đẩy gia tăng lực xử lý, chi phí giảm mạnh tính tốn lưu trữ, số lượng ngày tăng công nghệ cảm biến nhúng tất loại thiết bị Vào năm 2011, số ước tính khối lượng thơng tin tạo chép lại vượt mức 1,8 zettabytes Trong năm 2013, ước tính có zettabytes liệu tạo toàn giới zettabyte (ZB) = 1021bytes Một byte tương đương với ký tự văn Có thể tưởng tượng rằng, giây, người dân Hoa Kỳ chụp ảnh số, liên tục vịng tháng Tất số ảnh đem tập hợp lại với khoảng zettabyte Mỗi ngày có 500 triệu ảnh tải lên chia sẻ mạng xã hội, với đoạn video với độ dài tổng cộng đến 200 tải lên phút Nhưng khối lượng thông tin mà người tự tạo ra, thông tin liên lạc gồm gọi thoại, email văn bản, ảnh, video âm nhạc tải lên khơng so với lượng thơng tin số tạo chúng ngày Các xu hướng tiếp diễn Hiện vào giai đoạn sơ khai gọi "Internet vạn vật" (IoT), tất thiết bị, phương tiện công nghệ "mang người" giao tiếp với Các tiến cơng nghệ làm giảm chi phí việc tạo ra, thu thập, quản lý lưu trữ thơng tin xuống cịn phần sáu chi phí tính vào năm 2005 Và kể từ năm 2005, đầu tư doanh nghiệp vào phần cứng, phần mềm, nhân lực dịch vụ tăng 50% đạt nghìn tỷ USD "Internet vạn vật" thuật ngữ dùng để mơ tả khả thiết bị giao tiếp với sử dụng cảm biến nhúng, liên kết với thông qua mạng kết nối có dây khơng dây Các thiết bị bao gồm nhiệt kế, xe chí viên thuốc mà bạn nuốt vào để bác sĩ theo dõi sức khỏe máy tiêu hóa bạn Các thiết bị kết nối sử dụng Internet để truyền, diễn giải phân tích liệu 1.1.1 Dữ liệu yếu tố thúc đẩy tạo sử dụng liệu Việc số hóa gần phương tiện truyền thơng chuyển hướng ngày tăng hoạt động kinh tế xã hội sang sử dụng Internet (thông qua dịch vụ điện tử mạng xã hội, thương mại điện tử, y tế điện tử phủ điện tử) tạo nhiều petabyte (hàng triệu gigabyte) liệu sau giây Ví dụ mạng kết nối xã hội Facebook biết có đến 900 triệu người tham gia toàn giới tạo trung bình 1500 trạng thái cập nhật giây (Hachman, 2012; Bullas, 2011) Với việc khai thác kết nối (thế giới thực) ngày tăng cảm biến thông qua mạng cố định di động (mạng cảm biến), ngày có nhiều hoạt động ngoại tuyến ghi lại kỹ thuật số, dẫn đến sóng bổ sung liệu không ngừng Nhiều tài liệu rằng, riêng năm 2010, doanh nghiệp lưu trữ tổng thể exabyte (hàng tỷ gigabyte) liệu ổ đĩa, người tiêu dùng bảo quản exabyte liệu (MGI, 2011) Điều dẫn đến lượng liệu tích lũy ước tính 1000 exabyte vào năm 2010; nhà phân tích ước tính số tăng lên gấp 40 lần vào cuối thập kỷ (IDC, 2012) Hình 1: Kho liệu ước tính phạm vi toàn giới, đơn vị exabyte (tỷ gigabyte) Nguồn: OECD dựa dự báo nghiên cứu IDC Digital Universe Tạo liệu, thu thập truyền tải Lượng liệu gia tăng cách mạnh mẽ chủ yếu bị tác động hội tụ phát triển công nghệ quan trọng, đáng ý truy cập băng thông rộng nơi phổ biến thiết bị ứng dụng ICT thông minh, dụng cụ đo thông minh, lưới điện giao thông vận tải thông minh dựa mạng cảm biến giao tiếp máy với máy (M2M) Chi phí truy cập Internet giảm mạnh vịng 20 năm qua yếu tố chi phối quan trọng Ví dụ vào năm 2011, người tiêu dùng Pháp phải trả khoảng 33 USD tháng cho kết nối băng thông rộng tốc độ 51 Mbit/s, chi phí cho kết nối quay số (với tốc độ chậm đến 1000 lần) 75 USD vào năm 1995 Điện thoại di động trở thành thiết bị thu thập liệu hàng đầu, kết hợp liệu định vị địa lý với kết nối Internet để hỗ trợ dịch vụ phạm vi rộng ứng dụng liên quan đến giao thông, môi trường y tế Nhiều dịch vụ ứng dụng dựa (hoặc tham gia vào) việc thu thập sử dụng liệu cá nhân Bổ sung cho truy cập Internet ngày gia tăng hiệu hơn, hầu hết thiết bị di động trang bị mảng giao thức gia tăng để trao đổi liệu cục (như Wifi, Bluetooth, Near Field Communications (NFC) với khả truyền liệu ngang hàng (peer-to-peer) Các thiết bị cịn quay video, chụp ảnh ghi âm (thường gắn với thơng tin định vị) Vào năm 2011, tồn giới có gần sáu tỷ thuê bao di động, khoảng 13% (780 triệu) điện thoại thơng minh có khả thu thập truyền liệu định vị địa lý (ITU, 2012; Cisco, 2012) Cũng vào năm này, thiết bị điện thoại di động tạo khoảng 600 petabyte (triệu gigabyte) liệu tháng (Cisco, 2012) Với phổ cập điện thoại di động (số thuê bao 100 dân) vượt 100% hầu OECD phổ biến băng thông rộng khơng dây đạt gần 50%, nguồn liệu gia tăng đáng kể mà điện thoại thông minh trở thành thiết bị cá nhân phổ biến Cisco (2012) ước tính lưu lượng liệu sản sinh từ điện thoại di động đạt gần 11 exabyte (hàng tỷ gigabyte) vào năm 2016, có nghĩa tăng gần gấp đơi năm (xem hình 2) Hình 2: Lưu lượng IP toàn cầu hàng tháng, 2005-16 Đơn vị: exabyte (1 exabyte = tỷ gigabyte) Nguồn: OECD dựa số liệu Cisco (2012) Sự gia tăng liệu di động không gia tăng số điện thoại di động, dự báo chiếm đến nửa tổng lưu lượng di động vào năm 2016 (Cisco, 2012) Các thiết bị thông minh khác phát triển chí cịn nhanh Ví dụ, dụng cụ đo thông minh thu thập truyền liệu thời gian thực ngày tăng (OECD, 2012), xe tơ thơng minh truyền liệu thời gian thực trạng linh kiện xe môi trường (OECD, 2012) Nhiều thiết bị thông minh số dựa sở mạng kết nối cảm biến thiết bị kèm cảm nhận tương tác với môi trường thông qua mạng di động Các cảm biến thiết bị kèm trao đổi liệu thông qua kết nối không dây "tạo khả tương tác người hay máy tính với mơi trường xung quanh" (Verdone et al., 2008) Hơn 30 triệu cảm biến kết nối tương tác triển khai phạm vi toàn giới lĩnh vực an ninh, y tế, môi trường, hệ thống giao thông vận tải hay hệ thống kiểm soát lượng, số lượng chúng tăng lên với tỷ lệ khoảng 30% năm (MGI, 2011) 1.1.2 Lưu trữ xử lý liệu Nếu phát triển công nghệ nêu chủ yếu thúc đẩy sản sinh truyền tải liệu, việc sử dụng liệu trở nên dễ dàng nhiều nhờ vào giảm mạnh chi phí lưu trữ, xử lý phân tích liệu Trước đây, chi phí lưu trữ liệu khơng khuyến khích việc giữ lại liệu khơng cịn khơng cịn cần thiết (OECD, 2011) Nhưng chi phí lưu trữ giảm đến mức thấp để lưu trữ liệu thời gian dài, chí vơ thời hạn Điều minh họa qua chi phí trung bình cho gigabyte ổ đĩa cứng (HDD), chi phí giảm từ 56 USD năm 1998 xuống 0,05 USD năm 2012, tốc độ giảm trung bình hàng năm gần 40% (xem hình 3) Với cơng nghệ lưu trữ hệ ổ đĩa thể rắn (SSD) chẳng hạn, chi phí gigabyte chí cịn giảm nhanh Hình 3: Chi phí trung bình lưu trữ liệu cho người tiêu dùng, 1998-2012 Đơn vị: USD/gigabyte Nguồn: OECD sở Pingdom (2011) Định luật Moore phát biểu tính xử lý tăng gấp đôi sau 18 tháng, liên quan đến chi phí hay độ lớn chủ yếu xác minh Điều đặc biệt đáng ý công cụ xử lý liệu, chúng ngày trở nên có tính mạnh, tinh xảo, diện nơi có giá rẻ, tạo điều kiện dễ dàng tìm kiếm liệu, kết nối truy xuất nguồn gốc, khơng phủ tập đồn lớn mà nhiều người khác thực Ví dụ lĩnh vực di truyền, máy lập trình tự gen ADN đọc khoảng 26 triệu ký tự mã di truyền người chưa đầy phút, chi phí lập trình tự gen giảm 60% năm, trung bình từ 100 triệu USD năm 2001 xuống chưa đến 10.000 USD vào năm 2012 (xem hình 4) Hình 4: Chi phí lập trình tự gen, 2001-11 Đơn vị USD (theo thang đo logarit) Nguồn: OECD dựa theo Viện nghiên cứu gen người quốc gia Hoa Kỳ (www.genome.gov/sequencingcosts/) Điện tốn đám mây đóng vai trị quan trọng việc gia tăng khả lưu trữ xử lý liệu Nó mơ tả "mơ hình dịch vụ tính tốn dựa tập hợp tài ngun máy tính truy cập theo cách thức linh hoạt, mềm dẻo theo nhu cầu với yêu cầu quản lý thấp" (OECD, 2012) Đặc biệt, doanh nghiệp vừa nhỏ (SMEs), phủ khơng thể khơng muốn thực đầu tư lớn, phải toán trước cho cơng nghệ ICT, điện tốn đám mây mang lại khả cho tổ chức chi trả cho nguồn lực siêu tính tốn theo phương thức chi tiêu tùy theo khả (pay-as-you-go) Các ứng dụng phần mềm nguồn mở (PMNM) bao gồm đầy đủ giải pháp cần thiết cho liệu lớn, chẳng hạn để lưu trữ, xử lý phân tích (bao gồm hiển thị trực quan - visualization), góp phần đáng kể vào việc làm cho phân tích liệu lớn tiếp cận đến dân số rộng lớn Nhiều công cụ liệu lớn công ty Internet phát triển ban đầu phổ biến rộng khắp kinh tế tạo hàng hóa dịch vụ dựa vào liệu Ví dụ, Hadoop, khung lập trình mã nguồn mở để quản trị liệu phân tán, lấy cảm hứng từ báo nhân viên Google, Dean Ghemawat (2004) Ban đầu Yahoo! tài trợ công ty Internet Amazon, Facebook 11, 12 LinkedIn khai thác tiếp tục phát triển, sau cung cấp nhà cung cấp sở liệu máy chủ doanh nghiệp truyền thống IBM, Oracle, Microsoft, SAP phần dòng sản phẩm họ, sử dụng rộng rãi cho hoạt động liệu chuyên sâu doanh nghiệp thuộc đủ loại Wal-Mart (bán lẻ), Chevron (năng lượng) Morgan Stanley (dịch vụ tài chính) Ngày có nhiều nhà phân tích liệu chun mơn hóa nhà mơi giới liệu chào mời liệu để sử dụng cho mục đích quảng cáo, kiểm tra lý lịch tuyển dụng việc làm, cấp tín dụng thực thi pháp luật Số doanh nghiệp chào bán liệu tăng mạnh năm gần Tại thời điểm năm 2013, tổ chức privacyrights.org liệt kê riêng Hoa Kỳ có đến 180 cơng ty mơi giới liệu trực tuyến đăng ký Các hãng môi giới liệu đa dạng, từ công ty chun mơn hóa doanh nghiệp (business-to-business) đến dịch vụ nội hóa đơn giản Có thể kể đến công ty LexisNexis tuyến bố họ tiến hành 12 triệu kiểm tra lý lịch năm, BlueKai Exchange tuyên bố thị trường liệu lớn giới cho nhà quảng cáo, công ty sở hữu liệu 300 triệu người tiêu dùng 30.000 thuộc tính liệu Theo thông tin công bố trang web mình, BlueKai Exchange cho biết họ xử lý 750 triệu kiện liệu giao dịch, thực 75 triệu bán đấu giá thông tin cá nhân ngày 1.1.3 Định nghĩa liệu lớn Có nhiều định nghĩa "dữ liệu lớn" (Big data), chúng khác tùy thuộc vào việc bạn nhà khoa học máy tính, nhà phân tích tài hay doanh nhân thuyết minh ý tưởng đầu tư mạo hiểm Nhiều tác giả mô tả đơn giản "dữ liệu lớn" kho chứa liệu lớn (Large pools of data) (McGuire et al., 2012) Loukides (2010) định nghĩa liệu mà "chính thân độ lớn liệu trở thành phần vấn đề" Viện Nghiên cứu toàn cầu McKinsey (McKinsey Global Institute - MGI) đưa định nghĩa tương tự "đó liệu có độ lớn vượt q khả cơng cụ phần mềm sở liệu tiêu biểu nắm bắt, lưu trữ, quản trị phân tích" Hầu hết định nghĩa phản ánh lực công nghệ ngày gia tăng để nắm bắt, tổng hợp xử lý khối lượng liệu với độ lớn, tốc độ đa dạng lớn chưa thấy Nói theo cách khác, "dữ liệu cung cấp nhanh hơn, độ bao phủ phạm vi 10 ... NGHỆ VÀ CHÍNH SÁCH THÚC ĐẨY ĐỔI MỚI SÁNG TẠO DỰA TRÊN DỮ LIỆU 28 2.1 Các kênh khai thác đổi sáng tạo dựa liệu để phục vụ tăng trưởng kinh tế 28 2.2 Các công nghệ thúc đẩy đổi sáng tạo dựa liệu. .. viết tắt I ĐỔI MỚI DỰA TRÊN DỮ LIỆU - NGUỒN LỰC TĂNG TRƯỞNG VÀ PHÁT TRIỂN KINH TẾ 1.1 Dữ liệu lớn khái niệm liên quan 1.2 Giá trị liệu ngày gia tăng kinh tế 11 1.3 Đổi sáng tạo dựa liệu - nguồn... cốt lõi tạo lợi cạnh tranh quan trọng, chi phối đổi sáng tạo, tăng trưởng phát triển bền vững Đổi sáng tạo dựa vào liệu có giá trị kinh tế to lớn, với doanh thu từ sản phẩm dịch vụ Dữ liệu lớn vượt