2. Dữ liệu mở - Open Data
2.2. Các nền tảng dữ liệu mở phổ biến hiện nay
CKAN [7] được phát triển bởi tổ chức phi lợi nhuận OKFN(Open Knowledge Foundation) .CKAN là một nền tảng mã nguồn mở để tạo các trang web dữ liệu mở (tương tự như hệ thống quản lý nội dung WordPress - nhưng đối với dữ liệu, thay vì các trang và các bài đăng blog.) Mục tiêu chính của CKAN là quản lý và chia sẻ dữ liệu cho tất cả mọi người dưới nhiều hình thức khác nhau và hiện đang được sử dụng rộng rãi bởi các quốc gia, tổ chức nghiên cứu trên toàn thế giới.
Trong CKAN, đơn vị chia sẻ dữ liệu được gọi là bộ dữ liệu (datasets) ví dụ, bộ dữ liệu có thể là số liệu thống kê tội phạm cho một khu vực, số liệu chi tiêu cho một bộ phận của chính phủ, hoặc chỉ số nhiệt độ từ các trạm thời tiết khác nhau. Khi người dùng tìm kiếm, kết quả tìm kiếm mà họ thấy sẽ là các bộ dữ liệu riêng lẻ.
Một bộ dữ liệu trong CKAN sẽ gồm 2 thành phần chính:
• Siêu dữ liệu - metadata: bao gồm tên, mô tả, giấy phép, loại tệp, thẻ, thời gian tải lên, tác giả, người duy trì cập nhập ...
• Phần nội dung: Nội dung dữ liệu dưới dạng CSV hoặc Excel, XML, tài liệu PDF, tệp hình ảnh, dữ liệu liên kết ….
Figure 5 Kiến trúc chung của CKAN [7]
Hệ thống CKAN bao gồm giao diện web và API có thể sử dụng để tìm kiếm thêm, xóa và sửa trên bộ dữ liệu, quản lý ủy quyền và phân tích người dùng. Ngoài ra, có thể xem trước dữ liệu dưới hình thức biểu đồ, đồ thị và bảng. Đối với dữ liệu không gian địa lý (nếu dữ liệu bao gồm thông tin vĩ độ và kinh độ), hỗ trợ chế độ xem bản đồ có sẵn. CKAN sử dụng mô hình VDM (Versioned Domain Model) để lưu giữ toàn bộ lịch sử hoạt động của người dùng. Các tính năng chia sẻ và giao tiếp trên dữ liệu bao gồm khả năng tích hợp Google+, Twitter và Facebook, RSS. Có hơn 60 phần mở rộng có sẵn cho CKAN có thể được thêm vào một cách độc lập Mô hình chia sẻ dữ liệu của CKAN tương đối đơn giản, chỉ hỗ trợ các tính năng cơ bản như tạo mới, chia sẻ, tìm kiếm… tương tự như hệ thống lưu trữ file trực tuyến.
Hiện nay, CKAN là nền tảng dữ liệu mở được triển khai trên rất nhiều quốc gia
• The Open Government Platform - OGPD ở Đức
• https://www.data.gov - cổng thông tin của chính phủ Mỹ
• https://www.europeandataportal.eu - cổng thông tin chung của khối liên minh châu âu
• https://data.gov.au - Cổng thông tin của chính phủ Úc
• http://open.canada.ca - Cổng thông tin của chính phủ Canada
• ...
b) Socrata
Socrata [8] là công ty dẫn đầu thị trường trong việc cung cấp giải pháp thương mại cho các tổ chức chính phủ trong vấn đề triển khai dữ liệu mở. Nền tảng của socrata có tên gọi Socrata Open Data Portal, là công thông tin dữ liệu mở hỗ trợ triển khai, tìm kiếm, so sánh và hiển thị các tập dữ liệu khác nhau. Kiến trúc socrata là kiến trúc microservice trên nền tảng đám mây, tối ưu hoá tốc độ, quy mô và có khả năng khả năng thay đổi linh hoạt. Hiện socrata đang
được sử dụng rộng rãi tại nhiều tổ chức chính phủ trên thế giới như cổng thông tin chính phủ ở
• New York (https://opendata.cityofnewyork.us)
• Chicago (https://data.cityofchicago.org),
• Dallas(https://www.dallasopendata.com)
• Cincinnati (https://data.cincinnati-oh.gov) [9]
Figure 6 Kiến trúc nền tảng Socrata
c) SODA - Open data network
Ngoài phiên bản thương mại, socrata hiện đang phát triển thêm dự án mã nguồn mở phục vụ cộng động , tạo ra hệ sinh thái dữ liệu, đẩy nhanh tốc độ tăng trưởng của xu thế dữ liệu mở (http://open-source.socrata.com). Phiên bản cộng động mã nguồn mở có tên gọi Socrata Open Data Server (SODA), Community Edition, với mục tiêu tạo ra một kiến trúc chuẩn cho tất cả dịch vụ dữ liệu mở, có khả năng giao tiếp với mọi ứng dụng, mọi nền tảng từ bên thứ ba mà không cần phải thông qua các bước chuyển đổi phức tạp
Figure 7Kiến trúc hoạt động của SODA
Kiến trúc của SODA về mặt dữ liệu được chia ra làm 2 phần: cơ sở dữ liệu cho cho quá trình ghi (Truth store) và cơ sở dữ liệu cho quá trình đọc (Secondary store).
• Ghi dữ liệu (Write path):
o Ứng dụng, dịch vụ bên ngoài tạo ra các yêu cầu lưu trữ, cập nhật, sửa chữa, thay đổi dữ liệu đến máy chủ SODA.
o Các yêu cầu này khi đến máy chủ sẽ tạo ra tiến trình thay đổi (mutation process) thông qua bộ điều phối dữ liệu (data coordinator) tạo thành các tiến trình (transaction) cập nhật trực tiếp vào cơ sở dữ liệu
o Sau khi hoàn tất cập nhật, bộ theo dõi thứ cấp (secondary watcher) sẽ được khởi động, tạo ra các thông báo về sự thay đổi dữ liệu vừa được xảy ra
o Thông qua các thông báo về sự thay đổi, cơ chế đồng bộ dữ liệu giữa cơ sở dữ liệu đọc và ghi được tiến hành
• Đọc dữ liệu (Read Path)
o Ứng dụng, dịch vụ bên ngoài tạo ra các yêu cầu truy vấn dữ liệu (cấu trúc truy vấn được định nghĩa theo cú pháp ngôn ngữ truy vấn SoQL) đến máy chủ SODA
o Các chuỗi truy vấn sẽ được phân tích thông qua bộ điều phối (query
coordinator), đưa đến các bộ truy vấn dữ liệu phù hợp (vd như format, version, permission)
o các bộ truy vấn dữ liệu sẽ trả kết quả phù hợp với câu truy vấn
https://www.opendatanetwork.com được xây dựng trên nền tảng SODA, là cộng đồng dữ liệu mở phục vụ cho nhiều mục đích khác nhau từ cá nhân đến doanh nghiệp, chính phủ
d) OGDI-DATALAB
OGDI-DataLab (open government data incentive) -https://github.com/openlab/OGDI- DataLab
Là một nền tảng mã nguồn mở được viết bằng C # /. NET và phát triển để chạy trên
Windows Azure. OGDI là giải pháp giúp các cơ quan chính phủ công khai dữ liệu một cách nhanh chóng và hiệu quả
Có ba thành phần chính trong OGDI là Dịch vụ dữ liệu (data service), Trình tải dữ liệu (data loader) và Trình duyệt dữ liệu (data browser)
• Dịch vụ dữ liệu: REST API hỗ trợ các định dạng như XML (oData/ATOM), KML, JSON, JSONP
• Trình tải dữ liệu: bộ công cụ, giao diện web hỗ trợ quá trình cập nhật, chia sẻ dữ liệu trên hệ thống
• Trình duyệt dữ liệu: ứng dụng web được sử dụng để trực quan hoá và trình bày dữ liệu ở các định dạng khác nhau như bảng, bản đồ, biểu đồ hình tròn và biểu đồ thanh, định dạng và tải dữ liệu
Tương tự như CKAN, OGDI được sử dụng bởi nhiều tổ chức chính phủ như Columbia, Estonia, Canada, Pháp …