1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu công nghệ sdmx và thiết kế hệ thống csdl cho vụ tổng hợp kinh tế quốc dân

89 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 89
Dung lượng 3,2 MB

Cấu trúc

  • CHƯƠNG I GIỚI THIỆU ĐỀ TÀI (12)
  • CHƯƠNG II CƠ SỞ LÝ THUYẾT: TỔNG QUAN VỀ SIÊU DỮ LIỆU VÀ SDMX (16)
    • 2.1. Siêu dữ liệu - Metadata (16)
      • 2.1.1. Khái niệm siêu dữ liệu (16)
      • 2.1.2. Loại hình siêu dữ liệu (18)
      • 2.1.3. Loại siêu dữ liệu nào có thể được sử dụng với SDMX (18)
    • 2.2. SDMX (19)
      • 2.2.1. Khái niệm SDMX (19)
      • 2.2.2. Mục tiêu của SDMX (20)
      • 2.2.3. SDMX được sử dụng trong trường hợp nào (20)
      • 2.2.4. Những bước đầu tiên để sử dụng SDMX (21)
      • 2.2.5. Những bước đầu tiên để xây dựng cấu trúc dữ liệu (24)
  • CHƯƠNG III CÁC MÔ HÌNH SDMX (28)
    • 3.1. Mô hình cơ bản (29)
      • 3.1.1. Mô hình (29)
      • 3.1.2. Các khái niệm cơ bản (30)
    • 3.2. Mô hình bậc cao (33)
    • 3.3. SDMX Registries (34)
      • 3.3.1. SDMX Registries là gì? (34)
      • 3.3.2. Một sự tương tự (35)
      • 3.3.3. Registry là một công nghệ chung (36)
      • 3.3.4. Chức năng của SDMX Registry (37)
    • 3.4. Định dạng cấu trúc dữ liệu - Data structure definitions (40)
      • 3.4.1. Định dạng cấu trúc dữ liệu là gì (40)
      • 3.4.2. Phân nhóm dữ liệu- Grouping data (41)
      • 3.4.3. Các mức độ đính kèm- Attachment Levels (42)
      • 3.4.4. Khóa (Keys) (43)
      • 3.4.5. Danh sách mã và các trình bày khác (Code lists - Other representations) (45)
      • 3.4.6. Siêu dữ liệu tham khảo - Định nghĩa cấu trúc siêu dữ liệu (48)
      • 3.4.7. Các loại thông điệp SDMX (50)
      • 3.4.8. Dữ liệu trên WEB sử dụng SDMX (54)
      • 3.4.9. Những nhiệm vụ thường gặp khi sử dụng các tiêu chuẩn SDMX (56)
  • CHƯƠNG IV PHÂN TÍCH THIẾT KẾ HỆ THỐNG CSDL CHO VỤ TỔNG HỢP KINH TẾ QUỐC DÂN (65)
    • 4.1. Mục tiêu (65)
    • 4.2. Phạm vi của hệ thống (65)
    • 4.3. Khảo sát và phân tích hệ thống (65)
      • 4.3.1. Khảo sát (65)
      • 4.3.2. Phân tích (67)
      • 4.3.3. Thiết kế CSDL (76)
  • CHƯƠNG V XÂY DỰNG ỨNG DỤNG (83)
    • 5.1. Nhập dữ liệu (83)
    • 5.2. Xuất dữ liệu (85)
  • CHƯƠNG VI KẾT LUẬN, NHẬN XÉT, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN (87)
    • 3.1. Kết luận (87)
    • 3.2. Khó khăn và hạn chế (88)
    • 3.3. Hướng phát triển (88)
  • TÀI LIỆU THAM KHẢO (89)

Nội dung

GIỚI THIỆU ĐỀ TÀI

Bộ Kế hoạch và Đầu tư Việt Nam là một cơ quan nhà nước với hơn 20 Vụ, Cục,Trung Tâm (sau đây gọi tắt là các đơn vị thuộc Bộ KH&ĐT) với nhiều chức năng khác nhau, trong đó bao gồm việc tổng hợp và phân tích các dữ liệu kinh tế - xã hội, về bản chất chủ yếu là các thông tin thống kê, để từ đó tham mưu cho Chính phủ về các chính sách cũng như đánh giá các tác động về chính sách; ngoài ra còn thực hiện 1 số các họat động về theo dõi và đánh giá trong các lĩnh vực như hỗ trợ phát triển, đầu tư trong và ngoài nước và kinh tế đối ngoại.

Với một số lượng lớn các đơn vị hoạt động không hoàn toàn độc lập, mỗi đơn vị lại có những chức năng riêng, rất khó để khái quát hóa trọn vẹn, rõ ràng về các dạng dữ liệu trong toàn bộ các đơn vị Tuy nhiên, việc tổng quát hóa bản chất của các dữ liệu này là rất cần thiết để có thể thiết kế 1 phương pháp tiếp cận phù hợp, đáp ứng được nhu cầu của hầu hết các đơn vị trong Bộ Nhưng trên thực tế, giữa các đơn vị này cũng có sự khác biệt đáng kể về nhu cầu dữ liệu và sẽ cần phải có công tác chạy thử bất cứ một mô hình được đề xuất “chiến lược” cho Bộ đúng theo các yêu cầu của từng đơn vị và có thể sửa đổi lại mô hình trên kết quả các thử nghiệm này Tuy nhiên, lợi ích của việc tích hợp quản lý dữ liệu được hứa hẹn là vô cùng lớn đối với

1 cơ quan như Bộ KT&ĐT trong tương lai, do đó các đơnvị cần phải tìm kiếm những cách thức để áp dụng được một mô hình chung hơn là cố đi tìm lý do tại sao mô hình này không thể đáp ứng những nhu cầu nhỏ lẻ của đơn vị mình.

Bộ KH&ĐT thực tế không thu nhập nhiều các thông tin ở cấp “bản ghi – đơn vị” (unit – record) từ các thực thể (entities) riêng lẻ Cụm từ “thông tin ở cấp bản ghi – đơn vị” được hiểu là những thông tin về từng cá thể, thực thể, ví dụ như một cá nhân, một tài khoản ngân hàng, một chiếc ôtô, một tài khoản giao dịch, các loại hàng hóa công nghiệp, nông nghiệp… Bộ KH&ĐT làm việc chủ yếu với các thông tin đã được tổng hợp Phần lớn ở dạng các tập hợp thống kê (hoặc tương tự) – các bảng dữ liệu về các hoạt động kinh tế - xã hội hoặc điều kiện kinh tế - xã hội tại các tỉnh thành, địa phương, quận huyện; hoặc các bảng dữ liệu về các lĩnh vực được quản lý bởi các Bộ ngành ở cấp vùng hoặc cấp quốc gia Nhìn chung các dữ liệu này tập trung phản ánh tiến độ thực hiện các mục tiêu cấp vùng và mục tiêu quốc gia và về công tác phân tích, trình bày các thông tin hỗ trợ cho việc xây dựng chính sách Những lĩnh vực nghiệp vụ có thông tin về các thực thể: tổ chức, doanh nghiệp cá nhân, có thể thấy như thẩm định Đầu tư, nhưng mặc dù vậy, thông tin nhìn chung vẫn ở mức tổng hợp và thường có thể được thể hiện dưới dạng bảng (trái ngược với một tập hợp các bảng ghi đơn vị).

Hiện này hầu hết các dữ liệu đầu vào được lưu theo các lĩnh vực nghiệp vụ có tính nội bộ, thông thường là tại các máy tính để bàn của các cá nhân Thiếu công tác quản lý hợp nhât các dữ liệu một cách hiệu quả (tại cấp Bộ) cũng như chưa có công tác quản lý tổng thể ở cấp Vụ Ở hầu hết các lĩnh vực nghiệp vụ, việc truy nhập vào các dữ liệu phụ thuộc vào kiến thức của từng cá nhân đơn lẻ về dạng tồn tại của dữ liệu đó, nơi lưu trữ dữ liệu và cán bộ kiểm soát việc truy cập vào dữ liệu Việc quản lý thông tin về tình trạng của dữ liệu (ví dụ như một văn bản cụ thể nào đó là văn bản dự thảo hay phiên bản cuối cùng) hoặc chất lượng của các thông tin diễn giải cho dữ liệu (ví dụ các văn bản đi kèm có chứa các nhận xét về dữ liệu) thậm chí còn chưa được tốt Do vậy việc chia sẻ dữ liệu giữa các lĩnh vực nghiệp vụ còn hạn chế, chia sẻ ngay trong một đơn vị của Bộ còn gặp khó khăn và chia sẻ giữa các đơn vị với nhau hầu như là không khả thi.

Nhiều dữ liệu đầu vào tồn tại ở dạng các “họ” (families) hoặc “nhóm” bảng biểu Một ví dụ về “họ” bảng có thể thấy như là một dạng báo cáo cụ thể nào đó trình bày về khối lượng và giá trị của sản phẩm trong khối sản phẩm nông nghiệp đến từ mỗi tỉnh thành vào hàng quý Có thể có nhiều phiên bản của một số loại báo cáo đó được trình nộp, ví dụ như bản dự thảo, bản tạm thời, bản cuối cùng Điều này có thể dẫn đến một dòng lưu thông liên tục về báo cáo 64 báo cáo (theo số lượng của các tỉnh thành?) hoặc hơn trong mỗi quý, toàn bộ số báo cáo đó có thể có cùng chung cấu trúc – cùng số chiều (dimensions) và cách thức phân loại Các dữ liệu cấu trúc và được phân theo danh mục (cùng với các khái niệm khác sẽ được trình bày sau đây) sẽ được xem là các “siêu dữ liệu cấu trúc” Các nhóm bảng có quan hệ với nhâu được xem là các “họ” hay “dòng” bảng Việc xác định được mối quan hệ này hiển nhiên là rất cần thiết vì qua đó có thể xác định được dạng siêu dữ liệu cấu trúc chung nhất, và có thể lưu trữ những bảng quan hệ này trong một số cách thức thống nhất Từ đó có thể sử dụng các siêu dữ liệu và phương pháp lưu trữ thống nhất để tạo điều kiện cho việc tìm kiếm và truy xuất các bảng được thực hiện một cách dễ dàng hơn Hiện tại dường như có khoảng hàng chục các “họ” bảng hoặc “dòng” bảng như vậy, số lượng có thể lên đến hàng trăm Tuy nhiên, việc tổ chức các bảng theo các dòng có thể giúp giải quyết khó khăn trong việc quản lý các bảng này, giúp cho việc quản lý dễ dàng và dễ theo dõi hơn.

Có một số trường hợp (có thể là thường xuyên), các bảng biểu nhận được từ các tỉnh thành hoặc từ các đối tượng cung cấp dữ liệu (thuật ngữ dùng chung cho các tổ chức cung cấp dữ liệu cho Bộ KH&ĐT), thường đi kèm với các văn bản (dạng giấy hoặc file) chứa những thông tin diễn giải hoặc nhận xét về các bảng biểu, nhưng, hiện nay chưa có một cách thức rõ ràng nào để lưu trữ và kết nối loại tài liệu này với các bảng hoặc các ô dữ liệu; cách thức thực hiện ra sao và lưu trữ ở đâu là một vấn đề cho các cá nhân khi nhận được các tài liệu này Các cá nhân khác, khi cố gắng để sử dụng các dữ liệu có liên quan, có thể không nắm rõ liệu các tài liệu này có tồn tại hay không hoặc làm thể nào để tìm được chúng Các dữ liệu bổ trợ về chất lượng và có tính diễn giải này được xem là các Siêu dữ liệu tham khảo Rõ ràng là nó rất quan trọng và cần phải được lưu trữ, quản lý và kết nối với các dữ liệu, và các đối tượng sử dụng dữ liệu đó có thể nhận thức được sự tồn tại của các siêu dữ liệu này và truy cập tới chúng bất cứ lúc nào Một cách lý tưởng, dữ liệu kiểu này cần phải được đính trực tiếp vào các ô dữ liệu mà nó thuộc về (hoặc các cấu phần khác của bảng đó).

Hầu hết các dữ liệu dạng bảng biểu được gửi đến bộ KH&ĐT qua dạng file điện tử (cụ thể là các file máy tính, chủ yếu dưới dạng các bảng Excel), tuy nhiên vãn còn tình trạng gửi qua đường công văn/văn bản chính thức Lý do là chỉ khi dữ liệu được gửi dưới dạng một văn bản có tên chính thức của nơi gửi trên phần tiêu đề, được ký và đóng dấu, thì mới được coi là tài liệu chính thống Những dữ liệu có thể được đi kèm với một file điện tử, tuy nhiên file điện tử không chắc chắn sẽ bao gồm chính xác cùng một loại dữ liệu như thông tin trên văn bản giấy Trong bất cứ trường hợp nào, ít nhất là trong một vài trường hợp, có thể xuất hiện nhu cầu nhâp liệu bằng tay từ văn bản Điều này dễ dẫn đến sai sót trong quá trình xử lý và các cán bộ nhập liệu thường có xu hướng “làm tắt” Một mong muốn là có thể cung cấp các biểu mẫu (ví dụ một bảng Excel trống có bao gồm nhiều danh mục phân loại khác nhau để cán bộ chỉ cần nhập các con số vào ô trống), từ đó có thể đơn giản hóa công việc càng nhiều càng tốt và tăng cường khả năng lưu trữ các dữ liệu chính xác về nội dung và hình thức định dạng.

Việc nhóm các dữ liệu vào các “họ” bảng có cùng chung cấu trúc bảng biểu và danh mục phân loại được trình bày ở trên Có thể (hầu như chắc chắn) các “họ” bảng khác nhau sẽ sử dụng các chiều (dimensions) hoặc cách phân loại chung Rất mong là thực tế này có thể được nhìn nhận và cải tiển các danh mục phân loại lên thành các siêu dữ liệu hợp nhất cho toàn bộ Bộ hoặc ở cấp Vụ, đơn vị Điều này sẽ làm tăng mức độ chuẩn hoá và nhất quán của các dữ liệu, 2 yếu tố được xem là rất quan trọng trong việc cải tiến khả năng sử dụng dữ liệu Nó cũng làm tăng tính khả thi của các danh mục phân loại như là những phương tiện để chỉ dẫn vị trí (indexing) các dữ liệu, từ đó giúp cho việc tìm kiếm các bảng có liên quan được dễ dàng hơn Có thể các đơn vị khác nhau trong Bộ (và đôi khi là các phòng ban trong một đơn vị) sẽ chỉ sử dụng các phiên bản chỉ hơi khác biệt so với dạng loại danh mục phân loại chủ đạo Đôi khi có lý do chính đáng để thay đổi các phiên bản danh mục phân loại vì khi có sự khác biệt về nhu cầu có nghĩa là sẽ cần có điều chỉnh, tuy nhiên, thông thường việc thay đổi có thể chẳng vì một lý do gì tích cực Môi trường hiện này khiến việc chia sẻ các bảng biểu trở nên bất khả thi do đó mỗi đơn vị (và có thể là phòng ban trong đơn vị) cần phải thiết lập và duy trì các bảng danh mục phân loại nội bộ riêng cho mình Trong môi trường này, việc xuất hiện những khác biệt/thay đổi về danh mục phân loại là một điều không thể tránh khỏi ngay cả khi các cán bộ cố gắng để sử dụng các phương cách tiếp cận chung Rõ ràng cần phải có một kho các danh mục phân loại chung cho toàn bộ các đơn vị trong Bộ KH&ĐT, để toàn bộ các đơn vị này có thể dễ dàng truy cập và sử dụng kho lưu trữ này trong công việc thường ngày của họ, và để tạo ra các cách thức đáp ứng các thay đổi nhỏ về yêu cầu.

Như đã tóm lược ở trên, thực trạng về quản lý dữ liệu và siêu dữ liệu tại Bộ KH&ĐT hiện nay không thể sẵn sàng thích ứng được với một giải pháp cơ sở dữ liệu đơn giản nào Các giải pháp cơ sở dữ liệu truyền thống chỉ phù hợp nhất với các dữ liệu kiểu bản ghi đơn vị (unit – record) hoặc dữ liệu giao dịch, nơi các dữ liệu có được từ các mối quan hệ rõ ràng giữa các thực thể có liên quan hoặc hình thức giao dịch được xác định cụ thể Tuy nhiên, thực tế trên không chỉ xảy ra tại Bộ KH&ĐT mà còn thấy tại rất nhiều tổ chức khác trên toàn thế giới Một trong các nhóm tổ chức lớn phải đối mặt với vấn đề này là các cơ quan thống kê tại rất nhiều quốc gia và tổ chức điều phối và lập kế hoạch quốc tế như Tổ chức Phát triển và Hợp tác Quốc tế (OECD), Quỹ Tiền tệ Quốc tế (IMF), Tổ chức thống kê Châu Âu. Tuy nhiên, trên thực tế, những tổ chức này đã nhận thức được đây là một vấn đề khó khăn cần phải giải quyết Hầu hết các tổ chức này đều có một số loại hệ thống quản lý siêu dữ liệu hoặc dữ liệu, nhưng trong nhiều trường hợp, những hệ thống này rất hạn chế hoặc không thành công. Để giải quyết thực trạng này, một nhóm các cơ quan/tổ chức quốc tế đã nghiên cứu một mô hình trao đổi dữ liệu và siêu dữ liệu thống kê (Statistical Data and Metadata eXchange – SDMX) Trọng tâm của nghiên cứu phát triển SDMX là hỗ trợ việc trao đổi thông tin giữa “các tổ chức cung cấp dữ liệu” và các tổ chức quốc tế, và giữa các tổ chức quốc tế với nhau SDMX sử dụng lược đồ XML để trao đổi và lưu trữ dữ liệu và siêu dữ liệu, cùng với các tiêu chí kỹ thuật cho dịch vụ lưu trữ, tìm kiếm, truy xuất dữ liệu và yêu cầu dữ liệu, và bước đầu những tiêu chí này được xem như các khía cạnh quan trọng nhất của mô hình Tuy nhiên, bản thân mô hình hiện nay được xem là phần trọng yếu của SDMX SDMX là một mô hình và một tiêu chuẩn, và bản thân nó cũng cung cấp một số ít các công cụ để có thể thực hiện việc lưu trữ và trao đổi tuân thủ theo SDMX Một khía cạnh quan trọng đặc biệt của mô hình đó là nó rất tổng quát, mà không chỉ đơn thuần liên quan mật thiết đến dữ liệu thống kê Điều này có nghĩa là rất nhiều tổ chức có thể sử dụng nó và rất nhiều tổ chức có thể chia sẻ việc xây dựng các công cụ này với nhau và hơn nữa việc xây dựng các công cụ để hỗ trợ cho việc triển khai SDMX có thể được hỗ trợ bởi các tổ chức thương mại Thực tế, một trong những động cơ để đưa SDMX đi vào quy trình tiêu chuẩn hoá quốc tế là kỳ vọng nó sẽ được công bố như một tiêu chuẩn quốc tế.

Từ đó có thể khuyến khích các nhà cung cấp phần mềm thương mại hỗ trợ tạo ra các sản phẩm của mình.

Trong đề tài này, chúng ta sẽ nghiên cứu các khái niệm về SDMX, cũng như cách xây dựng và sử dụng các ứng dụng trên nền SDMX, từ đó, tìm ra cách ứng dụng SDMX vào trường hợp cụ thể của Bộ KH&ĐT Do quy mô của Bộ KH&ĐT là rất lớn với hơn 20 Vụ, Cục, Trung tâm, nên trong đề tài này chúng ta sẽ đi sâu vào thiết kế hệ thống CSDL cho một Vụ thuộc Bộ KH&ĐT là Vụ Tổng hợp Kinh tếQuốc dân, rồi từ đó tìm cách phát triển một khung CSDL dùng chung cho cả BộKH&ĐT.

CƠ SỞ LÝ THUYẾT: TỔNG QUAN VỀ SIÊU DỮ LIỆU VÀ SDMX

Siêu dữ liệu - Metadata

2.1.1 Khái niệm siêu dữ liệu

Thuật ngữ "Siêu dữ liệu" -"METADATA", có thể được định nghĩa đơn giản là dữ liệu về dữ liệu Theo tiến sỹ Warwick Cathro, "siêu dữ liệu là những thành phần mô tả tài nguyên thông tin hoặc hỗ trợ thông tin truy cập đến tài nguyên thông tin".Siêu dữ liệu có thể được xác định là "dữ liệu mô tả các thuộc tính của đối tượng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh và tổ chức Siêu dữ liệu còn có thể được định nghĩa là dữ liệu có cấu trúc về dữ liệu" Gail Hodge định nghĩa siêu dữ liệu là "thông tin có cấu trúc mà nó mô tả, giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiếm, sử dụng và quản lý hơn Siêu dữ liệu được hiểu là dữ liệu về dữ liệu hoặc thông tin về thông tin" Nói tóm lại, siêu dữ liệu là thông tin mô tả tài nguyên thông tin Mục đích đầu tiên và cốt yếu nhất của siêu dữ liệu là góp phần mô tả và tìm lại các tài liệu điện tử trên mạng Internet Sự phát triển mạnh mẽ của Internet đã tạo ra sự bùng nổ của các loại dữ liệu đa dạng ở dạng số, văn bản, hình ảnh, âm thanh, hình ảnh động, tài liệu đa phương tiện Những tài liệu số này có thể truy cập được trên Internet song việc tìm kiếm chúng một cách hiệu quả và khoa học như với các hệ thống thông tin trực tuyến là hết sức khó khăn. Để góp phần tăng cường chất lượng tìm kiếm các tài liệu số trên mạng Internet, người ta đã đưa ra giải pháp sử dụng siêu dữ liệu.

Thực ra trong hoạt động thông tin - thư viện truyền thống, từ lâu đã có những khái niệm liên quan đến siêu dữ liệu Các bản mô tả thư mục chứa các dữ liệu mô tả đối tượng (như cho sách, cho tạp chí), do đó, chúng có thể được xem như một dạng siêu dữ liệu Với việc tự động hoá công tác biên mục, phiếu thư mục được thay thế bằng biểu ghi thư mục Như vậy, thành phần "siêu dữ liệu" còn có thể được trình bày trong biểu ghi, vì vậy, biểu ghi này được coi là biểu ghi siêu dữ liệu (metadata record) của các đối tượng được CSDL quản lý Với tài liệu truyền thống trên giấy, thông tin mô tả được bố trí nằm ngoài đối tượng mà nó mô tả (ví dụ, trên phiếu thư mục của mục lục thư viện, trong biểu ghi của CSDL) Nhờ những yếu tố mô tả như vậy, người ta có thể xác định và tìm kiếm lại được tài liệu một các chính xác theo một vài yếu tố Ngày nay, nguồn tài liệu điện tử phân tán trên mạng nhiều đến mức không thể xử lý hết được bằng cách thủ công như đã và đang áp dụng với tài liệu xuất bản trên giấy Để xử lý được hết tài liệu điện tử phân tán, người ta phải áp dụng các phương pháp tự động - sử dụng các chương trình đặc biệt (được gọi theo nhiều cách khác nhau như robots, crawlers, spiders, ) Do tài liệu số (điện tử) được tạo ra, thông thường không tuân thủ những quy định xuất bản truyền thống, không có những quy tắc nhất định giúp cho phép nhận dạng tự động được các yếu tố mô tả thông thường như tác giả, địa chỉ xuất bản, thông tin về khối lượng, nên cần thiết phải có những quy định thống nhất để các chương trình tự động nhận dạng và xử lý chúng đúng theo các yêu cầu nghiệp vụ Những quy định như vậy được gọi là các quy định về siêu dữ liệu Có thể thấy hiện nay, do nhiều chương trình máy tính chỉ định chỉ số dựa vào một số thành phần hạn chế như nhan đề hoặc toàn văn nên không hỗ trợ những tìm kiếm đặc thù (thí dụ theo tác giả, theo chủ đề, theo lĩnh vực, ) Vì thế, để tạo điều kiện cho các chương trình có thể định chỉ số tự động theo một số yếu tố xác định, người ta cần thiết phải đưa thêm vào tài liệu điện tử những thuộc tính bổ sung để tăng cường việc mô tả tài nguyên thông tin Các công cụ định chỉ số tự động sẽ được lập trình để nhận dạng các thuộc tính này và định chỉ số chúng, từ đó hỗ trợ tìm kiếm theo những thuộc tính đặc thù.

Siêu dữ liệu được đặt ở đâu?

Sự liên hệ giữa siêu dữ liệu và tài nguyên mà nó mô tả có thể được thể hiện theo một trong hai cách:

- Các yếu tố siêu dữ liệu được chứa trong một biểu ghi riêng biệt bên ngoài đối tượng mô tả;

- Nhúng bên trong bản thân tài nguyên mà nó mô tả.

Trước đây, với tài liệu truyền thống, các mô tả tài liệu nằm ngoài đối tượng mô tả (thí dụ được đưa vào phiếu thư viện hoặc biểu ghi CSDL), như vậy, siêu dữ liệu được lưu giữ tách biệt bên ngoài đối tượng mô tả Với tài liệu điện tử, siêu dữ liệu của chúng được nhúng trong bản thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả.

2.1.2 Loại hình siêu dữ liệu

Trong hoạt động xử lý thông tin truyền thống, các thông tin mô tả (mà chúng ta có thể xem đó là tạo siêu dữ liệu) có hai chức năng chủ yếu là mô tả và tìm kiếm thông tin được lưu trữ Tương tự, siêu dữ liệu của tài liệu điện tử cũng có chức năng mô tả và chức năng tìm kiếm Tuy nhiên, khác với tài liệu truyền thống, ngoài hai chức năng cơ bản trên, siêu dữ liệu có thể có những chức năng khác Việc phân chia loại hình siêu dữ liệu cũng có tính chất tương đối A.J Gilliland Swetland chia siêu dữ liệu thành 5 loại: Hành chính (administrative): cung cấp thông tin phục vụ quản lý hành chính nguồn tin; Mô tả (descriptive): sử dụng để xác định (mô tả) tài nguyên thông tin; Bảo quản (Preservation) liên quan đến thông tin phục vụ bảo quản tài nguyên thông tin; Kỹ thuật (Technical) liên quan đến dữ liệu xác định cách thức hệ thống xử lý hoặc thuộc tính siêu dữ liệu; Sử dụng (Use) liên quan đến mức độ sử dụng tài nguyên Tài liệu khác lại phân loại siêu dữ liệu thành

3 nhóm chính: Siêu dữ liệu mô tả (descriptive metadata); Siêu dữ liệu cấu trúc (structural metadata); Siêu dữ liệu hành chính (Administrative metadata). Mỗi loại siêu dữ liệu có chức năng riêng.

2.1.3 Loại siêu dữ liệu nào có thể được sử dụng với SDMX

Siêu dữ liệu thống kê (được định nghĩa như “dữ liệu về dữ liệu thống kê” (data about statistical data) cung cấp thông tin về dữ liệu và về những quá trình có liên quan đến việc sản xuất và sử dụng dữ liệu Về nguyên tắc, SDMX có thể được dùng được với tất cả mọi loại siêu dữ liệu.

SDMX hỗ trợ việc sử dụng một thuật ngữ chung khi trao đổi và chia sẻ dữ liệu. Với mục đích này, SDMX bao gồm một vốn từ thông thường về siêu dữ liệu (Metadata Common Vocabulary – MCV) MCV chứa đựng một loạt những định nghĩa toàn diện về các thuật ngữ siêu dữ liệu được sử dụng cho việc mô tả các thống kê và các quá trình được sử dụng bởi các cơ quan quốc gia và các tổ chức quốc tế trong việc biên soạn của họ.

Các tiêu chuẩn siêu dữ liệu của SDMX làm nên sự khác biệt giữa siêu dữ liệu tham khảo (reference metadata) và siêu dữ liệu cấu trúc (structural metadata).

Siêu dữ liệu tham khảo và siêu dữ liệu cấu trúc (Reference metadata and structural metadata)

Siêu dữ liệu tham khảo là những siêu dữ liệu mô tả nội dung và chất lượng của những dữ liệu thống kê (siêu dữ liệu khái niệm mô tả những khái niệm được sử dụng và tính thực thi của chúng, những siêu dữ liệu mang tính phương pháp , mô tả những phương pháp được sử dụng cho một đời của dữ liệu và chất lượng của siêu dữ liệu (quality metadata) mô tả những chiều khác nhau của những con số thống kê kết quả ví dụ như sự đúng lúc (timeliness) và độ chính xác Mặc dù siêu dữ liệu tham khảo tồn tại và có thể được trao đổi không phụ thuộc vào dữ liệu và siêu dữ liệu cấu trúc của nó nhưng chúng thường liên quan (có tính tham khảo

“referenced”) tới các dữ liệu.

Siêu dữ liệu cấu trúc là những siêu dữ liệu đóng vai trò định danh dữ liệu, miêu tả dữ liệu như là tên của những biến số hay những chiều của những các bảng thống kê đa chiều Siêu dữ liệu cấu trúc phải đi kèm với dữ liệu, nếu không sẽ không thể nhận dạng, truy lục và duyệt qua dữ liệu đó. Ý tưởng này là sử dụng những tiêu chuẩn của SDMX thì có thể trao đổi và chia sẻ dữ liệu và siêu dữ liệu giúp có một hiểu biết và giải thích sâu hơn về các dữ liệu thống kê tương ứng.

SDMX

SDMX là từ viết tắt của “Statistical Data and Metadata eXchange” - trao đổi dữ liệu và siêu dữ liệu thống kê Đây là một sáng kiến quốc tế hướng đến việc phát triển những tiến trình hiệu quả hơn trong việc trao đổi và chia sẻ dữ liệu và siêu dữ liệu thống kê giữa các tổ chức quốc tế và các nước thành viên Sáng kiến này bắt đầu từ năm 2001, được tài trợ bởi 7 tổ chức quốc tế: Ngân hàng thanh toán Quốc tế (BIS), Ngân hàng trung ương Châu Âu (ECB), Ủy ban thống kê Châu Âu (Eurostat), Quỹ tiền tệ quốc tế (IMF), Liên hiệp quốc (UN) và Ngân hàng Thế Giới (WB).

Tập chuẩn kỹ thuật SMDX phiên bản 1.0 đã được ISO công nhận là 1 đặc tả kỹ thuật (ISO/TS 17369:2005), còn phiên bản 2.0 hiện đang trong quá trình phê duyệt.

SDMX được thiết kế để tạo ra một công cụ hỗ trợ đa ngôn ngữ toàn diện Toàn bộ các nội dung dạng chữ viết tại các thực thể (entities) của mô hình SDMX có thể được xác định và duy trì bằng tất cả các loại ngôn ngữ Các yếu tố duy nhất chỉ sử dụng một loại ngôn ngữ là các indentifier fields – các trường yếu tố chỉ định (ids),nơi cần đảm bảo tính duy nhất Toàn bộ phần tên và mô tả có thể sử dụng đa ngôn ngữ SDMX được thiết kế để hỗ trợ việc quản lý phân tán/kết hợp Mà các cụm phân tán chính là ở các cơ quan, đơn vị

Nguyên nhân cho sự ra đời của SDMX đó là chuẩn hóa việc truy cập và trao đổi dữ liệu và siêu dữ liệu thống kê.

Với sự phát triển nhanh chóng của Internet, việc trao đổi và chia sẽ dữ liệu điện tử đang trở nên ngày càng dễ dàng, thường xuyên và quan trọng hơn Điều này dẫn đến nhu cầu phải tạo ra những chuẩn chung để trao đổi và chia sẻ dữ liệu và siêu dữ liệu thống kê, và làm cho những tiến trình đó hiệu quả hơn Bởi vì việc trao đổi dữ liệu thống kê diễn ra liên tục, lợi ích của việc sử dụng những tiêu chuẩn chung là rất đáng kể đối với cả người cung cấp và sử dụng dữ liệu.

Mục tiêu của SDMX đó là thiết lập ra 1 tập những tiêu chuẩn chung được thừa nhận bởi tất cả các thành viên tham gia, làm cho không những việc truy cập dữ liệu thống kê được dễ dàng dù dữ liệu đó nằm ở bất cứ nơi nào mà còn truy cập được đến những siêu dữ liệu đi kèm giúp cho dữ liệu trở nên có ý nghĩa hơn Những tiêu chuẩn này sẽ giúp cho các tổ chức quốc gia hoàn thành trách nhiệm của mình đối với người sử dụng và các đối tác, bao gồm cả các tổ chức quốc tế, theo 1 cách rất hiệu quả bằng cách sử dụng các cơ sở dữ liệu (CSDL) trực tuyến chung nhằm cho phép truy nhập đến dữ liệu ngay khi nó được công bố.

Các tiêu chuẩn SDMX còn hướng đến việc đảm bảo những siêu dữ liệu thích hợp luôn đi kèm với dữ liệu, làm cho thông tin có thể hiểu được và dùng được ngay lập tức Bởi vì lý do này, mà các chuẩn trao đổi siêu dữ liệu là đặc biệt quan trọng trong SDMX.

2.2.3 SDMX được sử dụng trong trường hợp nào

Như đã đề cập ở trên, những tiêu chuẩn của SDMX được tạo ra cho việc trao đổi hay chia sẻ thông tin thống kê giữa hai hay nhiều bên Rõ ràng là những tiêu chuẩn của SDMX được phát triển bởi những nhà tài trợ để trợ giúp các khu vực của các tổ chức tài trợ (các tổ chức thống kê quốc gia, ngân hàng trung ương, các bộ ban ngành…) Những tiêu chuẩn này là dùng để báo cáo (hay chia sẻ) siêu dữ liệu và dữ liệu thống kê trong và giữa các khu vực này theo cách hiệu quả nhất

Những tiêu chuẩn của SDMX cũng có thể được sử dụng trong một hệ thống quốc gia cho việc truyền tải hay chia sẻ siêu dữ liệu và dữ liệu thống kê và bởi các nhà cung cấp dữ liệu tư nhân (ví dụ như những nhà bán lại các cơ sở dữ liệu thống kê) Ở những quốc gia có cấu trúc liên bang hay những hệ thống thống kê phân quyền tuyệt đối thì điều này đặc biệt quan trọng Với những trường hợp như vậy thì một mối liên hệ gần gũi có thể được thiết lập giữa các hệ thống quốc gia này và các tổ chức quốc tế phục vụ việc chia sẻ dữ liệu và cho phép đạt được thêm những hiệu quả cho những tổ chức có liên quan

Nếu dữ liệu được tạo ra sẵn có cho việc trao đổi đòi hỏi sử dụng phương thức kéo (pull mode) theo những tiêu chuẩn của SDMX, điều này có thể mở ra sự phổ biến dựa trên cơ sở SDMX; những sự phổ biến như vậy có thể đáp ứng tốt những nhu cầu của người sử dụng về siêu dữ liệu và dữ liệu có cấu trúc tốt ở dạng thức có thể tái sử dụng, và nó nên được xem như một sự lựa chọn cho các chính quyền quốc gia cũng như các tổ chức quốc tế

Kéo và đẩy (Push and Pull)

Các thông điệp có thể được trao đổi theo 2 phương thức khác nhau, phương thức kéo (pull) và phương thức đẩy(push):

Phương thức đẩy có nghĩa là các nhà cung cấp dữ liệu sẽ gửi dữ liệu cho bên thu thập dữ liệu Việc này có thể diễn ra theo những cách thức khác nhau như là gửi email hay file transfer (chuyển file) và trong một vài trường hợp việc chuyển tải này có thể được hỗ trợ bởi những hệ thống như Eurostat’s Stadium and Statel Đây là những cách thức thu thập dữ liệu “truyền thống” được thực hiện bởi các tổ chức quốc tế trong nhiều năm.

Phương thức kéo có nghĩa là nhà cung cấp dữ liệu làm cho dữ liệu sẵn có thông qua Internet Việc này đơn giản như việc đặt một file có cấu trúc (SDMX-ML) lên một website hoặc nó có thể liên quan tới việc truy cập một dịch vụ cơ sở dữ liệu sẵn có thông qua một trang web và có khả năng xử lý một truy vấn SDMX chuẩn (a standard SDMX query) Các nhà thu thập dữ liệu khi ấy có thể chủ động tìm kiếm các dữ liệu Trong trường hợp này, sẽ có nhiều hơn một nhà thu thập dữ liệu được phép có được những phần dữ liệu cần thiết của mỗi nhà thu thập riêng rẽ Cách thức này về mặt nào đó cũng giống với việc phổ biến mà việc truy cập có thể được dành cho những người sử dụng thông tin cuối cùng, những người mà khi đó theo nhu cầu của họ sẽ truy cập vào nhiều website tất cả đều có sử cùng một dạng thức.

Trong khi việc kết hợp tất cả những cách thức trên được hỗ trợ bởi những tiêu chuẩn của SDMX, mục đích của SDMX là thúc đẩy hơn nữa việc trao đổi dữ liệu sử dựng phương thức thức kéo

2.2.4 Những bước đầu tiên để sử dụng SDMX

Những lợi thế của SDMX có thể hiểu 1 cách tốt nhất bằng cách sử dụng nó. Phần này sẽ giải thích:

 Làm thế nào để xây dựng dữ liệu sử dụng 1 định nghĩa cấu trúc dữ liệu (đôi khi được gọi là 1 “họ khóa”)

 Các loại thông điệp chuẩn khác nhau, chúng được dùng để làm gì và chúng liên hệ với nhau như thế nào.

Các ví dụ và giải thích dưới đây đều sử dụng SDMX-ML, là phiên bản hướng XML của các chuẩn SDMX SDMX mở rộng ứng dụng của XML và 1 vài công nghệ có liên quan (xem Box 3) Bạn không cần phải là 1 chuyên gia về XML, nhưng 1 số hiểu biết cơ bản về những công nghệ đó là thiết yếu để có thể làm việc với SDMX.

Các công nghệ XML dùng cho SDMX

XML, ngôn ngữ đánh dấu mở rộng được, được thiết kế để mô tả dữ liệu Nó mở rộng được (eXtensible) theo nghĩa nó có thể được sử dụng để tạo ra những ngôn ngữ mới dùng để mô tả những loại thông tin nhất định Theo nghĩa này, SDMX-

ML có thể được hiểu là 1 ngôn ngữ hướng XML dùng để mô tả dữ liệu thống kê.

Một lược đồ XML xác định những khối cấu trúc được cho phép trong 1 tài liệu

XML, sử dụng những thuật ngữ của ngôn ngữ định nghĩa lược đồ mà bản thân nó cũng được viết bằng XML.

XSLT (eXtensible Stylesheet Language Transformation) Được sử dụng để mô tả cách chuyển đổi 1 file XML sang 1 file XML khác hoặc sang 1 định dạng khác.

Tại sao XML lại lý tưởng cho mục đích của SDMX?

Với XML, dữ liệu có thể được trao đổi giữa các hệ thống không tương thích

Sau đây là 1 vài ví dụ để giải thích cách các công nghệ XML làm việc.

Don't forget the slides!

XML có thể được xác thực bởi 1 lược đồ

 Lược đồ được chứa trong 1 file riêng (.xsd)

Một sự vi phạm các nguyên tắc Lược đồ sẽ được phát hiện bởi 1 ứng dụng XML và thường gây ra việc đình chỉ các quá trình xử lý file tiếp theo.

XML Schema Definition (note.xsd)

SDMX sử dụng ngôn ngữ định nghĩa lược đồ có tên W3C XML Schema (XSD).

Có những ngôn ngữ định nghĩa lược đồ khác, ví dụ như DTD và Relax NG, nhưng không được sử dụng bởi SDMX.

Một định nghĩa lược đồ XML:

 Định nghĩa các yếu tố có thể xuất hiện trong văn bản

 Định nghĩa các thuộc tính có thể xuất hiện trong văn bản

 Xác định những yếu tố nào là các yếu tố con

 Xác định thứ tự của các yếu tố con

 Xác định số lượng của các yếu tố con

 Định nghĩa xem 1 nguyên tố là rỗng hoặc có thể bao gồm chữ

 Định nghĩa kiểu dữ liệu cho các yếu tố và thuộc tính

 Định nghĩa giá trị mặc định và cố định cho các yếu tố và thuộc tính

 Namespace (xmlns) được sử dụng để giải quyết các xung đột, khi mà 1 tên được sử dụng cho các yếu tố khác nhau trong các file khác nhau

 Namespace xác định 1 tiền tố cho bất kỳ tên nào trong file

 Mặc dù các tham chiếu của namespace và lược đồ trong giống như các URL, đây chỉ là 1 quy ước đặt tên: những dòng đó không chỉ đến những nơi đặt file thực sự. eXtensible Stylesheet Language Transformations

 XSL mô tả cách 1 văn bản XML được hiển thị

 XSLT – 1 ngôn ngữ dùng để chuyển đổi các văn bản XML

 Xử lý 1 văn bản XML và sinh ra 1 văn bản khác viết bằng XML hoặc 1 định dạng khác (text, HTML, v.v.)

XML sang HTML thông qua XSLT

Title

Artist

CÁC MÔ HÌNH SDMX

Mô hình cơ bản

Hình 3.1 : Mô hình cơ sở SDMX

Hình 3.2 : Mô hình cơ bản

3.1.2 Các khái niệm cơ bản

Các khái niệm và lược đồ khái niệm (Concepts – Concept Scheme)

Một “khái niệm” là bất cứ một ý niệm hoặc tên gọi nào đó cần có một định nghĩa hoặc nội dung mô tả đi kèm Trong Khung Quản lý Chất lượng Thông tin,

“các nhân tố dữ liệu” và “thuật ngữ” là những ví dụ về những đối tượng mà SDMX gọi tên là “khái niệm” Có rất nhiều các nhân tố dữ liệu trong các bảng biểu từ Bộ KH&ĐT sẽ có thể trở nên có lợi nếu được định nghĩa thành khái niệm

Các cụm từ “Giá thực tế trong GDP”, “Tiêu dùng”, “Tỉ lệ hộ nghèo”, “Tỉ lệ giảm sinh”, và “Thu nhập quốc nội” là các thuật ngữ có thể thấy trong các bảng dữ liệu của Vụ Tổng hợp Kinh tế Quốc dân, và không phải tất cả các cá nhân đều hiểu ngay và hiểu chính xác các cụm từ này có nghĩa gì

Bên cạnh đó, có thể một đơn vị nào khác trong Bộ cũng sử dụng các thuật ngữ tương tự nhưng với nghĩa tương đối khác so với Vụ THKTQD Ngoài ra, các đơn vị khác có thể còn sử dụng nhiều thuật ngữ khác nhau nhưng đồng nghĩa với một thuật ngữ nào đó Vụ TKHTQD đang sử dụng Định nghĩa những khái niệm là một bước khởi đầu quan trọng để tổ chức và quản lý siêu dữ liệu Các chủ đề khái niệm được hiểu là một cách thức để tổ chức các khái niệm có liên quan vào cùng chung một danh mục từ đó giúp cho việc tìm kiếm chúng trở nên dễ dàng hơn. Định nghĩa những khái niệm không hề khó Những thông tin cần thiết để định nghĩa một khái niệm bao gồm tên, mô tả, và có thể thêm một số ý kiến nhận xét bổ trợ, cùng với những thông tin về lĩnh vực nghiệp vụ chịu trách nhiệm về khái niệm đó Nếu khái niệm có tính định lượng, có thể cần thêm thông tin về đơn vị của số lượng hoặc đơn vị đo lường.

Danh sách mã (codelists) và danh mục phân loại (classifications)

Một danh sách mã là một danh sách chứa các thuật ngữ có liên quan với nhau; và một danh mục phân loại là một danh sách mã được sử dụng cho việc phân loại một tập hợp lớn thành các nhóm nhỏ hơn có nghĩa Một ví dụ về một danh sách mã đơn giản là danh sách các tỉnh thành với tên gọi tắt của chúng Một ví dụ nữa là danh sách các bằng cấp có thể đạt được và các mã số đi kèm Một ví dụ về danh sách phân loại là sử dụng một danh sách mã của các ngành công nghiệp để phân chia một khối doanh nghiệp ra theo từng ngành; hay sử dụng danh sách mã sản phẩm để phân chia các sản phẩm xuất khẩu của một quốc gia ra theo từng loại; hoặc sử dụng danh sách mã các lý do tử vong, và nghề nghiệp để phân loại các nhóm dân Các danh sách mã đơn giản có thể được sử dụng cho hầu hết bất cứ một mục đích nào nhưng mục đích sử dụng chủ yếu của danh sách mã trong vai trò một danh mục phân loại là được xem như các chiều (dimensions) – theo chiều dọc và chiều ngang của các bảng

Thông thường một danh mục phân loại và các nhân tố riêng biệt nào đó trong bảng mã phân loại tương ứng được nối với các khái niệm Tuy nhiên, điều này không phải lúc nào cũng cần thiết Ví dụ, không nhất thiết phải định nghĩa về từng vùng trong một danh sách mã vùng vì tất cả mọi người đều đã quen thuộc với các vùng đó và không cần định nghĩa.

Các danh mục phân loại có thể có thứ bậc - với nhiều cấp khác nhau, ví dụ như danh mục phân loại về ngành công nghiệp nói chung có chứa các nhóm ngành nhỏ hơn khác. Định nghĩa một danh sách mã và danh mục phân loại không khó Các thông tin cần phải cung cấp là tên và mô tả về danh sách mã, có thể với một đường link với một khái niệm nào đó, và một danh sách các mã số tạo thành danh sách mã nói trên. Mỗi mã số sẽ có một tên duy nhất và thông tin mô tả, và có thể có một đường link đến một khái niệm hoặc các ý kiến tham khảo/bổ trợ khác Đồng thời cũng sẽ có thông tin về những lĩnh vực nghiệp vụ chịu trách nhiệm về danh sách mã

Các lược đồ phân loại (category schemes) Ở dạng đơn giản, một lược đồ phân loạicó thể là một danh sách mã được sử dụng để phân nhóm các đối tượng trong một kho lưu trữ dữ liệu - điển hình là các bảng và các tài liệu khác, nhưng cũng có thể là các khái niệm và danh sách mã Các lược đồ phân loạicó thể được sử dụng để tạo ra các đề mục chỉ dẫn vị trí (index) của một nhóm nào đó trong một kho lưu trữ dữ liệu và siêu dữ liệu phức tạp, từ đó giúp người sử dụng tìm kiếm chúng dễ dàng hơn nếu họ quan tâm Một ví dụ khá hữu ích của các lược đồ phân loạiđó là danh mục liệt kêt các thông tin đầu ra hoặc các tài liệu xuất bản Cơ quan Thống Kê Úc (ABS) duy trì một quyển “Danh sách các tài liệu xuất bản”, tài liệu này được sử dụng rất rộng rãi không chỉ ngay tại Cơ quan mà còn bởi các đối tượng sử dụng thông tin thống kê của Cơ quan này Các chủ đề theo nhóm không phải là một phần trọng yếu trong mô hình SDMX, và chỉ là phương án phụ trong bất cứ việc triển khai áp dụng nào. Định dạng cấu trúc (Structure Definitions - Key Families)

Một định dạng cấu trúc sẽ xác định cấu trúc của một bảng, hoặc, thông thường hơn là các họ bảng Điều này được thực hiện bằng cách xác định những danh sách mã được sử dụng như các chiều (dimensions) của bảng, các đơn vị về số lượng được sử dụng trong bảng và bất kỳ thuộc tính (ví dụ như tình trạng đang được dữ liệu chỉnh sửa hoặc ước tính) gắn với dữ liệu trong bảng Nói rõ hơn thì định dạng cấu trúc giống như một dạng biểu mẫu cho mỗi bảng cùng trong một “họ” – nó chứa các thông tin về cấu trúc cần thiết để xác lập một bảng biểu mà không cần các dữ liệu thực tế

Bên cạnh việc cung cấp một định dạng rõ ràng về một “họ” bảng nào đó, một định dạng cấu trúc còn có thể được dễ dàng sử dụng để tạo ra các biểu mẫu thực tế phục vụ cho việc nhập dữ liệu tự động.

Xây dựng những định dạng cấu trúc không khó Trước tiên cần phải xác định các thuật ngữ cần thiết, danh sách mã, và các danh mục phân loại, nhưng sau đó việc cần thiết là gắn các chiều (dimensions) từ 1 danh sách trong những các danh sách mã có sẵn Bên cạnh đó cũng cần có thông tin về lĩnh vực nghiệp vụ chịu trách nhiệm xây dựng các định nghĩa cấu trúc.

Các đơn vị tổ chức

Như đã trình bày ở trên về khái niệm, danh sách mã, và định dạng cấu trúc, cần phải kết nối toàn bộ các yếu tố này (cũng như bộ dữ liệu sẽ mô tả dưới đây) với một

“lĩnh vực nghiệp vụ chịu trách nhiệm bảo lưu dữ liệu” Khi nhận được dữ liệu từ các đơn vị bên ngoài (như thực tế thường thấy với dữ liệu của Bộ KH&ĐT), điều cần thiết khác là phải giữ liên hệ với các tổ chức cung cấp dữ liệu đó SDMX có những nhân tố để lưu, theo dõi những thông tin về cả nội bộ tổ chức và các đơn vị cung cấp thông tin bên ngoài Các định dạng về tổ chức cung cấp đường link đến các siêu dữ liệu mà tổ chức chịu trách nhiệm và đến những dữ liệu họ đã gửi đi hoặc nhận và một cách khác để tìm thông tin trong kho lưu trữ.

Thông tin này không phức tạp hoặc khó khăn – nó cần tên và mô tả về tổ chức, và các địa chỉ cũng như thông tin về người liên hệ

Trong thực tế, bộ dữ liệu là các thực thể chính chúng ta đang cố gắng để quản lý. Chúng là các bảng do các đơn vị cung cấp dữ liệu gửi đến Bộ KH&ĐT hoặc đã được tổng hợp nội bộ bởi Bộ KH&ĐT Như đã trao đổi ở trên, thông thường chúng có thể được tổ chức thành các nhóm - cụ thể là các “họ” bảng (có thể là rất nhiều) có cùng chung cấu trúc và cấu thành một tập hợp các bảng có quan hệ mật thiết hiện đang tồn tại Các bộ dữ liệu được nối với các định dạng cấu trúc, do đó nó không cần phải lưu những thông tin về cấu trúc bên trong nó Các bộ dữ liệu còn được nối với các tổ chức cung cấp dữ liệu, nhận dữ liệu hoặc tạo ra dữ liệu nếu cần thiết.

Các thuộc tính về cấu trúc (structural attributes) và Siêu dữ liệu tham khảo (reference metadata)

Mô hình bậc cao

Hình 3.3: Sơ đồ bậc cao 1 Luồng dữ liệu hay luồng siêu dữ liệu (Data or Metadata Flow): Sự miêu tả của một luồng dữ liệu hay siêu dữ liệu – rút ra từ các bộ dữ liệu hay siêu dữ liệu, có khả năng xuất hiện trong nhiều thời kỳ, từ nhiều các đơn vị (ví dụ một bảng thông thường được nhận bởi bộ KH&ĐT từ nhiều nguồn khác nhau)

- Sử dụng cấu trúc dữ liệu/ siêu dữ liệu đặc trưng đã được định nghĩa – Định nghĩa cấu trúc dữ liệu, siêu dữ liệu

- Có thể liên kết với các nhóm trong nhiều chủ đề theo nhóm - Category /Category

- Có thể nhận dữ liệu từ nhiều nhà cung cấp dữ liệu thông qua Provision Agreement

Bộ dữ liệu/siêu dữ liệu (Data/Metadata Set): Là sự thể hiện các bộ dữ liệu và siêu dữ liệu được tạo bởi các tổ chức cung cấp dữ liệu xác định tại những thời điểm xác định (ví dụ một bảng đặc thù từ tỉnh Ninh Bình tại một thời điểm xác định), phù hợp với những quy tắc được tạo ra tại luồng dữ liệu/ siêu dữ liệu.

Hợp đồng cung cấp (Provision Agreement): là những gì mà nhà cung cấp , như cung cấp dữ liệu nào, đối tượng, khi nào , như thế nào

Nhà cung cấp dữ liệu (Data Provider): các tổ chức, cá nhân cung cấp nguồn dữ liệu cũng như nhận dữ liệu

- Là nơi công khai/báo cáo các bộ dữ liệu hay siêu dữ liệu

- Sự tồn tại những sổ đăng ký của dữ liệu và siêu dữ kiện

- Có thể cung cấp dữ liệu cho nhiều luồng dữ liệu sử dụng cấu trúc dữ liệu đã được tán thành towis Provision Agreement

Loại và các lược đồ phân loại (Category and Category Scheme): định nghĩa các luồng dữ liệu và các siêu dữ liệu, cung cấp các cấu trúc nền tảng các cơ sở để tìm kiếm như danh mục , chỉ dẫn

Hình 3.4: Sơ đồ bậc cao 2

SDMX Registries

Câu trả lời rất đơn giản, nhưng trước khi trả lời câu hỏi này 1 cách chi tiết, điều quan trọng là chúng ta phải làm sáng tỏ 1 số điểm sau:

SDMX Registry không phải là 1 tài nguyên đơn lẻ, tập trung cho toàn thế giới cùng sử dụng Nó là 1 dạng công nghệ có thể được sử dụng bởi nhiều người dùng khác nhau, nhằm phục vụ cho cộng đồng thống kê của bản thân họ Có thể nói rằng các tổ chức lớn mà giúp tổ chức và giám sát những bộ sưu tập các kiểu dữ liệu thống kê riêng biệt từ các tổ chức khác chính là những người sẽ vận hành công nghệ SDMX Registry, vì lợi ích của cộng đồng đó, và vì loại dữ liệu họ thu thập và phát tán.

SDMX Registry là 1 phần của gói các chuẩn SDMX Nó được sử dụng trong các cộng đồng đang sử dụng các chuẩn công nghệ SDMX làm nền tảng cho các trao đổi thống kê Nó chỉ hoạt động đúng khi dữ liệu và siêu dữ liệu được trao đổi theo định dạng SDMX, và được mô tả bằng đặc tả kỹ thuật SDMX.

SDMX Registry là 1 ứng dụng có thể truy cập được bởi các chương trình khác thông qua Internet (hoặc Intranet hay Extranet), để cung cấp những thông tin cần thiết để có thể dễ dàng báo cáo, thu thập và phát tán số liệu thống kê Cũng giống như cách con người sử dụng 1 trình duyệt để vào Google và tìm kiếm 1 vài thông tin, SDMX Registry có thể được truy cập bởi các chương trình máy tính khác để định vị và truy cập số liệu thống kê Tất cả các liên lạc đều được tiến hành thông qua các thông điệp SDMX-ML.

3.3.2 Một sự tương tự Để hiểu được SDMX Registry là gì, cách dễ nhất là chỉ ra 1 trường hợp tương tự, quen thuộc với nhiều người.

Hãy nghĩ về 1 trường Đại học lớn, nơi có hàng chục đến hàng trăm nghìn sinh viên sống, học tập và làm việc.

Khu vực trường đại học được thiết lập sao cho nó có 1 trung tâm, nơi đặt các văn phòng quản trị và các thư viện Sinh viên và giáo viên không sống ở đây – họ sống trong các khu tập thể và căn hộ ở xung quanh.

Làm thế nào để sinh viên và giáo viên liên lạc được với nhau? Có những mạng lưới bạn bè và đồng nghiệp trải rộng khắp trường đại học, mỗi sinh viên và giáo viên có thể thuộc nhiều nhóm như vậy Chúng là kết quả của các căn hộ, nhóm xã hội, clb, đội thể thao …

Mặc dù có những mạng nhỏ đó, nhưng 1 người không thể nào biết hết được tất cả sinh viên và giáo viên – đơn giản là có quá nhiều người.

Bây giờ giả sử bạn là 1 sinh viên, và bạn có 1 chiếc xe đạp muốn bán Bạn có thể gọi cho bạn bè, đồng nghiệp và hỏi họ có muốn mua xe của bạn hay không Với mỗi người bạn biết bạn lại phải đi và hỏi từng người 1 Điều này không được hiệu quả cho lắm, và chỉ có thể liên lạc được nhiều nhất vài chục người, và tốn rất nhiều công sức của bạn.

Nhưng có 1 cách tốt hơn để bán chiếc xe của bạn: bạn có thể đến trung tâm của trường và dán thông báo của bạn lên bảng tin Tại đây, mọi người sẽ nhìn thấy thông báo của bạn và sẽ liên lạc nếu họ có nhu cầu mua Quá trình này hiệu quả hơn nhiều, bởi vì bạn không cần phải liên lạc với từng người – họ đến và đọc thông báo của bạn nếu họ đang tìm 1 chiếc xe đạp Bạn chỉ cần phải viết lời chào hàng 1 lần, mô tả chiếc xe, giá cả và cách liên lạc với bạn Hầu hết các trường đại học đều có loại hệ thống này, nơi hầu như tất cả mọi người đều có thể dán thông báo, và tất cả các thành viên của trường đại học đều có thể xem.

Trong ví dụ vừa rồi, số người trong trường đại học tượng trưng cho1 cộng đồng thống kê của những người đưa tin, thu thập, phát tán dữ liệu và người dùng thuộc nhiều kiểu khác nhau Bảng tin ở trung tâm trường học chính là SDMX Registry. Công việc của cộng đồng thống kê không phải là bán xe đạp, mà là báo cáo hoặc thu thập dữ liệu và siêu dữ liệu cần để hiểu dữ liệu đó Nhưng ví dụ trên minh họa cho 1 nguyên lý cơ bản: nếu tôi có 1 địa điểm tập trung nơi tôi có thể gửi 1 thông điệp, mọi người trong cộng đồng đều có thể xem được thông điệp của tôi Nếu ai đó có hứng thú với thông điệp, họ có thể liên hệ với tôi bởi vì thông điệp chứa đựng thông tin mô tả cách liên lạc Đây chính là vai trò của SDMX Registry với 1 cộng đồng thống kê: nó cho phép mọi người mô tả dữ liệu và siêu dữ liệu của họ 1 lần, và chia sẻ nó với bất kỳ thành viên nào trong cộng đồng quan tâm đến với hiệu quả cao.

3.3.3 Registry là một công nghệ chung

Registry là một hình thức chung của công nghệ, cái được sử dụng trong nhiều con đường trong những ứng dụng khác nhau Nhiều máy tính hiện đại có những registry được sử dụng bởi những chương trình địa phương trên máy tính đó, cho phép những chương trình khác biết rằng chúng tồn tại cục bộ trên máy, và chúng có thể được truy cập như nào Khi bạn ấn đúp chuột trên một file đính kèm với e-mail, và nó khởi động một ứng dụng như Word hoặc Excel, đây có thể bởi vì chương trình email của bạn có thể thấy một Registry cục bộ và thấy rằng Word có thể để mở những văn bản đính kèm, và có thể thu được thông tin cần thiết để truy cập nó.

Registry cũng được sử dụng để hỗ trợ những ứng dụng được phân phối cái làm trên nhiều máy tính khác nhau và phục vụ quanh một mạng Có những registry chuẩn ví dụ như UDDI và ebXML Registry/Repository hỗ trợ những kiểu ứng dụng như vậy cũng như nhiều registry độc quyền khác Những kiểu registry như vậy cho phép những chương trình cài trên các máy khác nhau biết cách tương tác với các chương trình khác.

Công nghệ registry không được sử dụng trực tiếp bởi những người sử dụng đầu cuối – nó được sử dụng bởi những ứng dụng Bởi vậy, bạn ít khi nghe nhiều về nó trừ khi bạn là một lập trình viên hoặc một người làm việc về kỹ thuật.

Một SDMX Registry là một chương trình của ý tưởng đơn giản sau về trao đổi thống kê: bằng cách có một vị trí trung tâm nơi sự tồn tại và vị trí của dữ liệu và siêu dữ liệu thống có thể được tìm thấy, chúng ta có thể phối hợp tốt hơn hành vi của ứng dụng thống kê trong một cộng đồng.

Hình 3.5: Sơ đồ bậc cao 3

3.3.4 Chức năng của SDMX Registry

1 Khi được yêu cầu, nó cung cấp thông tin về những tập dữ liệu và siêu dữ liệu nào đang sẵn dùng, và chúng được đặt ở đâu.

2 Khi được yêu cầu, nó cung cấp thông tin về những tập dữ liệu và siêu dữ liệu được cung cấp như thế nào: tần suất cập nhật của chúng như thế nào, nội dung của chúng là gì, làm thế nào để truy cập chúng, và những câu hỏi tương tự.

3 Khi được yêu cầu, nó cung cấp thông tin về cấu trúc của các tập dữ liệu và siêu dữ liệu, trả lời những câu hỏi như: chúng sử dụng những danh sách mã nào? Bao gồm những khái niệm nào?

Định dạng cấu trúc dữ liệu - Data structure definitions

3.4.1 Định dạng cấu trúc dữ liệu là gì Để trả lời được câu hỏi này, chúng ta cần tìm hiểu về dữ liệu thống kê Dữ liệu thống kê là những cái được đại diện bởi những con số như: 1900

Giả sử, ta có bảng dữ liệu DataSet sau

Vậy khi có trong tay một dataset như trên , ta sẽ không biết con số đó thực sự nói gì bạn biết rằng con số đó chỉ là một phần của dữ liệu thống kê, và do đó nó là một phép đo của một vài hiện tượng- hay còn được biết đến như là một

“observation” - nhưng bạn không thể nói được gì từ chỉ một con số như thế Bạn sẽ tự đặt ra rất nhiều câu hỏi : phép đo này là về cái gì , đơn vị đo ,được thực hiện khi nào

Vậy chúng ta cần biết:

- Dataset này liệu có phù hợp với bộ khung dữ liệu của chúng ta hay không và tổ chức nào chịu trách nhiệm cung cấp các phần khác nhau

Trong số những câu hỏi ở trên, những khái niệm miêu tả là Chủ đề (Subject), đơn vị đo (Unit of measure), nước (Country) và thời gian (Time) Và nếu tôi nói với bạn câu trả lời cho những câu hỏi này thì dữ liệu này sẽ có ý nghĩa:

- Chủ đề : “vốn đầu tư”

- Thời gian : “Quý 1 năm 2008” Đây là một ví dụ hư cấu đã được đơn giản hóa, nhưng nó chứng minh được việc chúng ta có thể bắt đầu hiểu về ý nghĩa của dữ liệu thống kê với một loạt các khái niệm mô tả Bây giờ chúng ta hiểu rằng những con số của chúng ta đại diện cho một sự việc là tổng vốn đầu tư vào Việt Nam vào quý 1 năm 2008 là 1900 triệu USD.

Lời giải thích đơn giản nhất cho định dạng cấu trúc dữ liệu đó là nó là một loạt những khái niệm mô tả đi kèm với một loạt dữ liệu mà cho phép chúng ta hiểu được dữ liệu có ý nghĩa gì Tuy nhiên cũng có thể có nhiều hơn thế.

3.4.2 Phân nhóm dữ liệu- Grouping data

Các con số thường được phân tổ với nhau theo những cách thức rất khác nhau, để thành những gói thông tin hữu ích Một cách tiếp cận thường thấy đó là phải có một loạt các quan sát- hay một “dãy”, hay “dãy thời gian”- theo thời gian Điều này cho phép chúng ta thấy được những xu hướng của hiện tượng được Do đó, nếu ta đo tổng dư nợ của do các khoản vay mượn của ngân hàng tại Nam Phi vào quý 1 hàng năm, ta có thể biết số nợ do ngân hàng mượn của nước này đang tăng hay giảm.

Dãy thời gian luôn có “tần số” Đây là một khái niệm mô tả (descriptor concept) mà mô tả khoảng cách của thời gian giữa các Quan sát Thường thì nó sẽ là một khoảng cách đều nhau, tần số này có thể là “hàng năm” hay “hàng tháng” hay “hàng tuần” Đôi khi những khoảng cách này lại không đều nhau Chú ý rằng một Quan sát riêng lẻ thì không có tần số- chỉ một dãy các Quan sát thì mới có tần số Tần số là một ví dụ về một khái niệm mô tả mà chỉ được áp dụng vơi dãy dữ liệu.

Cũng có những cách phân nhóm dữ liệu khác ở mức độ cao hơn Nhiều dãy thường được nhóm với nhau thành một “nhóm” (Group) Một nhóm dãy thời gian như vậy bao gồm một loạt các dãy thời gian (tức là như là một “Sibling Group” (nhóm có họ với nhau)) mà giống hệt nhau trừ trường hợp chúng được đo với các tần số khác nhau Do đó, một “Group Series” (nhóm bao gồm các dãy) sẽ là nhóm mà đo các hiện tượng theo ngày, tháng và năm.

Tuy nhiên có thể có những Nhóm mà có những giá trị khác nhau về các khái niệm mô tả ngoài tần số Nếu ta muốn thể hiện tỉ giá giao dịch đồng US hàng ngày với những đồng tiền khác trên thế giới trong năm qua, ta có một loại nhóm khác. Tất cả descriptor “tần số”sẽ đều là “daily”- nhưng khái niệm mô tả cho “ngoại tệ” sẽ là khác nhau cho một dãy Điều này sẽ dẫn tới một cái bảng 2 có chiềulà nước và thời gian, khái niệm được đo sẽ là tỉ giá giao dịch thường nhật của đồng USD với đồng tiền của mỗi nước Có thể có nhiều hơn 2 chiều này trong nhóm nên cấu trúc cơ bản của dữ liệu thống kê (đã được tổng hợp) là một bảng đa chiều (hay gọi à một khối), trong đó một chiều có thể là thời gian.

Cũng có thể có những gói với mức độ cao hơn, còn gọi là “bộ dữ liệu” Nó đại diện cho một loạt các dữ liệu hình thành nên một vài Nhóm Điển hình, nó được được duy trì và công bố bởi một cơ quan và nó trở thành mọt nguồn dữ liệu thống kê Một cấu trúc cơ bản đang xuất hiện: chúng ta có những Quan sát, được nhóm thành các Series (nếu thời gian là một chiều), các Series được chia thành các Nhóm, tức là các bảng đa chiều được chia thành các bộ dữ liệu (Data Sets)

Chú ý: Một điểm cần đề cập tới đó là có cách nhóm các Quan sát khác mà chúng ta gọi là “cross-sectional” data (dữ liệu chéo) Trong các dữ liệu chéo, có nhiều Quan sát liên quan được trình bày cho một điểm riêng lẻ hay giai đoạn về thời gian và cho một member riêng lẻ trong mỗi một chiều trong số các chiều còn lại Cách tổ chức dữ liệu này rất giống với dữ liệu dãy thời gian theo cách mà một loạt các khái niệm mô tả có thể được kết hợp với nó Định dạng cấu trúc dữ liệu có thể được sử dụng để mô tả cả dữ liệu trong thời gian, dữ liệu chéo và dữ liệu trong bảng đa tiêu thức Tuy nhiên, chúng ta sẽ chỉ tập trung vào dữ liệu trong dãy thời gian Một khi chúng ta mô tả được định dạng cấu trúc dữ liệu của các dữ liệu trong dãy thời gian, chúng ta sẽ quay trở lại và xem các dữ liệu chéo được cấu trúc như thế nào

3.4.3 Các mức độ đính kèm- Attachment Levels

Một vài khái niệm mô tả không có ý nghĩa ở mức độ “Quan sát” mà chỉ có ý nghĩa ở các mức độ cao hơn Ví dụ chúng ta đã xem xét trước đó là về tần số mà không có ý nghĩa gì đối với các “quan sát” đơn, nhưng lại có ý nghĩa khi được áp vào một “chuỗi quan sát” (series of observation) Đó là vì nó đại diện cho khoảng cách về thời gian giữa các “quan sát” Thời gian, mặt khác, lại có ý nghĩa ở mức

“quan sát” - mọi “quan sát” được kết hợp với một điểm hay một khoảng cụ thể trong Thời gian Các định dạng cấu trúc dữ liệu sẽ mang đến các thông tin về mức độ mà một khái niệm mô tả riêng biệt hay một chiều được đính kèm với: ở mức độ Quan sát, mức Chuỗi, mức Nhóm, hay mức Tập dữ liệu Đây chính là “mức độ đính kèm” (attachment level) của khái niệm mô tả. Đặc biệt nếu xem xét các Nhóm, chúng ta có thể thấy được cơ cấu hoạt động của chúng Trong một nhóm, vài khái niệm mô tả có các giá trị như nhau đối với tất các Chuỗi trong Nhóm đó, trong khi các khái niệm mô tả khác có thể thay đổi Đối với Nhóm được mô tả ở trên, trong số tất cả các tỉ giá giao dịch đồng US được đo hàng ngày đối với các đồng tiền khác trên thế giới, khái niệm mô tả chủ đề (“tỉ giá giao dịch US”) và Tần số (“hàng ngày”) sẽ là giống nhau với tất cả các thành viên trong Nhóm Tuy nhiên khái niệm mô tả “đồng tiền” sẽ thay đổi với mỗi Chuỗi trong Nhóm: sẽ có một Chuỗi cho đồng “Frances Thụy Sĩ”, một Chuỗi cho “đồng Euro”, một Chuỗi cho “đồng dollar Úc”…

Có một quy tắc là các khái niệm mô tả được “đính kèm” (attached) với cấp độ nhóm mà chúng có thể biến đổi Do đó, nếu trong một bộ dữ liệu đơn tất cả các nội dung của một Chuỗi đều chia sẻ một giá trị đơn đối với một khái niệm mô tả, thì khi ấy khái niệm mô tả đó nên được đính kèm ở mức Chuỗi Quy tắc này cũng giả định rằng mức độ được chọn là mức cấu trúc cao nhất mà tất cả các phân nhóm (sub- group) sẽ chia sẻ cùng một giá trị.

PHÂN TÍCH THIẾT KẾ HỆ THỐNG CSDL CHO VỤ TỔNG HỢP KINH TẾ QUỐC DÂN

Mục tiêu

Mục tiêu của việc thiết kế CSDL này là nhằm phát triển 1 hệ thống cho phép hỗ trợ cho các hoạt động nghiệp vụ tại DNEI bao gồm: Lập Khung Kế Hoạch, tạo Mẫu biểu và Phân bổ trong việc thu thập các báo cáo từ các cơ quan cấp dưới.

Phạm vi của hệ thống

Mục tiêu của hệ thống là hỗ trợ DNEI trong các công tác liên quan đến việc quản lý các chỉ tiêu kinh tế để tính chỉ số GDP và tạo ra các kế hoạch để trả lời các yêu cầu của chính phủ Trên thực tế công việc này được hoàn thành bằng cách sử dụng các file Excel Hệ thống không cần phải trực tiếp cho ra những báo cáo đó nhưng phải bao gồm các tính năng để làm cho các công việc cốt lõi của DNEI diễn ra 1 cách thuận tiện.

Khảo sát và phân tích hệ thống

Nhiệm vụ chính của Vụ Tổng hợp Kinh tế Quốc dân là phát triển các kế hoạch định hướng chiến lược quốc gia, tổng hợp thông tin kinh tế - xã hội từ các báo cáo của các đơn vị cấp dưới gửi lên để đề xuất kế hoạch phát triển KT-XH cấp quốc gia

Cụ thể, nhiệm vụ của Vụ có thể được chia thành 4 bước:

 Bước 1: cân đối kế hoạch: phát triển khung kế hoạch Trong bước này DNEI có trách nhiệm phát triển định hướng chiến lược quốc gia Những định hướng chiến lược đó thường được ghi chi tiết dưới dạng khung kế hoạch, bao gồm những mục tiêu chủ yếu của việc phát triển quốc gia (được đưa ra dưới dạng giá trị của các chỉ tiêu KT-XH chủ yếu) Chỉ tiêu quan trọng nhất trong bước này là GDP (chỉ tiêu này sẽ tác động tới tất cả các chỉ tiêu KT-XH khác).

 Bước 2: phát triển Biểu mẫu và Phân bổ kế hoạch: Biểu mẫu là cấp độ chi tiết hơn của Kế hoạch Từ hàng chục các chỉ tiêu của bước Cân đối kế hoạch, tới bước này nó sẽ trở thành hàng trăm chỉ tiêu khác nhau Những chỉ tiêu đó sẽ được nhóm thành các biểu mẫu báo cáo bởi các đơn vị kế hoạch.

Những biểu mẫu đó với các giá trị cụ thể (giá trị kế hoạch) của mỗi chỉ tiêu sẽ được phân bổ đến các Đơn vị kế hoạch với vai trò là các mục tiêu mà các đơn vị kế hoạch phải đạt được trong giai đoạn kế hoạch này.

 Bước 3: các Đơn vị kế hoạch báo cáo các kế hoạch lên Bộ Kế hoạch và Đầu tư (MPI) Dựa trên Khung kế hoạch và các Biểu mẫu, các đơn vị kế hoạch sẽ thu thập các dữ liệu liên quan và báo cáo lên MPI Báo cáo bao gồm 3 loại dữ liệu: Kết quả thực thi của giai đoạn kế hoạch trước đó, Ước đoán và Kế hoạch (Mục tiêu) của giai đoạn này Những báo cáo đó sẽ được gửi đến DNEI và các bộ phận chuyên trách của MPI.

 Bước 4: tập hợp báo cáo và trích xuất thông tin: tại bước cuối cùng này, dựa trên các báo cáo từ các đơn vị kế hoạch và các bộ phận chuyên trách, DNEI tổng hợp thành kế hoạch phát triển KT-XH cấp quốc gia Sau khi được thảo

Các vụ địa phương Các vụ chuyên ngành

Nhập dữ liệu Data Input

Khung kế hoạch Biểu mẫu Hướng dẫn

Biểu mẫu đã điền DNEI

Báo cáo kế hoạch (hàng năm, 5 năm…)

TCTK và các đơn vị vụ viện khác luận kỹ trong các hội nghị và cuộc họp, kế hoạch này sẽ được gửi cho Chính phủ để được phê duyệt.

Hình 4.1: Quá trình lập kế hoạch

Hình 4.2: Mô hình nghiệp vụ cho CSDL chỉ tiêu KT-XH

Báo cáo từ chính quyền địa phương

4 D ữ liệ u C hỉ tiê u b áo cá o

Các vụ, đơn vị, TCTK Vụ Tổng hợp

13 Dữ liệu phục vụ việc lập báo cáo

14 Dữ liệu để sử dụng/trích xuất nội bộ

15 Dữ liệu phổ biến đến các cơ quan liên quan

16 Dữ liệu cho các trang web

Cung cấp số liệu tổng hợp KT-XH

2 Phát triển biểu mẫu Chỉ tiêu KT-XH

5.Nhập số liệu 6.Tự động

10 Monitoring report from lower authorities (7)

Từ mô hình nghiệp vụ trên, quá trình lập kế hoạch có thể được mô tả lại như sau:

 Bước 1: Cân đối kế hoạch: phát triển khung kế hoạch Cùng lúc đó, DNEI sẽ xem xét lại hệ thống và các nhóm chỉ tiêu; cập nhật hệ thống thống tin quản lý bởi chức năng (1.): Chuẩn hóa chỉ tiêu.

 Bước 2: phát triển biểu mẫu: bằng cách sử dụng chức năng (2.), các biểu mẫu có thể được sinh bán tự động bằng cách liệt kê các chỉ tiêu và các đặc trưng khác.

Biểu mẫu (3.) dưới định dạng Excel sẽ được tổng hợp bởi chính quyền địa phương - điểm trung tâm của việc lập kế hoạch Những biểu mẫu này không chỉ chi phối định dạng của các báo cáo mà còn cung cấp các qui tắc về đơn vị báo cáo, giai đoạn và dữ liệu yêu cầu Từ đó, cho phép hệ thống điều khiển quá trình báo cáo từ các đơn vị cấp dưới.

 Bước 3: chính quyền địa phương báo cáo kế hoạch lên MPI, (sử dụng chức năng (4.)) Có 3 chế độ báo cáo dữ liệu: (i) gửi văn bản đến DNEI và vụ sẽ nhập dữ liệu vào hệ thống 1 cách thủ công (chức năng (5.)); (ii) gửi bản mềm của văn bản đến DNEI và các báo cáo sau đó sẽ được lọc 1 cách tự động thông qua bộ lọc dữ liệu thông qua chức năng (6.); (iii) Một vài vụ có thể báo cáo dữ liệu trực tiếp qua 1 giao diện được xây dựng trên MPI-LAN hoặc 1 giao diện web (chức năng (7.)); (iv) Một chế độ khác được áp dụng để trao đổi dữ liệu trực tiếp giữa TCTK với các CSDL chuyên ngành MPI khác (chức năng (8.)) dựa trên 1 tập chung các quy tắc (chức năng (9.)).

Hệ thống báo cáo dựa trên 4 chế độ nói trên đều được đảm nhận và điều khiển đồng hành với hệ thống các chỉ tiêu

Dựa trên các quy tắc được đưa ra trong các biểu mẫu, hệ CSDL sẽ tự động giám sát quá trình báo cáo của các chính quyền địa phương.

 Bước 4: tổng hợp các báo cáo và trích xuất thông tin: thông qua kết xuất đầu ra (các biểu mẫu đã được điền (chức năng (11.))), dữ liệu sẽ được chuẩn bị sẵn sàng cho các báo cáo định kỳ (chức năng (12.)), bao gồm báo cáo kế hoạch (13.), báo cáo chuyên ngành và các trích xuất thông tin nội bộ cho MPI (14.), dữ liệu phục vụ nhu cầu khai thác của các cơ quan liên quan (15.) cũng như dữ liệu trích xuất thông quan LAN hoặc các ứng dụng web cho trang web của MPI (16.).

Hệ thống bao gồm các nhóm chức năng sau đây:

1) Chức năng quản lý hệ thống chỉ tiêu và phân loại

2) Chức năng phát triển biểu mẫu

3) Chức năng Nhập dữ liệu

4) Chức năng Báo cáo đầu ra

5) Chức năng Quản trị người dùng Để thực hiện được các nhóm chức năng nói trên, hệ thống phải có các CSDL để lưu trữ

 Giá trị của các chỉ tiêu

 Các quyền của người dùng

 Các bảng cụ thể cần thiết

Ngoài ra, hệ thống còn phải được kết nối đến CMR (Central Metadata Repository): kho siêu dữ liệu trung tâm được sử dụng chung cho toàn bộ Bộ Kế hoạch và Đầu tư.

Tóm lại, hệ thống phải bao gồm các chức năng chính sau:

Thành phần/Chức năng 2 lớp

Cài đặt Phần mềm MPI

PC MPI Web Server Porlet on MPI E-

Truy cập dữ liệu MPI

PC PC kết nối đến

Internet/Intranet PC kết nối đến

Quản lý Biểu mẫu Có Không Không

Quản lý luồng dữ liệu Có Đọc Không

Dữ liệu vào Nhập trực tiếp Có Không Không

Sử dụng biểu mẫu Có Có Không

Nhập từ Excel Có Không Không

Truy vấn Đơn giản Có Có Có

Phức tạp Có Có Có

Dữ liệu ra Tạo biểu mẫu Có Không Không

Báo cáo từ biểu mẫu Có Có Không

Báo cáo định trước Có Có Có

Quản lý hệ thống Truy cập

Quản lý người dùng Có Không Không

Cấu hình hệ thống Có Không Không

4.2.2.3.1 Quản lý Biểu mẫu và Luồng dữ liệu

Chú ý: trong đặc tả sau, các từ “biểu mẫu” và “luồng dữ liệu” được sử dụng nhiều lần Một biểu mẫu mô tả 1 cấu trúc luồng dữ liệu Một luồng dữ liệu mô tả dữ liệu được chia thành 2 phần: dữ liệu chung và giá trị dữ liệu cho mỗi chỉ tiêu cụ thể.

Mục đích của biểu mẫu là để chuẩn hóa luồng dữ liệu CSDL sẽ chứa các định nghĩa biểu mẫu là luồng dữ liệu Những định nghĩa đó sẽ được dùng để:

 Nhập dữ liệu vào CSDL

 Xuất dữ liệu từ CSDL

 Tạo 1 tập hợp dữ liệu (Excel)

XÂY DỰNG ỨNG DỤNG

Nhập dữ liệu

Sau đây là mô tả chức năng chính của hệ thống Nhập dữ liệu.

Hình 5.1: Giao diện Nhập dữ liệu 1 Đây là 1 ví dụ điển hình về 1 luồng dữ liệu mà hệ thống phải quản lý

 Phần 1 liên quan đến dữ liệu mà người dùng cần phải điền trước khi Nhập (Nạp) hoặc Xuất các giá trị dữ liệu Những thông tin này sẽ được lưu trong bảng

“Dataflows” Nó có thể được coi là siêu dữ liệu chung của luồng dữ liệu này.

- Organisation: xuất xứ của dữ liệu

- Province/Area: nếu dữ liệu liên quan đến 1 tỉnh/khu vực cụ thể (tùy chọn)

- Document: tham chiếu đến tài liệu gốc chứa luồng dữ liệu

- Người dùng đã nhập dữ liệu sử dụng luồng dữ liệu này

- Ngày dữ liệu được nhập hoặc xuất

Phần 2 được xác định ở mức đặc tả Biểu mẫu Nó là bảng “DataFlows_IND”.

Phần 3 được xác định ở mức đặc tả biểu mẫu Nó là bảng “DataFlows_VAL” i Nạp dữ liệu

- Chọn biểu mẫu định sử dụng

- Điền các trường dữ liệu tương ứng với Phần 1 (Bảng Dataflow) Một vài trường có thể đã được điền sẵn nếu nó đã được nhập trong quá trình khởi tạo luồng dữ liệu Trong trường hợp đó người dùng không được phép sửa đổi nội dung các trường này.

- Nếu 1 danh sách chỉ tiêu mặc định được xác định ở mức định nghĩa biểu mẫu, danh sách các chỉ tiêu trong Phần 2 sẽ được kiểm tra với những chỉ tiêu được xác định ở mức định nghĩa biểu mẫu trước khi nạp dữ liệu Với mỗi chỉ tiêu trên, measurement code và unit code sẽ được kiểm tra nhằm đảm bảo tính ổn định.

- Nội dung của phần 3 được hệ thống sử dụng để nạp dữ liệu trong các “Tập dữ liệu” Hệ thống sẽ sinh 1 mục cho mỗi cột được chỉ định Trong ví dụ, nó sẽ sinh ra 4 mục trong bảng Dataset Từ ví dụ trên, kết quả sẽ là

Hình 5.2: Giao diện nhập dữ liệu 2 ii Nhập dữ liệu trong DNEI

Mỗi người dùng sẽ nhập dữ liệu trực tiếp sử dụng 1 form được sinh bởi 1 đặc tả trình bày biểu mẫu (xem phần Quản lý biểu mẫu ở trên).

Hình 5.3: Giao diện Nhập dữ liệu ở mức DNEI

Sau khi dữ liệu được nhập, người dùng có thể nhập siêu dữ liệu tham khảo bao gồm

- Nhận xét về 1 giá trị cụ thể

- Nhận xét về 1 tập giá trị (thường là cả tài liệu) iii Nhập dữ liệu ngoài DNEI

Cũng giống như nhập dữ liệu trong DNEI NHƯNG có nhiều kiểm soát đối với việc nhập dữ liệu hơn đặc biệt là các siêu dữ liệu (Xuất xứ, Phiên bản, …) có thể được điền 1 cách mặc định bởi hệ thống và người dùng không được phép cập nhật chúng. Sau khi dữ liệu được nhập, người dùng có thể nhập siêu dữ liệu tham khảo bao gồm

- Nhận xét về 1 giá trị cụ thể

- Nhận xét về 1 tập giá trị (thường là cả tài liệu)

Xuất dữ liệu

Hệ thống luôn chỉ nhận giá trị của các chỉ tiêu Chính thức Thông qua đặc quyền người dùng hệ thống có thể nhận giá trị của các chỉ tiêu Nội bộ. Ứng dụng Client và ứng dụng web

Hệ thống phải cung cấp công cụ để:

- Tạo biểu mẫu dùng để thu thập dữ liệu (không mang giá trị dữ liệu)

- Trích xuất dữ liệu sử dụng Trình bày biểu mẫu

- Trích xuất dữ liệu dựa theo đặc tả người dùng (Truy vấn)

Với lựa chọn này hệ thống phải cho phép người dùng

- Chọn các chỉ tiêu (chọn hàng) bằng cách truy cập danh sách chỉ tiêu và lựa chọn từng chỉ tiêu một và/hoặc chọn 1 nhóm được xác định sẵn (bởi DNEI).

- Xác định thông tin tiêu đề: Xuất xứ, phiên bản và/hoặc Tỉnh/Khu vực Nhiều tiêu chí đặc tả khác nhau có thể được chọn cho mỗi chỉ tiêu trên Đối với nhiều tiêu chí DP sẽ được sử dụng và “hoặc” sẽ được xem xét trong mỗi chiều và “và” sẽ được xem xét giữa các chiều.

- Xác định giai đoạn và loại dữ liệu (Implementation, Estimation, Plan) Hai chiều trên phải luôn luôn được coi là 1 thực thể nhưng có thể cho phép xác định nhiều giá trị

- Nhận giá trị dữ liệu Hệ thống luôn chỉ nhận giá trị của các chỉ tiêu Chính thức Thông qua đặc quyền người dùng hệ thống có thể nhận giá trị của các chỉ tiêu Nội bộ.

- Lựa chọn trình bày mong muốn Có 2 lựa chọn: o Trình bày kiểu biểu mẫu (TP) o Trình bày kiểu tập dữ liệu (DP)

Hình 5.5: Giao diện trình bày kiểu biểu mẫu

Hình 5.6: Giao diện trình bày kiểu tập dữ liệu

Các cột được liệt kê thường được coi là tham số khi tạo kết xuất đầu ra Hệ thống phải có khả năng định nghĩa nhiều trình bày cột mặc định có thể được sử dụng trong quá trình này Hế thống phải có khả năng hiển thị kết quả trên màn hình nếu được yêu cầu.

Với hầu hết quá trình kết xuất dữ liệu đầu ra, người dùng phải có quyền chọn giữa

- Tạo 1 báo cáo (in ra giấy)

- Trích xuất theo định dạng XML để có thể được tích hợp với cổng điện tửMPI

Người dùng còn có thể in, tải hoặc nhận các báo cáo định sẵn (PDF) hoặc các file (Excel) được chuẩn bị bởi DNEI và được đăng ký với CSDL Người dùng sẽ chọn chúng từ 1 danh sách

Nhà thầu cần phát triển 1 porlet tích hợp với cổng điện tử MPI Porlet này sẽ được kết nối đến CSDL DAEI và CMR

Porlet cần chứa 2 lựa chọn

- Truy vấn đơn giản: người dùng chọn 1 trong các tham số sau o Indicator code o Period o Type (I,M,P) o Province/Area (nếu cần) o Origin

- Truy vấn phức tạp: tham khảo phần trên (Ứng dụng Client và Web) để có được hình dung về tính năng này với 2 ngoại lệ sau: o Truy vấn chỉ giới hạn trong các chỉ tiêu công khai o Trình diễn kiểu tập dữ liệu cho đầu ra không thể được tham số hóa

Cổng điện tử còn liệt kê 1 danh sách các báo cáo định nghĩa sẵn được chuẩn bị bởiDNEI và được phân phát đến Vụ IT theo định dạng XML Tính năng này là của cổng điện tử và không nên được phát triển bởi nhà thầu.

Ngày đăng: 27/06/2023, 21:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w