1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kho dữ liệu và ứng dụng xây dựng hệ thống dữ liệu trợ giúp quyết định về chính sách tiền tệ quốc gia

105 1,2K 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 105
Dung lượng 2,87 MB

Nội dung

Trên thực tế, Ngân hàng Nhà nước đã tổ chức được các hệ thống cơ sở dữ liệu rất lớn gồm các báo cáo thường xuyên từ các ngân hàng và các tổ chức tài chính với số lượng trung bình từ 10-2

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ KIM OANH

KHO DỮ LIỆU VÀ ỨNG DỤNG XÂY DỰNG

HỆ THỐNG DỮ LIỆU TRỢ GIÚP QUYẾT ĐỊNH VỀ CHÍNH SÁCH TIỀN TỆ QUỐC GIA

LUẬN VĂN THẠC SĨ

HÀ NỘI - 2009

Trang 2

MỤC LỤC

MỞ ĐẦU 1

Chương I KHÁI NIỆM VỀ KHO DỮ LIỆU 4

1.1 Khái niệm về kho dữ liệu 4 1.1.1 Định nghĩa 4

1.1.2 Các tính chất của Data Warehouse 6

1.1.2.1 Hướng chủ đề 6

1.1.2.2 Tính ổn định 6

1.1.2.3 Được tích hợp 7

1.1.2.4 Gắn với thời gian 7

1.1.3 Cơ sở dữ liệu tác nghiệp và kho dữ liệu 7

1.2 Kiến trúc thành phần của Data Warehouse 8 1.2.1 Các loại kiến trúc của Data Warehouse 8

1.2.2 Các thành phần cơ bản của kiến trúc Data Warehouse 10

1.2.3 Các lược đồ dữ liệu của Data Warehouse 11

1.2.3.1 Lược đồ hình sao 11

1.2.3.2 Lược đồ bông tuyết 13

1.3 Các mô hình thiết kế cơ sở dữ liệu 14 1.3.1 Mô hình dữ liệu lôgíc 14

1.3.2 Mô hình dữ liệu vật lý 15

1.4 Kho dữ liệu chuyên đề 16 1.4.1 Khái niệm kho dữ liệu chuyên đề 17

1.4.2 Sự khác nhau giữa Data Warehouse và Data Mart 17

1.4.3 Các dạng cơ bản của Data Mart 17

Chương II CÔNG CỤ ORACLE TRỢ GIÚP PHÁT TRIỂN DATA WAREHOUSE VÀ DATAMART 20

2.1 Kiến trúc của Warehouse Builder 20 2.1.1 Môi trường thiết kế 20

2.1.2 Môi trường vận hành 22

2.2 Các chức năng chính của Warehouse Builder 22 2.3 Các thành phần của Warehouse Builder 22 2.3.1 Ứng dụng phía khách của Warehouse Builder Client Application 22

2.3.2 Dịch vụ nền vận hành Warehouse Builder 23

2.3.3 Kho lưu trữ thiết kế của Warehouse Builder 23

2.3.4 Kho lưu trữ vận hành của Warehouse Builder 23

2.3.5 Trình duyệt báo cáo kiểm toán 23

2.3.6 Trình duyệt báo cáo siêu dữ liệu 24 2.4 Các đối tượng của Warehouse Builder 24

Trang 3

2.5 Các bước sử dụng Warehouse Builder 25

2.5.1 Định nghĩa các đối tượng nguồn và đích 25

2.5.2 Định nghĩa các đối tượng để trích lọc, chuyển đổi và tải dữ liệu 25

2.5.3 Thẩm định và sinh mã 25

2.5.4 Triển khai và thực thi 25

2.6 Những ưu điểm nổi bật khi sử dụng Warehouse Builder 25 2.6.1 Nắm bắt các thay đổi của dữ liệu 26

2.6.2 Các bảng ngoại, hàm bảng, cơ chế đường ống và lệnh MERGE 26

2.6.3 Khung nhìn làm tư liệu làm tươi nhanh dữ liệu 27

Chương III ỨNG DỤNG DATA WAREHOUSE XÂY DỰNG HỆ THỐNG BÁO CÁO THỐNG KÊ CHO NGÂN HÀNG NHÀ NƯỚC 28

3.1 Mô hình nghiệp vụ của hệ thống Báo cáo thống kê NHNN 28 3.1.1 Sơ đồ luồng thông tin của hệ thống Báo cáo thống kê 28

3.1.2 Hệ thống các chỉ tiêu của Báo cáo thống kê 29

3.1.3 Hệ thống các tài khoản kế toán 31

3.1.4 Nội dung của báo cáo thống kê 32

3.1.5 Nội dung của báo cáo Tài chính 36

3.1.6 Hoạt động nghiệp vụ của một số đơn vị của NHNN 39

3.1.7 Yêu cầu nghiệp vụ của hệ thống khai thác báo cáo 40

3.1.7.1 Yêu cầu cụ thể của hệ thống báo cáo 41

3.1.7.2 Các loại báo cáo cần phát triển 41

3.2 Xây dựng kho dữ liệu Data Warehouse phục vụ cho việc khai thác báo cáo 43 3.2.1 Xây dựng cơ sở dữ liệu theo chuẩn Data Warehouse 43

3.2.1.1 Kiến trúc của Data Warehouse Báo cáo thống kê 43

3.2.1.2 Kết cấu của Data Warehouse Báo cáo thống kê 45

3.2.1.3 Các bước cài đặt vật lý data warehouse 50

3.2.2 Xây dựng qui trình tích hợp dữ liệu cho Data Warehouse 51

3.2.2.1 Xây dựng giải pháp tích hợp dữ liệu vào kho dữ liệu Báo cáo thống kê 51

3.2.2.2 Các bước thực hiện quá trình tích hợp dữ liệu 56

Chương IV TỔ CHỨC KHAI THÁC BÁO CÁO VỚI KHO DỮ LIỆU 65

4.1 Giải pháp xây dựng hệ thống khai thác báo cáo 65 4.2 Chiến lược xây dựng hệ thống báo cáo 66 4.3 Các bước xây dựng báo cáo 70 4.4 Mô hình khai thác báo cáo 70 4.5 Cài đặt hệ thống 71 KẾT LUẬN 73

TÀI LIỆU THAM KHẢO 74

PHỤ LỤC

Trang 4

BẢNG CÁC CHỮ VIẾT TẮT

BCTK Báo cáo thống kê

BO Bussiness Object CNTH Công nghệ tin học CSDL Cơ sở dữ liệu (database) DBA Quản trị Database

DM Data Mart DWH Data Warehouse EDW Enterprise Data Warehouse ETL Extraction-Transformation-Load ETT Extraction-Transformation-Transportation NHNN Ngân hàng Nhà nước Việt nam

NHTW Ngân hàng Trung ương ODS Operational Data Store OLAP Online Analytical Processing OLTP Online Transaction Processing TCTD Tổ chức tín dụng

Trang 5

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU

Hình 1.1 Tính ổn định của dữ liệu trong Data Warehouse 6

Hình 1.2 Kiến trúc đơn giản của DW 9

Hình 1.3 Kiến trúc của DW với vùng gắn nhãn (Staging area) 9

Hình 1.4 Kiến trúc của DW với vùng gắn nhãn và các DM 10

Hình 1.5 Lược đồ hình sao của DW 12

Hình 1.6 Lược đồ bông tuyết của DW 13

Hình 1.7 Kho dữ liệu chuyên đề phụ thuộc 18

Hình 1.8 Kho dữ liệu chuyên đề độc lập 18

Hình 2.1 Sơ đồ phát triển hệ thống theo Warehouse Builder 21

Hình 2.2 Các đối tượng của Warehouse Builder 24

Hình 3.1 Sơ đồ mô tả luồng thông tin báo cáo trong hệ thống NHNN 29

Hình 3.2 Kiến trúc DWH BCTK 44

Hình 3.3 Sơ đồ tổng quát quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 52

Hình 3.4 Sơ đồ chi tiết quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 57

Hình 3.5 Các bước của quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 58

Hình 3.6 Quá trình tải dữ liệu từ nguồn vào Staging 60

Hình 3.7 Quá trình tải dữ liệu từ Staging vào bảng T_ATOMIC_DATA 61

Hình 3.8 Quá trình tải dữ liệu từ bảng T_ATOMIC_DATA sang các bảng fact 62

Hình 3.9 Quá trình cập nhật dữ liệu cho các bảng dimension 63

Hình 4.1 Môi trường tổ chức khai thác báo cáo của BO 65

Hình 4.2 Kiến trúc của BO với tầng ngữ nghĩa 66

Hình 4.3 Các thành phần của BO Repository 70

Hình 4.4 Mô hình khai thác báo cáo 71

Trang 6

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong điều kiện của cơ chế thị trường, chính sách tiền tệ và điều hành vĩ

mô về tài chính và tiền tệ có một ý nghĩa quyết định đến sự phát triển kinh tế của đất nước một cách ổn định và lành mạnh Trong những năm gần đây, số ngân hàng trong nước tăng lên rất nhanh Thêm vào đó còn có sự tham gia của các ngân hàng 100% vốn nước ngoài Số vốn của các ngân hàng có quy mô ngày một lớn, các dịch vụ mà ngân hàng cung cấp ngày càng phong phú Khối lượng thông tin mà Ngân hàng Nhà nước quản lý ngày một nhiều: nó tăng theo số lượng các ngân hàng hoạt động cũng như quy mô vốn của các ngân hàng cùng các dịch vụ mà chúng cung cấp Trên thực tế, Ngân hàng Nhà nước đã tổ chức được các hệ thống cơ sở dữ liệu rất lớn gồm các báo cáo thường xuyên từ các ngân hàng và các tổ chức tài chính với số lượng trung bình từ 10-20 nghìn chỉ tiêu/ngày, đặc biệt vào các ngày cuối tháng số lượng này lên tới hàng trăm nghìn chỉ tiêu Cục Công nghệ tin học của Ngân hàng Nhà nước là đơn vị có nhiệm vụ thu thập và tổng hợp báo cáo Cục được trang bị một hệ thống mạng máy tính rất mạnh và đang sử dụng hệ quản trị cơ sở dữ liệu Oracle để quản lý và khai thác các dữ liệu này Tuy nhiên, việc khai thác báo cáo trên cơ sở dữ liệu tác nghiệp này có một số nhược điểm như không hỗ trợ được các báo cáo đột xuất theo yêu cầu; chưa tổng hợp được số liệu theo nhiều chiều, dưới nhiều dạng báo cáo khác nhau như biểu đồ, đồ thị,…; chưa tổng hợp được dữ liệu từ nhiều hệ thống nghiệp vụ khác nhau; việc khai thác báo cáo phải thực hiện trên máy tính có cài đặt chương trình Do vậy, một yêu cầu cấp bách đặt ra là: làm sao có được một kho dữ liệu tập trung với số liệu đầy đủ, tổng hợp và chính xác của toàn ngành ngân hàng một cách nhanh nhất để phục vụ việc điều hành vĩ mô của nhà nước

về tiền tệ một cách hiệu quả Vì thế đề tài “Kho dữ liệu và ứng dụng xây dựng

hệ thống dữ liệu trợ giúp quyết định về chính sách tiền tệ quốc gia” được chọn làm đề tài luận văn tốt nghiệp của tôi

2 Mục tiêu của đề tài

Vận dụng những cơ sở lý thuyết về Data Warehouse để xây dựng hệ thống

dữ liệu Báo cáo thống kê tập trung tại Ngân hàng Nhà nước phục vụ cho việc trợ giúp ra quyết định về chính sách tiền tệ quốc gia

3 Đối tượng và phạm vi nghiên cứu

Đối tượng:

Trang 7

− Bộ mã chỉ tiêu báo cáo thống kê do Ngân hàng Nhà nước ban hành

− Hệ thống tài khoản kế toán của Ngân hàng Nhà nước

− Hệ thống thu thập thông tin Báo cáo thống kê, Báo cáo tài chính Phạm vi:

Đề tài này có quy mô rất lớn, do vậy luận văn chỉ tập trung vào nghiên cứu việc thiết kế kho dữ liệu Báo cáo thống kê trên hai nguồn dữ liệu chính là cơ sở liệu tác nghiệp Báo cáo thống kê và Báo cáo tài chính, đưa giải pháp tích hợp dữ liệu đối với dữ liệu báo cáo theo mã chỉ tiêu đã qui định và tổ chức triển khai việc khai thác báo cáo trên một số Vụ, Cục của Ngân hàng Trung ương Trong

đó, tận dụng tối đa các công cụ sẵn có của Oracle cũng như những cơ sở công nghệ thông tin hiện có của Ngân hàng Nhà nước để tổ chức vận hành, khai thác kho dữ liệu này

4 Nhiệm vụ nghiên cứu

− Nghiên cứu lý thuyết về Data Warehouse

− Thiết kế một kho dữ liệu Báo cáo thống kê theo kiến trúc của Data Warehouse

− Tổ chức, khai thác thông tin từ kho dữ liệu Báo cáo thống kê

5 Phương pháp nghiên cứu

Nghiên cứu thực tiễn: nghiên cứu các yêu cầu của người sử dụng tại các

Vụ, Cục Ngân hàng Trung ương về nhu cầu sử dụng thông tin báo cáo thống kê Phương pháp nghiên cứu lý thuyết: nghiên cứu các tài liệu về Data Warehouse

Phương pháp tiếp cận hệ thống: đối tượng nghiên cứu có quan hệ chặt chẽ với các hệ thống thông tin khác đã có sẵn

6 Kết cấu luận văn

Nội dung chính của luận văn gồm 4 chương:

Chương 1: Những khái niệm cơ bản về kho dữ liệu và kho dữ liệu chuyên

đề

Chương 2: Các công cụ của Oracle trợ giúp việc phát triển Data Warehouse

Trang 8

Chương 3: Ứng dụng Data Warehouse xây dựng hệ thống Báo cáo thống kê cho Ngân hàng Nhà nước

Chương 4: Tổ chức khai thác báo cáo với kho dữ liệu

Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài

Trang 9

Chương I KHÁI NIỆM VỀ KHO DỮ LIỆU

Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan trọng cần được quản lý và khai thác hiệu quả Hơn bao giờ hết, tất cả các tổ chức kinh doanh trên thế giới đều tập trung phát triển hệ thống thông tin như một nguồn lực chủ chốt trong việc tạo ra ưu thế cạnh tranh cũng như tăng khả năng đáp ứng đối với thị trường biến động không ngừng Chính vì vậy, yêu cầu về một phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý thông tin nhanh đã dẫn đến sự ra đời của kho dữ liệu

Những dự án đầu tiên về kho dữ liệu được xây dựng từ những năm

1984-1988 Cho đến những năm 1994, ở các nước phát triển, các dự án xây dựng kho

dữ liệu phát triển mạnh mẽ Lúc đầu, các dự án này chỉ được phát triển ở những

tổ chức lớn Cùng với nhu cầu phát triển của kho dữ liệu, nhiều công cụ trợ giúp cho việc phát triển kho dữ liệu cũng ra đời và không ngừng hoàn thiện: Nhiều hệ quản trị cơ sở dữ liệu (CSDL) được bổ sung thêm các công nghệ và công cụ cho việc phát triển và khai thác kho dữ liệu Trong số các hãng phát triển hệ quản trị CSDL truyền thống như Oracle, DB2, Microsoft SQL server,…Oracle là hãng hàng đầu thế giới trong lĩnh vực hệ quản trị CSDL có công nghệ xây dựng kho

dữ liệu tiên tiến (theo báo cáo của Gartner về thị phần của các hệ quản trị CSDL, Oracle chiếm tới 47,1% thị phần năm 2006) Đặc biệt Oracle 11g có rất nhiều tính năng tiên tiến cho việc xây dựng và khai thác các CSDL lớn như: khả năng nén và phân vùng dữ liệu hiệu quả, tự động hóa nhiều hoạt động phân vùng và

mở rộng các phương pháp phân vùng khác nhau, hoàn thiện các bộ công cụ phân vùng, nén và xử lý cả dữ liệu có cấu trúc và phi cấu trúc, … [16]

1.1 Khái niệm về kho dữ liệu

1.1.1 Định nghĩa

Kho dữ liệu (Data Warehouse – DWH) không phải là một khái niệm mới

và đã được định nghĩa theo rất nhiều cách khác nhau, vì vậy khó có thể định nghĩa chuẩn xác được Theo một nghĩa nào đó thì kho dữ liệu được xem như là một CSDL lớn tập trung dữ liệu từ nhiều nguồn trong doanh nghiệp Việc sử dụng DWH sẽ tạo ra một sự đồng nhất về thông tin doanh nghiệp và từ kho dữ liệu này doanh nghiệp có thể nhận được các chỉ tiêu phân tích hay dùng các công cụ hỗ trợ để theo dõi các chỉ tiêu cần quan tâm Vì thế, kho dữ liệu có thể được xem là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho

Trang 10

người dùng những thông tin khó có thể truy nhập hoặc biểu diễn trong cơ sở dữ liệu (CSDL) tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại [1] Bill Inmon, người được xem là kiến trúc sư

đầu tiên xây dựng kho dữ liệu đã định nghĩa: “Kho dữ liệu là tập hợp dữ liệu

hướng chủ đề, được tích hợp, gắn với thời gian và ổn định được thiết kế cho việc hỗ trợ quá trình ra quyết định của người quản lý”[10]

Về bản chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ

để phát triển dữ liệu của các hệ thống hỗ trợ quyết định Dữ liệu phát sinh từ trong các hoạt động hàng ngày và được thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp Các hoạt động thu thập xử lý dữ liệu tác nghiệp được gọi là xử lý giao dịch trực tuyến (Online Transaction Processing - OLTP) Trái lại, kho dữ liệu phục vụ cho việc phân tích các kết quả mang thông tin mức cao Các hệ thống thông tin thu thập xử lý dữ liệu loại này được gọi là xử lý phân tích trực tuyến (Online Analytical Processing - OLAP) Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte Nó được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống

đã có sẵn từ trước DWH là một kho dữ liệu quan hệ đa chiều được thiết kế cho việc truy vấn dữ liệu và phân tích hơn là cho việc xử lý giao dịch Một DWH thường chứa dữ liệu lịch sử mong muốn từ dữ liệu giao dịch Nó phân tích riêng

rẽ khối dữ liệu từ dữ liệu giao dịch và cho phép lấy dữ liệu từ nhiều nguồn

Có ba kiểu kho dữ liệu thường gặp:

− Kho dữ liệu doanh nghiệp (Enterprise Data Warehouse - EDW): kho

dữ liệu loại này cung cấp một tập dữ liệu trung tâm được tổ chức hỗ trợ cho việc ra quyết định của cả công ty (xí nghiệp)

Kho dữ liệu tác nghiệp (Operational Data Store - ODS): kho dữ liệu

loại này dùng cho các công ty có phạm vi rộng, nhưng nó không giống với kho dữ liệu doanh nghiệp Ở đây dữ liệu được làm tươi ngay tức thì và được sử dụng cho những hoạt động thường nhật Theo định nghĩa của Inmon, ODS khác EDW ở chỗ, nó bị giới hạn về tính lịch

sử của dữ liệu và được cập nhật dữ liệu thường xuyên hơn

Kho dữ liệu chuyên đề (Data Mart - DM): kho dữ liệu chuyên đề là

một DWH cỡ nhỏ và nó hỗ trợ cho những nghiệp vụ chuyên biệt hoặc cho những chức năng nghiệp vụ cụ thể

Trang 11

Trong ba loại kho dữ liệu trên, thì ODS là sự nâng cấp từ CSDL vốn tồn tại

trong doanh nghiệp nếu doanh nghiệp có tổ chức các CSDL phục vụ cho hoạt động của mình DWH và DM cần được phát triển dựa trên việc mô hình hoá dữ

liệu theo các chiều, trong đó các bảng sự kiện (Fact table) được kết nối với các

bảng chiều (Dimension table) Mục tiêu của việc xây dựng các kho dữ liệu này

là nhằm phục vụ cho các hoạt động nghiệp vụ ở mức cao hơn với hiệu quả cao

1.1.2 Các tính chất của Data Warehouse

Một kho dữ liệu được xác định là một CSDL trong đó có chứa bốn đặc tính

sau: hướng chủ đề, tính ổn định, được tích hợp, gắn với thời gian

vụ các giao dịch đó Trong khi đó, dữ liệu lưu trữ trong kho dữ liệu được dùng

để phục vụ mục đích phân tích và hỗ trợ quyết định Đây là một trong những chức năng phức tạp

1.1.2.2 Tính ổn định

Hình 1.1 Tính ổn định của dữ liệu trong Data Warehouse

Dữ liệu trong kho dữ liệu là dữ liệu hướng chủ đề, không được hiệu chỉnh, sửa đổi mà nó chỉ nhằm mục đích phục vụ truy vấn thông tin Nhờ yếu tố này

mà tốc độ tổng hợp dữ liệu tăng lên một cách đáng kể Hơn nữa kết quả trả lại khi thực hiện công việc phân tích trong những thời gian gần nhau thì hầu như là giống nhau

kho dữ liệu

Hệ tác nghiệp

Thêm Sửa Xóa

trích lọc, chuyển đổi và nạp

dữ liệu

Truy vấn

Trang 12

1.1.2.3 Được tích hợp

Một kho dữ liệu được xây dựng bằng việc tích hợp nhiều nguồn dữ liệu, lưu trữ trong một cấu trúc đồng nhất, toàn vẹn Ví dụ như là dữ liệu về ngày tháng phải luôn được chứa ở cùng một dạng chuẩn Tích hợp dữ liệu là một vấn

đề luôn được đặt ra của hầu hết các cách tổ chức, đặc biệt là việc tích hợp dữ liệu đòi hỏi phải sử dụng đến nhiều công nghệ chuyên dụng đang được biết đến

Sự khác biệt là ở các quy tắc cơ bản ví dụ như là tập ký tự Hệ ký tự được dùng chủ yếu trong các hệ thống là ASCII (American Standard Code for Informaiton Interchange) Tuy nhiên có một số hệ thống không dùng hệ ký tự này Ngoài ra còn có một số nguyên nhân không dễ thấy được như là trong cùng một kiểu dữ liệu nhưng với các hệ quản trị CSDL khác nhau là khác nhau Vì vậy, việc truy nhập theo các phương thức tuần tự là không hiệu quả Hơn nữa, trước khi dữ liệu được đưa vào kho dữ liệu thì nó phải được tích hợp Sự tích hợp này là một tiến trình xuyên suốt trong thời gian khi dữ liệu được chuyển vào kho dữ liệu và sau khi nó được đưa vào CSDL ứng dụng và trước khi được đưa vào CSDL của kho dữ liệu

1.1.2.4 Gắn với thời gian

Đối với kho dữ liệu, yếu tố thời gian được gắn liền với các dữ liệu Điều này nghĩa là dữ liệu được ghi lại theo thời gian lưu trữ các dữ liệu Tuy nhiên, hầu hết các truy vấn đều được xử lý ngược lại với việc có một vài thuộc tính về thời gian được lưu trữ trong kho dữ liệu Chúng ta đã xác định rằng, hầu hết các

hệ tác nghiệp đều không chứa các thông tin về lịch sử của nó Sẽ không thể đoán trước được chuyện gì sẽ xảy ra trong tương lai nếu chúng ta không quan sát được chuyện gì đã xảy ra trong quá khứ Một kho dữ liệu sẽ giúp chúng ta lấy ra các thông tin cơ bản này bằng cách thêm trường lịch sử thời gian vào dữ liệu được lấy từ hệ tác nghiệp Như vậy, đối với một doanh nghiệp thì bản thân DWH là một “ảnh chụp nhanh” trạng thái của doanh nghiệp tại các thời điểm khác nhau Nó hỗ trợ việc định ra phương hướng và công tác dự báo cho tương lai Vì thế thuộc tính thời gian được ngầm hiểu trong DWH như là một thuộc tính bắt buộc Thời gian đóng vai trò như một phần để đảm bảo tính đơn nhất của các bản ghi và cung cấp đặc trưng về thời gian cho dữ liệu

1.1.3 Cơ sở dữ liệu tác nghiệp và kho dữ liệu

Thông thường, khi tin học hóa hoạt động quản lý một tổ chức, người ta thường xây dựng CSDL cho các hoạt động quản lý nghiệp vụ thường xuyên của

Trang 13

tổ chức và ta có được CSDL tác nghiêp Hệ thống thông tin tác nghiệp với các

dữ liệu tác nghiệp có các đặc điểm sau:

− Trợ giúp công việc hàng ngày

− Chứa các dữ liệu hiện thời, phản ánh trạng thái của công việc

− Hoạt động của hệ thống thường đơn giản, giới hạn trong một phạm vi nghiệp vụ đã xác định, và hoạt động chính yếu là cập nhật dữ liệu

− Xử lý thông tin hướng đến việc xử lý nhanh các tác vụ đã được định trước

− Người dùng là người làm công việc cụ thể, ở mức độ chi tiết như nhân viên bán hàng, thư ký, thủ kho,…

− Thiết kế thường khó hiểu (các bảng dữ liệu phải đạt chuẩn 3 trở lên) đối với người dùng và che dấu đi những quan hệ trực quan của đời thường

Trong khi đó kho dữ liệu hướng vào trợ giúp quá trình phân tích và ra quyết định cần có các tính chất sau:

− Trợ giúp quá trình quản lý và điều hành công việc

− Chứa các dữ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của công việc trong một giai đoạn hay những thời điểm trong quá khứ

− Được tối ưu hóa cho việc truy vấn, với câu hỏi đã xác định trước hay được thiết lập theo yêu cầu người dùng

− Người dùng là những nhà quản lý, phân tích, dự báo hay đánh giá công việc và ra quyết định, các yêu cầu thường đa dạng và có tính nghiệp vụ chuyên ngành

− Dữ liệu được thiết kế dễ hiểu và dễ sử dụng đối với người dùng

1.2 Kiến trúc thành phần của Data Warehouse

1.2.1 Các loại kiến trúc của Data Warehouse

Có một số loại kiến trúc của DWH thường gặp:

Hình 1.2 chỉ ra một kiến trúc đơn giản của DWH Người sử dụng truy cập

trực tiếp vào dữ liệu được dẫn xuất từ nhiều nguồn dữ liệu thông qua DWH

Trang 14

Hình 1.2 Kiến trúc đơn giản của DWH

Kiến trúc kho dữ liệu với vùng dữ liệu gắn nhãn được biểu diễn như hình

1.3 Ở đây siêu dữ liệu và các dữ liệu chưa chế biến của hệ thống OLTP hiện tại được đưa vào cùng dữ liệu tổng hợp Các dữ liệu tổng hợp rất có giá trị trong DWH vì nó được tính trước trong quá trình nạp dữ liệu vào DWH nên thuận tiện cho việc truy xuất dữ liệu cho người dùng Như vậy, để có được các dữ liệu trong DWH cần có một quá trình làm sạch và những thao tác chế biến dữ liệu trước khi đẩy dữ liệu vào DWH

Hình 1.3 Kiến trúc của DWH với vùng gắn nhãn (Staging area)

Trang 15

Chúng ta có thể thực hiện quá trình này bằng cách sử dụng một chương trình tự động hoặc sử dụng vùng gắn nhãn thay thế Vùng này làm đơn giản việc xây dụng các bảng tổng hợp và quản lý DWH

Loại kiến trúc phức tạp hơn cả là kiến trúc kho dữ liệu với vùng gắn nhãn

và các kho chuyên đề (Staging Area and Data marts) Kho dữ liệu loại này được

biểu diễn như ở hình 1.4

Hình 1.4 Kiến trúc của DWH với vùng gắn nhãn và các DM

Kiến trúc loại này tương tự loại ở trên nhưng thêm một thành phần nữa là các kho dữ liệu chuyên đề Nhờ vậy, nó có thể đáp ứng được thêm các yêu cầu liên quan đến các nghiệp vụ cụ thể, chuyên biệt

1.2.2 Các thành phần cơ bản của kiến trúc Data Warehouse

Kiến trúc tổng quát của kho dữ liệu bao gồm các thành phần [1,12,13] sau:

 Các dữ liệu nguồn: là đầu vào cho kho dữ liệu

Dữ liệu nguồn trong trường hợp điển hình bao gồm nhiều loại khác nhau:

Các dữ liệu từ các hệ thống tác nghiệp: các dữ liệu chi tiết nhận

được từ các hoạt động nghiệp vụ hàng ngày

Các dữ liệu kế thừa: các dữ liệu cũ không dùng cho hoạt động hàng

ngày, các phương pháp tổ chức dữ liệu khác với mô hình hiện hành, các dữ liệu được mã hóa khi đã qua sử dụng và các thông tin đầy đủ

về cấu trúc và ngữ nghĩa của dữ liệu kế thừa

Trang 16

Các dữ liệu bên trong khác

vụ thu thập, chuẩn hóa, làm sạch, chắt lọc, tích hợp dữ liệu và nạp vào kho dữ liệu

Kho dữ liệu: là nơi lưu trữ các loại dữ liệu Nó gồm ba khối lớn: các dữ liệu thô, các dữ liệu tổng hợp và siêu dữ liệu Các chức năng chính của

siêu dữ liệu bao gồm:

 Định nghĩa các dữ liệu lưu trữ trong kho

 Mô tả các báo cáo và các truy vấn

 Mô tả các quy định sao chép, cập nhật và nạp dữ liệu

 Mô tả cách truy nhập dữ liệu

 Các kho dữ liệu chuyên đề lưu các dữ liệu về một lĩnh vực, một chuyên ngành

Các công cụ truy vấn giúp tạo báo cáo, phân tích trực tiếp và khai phá

dữ liệu

Hệ quản trị kho dữ liệu Nó có chức năng nạp vào, nạp lại dữ liệu, trích

lọc dữ liệu, đảm bảo an toàn truy nhập, sao lưu và phục hồi dữ liệu

Hệ thống phân phối thông tin bao gồm hai lớp:

Lớp chuyển tải dữ liệu giữa các thành phần của kho và các bộ phận

liên quan

xác định các phần mềm ứng dụng cho người dùng, cho việc sao chép, cập nhật, kết nối, tổng hợp dữ liệu, cung cấp các dịch vụ quản

lý các khối dữ liệu, và các xử lý yêu cầu

1.2.3 Các lược đồ dữ liệu của Data Warehouse [10,11]

Khi phát triển một kho dữ liệu thường sử dụng hai lược đồ để tổ chức lưu

trữ dữ liệu, đó là lược đồ hình sao (start Flake) và lược đồ bông tuyết (Snow

Flake)

1.2.3.1 Lược đồ hình sao

Lược đồ hình sao là lược đồ dữ liệu quan hệ diễn tả dữ liệu nhiều chiều Nó

là dạng lược đồ đơn giản nhất của DWH chứa một hoặc nhiều chiều và một

Trang 17

bảng sự kiện Nó được gọi là lược đồ hình sao vì sơ đồ quan hệ thực thể giữa các bảng chiều và bảng sự kiện giống như hình sao mà trong đó bảng sự kiện được kết nối với nhiều bảng chiều Trung tâm của lược đồ hình sao bao gồm một bảng sự kiện lớn và nối đến các bảng chiều (hình 1.5) Lợi ích của lược đồ hình sao là sự tách được các dữ liệu thành các lớp nhỏ theo các bảng chiều, tăng tốc độ của việc trình diễn dữ liệu và dễ dàng hiểu được về dữ liệu

Hình 1.5 Lược đồ hình sao của DWH

a Các thành phần của lược đồ hình sao

Lược đồ hình sao có 3 thành phần chính:

Bảng sự kiện và nội dung của nó: Những thuộc tính và các khóa ngoài

cần thiết để liên kết các bảng chiều

Các bảng chiều và nội dung của nó: các thuộc tính và các thuộc tính

tham chiếu Các bảng chiều đã được chuẩn hóa

Các đường kết nối bảng chiều với bảng sự kiện

b Các bước thiết kế một lược đồ hình sao

Để thiết kế mô hình lôgic của lược đồ hình sao cần tiến hành các bước sau:

− Xác định quá trình nghiệp vụ để phân tích yêu cầu (như nghiệp vụ bán hàng)

Các thuộc tính đo

TÊN BẢNG CHIỀU

Các thuộc tính mô tả Các thuộc tính phâncấp Các thuộc tính đo

Trang 18

− Xác định danh sách các cột cho mỗi bảng chiều (tên vùng, tên chi nhánh,…)

− Xác định mức thấp nhất tổng hợp các mức cao trong bảng sự kiện

1.2.3.2 Lược đồ bông tuyết

Lược đồ bông tuyết là một cải tiến của lược đồ hình sao, trong đó một số

chiều được phân cấp để thể hiện rõ ràng dạng chuẩn của bảng chiều Điều này dẫn đến nhiều lợi ích trong việc duy trì các bảng chiều Tuy nhiên, cấu trúc phi chuẩn của các bảng chiều trong lược đồ hình sao có thể thích hợp hơn cho việc duyệt các chiều Trong lược đồ bông tuyết (hình 1.6), các bảng chiều được chuẩn hóa Trong một vài trường hợp, lược đồ này cải thiện việc truy xuất dữ liệu vì các bảng nhỏ hơn được liên kết với nhau nên dễ bảo trì, tăng tính mềm dẻo Tuy nhiên, lúc này số lượng bảng sử dụng đã bị tăng lên, việc thực hiện những câu truy vấn khó khăn hơn nhiều vì có nhiều bảng cần liên kết với nhau Lược đồ bông tuyết gồm 4 thành phần chính:

Bảng sự kiện và nội dung của nó: Những thuộc tính và các khóa ngoài

cần thiết để liên kết các bảng chiều

Các bảng chiều và nội dung của nó: các thuộc tính và các thuộc tính

tham chiếu, các bảng chiều đã được chuẩn hóa

Các đường kết nối bảng chiều với bảng sự kiện

Đường kết nối giữa các bảng chiều

Hình 1.6 Lược đồ bông tuyết của DWH

TÊN BẢNG SỰKIỆN

Khóa ngoại Khóa ngoại Khóa ngoại Các thuộc tính đo

Các thuộc tính đo

TÊN BẢNG CHIỀU

Các thuộc tính mô tả Các thuộc tính đo

Trang 19

1.3 Các mô hình thiết kế cơ sở dữ liệu

Tiến trình thiết kế CSDL bao gồm các công việc thiết kế theo tuần tự các

mô hình sau: mô hình quan niệm, mô hình lôgíc, mô hình vật lý Điểm xuất phát

là thiết kế mô hình quan niệm, việc này quyết định các lĩnh vực chủ đề nào được đưa vào và biểu diễn mô hình hóa dữ liệu lôgíc là bước tiếp theo để phát sinh ra các bảng, các cột phản ánh các chủ đề và quan hệ cần có trong cơ sở dữ liệu Đây là nền tảng của thiết kế CSDL của kho dữ liệu

1.3.1 Mô hình dữ liệu lôgíc

Thiết kế dữ liệu lôgíc là quá trình tìm hiểu những yêu cầu về dữ liệu của tổ chức, mô tả chúng dưới dạng các thực thể, các thuộc tính và các mối quan hệ Vì vậy việc thiết kế lôgíc phải đảm bảo sao cho dữ liệu có tính trừu tượng cao và không phụ thuộc vào phương pháp lưu trữ

Mô hình dữ liệu lôgíc cho phép người thiết kế có thể hình dung trước được các thành phần dữ liệu khác nhau trước khi nó được thực sự chiết lọc, làm sạch hay là chuyển dạng vì những lý do tăng cường hiệu năng, cho phép giảm bớt được sự dư thừa dữ liệu

Mục tiêu của thiết kế dữ liệu là vẫn tạo ra một cấu trúc dữ liệu đủ linh động

để có thể thích nghi được với những yêu cầu thay đổi sau này

Về cách thức và công cụ thiết kế dữ liệu lôgíc của DWH không có gì khác biệt so với thiết kế mô hình dữ liệu cho các hệ thống tác nghiệp thông thường Tuy nhiên, có một điều khác nhau cơ bản giữa việc xây dựng CSDL của DWH

và các CSDL cho các hệ tác nghiệp thông thường khác là sản phẩm được tạo ra khác nhau về mục đích sử dụng

Khi xây dựng mô hình dữ liệu lôgíc cho DWH thì người thiết kế phải cân nhắc các vấn đề cơ bản sau:

Phi chuẩn dữ liệu trong DWH: Thiết kế dữ liệu phi chuẩn thường

được bắt đầu từ mô hình dữ liệu chuẩn (thường là đạt chuẩn Codd), sau đó phá vỡ một số chuẩn để đạt được những mục đích do yêu cầu nghiệp vụ đặt ra

dữ liệu cần chính xác đến độ nào là một vấn đề quan trọng khi xây dựng DWH Trong số các chiều cần được xem xét thì chiều thời gian

là chiều đáng chú ý nhất Cần phải cân nhắc xem độ chi tiết của chiều thời gian là bao nhiêu: giờ, ngày, tuần, tháng hay năm Hơn nữa, cũng

Trang 20

cần phải tính đến hệ thống phân cấp trong các chiều Bởi vì trong DWH cây phân cấp chiều có thể là không hoàn thiện Chính vì vậy khi xây dựng DWH cần phải chú ý đến các việc như: sử dụng các chuẩn

đo, tránh sử dụng giá trị NULL, sử dụng lệnh trừu tượng thay cho các

mã lệnh khi trình bày với người dùng, tạo ra các bảng lưu các quy tắc biến đổi và hoán chuyển để người dùng có thể tìm thấy khi họ cần

Mô hình dữ liệu thường được dùng để thiết kế DWH là giản đồ hình sao

Ta đã biết rằng, giản đồ hình sao là sự kết hợp của bảng sự kiện và các bảng chiều Như vậy tổ chức dữ liệu vật lý trong hệ thống DWH được chia thành 2 phần cơ bản: Các sự kiện và các chiều

a Bảng sự kiện

Bảng sự kiện là một bảng CSDL quan hệ với các đặc điểm:

− Thường là bảng lớn nhất trong CSDL của kho, chứa tất cả các số liệu chi tiết trong kho dữ liệu

− Thông thường, các bảng sự kiện có khóa ngoài là các khóa chính của các bảng chiều Từ đó thì bảng sự kiện đòi hỏi một cột dữ liệu lưu trữ

dữ liệu mỗi sự kiện trong đó các sự kiện này lại có giá trị tham chiếu các thuộc tính của các bảng chiều và các giá trị chiều

− Số lượng bản ghi tăng lên nhanh chóng, mức độ tăng phụ thuộc vào lượng dữ liệu đưa vào kho để làm tươi và lượng dữ liệu đòi hỏi tính lịch sử

− Khóa chính gồm nhiều phần, mỗi phần tham chiếu đến một bảng chiều mà dữ liệu sự kiện có thể truy nhập Tất cả các giá trị khóa đều được đánh số

− Dữ liệu chuẩn hóa ở mức cao

b Bảng chiều

Trang 21

Bảng chiều là một bảng trong CSDL quan hệ có một phần khóa được kết nối với bảng sự kiện Các bảng chiều khác nhau kết hợp với bảng sự kiện để trả lời cho các câu hỏi về nghiệp vụ Bảng chiều mô tả các chủ đề nghiệp vụ với những đặc điểm chủ yếu sau:

− Chứa các dữ liệu có quan hệ tĩnh trong kho dữ liệu

− Lưu trữ các chiều thông tin thường sử dụng trong truy vấn

Dữ liệu chiều không thường xuyên được làm tươi như dữ liệu trong bảng

sự kiện nhưng chúng vẫn có thể thay đổi được Tuy nhiên, khi số lượng chiều tăng lên thì số lượng bản ghi trong CSDL tăng lên một cách đáng kể Lúc đó người dùng cuối tăng lên có thể sẽ có những sai sót nếu số chiều tăng lên đến 7 hay 8 chiều

Trong số tất cả các chiều có thể xây dựng bên trong mô hình dữ liệu thì thời gian là một chiều quan trọng trong kho dữ liệu Hầu như mọi kho dữ liệu đều có chiều thời gian Vì các sự kiện trong kho được xảy ra và lưu trữ theo thời gian thực, cho nên việc sử dụng chiều này cho phép người dùng có thể phân tích được các thời kỳ qua từng khoảng thời gian

Dữ liệu theo chiều là dữ liệu ở mức chi tiết nhất Sau đó được kết hợp lại thành mức cao hơn, có lợi cho việc phân tích Việc phân tích hay kết hợp trong một bảng chiều được gọi là sự phân cấp Phân cấp là một cấu trúc dữ liệu lôgíc được xây dựng nhằm mục đích sắp xếp dữ liệu và nó có thể được sử dụng để định nghĩa sự kết hợp dữ liệu

Khái niệm phân cấp là khái niệm đào sâu dữ liệu hay là phân rã một cấp lớn hơn thành các cấp nhỏ hơn Việc này cho phép người dùng có thể xem các mức chi tiết khác nhau của dữ liệu Đây là thế mạnh của DWH

Như vậy, trong các thiết kế phân cấp cần phải xem xét kỹ lưỡng các mối quan hệ trong các cấu trúc nghiệp vụ, và thường thì việc phân tích dữ liệu bắt đầu ở mức cao hơn trong phân cấp các chiều và dần dần phân cấp sâu hơn nếu tình huống cho phép

1.4 Kho dữ liệu chuyên đề

Kho dữ liệu chuyên đề (Data Mart – DM) là CSDL có những đặc điểm

giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành DM là kho dữ liệu hướng chủ đề

Trang 22

1.4.1 Khái niệm kho dữ liệu chuyên đề

Kho dữ liệu chuyên đề là một dạng đơn giản của kho dữ liệu đề cập đến một lĩnh vực riêng hoặc một miền chức năng riêng như lĩnh vực bán hàng, tài chính hay tiếp thị Các DM thường được xây dựng và điều khiển bởi các phòng ban riêng của một tổ chức Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM Trong cả hai cách đó, mỗi cách có những thuận lợi và khó khăn riêng, tùy điều kiện của công

ty mà chọn một phương pháp xây dựng thích hợp

1.4.2 Sự khác nhau giữa Data Warehouse và Data Mart

DWH giải quyết nhiều lĩnh vực và được điều khiển và thực thi đặc biệt bởi một đơn vị tổ chức trung tâm DWH tập hợp dữ liệu từ nhiều nguồn khác nhau Chưa có định nghĩa nào giới hạn kích thước của DM hay độ phức tạp của dữ liệu hỗ trợ ra quyết định trong DM Tuy nhiên DM nhỏ hơn và ít phúc tạp hơn DWH Vì vậy chúng dễ dàng để xây dựng và bảo trì hơn Bảng dưới đây sẽ tổng kết sự khác nhau cơ bản giữa DWH và DM:

Kho dữ liệu Kho dữ liệu chuyên đề

Phạm vi công ty lĩnh vự nghiệp vụ

(Line-of-Business -LoB) Lĩnh vực nhiều loại một loại cụ thể

Nguồn dữ liệu nhiều một vài

Kích cỡ 100 GB - TB+ < 100 GB

Thời gian thực thi hàng tháng hàng năm hàng tháng

1.4.3 Các dạng cơ bản của Data Mart

Hai dạng cơ bản của DM là kho dữ liệu chuyên đề độc lập (Independent

data marts) và kho dữ liệu chuyên đề phụ thuộc (Dependent data marts) được

chỉ ra như hình 1.7 và 1.8 Sự phân nhóm dựa chủ yếu trên nguồn dữ liệu xây

dựng nên DM DM phụ thuộc lấy dữ liệu từ một kho dữ liệu trung tâm đã được tạo sẵn DM độc lập là hệ thống đứng một mình, lấy dữ liệu từ nguồn dữ liệu nội

tại hoặc dữ liệu ngoài hoặc từ cả hai

Trang 23

Hình 1.7 Kho dữ liệu chuyên đề phụ thuộc

Hình 1.8 Kho dữ liệu chuyên đề độc lập

Sự khác nhau chính giữa DM độc lập và DM phụ thuộc là chúng ta sẽ lấy

dữ liệu như thế nào từ các nguồn để đưa vào các DM Bước này được gọi là tiến

trình trích lọc, biến đổi và di chuyển

(Extraction-Transformation-Transportation-ETT) dữ liệu từ hệ thống đang hoạt động vào DM

Với DM phụ thuộc, tiến trình này được đơn giản hơn do việc làm sạch

dữ liệu đã được làm sẵn từ khi đưa dữ liệu vào DWH Tiến trình ETT

của DM phụ thuộc chủ yếu là quá trình định nghĩa những dữ liệu liên

Kho dữ liệu các kho dữ

liệu chuyên đề

Hệ thống tác nghiệp

tiếp thị bán hàng tài chính

tiếp thị

bán hàng

tài chính

Hệ thống tác nghiệp

Bán hàng

Trang 24

quan đến lĩnh vực DM được chọn và sao chép vào nó Vì vậy DM chứa những dữ liệu được lấy từ DWH và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ

đề nhất định của DM

Với DM độc lập, không giống như DWH phụ thuộc, nó được xây

dựng trước DWH và dữ liệu được trực tiếp lấy từ các nguồn khác nhau, do vậy chúng ta phải làm tất cả các công việc của tiến trình ETL như đã làm với DWH Số các nguồn dữ liệu chắc chắn ít hơn và tổng

số những dữ liệu kết hợp với DM ít hơn so với DWH

Một số đặc điểm của của kho dữ liệu độc lập:

− Chứa cả dữ liệu tổng hợp và chi tiết

Động cơ xây dựng hai loại DM này cũng khác nhau DM phụ thuộc thường

được xây dựng để cải thiện việc thực hiện và tính sẵn sàng, điều khiển tốt hơn và

chi phí cho việc truyền thông thấp hơn Việc tạo các DM độc lập thường được

dùng trong trường hợp cần có những giải pháp trong thời gian ngắn

Trang 25

Chương II CÔNG CỤ ORACLE TRỢ GIÚP PHÁT TRIỂN DATA

WAREHOUSE VÀ DATAMART

Ngày nay việc lựa chọn sản phẩm, công cụ để phát triển DWH và DM là một bài toán khó, một thử thách đối với người thực hiện vì có nhiều sản phẩm, nhiều nhà cung cấp dịch vụ Một trong các nhà cung cấp dịch vụ được quan tâm nhiều nhất là Oracle Để đảm bảo có được một kho dữ liệu hỗ trợ tốt cho việc ra quyết định, Oracle đã liên tục đưa ra các phiên bản của Warehouse Builder Đây

là công cụ cung cấp giải pháp tích hợp cho việc thiết kế và phát triển DWH và

DM Nó giải quyết các vấn đề phức tạp của dữ liệu tích hợp giữa các nguồn dữ liệu phân tán và dữ liệu đích Oracle Warehouse Builder còn cung cấp tất cả những chức năng cần thiết cho việc phát triển và bảo trì của hệ thống kho dữ liệu Trung tâm máy tính của Ngân hàng Nhà nước đang sử dụng hệ quản trị CSDL Oracle, vì thế nó cũng được chọn để phát triển DWH và DM

2.1 Kiến trúc của Warehouse Builder

Oracle Warehouse Builder [15,16] là công cụ thiết kế và thực hiện việc xây

dựng và quản lý kho dữ liệu Nó kết hợp cả công cụ thiết kế và công cụ trích lọc, chuyển đổi, chuyển dịch và lấy dữ liệu Kiến trúc của Oracle Warehouse Builder

bao gồm hai thành phần (hình 2.1): Môi trường thiết kế và môi trường vận hành Môi trường thiết kế quản lý siêu dữ liệu (metadata), trong khi đó môi trường

vận hành lại điều khiển dữ liệu vật lý

2.1.1 Môi trường thiết kế

Môi trường thiết kế bao gồm kho siêu dữ liệu có tính trừu tượng cao được lưu trữ trong CSDL Oracle và một bộ thiết kế và các công cụ báo cáo được viết bằng Java hoặc HTML Sử dụng các công cụ này, siêu dữ liệu có thể được xem

và được điều khiển một cách dễ dàng

Việc tạo kho siêu dữ liệu là hoạt động thiết kế mà người sử dụng dùng các công cụ để tạo ra các đối tượng, các tiến trình và các công việc Warehouse Builder hỗ trợ thiết kế cho các lược đồ dữ liệu quan hệ, lược đồ nhiều chiều, quá trình ETL,…

Trang 26

Hình 2.1 Sơ đồ phát triển hệ thống theo Warehouse Builder

Các hệ thống nguồn đóng vai trò quan trọng trong bất kỳ giải pháp ETL nào Thay thế cho việc tạo siêu dữ liệu bằng tay, Warehouse Builder cung các thành phần tích hợp để đưa các thông tin được thích hợp vào kho lưu trữ của nó Một trong những điểm mạnh của kiến trúc Warehouse Builder là nó trợ giúp việc quản lý vòng đời phát triển hệ thống Nó cho phép siêu dữ liệu được cập nhật dựa trên những thay đổi trong hệ thống nguồn Sau đó tinh giản những thay đổi này đưa đến tiến trình ETL và hệ thống đích

Để đảm bảo chất lượng và tính đầy đủ cho siêu dữ liệu trong kho lưu trữ, Warehouse Builder cung cấp sự kiểm tra bao quát từng vùng lưu trữ Sự kiểm tra giữ cho một hệ thống phức tạp được nhiều người sử dụng tạo ra luôn có được trạng thái chính xác và kết dính với nhau

Ngoài ra, trong quá trình phát triển và đánh giá siêu dữ liệu, luôn có một trang web báo cáo về môi trường siêu dữ liệu Những báo cáo về môi trường cho phép người phát triển và người sử dụng hiển thị và kiểm tra các thành phần của

hệ thống mà không cần sử dụng công cụ thiết kế Một thành phần rất quan trọng

của môi trường báo cáo này là thành phần Các khả năng phân tích tương tác (Impact Analysis capabilities) Nó cho phép nhận dạng được những tương tác

lẫn nhau của các thay đổi trong hệ thống trước khi chúng được thực thi Báo cáo

Sơ đồ thiết kế của Warehouse Builder

Lập báo cáo siêu dữ liệu

Lập báo cáo thời gian thực

Kho lưu trữ siêu dữ liệu của Warehouse Builder

Môi trường thời gian thực của Warehouse Builder

Trang 27

này cho phép việc điều khiển những thay đổi tốt hơn và việc lập kế hoạch thực thi những thay đổi cũng tốt hơn

thống hoặc trong CSDL Việc thực hiện tiến trình ETL có thể dùng Warehouse

Builder Deployment Manager của Warehouse Builder hoặc một công cụ khác

như Oracle Enterprise Manager

Phần này có những đoạn chương trình kiểm tra để báo cáo về quá trình lấy

dữ liệu, sinh mã Có thể nắm bắt được các thông tin này ngay khi hệ thống đang

chạy bằng việc sử dụng bộ Runtime Audit Browser

2.2 Các chức năng chính của Warehouse Builder

Warehouse Builder có các chức năng chính sau:

− Định nghĩa các dữ liệu nguồn

− Thiết kế và tạo lược đồ kho dữ liệu đích

− Định nghĩa việc chuyển dịch dữ liệu giữa dữ liệu nguồn và kho dữ liệu đích

− Định nghĩa những sự phụ thuộc giữa tiến trình ETL

− Định nghĩa việc quản lý và cập nhật dữ liệu

− Triển khai, nâng cấp và quản lý lược đồ đích

− Thiết kế và tạo ra một môi trường OLAP

− Thiết kế và tạo ra môi trường công cụ truy vấn

2.3 Các thành phần của Warehouse Builder

2.3.1 Ứng dụng phía khách của Warehouse Builder Client Application

Ứng dụng phía khách của Warehouse Builder (Warehouse Builder Client Application) cung cấp một giao diện dễ sử dụng cho phép định nghĩa, thiết kế và

triển khai hệ thống Hai thành phần Bộ sinh mã (Code Generator) và Bộ quản lý

Trang 28

phát triển (Deployment Manager) giúp cho quá trình kiểm soát việc tạo và quản

lý hệ thống được tốt hơn

Bộ sinh mã: thành phần này sinh ra các script như DDL, PL/SQL dựa trên

siêu dữ liệu trong kho Các script sinh ra cung cấp sự thực hiện tối ưu cho các hệ thống CSDL Oracle

Bộ quản lý phát triển: thành phần này quản lý mọi mặt của quá trình triển

khai và các đối tượng triển khai

2.3.2 Dịch vụ nền vận hành Warehouse Builder

Dịch vụ nền vận hành của Warehouse Builder (Warehouse Builder Runtime Platform Service) là thành phần của máy dịch vụ Nó cung cấp các dịch

vụ quản lý việc thực thi các ánh xạ và luồng các tiến trình Nó đảm bảo rằng

việc thực thi và triển khai dữ liệu luôn được lưu trong kho lưu trữ vận hành

(Runtime Repository) Với những thực hiện từ xa, nó nối với Oracle Enterprise Manager's Management Server Dịch vụ nền vận hành được gọi thông qua một

công việc của CSDL Nó tự động làm việc khi CSDL khởi tạo và tự động kết thúc khi CSDL tắt

2.3.3 Kho lưu trữ thiết kế của Warehouse Builder

Kho lưu trữ thiết kế của Warehouse Builder (Warehouse BuilderDesign Repository) lưu trữ siêu dữ liệu cho tất cả các đối tượng sử dụng Warehouse

Builder Đây là nơi mà tất cả thông tin thiết kế cho hệ thống đích được lưu trữ

Có thể truy cập vào siêu dữ liệu thông qua giao diện người sử dụng, qua script tiện dụng của Warehouse Builder

2.3.4 Kho lưu trữ vận hành của Warehouse Builder

Kho lưu trữ vận hành của Warehouse Builder (Warehouse Builder Runtime Repository) lưu trữ tất cả dữ liệu khi triển khai dữ liệu cũng như việc ánh xạ dữ

liệu vào các luồng tiến trình Đây là nơi lưu trữ thông tin của môi trường đích dùng cho hệ thống nghiệp vụ thông minh Nó bao gồm thông tin kết nối của tất

cả các trạm triển khai

2.3.5 Trình duyệt báo cáo kiểm toán

Trình duyệt báo cáo kiểm toán (Audit Reporting Browser) cho phép xem

xét việc triển khai và thực hiện các thông tin từ một ứng dụng web Nguồn dữ

liệu của báo cáo được lấy từ Runtime Repository

Trang 29

2.3.6 Trình duyệt báo cáo siêu dữ liệu

Trình duyệt báo cáo siêu dữ liệu (Metadata Reporting Browser) cho phép

xem xét siêu dữ liệu lưu trữ trong kho thiết kế từ một ứng dụng web và cung cấp thông tin cho người quan tâm

2.4 Các đối tượng của Warehouse Builder

Bảng sự kiện (fact table) và bảng chiều (dimension table) là hai kiểu đối

tượng thường được sử dụng trong lược đồ của WH (hình 2.2)

1 Bảng sự kiện là bảng lớn trong DWH chứa các thước đo nghiệp vụ của

doanh nghiệp Nó cũng chứa các khóa ngoài đến các bảng chiều

2 Bảng chiều là các bảng nhìn vào (lookup) hoặc tham chiếu chứa dữ liệu tĩnh

để qui chiếu trong DWH Nó chứa các thông tin thường được sử dụng trong các câu lệnh truy vấn Bảng chiều là một cấu trúc, chứa một hoặc nhiều cấp

để phân hạng dữ liệu

Hình 2.2 Các đối tượng của Warehouse Builder

3 Sự phân cấp (Hierarchies) là cấu trúc logic để sắp xếp thứ tự các mức trong

việc tổ chức dữ liệu Như với bảng chiều thời gian có thể phân cấp với các mức tháng, quý và năm

4 Các mối quan hệ mức (Level Relationships) chỉ rõ trật tự từ trên xuống của

các mức từ thông tin chung đến riêng, chúng có thể định nghĩa quan hệ cha – con giữa các mức trong cây phân cấp

Trang 30

2.5 Các bước sử dụng Warehouse Builder

2.5.1 Định nghĩa các đối tượng nguồn và đích

Sau khi hoàn tất quá trình thu thập các yêu cầu cho kho dữ liệu, kho dữ liệu chuyên đề, chúng ta cần thiết kế các đối tượng nguồn, nơi cung cấp dữ liệu (chúng có thể là CSDL, các tệp ứng dụng) và các đối tượng đích, nơi chứa dữ liệu dùng cho mục đích của dự án

2.5.2 Định nghĩa các đối tượng để trích lọc, chuyển đổi và tải dữ liệu

Sau khi tạo và định nghĩa đối tượng lấy dữ liệu trong Warehouse Builder, chúng ta phải định nghĩa các hoạt động trích lọc, chuyển đổi và tải dữ liệu từ các đối tượng nguồn đến các đối tượng đích

2.5.3 Thẩm định và sinh mã

Thẩm định việc định nghĩa các đối tượng dữ liệu và đối tượng ETL và nhận dạng bất kỳ vấn đề hoặc lỗi nào nẩy sinh trong quá trình triển khai Nếu các đối tượng chưa được hợp lệ thì việc sinh mã và triển khai không thể thực hiện Chúng ta có thể kiểm tra các đối tượng và việc sinh các script tại bất cứ thời điểm nào trong quá trình triển khai

2.5.4 Triển khai và thực thi

Sau khi thẩm định các định nghĩa và thiết kế, ta tiến hành vận hành và thực hiện việc bảo trì cần thiết đối với hệ thống

2.6 Những ưu điểm nổi bật khi sử dụng Warehouse Builder

Việc tải dữ liệu vào các bảng thường thông qua các bước của tiến trình ETL Ở đây dữ liệu được trích lọc từ dữ liệu gốc đưa vào vùng trung gian rồi được làm sạch, kiểm tra lỗi trước khi đưa vào kho dữ liệu Các dữ liệu tổng hợp

sẽ được tạo hay cập nhật Quá trình này có thể tốn từ vài giờ đến nhiều ngày và đòi hỏi hàng GB đĩa cứng để lưu các phiên bản khác nhau của dữ liệu trong quá trình xử lý Do thời gian để thực hiện tiến trình ETL tương đối dài nên dữ liệu trong DWH thường bị trễ, không đáp ứng được sự biến đổi tức thời trong dữ liệu Để có được kho dữ liệu tức thời hay gần như tức thời, chúng ta cần thực hiện những công việc sau:

Giảm hay loại bỏ thời gian để lấy dữ liệu mới hoặc thay đổi từ các hệ thống nguồn

Trang 31

Loại bỏ hay giảm thiểu thời gian cần để làm sạch, chuyển đổi và tải dữ liệu Giảm thiểu thời gian để cập nhật các dữ liệu tổng hợp

Từ phiên bản 9i trở lên, Oracle đã đưa ra những tính năng mới để hỗ trợ kho dữ liệu có tính tức thời Đó là:

Nắm bắt các thay đổi của dữ liệu (Change Data Capture)

Bảng ngoài (External table), hàm bảng (table function), cơ chế đường

ống, lệnh MERGE và các khung nhìn được làm tư liệu (materialized

view) để làm tươi nhanh dữ liệu

2.6.1 Nắm bắt các thay đổi của dữ liệu

Chức năng này dùng để thực hiện các công việc chuyển dữ liệu từ các hệ thống nguồn vào DWH (nghĩa là phải lấy lại toàn bộ dữ liệu dù có thay đổi hay không thay đổi, dù thay đổi ít hay nhiều) Trước đây phải tìm các cột đánh dấu các bản ghi mới được tạo hay mới được cập nhật và chỉ lấy những bản ghi mới sau lần lấy dữ liệu gần nhất Nhưng từ phiên bản 9i trở đi, Oracle đã có một cách

làm tốt hơn gọi là “Change Data Capture” Cơ chế này cho phép tự động đẩy các bản ghi mới hoặc có thay đổi sang kho dữ liệu Change Data Capture hoạt động nhờ các trigger trên các bảng dữ liệu nguồn Các trigger đẩy các thay đổi

từ các lệnh insert, delete, update vào các bảng thay đổi để từ đó cập nhật vào

kho dữ liệu

Chính vì Change Data Capture lấy dữ liệu thay đổi thông qua các trigger Phương thức Change Data Capture là không đồng bộ và chỉ xảy ra với một thời

gian trễ nhỏ, nên có thể coi gần như là tức thời Dù việc nắm bắt các thay đổi

của dữ liệu được thực hiện đồng bộ hay không đồng bộ, chúng đều dựa trên mô

hình phát hành/đăng ký, trong đó bộ phát hành nắm bắt các thay đổi của dữ liệu

và bộ đăng ký đọc tất cả hay một phần tập các thay đổi này

2.6.2 Các bảng ngoại, hàm bảng, cơ chế đường ống và lệnh MERGE

Tính năng bảng ngoại cho phép chúng ta nhúng tệp điều khiển SQL*Loader trong một DDL script; tệp đó có thể tận dụng lợi thế của cơ chế xử

lý song song, có thể được nối và có thể dùng làm đầu vào cho một lênh MERGE, để có thể thêm hay cập nhật dữ liệu sang một bảng khác trong cùng một câu lênh DML duy nhất Ngoài việc không phải chạy nhiều tiến trình SQL*Loader khác nhau, bảng ngoại giúp chúng ta đỡ phải tải dữ liệu vào các bảng trung gian trong quá trình xử lý

Trang 32

Các hàm bảng (Table function) có thể dùng trong quá trình làm sạch và

chuyển đổi dữ liệu trong các thủ tục PL/SQL hay Java Các hàm đó có thể xử lý

dữ liệu riêng lẻ hay dữ liệu từ các bảng và trả về các bảng dữ liệu Điều thú vị là các bảng đầu vào có thể là bảng ngoại hay các bảng dữ liệu nguồn bị thay đổi, nhờ đó chúng ta có thể chuyển dạng dữ liệu theo thời gian thực

Ngoài ra, chúng ta có thể “đường ống hóa” các hàm bảng (cơ chế đường

ống của Oracle cho phép trả về các bản ghi ngay từ đầu, trước khi quá trình xử

lý kết thúc) để kết nối các hàm với nhau, buộc chúng chuyển tiếp các bản ghi cho tiến trình tiếp theo, không chờ một tiến trình kết thúc mới khởi động tiến trình kế tiếp

Sau khi đã làm sạch và chuyển hóa dữ liệu, bước tiếp theo là cập nhật các bảng đa chiều Trước đây, điều này được thực hiện bằng một tập hợp các lệnh INSERT và UPDATE Với Oracle 9i, chúng ta có thể thực hiện điều này trong một bước duy nhất với lệnh MERGE Hơn thế, chúng ta có thể gộp toàn bộ quá trình chuyển hóa dữ liệu vào lệnh MERGE đó bằng cách tham chiếu tới các bảng ngoại và hàm bảng

Ba tính năng trên của Oracle 9i giúp chúng ta giảm đáng kể thời gian cần

để tải dữ liệu vào kho dữ liệu cũng như giảm độ trễ giữa bước nhận dữ liệu nguồn với bước cập nhật các bảng đa chiều

2.6.3 Khung nhìn làm tư liệu làm tươi nhanh dữ liệu

Trước đây, khi DBA tạo các bảng dữ liệu tổng hợp đơn lẻ để tăng thời gian phản hồi cho các lệnh truy vấn của người dùng thì các bảng dữ liệu tổng hợp đó phải được xóa đi và tạo lại khi có dữ liệu mới tải vào DWH Vì thế, người dùng

sẽ không thể truy cập dữ liệu tổng hợp trong lúc tiến trình tạo lại đang thực hiện

Với các khung nhìn làm tư liệu (Materialized View) của Oracle 9i, DBA có thể tạo các snapshot table dựa trên các câu lệnh truy vấn đến các bảng chi tiết của

DWH với cơ chế chuẩn bị sẵn nhằm làm tươi các snapshot khi dữ liệu cơ sở thay đổi Khi các khung nhìn làm tư liệu đó gặp một số điều kiện, chúng ta có thể cập nhật các snapshot với dữ liệu mới thay đổi chứ không cần tạo lại từ đầu Điều này giảm đáng kể thời gian làm tươi các kết quả tổng hợp và cho phép người dùng nhận được chúng sớm hơn

Trang 33

Chương III ỨNG DỤNG DATA WAREHOUSE XÂY DỰNG HỆ THỐNG BÁO CÁO THỐNG KÊ CHO NGÂN HÀNG NHÀ NƯỚC

Hiện tại Ngân hàng Nhà nước Việt Nam (NHNN) đang có một hệ thống thu thập thông tin từ các Tổ chức tín dụng (TCTD) bao gồm các Ngân hàng, các tổ

chức tài chính (công ty tài chính, công ty bảo hiểm, công ty chứng khoán,…) Theo định kỳ (năm, quý, tháng, ngày), các TCTD gửi dữ liệu báo cáo về Cục Công nghệ Tin học (CNTH) của NHNN bằng phần mềm Báo cáo Thống kê (BCTK) và Báo cáo tài chính (BCTC) Cục CNTH là nơi tổng hợp dữ liệu, tạo các báo cáo nghiệp vụ phục vụ cho các Vụ, các Cục của Ngân hàng Trung ương

(NHTW) khai thác Nhu cầu có một kho dữ liệu với các đặc điểm như: tổ chức

dữ liệu đa chiều, nhất quán, chính xác và tích luỹ theo thời gian cho phép các

đơn vị sử dụng truy xuất thông tin cố định hoặc đột xuất một cách dễ dàng và thuận lợi để cung cấp thông tin hỗ trợ ra quyết định của NHNN là rất cấp thiết

Vì vậy, xây dựng một kho dữ liệu (DWH) tập trung của NHTW, trước hết sẽ tránh được sự tản mát dữ liệu, có thể tập hợp và khai thác một cách triệt để và hiệu quả những nguồn thông tin đã có của NHNN qua mạng cục bộ hoặc truy nhập từ xa qua mạng WAN của NHNN dựa trên nền WEB là giải pháp thích hợp nhất Đây chính là cơ sở cung cấp thông tin đầy đủ nhất cho quản lý, điều hành của NHTW và các chi nhánh NHNN

3.1 Mô hình nghiệp vụ của hệ thống Báo cáo thống kê NHNN

3.1.1 Sơ đồ luồng thông tin của hệ thống Báo cáo thống kê

Các tổ chức tham gia vào hệ thống thông tin BCTK của NHNN được mô tả trên hình 3.1 Trong đó bao gồm:

− Ngân hàng Trung Ương

− Cục Công nghệ thông tin

− Các chi nhánh Ngân hàng Nhà nước

− Các chi nhánh và các hội sở của các Tổ chức tín dụng

Theo định kỳ (năm, quý, tháng hoặc ngày), các Tổ chức tín dụng và hội sở các Tổ chức tín dụng cần gửi số liệu báo cáo thống kê về các chi nhánh NHNN Các chi nhánh NHNN tập hợp các báo cáo gửi về Cục CNTH thông qua phần

mềm BCTK hiện có theo bộ mã chỉ tiêu và phần mềm Báo cáo tài chính theo hệ

Trang 34

thống các tài khoản đã được các văn bản của NHNN qui định Tại đây Cục CNTH tiến hành tổng hợp các dữ liệu theo những yêu cầu nghiệp vụ đặt ra để các Vụ, Cục và các đơn vị trực thuộc MHTW có thể khai thác, sử dụng

Hình 3.1 Sơ đồ mô tả luồng thông tin báo cáo trong hệ thống NHNN

3.1.2 Hệ thống các chỉ tiêu của Báo cáo thống kê

a Khái quát về hệ thống chỉ tiêu

Các chỉ tiêu của hệ thống các báo cáo thống kê đã được xây dựng và mã hóa thống nhất trong toàn ngành Đó là một hệ thống phân cấp theo hoạt động nghiệp vụ: các mã chỉ tiêu được phân chia thành các lĩnh vực, mỗi lĩnh vực lại gồm nhiều nhóm chỉ tiêu khác nhau, trong mỗi nhóm lại chia thành các phân nhóm và trong mỗi phân nhóm bao gồm các chỉ tiêu cụ thể [3] (xem bảng phụ lục III)

− Có 13 nhóm chỉ tiêu nghiệp vụ như nhóm chỉ tiêu cho hoạt động tín dụng, huy động vốn, kho quỹ,… Mỗi nhóm được ký hiệu bắt đầu bằng một chữ cái A, B, C …

− Mỗi nhóm chia thành các phân nhóm không quá 05 ký tự như phân nhóm A0101, phân nhóm G01, H01…

− Mỗi phân nhóm gồm nhiều các chỉ tiêu báo cáo

Trang 35

Một loạt các chỉ tiêu khác liên quan đến hoạt động quản lý (xem bảng phụ lục), là các danh mục (loại tiền tệ, các loại tài sản, các loại hình tổ chức danh mục, ), kỳ báo cáo,

Các loại chỉ tiêu nghiệp vụ được sử dụng cho các báo cáo để thu thập thông tin từ các cơ sở Các chỉ tiêu liên quan đến hoạt động quản lý chủ yếu dùng cho các báo cáo tổng hợp từ các tổ chức quản lý và các tài liệu phân tích phục vụ cho việc ra quyết định

Loại 2: mã chỉ tiêu phụ thuộc vào các mã số thống kê

 Mã chỉ tiêu phụ thuộc vào mã số thống kê

 Giá trị chỉ tiêu là số

Các chỉ tiêu loại này cấu trúc theo 2 cách:

 Các mã số thống kê được ghép vào cuối mã chỉ tiêu như:

A010111xxyyyy: dư nợ tín dụng ngắn hạn quá hạn bằng loại tiền

xx đối với ngành kinh tế yyyy

 Các mã số thống kê chèn vào giữa mã chỉ tiêu như:

K0101xxxxyy0006: tổng giá trị giấy tờ có giá loại xxxx theo tiền

yy đang nắm giữ

Loại 3: mã chỉ tiêu phụ thuộc vào mã số thống kê và mã số phát sinh

 Phụ thuộc vào mã số thống kê và mã phát sinh

 Giá trị có thể khác số

Các chỉ tiêu loại này cấu trúc theo 2 cách:

Trang 36

 Mã số thống kê ghép vào cuối mã chỉ tiêu L0101: mã số chỉ tiêu xử lý tài sản đảm bảo L010601xxxx: tên khách hàng thứ xxxx có tài sản đảm bảo được

xử lý L010602xxxx: địa chỉ khách hàng thứ xxxx có tài sản đảm bảo được xử lý

… L010605xxxx: giá trị tài sản của khách hàng thứ xxxx ghi trong biên bản nhận tài sản đảm bảo

 Mã số thống kê ghép vào giữa mã chỉ tiêu K0102xxxxyyzz01: Mã hệ thống TCTD bán giấy tờ có giá loại xxxx theo loại tiền yy của món zz

3.1.3 Hệ thống các tài khoản kế toán

Tài khoản kế toán (TKKT) là phương pháp đặc trưng của kế toán nhằm phân loại và hệ thống hóa các nghiệp vụ kinh tế phát sinh theo đúng nội dung kinh tế Trên cơ sở đó, kế toán dễ dàng thực hiện cung cấp thông tin theo yêu cầu của người sử dụng thông tin Hệ thống TKKT là danh mục các TKKT được

sử dụng trong một đơn vị kế toán và hướng dẫn hạch toán trên các tài khoản đó

Hệ thống tài khoản kế toán các TCTD gồm các tài khoản trong bảng cân đối kế toán và các tài khoản ngoài bảng cân đối kế toán [7,8], được bố trí thành

9 loại:

− Các tài khoản trong bảng cân đối kế toán gồm 8 loại (từ loại 1 đến loại 8)

− Các tài khoản ngoài bảng cân đối kế toán có 1 loại (loại 9)

Các tài khoản trong bảng cân đối kế toán và các tài khoản ngoài bảng cân đối kế toán được bố trí theo hệ thống số thập phân nhiều cấp, từ tài khoản cấp I đến tài khoản cấp III, ký hiệu từ 2 đến 4 chữ số

− Tài khoản cấp I ký hiệu bằng 2 chữ số từ 10 đến 99 Mỗi loại tài khoản được bố trí tối đa 10 tài khoản cấp I

− Tài khoản cấp II ký hiệu bằng 3 chữ số, hai số đầu (từ trái sang phải)

là số hiệu tài khoản cấp I, số thứ 3 là số thứ tự tài khoản cấp II trong tài khoản cấp I, ký hiệu từ 1 đến 9

Trang 37

- Tài khoản cấp III ký hiệu bằng 4 chữ số, ba số đầu (từ trái sang phải) là

số hiệu tài khoản cấp II, số thứ 4 là số thứ tự tài khoản cấp III trong tài khoản cấp II, ký hiệu từ 1 đến 9

Các tài khoản cấp I, II, III là những tài khoản tổng hợp do Thống đốc Ngân hàng Nhà nước quy định, dùng làm cơ sở để hạch toán kế toán tại các Tổ chức tín dụng

3.1.4 Nội dung của báo cáo thống kê

Theo định kỳ, các đơn vị cơ sở gửi về Cục CNTH các báo cáo của mình theo nội dung đã quy định cho mỗi đối tượng Đối với các dữ liệu thống kê gửi

từ các đơn vị lên Cục CNTH sẽ được lưu vào bảng TBLTHONGKE [4] trong CSDL BCTK

Cấu trúc bảng TBLTHONGKE như sau:

− MADONVI: mã đơn vị báo cáo

− CHITIEUID: Mã chỉ tiêu (theo qui định của NHNN theo phụ lục bên dưới)

− NGAYSL: Ngày số liệu

− DINHKYBC: Định kỳ báo cáo

− GIATRI: Giá trị của chỉ tiêu báo cáo

Trang 38

b Cấu trúc tệp báo cáo thống kê

Mỗi tệp có thể bao gồm một hoặc nhiều phân nhóm mã chỉ tiêu nhỏ Trong

đó, dữ liệu của mỗi phân nhóm mã chỉ tiêu được tổ chức như sau:

c Cấu trúc phân nhóm chỉ tiêu trong báo cáo

Cấu trúc nội dung các thành phần của một báo cáo cho trong bảng sau:

Trang 39

Dữ liệu mà các giá trị của ngày báo cáo và định kỳ báo cáo cho trong bảng sau:

Ví dụ 1: Tệp báo cáo chỉ có 1 phân nhóm của ngân hàng ngoại thương Hải

Dương gửi ngày 12/11/2008 có tên là: BC081112.A30203001, trong đó:

TT Kỳ hạn gửi

báo cáo Giá trị của Ngaysl Giá trị của

Dinhkybc

2 Tuần Ngày thứ sáu của tuần báo cáo 2

3 3 kỳ/tháng Ngày 10, 20, và ngày cuối tháng 3

4 2 kỳ/tháng Ngày 15 và ngày cuối tháng 4

5 Tháng Ngày cuối của tháng báo cáo 5

6 Quý Ngày cuối của quý báo cáo 6

7 6 tháng Ngày cuối của tháng 6 và tháng 12 7

8 Năm Ngày cuối của năm báo cáo 8

Trang 40

và có nội dung của tệp như sau:

BG#30203001#B0101# (Bắt đầu phân nhóm B0101 của đơn vị báo cáo

Ngày đăng: 25/03/2015, 09:46

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Vũ Đức Thi, Lê Hải Khôi (1999). “Một số nguyên lý hoạt động của kho dữ liệu”, Tạp chí: Tin học và điều khiển học, 2:15, tr 27-32 Sách, tạp chí
Tiêu đề: Một số nguyên lý hoạt động của kho dữ liệu
Tác giả: Vũ Đức Thi, Lê Hải Khôi
Năm: 1999
9. Nguyễn Anh Tuấn (2007), “Triển khai kho dữ liệu tức thời với Oracle 10g”, http://www.sbv.gov.vnTiếng Anh Sách, tạp chí
Tiêu đề: Triển khai kho dữ liệu tức thời với Oracle 10g
Tác giả: Nguyễn Anh Tuấn
Năm: 2007
10. Barry Devlin (1997). Data Warehouse From Architecturre to Implementation, Addison Wesley Sách, tạp chí
Tiêu đề: Data Warehouse From Architecturre to Implementation
Tác giả: Barry Devlin
Năm: 1997
11. DIEGO CALVANESE, GIUSEPPE DE GIACOMO, MAURIZIO LENZERINI, DANIELE NARDI and RICCARDO ROSATI (2001), Data integration in Data Warehousing, International Journal of Cooperative Information Systems Sách, tạp chí
Tiêu đề: Data integration in Data Warehousing
Tác giả: DIEGO CALVANESE, GIUSEPPE DE GIACOMO, MAURIZIO LENZERINI, DANIELE NARDI and RICCARDO ROSATI
Năm: 2001
12. Matthias Jarke, Maurizio Lenzerini, Yannis. Vassiliou, and Panos Vassiliadis (2000), Fundamentals of Data Warehouses, Springer Sách, tạp chí
Tiêu đề: Fundamentals of Data Warehouses
Tác giả: Matthias Jarke, Maurizio Lenzerini, Yannis. Vassiliou, and Panos Vassiliadis
Năm: 2000
13. Paulraj ponniah (2001), Data warehousing fundamentals: A compprehensive Guide for IT Professionals, John Wiley &amp; Sons, INC Sách, tạp chí
Tiêu đề: Data warehousing fundamentals: A compprehensive Guide for IT Professionals
Tác giả: Paulraj ponniah
Năm: 2001
14. W. H. Inmon (2002), Building the Data Warehouse, Wiley Computer Publishing Sách, tạp chí
Tiêu đề: Building the Data Warehouse
Tác giả: W. H. Inmon
Năm: 2002
15. Oracle Corporation (2003), Oracle Warehousse Builder Guide 9i Release 2, USA Sách, tạp chí
Tiêu đề: Oracle Warehousse Builder Guide 9i Release 2
Tác giả: Oracle Corporation
Năm: 2003
16. Oracle Corporation (2007), Oracle Warehousse Builder Guide 11g Release 1, USA Sách, tạp chí
Tiêu đề: Oracle Warehousse Builder Guide 11g Release 1
Tác giả: Oracle Corporation
Năm: 2007
2. Ngân hàng Nhà nước Việt Nam (2004), Quyết định số 477/2004/QĐ-NHNN ngày 28/4/2004 của Thống đốc Ngân hàng Nhà nước về Về việc ban hành Chế độ báo cáo thống kê áp dụng đối với các đơn vị thuộc Ngân hàng Nhà nước và các tổ chức tín dụng Khác
3. Ngân hàng Nhà nước Việt Nam (2004), Công văn 507/CV-THNH ngày 20 tháng 07 năm 2004 của Cục CNTH về việc Hệ thống bảng mã chỉ tiêu Khác
4. Ngân hàng Nhà nước Việt Nam (2004), Công văn 507/CV-THNH ngày 20 tháng 07 năm 2004 của Cục CNTH về việc Hệ thống qui định cấu trúc file BCTK Khác
5. Ngân hàng Nhà nước Việt Nam (2004), Tập báo cáo thống kê và hướng dẫn cách lập báo cáo theo quyết định 477 Khác
8. Ngân hàng Nhà nước Việt Nam (2004), Quyết định số 479/2004/QĐ-NHNN về việc ban hành Hệ thống tài khoản kế toán các tổ chức tín dụng Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w