Trên thực tế, Ngân hàng Nhà nước đã tổ chức được các hệ thống cơ sở dữ liệu rất lớn gồm các báo cáo thường xuyên từ các ngân hàng và các tổ chức tài chính với số lượng trung bình từ 10-2
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ KIM OANH
KHO DỮ LIỆU VÀ ỨNG DỤNG XÂY DỰNG
HỆ THỐNG DỮ LIỆU TRỢ GIÚP QUYẾT ĐỊNH VỀ CHÍNH SÁCH TIỀN TỆ QUỐC GIA
LUẬN VĂN THẠC SĨ
HÀ NỘI - 2009
Trang 2MỤC LỤC
MỞ ĐẦU 1
Chương I KHÁI NIỆM VỀ KHO DỮ LIỆU 4
1.1 Khái niệm về kho dữ liệu 4 1.1.1 Định nghĩa 4
1.1.2 Các tính chất của Data Warehouse 6
1.1.2.1 Hướng chủ đề 6
1.1.2.2 Tính ổn định 6
1.1.2.3 Được tích hợp 7
1.1.2.4 Gắn với thời gian 7
1.1.3 Cơ sở dữ liệu tác nghiệp và kho dữ liệu 7
1.2 Kiến trúc thành phần của Data Warehouse 8 1.2.1 Các loại kiến trúc của Data Warehouse 8
1.2.2 Các thành phần cơ bản của kiến trúc Data Warehouse 10
1.2.3 Các lược đồ dữ liệu của Data Warehouse 11
1.2.3.1 Lược đồ hình sao 11
1.2.3.2 Lược đồ bông tuyết 13
1.3 Các mô hình thiết kế cơ sở dữ liệu 14 1.3.1 Mô hình dữ liệu lôgíc 14
1.3.2 Mô hình dữ liệu vật lý 15
1.4 Kho dữ liệu chuyên đề 16 1.4.1 Khái niệm kho dữ liệu chuyên đề 17
1.4.2 Sự khác nhau giữa Data Warehouse và Data Mart 17
1.4.3 Các dạng cơ bản của Data Mart 17
Chương II CÔNG CỤ ORACLE TRỢ GIÚP PHÁT TRIỂN DATA WAREHOUSE VÀ DATAMART 20
2.1 Kiến trúc của Warehouse Builder 20 2.1.1 Môi trường thiết kế 20
2.1.2 Môi trường vận hành 22
2.2 Các chức năng chính của Warehouse Builder 22 2.3 Các thành phần của Warehouse Builder 22 2.3.1 Ứng dụng phía khách của Warehouse Builder Client Application 22
2.3.2 Dịch vụ nền vận hành Warehouse Builder 23
2.3.3 Kho lưu trữ thiết kế của Warehouse Builder 23
2.3.4 Kho lưu trữ vận hành của Warehouse Builder 23
2.3.5 Trình duyệt báo cáo kiểm toán 23
2.3.6 Trình duyệt báo cáo siêu dữ liệu 24 2.4 Các đối tượng của Warehouse Builder 24
Trang 32.5 Các bước sử dụng Warehouse Builder 25
2.5.1 Định nghĩa các đối tượng nguồn và đích 25
2.5.2 Định nghĩa các đối tượng để trích lọc, chuyển đổi và tải dữ liệu 25
2.5.3 Thẩm định và sinh mã 25
2.5.4 Triển khai và thực thi 25
2.6 Những ưu điểm nổi bật khi sử dụng Warehouse Builder 25 2.6.1 Nắm bắt các thay đổi của dữ liệu 26
2.6.2 Các bảng ngoại, hàm bảng, cơ chế đường ống và lệnh MERGE 26
2.6.3 Khung nhìn làm tư liệu làm tươi nhanh dữ liệu 27
Chương III ỨNG DỤNG DATA WAREHOUSE XÂY DỰNG HỆ THỐNG BÁO CÁO THỐNG KÊ CHO NGÂN HÀNG NHÀ NƯỚC 28
3.1 Mô hình nghiệp vụ của hệ thống Báo cáo thống kê NHNN 28 3.1.1 Sơ đồ luồng thông tin của hệ thống Báo cáo thống kê 28
3.1.2 Hệ thống các chỉ tiêu của Báo cáo thống kê 29
3.1.3 Hệ thống các tài khoản kế toán 31
3.1.4 Nội dung của báo cáo thống kê 32
3.1.5 Nội dung của báo cáo Tài chính 36
3.1.6 Hoạt động nghiệp vụ của một số đơn vị của NHNN 39
3.1.7 Yêu cầu nghiệp vụ của hệ thống khai thác báo cáo 40
3.1.7.1 Yêu cầu cụ thể của hệ thống báo cáo 41
3.1.7.2 Các loại báo cáo cần phát triển 41
3.2 Xây dựng kho dữ liệu Data Warehouse phục vụ cho việc khai thác báo cáo 43 3.2.1 Xây dựng cơ sở dữ liệu theo chuẩn Data Warehouse 43
3.2.1.1 Kiến trúc của Data Warehouse Báo cáo thống kê 43
3.2.1.2 Kết cấu của Data Warehouse Báo cáo thống kê 45
3.2.1.3 Các bước cài đặt vật lý data warehouse 50
3.2.2 Xây dựng qui trình tích hợp dữ liệu cho Data Warehouse 51
3.2.2.1 Xây dựng giải pháp tích hợp dữ liệu vào kho dữ liệu Báo cáo thống kê 51
3.2.2.2 Các bước thực hiện quá trình tích hợp dữ liệu 56
Chương IV TỔ CHỨC KHAI THÁC BÁO CÁO VỚI KHO DỮ LIỆU 65
4.1 Giải pháp xây dựng hệ thống khai thác báo cáo 65 4.2 Chiến lược xây dựng hệ thống báo cáo 66 4.3 Các bước xây dựng báo cáo 70 4.4 Mô hình khai thác báo cáo 70 4.5 Cài đặt hệ thống 71 KẾT LUẬN 73
TÀI LIỆU THAM KHẢO 74
PHỤ LỤC
Trang 4BẢNG CÁC CHỮ VIẾT TẮT
BCTK Báo cáo thống kê
BO Bussiness Object CNTH Công nghệ tin học CSDL Cơ sở dữ liệu (database) DBA Quản trị Database
DM Data Mart DWH Data Warehouse EDW Enterprise Data Warehouse ETL Extraction-Transformation-Load ETT Extraction-Transformation-Transportation NHNN Ngân hàng Nhà nước Việt nam
NHTW Ngân hàng Trung ương ODS Operational Data Store OLAP Online Analytical Processing OLTP Online Transaction Processing TCTD Tổ chức tín dụng
Trang 5DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU
Hình 1.1 Tính ổn định của dữ liệu trong Data Warehouse 6
Hình 1.2 Kiến trúc đơn giản của DW 9
Hình 1.3 Kiến trúc của DW với vùng gắn nhãn (Staging area) 9
Hình 1.4 Kiến trúc của DW với vùng gắn nhãn và các DM 10
Hình 1.5 Lược đồ hình sao của DW 12
Hình 1.6 Lược đồ bông tuyết của DW 13
Hình 1.7 Kho dữ liệu chuyên đề phụ thuộc 18
Hình 1.8 Kho dữ liệu chuyên đề độc lập 18
Hình 2.1 Sơ đồ phát triển hệ thống theo Warehouse Builder 21
Hình 2.2 Các đối tượng của Warehouse Builder 24
Hình 3.1 Sơ đồ mô tả luồng thông tin báo cáo trong hệ thống NHNN 29
Hình 3.2 Kiến trúc DWH BCTK 44
Hình 3.3 Sơ đồ tổng quát quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 52
Hình 3.4 Sơ đồ chi tiết quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 57
Hình 3.5 Các bước của quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 58
Hình 3.6 Quá trình tải dữ liệu từ nguồn vào Staging 60
Hình 3.7 Quá trình tải dữ liệu từ Staging vào bảng T_ATOMIC_DATA 61
Hình 3.8 Quá trình tải dữ liệu từ bảng T_ATOMIC_DATA sang các bảng fact 62
Hình 3.9 Quá trình cập nhật dữ liệu cho các bảng dimension 63
Hình 4.1 Môi trường tổ chức khai thác báo cáo của BO 65
Hình 4.2 Kiến trúc của BO với tầng ngữ nghĩa 66
Hình 4.3 Các thành phần của BO Repository 70
Hình 4.4 Mô hình khai thác báo cáo 71
Trang 6MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong điều kiện của cơ chế thị trường, chính sách tiền tệ và điều hành vĩ
mô về tài chính và tiền tệ có một ý nghĩa quyết định đến sự phát triển kinh tế của đất nước một cách ổn định và lành mạnh Trong những năm gần đây, số ngân hàng trong nước tăng lên rất nhanh Thêm vào đó còn có sự tham gia của các ngân hàng 100% vốn nước ngoài Số vốn của các ngân hàng có quy mô ngày một lớn, các dịch vụ mà ngân hàng cung cấp ngày càng phong phú Khối lượng thông tin mà Ngân hàng Nhà nước quản lý ngày một nhiều: nó tăng theo số lượng các ngân hàng hoạt động cũng như quy mô vốn của các ngân hàng cùng các dịch vụ mà chúng cung cấp Trên thực tế, Ngân hàng Nhà nước đã tổ chức được các hệ thống cơ sở dữ liệu rất lớn gồm các báo cáo thường xuyên từ các ngân hàng và các tổ chức tài chính với số lượng trung bình từ 10-20 nghìn chỉ tiêu/ngày, đặc biệt vào các ngày cuối tháng số lượng này lên tới hàng trăm nghìn chỉ tiêu Cục Công nghệ tin học của Ngân hàng Nhà nước là đơn vị có nhiệm vụ thu thập và tổng hợp báo cáo Cục được trang bị một hệ thống mạng máy tính rất mạnh và đang sử dụng hệ quản trị cơ sở dữ liệu Oracle để quản lý và khai thác các dữ liệu này Tuy nhiên, việc khai thác báo cáo trên cơ sở dữ liệu tác nghiệp này có một số nhược điểm như không hỗ trợ được các báo cáo đột xuất theo yêu cầu; chưa tổng hợp được số liệu theo nhiều chiều, dưới nhiều dạng báo cáo khác nhau như biểu đồ, đồ thị,…; chưa tổng hợp được dữ liệu từ nhiều hệ thống nghiệp vụ khác nhau; việc khai thác báo cáo phải thực hiện trên máy tính có cài đặt chương trình Do vậy, một yêu cầu cấp bách đặt ra là: làm sao có được một kho dữ liệu tập trung với số liệu đầy đủ, tổng hợp và chính xác của toàn ngành ngân hàng một cách nhanh nhất để phục vụ việc điều hành vĩ mô của nhà nước
về tiền tệ một cách hiệu quả Vì thế đề tài “Kho dữ liệu và ứng dụng xây dựng
hệ thống dữ liệu trợ giúp quyết định về chính sách tiền tệ quốc gia” được chọn làm đề tài luận văn tốt nghiệp của tôi
2 Mục tiêu của đề tài
Vận dụng những cơ sở lý thuyết về Data Warehouse để xây dựng hệ thống
dữ liệu Báo cáo thống kê tập trung tại Ngân hàng Nhà nước phục vụ cho việc trợ giúp ra quyết định về chính sách tiền tệ quốc gia
3 Đối tượng và phạm vi nghiên cứu
Đối tượng:
Trang 7− Bộ mã chỉ tiêu báo cáo thống kê do Ngân hàng Nhà nước ban hành
− Hệ thống tài khoản kế toán của Ngân hàng Nhà nước
− Hệ thống thu thập thông tin Báo cáo thống kê, Báo cáo tài chính Phạm vi:
Đề tài này có quy mô rất lớn, do vậy luận văn chỉ tập trung vào nghiên cứu việc thiết kế kho dữ liệu Báo cáo thống kê trên hai nguồn dữ liệu chính là cơ sở liệu tác nghiệp Báo cáo thống kê và Báo cáo tài chính, đưa giải pháp tích hợp dữ liệu đối với dữ liệu báo cáo theo mã chỉ tiêu đã qui định và tổ chức triển khai việc khai thác báo cáo trên một số Vụ, Cục của Ngân hàng Trung ương Trong
đó, tận dụng tối đa các công cụ sẵn có của Oracle cũng như những cơ sở công nghệ thông tin hiện có của Ngân hàng Nhà nước để tổ chức vận hành, khai thác kho dữ liệu này
4 Nhiệm vụ nghiên cứu
− Nghiên cứu lý thuyết về Data Warehouse
− Thiết kế một kho dữ liệu Báo cáo thống kê theo kiến trúc của Data Warehouse
− Tổ chức, khai thác thông tin từ kho dữ liệu Báo cáo thống kê
5 Phương pháp nghiên cứu
Nghiên cứu thực tiễn: nghiên cứu các yêu cầu của người sử dụng tại các
Vụ, Cục Ngân hàng Trung ương về nhu cầu sử dụng thông tin báo cáo thống kê Phương pháp nghiên cứu lý thuyết: nghiên cứu các tài liệu về Data Warehouse
Phương pháp tiếp cận hệ thống: đối tượng nghiên cứu có quan hệ chặt chẽ với các hệ thống thông tin khác đã có sẵn
6 Kết cấu luận văn
Nội dung chính của luận văn gồm 4 chương:
Chương 1: Những khái niệm cơ bản về kho dữ liệu và kho dữ liệu chuyên
đề
Chương 2: Các công cụ của Oracle trợ giúp việc phát triển Data Warehouse
Trang 8Chương 3: Ứng dụng Data Warehouse xây dựng hệ thống Báo cáo thống kê cho Ngân hàng Nhà nước
Chương 4: Tổ chức khai thác báo cáo với kho dữ liệu
Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài
Trang 9Chương I KHÁI NIỆM VỀ KHO DỮ LIỆU
Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan trọng cần được quản lý và khai thác hiệu quả Hơn bao giờ hết, tất cả các tổ chức kinh doanh trên thế giới đều tập trung phát triển hệ thống thông tin như một nguồn lực chủ chốt trong việc tạo ra ưu thế cạnh tranh cũng như tăng khả năng đáp ứng đối với thị trường biến động không ngừng Chính vì vậy, yêu cầu về một phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý thông tin nhanh đã dẫn đến sự ra đời của kho dữ liệu
Những dự án đầu tiên về kho dữ liệu được xây dựng từ những năm
1984-1988 Cho đến những năm 1994, ở các nước phát triển, các dự án xây dựng kho
dữ liệu phát triển mạnh mẽ Lúc đầu, các dự án này chỉ được phát triển ở những
tổ chức lớn Cùng với nhu cầu phát triển của kho dữ liệu, nhiều công cụ trợ giúp cho việc phát triển kho dữ liệu cũng ra đời và không ngừng hoàn thiện: Nhiều hệ quản trị cơ sở dữ liệu (CSDL) được bổ sung thêm các công nghệ và công cụ cho việc phát triển và khai thác kho dữ liệu Trong số các hãng phát triển hệ quản trị CSDL truyền thống như Oracle, DB2, Microsoft SQL server,…Oracle là hãng hàng đầu thế giới trong lĩnh vực hệ quản trị CSDL có công nghệ xây dựng kho
dữ liệu tiên tiến (theo báo cáo của Gartner về thị phần của các hệ quản trị CSDL, Oracle chiếm tới 47,1% thị phần năm 2006) Đặc biệt Oracle 11g có rất nhiều tính năng tiên tiến cho việc xây dựng và khai thác các CSDL lớn như: khả năng nén và phân vùng dữ liệu hiệu quả, tự động hóa nhiều hoạt động phân vùng và
mở rộng các phương pháp phân vùng khác nhau, hoàn thiện các bộ công cụ phân vùng, nén và xử lý cả dữ liệu có cấu trúc và phi cấu trúc, … [16]
1.1 Khái niệm về kho dữ liệu
1.1.1 Định nghĩa
Kho dữ liệu (Data Warehouse – DWH) không phải là một khái niệm mới
và đã được định nghĩa theo rất nhiều cách khác nhau, vì vậy khó có thể định nghĩa chuẩn xác được Theo một nghĩa nào đó thì kho dữ liệu được xem như là một CSDL lớn tập trung dữ liệu từ nhiều nguồn trong doanh nghiệp Việc sử dụng DWH sẽ tạo ra một sự đồng nhất về thông tin doanh nghiệp và từ kho dữ liệu này doanh nghiệp có thể nhận được các chỉ tiêu phân tích hay dùng các công cụ hỗ trợ để theo dõi các chỉ tiêu cần quan tâm Vì thế, kho dữ liệu có thể được xem là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho
Trang 10người dùng những thông tin khó có thể truy nhập hoặc biểu diễn trong cơ sở dữ liệu (CSDL) tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại [1] Bill Inmon, người được xem là kiến trúc sư
đầu tiên xây dựng kho dữ liệu đã định nghĩa: “Kho dữ liệu là tập hợp dữ liệu
hướng chủ đề, được tích hợp, gắn với thời gian và ổn định được thiết kế cho việc hỗ trợ quá trình ra quyết định của người quản lý”[10]
Về bản chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ
để phát triển dữ liệu của các hệ thống hỗ trợ quyết định Dữ liệu phát sinh từ trong các hoạt động hàng ngày và được thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp Các hoạt động thu thập xử lý dữ liệu tác nghiệp được gọi là xử lý giao dịch trực tuyến (Online Transaction Processing - OLTP) Trái lại, kho dữ liệu phục vụ cho việc phân tích các kết quả mang thông tin mức cao Các hệ thống thông tin thu thập xử lý dữ liệu loại này được gọi là xử lý phân tích trực tuyến (Online Analytical Processing - OLAP) Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte Nó được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống
đã có sẵn từ trước DWH là một kho dữ liệu quan hệ đa chiều được thiết kế cho việc truy vấn dữ liệu và phân tích hơn là cho việc xử lý giao dịch Một DWH thường chứa dữ liệu lịch sử mong muốn từ dữ liệu giao dịch Nó phân tích riêng
rẽ khối dữ liệu từ dữ liệu giao dịch và cho phép lấy dữ liệu từ nhiều nguồn
Có ba kiểu kho dữ liệu thường gặp:
− Kho dữ liệu doanh nghiệp (Enterprise Data Warehouse - EDW): kho
dữ liệu loại này cung cấp một tập dữ liệu trung tâm được tổ chức hỗ trợ cho việc ra quyết định của cả công ty (xí nghiệp)
− Kho dữ liệu tác nghiệp (Operational Data Store - ODS): kho dữ liệu
loại này dùng cho các công ty có phạm vi rộng, nhưng nó không giống với kho dữ liệu doanh nghiệp Ở đây dữ liệu được làm tươi ngay tức thì và được sử dụng cho những hoạt động thường nhật Theo định nghĩa của Inmon, ODS khác EDW ở chỗ, nó bị giới hạn về tính lịch
sử của dữ liệu và được cập nhật dữ liệu thường xuyên hơn
− Kho dữ liệu chuyên đề (Data Mart - DM): kho dữ liệu chuyên đề là
một DWH cỡ nhỏ và nó hỗ trợ cho những nghiệp vụ chuyên biệt hoặc cho những chức năng nghiệp vụ cụ thể
Trang 11Trong ba loại kho dữ liệu trên, thì ODS là sự nâng cấp từ CSDL vốn tồn tại
trong doanh nghiệp nếu doanh nghiệp có tổ chức các CSDL phục vụ cho hoạt động của mình DWH và DM cần được phát triển dựa trên việc mô hình hoá dữ
liệu theo các chiều, trong đó các bảng sự kiện (Fact table) được kết nối với các
bảng chiều (Dimension table) Mục tiêu của việc xây dựng các kho dữ liệu này
là nhằm phục vụ cho các hoạt động nghiệp vụ ở mức cao hơn với hiệu quả cao
1.1.2 Các tính chất của Data Warehouse
Một kho dữ liệu được xác định là một CSDL trong đó có chứa bốn đặc tính
sau: hướng chủ đề, tính ổn định, được tích hợp, gắn với thời gian
vụ các giao dịch đó Trong khi đó, dữ liệu lưu trữ trong kho dữ liệu được dùng
để phục vụ mục đích phân tích và hỗ trợ quyết định Đây là một trong những chức năng phức tạp
1.1.2.2 Tính ổn định
Hình 1.1 Tính ổn định của dữ liệu trong Data Warehouse
Dữ liệu trong kho dữ liệu là dữ liệu hướng chủ đề, không được hiệu chỉnh, sửa đổi mà nó chỉ nhằm mục đích phục vụ truy vấn thông tin Nhờ yếu tố này
mà tốc độ tổng hợp dữ liệu tăng lên một cách đáng kể Hơn nữa kết quả trả lại khi thực hiện công việc phân tích trong những thời gian gần nhau thì hầu như là giống nhau
kho dữ liệu
Hệ tác nghiệp
Thêm Sửa Xóa
trích lọc, chuyển đổi và nạp
dữ liệu
Truy vấn
Trang 121.1.2.3 Được tích hợp
Một kho dữ liệu được xây dựng bằng việc tích hợp nhiều nguồn dữ liệu, lưu trữ trong một cấu trúc đồng nhất, toàn vẹn Ví dụ như là dữ liệu về ngày tháng phải luôn được chứa ở cùng một dạng chuẩn Tích hợp dữ liệu là một vấn
đề luôn được đặt ra của hầu hết các cách tổ chức, đặc biệt là việc tích hợp dữ liệu đòi hỏi phải sử dụng đến nhiều công nghệ chuyên dụng đang được biết đến
Sự khác biệt là ở các quy tắc cơ bản ví dụ như là tập ký tự Hệ ký tự được dùng chủ yếu trong các hệ thống là ASCII (American Standard Code for Informaiton Interchange) Tuy nhiên có một số hệ thống không dùng hệ ký tự này Ngoài ra còn có một số nguyên nhân không dễ thấy được như là trong cùng một kiểu dữ liệu nhưng với các hệ quản trị CSDL khác nhau là khác nhau Vì vậy, việc truy nhập theo các phương thức tuần tự là không hiệu quả Hơn nữa, trước khi dữ liệu được đưa vào kho dữ liệu thì nó phải được tích hợp Sự tích hợp này là một tiến trình xuyên suốt trong thời gian khi dữ liệu được chuyển vào kho dữ liệu và sau khi nó được đưa vào CSDL ứng dụng và trước khi được đưa vào CSDL của kho dữ liệu
1.1.2.4 Gắn với thời gian
Đối với kho dữ liệu, yếu tố thời gian được gắn liền với các dữ liệu Điều này nghĩa là dữ liệu được ghi lại theo thời gian lưu trữ các dữ liệu Tuy nhiên, hầu hết các truy vấn đều được xử lý ngược lại với việc có một vài thuộc tính về thời gian được lưu trữ trong kho dữ liệu Chúng ta đã xác định rằng, hầu hết các
hệ tác nghiệp đều không chứa các thông tin về lịch sử của nó Sẽ không thể đoán trước được chuyện gì sẽ xảy ra trong tương lai nếu chúng ta không quan sát được chuyện gì đã xảy ra trong quá khứ Một kho dữ liệu sẽ giúp chúng ta lấy ra các thông tin cơ bản này bằng cách thêm trường lịch sử thời gian vào dữ liệu được lấy từ hệ tác nghiệp Như vậy, đối với một doanh nghiệp thì bản thân DWH là một “ảnh chụp nhanh” trạng thái của doanh nghiệp tại các thời điểm khác nhau Nó hỗ trợ việc định ra phương hướng và công tác dự báo cho tương lai Vì thế thuộc tính thời gian được ngầm hiểu trong DWH như là một thuộc tính bắt buộc Thời gian đóng vai trò như một phần để đảm bảo tính đơn nhất của các bản ghi và cung cấp đặc trưng về thời gian cho dữ liệu
1.1.3 Cơ sở dữ liệu tác nghiệp và kho dữ liệu
Thông thường, khi tin học hóa hoạt động quản lý một tổ chức, người ta thường xây dựng CSDL cho các hoạt động quản lý nghiệp vụ thường xuyên của
Trang 13tổ chức và ta có được CSDL tác nghiêp Hệ thống thông tin tác nghiệp với các
dữ liệu tác nghiệp có các đặc điểm sau:
− Trợ giúp công việc hàng ngày
− Chứa các dữ liệu hiện thời, phản ánh trạng thái của công việc
− Hoạt động của hệ thống thường đơn giản, giới hạn trong một phạm vi nghiệp vụ đã xác định, và hoạt động chính yếu là cập nhật dữ liệu
− Xử lý thông tin hướng đến việc xử lý nhanh các tác vụ đã được định trước
− Người dùng là người làm công việc cụ thể, ở mức độ chi tiết như nhân viên bán hàng, thư ký, thủ kho,…
− Thiết kế thường khó hiểu (các bảng dữ liệu phải đạt chuẩn 3 trở lên) đối với người dùng và che dấu đi những quan hệ trực quan của đời thường
Trong khi đó kho dữ liệu hướng vào trợ giúp quá trình phân tích và ra quyết định cần có các tính chất sau:
− Trợ giúp quá trình quản lý và điều hành công việc
− Chứa các dữ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của công việc trong một giai đoạn hay những thời điểm trong quá khứ
− Được tối ưu hóa cho việc truy vấn, với câu hỏi đã xác định trước hay được thiết lập theo yêu cầu người dùng
− Người dùng là những nhà quản lý, phân tích, dự báo hay đánh giá công việc và ra quyết định, các yêu cầu thường đa dạng và có tính nghiệp vụ chuyên ngành
− Dữ liệu được thiết kế dễ hiểu và dễ sử dụng đối với người dùng
1.2 Kiến trúc thành phần của Data Warehouse
1.2.1 Các loại kiến trúc của Data Warehouse
Có một số loại kiến trúc của DWH thường gặp:
Hình 1.2 chỉ ra một kiến trúc đơn giản của DWH Người sử dụng truy cập
trực tiếp vào dữ liệu được dẫn xuất từ nhiều nguồn dữ liệu thông qua DWH
Trang 14Hình 1.2 Kiến trúc đơn giản của DWH
Kiến trúc kho dữ liệu với vùng dữ liệu gắn nhãn được biểu diễn như hình
1.3 Ở đây siêu dữ liệu và các dữ liệu chưa chế biến của hệ thống OLTP hiện tại được đưa vào cùng dữ liệu tổng hợp Các dữ liệu tổng hợp rất có giá trị trong DWH vì nó được tính trước trong quá trình nạp dữ liệu vào DWH nên thuận tiện cho việc truy xuất dữ liệu cho người dùng Như vậy, để có được các dữ liệu trong DWH cần có một quá trình làm sạch và những thao tác chế biến dữ liệu trước khi đẩy dữ liệu vào DWH
Hình 1.3 Kiến trúc của DWH với vùng gắn nhãn (Staging area)
Trang 15Chúng ta có thể thực hiện quá trình này bằng cách sử dụng một chương trình tự động hoặc sử dụng vùng gắn nhãn thay thế Vùng này làm đơn giản việc xây dụng các bảng tổng hợp và quản lý DWH
Loại kiến trúc phức tạp hơn cả là kiến trúc kho dữ liệu với vùng gắn nhãn
và các kho chuyên đề (Staging Area and Data marts) Kho dữ liệu loại này được
biểu diễn như ở hình 1.4
Hình 1.4 Kiến trúc của DWH với vùng gắn nhãn và các DM
Kiến trúc loại này tương tự loại ở trên nhưng thêm một thành phần nữa là các kho dữ liệu chuyên đề Nhờ vậy, nó có thể đáp ứng được thêm các yêu cầu liên quan đến các nghiệp vụ cụ thể, chuyên biệt
1.2.2 Các thành phần cơ bản của kiến trúc Data Warehouse
Kiến trúc tổng quát của kho dữ liệu bao gồm các thành phần [1,12,13] sau:
Các dữ liệu nguồn: là đầu vào cho kho dữ liệu
Dữ liệu nguồn trong trường hợp điển hình bao gồm nhiều loại khác nhau:
Các dữ liệu từ các hệ thống tác nghiệp: các dữ liệu chi tiết nhận
được từ các hoạt động nghiệp vụ hàng ngày
Các dữ liệu kế thừa: các dữ liệu cũ không dùng cho hoạt động hàng
ngày, các phương pháp tổ chức dữ liệu khác với mô hình hiện hành, các dữ liệu được mã hóa khi đã qua sử dụng và các thông tin đầy đủ
về cấu trúc và ngữ nghĩa của dữ liệu kế thừa
Trang 16 Các dữ liệu bên trong khác
vụ thu thập, chuẩn hóa, làm sạch, chắt lọc, tích hợp dữ liệu và nạp vào kho dữ liệu
Kho dữ liệu: là nơi lưu trữ các loại dữ liệu Nó gồm ba khối lớn: các dữ liệu thô, các dữ liệu tổng hợp và siêu dữ liệu Các chức năng chính của
siêu dữ liệu bao gồm:
Định nghĩa các dữ liệu lưu trữ trong kho
Mô tả các báo cáo và các truy vấn
Mô tả các quy định sao chép, cập nhật và nạp dữ liệu
Mô tả cách truy nhập dữ liệu
Các kho dữ liệu chuyên đề lưu các dữ liệu về một lĩnh vực, một chuyên ngành
Các công cụ truy vấn giúp tạo báo cáo, phân tích trực tiếp và khai phá
dữ liệu
Hệ quản trị kho dữ liệu Nó có chức năng nạp vào, nạp lại dữ liệu, trích
lọc dữ liệu, đảm bảo an toàn truy nhập, sao lưu và phục hồi dữ liệu
Hệ thống phân phối thông tin bao gồm hai lớp:
Lớp chuyển tải dữ liệu giữa các thành phần của kho và các bộ phận
liên quan
xác định các phần mềm ứng dụng cho người dùng, cho việc sao chép, cập nhật, kết nối, tổng hợp dữ liệu, cung cấp các dịch vụ quản
lý các khối dữ liệu, và các xử lý yêu cầu
1.2.3 Các lược đồ dữ liệu của Data Warehouse [10,11]
Khi phát triển một kho dữ liệu thường sử dụng hai lược đồ để tổ chức lưu
trữ dữ liệu, đó là lược đồ hình sao (start Flake) và lược đồ bông tuyết (Snow
Flake)
1.2.3.1 Lược đồ hình sao
Lược đồ hình sao là lược đồ dữ liệu quan hệ diễn tả dữ liệu nhiều chiều Nó
là dạng lược đồ đơn giản nhất của DWH chứa một hoặc nhiều chiều và một
Trang 17bảng sự kiện Nó được gọi là lược đồ hình sao vì sơ đồ quan hệ thực thể giữa các bảng chiều và bảng sự kiện giống như hình sao mà trong đó bảng sự kiện được kết nối với nhiều bảng chiều Trung tâm của lược đồ hình sao bao gồm một bảng sự kiện lớn và nối đến các bảng chiều (hình 1.5) Lợi ích của lược đồ hình sao là sự tách được các dữ liệu thành các lớp nhỏ theo các bảng chiều, tăng tốc độ của việc trình diễn dữ liệu và dễ dàng hiểu được về dữ liệu
Hình 1.5 Lược đồ hình sao của DWH
a Các thành phần của lược đồ hình sao
Lược đồ hình sao có 3 thành phần chính:
− Bảng sự kiện và nội dung của nó: Những thuộc tính và các khóa ngoài
cần thiết để liên kết các bảng chiều
− Các bảng chiều và nội dung của nó: các thuộc tính và các thuộc tính
tham chiếu Các bảng chiều đã được chuẩn hóa
− Các đường kết nối bảng chiều với bảng sự kiện
b Các bước thiết kế một lược đồ hình sao
Để thiết kế mô hình lôgic của lược đồ hình sao cần tiến hành các bước sau:
− Xác định quá trình nghiệp vụ để phân tích yêu cầu (như nghiệp vụ bán hàng)
Các thuộc tính đo
TÊN BẢNG CHIỀU
Các thuộc tính mô tả Các thuộc tính phâncấp Các thuộc tính đo
Trang 18− Xác định danh sách các cột cho mỗi bảng chiều (tên vùng, tên chi nhánh,…)
− Xác định mức thấp nhất tổng hợp các mức cao trong bảng sự kiện
1.2.3.2 Lược đồ bông tuyết
Lược đồ bông tuyết là một cải tiến của lược đồ hình sao, trong đó một số
chiều được phân cấp để thể hiện rõ ràng dạng chuẩn của bảng chiều Điều này dẫn đến nhiều lợi ích trong việc duy trì các bảng chiều Tuy nhiên, cấu trúc phi chuẩn của các bảng chiều trong lược đồ hình sao có thể thích hợp hơn cho việc duyệt các chiều Trong lược đồ bông tuyết (hình 1.6), các bảng chiều được chuẩn hóa Trong một vài trường hợp, lược đồ này cải thiện việc truy xuất dữ liệu vì các bảng nhỏ hơn được liên kết với nhau nên dễ bảo trì, tăng tính mềm dẻo Tuy nhiên, lúc này số lượng bảng sử dụng đã bị tăng lên, việc thực hiện những câu truy vấn khó khăn hơn nhiều vì có nhiều bảng cần liên kết với nhau Lược đồ bông tuyết gồm 4 thành phần chính:
− Bảng sự kiện và nội dung của nó: Những thuộc tính và các khóa ngoài
cần thiết để liên kết các bảng chiều
− Các bảng chiều và nội dung của nó: các thuộc tính và các thuộc tính
tham chiếu, các bảng chiều đã được chuẩn hóa
− Các đường kết nối bảng chiều với bảng sự kiện
Đường kết nối giữa các bảng chiều
Hình 1.6 Lược đồ bông tuyết của DWH
TÊN BẢNG SỰKIỆN
Khóa ngoại Khóa ngoại Khóa ngoại Các thuộc tính đo
Các thuộc tính đo
TÊN BẢNG CHIỀU
Các thuộc tính mô tả Các thuộc tính đo
Trang 191.3 Các mô hình thiết kế cơ sở dữ liệu
Tiến trình thiết kế CSDL bao gồm các công việc thiết kế theo tuần tự các
mô hình sau: mô hình quan niệm, mô hình lôgíc, mô hình vật lý Điểm xuất phát
là thiết kế mô hình quan niệm, việc này quyết định các lĩnh vực chủ đề nào được đưa vào và biểu diễn mô hình hóa dữ liệu lôgíc là bước tiếp theo để phát sinh ra các bảng, các cột phản ánh các chủ đề và quan hệ cần có trong cơ sở dữ liệu Đây là nền tảng của thiết kế CSDL của kho dữ liệu
1.3.1 Mô hình dữ liệu lôgíc
Thiết kế dữ liệu lôgíc là quá trình tìm hiểu những yêu cầu về dữ liệu của tổ chức, mô tả chúng dưới dạng các thực thể, các thuộc tính và các mối quan hệ Vì vậy việc thiết kế lôgíc phải đảm bảo sao cho dữ liệu có tính trừu tượng cao và không phụ thuộc vào phương pháp lưu trữ
Mô hình dữ liệu lôgíc cho phép người thiết kế có thể hình dung trước được các thành phần dữ liệu khác nhau trước khi nó được thực sự chiết lọc, làm sạch hay là chuyển dạng vì những lý do tăng cường hiệu năng, cho phép giảm bớt được sự dư thừa dữ liệu
Mục tiêu của thiết kế dữ liệu là vẫn tạo ra một cấu trúc dữ liệu đủ linh động
để có thể thích nghi được với những yêu cầu thay đổi sau này
Về cách thức và công cụ thiết kế dữ liệu lôgíc của DWH không có gì khác biệt so với thiết kế mô hình dữ liệu cho các hệ thống tác nghiệp thông thường Tuy nhiên, có một điều khác nhau cơ bản giữa việc xây dựng CSDL của DWH
và các CSDL cho các hệ tác nghiệp thông thường khác là sản phẩm được tạo ra khác nhau về mục đích sử dụng
Khi xây dựng mô hình dữ liệu lôgíc cho DWH thì người thiết kế phải cân nhắc các vấn đề cơ bản sau:
− Phi chuẩn dữ liệu trong DWH: Thiết kế dữ liệu phi chuẩn thường
được bắt đầu từ mô hình dữ liệu chuẩn (thường là đạt chuẩn Codd), sau đó phá vỡ một số chuẩn để đạt được những mục đích do yêu cầu nghiệp vụ đặt ra
dữ liệu cần chính xác đến độ nào là một vấn đề quan trọng khi xây dựng DWH Trong số các chiều cần được xem xét thì chiều thời gian
là chiều đáng chú ý nhất Cần phải cân nhắc xem độ chi tiết của chiều thời gian là bao nhiêu: giờ, ngày, tuần, tháng hay năm Hơn nữa, cũng
Trang 20cần phải tính đến hệ thống phân cấp trong các chiều Bởi vì trong DWH cây phân cấp chiều có thể là không hoàn thiện Chính vì vậy khi xây dựng DWH cần phải chú ý đến các việc như: sử dụng các chuẩn
đo, tránh sử dụng giá trị NULL, sử dụng lệnh trừu tượng thay cho các
mã lệnh khi trình bày với người dùng, tạo ra các bảng lưu các quy tắc biến đổi và hoán chuyển để người dùng có thể tìm thấy khi họ cần
Mô hình dữ liệu thường được dùng để thiết kế DWH là giản đồ hình sao
Ta đã biết rằng, giản đồ hình sao là sự kết hợp của bảng sự kiện và các bảng chiều Như vậy tổ chức dữ liệu vật lý trong hệ thống DWH được chia thành 2 phần cơ bản: Các sự kiện và các chiều
a Bảng sự kiện
Bảng sự kiện là một bảng CSDL quan hệ với các đặc điểm:
− Thường là bảng lớn nhất trong CSDL của kho, chứa tất cả các số liệu chi tiết trong kho dữ liệu
− Thông thường, các bảng sự kiện có khóa ngoài là các khóa chính của các bảng chiều Từ đó thì bảng sự kiện đòi hỏi một cột dữ liệu lưu trữ
dữ liệu mỗi sự kiện trong đó các sự kiện này lại có giá trị tham chiếu các thuộc tính của các bảng chiều và các giá trị chiều
− Số lượng bản ghi tăng lên nhanh chóng, mức độ tăng phụ thuộc vào lượng dữ liệu đưa vào kho để làm tươi và lượng dữ liệu đòi hỏi tính lịch sử
− Khóa chính gồm nhiều phần, mỗi phần tham chiếu đến một bảng chiều mà dữ liệu sự kiện có thể truy nhập Tất cả các giá trị khóa đều được đánh số
− Dữ liệu chuẩn hóa ở mức cao
b Bảng chiều
Trang 21Bảng chiều là một bảng trong CSDL quan hệ có một phần khóa được kết nối với bảng sự kiện Các bảng chiều khác nhau kết hợp với bảng sự kiện để trả lời cho các câu hỏi về nghiệp vụ Bảng chiều mô tả các chủ đề nghiệp vụ với những đặc điểm chủ yếu sau:
− Chứa các dữ liệu có quan hệ tĩnh trong kho dữ liệu
− Lưu trữ các chiều thông tin thường sử dụng trong truy vấn
Dữ liệu chiều không thường xuyên được làm tươi như dữ liệu trong bảng
sự kiện nhưng chúng vẫn có thể thay đổi được Tuy nhiên, khi số lượng chiều tăng lên thì số lượng bản ghi trong CSDL tăng lên một cách đáng kể Lúc đó người dùng cuối tăng lên có thể sẽ có những sai sót nếu số chiều tăng lên đến 7 hay 8 chiều
Trong số tất cả các chiều có thể xây dựng bên trong mô hình dữ liệu thì thời gian là một chiều quan trọng trong kho dữ liệu Hầu như mọi kho dữ liệu đều có chiều thời gian Vì các sự kiện trong kho được xảy ra và lưu trữ theo thời gian thực, cho nên việc sử dụng chiều này cho phép người dùng có thể phân tích được các thời kỳ qua từng khoảng thời gian
Dữ liệu theo chiều là dữ liệu ở mức chi tiết nhất Sau đó được kết hợp lại thành mức cao hơn, có lợi cho việc phân tích Việc phân tích hay kết hợp trong một bảng chiều được gọi là sự phân cấp Phân cấp là một cấu trúc dữ liệu lôgíc được xây dựng nhằm mục đích sắp xếp dữ liệu và nó có thể được sử dụng để định nghĩa sự kết hợp dữ liệu
Khái niệm phân cấp là khái niệm đào sâu dữ liệu hay là phân rã một cấp lớn hơn thành các cấp nhỏ hơn Việc này cho phép người dùng có thể xem các mức chi tiết khác nhau của dữ liệu Đây là thế mạnh của DWH
Như vậy, trong các thiết kế phân cấp cần phải xem xét kỹ lưỡng các mối quan hệ trong các cấu trúc nghiệp vụ, và thường thì việc phân tích dữ liệu bắt đầu ở mức cao hơn trong phân cấp các chiều và dần dần phân cấp sâu hơn nếu tình huống cho phép
1.4 Kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề (Data Mart – DM) là CSDL có những đặc điểm
giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành DM là kho dữ liệu hướng chủ đề
Trang 221.4.1 Khái niệm kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề là một dạng đơn giản của kho dữ liệu đề cập đến một lĩnh vực riêng hoặc một miền chức năng riêng như lĩnh vực bán hàng, tài chính hay tiếp thị Các DM thường được xây dựng và điều khiển bởi các phòng ban riêng của một tổ chức Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM Trong cả hai cách đó, mỗi cách có những thuận lợi và khó khăn riêng, tùy điều kiện của công
ty mà chọn một phương pháp xây dựng thích hợp
1.4.2 Sự khác nhau giữa Data Warehouse và Data Mart
DWH giải quyết nhiều lĩnh vực và được điều khiển và thực thi đặc biệt bởi một đơn vị tổ chức trung tâm DWH tập hợp dữ liệu từ nhiều nguồn khác nhau Chưa có định nghĩa nào giới hạn kích thước của DM hay độ phức tạp của dữ liệu hỗ trợ ra quyết định trong DM Tuy nhiên DM nhỏ hơn và ít phúc tạp hơn DWH Vì vậy chúng dễ dàng để xây dựng và bảo trì hơn Bảng dưới đây sẽ tổng kết sự khác nhau cơ bản giữa DWH và DM:
Kho dữ liệu Kho dữ liệu chuyên đề
Phạm vi công ty lĩnh vự nghiệp vụ
(Line-of-Business -LoB) Lĩnh vực nhiều loại một loại cụ thể
Nguồn dữ liệu nhiều một vài
Kích cỡ 100 GB - TB+ < 100 GB
Thời gian thực thi hàng tháng hàng năm hàng tháng
1.4.3 Các dạng cơ bản của Data Mart
Hai dạng cơ bản của DM là kho dữ liệu chuyên đề độc lập (Independent
data marts) và kho dữ liệu chuyên đề phụ thuộc (Dependent data marts) được
chỉ ra như hình 1.7 và 1.8 Sự phân nhóm dựa chủ yếu trên nguồn dữ liệu xây
dựng nên DM DM phụ thuộc lấy dữ liệu từ một kho dữ liệu trung tâm đã được tạo sẵn DM độc lập là hệ thống đứng một mình, lấy dữ liệu từ nguồn dữ liệu nội
tại hoặc dữ liệu ngoài hoặc từ cả hai
Trang 23Hình 1.7 Kho dữ liệu chuyên đề phụ thuộc
Hình 1.8 Kho dữ liệu chuyên đề độc lập
Sự khác nhau chính giữa DM độc lập và DM phụ thuộc là chúng ta sẽ lấy
dữ liệu như thế nào từ các nguồn để đưa vào các DM Bước này được gọi là tiến
trình trích lọc, biến đổi và di chuyển
(Extraction-Transformation-Transportation-ETT) dữ liệu từ hệ thống đang hoạt động vào DM
− Với DM phụ thuộc, tiến trình này được đơn giản hơn do việc làm sạch
dữ liệu đã được làm sẵn từ khi đưa dữ liệu vào DWH Tiến trình ETT
của DM phụ thuộc chủ yếu là quá trình định nghĩa những dữ liệu liên
Kho dữ liệu các kho dữ
liệu chuyên đề
Hệ thống tác nghiệp
tiếp thị bán hàng tài chính
tiếp thị
bán hàng
tài chính
Hệ thống tác nghiệp
Bán hàng
Trang 24quan đến lĩnh vực DM được chọn và sao chép vào nó Vì vậy DM chứa những dữ liệu được lấy từ DWH và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ
đề nhất định của DM
− Với DM độc lập, không giống như DWH phụ thuộc, nó được xây
dựng trước DWH và dữ liệu được trực tiếp lấy từ các nguồn khác nhau, do vậy chúng ta phải làm tất cả các công việc của tiến trình ETL như đã làm với DWH Số các nguồn dữ liệu chắc chắn ít hơn và tổng
số những dữ liệu kết hợp với DM ít hơn so với DWH
Một số đặc điểm của của kho dữ liệu độc lập:
− Chứa cả dữ liệu tổng hợp và chi tiết
Động cơ xây dựng hai loại DM này cũng khác nhau DM phụ thuộc thường
được xây dựng để cải thiện việc thực hiện và tính sẵn sàng, điều khiển tốt hơn và
chi phí cho việc truyền thông thấp hơn Việc tạo các DM độc lập thường được
dùng trong trường hợp cần có những giải pháp trong thời gian ngắn
Trang 25Chương II CÔNG CỤ ORACLE TRỢ GIÚP PHÁT TRIỂN DATA
WAREHOUSE VÀ DATAMART
Ngày nay việc lựa chọn sản phẩm, công cụ để phát triển DWH và DM là một bài toán khó, một thử thách đối với người thực hiện vì có nhiều sản phẩm, nhiều nhà cung cấp dịch vụ Một trong các nhà cung cấp dịch vụ được quan tâm nhiều nhất là Oracle Để đảm bảo có được một kho dữ liệu hỗ trợ tốt cho việc ra quyết định, Oracle đã liên tục đưa ra các phiên bản của Warehouse Builder Đây
là công cụ cung cấp giải pháp tích hợp cho việc thiết kế và phát triển DWH và
DM Nó giải quyết các vấn đề phức tạp của dữ liệu tích hợp giữa các nguồn dữ liệu phân tán và dữ liệu đích Oracle Warehouse Builder còn cung cấp tất cả những chức năng cần thiết cho việc phát triển và bảo trì của hệ thống kho dữ liệu Trung tâm máy tính của Ngân hàng Nhà nước đang sử dụng hệ quản trị CSDL Oracle, vì thế nó cũng được chọn để phát triển DWH và DM
2.1 Kiến trúc của Warehouse Builder
Oracle Warehouse Builder [15,16] là công cụ thiết kế và thực hiện việc xây
dựng và quản lý kho dữ liệu Nó kết hợp cả công cụ thiết kế và công cụ trích lọc, chuyển đổi, chuyển dịch và lấy dữ liệu Kiến trúc của Oracle Warehouse Builder
bao gồm hai thành phần (hình 2.1): Môi trường thiết kế và môi trường vận hành Môi trường thiết kế quản lý siêu dữ liệu (metadata), trong khi đó môi trường
vận hành lại điều khiển dữ liệu vật lý
2.1.1 Môi trường thiết kế
Môi trường thiết kế bao gồm kho siêu dữ liệu có tính trừu tượng cao được lưu trữ trong CSDL Oracle và một bộ thiết kế và các công cụ báo cáo được viết bằng Java hoặc HTML Sử dụng các công cụ này, siêu dữ liệu có thể được xem
và được điều khiển một cách dễ dàng
Việc tạo kho siêu dữ liệu là hoạt động thiết kế mà người sử dụng dùng các công cụ để tạo ra các đối tượng, các tiến trình và các công việc Warehouse Builder hỗ trợ thiết kế cho các lược đồ dữ liệu quan hệ, lược đồ nhiều chiều, quá trình ETL,…
Trang 26Hình 2.1 Sơ đồ phát triển hệ thống theo Warehouse Builder
Các hệ thống nguồn đóng vai trò quan trọng trong bất kỳ giải pháp ETL nào Thay thế cho việc tạo siêu dữ liệu bằng tay, Warehouse Builder cung các thành phần tích hợp để đưa các thông tin được thích hợp vào kho lưu trữ của nó Một trong những điểm mạnh của kiến trúc Warehouse Builder là nó trợ giúp việc quản lý vòng đời phát triển hệ thống Nó cho phép siêu dữ liệu được cập nhật dựa trên những thay đổi trong hệ thống nguồn Sau đó tinh giản những thay đổi này đưa đến tiến trình ETL và hệ thống đích
Để đảm bảo chất lượng và tính đầy đủ cho siêu dữ liệu trong kho lưu trữ, Warehouse Builder cung cấp sự kiểm tra bao quát từng vùng lưu trữ Sự kiểm tra giữ cho một hệ thống phức tạp được nhiều người sử dụng tạo ra luôn có được trạng thái chính xác và kết dính với nhau
Ngoài ra, trong quá trình phát triển và đánh giá siêu dữ liệu, luôn có một trang web báo cáo về môi trường siêu dữ liệu Những báo cáo về môi trường cho phép người phát triển và người sử dụng hiển thị và kiểm tra các thành phần của
hệ thống mà không cần sử dụng công cụ thiết kế Một thành phần rất quan trọng
của môi trường báo cáo này là thành phần Các khả năng phân tích tương tác (Impact Analysis capabilities) Nó cho phép nhận dạng được những tương tác
lẫn nhau của các thay đổi trong hệ thống trước khi chúng được thực thi Báo cáo
Sơ đồ thiết kế của Warehouse Builder
Lập báo cáo siêu dữ liệu
Lập báo cáo thời gian thực
Kho lưu trữ siêu dữ liệu của Warehouse Builder
Môi trường thời gian thực của Warehouse Builder
Trang 27này cho phép việc điều khiển những thay đổi tốt hơn và việc lập kế hoạch thực thi những thay đổi cũng tốt hơn
thống hoặc trong CSDL Việc thực hiện tiến trình ETL có thể dùng Warehouse
Builder Deployment Manager của Warehouse Builder hoặc một công cụ khác
như Oracle Enterprise Manager
Phần này có những đoạn chương trình kiểm tra để báo cáo về quá trình lấy
dữ liệu, sinh mã Có thể nắm bắt được các thông tin này ngay khi hệ thống đang
chạy bằng việc sử dụng bộ Runtime Audit Browser
2.2 Các chức năng chính của Warehouse Builder
Warehouse Builder có các chức năng chính sau:
− Định nghĩa các dữ liệu nguồn
− Thiết kế và tạo lược đồ kho dữ liệu đích
− Định nghĩa việc chuyển dịch dữ liệu giữa dữ liệu nguồn và kho dữ liệu đích
− Định nghĩa những sự phụ thuộc giữa tiến trình ETL
− Định nghĩa việc quản lý và cập nhật dữ liệu
− Triển khai, nâng cấp và quản lý lược đồ đích
− Thiết kế và tạo ra một môi trường OLAP
− Thiết kế và tạo ra môi trường công cụ truy vấn
2.3 Các thành phần của Warehouse Builder
2.3.1 Ứng dụng phía khách của Warehouse Builder Client Application
Ứng dụng phía khách của Warehouse Builder (Warehouse Builder Client Application) cung cấp một giao diện dễ sử dụng cho phép định nghĩa, thiết kế và
triển khai hệ thống Hai thành phần Bộ sinh mã (Code Generator) và Bộ quản lý
Trang 28phát triển (Deployment Manager) giúp cho quá trình kiểm soát việc tạo và quản
lý hệ thống được tốt hơn
Bộ sinh mã: thành phần này sinh ra các script như DDL, PL/SQL dựa trên
siêu dữ liệu trong kho Các script sinh ra cung cấp sự thực hiện tối ưu cho các hệ thống CSDL Oracle
Bộ quản lý phát triển: thành phần này quản lý mọi mặt của quá trình triển
khai và các đối tượng triển khai
2.3.2 Dịch vụ nền vận hành Warehouse Builder
Dịch vụ nền vận hành của Warehouse Builder (Warehouse Builder Runtime Platform Service) là thành phần của máy dịch vụ Nó cung cấp các dịch
vụ quản lý việc thực thi các ánh xạ và luồng các tiến trình Nó đảm bảo rằng
việc thực thi và triển khai dữ liệu luôn được lưu trong kho lưu trữ vận hành
(Runtime Repository) Với những thực hiện từ xa, nó nối với Oracle Enterprise Manager's Management Server Dịch vụ nền vận hành được gọi thông qua một
công việc của CSDL Nó tự động làm việc khi CSDL khởi tạo và tự động kết thúc khi CSDL tắt
2.3.3 Kho lưu trữ thiết kế của Warehouse Builder
Kho lưu trữ thiết kế của Warehouse Builder (Warehouse BuilderDesign Repository) lưu trữ siêu dữ liệu cho tất cả các đối tượng sử dụng Warehouse
Builder Đây là nơi mà tất cả thông tin thiết kế cho hệ thống đích được lưu trữ
Có thể truy cập vào siêu dữ liệu thông qua giao diện người sử dụng, qua script tiện dụng của Warehouse Builder
2.3.4 Kho lưu trữ vận hành của Warehouse Builder
Kho lưu trữ vận hành của Warehouse Builder (Warehouse Builder Runtime Repository) lưu trữ tất cả dữ liệu khi triển khai dữ liệu cũng như việc ánh xạ dữ
liệu vào các luồng tiến trình Đây là nơi lưu trữ thông tin của môi trường đích dùng cho hệ thống nghiệp vụ thông minh Nó bao gồm thông tin kết nối của tất
cả các trạm triển khai
2.3.5 Trình duyệt báo cáo kiểm toán
Trình duyệt báo cáo kiểm toán (Audit Reporting Browser) cho phép xem
xét việc triển khai và thực hiện các thông tin từ một ứng dụng web Nguồn dữ
liệu của báo cáo được lấy từ Runtime Repository
Trang 292.3.6 Trình duyệt báo cáo siêu dữ liệu
Trình duyệt báo cáo siêu dữ liệu (Metadata Reporting Browser) cho phép
xem xét siêu dữ liệu lưu trữ trong kho thiết kế từ một ứng dụng web và cung cấp thông tin cho người quan tâm
2.4 Các đối tượng của Warehouse Builder
Bảng sự kiện (fact table) và bảng chiều (dimension table) là hai kiểu đối
tượng thường được sử dụng trong lược đồ của WH (hình 2.2)
1 Bảng sự kiện là bảng lớn trong DWH chứa các thước đo nghiệp vụ của
doanh nghiệp Nó cũng chứa các khóa ngoài đến các bảng chiều
2 Bảng chiều là các bảng nhìn vào (lookup) hoặc tham chiếu chứa dữ liệu tĩnh
để qui chiếu trong DWH Nó chứa các thông tin thường được sử dụng trong các câu lệnh truy vấn Bảng chiều là một cấu trúc, chứa một hoặc nhiều cấp
để phân hạng dữ liệu
Hình 2.2 Các đối tượng của Warehouse Builder
3 Sự phân cấp (Hierarchies) là cấu trúc logic để sắp xếp thứ tự các mức trong
việc tổ chức dữ liệu Như với bảng chiều thời gian có thể phân cấp với các mức tháng, quý và năm
4 Các mối quan hệ mức (Level Relationships) chỉ rõ trật tự từ trên xuống của
các mức từ thông tin chung đến riêng, chúng có thể định nghĩa quan hệ cha – con giữa các mức trong cây phân cấp
Trang 302.5 Các bước sử dụng Warehouse Builder
2.5.1 Định nghĩa các đối tượng nguồn và đích
Sau khi hoàn tất quá trình thu thập các yêu cầu cho kho dữ liệu, kho dữ liệu chuyên đề, chúng ta cần thiết kế các đối tượng nguồn, nơi cung cấp dữ liệu (chúng có thể là CSDL, các tệp ứng dụng) và các đối tượng đích, nơi chứa dữ liệu dùng cho mục đích của dự án
2.5.2 Định nghĩa các đối tượng để trích lọc, chuyển đổi và tải dữ liệu
Sau khi tạo và định nghĩa đối tượng lấy dữ liệu trong Warehouse Builder, chúng ta phải định nghĩa các hoạt động trích lọc, chuyển đổi và tải dữ liệu từ các đối tượng nguồn đến các đối tượng đích
2.5.3 Thẩm định và sinh mã
Thẩm định việc định nghĩa các đối tượng dữ liệu và đối tượng ETL và nhận dạng bất kỳ vấn đề hoặc lỗi nào nẩy sinh trong quá trình triển khai Nếu các đối tượng chưa được hợp lệ thì việc sinh mã và triển khai không thể thực hiện Chúng ta có thể kiểm tra các đối tượng và việc sinh các script tại bất cứ thời điểm nào trong quá trình triển khai
2.5.4 Triển khai và thực thi
Sau khi thẩm định các định nghĩa và thiết kế, ta tiến hành vận hành và thực hiện việc bảo trì cần thiết đối với hệ thống
2.6 Những ưu điểm nổi bật khi sử dụng Warehouse Builder
Việc tải dữ liệu vào các bảng thường thông qua các bước của tiến trình ETL Ở đây dữ liệu được trích lọc từ dữ liệu gốc đưa vào vùng trung gian rồi được làm sạch, kiểm tra lỗi trước khi đưa vào kho dữ liệu Các dữ liệu tổng hợp
sẽ được tạo hay cập nhật Quá trình này có thể tốn từ vài giờ đến nhiều ngày và đòi hỏi hàng GB đĩa cứng để lưu các phiên bản khác nhau của dữ liệu trong quá trình xử lý Do thời gian để thực hiện tiến trình ETL tương đối dài nên dữ liệu trong DWH thường bị trễ, không đáp ứng được sự biến đổi tức thời trong dữ liệu Để có được kho dữ liệu tức thời hay gần như tức thời, chúng ta cần thực hiện những công việc sau:
Giảm hay loại bỏ thời gian để lấy dữ liệu mới hoặc thay đổi từ các hệ thống nguồn
Trang 31Loại bỏ hay giảm thiểu thời gian cần để làm sạch, chuyển đổi và tải dữ liệu Giảm thiểu thời gian để cập nhật các dữ liệu tổng hợp
Từ phiên bản 9i trở lên, Oracle đã đưa ra những tính năng mới để hỗ trợ kho dữ liệu có tính tức thời Đó là:
Nắm bắt các thay đổi của dữ liệu (Change Data Capture)
Bảng ngoài (External table), hàm bảng (table function), cơ chế đường
ống, lệnh MERGE và các khung nhìn được làm tư liệu (materialized
view) để làm tươi nhanh dữ liệu
2.6.1 Nắm bắt các thay đổi của dữ liệu
Chức năng này dùng để thực hiện các công việc chuyển dữ liệu từ các hệ thống nguồn vào DWH (nghĩa là phải lấy lại toàn bộ dữ liệu dù có thay đổi hay không thay đổi, dù thay đổi ít hay nhiều) Trước đây phải tìm các cột đánh dấu các bản ghi mới được tạo hay mới được cập nhật và chỉ lấy những bản ghi mới sau lần lấy dữ liệu gần nhất Nhưng từ phiên bản 9i trở đi, Oracle đã có một cách
làm tốt hơn gọi là “Change Data Capture” Cơ chế này cho phép tự động đẩy các bản ghi mới hoặc có thay đổi sang kho dữ liệu Change Data Capture hoạt động nhờ các trigger trên các bảng dữ liệu nguồn Các trigger đẩy các thay đổi
từ các lệnh insert, delete, update vào các bảng thay đổi để từ đó cập nhật vào
kho dữ liệu
Chính vì Change Data Capture lấy dữ liệu thay đổi thông qua các trigger Phương thức Change Data Capture là không đồng bộ và chỉ xảy ra với một thời
gian trễ nhỏ, nên có thể coi gần như là tức thời Dù việc nắm bắt các thay đổi
của dữ liệu được thực hiện đồng bộ hay không đồng bộ, chúng đều dựa trên mô
hình phát hành/đăng ký, trong đó bộ phát hành nắm bắt các thay đổi của dữ liệu
và bộ đăng ký đọc tất cả hay một phần tập các thay đổi này
2.6.2 Các bảng ngoại, hàm bảng, cơ chế đường ống và lệnh MERGE
Tính năng bảng ngoại cho phép chúng ta nhúng tệp điều khiển SQL*Loader trong một DDL script; tệp đó có thể tận dụng lợi thế của cơ chế xử
lý song song, có thể được nối và có thể dùng làm đầu vào cho một lênh MERGE, để có thể thêm hay cập nhật dữ liệu sang một bảng khác trong cùng một câu lênh DML duy nhất Ngoài việc không phải chạy nhiều tiến trình SQL*Loader khác nhau, bảng ngoại giúp chúng ta đỡ phải tải dữ liệu vào các bảng trung gian trong quá trình xử lý
Trang 32Các hàm bảng (Table function) có thể dùng trong quá trình làm sạch và
chuyển đổi dữ liệu trong các thủ tục PL/SQL hay Java Các hàm đó có thể xử lý
dữ liệu riêng lẻ hay dữ liệu từ các bảng và trả về các bảng dữ liệu Điều thú vị là các bảng đầu vào có thể là bảng ngoại hay các bảng dữ liệu nguồn bị thay đổi, nhờ đó chúng ta có thể chuyển dạng dữ liệu theo thời gian thực
Ngoài ra, chúng ta có thể “đường ống hóa” các hàm bảng (cơ chế đường
ống của Oracle cho phép trả về các bản ghi ngay từ đầu, trước khi quá trình xử
lý kết thúc) để kết nối các hàm với nhau, buộc chúng chuyển tiếp các bản ghi cho tiến trình tiếp theo, không chờ một tiến trình kết thúc mới khởi động tiến trình kế tiếp
Sau khi đã làm sạch và chuyển hóa dữ liệu, bước tiếp theo là cập nhật các bảng đa chiều Trước đây, điều này được thực hiện bằng một tập hợp các lệnh INSERT và UPDATE Với Oracle 9i, chúng ta có thể thực hiện điều này trong một bước duy nhất với lệnh MERGE Hơn thế, chúng ta có thể gộp toàn bộ quá trình chuyển hóa dữ liệu vào lệnh MERGE đó bằng cách tham chiếu tới các bảng ngoại và hàm bảng
Ba tính năng trên của Oracle 9i giúp chúng ta giảm đáng kể thời gian cần
để tải dữ liệu vào kho dữ liệu cũng như giảm độ trễ giữa bước nhận dữ liệu nguồn với bước cập nhật các bảng đa chiều
2.6.3 Khung nhìn làm tư liệu làm tươi nhanh dữ liệu
Trước đây, khi DBA tạo các bảng dữ liệu tổng hợp đơn lẻ để tăng thời gian phản hồi cho các lệnh truy vấn của người dùng thì các bảng dữ liệu tổng hợp đó phải được xóa đi và tạo lại khi có dữ liệu mới tải vào DWH Vì thế, người dùng
sẽ không thể truy cập dữ liệu tổng hợp trong lúc tiến trình tạo lại đang thực hiện
Với các khung nhìn làm tư liệu (Materialized View) của Oracle 9i, DBA có thể tạo các snapshot table dựa trên các câu lệnh truy vấn đến các bảng chi tiết của
DWH với cơ chế chuẩn bị sẵn nhằm làm tươi các snapshot khi dữ liệu cơ sở thay đổi Khi các khung nhìn làm tư liệu đó gặp một số điều kiện, chúng ta có thể cập nhật các snapshot với dữ liệu mới thay đổi chứ không cần tạo lại từ đầu Điều này giảm đáng kể thời gian làm tươi các kết quả tổng hợp và cho phép người dùng nhận được chúng sớm hơn
Trang 33Chương III ỨNG DỤNG DATA WAREHOUSE XÂY DỰNG HỆ THỐNG BÁO CÁO THỐNG KÊ CHO NGÂN HÀNG NHÀ NƯỚC
Hiện tại Ngân hàng Nhà nước Việt Nam (NHNN) đang có một hệ thống thu thập thông tin từ các Tổ chức tín dụng (TCTD) bao gồm các Ngân hàng, các tổ
chức tài chính (công ty tài chính, công ty bảo hiểm, công ty chứng khoán,…) Theo định kỳ (năm, quý, tháng, ngày), các TCTD gửi dữ liệu báo cáo về Cục Công nghệ Tin học (CNTH) của NHNN bằng phần mềm Báo cáo Thống kê (BCTK) và Báo cáo tài chính (BCTC) Cục CNTH là nơi tổng hợp dữ liệu, tạo các báo cáo nghiệp vụ phục vụ cho các Vụ, các Cục của Ngân hàng Trung ương
(NHTW) khai thác Nhu cầu có một kho dữ liệu với các đặc điểm như: tổ chức
dữ liệu đa chiều, nhất quán, chính xác và tích luỹ theo thời gian cho phép các
đơn vị sử dụng truy xuất thông tin cố định hoặc đột xuất một cách dễ dàng và thuận lợi để cung cấp thông tin hỗ trợ ra quyết định của NHNN là rất cấp thiết
Vì vậy, xây dựng một kho dữ liệu (DWH) tập trung của NHTW, trước hết sẽ tránh được sự tản mát dữ liệu, có thể tập hợp và khai thác một cách triệt để và hiệu quả những nguồn thông tin đã có của NHNN qua mạng cục bộ hoặc truy nhập từ xa qua mạng WAN của NHNN dựa trên nền WEB là giải pháp thích hợp nhất Đây chính là cơ sở cung cấp thông tin đầy đủ nhất cho quản lý, điều hành của NHTW và các chi nhánh NHNN
3.1 Mô hình nghiệp vụ của hệ thống Báo cáo thống kê NHNN
3.1.1 Sơ đồ luồng thông tin của hệ thống Báo cáo thống kê
Các tổ chức tham gia vào hệ thống thông tin BCTK của NHNN được mô tả trên hình 3.1 Trong đó bao gồm:
− Ngân hàng Trung Ương
− Cục Công nghệ thông tin
− Các chi nhánh Ngân hàng Nhà nước
− Các chi nhánh và các hội sở của các Tổ chức tín dụng
Theo định kỳ (năm, quý, tháng hoặc ngày), các Tổ chức tín dụng và hội sở các Tổ chức tín dụng cần gửi số liệu báo cáo thống kê về các chi nhánh NHNN Các chi nhánh NHNN tập hợp các báo cáo gửi về Cục CNTH thông qua phần
mềm BCTK hiện có theo bộ mã chỉ tiêu và phần mềm Báo cáo tài chính theo hệ
Trang 34thống các tài khoản đã được các văn bản của NHNN qui định Tại đây Cục CNTH tiến hành tổng hợp các dữ liệu theo những yêu cầu nghiệp vụ đặt ra để các Vụ, Cục và các đơn vị trực thuộc MHTW có thể khai thác, sử dụng
Hình 3.1 Sơ đồ mô tả luồng thông tin báo cáo trong hệ thống NHNN
3.1.2 Hệ thống các chỉ tiêu của Báo cáo thống kê
a Khái quát về hệ thống chỉ tiêu
Các chỉ tiêu của hệ thống các báo cáo thống kê đã được xây dựng và mã hóa thống nhất trong toàn ngành Đó là một hệ thống phân cấp theo hoạt động nghiệp vụ: các mã chỉ tiêu được phân chia thành các lĩnh vực, mỗi lĩnh vực lại gồm nhiều nhóm chỉ tiêu khác nhau, trong mỗi nhóm lại chia thành các phân nhóm và trong mỗi phân nhóm bao gồm các chỉ tiêu cụ thể [3] (xem bảng phụ lục III)
− Có 13 nhóm chỉ tiêu nghiệp vụ như nhóm chỉ tiêu cho hoạt động tín dụng, huy động vốn, kho quỹ,… Mỗi nhóm được ký hiệu bắt đầu bằng một chữ cái A, B, C …
− Mỗi nhóm chia thành các phân nhóm không quá 05 ký tự như phân nhóm A0101, phân nhóm G01, H01…
− Mỗi phân nhóm gồm nhiều các chỉ tiêu báo cáo
Trang 35Một loạt các chỉ tiêu khác liên quan đến hoạt động quản lý (xem bảng phụ lục), là các danh mục (loại tiền tệ, các loại tài sản, các loại hình tổ chức danh mục, ), kỳ báo cáo,
Các loại chỉ tiêu nghiệp vụ được sử dụng cho các báo cáo để thu thập thông tin từ các cơ sở Các chỉ tiêu liên quan đến hoạt động quản lý chủ yếu dùng cho các báo cáo tổng hợp từ các tổ chức quản lý và các tài liệu phân tích phục vụ cho việc ra quyết định
Loại 2: mã chỉ tiêu phụ thuộc vào các mã số thống kê
Mã chỉ tiêu phụ thuộc vào mã số thống kê
Giá trị chỉ tiêu là số
Các chỉ tiêu loại này cấu trúc theo 2 cách:
Các mã số thống kê được ghép vào cuối mã chỉ tiêu như:
A010111xxyyyy: dư nợ tín dụng ngắn hạn quá hạn bằng loại tiền
xx đối với ngành kinh tế yyyy
Các mã số thống kê chèn vào giữa mã chỉ tiêu như:
K0101xxxxyy0006: tổng giá trị giấy tờ có giá loại xxxx theo tiền
yy đang nắm giữ
Loại 3: mã chỉ tiêu phụ thuộc vào mã số thống kê và mã số phát sinh
Phụ thuộc vào mã số thống kê và mã phát sinh
Giá trị có thể khác số
Các chỉ tiêu loại này cấu trúc theo 2 cách:
Trang 36 Mã số thống kê ghép vào cuối mã chỉ tiêu L0101: mã số chỉ tiêu xử lý tài sản đảm bảo L010601xxxx: tên khách hàng thứ xxxx có tài sản đảm bảo được
xử lý L010602xxxx: địa chỉ khách hàng thứ xxxx có tài sản đảm bảo được xử lý
… L010605xxxx: giá trị tài sản của khách hàng thứ xxxx ghi trong biên bản nhận tài sản đảm bảo
Mã số thống kê ghép vào giữa mã chỉ tiêu K0102xxxxyyzz01: Mã hệ thống TCTD bán giấy tờ có giá loại xxxx theo loại tiền yy của món zz
3.1.3 Hệ thống các tài khoản kế toán
Tài khoản kế toán (TKKT) là phương pháp đặc trưng của kế toán nhằm phân loại và hệ thống hóa các nghiệp vụ kinh tế phát sinh theo đúng nội dung kinh tế Trên cơ sở đó, kế toán dễ dàng thực hiện cung cấp thông tin theo yêu cầu của người sử dụng thông tin Hệ thống TKKT là danh mục các TKKT được
sử dụng trong một đơn vị kế toán và hướng dẫn hạch toán trên các tài khoản đó
Hệ thống tài khoản kế toán các TCTD gồm các tài khoản trong bảng cân đối kế toán và các tài khoản ngoài bảng cân đối kế toán [7,8], được bố trí thành
9 loại:
− Các tài khoản trong bảng cân đối kế toán gồm 8 loại (từ loại 1 đến loại 8)
− Các tài khoản ngoài bảng cân đối kế toán có 1 loại (loại 9)
Các tài khoản trong bảng cân đối kế toán và các tài khoản ngoài bảng cân đối kế toán được bố trí theo hệ thống số thập phân nhiều cấp, từ tài khoản cấp I đến tài khoản cấp III, ký hiệu từ 2 đến 4 chữ số
− Tài khoản cấp I ký hiệu bằng 2 chữ số từ 10 đến 99 Mỗi loại tài khoản được bố trí tối đa 10 tài khoản cấp I
− Tài khoản cấp II ký hiệu bằng 3 chữ số, hai số đầu (từ trái sang phải)
là số hiệu tài khoản cấp I, số thứ 3 là số thứ tự tài khoản cấp II trong tài khoản cấp I, ký hiệu từ 1 đến 9
Trang 37- Tài khoản cấp III ký hiệu bằng 4 chữ số, ba số đầu (từ trái sang phải) là
số hiệu tài khoản cấp II, số thứ 4 là số thứ tự tài khoản cấp III trong tài khoản cấp II, ký hiệu từ 1 đến 9
Các tài khoản cấp I, II, III là những tài khoản tổng hợp do Thống đốc Ngân hàng Nhà nước quy định, dùng làm cơ sở để hạch toán kế toán tại các Tổ chức tín dụng
3.1.4 Nội dung của báo cáo thống kê
Theo định kỳ, các đơn vị cơ sở gửi về Cục CNTH các báo cáo của mình theo nội dung đã quy định cho mỗi đối tượng Đối với các dữ liệu thống kê gửi
từ các đơn vị lên Cục CNTH sẽ được lưu vào bảng TBLTHONGKE [4] trong CSDL BCTK
Cấu trúc bảng TBLTHONGKE như sau:
− MADONVI: mã đơn vị báo cáo
− CHITIEUID: Mã chỉ tiêu (theo qui định của NHNN theo phụ lục bên dưới)
− NGAYSL: Ngày số liệu
− DINHKYBC: Định kỳ báo cáo
− GIATRI: Giá trị của chỉ tiêu báo cáo
Trang 38b Cấu trúc tệp báo cáo thống kê
Mỗi tệp có thể bao gồm một hoặc nhiều phân nhóm mã chỉ tiêu nhỏ Trong
đó, dữ liệu của mỗi phân nhóm mã chỉ tiêu được tổ chức như sau:
c Cấu trúc phân nhóm chỉ tiêu trong báo cáo
Cấu trúc nội dung các thành phần của một báo cáo cho trong bảng sau:
Trang 39Dữ liệu mà các giá trị của ngày báo cáo và định kỳ báo cáo cho trong bảng sau:
Ví dụ 1: Tệp báo cáo chỉ có 1 phân nhóm của ngân hàng ngoại thương Hải
Dương gửi ngày 12/11/2008 có tên là: BC081112.A30203001, trong đó:
TT Kỳ hạn gửi
báo cáo Giá trị của Ngaysl Giá trị của
Dinhkybc
2 Tuần Ngày thứ sáu của tuần báo cáo 2
3 3 kỳ/tháng Ngày 10, 20, và ngày cuối tháng 3
4 2 kỳ/tháng Ngày 15 và ngày cuối tháng 4
5 Tháng Ngày cuối của tháng báo cáo 5
6 Quý Ngày cuối của quý báo cáo 6
7 6 tháng Ngày cuối của tháng 6 và tháng 12 7
8 Năm Ngày cuối của năm báo cáo 8
Trang 40và có nội dung của tệp như sau:
BG#30203001#B0101# (Bắt đầu phân nhóm B0101 của đơn vị báo cáo