Xây dựng kho dữ liệu Data Warehouse phục vụ cho việc khai thác báo

Một phần của tài liệu (LUẬN văn THẠC sĩ) kho dữ liệu và ứng dụng xây dựng hệ thống dữ liệu trợ giúp quyết định về chính sách tiền tệ quốc gia (Trang 48)

thác báo cáo

Để xây dựng kho dữ liệu DWH cho việc khai thác các chỉ tiêu báo BCTK và hệ thống các tài khoản (sau đây gọi chung là hệ thống BCTK) có hiệu quả cần phải đáp ứng được tất cả các đặc trưng của bộ mã chỉ tiêu, hệ thống tài khoản cũng như những đặc trưng của một hệ thống báo cáo. Quá trình xây dựng DWH phục vụ cho hệ thống BCTK phải trải qua các giai đoạn sau :

− Xây dựng CSDL theo chuẩn DWH phục vụ:

 Báo cáo thống kê dựa theo bộ mã chỉ tiêu  Báo cáo cân đối dựa theo tài khoản

− Xây dựng qui trình tích hợp dữ liệu cho DWH:

− Yêu cầu nguồn dữ liệu lấy từ CSDL tác nghiệp của phần mềm BCTK

và Báo cáo tài chính đã có

− Xây dựng giải pháp để khai thác báo cáo trên cơ sở có DWH:

Trên cơ sở đã có một DWH, trong đó dữ liệu đã được tổ chức đa chiều, nhất quán, chính xác và tích luỹ theo thời gian cần xác định giải pháp khai thác các thông tin này một cách hiệu quả

3.2.1 Xây dựng cơ sở dữ liệu theo chuẩn Data Warehouse

3.2.1.1 Kiến trúc của Data Warehouse Báo cáo thống kê

Việc thiết kế và tổ chức một DWH là rất quan trọng vì nó ảnh hưởng đến việc tổ chức và khai thác báo cáo sau này. Do vậy quá trình này đòi hỏi những người thiết kế phải rất hiểu về các kiến trúc, các thành phần và các lược đồ của DWH cũng như các ưu nhược điểm của mỗi loại. Việc chọn kiến trúc, lược đồ để xây dựng DWH phải dựa trên những yêu cầu và đặc thù của bài toán nghiệp vụ và tận dụng những cở sở sẵn có. Từ yêu cầu của việc khai thác các báo cáo như mô tả ở trên, chúng tôi chọn xây dựng một DWH BCTK, không có các DM. Sở dĩ có quyết định này vì các đơn vị khai thác báo cáo độc lập nhau (có những mẫu biểu báo cáo khác nhau và nhu cầu về các thông tin cũng khác nhau) nhưng có thể dùng chung các chỉ tiêu. Ví dụ, Vụ Chính sách tiền tệ quan tâm đến các chỉ tiêu về dư nợ, Vụ Thanh tra cũng quan tâm đến các chỉ tiêu này nhưng ở phạm vi khác nhau và kết hợp trong các mẫu biểu khác nhau. Do vậy, nếu chúng ta chia các DM theo các lĩnh vực của các nhóm chỉ tiêu thì việc tổ chức khai

Để phù hợp với thực tế, chúng tôi xây dựng một DWH với nhiều bảng Fact và các bảng Dimension. Trong đó mỗi bảng Fact sẽ tương ứng với một nhóm chỉ tiêu, các Dimension đại diện cho các chiều. Tuy nhiên, vì có một số phân nhóm đặc biệt có giá trị không phải là kiểu số nên ngoài các Fact, các Dimension cần phải tổ chức thêm các Table.

Báo cáo thống kê Báo cáo tài

chính File Vùng dữ liệu tạm (Staging area) DWH BCTK Lập báo cáo Khai phá dữ liệu Phân tích

Dữ liệu nguồn Dữ liệu đích

Hình 3.2 Kiến trúc DWH BCTK

Kiến trúc DWH đầy đủ gồm các lớp sau:

− Data Source: các tệp và CSDL BCTK.

− Vùng dữ liệu tạm (Staging area): lưu dữ liệu tạm thời chưa kiểm tra tính hợp lệ trước khi đưa vào DWH. Gồm các bảng tạm như T_ATOMIC, T_NUMBER_DATA, T_TEXT_DATA, T_SOURCE phục vụ cho quá trình làm sạch dữ liệu.

− DWH: chứa toàn bộ dữ liệu BCTK bao gồm Dimension, Fact, Atomic

table, các bảng tham chiếu.

− Các công cụ trích lọc, chuyển đổi và nạp dữ liệu: sử dụng công cụ của BO

− Sử dụng các công cụ để truy cập DWH như WebI, Crytal, User Application, tools, Application server...

− Hệ quản trị kho dữ liệu: Oracle

Ở đây, chúng ta sử dụng lược đồ hình sao mà không sử dụng lược đồ bông tuyết, vì thế cần sử dụng các Hierarchy Dimension. Bảng Fact sẽ được nối với nhiều Dimension và các measure đều là số và dùng chung Time dimension cho tất cả các fact. Việc nghiên cứu phân chia các bảng Fact được căn cứ vào các mã số thống kê liên quan của các chỉ tiêu và số giá trị của các chỉ tiêu. Việc phân chia này có được ưu điểm là:

− Giảm kích thước của các bảng fact

− Câu lệnh Query từ các bảng Fact sẽ đơn giản và nhanh hơn. − Dễ dàng áp dụng giải pháp báo cáo của Bussiness Object (BO)

Nhưng bên cạnh đó viêc áp dụng cách phân chia này còn tồn tại những nhược điểm:

− Số lượng facts nhiều

− Có những báo cáo phải lấy từ nhiều fact

− Khi phát sinh thêm chỉ tiêu mà có số chiều chưa có thì phải thêm bảng Fact

− Công việc tích hợp dữ liệu sẽ phức tạp và mất nhiều thời gian

3.2.1.2 Kết cấu của Data Warehouse Báo cáo thống kê a. Các loại dữ liệu a. Các loại dữ liệu

Dimensions: các bảng đại diện cho các chiều, chính là các điều kiện dùng khi Query. Dimensions gồm 2 loại Dimension chung cho tất cả bảng fact và Dimension theo mã số thống kê.

- Dimension chung cho tất cả bảng fact:

 Chỉ tiêu (TD_INDEX)

 Đơn vị báo cáo (TD_SubSystem)

 Thời gian (TD_Time)

Time_id: DATE Day: NUMBER(2) Week: VARCHAR2(10) Threetimes: NUMBER(1) Twotimes: NUMBER(1) Month: NUMBER(2) Quarter: NUMBER(1) Half: NUMBER(1) Year: NUMBER(4) DayOfWeek: VARCHAR2(200) Month_name: VARCHAR2(200) Quarter_name: VARCHAR2(200) Year_Month: VARCHAR2(20) Year_Quarter: VARCHAR2(20) Week_flag: NUMBER(1) ThreeTimes_flag: NUMBER(1) TwoTimes_flag: NUMBER(1) Month_flag: NUMBER(1) Quarter_flag: NUMBER(1) Half_flag: NUMBER(1) Year_flag: NUMBER(1) TD_TIME SubSystem_id: NUMBER(4) SubSystem_code: VARCHAR2(8) SubSystem_name: VARCHAR2(200) Province_code: VARCHAR2(2) Province_name: VARCHAR2(50) Region_code: VARCHAR2(200) Region_name: VARCHAR2(200) Country_code: VARCHAR2(2) Country_name: VARCHAR2(200) System_code: VARCHAR2(3) System_name: VARCHAR2(200) CreditAgencyType_code: VARCHAR2(2) CreditAgencyType_name: VARCHAR2(200) Status: NUMBER(1) State_flag: NUMBER(1) Type_flag: NUMBER(1) Headquarters_flag: NUMBER(1) Eff_From_Date: DATE Eff_To_Date: DATE Index_id: NUMBER Index_code: VARCHAR2(20) Index_name: VARCHAR2(600) Group_code: VARCHAR2(1) Group_name: VARCHAR2(200) SubGroup_code: VARCHAR2(200) SubGroup_name: VARCHAR2(200) Period: VARCHAR2(8) Status: VARCHAR2(1) Eff_From_Date: DATE Eff_To_Date: DATE Period_ID: NUMBER(1) Period_code: VARCHAR2(2) Period_name: VARCHAR() Remark: VARCHAR2(200) TD_SUBSYSTEM TD_PERIOD TD_INDEX

- Dimension theo mã số thống kê

Tương ứng với các mã số thống kê như: quốc gia, tiền tệ, ngành kinh tế, loại hình kinh tế, hệ thống ngân hàng, tiền VND, nguyên nhân nợ khó đòi.... Ví dụ: TD_ECOSECTOR EcoSector_id: NUMBER(2) EcoSector_code: VARCHAR2(2) EcoSector_name: VARCHAR2(200) Eff_From_Date: DATE Eff_To_Date: DATE TD_REASONDEBT ReasonDebt_id: NUMBER(2) ReasonDebt_code: VARCHAR2(2) ReasonDebt_name: VARCHAR2(200) Eff_From_Date: DATE Eff_To_Date: DATE TD_CURENCY Currency_id: NUMBER(3) Currency_code: VARCHAR2(3) Currency_name: VARCHAR2(50) Symbol: VARCHAR2(3) Country_name: VARCHAR2(200) Eff_From_Date: DATE Eff_To_Date: DATE

Danh sách dimension (xem bảng phụ lục)

Facts: các bảng chứa dữ liệu (measure) theo nhiều chiều khác nhau.

- Fact có 1 measure: gồm 2 loại

 Fact chỉ phụ thuộc vào 4 dimension chung: Time, Đơn vị, Chỉ tiêu gốc và định kỳ báo cáo như bảng Fact TF_General. Bảng Fact này chỉ phụ thuộc vào các Dimension chung là TD_TIME, TD_INDEX, TD_SUBSYSTEM, TD_PERIOD. Quan hệ phụ thuộc của bảng Fact TF_General như sau:

SubSystem_id: NUMBER(4) Index_id: NUMBER time_id: DATE Period_ID: NUMBER(1) value: NUMBER SubSystem_id : NUMBER(4) SubSystem_code : VARCHAR2(8) SubSystem_name : VARCHAR2(200) Province_code : VARCHAR2(2) Province_name : VARCHAR2(50) Region_code : VARCHAR2(200) Region_name : VARCHAR2(200) Country_code : VARCHAR2(2) Country_name : VARCHAR2(200) System_code : VARCHAR2(3) System_name : VARCHAR2(200) CreditAgencyType_code : VARCHAR2(2) CreditAgencyType_name: VARCHAR2(200) Status: NUMBER(1) State_flag : NUMBER(1) Type_flag : NUMBER(1) Headquarters_flag : NUMBER(1) Eff_From_Date : DATE Eff_To_Date : DATE Index_id: NUMBER Index_code : VARCHAR2(20) Index_name : VARCHAR2(600) Group_code : VARCHAR2(1) Group_name : VARCHAR2(200) SubGroup_code : VARCHAR2(200) SubGroup_name : VARCHAR2(200) Period: VARCHAR2(8) Status: VARCHAR2(1) Eff_From_Date: DATE Eff_To_Date: DATE Period_ID: NUMBER(1) Period_code : VARCHAR2(2) Period_name : VARCHAR() Remark: VARCHAR2(200) TD_SUBSYSTEM TD_PERIOD TD_INDEX TF_GENNERAL Time_id: DATE Day: NUMBER(2) Week: VARCHAR2(10) Threetimes : NUMBER(1) Twotimes : NUMBER(1) Month: NUMBER(2) Quarter: NUMBER(1) Half: NUMBER(1) Year: NUMBER(4) DayOfWeek : VARCHAR2(200) Month_name : VARCHAR2(200) Quarter_name : VARCHAR2(200) Year_Month: VARCHAR2(20) Year_Quarter: VARCHAR2(20) Week_flag : NUMBER(1) ThreeTimes_flag: NUMBER(1) TwoTimes_flag: NUMBER(1) Month_flag: NUMBER(1) Quarter_flag: NUMBER(1) Half_flag : NUMBER(1) Year_flag : NUMBER(1) TD_TIME

 Fact Phụ thuộc mã số thống kê: Time, Đơn vị, Chỉ tiêu gốc, Định kỳ báo cáo và các Dimension mã số thống kê.

Ví dụ Fact TF_CURR_ECOSECTOR_REASONDEBT chứa các chỉ tiêu mà phụ thuộc vào các Mã số thống kê là Tiền tệ - Loại hình kinh tế - Lý do nợ xấu.

Bảng Fact này phụ thuộc vào cả 4 Dimension chung là: TD_TIME,

TD_INDEX, TD_SUBSYSTEM, TD_PERIOD và 3 Dimension mã số thống kê là: TD_ECOSECTOR, TD_REASONDEBT, TD_CURENCY. Quan hệ phụ thuộc của bảng Fact TF_CURR_ECOSECTOR_REASONDEBT như sau:

SubSystem_id : NUMBER(4) SubSystem_code : VARCHAR2(8) SubSystem_name : VARCHAR2(200) Province_code : VARCHAR2(2) Province_name : VARCHAR2(50) Region_code : VARCHAR2(200) Region_name : VARCHAR2(200) Country_code : VARCHAR2(2) Country_name : VARCHAR2(200) System_code : VARCHAR2(3) System_name : VARCHAR2(200) CreditAgencyType_code : VARCHAR2(2) CreditAgencyType_name: VARCHAR2(200) Status: NUMBER(1) State_flag : NUMBER(1) Type_flag : NUMBER(1) Headquarters_flag : NUMBER(1) Eff_From_Date : DATE Eff_To_Date : DATE Index_id: NUMBER Index_code : VARCHAR2(20) Index_name : VARCHAR2(600) Group_code : VARCHAR2(1) Group_name : VARCHAR2(200) SubGroup_code : VARCHAR2(200) SubGroup_name : VARCHAR2(200) Period: VARCHAR2(8) Status: VARCHAR2(1) Eff_From_Date: DATE Eff_To_Date: DATE Period_ID: NUMBER(1) Period_code : VARCHAR2(2) Period_name : VARCHAR() TD_SUBSYSTEM TD_PERIOD TD_INDEX Time_id: DATE Day: NUMBER(2) Week: VARCHAR2(10) Threetimes : NUMBER(1) Twotimes : NUMBER(1) Month: NUMBER(2) Quarter: NUMBER(1) Half: NUMBER(1) Year: NUMBER(4) DayOfWeek : VARCHAR2(200) Month_name : VARCHAR2(200) Quarter_name : VARCHAR2(200) Year_Month: VARCHAR2(20) Year_Quarter: VARCHAR2(20) Week_flag : NUMBER(1) ThreeTimes_flag: NUMBER(1) TwoTimes_flag: NUMBER(1) Month_flag: NUMBER(1) Quarter_flag: NUMBER(1) Half_flag : NUMBER(1) Year_flag : NUMBER(1) TD_TIME TD_REASONDEBT ReasonDebt_id: NUMBER(2) ReasonDebt_code: VARCHAR2(2) ReasonDebt_name: VARCHAR2(200) Eff_From_Date: DATE Eff_To_Date: DATE TD_CURENCY Currency_id: NUMBER(3) Currency_code: VARCHAR2(3) Currency_name: VARCHAR2(50) Symbol: VARCHAR2(3) Country_name: VARCHAR2(200) Eff_From_Date: DATE Eff_To_Date: DATE tf_Curr_EcoSector_ReasonDebt SubSystem_id: NUMBER(4) ReasonDebt_id: NUMBER(2) Index_id: NUMBER Currency_id: NUMBER(3) time_id: DATE EcoSector_id: NUMBER(2) Period_ID: NUMBER(1) value: NUMBER VNDValue: NUMBER TD_ECOSECTOR EcoSector_id: NUMBER(2) EcoSector_code: VARCHAR2(2) EcoSector_name: VARCHAR2(200) Eff_From_Date: DATE Eff_To_Date: DATE TF_CURR_ECOSECTOR_REASONDEBT

- Fact đặc biệt (dành cho nhóm chỉ tiêu C- lãi suất) có 3 measure :

 Fact chỉ phụ thuộc 4 dimension chung: Time, Đơn vị, Chỉ tiêu gốc và định kỳ báo cáo (TFC_General).

 Fact phụ thuộc mã số thống kê: Time, Đơn vị, Chỉ tiêu gốc, định kỳ báo cáo và các dimension mã số thống kê như tiền tệ và giấy tờ có giá.

Danh sách Fact (xem bảng phụ lục)

Tables: các bảng tương ứng với các phân nhóm đặc biệt (có chỉ tiêu mà giá trị không phải là số) và các bảng tham chiếu như tỷ giá, cụ thể gồm các bảng sau:

- Các bảng tương ứng với các phân nhóm đặc biệt:

H0101, H0102, H011, H012 L0105, L0106, L02, L04 M02

- Bảng tham chiếu tỷ giá:

T_RATE

Danh sách Table (xem bảng phụ lục)

- Bảng Atomic data: bảng chứa các dữ liệu thô (dữ liệu chi tiết lấy từ kho

dữ liệu tác nghiệp BCTK sang). Bảng Atomic data chứa tất cả các chỉ tiêu báo cáo của tất cả các đơn vị, giống như bảng TBLTHONGKE trong CSDL BCTK tác nghiệp, giá trị chỉ tiêu vẫn là kiểu kí tự.

Cấu trúc của bảng T_Atomic_Data:

SUBSYSTEM_CODE: Mã đơn vị báo cáo (tương ứng MADONVI trong TBLTHONGKE)

INDEX_CODE: Mã chỉ tiêu (tương ứng CHITIEUID trong TBLTHONGKE) DATA_DATE: Ngày số liệu (tương ứng NGAYSL trong TBLTHONGKE) PERIOD_CODE: Định kỳ báo cáo (tương ứng DINHKYBC trong

TBLTHONGKE)

VALUE: Giá trị của chỉ tiêu báo cáo (tương ứng GIATRI trong TBLTHONGKE)

LOAD_DATE: Ngày cập nhật (tương ứng NGAYNHAP trong TBLTHONGKE)

b. Qui ước đặt tên cho bảng

− Đối với các table : bắt đầu bằng T : T_<Tên> (ví dụ: T_Atomic_data, T_M02_xx, T_rate....)

− Đối với các Dimension : bắt đầu bằng TD : TD_<Tên> (Ví dụ: TD_Time, TD_Curency...)

− Đối với các FACT : bắt đầu bằng TF : TF_Tên1_Tên2 (ví dụ: TF_EcoBranch_Curency,TF_General)

c. Qui ước đặt tên cho trường dữ liệu

- <Tên>_ID : khoá thay thế (là một số tự tăng) - <Tên>_Code : khoá tự nhiên (các mã thực tế) - <Tên>_Name : tên các mã số thống kê

- <Tên>_Flag : các cờ đánh dấu (chỉ là số 0,1)

3.2.1.3 Các bước cài đặt vật lý data warehouse

− Tạo các bảng: tạo các bảng (Fact, Dimension, Table) và thiết lập các khóa chính (PK), khóa ngoài (FK) và các ràng buộc giữa các bảng (Constraint).

− Tạo Partition cho các bảng cần thiết

− Tạo Dimension Object

− Tạo Index

− Tuning DWH

a. Tạo table

− Thiết kế cấu trúc vật lý − Sinh ra các Script

− Chỉnh sửa tên các constraint như khoá chính, ngoài − Tạo table từ các Script

b. Tạo Partiton

Việc tạo partition chỉ áp dụng trên các bảng có số liệu lớn (atomic data, Fact và table):

− T_Atomic_data: do yêu cầu tích hợp dữ liệu hàng ngày nên được Partition theo tháng

− Facts: chỉ phục vụ cho báo cáo nên Partition theo Năm hoặc Tháng − Special Table: dữ liệu trong các bảng này chỉ chứa cho một phân

nhóm nên Partition theo Năm hoặc Tháng − Dimension : dữ liệu ít nên không Partition

c. Tạo Dimension Objects

Các Dimension mà phi chuẩn (kết hợp nhiều bảng danh mục với nhau) thì ta phải tạo Hierarchy

Ví dụ: T_SubSystem có 2 Hierarchy

Geography_Roolup : Country - > Region -> Province -> SubSystem

d. Tạo Index

− Dimension:

 Khoá thay thế (_ID): Cluster Index  Khoá tự nhiên (_Code): B*tree Index

− T_Atomic_Data

 Khoá chính: Cluster Index

 Mỗi trường trong khoá chính tạo 1 Bitmap Index − Fact

 Khoá chính: Cluster Index

 Mỗi trường trong khoá chính tạo 01 Bitmap Index − Special Table

 Khoá chính: Cluster Index

 Mỗi trường trong khoá chính tạo 1 Bitmap Index ngoại trừ các trường mà là giá trị phát sinh không có lookup

3.2.2 Xây dựng qui trình tích hợp dữ liệu cho Data Warehouse

Trong bước này sẽ sử dụng công cụ Data Integration của Bussiness Object

để tiến hành chuyển dữ liệu từ CSDL vào DWH

3.2.2.1 Xây dựng giải pháp tích hợp dữ liệu vào kho dữ liệu Báo cáo thống kê a. Mục đích a. Mục đích

Xây dựng được một giải pháp tích hợp dữ liệu phù hợp với các yêu cầu của bài toán nghiệp vụ. Đồng thời đáp ứng được việc mở rộng dữ liệu đầu vào (có thể thêm các CSDL tác nghiệp mới, các dạng file). Việc xây dựng giải pháp tích hợp cũng phải tính đến những khả năng thay đổi của hệ thống trong quá trình sử dụng như mã chỉ tiêu thay đổi (bổ sung hoặc bớt đi một số mã chỉ tiêu), thay đổi các đơn vị cung cấp thông tin (như tách, nhập, thành lập mới hay giải thể,… ) nhưng thông tin cung cấp vẫn đòi hỏi phải đầy đủ đến từng thời điểm yêu cầu khai thác. Mặt khác việc cập nhật thường xuyên trong CSDL tác nghiệp BCTK và Báo cáo tài chính là không thể trách khỏi nên rất có thể ngay trong thời gian tích hợp dữ liệu thì dữ liệu bên nguồn đã thay đổi. Điều này có thể dẫn đến tính tức thời của kho dữ liệu không cao.

Loading Báo cáo

thống kê Báo cáo tài

chính File Tranformation Dữ liệu nguồn Metadata DWH BCTK Dữ liệu đích Extraction

Hình 3.3 Sơ đồ tổng quát quá trình tích hợp dữ liệu vào kho dữ liệu BCTK

b. Yêu cầu tích hợp dữ liệu của hệ thống Báo cáo thống kê

Từ mục đích xác định ở trên, chúng tôi đưa ra các yêu cầu cụ thể cho việc tích hợp dữ liệu như sau:

− Tải toàn bộ dữ liệu vào DWH: đảm bảo DWH chứa đầy đủ dữ liệu lịch sử của hệ thống và mọi thay đổi trong dữ liệu nguồn đều được cập nhật vào DWH.

− Thực hiện công việc chuyển dữ liệu: tự động thực hiện việc tích hợp dữ liệu mới phát sinh theo lịch trình định sẵn (đây là các công việc thường xuyên). Chuyển các dữ liệu thay đổi đột xuất hoặc gặp lỗi trong quá trình chuyển tự động. Cần phân loại dữ liệu theo tần suất thay đổi, định kỳ phát sinh dữ liệu để có được việc đặt lịch chuyển dữ liệu hợp lý.

− Xác định được những dữ liệu bị lỗi trong quá trình chuyển đổi để thực hiện lại.

− Tham số hóa để có thể chọn việc cập nhật theo yêu cầu ví dụ như cập nhật thông tin theo một điều kiện lọc nào đó: tổ chức tín dụng, tệp BCTK, ngày dữ liệu,…

− Có thể tra cứu được dữ liệu lỗi trong quá trình tích hợp.

c. Xác định dữ liệu nguồn

− Một số dữ liệu dùng cho các bảng dimension được lấy từ các bảng danh mục tương ứng trong CSDL tác nghiệp BCTK như bảng về tên tỉnh, thành phố, bảng các loại ngoại tệ, bảng danh sách các đơn vị,… − Một số dữ liệu dùng cho các bảng dimension được lấy từ các tệp text

bao gồm Dimension về thời gian, về chỉ tiêu, về vùng miền,…

− Dữ liệu về tên các Fact, Dimension tương ứng với các chỉ tiêu từ tệp METADATA.txt. Đây là bảng siêu dữ liệu, trong đó mô tả đầy đủ mã chỉ tiêu, và các bảng Dimension về mã số thống kê mà chúng phụ thuộc cũng như các chỉ tiêu này sẽ được đổ vào bảng Fact nào. Việc định nghĩa này sẽ được định nghĩa dưới dạng tệp text và được lấy lại khi có thay đổi về mã chỉ tiêu hoặc các bảng mã thống kê.

− Dữ liệu dùng cho các bảng Fact (báo cáo thống kê theo bộ mã chỉ tiêu) được lấy từ bảng dữ liệu: TBLTHONGKE trong CSDL BCTK hoặc TBLCANDOI trong CSDL Báo cáo tài chính.

d. Một số vấn đề có thể gặp trong quá trình tích hợp dữ liệu

− Do dữ liệu đầu vào là các kho dữ liệu tác nghiệp, thu thập dữ liệu từ các đơn vị, các chi nhánh gửi lên (qua tệp text) và chưa qua xử lý. Do vậy dữ liệu có thể có giá trị NULL, sai kiểu,…

− Nguồn dữ liệu có thể thay đổi như về chỉ tiêu, đơn vị,… mà các dữ liệu tham chiếu như bảng mã chỉ tiêu, bảng mã đơn vị chưa được cập nhật kịp thời.

− Dữ liệu mới phát sinh ngay trong quá trình thực hiện tích hợp dữ liệu. − Các sự cố liên quan đến phần cứng: mất điện, hỏng hóc,…xảy ra

Một phần của tài liệu (LUẬN văn THẠC sĩ) kho dữ liệu và ứng dụng xây dựng hệ thống dữ liệu trợ giúp quyết định về chính sách tiền tệ quốc gia (Trang 48)

Tải bản đầy đủ (PDF)

(105 trang)