2 .1Thực trạng hạ tầng hệ thống thông tin tại Ngânhàng MSB
2.1.2 Khu lưu trữ dữliệu tạm thời (Staging Area)
Sau khi hệ thống đã trích xuất dữ liệu từ các hệ thống hoạt động khác nhau và chuẩn bị dữ liệu để lưu trữ trong kho dữ liệu thì các dữ liệu chiết xuất từ nhiều nguồn khác nhau cần phải được thay đổi, chuyển đổi và sẵn sàng dưới dạng thích hợp (ETL) để được lưu trữ nhằm mục đích truy vấn và phân tích. Ba chức năng ấy sẽ được thực hiện ở khu vực lưu trữ dữ liệu tạm thời (Staging Area). Staging Area là khu vực để thực hiện các chức năng để làm sạch, thay đổi, kết hợp, chuyển đổi, sao lưu và chuẩn bị dữ liệu nguồn để lưu trữ và sử dụng trong kho dữ liệu.
Dữ liệu từ nguồn khơng trực tiếp trích xuất, chuyển đổi và chuyển đến kho dữ liệu trực tiếp mà phải thông qua Staging. Sự khác biệt cơ bản của việc này là một kho dữ liệu được thu thập dữ liệu từ nhiều nguồn khác nhau thì việc lấy dữ liệu trực tiếp từ nguồn sẽ gây nên sự xung đột hoạt động của nguồn dữ liệu, hệ thống nguồn có thể bị gián đoạn, trì trệ. Hơn nữa, các ngân hàng luôn chú trọng rằng dữ liệu trong kho dữ liệu là dữ liệu chủ đề và cần giảm thiểu hóa việc thao tác lấy dữ liệu trực tiếp từ nguồn dữ liệu đang hoạt động. Một yếu tố quan trọng khác là dữ liệu lưu trữ tại nguồn chỉ là các dữ liệu thực (real data) khơng mang tính lịch sử, vì vậy dữ liệu sẽ được lưu trữ trong Staging là dữ liệu mang tính lịch sử. Do đó, một khu vực lưu trữ dữ liệu tạm thời Staging rất cần thiết để chuẩn bị dữ liệu cho kho dữ liệu. Những dữ liệu có trong khu vực Staging sẽ là các bản sao dữ liệu của hệ thống nguồn nhưng trong một môi trường thuận tiện hơn. Các bảng dữ liệu này sẽ được đổi sang tên theo định dạng chuẩn của Staging nhằm mục đích quản lý dữ liệu tốt hơn.
Dữ liệu từ Staging chuyển về kho dữ liệu thông qua các Job được thiết lập trong công cụ Data Stage. Một số bảng trong staging luôn được xác định là đầy đủ dữ liệu ( tiền gửi có kỳ hạn, tiền gửi khơng kì hạn..) sẽ được đặt tự động chuyển về kho dữ liệu lúc 6h sáng. Hầu hết các dữ liệu đều cần xác thực đầy đủ trước khi chuyển qua DWH, vì vậy tại MSB có một đội vận hành ứng dụng (NOC) chuyên kiểm tra dữ liệu chạy trong các Job ở khu vực Staging đầy đủ rồi mới thực hiện chạy các job đấy để chuyển dữ liệu sang DWH.