Mơhình ETL dữliệu trong DWH TT35

Một phần của tài liệu Nghiên cứu cải tiến mô hình kho dữ liệu đáp ứng khả năng xây dựng báo cáo theo tiêu chuẩn của NH nhà nước tại NH TMCP hàng hải việt nam khoá luận tốt nghiệp 324 (Trang 45)

Dữ liệu thô từ các nguồn (Core Banking, Kondor Plus, Way4, .... ) lấy trên STAGING được đẩy về bảng tương ứng trên CIRCULAR qua ETL.

Khóa luận tốt nghiệp Nghiên cứu cải tiên mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

2.2.2.1 Trích xuất dữ liệu (Data Extraction) (ETL chuẩn bị/ ETL Staging)

Bước đầu tiên trong quy trình ETL là chiết xuất dữ liệu nhằm chọn lựa, thu thập và kết hợp dữ liệu từ nhiều nguồn dữ liệu đa dạng và phức tạp vào trong kho dữ liệu tạm thời trước khi làm sạch và chuyển đổi. Dữ liệu được chiết xuất gồm dữ liệu có cấu trúc và dữ liệu không cấu trúc được lấy từ nhiều nguồn dữ liệu trong và ngoài ngân hàng.

Các nguồn dữ liệu có cấu trúc bao gồm: Các hệ tác nghiệp như hệ thống Core

Banking, quản lý ngân quỹ (treasury), quản lý nội bộ và nguồn nhân lực, quản lý thẻ, hệ thống chuyển tiền. Các hệ quản lý các kênh phân phối như Contact center, Internet Banking, Mobile banking... các hệ thống báo cáo kết quả hoạt động kinh doanh. Các thông tin mua hoặc thuê từ các tổ chức tài chính như: trung tâm Thơng tin ứng dụng (CIC: credit information center), PCB (công ty Thơng tin Tín dụng Việt Nam)..

Các nguồn dữ liệu không cấu trúc bao gồm: thông tin và báo cáo từ các chi nhánh, các

văn bản và báo cáo nội bộ, các nguồn thơng tin và tin tức ngồi ngân hàng.

Dữ liệu từ nguồn dữ liệu sẽ được tổng hợp vào cuối ngày và tự động cập nhật qua các Job của công cụ DataStage vào khu vực Staging vào sáng hơm sau.

Ví dụ các giao dịch kế toán được lưu trữ trong nguồn dữ liệu với đầu tên “SVPARPV51.” Khi chuyển vào Staging sẽ được đổi đầu tên “SI_PAR”

Hình 2.7: Quy ước đặt tên khi chuyển đổi dữ liệu từ nguồn dữ liệu vào Staging

Hình 2.8: Các job trong Data Stage thực hiện trích xuất dữ liệu vào Staging

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

Sau khi trích xuất dữ liệu từ nguồn vào Staging, hệ thống tiếp tục việc chuyển đổi dữ liệu và sẵn sàng truyển tải dữ liệu vào DWH.

2.2.2.2 Chuyển đổi dữ liệu (Data Transformation)

Bước “chuyển đổi” dữ liệu là bước quan trọng nhất, có thể chiếm tới 80% của cả quy trình ETL. Dữ liệu cho một DWH đến từ nhiều nguồn khác nhau. Nếu khai thác dữ liệu cho kho dữ liệu đặt ra những thách thức lớn, việc chuyển đổi dữ liệu sẽ tạo ra nhiều thách thức lớn hơn. Một yếu tố khác trong kho dữ liệu là nguồn dữ liệu không chỉ là nguồn dữ liệu cố định ban đầu mà dữ liệu tiếp tục nhận thay đổi đang diễn ra từ các hệ thống nguồn. Bất kỳ chuyển đổi nào mà hệ thống đã thiết lập cho dữ liệu ban đầu cũng sẽ được điều chỉnh cho các phiên bản đang diễn ra.

Các kỹ thuật được áp dụng trong bước chuyển đổi dữ liệu để đảm bảo chất lượng dữ liệu: Đồng dạng/ đồng bộ dữ liệu (reformatting) - dữ liệu gốc thuộc nhiều ứng dụng tác nghiệp khác nhau cần được định dạng lại cho đồng bộ. Chỉnh hợp/ đối chiếu dữ liệu (reconcilement) - dữ liệu gốc dữ thừa, trùng hợp cần được đối chiếu để chỉnh sửa lại cho nhất quán và phù hợp. Làm sạch dữ liệu (cleansing) - dữ liệu từ các ứng dụng tác nghiệp gốc có thể thiếu chính xác và cần được kiểm tra, chỉnh sửa và làm sạch theo đúng các quy tắc nghiệp vụ. Tổng hợp dữ liệu (aggregation) - phần lớn dữ liệu sẽ cần được tổng hợp (summaried) để phù hợp với cấu trúc đa chiều của kho dữ liệu phục vụ cho nhu cầu truy xuất và báo cáo.

Khi chức năng chuyển đổi dữ liệu kết thúc, các dữ liệu được tích hợp đã được làm sạch, chuẩn hóa, và được tổng hợp. Bây giờ hệ thống đã sẵn sàng tải dữ liệu vào từng bộ dữ liệu trong kho dữ liệu.

2.2.2.3 Truyền tải dữ liệu (Data Load)

Khi hệ thống đã hoàn tất việc thiết kế và xây dựng kho dữ liệu và bắt đầu sử dụng lần đầu tiên để thực hiện việc tải dữ liệu ban đầu vào kho lưu trữ dữ liệu. Hệ thống di chuyển số lượng lớn dữ liệu tốn khá nhiều thời gian. Khi kho dữ liệu bắt đầu hoạt động, hệ thống tiếp tục cập nhật liên tục các thay đổi đối với dữ liệu nguồn, chuyển đổi các bản sửa đổi dữ liệu trong DWH.

Máy chu divh Il

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

Hình 2.9: Kiểu dữ liệu thơng dụng được chuyển vào kho dữ liệu

2.2.2.4 Hệ thống thực hiện trích xuất, chuyển đổi, truyền tải dữ liệu IBM

DataStage

Hệ thống tích hợp dữ liệu IBM DataStage thuộc một trong các công cụ trong bộ IBM Information Server. IBM DataStage làm nhiệm vụ chính là thực hiện trích xuất, chuyển đổi, truyền tải dữ liệu (ETL). Một số đặc trưng cơ bản của DataStage giúp cho quá trình ETL dữ liệu được thực hiện một cách hiệu quả nhất trong quá trình chuyển đổi vào kho dữ liệu. Về cơ bản, IBM Data Stage có khả năng thực hiện các chức năng sau:

- Cơng cụ này có khả năng thu thập dữ liệu từ các nguồn dữ liệu kể cả có cấu trúc và

khơng có cấu trúc: các tập tin văn bản, cấu trúc dữ liệu phức tạp trong XML, các hệ

thống Hoạch định tài nguyên doanh nghiệp (ERP), và CSDL (DB2, SQL Server, Oracle..), kết nối với các công cụ đồng bộ dữ liệu thời gian thực như Change Data

Capture, kết nối với các kiến trúc hướng dịch vụ (SOA).

- Cho phép giải quyết các vấn đề liên quan đến xử lý khối lượng dữ liệu lớn với hiệu

năng cao bằng cách tận dụng khả năng xử lý song song của nền tảng phần cứng, triển khai được trên các nền tảng máy chủ lớn (Mainframe).

Nguyễn Thị Phương Linh - Lớp HTTTB.K16

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam - Dễ dàng cho việc mở rộng mơ hình triển khai dữ liệu khi dữ liệu ngày càng lớn và

số lượng job xử lý dữ liệu tăng lên.

Hệ thống DataStage dễ dàng thực hiện việc thiết kế các “Flow jobs” theo các cơ chế khác nhau tùy theo năng lực của hệ thống nguồn và đích cụ thể:

Việc chuyển đổi dữ liệu được thực hiện ở máy chủ nguồn.

Mủy chú πjjιιι⅛n

τriςtι xụat (Extract) Chuyên đơi (Transform)

Hình 2.10: Mơ hình xử lý theo ET-L

Hình 2.11: Mơ hình xử lý theo EL-T

Việc chuyển đổi dữ liệu được thực hiện độc lập tại các máy chủ cài ETL, đây chính là một trong điểm nổi bật của hệ thống DataStage. Hiện tại MSB đang sử dụng mơ hình này nhằm giảm tải được sự ảnh hưởng của quá trình tổng hợp dữ liệu đẩy vào kho dữ liệu tới hệ thống nguồn và hệ thống đích bằng việc thực hiện các tính tốn phức tạp trên hệ thống của máy chủ cài đặt ETL và có khả năng mở rộng theo các mơ hình khác nhau tùy vào nhu cầu xử lý dữ liệu.

Máy chú ngu nồ Máy ch ETLủ Máy chú đích

Trich XU àt (Extract) (Transform)Chuyển đỗi

Truyền tải (Load)

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

Hình 2.13: Q trình ETL được thiết kế bằng cơng cụ Data Stage

Sau khi dữ liệu đã được trích xuất, chuyển đổi, và sẵn sàng chuẩn bị chuyển dữ liệu sang kho dữ liệu DWH thì tại đây, kho dữ liệu của MSB sẽ được thiết kế xây dựng 2 DWH chạy song song với nhau. Một DWH xây dựng để phục vụ mục đích lập báo cáo và phân tích tình hình kinh doanh của ngân hàng MSB, một DWH được xây dựng để lập báo cáo định kì theo chuẩn các quy định gửi về NHNN. DWH để lập báo cáo về NHNN không thể xây dựng cùng DWH ngân hàng bởi vì cấu trúc dữ liệu khi lập báo cáo gửi ngân hàng nhà nước khác với báo cáo hoạt động kinh doanh của ngân hàng MSB, nếu xây dựng kết hợp thì có thể làm ảnh hưởng đến dữ liệu khi lập các báo cáo về tình hình kinh doanh của ngân hàng.

2.2.3 Tạo báo cáo gửi NHNN từ DWH 2

Sau khi dữ liệu đã được tổng hợp, chuẩn hóa trong kho dữ liệu, tùy theo nhu cầu và mục đích của ngân hàng thì sẽ cho ra nhiều loại báo cáo khác nhau. Tại MSB, báo cáo được chia ra làm 4 loại chính:

- Báo cáo hoạt động: Là báo cáo tài chính tổng hợp, phản ánh tổng quát tình hình và kết quả kinh doanh trong một kỳ hoạt động của doanh nghiệp và chi tiết cho các hoạt động kinh doanh chính. Nói cách khác, báo cáo kết quả hoạt động kinh doanh là phương tiện trình bày khả năng sinh lời và thực trạng hoạt động kinh doanh của doanh nghiệp.

- Báo cáo tuân thủ: Là báo cáo tài chính tuân theo các quy định, điều lệ, nghị định do

ngân hàng MSB hoặc NHNN ban hành.

- Báo cáo dự báo: Là báo cáo tài chính dự báo trước tình hình kinh doanh hay thị hiếu của khách hàng nhằm mục tiêu vạch ra chiến lược kinh doanh phù hợp.

- Báo cáo quản trị: Với mỗi cấp lãnh đạo thì yêu cầu các loại báo cáo khác nhau. Báo

cáo với cấp trưởng phịng là những báo cáo chi tiết về tình hình kinh doanh của

Khóa luận tốt nghiệp Nghiên cứu cải tiên mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

tổng quan hơn về tình hình kinh doanh của tồn cơng ty để có cái nhìn khái quát nhằm đưa ra các chiến lược kinh doanh tốt hơn.

Một báo cáo thường có hai phần chính: dữ liệu và ứng dụng.

Đối với báo cáo từ DWH MSB: dữ liệu thì được truy vấn bằng các câu lệnh PL/SQL qua cơng cụ Data Stage và ứng dụng thì được xây dựng bằng công cụ IBM Cognos. Đối với báo cáo DWH TT35: dữ liệu được truy vấn bằng các câu lệnh PL/SQL qua công cụ Data Stage và ứng dụng được xây dựng bằng Hệ thống Cổng giao tiếp thông tin với Ngân hàng nhà nước.

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

Hình 2.15: Thiết kế các job lấy dữ liệu trên công cụ Data Stage

Tên ngành Idnh tè

ngành kinh tẻ

Tiền gửi của cá nhân và tổ chức là Người cư trú của Việt Nam

Phát hãnh giày tờ có giã cho Người cư trú của Việt Nam

Bang VND Băng ngoại

tẹ Tồng cộng Băng VND Băng ngoại tệ Tồng cộng lĩ) lĩ) 13) lĩ) H) τ¾ 17) Tống cộng

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

Hình 2.17: Cổng giao tiếp thơng tin với Ngân hàng nhà nước

Chương 2 đã trình bày các hệ thống thơng tin tại ngân hàng MSB và mơ hình kho dữ liệu Hub-and-Spoke mà MSB đang sử dụng. Từ đó, khóa luận sẽ đề xuất phương án cải tiến kho dữ liệu để có thể xây dựng hệ thống báo cáo theo chuẩn ngân hàng nhà nước áp dụng cho các tổ chức tín dụng và ngân hàng tại Việt Nam. Trong chương tiếp theo, khóa luận sẽ trình bày báo cáo việc thử nghiệm mơ hình kho dữ liệu cải tiến để lập báo cáo Huy động vốn từ khách hàng theo ngành kinh tế cho ngân hàng MSB.

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

CHƯƠNG III: XÂY DỰNG BÁO CÁO HUY ĐỘNG VÓN THEO CHUẢN NHNN DỰA TRÊN KHO DỮ LIỆU NGÂN HÀNG MSB

Chương này sẽ trình bày kết quả xây dựng một hệ thống thử nghiệm cho báo cáo Huy động vốn theo chuẩn NHNN dựa trên mơ hình kho dữ liệu của ngân hàng MSB.

3.1Báo cáo huy động vốn từ khách hàng theo ngành kinh tế

Báo cáo Huy động vốn từ khách hàng theo ngành kinh tế là những báo cáo được trình bày tổng quát, phản ánh một cách tổng hợp nhất về tình hình huy động vốn từ tiền gửi và các giấy tờ có giá của người cư trú tại Việt Nam.

Báo cáo Huy động vốn từ khách hàng theo ngành kinh tế là loại báo cáo tài chính quan trọng của NHTM vì thơng qua các chỉ tiêu của báo cáo này giúp cho lãnh đạo ngân hàng và các cơ quan quản lý, cơ quan thuế, kiểm toán nắm được thực trạng các khoản huy động vốn của từng ngân hàng cũng như tồn bộ hệ thống. Từ đó giúp cho cơng tác lãnh đạo, điều hành, kiểm tra, kiểm tốn có hiệu quả nhằm giúp các NHTM hồn thành kế hoạch tài chính và kế hoạch nộp ngân sách quốc gia.

Báo cáo huy động vốn từ khách hàng theo ngành kinh tế có biểu mẫu được thiết kế dựa trên khung mẫu biểu số 041-DBTK như sau:

Đơn vị bão cáo: ... Biểu số 041-DBTK

BÁO CÁO HUY ĐỎNG VÓN TỬ KHÁCH HÀNG THEO NGÀNH KINH TÉ

(Tháng... năm...) Đan Vị' tính: Triệu VND

Hình 3.1: Biểu mẫu huy động vốn từ khách hàng theo ngành kinh tế

Yêu cầu:

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

- Đối tượng áp dụng: Các tổ chức tín dụng.

- Yêu cầu số liệu báo cáo: Trụ sở chính tổ chức tín dụng gửi báo cáo cho NHNN thông qua Cục Công nghệ tin học.

+ Số liệu toàn hệ thống;

+ Số liệu từng chi nhánh tổ chức tín dụng trong hệ thống (nếu có).

- Đơn vị nhận và duyệt báo cáo: Vụ Dự báo, thống kê; NHNN chi nhánh tỉnh, thành

phố.

- Hướng dẫn lập báo cáo:

+ Thống kê huy động vốn của tổ chức và cá nhân là Người cư trú của Việt Nam thuộc khu vực thể chế phi tài chính, khu vực hộ gia đình và khu vực thể chế khơng vì lợi nhuận phục vụ hộ gia đình dưới hình thức: nhận tiền gửi (tiền gửi khơng kỳ hạn, tiền gửi tiết kiệm, tiền gửi có kỳ hạn, tiền gửi chuyên dùng và các loại tiền gửi khác), phát hành giấy tờ có giá (chứng chỉ tiền gửi, kỳ phiếu, tín phiếu, trái phiếu).

+ Việc phân loại huy động vốn của tổ chức tín dụng theo ngành kinh tế căn cứ vào hồ sơ của khách hàng.

+ Thống kê theo loại tiền VND và các loại ngoại tệ quy đổi ra VND theo hướng dẫn tại Phần 1 Phụ lục 2 Thông tư này.

+ Cột “Tên ngành kinh tế”: Tổ chức tín dụng ghi rõ tên ngành kinh tế theo quy định tại Bảng 1 Phụ lục 3 Thông tư này.

+ Cột (1): Là Mã ngành kinh tế quy định tại Bảng 1 Phụ lục 3 Thông tư này. + Cột (2), cột (3): Thống kê số dư các khoản tiền gửi (tiền gửi khơng kỳ hạn, tiền gửi tiết kiệm, tiền gửi có kỳ hạn, tiền gửi chuyên dùng và các loại tiền gửi khác) tại tổ chức tín dụng từ các tổ chức và cá nhân là Người cư trú của Việt Nam tại cuối ngày làm việc cuối cùng của kỳ báo cáo phân theo ngành kinh tế. + Cột (4) = Cột (2) + cột (3).

+ Cột (5), cột (6): Thống kê số dư phát hành giấy tờ có giá (chứng chỉ tiền gửi, kỳ phiếu, tín phiếu, trái phiếu) của tổ chức tín dụng cho các tổ chức và cá nhân là Người cư trú của Việt Nam tại cuối ngày làm việc cuối cùng của kỳ báo cáo phân theo ngành kinh tế.

+ Cột (7) = Cột (5) + cột (6).

Ghi chú: Khách hàng là cá nhân gửi tiền sẽ được phân vào Hộ gia đình trong ngành

Tên ngàn h kinh tế ngàn h kinh tế

Tiền gửi của cá nhân và tổ chức là

Người cư trú của Việt Nam Phát hành giấy tờ có giá choNgười cư trú của Việt Nam

Bằng VND Bằng ngoại

tệ

Tổng

cộng BằngVND Bằng ngoạitệ Tổngcộng

-1 -2 -3 -4 -5 -6 -7

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

chất và dịch vụ tự tiêu dùng của hộ gia đình (Mã ngành 0806 tại Bảng 1 Phụ lục 3 Thơng tư này).

3.2Phân tích u cầu bài tốn

3.2.1 Thiết kế kiến trúc hệ thống báo cáo Huy động vốn từ khách

hàng theo ngành kinh tế Báo cáo DWH TT35 Khu vực Staging Nguan dữ liệu Hình 3.2: Kiến trúc hệ thống Hệ thống được chia thành 4 tầng:

Tầng Nguồn dữ liệu (1): Xác định các nguồn dữ liệu

- Nguồn SIBS, Kondor, Way 4.

TầngKhu vực Staging (2): Tổng hợp và tính tốn số liệu, các dữ liệu trung gian.

Tầng DWH TT35 (3): Xây dựng khối cấu trúc dữ liệu bằng cách sử dụng Data

Stage để thực hiện cơng việc này.

Tầng Báo cáo (4): Tầng này trực tiếp giao tiếp với người dùng, cung cấp các

dạng báo đầu ra.

Nguyễn Thị Phương Linh - Lớp HTTTB.K16

Khóa luận tốt nghiệp Nghiên cứu cải tiến mơ hình kho dữ liệu tại ngân hàng TMCP Hàng Hải Việt Nam

Lây theo QD33 7/QD -BKH ngày 10/04 /2007 Lây theo QD33 7/QD-

Một phần của tài liệu Nghiên cứu cải tiến mô hình kho dữ liệu đáp ứng khả năng xây dựng báo cáo theo tiêu chuẩn của NH nhà nước tại NH TMCP hàng hải việt nam khoá luận tốt nghiệp 324 (Trang 45)

Tải bản đầy đủ (DOCX)

(103 trang)
w