Tầm quan trọng của quá trình trích lọc dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng kho dữ liệu đảm bảo hiệu năng cho ngân hàng BIDV và thử nghiệm với hệ thống báo cáo phân tích khách hàng (Trang 26 - 28)

Chương 1 HỆ THỐNG KHO DỮ LIỆU

2.4 Các thành phần cần nâng cấp, bổ sung

2.4.2.1 Tầm quan trọng của quá trình trích lọc dữ liệu

Thiết kế và triển khai quy trình ETL sẽ là công trình phức tạp nhất trong tiến trình xây dựng kho dữ liệu tập trung. Quy trình là quy trình để “Chiết xuất, chuyển đổi và truyền tải” dữ liệu từ các hệ ứng dụng tác nghiệp gốc vào trong kho dữ liệu tập trung và từ kho dữ liệu tập trung qua các kho dữ liệu cục bộ. Mỗi lần môi trường kho dữ liệu thêm một ứng dụng hoặc thêm một Cơ sở dữ liệu mới, quy trình ETL sẽ phải được bổ sung và ngày càng trở nên phức tạp hơn. Trên nguyên tắc về mặt “logic”, sẽ chỉ có một quy trình ETL để phục vụ toàn bộ môi trường làm việc của hệ thống kho dữ liệu tập trung.

Vì sự cần thiết phải phối hợp rất chặt chẽ các quy trình ETL, do đó chỉ nên sử dụng một công cụ ETL duy nhất để vận hành cả hệ thống kho dữ liệu. Vì vậy, chức năng và chất lượng của công cụ ETL được chọn lựa sẽ là chìa khóa thành công trong việc xây dựng kho dữ liệu tập trung của ngân hàng.

Mục đích của công cụ tiện ích ETL là hỗ trợ các qui trình chiết xuất dữ liệu từ nhiều nguồn dữ liệu hỗn tạp, chuyển đổi các dữ liệu này thành dữ liệu chất lượng cao, truyền tải các dữ liệu đã được chuyển đổi và lưu trữ vào kho dữ liệu tập trung cũng như các kho dữ liệu cục bộ chuyên đề, giúp cho việc truy cập được dễ dàng hơn.

Khi đánh giá các giải pháp ETL để xây dựng hệ thống kho dữ liệu, một số câu hỏi cần được cân nhắc:

Sẽ tự xây dựng công cụ cho các chương trình ETL hay sẽ dùng một sản phẩm phần mềm có sẵn?

Công cụ ETL có khả năng tích hợp với kho siêu dữ liệu (metadata repository) không?, các chi tiết kỹ thuật liên quan đến quy trình ETL có thể được cập nhật và có thể được lưu trữ ngay trong kho siêu dữ liệu hay không?

Bộ các công cụ ETL có bao gồm một công cụ chuyên biệt với đầy đủ chức năng cần thiết để đáp ứng các yêu cầu về làm sạch dữ liệu hay không?

Tiện ích sắp xếp (SORT) và tiện ích tải nạp (LOAD) dữ liệu có nhanh chóng và đáp ứng đủ hiệu suất hay không?

Công cụ ETL và quy trình ETL có bao gồm các thống kê đo lường chất lượng dữ liệu hay không? Các thống kê này có thể lưu trữ ngay trong kho siêu dữ liệu hay không?

Các bước quan trọng trong quy trình ETL

 Chiết xuất dữ liệu (ETL chuẩn bị / ETL Staging)

Bước đầu tiên trong quy trình ETL là chiết xuất dữ liệu nhằm lựa chọn, thu thập và kết hợp dữ liệu từ rất nhiều nguồn dữ liệu đa dạng và phức tạp vào trong các kho dữ liệu tạm thời trước khi được làm sạch và chuyển đổi. Dữ liệu chiết xuất gồm dữ liệu có cấu trúc và dữ liệu không có cấu trúc được lấy từ nhiều nguồn dữ liệu trong và ngoài ngân hàng.

Các nguồn dữ liệu có cấu trúc gồm có: Các hệ tác nghiệp gốc như hệ thống Core Banking, Treasury, Quản lý nội bộ, quản lý nguồn nhân lực (Tổ chức cán bộ), các hệ Quản lý thẻ, hệ chuyển tiền, các chương trình quản lý sản phẩm đặc biệt tại chi nhánh, v.v…Các hệ quản lý kênh phân phối như Contact center, Internet banking và Mobile banking, v.v… Các hệ báo cáo kết quả hoạt động kinh doanh của các công ty trực thuộc ngân hàng. Các thông tin mua hoặc thuê từ các tổ chức tài chính như: Trung tâm Thông tin tín dụng (CIC: credit information center), PCB (Công ty Thông tin Tín dụng Việt Nam), v.v…

Các nguồn dữ liệu không cấu trúc bao gồm: Thông tin và báo cáo từ các chi nhánh, các văn bản và báo cáo nội bộ, các nguồn thông tin và tin tức ngoài ngân hàng.

Một số câu hỏi cần được làm rõ khi xây dựng kho dữ liệu giải đáp liên quan đến giải pháp đề xuất cho bước ETL chuẩn bị (ETL staging) gồm có: Quy trình Chiết xuất dữ liệu từ các hệ tác nghiệp, đặc biệt là từ Core Banking sẽ tốn hết bao nhiêu thời gian (tính bằng giờ) vào cuối mỗi ngày làm việc, cuối tuần, cuối tháng và có tiềm ẩn khả năng gây tác động đến hiệu năng xử lý của hệ thống Core Banking và các hệ tác nghiệp khác hay không? Giải pháp ETL sẽ cập nhật toàn bộ cơ sở dữ liệu của các hệ tác nghiệp mỗi ngày hay chỉ cần trích rút các dữ liệu đã thay đổi so với kỳ tải nạp dữ liệu trước.

 Chuyển đổi dữ liệu (ETL Transformation)

Bước “Chuyển đổi” dữ liệu là bước quan trọng nhất, có thể chiếm tới 80% của cả quy trình ETL. Các kỹ thuật sau đây sẽ cần được xây dựng áp dụng trong bước chuyển đổi dữ liệu để đảm bảo chất lượng dữ liệu: Đồng dạng/đồng bộ dữ liệu (reformatting) Dữ liệu

hợp/đối chiếu dữ liệu (reconcilement) Dữ liệu gốc dư thừa, trùng hợp cần được đối chiếu để chỉnh sửa lại cho nhất quán, cho phù hợp. Làm sạch dữ liệu (cleansing) Dữ liệu từ các ứng dụng tác nghiệp gốc có thể thiếu chính xác và cần được kiểm tra, chỉnh sửa và làm sạch theo đúng các quy tắc nghiệp vụ. Tổng hợp dữ liệu (aggregation) Phần lớn dữ liệu sẽ cần được tổng hợp và tổng kết (summarized) để phù hợp với cấu trúc đa chiều của kho dữ liệu, phục vụ nhu cầu truy xuất và báo cáo.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng kho dữ liệu đảm bảo hiệu năng cho ngân hàng BIDV và thử nghiệm với hệ thống báo cáo phân tích khách hàng (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(66 trang)