Yêu cầu kỹ thuật về công cụ trích lọc dữ liệu

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 32)

Không được cài thêm bất kỳ phần mềm nào trên máy chủ nguồn dữ liệu.

Công cụ ETL cho phép tích hợp dữ liệu trên nhiều hệ thống có nền tảng khác nhau và xử lý khối lượng lớn dữ liệu.

Công cụ ETL phải có giao diện đồ họa thân thiện với người sử dụng để có thể thiết kế các “job” cho việc quản lý việc tập hợp, chuyển đổi, xác nhận và tải dữ liệu từ các nguồn khác nhau.

Ứng dụng có khả năng tích hợp siêu dữ liệu (meta data) để phân tích và bảo trì. Ứng dụng phải cung cấp dữ liệu có chất lượng và độ tin cậy cho việc phân tích kinh doanh và để báo cáo.

Hỗ trợ tích hợp với công cụ đồng bộ dữ liệu thời gian thực.

Ứng dụng cung cấp các điều khiển logic để có thể tùy chỉnh các dataflow. Cung cấp các công cụ cho việc triển khai, lập kế hoạch và theo dõi các “job”.

Khi thiết kế các “job”, thì các “job” này không phụ thuộc nhiều đến cấu trúc của hệ thống, và không cần thay đổi các job khi hệ thống thay đổi tức là khi hệ thống thay đổi, được nâng cấp thì không cần phải thiết kế lại job.

Ứng dụng có thể thực thi các “job” một cách song song trên nhiều CPU và hoàn toàn có khả năng mở rộng, có nghĩa là việc thiết kế các job có thể chạy trên tài nguyên của một máy tính đơn hoặc tận dụng các tính năng của nền tảng song song như cluster, GRID hay kiến trúc MPP (massively parallel processing).

Ứng dụng không cần dựa vào các chức năng xử lý của cơ sở dữ liệu để thực hiện chuyển đổi dữ liệu mà ứng dụng phải có khả năng tạo ra các câu lệnh SQL phức tạp. Ứng dụng được thiết kế như một công cụ đa tích hợp dữ liệu. Do đó không cần phải đầu tư các cơ sở dữ liệu để hỗ trợ công cụ này.

Hỗ trợ một số lượng hầu như không giới hạn các nguồn dữ liệu kể cả có cấu trúc và không có cấu trúc: các tập tin văn bản, cấu trúc dữ liệu phức tạp trong XML, các hệ thống ERP (Enterprise resource planning) như SAP và PeopleSoft, hầu như bất kỳ cơ

sở dữ liệu nào (DB2, Sql Server,Oracle, Teradata … bao gồm cả cơ sở dữ liệu phân vùng), các dịch vụ Web, SAS, Cognos.

Cho phép giải quyết các vấn đề liên quan đến xử lý khối lượng dữ liệu lớn với hiệu năng cao. Bằng cách tận dụng khả năng xử lý song song của nền tảng phần cứng. Có khả năng tận dụng các nguồn tài nguyên máy tính lớn hiện có để tối đa hóa giá trị của khoản đầu tư CNTT.

Hỗ trợ cách thức chạy theo cơ chế batch.

Hỗ trợ vòng lặp trong các đối tượng chuyển đổi.

Hỗ trợ các phương thức tự tạo bản ghi để phục vụ mục đích testing.

Hỗ trợ tái cấu trúc các job: hỗ trợ các toán tử join, merge, union, null-handling... Hỗ trợ các loại nguồn dữ liệu: RDBMS, XML, CLOB, BLOB...

Hỗ trợ tính sử dụng lại. Tham số hoá.

Chia sẻ các cấu phần con.

Chọn loại database tại thời điểm chạy.

Hỗ trợ quản lý người sử dụng và phân quyền đến các thành phần trên giao diện đồ hoạ.

Hỗ trợ đa ngôn ngữ.

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 32)