Chuyển đổi dữ liệu

Một phần của tài liệu Nghiên cứu và xây dựng kho dữ liệu sản phẩm tại Ngân hàng TMCP Đại Dương dựa trên nền tảng hệ quản trị CSDL Oracle 10g (Trang 31)

Giai đoạn chuyển đổi dữ liệu áp dụng một loạt các quy tắc hay chức năng để trích xuất dữ liệu từ các nguồn để lấy được các dữ liệu để tải vào các mục tiêu cuối cùng. Một số dữ liệu không yêu cầu bất kỳ chuyển đổi ở tất cả và được gọi là di chuyển trực tiếp hoặc thông qua các dữ liệu trong điều kiện kỹ thuật.

Một chức năng quan trọng của chuyển đổi dữ liệu là làm sạch các dữ liệu nhằm mục đích để truyền dữ liệu chỉ thích hợp với các mục tiêu. Khi các hệ thống khác nhau tương tác với nhau và dựa trên các dữ liệu hệ thống cửa hàng, có là một thách thức trong giao tiếp / truyền thông với nhau. Một số bộ ký tự có thể có sẵn trong một hệ thống có thể không có sẵn ở khác. Trường hợp này phải được xử lý một cách chính xác và sau cùng dẫn đến một số vấn đề liên quan đến chất lượng dữ liệu.

23 1.9.6. Nạp dữ liệu.

Giai đoạn tải dữ liệu vào kho dữ liệu với nguồn dữ liệu có thể là một tập tin hoặc dữ liệu giao dịch. Tùy thuộc vào yêu cầu của tổ chức, quá trình này rất khác nhau. Một số kho dữ liệu có thể ghi đè lên các thông tin hiện có thông tin tích lũy; cập nhật trích xuất dữ liệu thường xuyên được thực hiện trên một cơ sở hàng ngày, hàng tuần, hoặc hàng tháng. Kho dữ liệu khác (hoặc thậm chí các phần khác của kho dữ liệu tương tự) có thể thêm dữ liệu mới trong một hình thức lịch sử trong khoảng thời gian, ví dụ thường xuyên, hàng giờ. Thời gian và phạm vi để thay thế hoặc phụ thêm những sự lựa chọn thiết kế chiến lược phụ thuộc vào thời gian có sẵn và các nhu cầu kinh doanh. Nhiều hệ thống phức tạp có thể duy trì một lịch sử và dấu vết kiểm toán của tất cả các thay đổi đối với dữ liệu được nạp vào kho dữ liệu.

Cấu trúc chiều: Tất cả các chiều cần được tổ chức vật lí sao cho có ít thành

phần nhất có thể. Người ta thường gắn thêm một thuộc tính không có ý nghĩa thực tế để làm khoá đại diện bên cạnh khoá tự nhiên của nó.

Cấu trúc của một chiều thông thường như sau:

Hinh 1. 23: Cấu trúc chiều cơ bản.

Bình thường, với mỗi khoá tự nhiên sẽ ứng với một khoá đại diện (1-1), nhưng khi cần theo dõi dữ liệu mang tính lịch sử, mỗi khoá tự nhiên có thể ứng

với nhiều khoá đại diện.

Các thuộc tính trong mỗi chiều thường không chứa số. Vì các thuộc tính mang giá trị số hầu như chắc chắn là các fact. Trong khoảng 2% các trường hợp, có thể rất khó đưa ra quyết định một trường chứa giá trị số thực ra có phải là fact hay không (ví dụ giá sản phẩm). Trong trường hợp này, cần xác định:

24

 Thuộc tính này có phải dạng SCD Type 2 hay không (nếu là SCD Type 2, đây là fact)

Nạp các chiều phẳng và các chiều bông tuyết:

Nếu như bước làm sạch dữ liệu, dữ liệu vẫn được giữ ở dạng chuẩn cao (dạng bông tuyết) để bảo đảm tính nhất quán, thì ở bước nạp dữ liệu, dữ liệu sẽ được giảm dạng chuẩn (dạng phẳng) để giúp tăng tối đa tốc độ truy vấn và kết xuất dữ liệu. Vì thế, người ta thường cố gắng tránh tổ chức các chiều dạng bông tuyết.

Dữ liệu có phân cấp theo nhiều cách khác nhau đối với cùng một chiều (chẳng hạn chiều sản phẩm phân cấp theo vùng địa lí hay theo vùng tiếp thị). Để làm phẳng, mọi thuộc tính liên quan đến các cách phân cấp này đều được lưu trong cùng một chiều.

Chiều thời gian (bao gồm cả ngày-tháng):

Đây là một chiều rất quan trọng vì được dùng hầu như trong mọi bảng fact. Bởi vì tính chất quan trọng của nó, chiều thời gian thường được tổ chức đặc biệt và không có nguồn nhập. Chiều này thường được dùng chung (dạng tham chiếu) cho nhiều chiều khác.

25

Hinh 1. 24: Chiều thời gian.

Có một số chú ý sau đối với chiều thời gian:

 Chiều thời gian thường được phân vùng vật lý do tính chất lịch sử của nó. Việc này làm tăng tốc độ cập nhật của dữ liệu.

 Chiều ngày-tháng thường là một bảng vật lí cơ bản.Nếu cần chiều tháng, sẽ sử dụng khoảng chặn ngày đầu tháng-cuối tháng để tổ chức. Nếu cần tính chi tiết ở mức giờ, phút, giây, để bảo đảm không bị tràn, người ta thường sử dụng thêm một thuộc tính nhãn thời gian.

Các chiều lớn: thường là các chiều được tạo thành từ nhiều nguồn, nhiều

hệ thống khác nhau, do nhu cầu cần phải dữ lại quá nhiều thông tin. Để giảm kích thước các chiều lớn, người ta cần làm các bước sau:

 Loại bỏ trùng lắp

 Chuẩn hoá dữ liệu

 Hợp nhất

26

Hinh 1. 25: Quá trình hợp nhất các chiều phụ thuộc.

Vấn đề lựa chọn phân tách/hợp nhất chiều: (adsbygoogle = window.adsbygoogle || []).push({});

Nếu hai chiều có tương quan với nhau, người ta thường cố gắng tổ chức thành hai chiều độc lập và sử dụng bảng fact để mô tả mối tương quan đó, thay vì hợp nhất thành một chiều.

Nếu việc roll-up một chiều cho ra chiều còn lại (chẳng hạn product và brand), thì nhất thiết không được tách thành hai chiều.

Các trường hợp còn lại, cần cân nhắc yêu cầu của người dùng.

Chiều nhập vai (role-playing dimension): Là chiều được gắn nhiều lần vào cùng

một bảng fact nhưng với các vai trò khác nhau. Ví dụ điển hình là chiều thời gian. Đối với chiều nhập vai, người ta thường tổ chức một chiều. Các chiều tham chiếu từ bảng fact là các view được tạo ra từ chiều chung đó.

Nạp các chiều suy biến:

Chiều suy biến là chiều dẫn xuất từ bảng fact mà không chứa thuộc tính nào (còn gọi là chiều rỗng). Chiều suy biến thường chỉ chứa một khoá tự nhiên để lưu vết các giao tác.

Nạp các chiều thay đổi chậm (Slowly Changing Dimension – SCD): Là chiều có

27

 SCD loại 1 (ghi đè): đây là loại chiều không cần lưu lại lịch sử thay đổi. Chỉ việc ghi đè lên bản ghi cũ.

 SCD loại 2 (dữ liệu lịch sử hết hiệu lực): đây là loại chiều cần lưu lại lịch sử. Thay vì ghi đè lên chiều cũ, người ta tạo ra một dòng mới với cùng khoá tự nhiên nhưng khác khoá đại diện. Lúc đó, chỉ cần thay đổi tham chiếu từ bảng fact.

 SCD loại 3 (dữ liệu lịch sử còn hiệu lực): đây là trường hợp các giá trị lịch sử vẫn còn hiệu lực sử dụng đồng thời với các giá trị mới. Thay vì tạo thêm một dòng mới trong bảng chiều, người ta tạo thêm các cột mới để lưu vết.

Thông thường, người ta tránh sử dụng loại 2 vì nó làm thay đổi cấu trúc của hệ thống. Hơn nữa, việc xác định tính hiệu lực của dữ liệu thường được quy định trong nghiệp vụ và được lưu như là một thuộc tính bình thường của chiều đó.

Nạp chiều đến sau và sửa lỗi dữ liệu:

Dữ liệu đến sau là những dữ liệu thay đổi sau khi đã xây dựng DW. Dữ liệu này phân ra làm 2 loại:

 Dữ liệu cần sửa đổi: do phát hiện sai sót (về thời gian) trong quá trình xây dựng DW.

 Dữ liệu cập nhật theo thời gian thực: do tính chất thời gian thực, dữ liệu đang được truy vấn là dữ liệu cũ, và dữ liệu được cập nhật là dữ liệu mới nhưng chưa được nạp vào hệ thống.

Các chiều đến sau cần được nạp vào DW bằng một hệ thống ETL độc lập và cần được kiểm tra kĩ trên hệ thống thử nghiệm vì việc này ảnh hưởng sâu sắc đến hệ thống.

Dữ liệu cần sửa đổi do phát hiện lỗi sai (về thời gian) được sửa theo 3 bước sau:

 Thêm một bản ghi mới với các thông tin cập nhật cho thuộc tính tương ứng, ứng với mốc thời gian cần thay đổi.

 Xác định từ mốc thời gian đó, tất cả các thay đổi xảy ra về sau nó và ghi đè bằng các giá trị mới của thuộc tính

 Cập nhật lại khoá ngoại cho bảng fact tất cả các bản ghi tham chiếu đến các bản ghi đã thay đổi trong chiều đó.

Nạp chiều đa giá trị và bảng cầu nối:

Các chiều đa giá trị là các chiều có quan hệ n-n đến bảng fact. Trong trường hợp này, cần phải tạo bảng cầu nối và bảng phân nhóm (để tránh quan hệ n-n đến bảng fact).

28 1.10.Kho dữ liệu cục bộ.

Một kho dữ liệu cục bộ là một tập hợp các dữ liệu cùng chủ để được tổ chức nhằm hỗ trợ việc ra quyết định dựa trên nhu cầu cụ thể của một nhóm người dùng doanh nghiệp hoặc bộ phận. Có hai loại kho dữ liệu cục bộ: kho dữ liệu cục bộ độc lập và kho dữ liệu cục bộ phụ thuộc.

Kho dữ liệu cục bộ độc lập: dữ liệu tập trung riêng theo một chủ đề và nó

không được thiết kế đáp ứng cho cả doanh nghiệp. Ví dụ: bộ phận sản xuất có kho dữ liệu cục bộ của họ, bộ phận nhân lực, bộ phận tài chính cũng như vậy.Kho dữ liệu cục bộ nhận dữ liệu từ nhiều hệ thống giao dịch theo một chủ đề hoặc theo yêu cầu kinh doanh cụ thể của một bộ phận. Kho dữ liệu cục bộ độc lập có thể được theo thiết kế chiều hoặc mô hình thực thể quan hệ. Hệ thống phân tích và quản trị doanh nghiệp thông minh truy vấn dữ liệu công cụ trực tiếp từ kho dữ liệu cục bộ. Những hình ảnh dưới đây là một Stand-alone kho dữ liệu cục bộ điển hình.

Hinh 1. 26: Kiến trúc kho dữ liệu cục bộ độc lập.

Kho dữ liệu cục bộ phụ thuộc (Dependent kho dữ liệu cục bộ): Theo Inmon, (adsbygoogle = window.adsbygoogle || []).push({});

một kho dữ liệu cục bộ phụ thuộc là một nơi mà dữ liệu của nó đến từ một kho dữ liệu. Dữ liệu trong một nhà kho dữ liệu được tổng hợp, cơ cấu lại, và tóm tắt khi nó đi vào kho dữ liệu cục bộ phụ thuộc. Các kiến trúc của một siêu thị dữ

29

Hinh 1. 27: Kiến trúc Kho dữ liệu cục bộ phụ thuộc.

Lợi ích của việc xây dựng một siêu thị dữ liệu phụ thuộc:

 Hiệu suất: khi hiệu suất thực hiện của kho dữ liệu trở thành một vấn đề thì việc xây dựng một hoặc hai kho dữ liệu cục bộ có thể giải quyết vấn đề. Bởi vì xử lý dữ liệu được thực hiện bên ngoài các kho dữ liệu.

 An ninh: bằng cách đặt các dữ liệu bên ngoài kho dữ liệu trong các kho dữ liệu cục bộ, từng bộ phận sở hữu dữ liệu của họ và hoàn toàn kiểm soát dữ liệu của họ.

 KPI theo dõi kho dữ liệu cục bộ là nơi lý tưởng để xây dựng và theo dõi KPIs qua thời gian dài của thời gian.

30

CHƯƠNG 2: XÂY DƯNG KHO DỮ LIỆU SẢN PHẨM 2.1. Giới thiệu.

2.1.1. Ngân hàng TMCP Đại Dương.

Thành lập năm 1993 và chuyển đổi mô hình hoạt động ngân hàng TMCP từ năm 2007, Ngân hàng TMCP Đại Dương (OceanBank) tự hào là Ngân hàng TMCP đa năng, hiện đại, có sự bứt phá về doanh thu, tổng tài sản và vốn điều lệ hàng năm. Hiện ngân hàng được đánh giá là một trong những ngân hàng có cấu trúc tài chính lành mạnh, an toàn nhất trong hệ thống ngân hàng.

Hình 2. 1: Giới thiệu Ocean Bank.

OceanBank cung cấp cho khách hàng các sản phẩm, dịch vụ tài chính ngân hàng đa năng, hiện đại và hiệu quả, phù hợp với nhu cầu và đặc điểm cư dân, kinh tế vùng miền. Không chỉ cung cấp các dịch vụ ngân hàng truyền thống, OceanBank đẩy mạnh phát triển các dịch vụ ngân hàng điện tử, tạo ra các sản phẩm có hàm lượng kỹ thuật công nghệ cao, bảo mật cho các nhóm khách hàng doanh nghiệp và cá nhân.

Đây là những bước đi vững chắc của OceanBank trong việc phấn đấu mục tiêu nằm trong Top 5 Ngân hàng hàng đầu Việt Nam có số lượng khách hàng sử dụng dịch vụ ngân hàng điện tử và doanh số giao dịch qua kênh ngân hàng điện tử chiếm tỷ trọng cao nhất trong tương lai, áp dụng những giải pháp công nghệ hàng đầu trong lĩnh vực tài chính, ngân hàng.

Xác định sự phát triển phải gắn liền với lợi ích chung của xã hội, OceanBank luôn tích cực tham gia các hoạt động xã hội từ thiện: triển khai chương trình từ thiện "Nguồn sáng", chữa và phẫu thuật các bệnh về mắt có khả năng gây mù cho người nghèo trên toàn quốc, tài trợ xây dựng trường, trạm y tế,

31

tài trợ từ thiện cho cháu Trần Danh Tùng phẫu thuật do mắc hội chứng Apert, tặng quà cho trẻ em nghèo…

Với các giá trị tạo ra cho khách hàng, cổ đông, xã hội..., OceanBank đã giành được nhiều danh hiệu, giải thưởng, bằng khen của các tổ chức trong nước và quốc tế cho tập thể và cá nhân xuất sắc của ngân hàng, như Ngân hàng bán lẻ tốt nhất Việt Nam, Ngân hàng bán lẻ có tốc độ tăng trưởng nhanh nhất Việt Nam do tạp chí Global Banking & Finance Review trao tặng; Giải thưởng STP (Straight – Through – Processing) dành cho ngân hàng thanh toán đạt chuẩn cao do Wells Fargo trao tặng; Top 100 Ngân hàng có Bảng cân đối kế toán mạnh nhất Khu vực Châu Á Thái Bình Dương; Top 500 Ngân hàng Lớn nhất Khu vực Châu Á Thái Bình Dương; Top 500 doanh nghiệp lớn nhất Việt Nam (VNR500); Top 200 doanh nghiệp đóng thuế thu nhập doanh nghiệp lớn nhất… Thành công của OceanBank được kết tinh từ nhiều yếu tố. Đó là sự nhất quán từ việc xây dựng đường lối, chính sách đến việc thực thi kế hoạch, là sự quyết tâm theo đuổi chiến lược kinh doanh lấy mục tiêu phát triển bền vững làm trọng tâm, là sự chủ động trong công tác quản trị, là sự đoàn kết của tập thể cán bộ nhân viên. Và chắc chắn, vị thế của OceanBank có được ngày hôm nay không thể được xây đắp nếu không có sự đồng hành của cổ đông, nhà đầu tư và khách hàng.

Kiên định thực hiện mục tiêu, OceanBank sẽ tiếp tục nỗ lực phấn đấu trở thành Ngân hàng sáng tạo nhất, quản lý tốt nhất và được khách hàng đánh giá là ngân hàng "hướng về khách hàng" tốt nhất trong toàn ngành bằng việc nâng cao các sản phẩm dịch vụ, tăng cường hợp tác với các tập đoàn lớn trong và ngoài nước, tích cực đồng hành cùng các doanh nghiệp, chú trọng công tác quản lý đào tạo và phát triển nhân sự, không ngừng ứng dụng và phát triển công nghệ thông tin để đảm bảo hoạt động ổn định và an toàn của hệ thống

2.1.2. Hệ thống CORE BANKING.

Giải pháp ngân hàng lõi mà Ngân hàng TMCP Đại Dương đang vận hành sử dụng giải pháp của nhà cung cấp phần mềm Ấn Độ, Oracle Flexcube Core Banking version 7.3. Cùng với các hệ thống máy chủ chạy trên nền tảng IBM AIX, được tích hợp với các hệ thống sản phẩm Oracle.

Oracle FLEXCUBE Core Banking cho phép các tổ chức ngân hàng và dịch vụ tài chính (BFS) để xác định lại các kinh nghiệm ngân hàng bằng cách cho phép họ cung cấp dịch vụ cá nhân và rất phù hợp với khách hàng trên tất cả các kênh. Một giải pháp ngăn chặn ngân hàng lõi, FLEXCUBE Core Banking cho phép các tổ chức BFS để đơn giản hóa và tinh giản quy trình, theo dõi và quản lý một cách nhanh chóng các giao dịch phức tạp, xác định tắc nghẽn và cải thiện

32

dịch vụ khách hàng. Nhà nước của các giải pháp nghệ thuật cung cấp một cơ sở hạ tầng phát triển đồng bộ và cởi mở cho phép triển khai linh hoạt hơn và nâng cấp tùy chọn. Kiến trúc mở, tính linh hoạt và khả năng tích hợp liền mạch với các hệ thống khác, bao gồm cả phần mềm ngân hàng trong nhà, làm cho nó lý tưởng cho các tổ chức BFS tìm cách để duy trì một lợi thế cạnh tranh trong ngành công nghiệp BFS nhanh chóng phát triển.

Kiến trúc ứng dụng Oracle FLEXCUBE Core Banking hỗ trợ nhanh nhẹn và quy trình kinh doanh quản lý sử dụng Business Process Execution Language (BPEL), kiến trúc hướng dịch vụ (SOA), và một mô hình dịch vụ Web dựa trên. Các giải pháp cho phép các tổ chức BFS để đáp ứng yêu cầu quản lý thông qua

Một phần của tài liệu Nghiên cứu và xây dựng kho dữ liệu sản phẩm tại Ngân hàng TMCP Đại Dương dựa trên nền tảng hệ quản trị CSDL Oracle 10g (Trang 31)