LỜI CAM ĐOAN Em xin cam đoan kết quả đạt được của đề tài khóa luận “Nghiên cứu hệ thống quản lý siêu dữ liệu Metadata Hub ứng dụng để quản trị dữ liệu trong ngân hàng BIDV” là sản phẩm
BÀI TOÁN NGHIÊN CỨU
Giới thiệu về đơn vị thực tập
1.1.1 Lịch sử hình thành và phát triển
Công Ty Cổ Phần Phát Triển Công Nghệ Viễn Thông Tin Học Sun Việt (SVTECH) được thành lập vào tháng 3 năm 2001 Trải qua 22 năm hình thành và phát triển, SVTECH đã khẳng định được thương hiệu của mình trong lĩnh vực hoạt động SVTECH là một công ty chuyên về tích hợp hệ thống, cung cấp các dịch vụ như quản trị mạng và đám mây, quản lý an ninh thông tin và các giải pháp về hệ thống thông tin địa lý, dữ liệu, cơ sở hạ tầng, lưu trữ SVTECH được biết đến là một trong ba công ty tích hợp hệ thống hàng đầu tại Việt Nam, có khả năng triển khai các dự án lớn và phức tạp ở cấp quốc gia và khu vực
SVTECH sở hữu một đội ngũ kỹ sư chuyên nghiệp và giàu kinh nghiệm, với hơn
500 chứng chỉ từ các công ty công nghệ hàng đầu thế giới như Juniper, Oracle / Sun, IBM, HDS, BMC Software, HPE, Netapp, ESRI … SVTech luôn coi sự thành công của khách hàng là sự thành công của mình và tập trung tất cả nỗ lực để cung cấp cho khách hàng những giải pháp chất lượng nhất và tối ưu nhất
SVTECH là đối tác chiến lược hàng đầu của các công ty công nghệ hàng đầu như Oracle, IBM, Microsoft Công ty đã thành công trong việc tư vấn và triển khai các giải pháp CNTT và viễn thông cho các khách hàng lớn như Mobifone, FECredit, Vinaphone, ACB Sự thành công này đã mang lại kết quả ấn tượng về doanh thu và lợi nhuận SVTECH đã xây dựng được uy tín và đáng tin cậy trong ngành công nghệ thông tin, và khả năng đáp ứng nhu cầu của khách hàng
1.1.2 Tầm nhìn, sứ mệnh và giá trị cốt lõi
Sau khi bắt đầu hoạt động, SVTECH ngay lập tức tập trung vào việc xây dựng năng lực cốt lõi để tích hợp hệ thống Mục tiêu của SVTECH là trở thành một trong những công ty hàng đầu về tích hợp hệ thống tại Việt Nam và các quốc gia trong khu vực
Tiếp tục phát triển dựa trên những giá trị nền tảng đã xây dựng, SVTECH đã mở rộng quy mô và khám phá các lĩnh vực mới như: Điện toán đám mây, trí thông minh nhân tạo (AI) và các dịch vụ mô hình SaaS để đáp ứng xu hướng và cơ hội mới SVTECH có mục tiêu mang đến cho khách hàng những sản phẩm và giải pháp CNTT tối ưu, đồng thời cam kết cung cấp chất lượng dịch vụ hoàn hảo
Các giá trị cốt lõi của SVTECH bao gồm:
Đoàn kết là sức mạnh: SVTECH tin rằng sức mạnh của công ty đến từ sự đoàn kết của đội ngũ Công ty đề cao tinh thần làm việc nhóm, hỗ trợ lẫn nhau và xây dựng một môi trường làm việc đoàn kết để đạt được mục tiêu chung
Đồng hành cùng khách hàng: SVTECH cam kết đồng hành cùng khách hàng, lắng nghe và hiểu rõ nhu cầu của họ Công ty tạo ra các giải pháp và dịch vụ tối ưu, hỗ trợ khách hàng trong quá trình phát triển và mang lại giá trị cao nhất
Tri thức và sáng tạo là nền tảng phát triển: SVTECH đánh giá cao tri thức và sự sáng tạo, tạo điều kiện cho đội ngũ nhân viên phát triển bản thân, khuyến khích ý tưởng mới và ứng dụng công nghệ tiên tiến để mang đến các giải pháp đột phá
Sự tin cậy là khởi đầu của tất cả: SVTECH đặt sự tin cậy làm nền tảng cho mọi hoạt động, tuân thủ cam kết và đảm bảo tính chính xác, đáng tin cậy của thông tin và dịch vụ mà công ty cung cấp
SVTECH hoạt động chủ yếu trong ba lĩnh vực: Tích hợp hệ thống, Chuyển đổi kỹ thuật số và Quản trị đám mây Công ty đã đóng góp đáng kể cho nhiều tổ chức và lĩnh vực hoạt động đa dạng như Viễn thông, Tài chính - Bảo hiểm - Ngân hàng, Y tế, Giáo dục, Điện, Nước và nhiều lĩnh vực khác SVTECH đã cung cấp các giải pháp và dịch vụ tùy chỉnh để đáp ứng nhu cầu của khách hàng trong việc tích hợp hệ thống, thực hiện chuyển đổi kỹ thuật số và quản trị đám mây
Công ty SVTECH cung cấp giải pháp tích hợp để khách hàng có thể tối ưu hóa hiệu suất và quản lý hiệu quả hệ thống CNTT Giải pháp này bao gồm tích hợp hệ thống, quy trình và ứng dụng, đồng thời tạo sự liên kết và tương tác thông qua công nghệ SVTECH đảm bảo rằng các hệ thống và ứng dụng hoạt động một cách hài hòa và hiệu quả, từ đó tạo ra sự tương thông giữa các phòng ban và tăng cường quản lý thông tin Mục tiêu cuối cùng là tăng cường khả năng quản lý, cải thiện hiệu suất và nâng cao trải nghiệm của khách hàng
Giải pháp chuyển đổi kỹ thuật số:
SVTECH cung cấp giải pháp chuyển đổi kỹ thuật số để khách hàng nâng cao hiệu quả kinh doanh và tận dụng lợi ích của công nghệ số Các giải pháp bao gồm tư vấn chiến lược, tích hợp hệ thống và quy trình kỹ thuật số, phân tích dữ liệu, trí tuệ nhân tạo, và cải thiện trải nghiệm khách hàng Mục tiêu là tạo ra một môi trường kỹ thuật số tiên tiến, cải thiện quy trình và quyết định dựa trên dữ liệu, và nâng cao trải nghiệm khách hàng
SVTECH cung cấp dịch vụ quản trị CNTT để hỗ trợ khách hàng quản lý và vận hành hiệu quả hệ thống CNTT Dịch vụ bao gồm quản lý hạ tầng công nghệ, quản lý hệ thống và ứng dụng, quản lý dữ liệu, quản lý dịch vụ, quản lý dự án CNTT và tư vấn chiến lược CNTT Mục tiêu là đảm bảo hệ thống hoạt động một cách ổn định, dữ liệu được quản lý và bảo vệ an toàn, và cung cấp giải pháp công nghệ phù hợp với mục tiêu kinh doanh của khách hàng.
Tổng quan về bài toán
1.2.1 Giới thiệu về bài toán
Với sự phát triển nhanh chóng của toàn cầu hóa tài chính, sự cạnh tranh giữa các ngân hàng thương mại ngày càng gay gắt hơn Để tăng cường hệ thống quản lý và quyết định, cũng như đáp ứng như cầu của khách hàng, khám phá và sản xuất các sản phẩm hoặc dịch vụ mới và nâng cao khả năng cạnh tranh, mỗi ngân hàng lớn đã thiết lập nền tảng ứng dụng riêng cho kho dữ liệu Nền tảng kho dữ liệu có thể xử lý và phân tích một lượng lớn thông tin kinh doanh với tốc độ nhanh chóng, nâng cao hiệu quả hoạt động kinh doanh và chất lượng dịch vụ khách hàng, gia tăng lợi nhuận và cung cấp các dịch vụ khác biệt trong phạm vi kinh doanh cụ thể Siêu dữ liệu của kho dữ liệu ngân hàng, nền tảng triển khai kho dữ liệu cho ngân hàng, đã xây dựng chuẩn nguồn dữ liệu, quy tắc chuyển đổi và mô hình đích, nhìn chung đều có lợi cho việc quản lý, sử dụng và chia sẻ kho dữ liệu cho các ngân hàng
Việc tích hợp và quản lý chuyên sâu siêu dữ liệu đảm bảo thiết lập kho dữ liệu cho các ngân hàng có thể hỗ trợ khai thác, phân tích và xử lý dữ liệu Quản lý siêu dữ liệu là một phần thiết yếu trong hoạt động của bất kỳ ngân hàng nào Nó giúp các ngân hàng lưu trữ và quản lý lượng lớn dữ liệu mà họ xử lý hàng ngày Bằng cách quản lý siêu dữ liệu, các ngân hàng có thể dễ dàng truy cập và sử dụng dữ liệu này để cải thiện dịch vụ của họ và mang lại trải nghiệm tốt hơn cho khách hàng
Quản lý siêu dữ liệu cũng cho phép các ngân hàng duy trì tính bảo mật cho thông tin của khách hàng bằng cách đảm bảo rằng chỉ những người được ủy quyền mới có thể truy cập thông tin đó Ngoài ra, quản lý siêu dữ liệu giúp ngân hàng theo dõi các thay đổi trong dữ liệu của họ theo thời gian, cho phép họ đưa ra quyết định sáng suốt về hoạt động của mình
Nhìn chung, quản lý siêu dữ liệu hiệu quả là chìa khóa cho sự thành công của ngân hàng trong thế giới kỹ thuật số ngày nay Với các công cụ và chiến lược phù hợp, các ngân hàng có thể đảm bảo rằng họ có thể quản lý siêu dữ liệu của mình một cách hiệu quả và an toàn, do đó cung cấp dịch vụ tốt hơn cho khách hàng của họ
1.2.2 Thực trạng nghiệp vụ quản lý siêu dữ liệu tại ngân hàng BIDV
Ngân hàng Thương mại Cổ phần đầu tư và Phát triển Việt Nam (BIDV) là một ngân hàng lớn và là một trong những ngân hàng có nền tảng về CNTT đứng đầu tại Việt Nam
Hoạt động quản lý siêu dữ liệu tại BIDV hiện nay do Trung tâm Quản trị Dữ liệu (Data Governance Center) làm đầu mối triển khai cho phạm vi toàn hàng
Về Quản lý Siêu dữ liệu, BIDV đã xây dựng quy định và đưa ra các nguyên tắc thực hiện, đồng thời thí điểm triển khai quản lý siêu dữ liệu cho miền thông tin khách hàng (xây dựng từ điển thuật ngữ nghiệp vụ, từ điển dữ liệu…) và thiết lập, vận hành một khung quản lý chất lượng dữ liệu cho miền này, bao gồm mô hình hoạt động, các tiêu chuẩn và quy tắc cùng các quy trình đánh giá, theo dõi và xử lý các vấn đề liên quan đến chất lượng dữ liệu Trong làng ngân hàng, BIDV là ngân hàng có lượng dữ liệu rất lớn sử dụng rất nhiều các hệ thống hỗ trợ cho việc quản lý dữ liệu BIDV có khoảng 15 hệ thống CNTT như: hệ thống ứng dụng CoreBanking, hệ thống dữ liệu Rủi ro, hệ thống ứng dụng Quản lý chăm sóc khách hàng,… Tuy nhiên, việc quản áp dụng khung quản trị dữ liệu để quản lý siêu dữ liệu còn gặp một số thách thức:
Ngân hàng BIDV chưa có công cụ cũng như giải pháp để Quản trị dữ liệu, quản lý siêu dữ liệu tự động
Ngân hàng BIDV sở hữu nhiều hệ thống và nguồn dữ liệu khác nhau, từ dữ liệu về khách hàng, giao dịch tài chính, đến dữ liệu về rủi ro và tuân thủ Điều này gây ra sự phân tán và phức tạp, khiến cho ngân hàng gặp khó khăn khi cố gắng tích hợp và đồng nhất dữ liệu từ các nguồn này
Hiện tại, trong quy trình vận hành, chưa có sẵn một từ điển dữ liệu hoặc tài liệu quản lý mối liên hệ dữ liệu giữa các hệ thống khác nhau Điều này tạo ra sự thiếu nhất quán và khó khăn trong việc quản lý dữ liệu và đồng bộ hóa thông tin giữa các hệ thống
Các đơn vị chưa định rõ vai trò và quyền hạn của mình đối với dữ liệu và chưa nhận thức đầy đủ về trách nhiệm và thẩm quyền trong quy trình Quản trị dữ liệu Điều này đã gây ra sự thiếu hụt trong việc đóng góp của họ trong công tác làm sạch và làm giàu dữ liệu trong thời gian gần đây
Thường xuyên xảy ra tình trạng khi dữ liệu thay đổi, các đơn vị trong tổ chức chưa kịp cập nhật dữ liệu mới Điều này dẫn đến tình trạng dữ liệu không chính xác và không nhất quán giữa các hệ thống và quy trình khác nhau
Nhiều bảng dữ liệu có cấu trúc và nội dung tương tự hoặc giống nhau trong hệ thống Tình trạng này gây ra sự lãng phí tài nguyên và khó khăn trong việc suy trì tính nhất quán và chính xác của dữ liệu
Do đó, việc đầu tư triển khai hệ thống Metadata Hub là cần thiết vì sẽ khắc phục được các vấn đề tồn tại của Ngân hàng mà mang lại nhiều lợi ích dài lâu cho việc quản trị dữ liệu và quản lý dữ liệu tại BIDV
1.2.3 Đề xuất hướng giải quyết
Từ những khó khăn thách thức trong nghiệp vụ quản lý siêu dữ liệu của ngân hàng BIDV đã nêu trên, việc sử dụng một hệ thống để quản lý siêu dữ liệu một cách tự động là hết sức cần thiết Ứng dụng hệ thống Trung tâm siêu dữ liệu Metadata Hub trong quản lý siêu dữ liệu sẽ mang đến cho ngân hàng BIDV nguồn thông tin đầy đủ, chính xác, kịp thời góp phần quan trọng vào công tác quản trị Các lợi ích của Metadata Hub có thể kể đến như sau:
Tạo ra một từ điển dữ liệu và bảng thuật ngữ nghiệp vụ để xác định, truy xuất nguồn gốc và đảm bảo tính nhất quán của tên gọi các yếu tố dữ liệu quan trọng
Giúp đồng bộ hóa các chỉ tiêu có tên gọi khác nhau nhưng mang cùng ý nghĩa, nhằm khắc phục tình trạng không nhất quán trong dữ liệu
Ngoài ra, việc triển khai hệ thống Metadata Hub phù hợp với quy trình quản lý siêu dữ liệu hiện tại của BIDV
1.2.4 Đánh giá tính khả thi
Tìm hiểu yêu cầu nghiệp vụ chi tiết cho Quản lý siêu dữ liệu tại BIDV
1.3.1.1 Yêu cầu về loại thuật ngữ
Có hai loại thuật ngữ:
Bảng 1 1: Yêu cầu về loại thuật ngữ của BIDV
1 Abbreviation Thuật ngữ rút gọn
2 BusinessTerm Thuật ngữ nghiệp vụ
1.3.1.2 Yêu cầu về loại bộ từ điển
Có 6 loại bộ từ điển sau:
Bảng 1 2: Yêu cầu về bộ từ điển dữ liệu của BIDV
1 Basel II BIDV Bộ từ điển theo Basel II
2 Bộ từ điển chung của BIDV Bảng chú giải thuật ngữ nghiệp vụ doanh nghiệp
3 MIS-IBM Model Bộ từ điển hệ thống MIS
4 MPA-OFSSAA ã Bộ từ điển hệ thống MPA
5 BCTK NHNN Các thuật ngữ theo yêu cầu của báo cáo NHNN
6 Định danh cá nhân Thông tin định danh cá nhân
1.3.1.3 Yêu cầu xác định thành tố dữ liệu quan trọng a Yêu cầu về giao diện:
Hệ thống có chức năng hỗ trợ ghi nhận lại các thành tố dữ liệu quan trọng mà BIDV đã xác định bao gồm các thông tin sau:
Domain/Miền dữ liệu: Hệ thống cho phép người sử dụng chọn miền dữ liệu từ bảng dữ liệu đã cấu hình
DE Code/Mã thành tố dữ liệu: Hệ thống cho phép người sử dụng chọn mã thành tố dữ liệu, sau khi chọn hệ thống hiển thị mã DE và tên CDE
Thành tố dữ liệu được coi là quan trọng khi người sử dụng chọn ít nhất một trong các giá trị sau:
Bảng 1 3: Yêu cầu xác định thành tố dữ liệu quan trọng của BIDV
STT Tên trường Kiểu dữ liệu Yêu cầu
1 Sử dụng cho mục đích tuân thủ quy định Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không”
2 Báo mật thông tin/Quyền riêng tư Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không”
3 Cấp độ Báo cáo Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không”
4 Ảnh hưởng tới Danh tiếng Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không”
5 Ảnh hưởng Tài chính Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không”
6 Ảnh hưởng đến hiệu quả hoạt động Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không”
7 Rủi ro hoạt động Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không”
8 Quản trị Rủi ro Combobox (option) Cho phép người sử dụng chọn giá trị “Có/Không” b Yêu cầu xử lý:
Kết quả xác định thành tố dữ liệu quan trọng được cập nhật tại trường
“Criticality/CDE quan trọng” tại màn hình chức năng Thuật ngữ nghiệp vụ
Hệ thống cho phép thêm mới, sửa, xóa, cập nhật thông tin xác định thành tố dữ liệu quan trọng
1.3.2 Các yêu cầu liên quan đến dòng dữ liệu
Hệ thống phải có sơ đồ luồng sữ liệu kỹ thuật
Hệ thống cho phép thiết lập sơ đồ luồng dữ liệu để giúp hiển thị biểu thị mối quan hệ logic từ hệ thống này đến hệ thống khác về đường đi của dữ liệu trong suốt vòng đời dữ liệu từ hệ thống báo cáo, mô tả các nhánh hệ thống mà dữ liệu đi qua cũng như các luồng quy trình
Hệ thống cung cấp các báo cáo phân tích luồng dữ liệu nghiệp vụ ở đó có mô tả rõ ràng về cách dữ liệu di chuyển trong các giải pháp tích hợp dữ liệu và chỉ hiển thị các nguồn dữ liệu liên quan
Hệ thống cho phép sơ đồ luồng dữ liệu được trích xuất ra từ các hệ thống kỹ thuật là các hệ thống nguồn Các thuộc tính có thể được thêm vào sơ đồ luồng dữ liệu được sinh ra
1.3.2.2 Yêu cầu về truy xuất nguồn gốc dữ liệu
Hệ thống có tính năng truy xuất nguồn gốc dữ liệu đáp ứng được các yêu cầu sau:
Hệ thống cung cấp một cái nhìn toàn diện về vòng đời của dữ liệu Nếu siêu dữ liệu đã hoàn thành ở cấp trường và là một trong những trình nhập chuẩn thì Metadata Hub có thể hiển thị dòng cấp trường Nếu siêu dữ liệu chỉ mô tả dòng dõi ở cấp hệ thống hoặc ứng dụng thì điều này sẽ cho thấy tính toàn diện của sơ đồ dòng dõi
Hệ thống cho phép người dùng xem được những gì xảy ra với dữ liệu khi dữ liệu đi qua các quy trình khác nhau
Hệ thống cho phép tận dụng việc truy xuất nguồn gốc dữ liệu tại các điểm khác nhau của vòng đời dữ liệu để hỗ trợ việc xác định và khắc phục các vấn đề về dữ liệu
Hệ thống cung cấp các báo cáo phân tích nguồn gốc dữ liệu nhằm trực quan hóa luồng di chuyển của dữ liệu bên trong giải pháp tích hợp
Hệ thống cho phép sử dụng các kỹ thuật hoặc các kết nối cho các nguồn khác nhau để thực nguồn dữ liệu: Oracle, DB2 cho AS 400, SYSBASE, DataStage, Cognos, Excel, v.v
Yêu cầu hệ thống có module/tính năng tích hợp dữ liệu tham chiếu với hệ thống nguồn của BIDV để cập nhật thông tin thay đổi từ nguồn dữ liệu nhằm quản lý thống nhất siêu dữ liệu phục vụ luồng xử lý đánh giá chất lượng dữ liệu
1.3.3 Yêu cầu phân tích tác động
Hệ thống cho phép ghi nhận những thay đổi liên quan đến dữ liệu bao gồm Nguồn chuẩn hóa, Siêu dữ liệu, Luồng dữ liệu,…
Hệ thống cung cấp các báo cáo phân tích tác động trong đó có liệt kê chi tiết các sự phụ thuộc của dữ liệu hoặc tác động của một thay đổi đối với tất cả các loại siêu dữ liệu.
Đánh giá về nghiệp vụ quản lý siêu dữ liệu tại BIDV
Ngân hàng BIDV đã đạt thành công trong việc thiết lập một nền tảng quản trị dữ liệu vững chắc với mặt con người và kỹ thuật Trong năm 2020, BIDV đã thành công triển khai dự án xây dựng Khung quản trị dữ liệu toàn hàng Dự án này đã xác định một lộ trình triển khai Khung quản trị dữ liệu toàn hàng gồm 6 sáng kiến quan trọng: cơ cấu tổ chức quản trị dữ liệu, chính sách và quy trình quản trị dữ liệu, kiến trúc dữ liệu, chất lượng dữ liệu, văn hóa dữ liệu, cùng công cụ và công nghệ
Tuy nhiên, việc áp dụng Khung quản trị dữ liệu toàn hàng này đối mặt với một số thách thức
Công tác quản trị dữ liệu là một lĩnh vực nghiệp vụ mới trong ngành ngân hàng, đặc biệt là tại BIDV
Văn hóa định hướng dữ liệu chưa được hình thành một cách rõ ràng, trong khi tầm quan trọng, yêu cầu và đòi hỏi về dữ liệu ngày càng gia tăng
BIDV hiện chưa sở hữu các công cụ hoặc giải pháp để tự động quản trị dữ liệu và quản lý chất lượng dữ liệu
Ngân hàng hiện đang thực hiện chuyển đổi corebanking nên việc thực hiện tốt công tác QTDL cũng là một trong những điều kiện cần cho việc chuyển đổi dữ liệu của dự án QTDL nói riêng và chuyển đổi corebanking nói chung được thành công
Quy trình quản lý siêu dữ liệu tại BIDV được thực hiện thủ công, các dữ liệu được quản lý hoàn toàn bằng văn bản giấy (Excel, word) Dưới đây là một số quy trình trong nghiệp vụ quản lý siêu dữ liệu tại BIDV
- Quy trình xác định thành tố dữ liệu quan trọng
Hình 1 1: Quy trình xác định thành tố dữ liệu quan trọng
- Quy trình xây dựng từ điển thuật ngữ nghiệp vụ
Hình 1 2: Quy trình xây dựng từ điển thuật ngữ nghiệp vụ
- Quy trình xây dựng từ điển dữ liệu
Hình 1 3: Quy trình xây dựng từ điển dữ liệu
CƠ SỞ LÝ THUYẾT VỀ QUẢN LÝ SIÊU DỮ LIỆU VÀ HỆ THỐNG
Siêu dữ liệu
2.1.1 Khái niệm về dữ liệu
Dữ liệu được hiểu “là thông tin lưu trữ dưới dạng số (mặc dù dữ liệu không giới hạn thông tin được số hóa hay được quản lý trên giấy hay trong các cơ sở dữ liệu) Tuy nhiên, do ngày nay chúng ta có thể nắm bắt được rất nhiều thông tin điện tử, chúng ta gọi nhiều thứ là “dữ liệu”, những thứ mà trước đó không được coi là dữ liệu như: tên, địa chỉ, ngày sinh, những gì mọi người ăn trong bữa tối thứ bảy, cuốn sách hay được mua nhiều nhất.” (DAMA International, 2017)
Theo giáo trình “Statistical Language – What are data?” của Cục thống kê Úc: “Dữ liệu là các phép đo hoặc quan sát được thu thập như một nguồn thông tin Có nhiều loại dữ liệu khác nhau và các cách khác nhau để biểu diễn dữ liệu Số người ở Úc, quốc gia nơi mọi người được sinh ra, số cuộc gọi mà các dịch vụ khẩn cấp nhận được mỗi ngày, giá trị bán hàng của một sản phẩm cụ thể hoặc số lần Úc thắng một trận đấu cricket, đều là những ví dụ về dữ liệu.”
Dữ liệu đề cập đến một tập hợp các sự kiện, số liệu hoặc số liệu thống kê được trình bày ở định dạng có cấu trúc hoặc không có cấu trúc Nó có thể ở dạng văn bản, số, hình ảnh, âm thanh, video hoặc bất kỳ định dạng kỹ thuật số nào khác Dữ liệu có thể ở dạng thô hoặc đã xử lý và có thể được phân tích, thao tác hoặc sử dụng để rút ra những hiểu biết hoặc kiến thức Trong bối cảnh máy tính và công nghệ thông tin, dữ liệu thường được lưu trữ và xử lý bằng máy tính hoặc các thiết bị kỹ thuật số khác Nó là nền tảng của thông tin và nó có thể được sử dụng để hỗ trợ quá trình ra quyết định, phân tích và các quy trình khoa học hoặc kinh doanh khác
2.1.2 Khái niệm về siêu dữ liệu
“Siêu dữ liệu là thông tin mô tả các khía cạnh khác nhau của một tài sản thông tun để cải thiện khả năng sử dụng của nó trong suốt vòng đời của nó Siêu dữ liệu biến thông tin thành tài sản Nói chung, tài sản thông tin càng có giá trị thì việc quản lý siêu dữ liệu về nó càng quan trọng, bởi vì chính định nghĩa siêu dữ liệu cung cấp sự hiểu biết để mở ra giá trị của dữ liệu.” (Gartner_Inc, 2023)
“Siêu dữ liệu là một loại thông tin xác định, mô tả, giải thích và cung cấp nội dung, ngữ cảnh, cấu trúc và phân loại liên quan đến tài sản dữ liệu của tổ chức và cho phép truy xuất, sử dụng và quản lý hiệu quả các tài sản này Siêu dữ liệu do một tổ chức phát triển là cơ chế cho phép kiến thức về tài sản dữ liệu được thiết lập và nâng cao theo thời gian.” (CMMI Institute, 2014)
Siêu dữ liệu là thông tin tóm tắt từng phần dữ liệu để giúp doanh nghiệp dễ dàng tìm kiếm và hiểu hơn Về bản chất, siêu dữ liệu trả lời cho các câu hỏi who, what, when, where, why và how của bất kỳ nội dung dữ liệu cụ thể nào và thường được sử dụng cho tệp máy tính, tệp âm thanh hoặc video, trang web và cơ sở dữ liệu quan hệ Ví dụ: siêu dữ liệu cho tệp tài liệu có thể sẽ bao gồm tác giả, ngày tháng, kích thước tệp và từ khóa của nội dung Siêu dữ liệu có thể nằm ở nhiều vị trí, bao gồm email, hướng dẫn thu thập dữ liệu hoặc bảng tính Siêu dữ liệu cho các trang web tồn tại trong mã dưới dạng thẻ siêu dữ liệu, tiêu đề trang Siêu dữ liệu cho cơ sở dữ liệu có thể được lưu trữ trong bảng hoặc trường Nói chung siêu dữ liệu là điểm tựa của doanh nghiệp dựa trên dữ liệu
2.1.3 Các loại siêu dữ liệu
Siêu dữ liệu được chia làm ba loại: siêu dữ liệu nghiệp vụ, siêu dữ liệu kỹ thuật, siêu dữ liệu hoạt động
2.1.3.1 Siêu dữ liệu nghiệp vụ
“Siêu dữ liệu nghiệp vụ mô tả thông tin được sử dụng để hiểu, tìm kiếm, định vị và kiểm soát nội dung có thể bao gồm các yếu tố như: thuật ngữ, định nghĩa, giá trị, tác giả, từ khóa và nhà xuất bản Siêu dữ liệu nghiệp vụ, cũng có thể bao gồm các lĩnh vực kinh doanh, lĩnh vực chủ đề liên quan, quy tắc nghiệp vụ và quy tắc chất lượng dữ liệu, tất cả đều phải được phát triển cho bảng thuật ngữ kinh doanh Siêu dữ liệu nghiệp vụ là nền tảng để ánh xạ tới các sản phẩm siêu dữ liệu liên quan như nguyên tắc phân loại, bản thể luận, thuật ngữ nghiệp vụ và tiêu chuẩn.”
Ví dụ về siêu dữ liệu nghiệp vụ bao gồm:
Tên bảng và định nghĩa trong thuật ngữ nghiệp vụ
Tên thành phần dữ liệu, giá trị miền trong thuật ngữ nghiệp vụ
Chính sách quản lý dữ liệu, tiêu chuẩn, thủ tục, quy trình làm việc và cây quyết định
Chính sách kinh doanh, quy tắc kinh doanh
Các chính sách bảo mật khác nhau và quy trình quản lý rủi ro
Ngày làm mới kho dữ liệu
2.1.3.2 Siêu dữ liệu kỹ thuật
“Siêu dữ liệu kỹ thuật mô tả nội dung dữ liệu được khởi tạo trong lớp dữ liệu vật lý cũng như các biến đổi của chúng thông qua các quy trình tự động Nó mô tả nội dung và vị trí của các kho lưu trữ dữ liệu và giao diện, bao gồm thông tin về bảng, cấu trúc trường, kiểu dữ liệu, cột, liên kết đến các tệp, chỉ mục liên quan, v.v Siêu dữ liệu kỹ thuật bao gồm các danh mục con sau:
- Siêu dữ liệu động hoặc thời gian chạy bao gồm thông tin cấu hình, XML
- Siêu dữ liệu tĩnh hoặc thời gian thiết kế bao gồm mô hình dữ liệu vật lý, DDL, từ điển dữ liệu và tập lệnh ETL.”
Ví dụ về siêu dữ liệu kỹ thuật bao gồm các đặc điểm vật lý của các lớp dữ liệu, chẳng hạn như:
Tên cột và bảng của cơ sở dữ liệu vật lý
Thông tin khóa (khóa chính và khóa ngoại)
Mối quan hệ giữa các bảng
Các quy tắc xác thực
2.1.3.3 Siêu dữ liệu hoạt động
Siêu dữ liệu hoạt động cung cấp thông tin quản trị để quản lý nội dung dữ liệu và bao gồm thông tin chẳng hạn như khi nó được tạo, loại tập tin, mục đích của dữ liệu, thông tin cần thiết để lưu trữ, tích hợp và cập nhật lịch biểu, quyền truy cập và hạn chế quyền lợi Ngoài ra, siêu dữ liệu hoạt động được sử dụng để cải tiến quy trình nhằm nâng cao năng suất và cải thiện chất lượng dữ liệu
- Nhật ký thực thi công việc cho các chương trình hàng loạt
- Quy tắc chia sẻ dữ liệu
- Lập lịch trình bất thường
- Kết quả kiểm tra, cân bằng, đo kiểm soát
- Báo cáo và truy vấn mẫu truy cập, tần suất và thời gian thực hiện
- Bản vá và kế hoạch bảo trì phiên bản và thực hiện, hiện tại mức vá lỗi
- Sao lưu, lưu giữ, ngày tạo, điều khoản khôi phục sau thảm họa
- Các yêu cầu và điều khoản của SLA
- Khối lượng và cách sử dụng
- Quy tắc lưu trữ và lưu trữ dữ liệu, các kho lưu trữ liên quan
- Các quy tắc và thỏa thuận chia sẻ dữ liệu
- Vai trò và trách nhiệm kỹ thuật, địa chỉ liên hệ
2.1.4 Các dạng kiến trúc siêu dữ liệu
2.1.4.1 Kiến trúc tập trung (Centralized)
Trong kiến trúc này, có một kho lưu trữ siêu dữ liệu doanh nghiệp tập trung được tải từ tất cả các kho lưu trữ siêu dữ liệu hệ thống nguồn có sẵn Cổng thông tin siêu dữ liệu kết nối với kho lưu trữ siêu dữ liệu doanh nghiệp này cho tất cả các loại siêu dữ liệu
Bảng 2.1: Ưu điểm và nhược điểm của kiến trúc tập trung Ưu điểm Nhược điểm
Tính sẵn sàng cao, vì nó độc lập với hệ thống nguồn
Có độ trễ về thông tin
Tính độc lập cao Tốn nhiều nguồn lực
Truy xuất siêu dữ liệu nhanh chóng, vì kho lưu trữ và truy vấn nằm cùng nhau
Hỗ trợ nhập thủ công các siêu dữ liệu không nằm trong các hệ thống nguồn
2.1.4.2 Kiến trúc phân tán (Distributed)
Trong kiến trúc này, không có kho lưu trữ siêu dữ liệu doanh nghiệp Vì vậy, cổng thông tin siêu dữ liệu được kết nối trực tiếp với tất cả các kho siêu dữ liệu nguồn
Bảng 2.2: Ưu điểm và nhược điểm của kiến trúc phân tán Ưu điểm Nhược điểm
Siêu dữ liệu luôn được cập nhật và hợp lệ nhất có thể vì nó được truy xuất từ nguồn của nó
Không hỗ trợ việc nhập thủ công các siêu dữ liệu nằm ngoài các hệ thống nguồn
Truy xuất nhanh chóng Tính độc lập không cao
Quy trình đơn giản hơn Cần chuẩn hóa siêu dữ liệu từ các hệ thống
Hỗ trợ đơn giản hóa phát triển cho việc truy vấn tự động
Trong kiến trúc này, bao gồm cả kho lưu trữ siêu dữ liệu doanh nghiệp và kiến trúc siêu dữ liệu phân tán Kiến trúc này có lợi hơn khi siêu dữ liệu nguồn đang thay đổi nhanh chóng và có tốc độ tăng trưởng cao trong siêu dữ liệu và hệ thống nguồn siêu dữ liệu
Bảng 2.3: Ưu điểm và nhược điểm của kiến trúc lai Ưu điểm Nhược điểm
Luôn được cập nhật mới nhất Tính sẵn sàng phụ thuộc vào các hệ thống nguồn Cải thiện hiệu suất
Hỗ trợ nhập thủ công các siêu dữ liệu không nằm trong các hệ thống nguồn
So sánh giữa các kiến trúc siêu dữ liệu
Bảng 2.4: So sánh các kiến trúc siêu dữ liệu
Yêu cầu Centralized Distributed Hybrid
Có nơi lữu trữ tập trung x x Độc lập với các nguồn x x
Hỗ trợ nhập thủ công siêu dữ liệu x x
Chi phí bảo trì thấp x
Quản lý siêu dữ liệu
2.2.1 Khái niệm về quản lý siêu dữ liệu
“Quản lý siêu dữ liệu bao gồm mọi thứ từ phân tích dữ liệu đến ghi nhãn dữ liệu đến phân loại Quá trình này cho phép các tổ chức giành được nhiều quyền kiểm soát hơn đối với dữ liệu của họ để họ và người dùng doanh nghiệp của họ có thể khám phá dữ liệu nhanh hơn và tận dụng dữ liệu đó cho bất kỳ số lượng quy trình nào.” (Team E,
“Quản lý siêu dữ liệu là kỷ luật kinh doanh quản lý siêu dữ liệu về dữ liệu Nó mang lại ý nghĩa và mô tả các tài sản thông tin trong tổ chức Siêu dữ liệu giải phóng giá trị dữ liệu của tổ chức bằng cách cải thiện khả năng sử dụng và khả năng tìm kiếm của dữ liệu đó Siêu dữ liệu cung cấp ngữ cảnh cần thiết để hiểu và quản lý hệ thống, dữ liệu và doanh nghiệp của tổ chức Bằng cách sử dụng tính năng quản lý siêu dữ liệu, việc tìm và sử dụng dữ liệu sẽ dễ dàng hơn, đồng thời cung cấp ngữ cảnh quan trọng mà doanh nghiệp và nhóm CNTT của tổ chức yêu cầu Tài sản thông tin càng quan trọng thì việc quản lý siêu dữ liệu xung quanh nó càng quan trọng Chiến lược quản lý siêu dữ liệu mạnh mẽ đảm bảo rằng dữ liệu của tổ chức có chất lượng cao, nhất quán và chính xác trên nhiều hệ thống khác nhau Các tổ chức sử dụng chiến lược quản lý siêu dữ liệu toàn diện có nhiều khả năng đưa ra quyết định kinh doanh dựa trên dữ liệu chính xác hơn so với những tổ chức không có sẵn giải pháp quản lý siêu dữ liệu.” (TIBCO Software, 2021)
Quản lý siêu dữ liệu là một tập hợp các hoạt động, công nghệ, chính sách nhằm mục tiêu thu thập, lưu trữ và tổ chức siêu dữ liệu Mục tiêu của nó là làm cho nội dung của dữ liệu trở nên dễ hiểu và có thể khám phá được được đối với người dùng Ví dụ như quản lý thư viện, quản lý siêu dữ liệu sẽ liên quan đến việc tạo danh mục sách và hướng dẫn sử dụng để hướng dẫn khách truy cập thư viện xung quanh các ngăn sách
2.2.2 Tầm quan trọng của quản lý siêu dữ liệu
Hầu hết các tổ chức đều có kiến trúc thông tin giống như một hiệu sách quá tải và hoàn toàn không có tổ chức Có dữ liệu ở khắp mọi nơi, dữ liệu của các tổ chức không được tổ chức hoặc lập danh mục, khiến việc tìm thấy những gì họ đang tìm kiếm trở nên vô cùng khó khăn Siêu dữ liệu kết nối tất cả dữ liệu của tổ chức để các nhóm có thể tìm thấy chính xác những gì họ cần, chính xác vào thời điểm họ cần Nhưng với rất nhiều siêu dữ liệu tồn tại trong môi trường kinh doanh hiện đại, có thể khó phân tích dữ liệu và tách dữ liệu thiết yếu khỏi dữ liệu không liên quan nếu không có bối cảnh phù hợp Vấn đề cốt lõi là thiếu khả năng tìm thấy dữ liệu và do đó thiếu khả năng sử dụng dữ liệu Và vấn đề đó chỉ ngày càng tăng Trong thời đại mà “dữ liệu là dầu mới”, các tổ chức thành công phải có khả năng tìm và sử dụng tất cả dữ liệu của họ để đạt được lợi thế cạnh tranh Khả năng mô tả và tìm kiếm của quản lý siêu dữ liệu là rất quan trọng để tìm và sử dụng thành công dữ liệu đó
Nếu không có chiến lược quản lý siêu dữ liệu, các silo dữ liệu sẽ xuất hiện trong tổ chức và người dùng ở các bộ phận khác nhau sẽ không biết thông tin nào là tốt nhất cho nhu cầu của họ
2.2.3 Lợi ích của quản lý siêu dữ liệu
Cải thiện tính nhất quán: Tạo định nghĩa nhất quán về siêu dữ liệu trong toàn tổ chức để các thuật ngữ xung đột không dẫn đến các vấn đề truy xuất dữ liệu
Chất lượng dữ liệu tốt hơn: Các giải pháp quản lý siêu dữ liệu hầu như luôn tận dụng khả năng tự động hóa có khả năng xác định các vấn đề và sự không nhất quán của dữ liệu trong thời gian thực
Truy cập nhanh hơn vào thông tin chi tiết: Các nhà khoa học dữ liệu có nhiều thời gian hơn để phân tích dữ liệu nhằm trích xuất giá trị kinh doanh thực và các nhóm dữ liệu có thể đạt được việc phân phối dự án nhanh hơn
Giảm chi phí: Hiệu quả đạt được và các quy trình quản lý siêu dữ liệu có thể lặp lại làm giảm sự dư thừa và giảm chi phí dư thừa, chẳng hạn như chi phí lưu trữ
2.2.4 Các hoạt động trong quản lý siêu dữ liệu
2.2.4.1 Xác định và bảo mật thành tố dữ liệu quan trọng (CDE – Critical Data
Dữ liệu được xác định là quan trọng thường dựa trên việc nó có được sử dụng trong các quy trình nghiệp vụ quan trọng hay các báo cáo trọng yếu của tổ chức CDE rất cần thiết cho sự thành công của doanh nghiệp và khả năng ra quyết định ngay cả khi chỉ dành cho một bộ phận Điều đáng chú ý là những gì một bộ phận định nghĩa là dữ liệu quan trọng, một bộ phận khác có thể không cho là quan trọng
CDE cũng như những mẩu thông tin được phân loại nhạy cảm CDE có xu hướng nhạy cảm là bởi vì phần lớn chúng được tạo thành từ tài sản trí tuệ của con người và thông tin nhận dạng cá nhân của mọi người Bảo vệ dữ liệu này là điều rất cần thiết để đáp ứng các quy định tuân thủ và tránh các cuộc tấn công mạng
Các ví dụ về CDE:
- Dữ liệu nhà cung cấp và đối tác
- Dữ liệu được sử dụng để phân tích và dự báo
Việc xác định và bảo mật CDE có thể chia thành một quy trình bốn bước:
Hình 2.1: Quy trình xác định và bảo mật CDE
Ánh xạ dữ liệu: Là một quá trình trong đó các tổ chức khớp các trường từ nhiều bộ dữ liệu vào một lược đồ Điều này là cần thiết để xác định CDE tại nguồn của nó và hiểu cách nó được sử dụng
Xác định trách nhiệm và nghĩa vụ: Tìm hiểu trách nhiệm và nghĩa vụ của công ty để bảo vệ các CDE này
Đánh giá rủi ro tiềm tàng: Mặc dù dữ liệu có thể được tạo tại một nguồn, nhưng nó có thể được truyền, cập nhật, sao lưu, xóa Việc hiểu những con đường tiềm tàng mà dữ liệu của tổ chức có thể thực hiện nhằm mục đích xác định những con đường nào xung đột với các trách nhiệm và nghĩa vụ đã được xác định trước đó
Ví dụ, đối với dữ liệu khách hàng nhạy cảm, ai có quyền truy cập vào đó? Có thể tải xuống mà không được phép không?
Xác định mức độ bảo mật: Sau khi đã xây dựng các CDE và xác định các rủi ro của chúng, việc áp dụng các biện pháp bảo vệ dữ liệu của tổ chức là rất quan trọng
2.2.4.2 Xây dựng bảng từ điển thuật ngữ nghiệp vụ (Business Glossary)
Bảng thuật ngữ nghiệp vụ là tập hợp các thuật ngữ, định nghĩa và các thuộc tính khác có liên quan được giải thích bằng ngôn ngữ rõ ràng để mọi thành viên trong tổ chức hiểu được Bảng thuật ngữ nghiệp vụ đảm bảo rằng một tổ chức sử dụng ngôn ngữ dữ liệu chung khi thảo luận về dữ liệu Nó giúp làm rõ mọi sự mơ hồ trong thuật ngữ kinh doanh hoặc hiểu những gì một trường cụ thể trong cơ sở dữ liệu nắm giữ Bảng thuật ngữ nghiệp vụ giúp thiết lập thêm các chính sách quản trị dữ liệu và tiêu chuẩn chất lượng dữ liệu để cải thiện sự tin cậy và chấp nhận dữ liệu trong một tổ chức
Quy trình xây dựng từ điển thuật ngữ nghiệp vụ:
Hình 2.2: Quy trình xây dựng bảng thuật ngữ nghiệp vụ
Xác định CDE: Bảng thuật ngữ nghiệp vụ xuyên suốt doanh nghiệp có thể chứa hàng nghìn yếu tố và thuật ngữ, nhưng không phải là tất cả
Trung tâm siêu dữ liệu Metadata Hub
2.3.1 Giới thiệu về Metadata Hub
Hình 2.8: Màn hình trang chủ của Metadata Hub
2.3.1.1 Nguồn gốc của Metadata Hub
Hệ thống Metadata Hub là một sản phẩm của AB Initio giúp tận dụng siêu dữ liệu của tổ chức vào hệ thống để dữ liệu có thể được sử dụng cho quản trị dữ liệu, chất lượng dữ liệu, hồ sơ dữ liệu, v.v
Ab Initio Software là một công ty phần mềm toàn cầu có trụ sở tại Lexington, Massachusetts Trong hơn 25 năm, Ab Initio đã làm việc với các tổ chức lớn nhất và phức tạp nhất trong các ngành dọc như Viễn thông, Dịch vụ tài chính, Chăm sóc sức khỏe, Bán lẻ, Công nghệ cao, Giao thông vận tải, Sản xuất và Chính phủ, cùng nhiều tổ chức khác, để đảm bảo sự thành công trong kinh doanh của họ
Phần mềm Ab Initio là duy nhất Tất cả các sản phẩm của Ab Initio đều được tạo bởi các nhà phát triển của Ab Initio, tại trụ sở chính của Ab Initio (ở Lexington, Massachusetts, Hoa Kỳ), đảm bảo tích hợp hoàn toàn trên nền tảng Do đó, các sản phẩm của Ab Initio được thiết kế ngay từ đầu để cung cấp một nền tảng công nghệ thống nhất, duy nhất để xử lý, tích hợp và quản trị dữ liệu hiệu suất cao, có thể mở rộng
2.3.1.2 Ưu điểm của Metadata Hub
Metadata Hub của AB Initio có nhiều ưu điểm quan trọng, bao gồm:
Quản lý metadata toàn diện: Metadata Hub cung cấp khả năng quản lý metadata từ nhiều nguồn khác nhau và tổ chức chúng một cách toàn diện Điều này giúp đảm bảo tính nhất quán và độ tin cậy của siêu dữ liệu trong toàn bộ hệ thống
Tích hợp dữ liệu phức tạp: Metadata Hub cho phép người dùng quản lý và tận dụng siêu dữ liệu của các nguồn dữ liệu phức tạp và đa dạng Điều này rất hữu ích trong môi trường kinh doanh hiện đại với nhiều nguồn dữ liệu khác nhau và sự phụ thuộc giữa chúng
Tăng cường khả năng phân tích và khai thác thông tin: Metadata Hub cung cấp các công cụ phân tích thông minh để khai thác thông tin từ siêu dữ liệu Điều này giúp người dùng hiểu rõ hơn về các tài liệu siêu dữ liệu và tận dụng thông tin đó để cải thiện quá trình phân tích dữ liệu và ra quyết định kinh doanh
Tự động hóa quá trình thu thập metadata: Metadata Hub cung cấp khả năng tự động hóa quá trình thu thập siêu dữ liệu từ các nguồn dữ liệu khác nhau Điều này giảm thiểu công sức và thời gian cần thiết để thu thập siêu dữ liệu, đồng thời đảm bảo tính chính xác và đáng tin cậy của thông tin siêu dữ liệu
Tích hợp với các công cụ và hệ thống khác: Metadata Hub của AB Initio tích hợp tốt với các công cụ và hệ thống khác trong môi trường dữ liệu Điều này giúp đơn giản hóa quá trình tích hợp và tận dụng siêu dữ liệu trong các quy trình làm việc hiện có của tổ chức
Tăng cường sự linh hoạt và mở rộng: Metadata Hub cho phép mở rộng và tuỳ chỉnh theo nhu cầu cụ thể của tổ chức Nó hỗ trợ các tiêu chuẩn và giao thức phổ biến, cho phép tích hợp với các công nghệ và hệ thống mới nhất
2.3.1.3 Nhược điểm của Metadata Hub
Mặc dù Metadata Hub của AB Initio mang lại nhiều lợi ích, nhưng cũng có một số nhược điểm cần được lưu ý:
Phức tạp trong triển khai ban đầu: Việc triển khai Metadata Hub có thể đòi hỏi kiến thức chuyên môn và kỹ năng kỹ thuật để cấu hình và tích hợp hệ thống Điều này có thể tạo ra một ngưỡng khó khăn ban đầu cho việc triển khai và sử dụng Metadata Hub
Đòi hỏi tài nguyên và quản lý: Metadata Hub yêu cầu tài nguyên và quản lý để duy trì và điều hành hoạt động của nó Điều này bao gồm cả việc thu thập và cập nhật metadata, quản lý liên kết và phụ thuộc, và giám sát tính nhất quán và đáng tin cậy của metadata trong hệ thống
Phụ thuộc vào độ tin cậy của nguồn dữ liệu: Metadata Hub phụ thuộc vào độ tin cậy của nguồn dữ liệu mà nó thu thập metadata Nếu nguồn dữ liệu không cung cấp metadata chính xác hoặc đầy đủ, điều này có thể ảnh hưởng đến tính chính xác và độ tin cậy của metadata được quản lý trong Metadata Hub
Khả năng tích hợp với hệ thống và công cụ khác: Trong một số trường hợp, tích hợp Metadata Hub với các hệ thống và công cụ khác có thể gặp khó khăn Việc đảm bảo tính tương thích và tương tác tốt giữa Metadata Hub và các thành phần hệ thống khác có thể đòi hỏi công sức và thời gian đáng kể
Cần đảm bảo tính nhất quán và đáng tin cậy của metadata: Metadata Hub đòi hỏi quá trình quản lý metadata chặt chẽ để đảm bảo tính nhất quán và đáng tin cậy Việc thiếu sự chính xác và sự cập nhật đúng đắn của metadata có thể ảnh hưởng đến hiệu quả và đáng tin cậy của Metadata Hub
2.3.2 Khả năng ứng dụng của Metadata Hub
Khi các công ty chuyển sang cải thiện hoạt động kinh doanh và trải nghiệm khách hàng của họ thông qua các dịch vụ dữ liệu, Metadata Hub cung cấp hỗ trợ cần thiết thông qua quản trị Cụ thể, nó nắm bắt siêu dữ liệu kỹ thuật và kinh doanh trên toàn doanh nghiệp, cung cấp dòng tiên tiến, quản trị (bao gồm quy trình làm việc và cộng tác) và các tính năng tập trung vào kinh doanh khác Với những cải tiến này, Metadata Hub của
ỨNG DỤNG HỆ THỐNG METADATA HUB QUẢN LÝ SIÊU DỮ LIỆU CHO NGÂN HÀNG BIDV
Phân tích các quy trình thực hiện
Các đối tượng tham gia vào nghiệp cụ quản lý siêu dữ liệu:
Bảng 3.1: Các đối tượng tham gia vào quy trình quản lý siêu dữ liệu Đối tượng tham gia Mô tả
Chủ sở hữu dữ liệu - Chịu trách nhiệm giải trình về dữ liệu đối với những thành tố dữ liệu quan trọng
- Chịu trách nhiệm giải trình về các định nghĩa và ngưỡng đối với các quy tắc nghiệp vụ của dữ liệu mà họ sở hữu
- Thiết lập và rà soát các kiểm soát đối với dữ liệu
- Xác định, khắc phục và báo cáo các vấn đề về dữ liệu cùng với Cán bộ quản lý dữ liệu nghiệp vụ
Cán bộ quản lý dữ liệu nghiệp vụ
- Đại diện tại các đơn vị, chịu trách nhiệm hỗ trợ chủ sở hữu dữ liệu
- Thực thi các kiểm soát đối với dữ liệu
- Đảm bảo các đơn vị kinh doanh tuân thủ đúng chính sách quản lý siêu dữ liệu
- Xác định, khắc phục và báo cáo các vấn đề về dữ liệu cùng với chủ sở hữu dữ liệu
- Báo cáo kiểm soát chất lượng dữ liệu
Bộ phận quản lý dữ liệu
- Xây dựng và duy trì chính sách quản lý siêu dữ liệu
- Xác định vai trò và trách nhiệm của các bên liên quan đến dữ liệu
- Rà soát, hợp nhất và tổng hợp kết quả đánh giá chất lượng dữ liệu toàn hàng cho mục đích báo cáo
- Rà soát và phê duyệt các vấn đề về dữ liệu được trình lên
- Tư vấn về giải pháp xử lý các vấn đề liên quan đến dữ liệu khi được các bên liên quan đến dữ liệu tham khảo ý kiến
- Theo dõi trạng thái xử lý và đảm bảo hoàn thành xử lý các vấn đề về dữ liệu một cách kịp thời
Hội đồng quản lý dữ liệu
- Cung cấp hỗ trợ, hướng dẫn và giám sát tổng thể các hoạt động liên quan đến dữ liệu
- Chứng thực chính sách quản lý siêu dữ liệu
- Duy trì giám sát quy trình và kết quả quản lý siêu dữ liệu
- Phê duyệt các ngưỡng chất lượng dữ liệu cho mục đích giám sát, xử lý và đệ trình các vấn đề về dữ liệu
Cán bộ quản lý dữ liệu kỹ thuật
- Cung cấp tài liệu dữ liệu hệ thống
- Hỗ trợ bộ phận quản lý dữ liệu tư vấn thông tin chi tiết về hệ thống để xây dựng các quy tắc kỹ thuật đối với dữ liệu
- Đảm bảo công nghệ phù hợp để đáp ứng các tiêu chuẩn về chất lượng dữ liệu
- Hỗ trợ chủ sở hữu hệ thống thực hiện xử lý các vấn đề về dữ liệu trong hệ thống
Chủ sở hữu hệ thống - Đảm bảo tính sẵn sàng của dữ liệu hệ thống
- Chịu trách nhiệm về chất lượng dữ liệu trong hệ thống
- Cung cấp, chuyển giao và lưu trữ dữ liệu hệ thống
- Chịu trách nhiệm xử lý các vấn đề về dữ liệu trong hệ thống
Sơ đồ đối tượng tham gia sử dụng hệ thống
Hình 3.1: Sơ đồ đối tượng tham gia sử dụng hệ thống
Quy trình quản lý siêu dữ liệu tại BIDV
Hình 3.2: Quy trình quản lý siêu dữ liệu tại BIDV
3.1.1 Xác định các thành tố dữ liệu quan trọng
3.1.1.1 Sơ đồ quy trình xác định CDE
Hình 3.3: Quy trình xác định CDE tại BIDV
3.1.1.2 Các CDE cho nghiệp vụ quản lý siêu dữ liệu
Ngân hàng BIDV xác định có 265 CDE cho nghiệp vụ quản lý siêu dữ liệu Do tính nhạy cảm của các thông tin dữ liệu trong ngân hàng nên tác giả chỉ nêu ra một số CDE
Bảng 3.2: Các CDE cho nghiệp vụ quản lý siêu dữ liệu
STT Mã CDE Tên CDE Lý do quan trọng
1 KH5 Thông tin ID khách hàng
Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
2 KH11 Nghề nghiệp/Ngành nghề kinh doanh
Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
3 CDE19 Ngày sinh khách hàng cá nhân
Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
4 KH3 Giới tính Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
5 CDE27 Chi nhánh đầu mối quản lý
Sử dụng cho mục đích tuân thủ quy định: Dữ liệu sử dụng trong các văn bản, báo cáo nhằm mục đích tuân thủ quy định có mức độ quan trọng cao hơn
6 CDE32 Xếp hạng tín dụng nội bộ
Rủi ro hoạt động: Dữ liệu sẽ gây sai lệch trong đánh giá, đo lường rủi ro hoạt động trong trường hợp dữ liệu đó không chính xác có mức độ quan trọng cao hơn
Quản lý rủi ro: Dữ liệu sử dụng trong các quy trình quản lý rủi ro nội bộ có thể có mức độ quan trọng cao hơn
3.1.2 Xây dựng từ điển thuật ngữ nghiệp vụ
3.1.2.1 Sơ đồ quy trình xây dựng từ điển thuật ngữ nghiệp vụ
Hình 3.4: Quy trình xây dựng từ điển thuật ngữ nghiệp vụ tại BIDV
3.1.2.2 Từ điển thuật ngữ nghiệp vụ
Bảng 3.3: Từ điển thuật ngữ nghiệp vụ
Tên CDE Đầu mối nhóm KHC
Nguồn dữ liệu chuẩn hóa
Các nguồn dữ liệu liên quan Định nghĩa
1 KH5 Mã thông tin khách hàng
Ban Phát triển Ngân hàng
Ban Khách hàng Doanh nghiệp
- 200x-TT- 0xx_Thanh toán bù trừ chứng khoán SSC
Mã số duy nhất được tạo ra cho mỗi khách sử dụng sản
Nhỏ và Vừa (KHD NNVV ) thống ngân hàng cốt lõi
- 200x-DV-0xx_X SMS tập trung
- 201x-QL- 0xx_Quản ly thu chi hộ DN (Thu chi hộ điện tử)
- 201x-QL- 0xx_Quản lý mua bán ngoại tệ
- 201x-TT- 0xx_Thanhtoán hoá đơn online
- 201x-DA- 0xx_Hệ thống CAD
- 201x-TT- 0xx_Thanh toán hóa đơn trên điện thoại di động- mobile bank plus
- 201x-TT- 0xx_Thanh toán điện tử song phương tập trung với KBNN
- 201x-QL- 0xx_Làmgiàu thông tin khách hàng
- 201x-DV- 00x_Ngân hàng điện tử E-
Banking dành cho khách hàng tổ chức
- 202x-DOKA TTTM mới- 9101xx-KH K+- phẩm dịch vụ của Ngân hàng X Mã số này được tạo ra từ phân hệ Thông tin khách hàng trong CoreBankin g, thông tin khách hàng trong các hệ thống trong/ngoài core banking được liên kết với nhau qua mã số này
Chi nhán h đầu mối quản lý
Ban Khách hàng Doanh nghiệp Lớn (KHD
Hệ thống ngân hàng cốt lõi
- 201x- QL- 0xx_L àm giàu thông tin khách hàng
- 201x-TT- 0xx_Thanh toán hoá đơn online- 201x-DV-00x- Phân đoạn KHCN
Chi nhánh đầu mối là CN được giao đầu mối chăm sóc, tiếp thị chung các sản phẩm tới khách hàng và nhận chỉ tiêu kinh doanh tổng thể theo từng khách hàng
3.1.3 Xây dựng từ điển dữ liệu
3.1.3.1 Sơ đồ quy trình xây dựng từ điển dữ liệu
Hình 3.5: Quy trình xây dựng từ điển dữ liệu tại BIDV
Hình 3.6: Các từ điển dữ liệu trong Metadata Hub của BIDV
3.1.4 Thu thập siêu dữ liệu
3.1.4.1 Sơ đồ quy trình thu thập siêu dữ liệu
Thu thập thông tin về dữ liệu giúp người dùng xác định các thuộc tính của chúng như tên, định dạng, mục đích, nguồn gốc, quyền sở hữu và giới hạn truy cập
Hình 3.7: Quy trình thu thập siêu dữ liệu
Nhà cung cấp dữ liệu là các nguồn cơ sở dữ liệu như Oracle, Netezza, Sybase,…
Các nhà cung cấp dữ liệu chứa siêu dữ liệu và các tài nguyên dữ liệu như tệp, bảng,
Nhà cung cấp dịch vụ chứa trình thu thập siêu dữ liệu là một thuật toán thực hiện các yêu cầu thu thập siêu dữ liệu bằng giao thức HTTP đến kho lưu trữ và thu thập các bản ghi siêu dữ liệu được trả về từ kho lưu trữ
Dưới đây là danh sách các nhà cung cấp dữ liệu cơ sở dữ liệu được tạo tại BIDV:
Hình 3.8: Danh sách các nguồn dữ liệu của BIDV
3.1.4.2 Ví dụ thu thập siêu dữ liệu nguồn Oracle Đến Import và sau đó chọn Data Source Connections Nhấp vào Add new
Hình 3.9: Thêm mới kết nối nguồn dữ liệu Đặt tên cho kết nối nguồn dữ liệu
Hình 3.10: Đặt tên cho kết nối nguồn dữ liệu
Chỉnh sửa kết nối nguồn dữ liệu bằng cách cung cấp tên tệp DBC chính xác
Hình 3.11: Cung cấp tệp BDC cho kết nối nguồn dữ liệu
Khi chi tiết kết nối nguồn dữ liệu được đặt, hãy chuyển đến phần nguồn cấp dữ liệu của quá trình nhập và chọn thêm New Import Feed và chọn Oracle
Hình 3.12: Thêm mới trong Import Feed Đặt tên cho nguồn cấp dữ liệu nhập oracle
Hình 3.13: Đặt tên cho nguồn cấp dữ liệu nhập Oracle
Cập nhật kết nối nguồn dữ liệu và nhập chi tiết lược đồ trong nguồn cấp dữ liệu và chạy để thu thập siêu dữ liệu kỹ thuật
Hình 3.14: Cập nhật kết nối nguồn dữ liệu và nhập chi tiết lược đồ
Nhập siêu dữ liệu và phê duyệt các thay đổi đối với siêu dữ liệu là một phần của vòng đời thông tin Một giai đoạn quan trọng trong quá trình nhập siêu dữ liệu là quá trình ETL (Extract – Transform – Load)
Hình 3.15: Mô hình nhập siêu dữ liệu
Siêu dữ liệu từ nguồn bên ngoài được trích xuất, biến đổi và tải vào khu vực tổ chức trong kho dữ liệu MDH Sau khi bộ thay đổi nhập được phê duyệt, siêu dữ liệu được hợp nhất vào kho dữ liệu Metadata Hub
Hai công cụ ETL đã trao đổi và thống nhất với BIDV là IBM DataStage và GDE (công cụ ETL phát triển bởi hãng)
Quy trình ETL được mô tả như sau:
Bảng nguồn : BIDV sẽ tập kết và chuyển dữ liệu từ tất cả các hệ thống nguồn: staging, ods, market data, intraday để chuẩn bị cho quá trình ETL
Trích xuất dữ liệu: Quy trình ETL trích xuất dữ liệu từ các bảng nguồn
Làm sạch dữ liệu: Quy trình ETL làm sạch dữ liệu từ dữ liệu được trích xuất
Kiểm tra chất lượng: Sau khi dữ liệu được làm sạch, quy trình ETL sẽ thực hiện kiểm tra chất lượng dữ liệu
Bảng đích: Dữ liệu sau đó được tải vào các bảng đích (FeedSourceDB/
BehaviorModelDB/ ReportingDB) để sử dụng
Bảng ghi chất lượng dữ liệu: Quy trình ETL ghi thông tin các tác vụ khác nhau được thực hiện
Data Extraction Log: Liệt kê các trạng thái (được tổng hợp từ tài khoản kế hoạch
/ tài khoản GL / Tên sản phẩm) về số lượng / giá trị của các giao dịch nhận được để xử lý dữ liệu từ các dữ liệu nguồn
Data Transformation Log: Kiểm tra chéo tổng số / tổng giá trị của các trạng thái được xử lý trong quá trình chuyển đổi dữ liệu để đổ dữ liệu METADATA HUB
Data Reconciliation Log: Cung cấp tổng số bản ghi và giá trị chênh lệch giữa giai đoạn trích xuất và chuyển đổi trạng thái
Rejected Data Log: Một báo cáo liệt kê tất cả các tác vụ chuyển đổi dữ liệu không thành công như không tìm thấy dữ liệu tham chiếu hoặc thiếu dữ liệu từ nguồn sẽ được cung cấp cho người dùng
Data Cleansing Log: Một báo cáo tổng hợp sẽ được cung cấp cho người dùng liệt kê các trạng thái cần làm sạch dựa trên quy tắc được thiết lập trước đó Sau khi tất cả tác vụ ETL được thực hiện theo quy trình, Metadata Hub sẽ sử dụng dữ liệu đã được đẩy vào trong FeedSourceDB thông qua chức năng Feeds
Hình 3.17: Mô hình từ FeedSourceDB sang Metadata Hub
Metadata Hub nhập dữ liệu từ FeedSourceDB vào Metadata Hub Store
FeedSourceDB là nơi lưu trữ tạm thời cho ETL và được làm mới hằng ngày sau khi dữ liệu được nhập vào Metadata Hub Store
3.1.6 Xây dựng sơ đồ luồng dữ liệu
Sơ đồ quy trình xây dựng sơ đồ luồng dữ liệu
Hình 3.18: Sơ đồ quy trình xây dựng sơ đồ luồng dữ liệu
Sơ đồ luồng dữ liệu thể hiện luồng dữ liệu từ hệ thống nguồn đến các báo cáo trọng yếu
Hình 3.19: Sơ đồ luồng dữ liệu từ nguồn đến các báo cáo trọng yếu
3.1.7 Kiểm soát thay đổi dữ liệu
Sơ đồ quy trình kiểm soát thay đổi dữ liệu
Hình 3.20: Sơ đồ quy trình kiểm soát thay đổi dữ liệu
Triển khai một số tính năng chính của Metadata Hub
3.2.1 Nhập siêu dữ liệu Đối với bất kỳ quy trình nghiệp vụ nào, tài sản có thể lên tới hàng trăm Do đó, Metadata Hub cung cấp một tùy chọn để tải lên các tài sản bằng cách sửu dụng tệp Excel Metadata Hub duy trì các lớp đối tượng để nhập các loại siêu dữ liệu khác nhau như Thuật ngữ kinh doanh, Từ điển, Loại vấn đề, Tài sản doanh nghiệp và các loại của nó, v.v Dưới đây là các lớp đối tượng được sử dụng để nhập siêu dữ liệu a BizTermType: Sử dụng để xác định các loại thuộc tính tiêu chuẩn bắt buộc
Bảng 3.4: Lớp đối tượng BizTermType
BizTermType Tên của loại thuật ngữ nghiệp vụ
Name Tên hiển thị của loại thuật ngữ nghiệp vụ
Description Mô tả của loại thuật ngữ nghiệp vụ b BizTermGroup: Sử dụng để xác minh từ điển
Bảng 3.5: Lớp đối tượng BizTermGroup
BizTermGroup Tên của nhóm/từ điển thuật ngữ nghiệp vụ đã được tạo ParentBizTermGroup Tên của cha nhóm/từ điển thuật ngữ nghiệp vụ
Description Mô tả của nhóm/từ điển thuật ngữ nghiệp vụ c BizTerm: Sử dụng để map thuật ngữ nghiệp vụ với từ điển
Bảng 3.6: Lớp đối tượng BizTerm
BizTermGroup Tên của nhóm/từ điển thuật ngữ nghiệp vụ theo đó thuật ngữ nghiệp vụ sẽ được tạo BizTerm Cha/con thuật ngữ nghiệp vụ đã được tạo
Description Diễn tả của cha/con thuật ngữ nghiệp vụ đã được tạo BizTermType Loại thuật ngữ nghiệp vụ
ParentBizTerm Thuật ngữ cha của BizTerm d BizAssetType: Sử dụng để xác định kiểu tài sản doanh nghiệp
Bảng 3.7: Lớp đối tượng BizAssetType
BizAssetType Tên xác định của loại tài sản doanh nghiệp đã được tạo Description Diễn tả loại tài sản đã được tạo
HasBizTerm Đặt thành Y nếu tài sản của nó sẽ trùng với BizTerm, chính là giá trị yếu tố kinh doanh
Icon Mã định danh cho BizAssetType
IsLeaf Đánh dấu cho đối tượng BizAsset
Name Tên hiển thị của BizAssetType
ShowIconOnly Cho biết có nên chỉ hiển thị icon cho loại đối tượng
BizAsset hay không StyleClasses Một kiểu lớp CSS riêng biệt xAssetTypeCode Loại nội dung nhận dạng sang Uniq e BizAsset: Được sử dụng để xác định tài sản doanh nghiệp được gắn với loại tàn sản
Bảng 3.8: Lớp đối tượng BizAsset
BizAsset Tên xác định của tài sản doanh nghiệp
BizAssetType Tên xác định của loại tài sản doanh nghiệp
ParentBizAsset Tên của cha của tài sản doanh nghiệp
Description Diễn tả của tài sản doanh nghiệp đã được tạo
BizTermGroup Tên của từ điển thuật ngữ kinh doanh
BizTerm Tên của thuật ngữ nghiệp vụ đã được map đến tài sản doanh nghiệp DisplayName Tên hiển thị của thuật ngữ nghiệp vụ
Object Tên của tài sản kỹ thuật được map đến tài sản doanh nghiệp ObjectClass Kiểu tài sản kỹ thuật được map đến tài sản doanh nghiệp f IssueType: Được sử dụng để xác định loại vấn đề
Bảng 3.9: Lớp đối tượng IssueType
IssueType Tên xác định của loại vấn đề
Description Diễn tả của loại vấn đề đã được tạo
Icon Biểu tượng xác định của loại vấn đề
Name Tên hiển thị của loại vấn đề
Template sau khi được điền các thông rin
Hình 3.21: Bảng Excel nhập các lớp đối tượng
Sau khi điền template, đăng nhập Metadata Hub vào Other Chọn Imports
Hình 3.22: Nhập bảng Excel vào Metadata Hub
Đến Feeds và chọn Add New
Hình 3.23: Thêm mới Import Feeds
Chọn excel từ danh sách nhập
Hình 3.24: Chọn nguồn nhập Excel
Hình 3.25: Chọn Nhập Excel tiêu chuẩn
Đặt tên cho nguồn cấp dữ liệu mới
Hình 3.26: Đặt tên cho nguồn cấp dữ liệu mới
Chỉnh sửa đường dẫn tệp
Hình 3.27: Chỉnh sửa đường dẫn tệp Excel
Tải tệp lên để chạy
Hình 3.28: Tải tệp Excel đã tạo
Chạy nguồn cấp dữ liệu nhập
Hình 3.29: Chạy nguồn cấp dữ liệu nhập
Khi chạy nguồn cấp dữ liệu nhập trong METADATA HUB trong cổng thông tin, nó sẽ hiển thị có bao nhiêu đối tượng đã được thêm, sửa đổi, xóa và hủy bỏ
Hình 3.30: Kết quả sau khi nhập siêu dữ liệu
3.2.2 Xây dựng các báo cáo trong nghiệp vụ quản lý siêu dữ liệu
3.2.2.1 Báo cáo danh sách xác định thành tố dữ liệu quan trọng
Chọn miền dữ liệu, hệ thống cho phép người sử dụng chọn miền dữ liệu
Chọn loại thành tố dữ liệu: Quan trọng/không quan trọng
Yêu cầu về “dữ liệu được tạo theo vai trò người dùng:
Dữ liệu lọc theo đơn vị người dùng (khởi tạo dữ liệu), ví dụ cán bộ thuộc Ban QLRRTH thì sẽ xem được toàn bộ dữ liệu được khởi tạo/chỉnh sửa bởi Ban QLRRTH
Riêng các vai trò thuộc đối tượng "Bộ phận Quản lý dữ liệu" được xem toàn bộ dữ liệu trong hệ thống.” sẽ tham chiếu đến phụ lục “customization_list” và sẽ được xem xét về tính khả thi trong giai đoạn phát triển
Bảng 3.10: Báo cáo danh sách xác định thành tố dữ liệu quan trọng
Miền dữ liệu Được coi là CDE
KH5 Thông tin ID khách hàng Thông tin ID chính
Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
KH11 Nghề nghiệp/Ngành nghề kinh doanh
Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
CDE19 Ngày sinh khách hàng cá nhân
Nhân khẩu học truyền thống
Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
KH3 Giới tính Nhân khẩu học truyền thống
Bảo mật thông tin/quyền riêng tư: Các dữ liệu bí mật, giới hạn truy cập, theo quy định có mức độ quan trọng cao hơn
CDE32 Xếp hạng tín dụng nội bộ
Rủi ro, Tín dụng Xếp hạng tín dụng nội bộ"
Rủi ro hoạt động: Dữ liệu sẽ gây sai lệch trong đánh giá, đo lường rủi ro hoạt động trong trường hợp dữ liệu đó không chính xác có mức độ quan trọng cao hơn Quản lý rủi ro: Dữ liệu sử dụng trong các quy trình quản lý rủi ro nội bộ có thể có mức độ quan trọng cao hơn
3.2.2.2 Báo cáo danh sách trạng thái các thành tố dữ liệu quan trọng và thời gian cập nhật cuối cùng
Tham số báo cáo/bộ lọc báo cáo:
Trạng thái trong luồng phê duyệt: hệ thống cho phép người dùng sử dụng bộ lọc bao gồm các trạng thái: Draft/Draft pending/Approved/Abandoned và những trạng thái khác có sẵn
Có thể lọc theo mã CDE, mã user/tên user, tên đơn vị (cho phép người dùng chọn tất cả, một hoặc nhiều hơn một CDE/một hoặc nhiều user/một hoặc nhiều đơn vị)
Reporting date: Hệ thống cho phép chọn ngày báo cáo theo yêu cầu người dùng
Yêu cầu về “CDE hiển thị sẽ theo phân quyền của từng user Riêng các vai trò thuộc đối tượng "Bộ phận Quản lý dữ liệu" được xem toàn bộ dữ liệu trong hệ thống” được tham chiếu đến phụ lục “customization_list” và sẽ được xem xét về tính khả thi trong giai đoạn phát triển
Bảng 3.11: Báo cáo danh sách trạng thái các thành tố dữ liệu quan trọng và thời gian cập nhật cuối cùng
CDE Tên CDE Trạng thái
Thời gian cập nhật gần nhất
User thực hiện (hiển thị tên) Đơn vị của user thực hiện
1 KH5 Thông tin ID khách hàng To Do 2023-03-16
KH11 Nghề nghiệp/Ngành nghề kinh doanh
CDE19 Ngày sinh khách hàng cá nhân
5 CDE32 Xếp hạng tín dụng nội bộ Published 2023-01-13
3.2.3 Thực hiện nhập Datastage XML lên hệ thống
Chuẩn bị file xml trên Linux import host
Bước 1: Chuẩn bị tất cả các file xml mà BIDV cung cấp để import lên hệ thống
Bước 2: Upload tất cả các file Job cần import lên Metadata Hub import host
Có thể để các file Job ở bất kỳ đâu trên import host, hiện tại Job dưới đây đang để ở đường dẫn sau: /app/abinitio/abinitio-deployment/mhub/metadatahub/datastage
Hình 3.31: Chuẩn bị file xml trên Linux import host
Bước 3: Sau khi tất cả các file xml đã được tải lên host, cần chắc chắn đã set các quyền Read, Write, Execute cho thư mục chứa các file xml và tất cả các file xml được chứa trong thư mục, để đảm bảo hệ thống có thể truy cập vào đường dẫn và thực hiện các lệnh đọc, ghi, thực thi Sau khi set đủ quyền, nhấn Apply
Hình 3.32: Cài đặt các quyền cho tất cả các file xml
Bước 4: Hoàn thành việc chuẩn bị file, bắt đầu thực hiện import trên Metadata Hub
Thực hiện Import trên Metadata Hub lần thứ nhất
Bước 1: Vào màn hình Mhub -> Chọn Other -> Chọn Import
Hình 3.33: Chọn chức năng Import
Bước 2: Click vào Feeds tab -> Chọn Add New
Hình 3.34: Chọn thêm mới tại tab Feeds
Bước 3: Ở New Import Feed Dialog, chọn Datastage -> Next
-> Chọn Standard Datastage Lineage Import -> Next
Hình 3.36: Chọn Standard Datastage Lineage Import
Nhập tên Feed và Mô tả của Feed (Nếu có) Finish
Hình 3.37: Nhập tên feed và mô tả
Bước 4: Trong cửa sổ Import Feed mới được hiện lên, thực hiện khai báo các thông tin đầu vào cho Datastage Jobs ở EXTRACTOR PARAMETERS:
Input Directory: Khai báo đường dẫn thư mục chứa các file xml
(/app/abinitio/abinitio-deployment/mhub/metadatahub/datastage)
Keep Existing datasets.csv: Giữ trường này Unticked trong lần import đầu tiên
Database Technical System: DataStage_Database_Techsystem
Các trường thông tin khác không cần điền thông tin
Hình 3.38: Khai báo các thông tin tại tab Extractor Parameters
Bước 5: Run import Feed -> Hiện ra lỗi như bên dưới (do thiếu giá trị cho các parameters)-> Thực hiện lần import thứ 2
Hình 3.39: Hiển thị lỗi sau lần nhập đầu tiên
Thực hiện Import trên Metadata Hub lần thứ hai
Sau khi chạy import feed lần một, hệ thống sẽ tự động tạo ra các file output trong thư mục /datastage, để người dùng chỉnh sửa tham số trong Datastage như database/schema/table names nhằm kết nối được với các tên tham số trong Metadata Hub Có 2 files cần chỉnh sửa là Parameters.csv và Datasets.csv
Hình 3.40: Hệ thống tạo ra 2 file Parameters.csv và Dataset.csv
Bước 1: Backup 2 files sẽ edit là Parameters.csv và Datasets.csv trước khi thực hiện chỉnh sửa
Bước 2: Chọn file Parameters.csv để chỉnh sửa, thêm Giá trị cho Parameter tương ứng ở trong file Parameters.csv Trường hợp bên dưới thêm DB Name (bôi vàng) cho Parameter NZ_DWH_SRC_USER_NAME -> SAVE
Hình 3.41: Thêm giá trị cho file Parameters.csv
Bước 3: Quay lại màn hình Import Feed trên Metadata Hub, nhấn Run import feed
Nếu chạy thành công và không có lỗi/rejections nào -> Submit -> Approve import feed
Nếu chạy thành công nhưng vẫn còn Rejections -> Thực hiện import lần thứ 3
Thực hiện Import trên Metadata Hub lần thứ ba
Bước 1: Quay lại màn hình Linux, thư mục chứa job -> Mở file Datasets.csv
Bước 2: Thực hiện chỉnh sửa các tham số DB Name/Schema Name của bảng nguồn, đích của các job tương ứng, được bôi vàng như bên dưới (nếu bị thiếu), trong đó:
Hình 3.42: Chỉnh sửa các tham số trong file Dataset.csv
Bước 4: Quay lại màn hình Import Feed trên Metadata Hub, nhấn Run import feed -> Import thành công -> Submit -> Approve import feed.