KHÁI QUÁT VỀ NGÂN HÀNG VIETINBANK
Gi ới thiệu ngân hàng Vietinbank
Ngân hàng TMCP Công Thương Việt Nam (VietinBank) là một trong những ngân hàng thương mại Nhà nước lớn nhất tại Việt Nam, chính thức thành lập và hoạt động từ ngày 26/3/1988, được tách ra từ Ngân hàng Nhà nước Việt Nam theo Nghị định số 53/HĐBT của Hội đồng Bộ trưởng.
Vietinbank, một trong bốn ngân hàng nhà nước hay còn gọi là “Big 4”, đã trải qua hơn 30 năm xây dựng và phát triển, giữ vị trí quan trọng trong ngành ngân hàng Việt Nam Ngân hàng có mạng lưới rộng khắp với 1 sở giao dịch chính tại Hà Nội, 151 chi nhánh và hơn 1000 phòng giao dịch trên toàn quốc.
Ngân hàng Vietinbank chủ yếu thực hiện các giao dịch ngân hàng như huy động và nhận tiền gửi ngắn hạn, trung hạn và dài hạn từ tổ chức và cá nhân Ngân hàng cũng cung cấp các khoản vay ngắn hạn, trung hạn và dài hạn dựa trên khả năng nguồn vốn Ngoài ra, Vietinbank thực hiện thanh toán giữa các tổ chức, cá nhân và cung cấp dịch vụ giao dịch ngoại tệ, tài trợ thương mại quốc tế Các hoạt động khác bao gồm chiết khấu thương phiếu, trái phiếu và các dịch vụ ngân hàng khác được Ngân hàng Nhà nước Việt Nam cho phép.
Thông tin t ổng quan về ngân hàng Vietinbank
− Tên đăng ký tiếng Việt: Ngân hàng thương mại cổ phần công thương Việt Nam
− Tên đăng ký tiếng Anh: VietNam Joint stock Commercial Bank for Industry and Trade
− Địa chỉ hội sở chính: 108 Trần Hưng Đạo, Quận Hoàn Kiếm, Thành phố Hà
Giá tr ị cốt lõi và triết lý kinh doanh
Giá trị cốt lõi của VietinBank tập trung vào việc khách hàng là trung tâm, với mục tiêu phục vụ nhu cầu của họ thông qua lắng nghe và tư vấn hiệu quả Ngân hàng cam kết đổi mới sáng tạo liên tục để mang lại giá trị tối ưu cho hệ thống và khách hàng, đồng thời góp phần vào sự phát triển của đất nước VietinBank luôn duy trì sự chính trực, đảm bảo tuân thủ, kỷ luật và minh bạch trong mọi hoạt động Tôn trọng là một trong những nguyên tắc quan trọng, thể hiện qua việc lắng nghe và chia sẻ với khách hàng, đối tác và đồng nghiệp Cuối cùng, trách nhiệm được đặt lên hàng đầu, với mỗi cán bộ VietinBank cam kết cao đối với khách hàng và cộng đồng, tự hào thực hiện vai trò của mình trong xã hội.
Triết lý kinh doanh của VietinBank tập trung vào an toàn, hiệu quả và bền vững Chúng tôi cam kết xây dựng một môi trường làm việc dựa trên các giá trị cốt lõi như trung thành, tận tuỵ, đoàn kết, đổi mới, trí tuệ và kỷ cương Đối với chúng tôi, sự thành công của khách hàng chính là thành công của VietinBank.
L ịch sử hình thành và phát triển
Lịch sử hình thành ngân hàng Vietinbank được chia thành 4 giai đoạn:
Giai đoạn I (từ tháng 7/1988 đến năm 2000) đánh dấu quá trình chuyển đổi hệ thống ngân hàng từ một cấp sang hai cấp Trong giai đoạn này, Ngân hàng Công Thương được thành lập và chính thức hoạt động trên thị trường.
− Giai đoạn II: Từ năm 2001 – 2008
Vietinbank đã thành công trong việc tái cơ cấu hệ thống ngân hàng, bao gồm xử lý nợ, mô hình tổ chức, cơ chế chính sách và hoạt động kinh doanh Ngân hàng hoạt động chuyên nghiệp hơn và quy mô ngày càng được mở rộng.
− Giai đoạn III: Từ năm 2009 – 2013
Vietinbank thực hiện thành công cổ phần hóa, đổi mới mạnh mẽ, phát triển đột phá các mặt hoạt động ngân hàng [1]
Giai đoạn IV (2014 đến nay) đánh dấu nhiều thành tựu nổi bật của ngân hàng, đặc biệt là việc ứng dụng thành công các tiến bộ khoa học và công nghệ trong ngành tài chính toàn cầu Ngân hàng đã tập trung vào xây dựng và thực thi quản trị chiến lược, cùng với đột phá về công nghệ, dẫn đến sự đổi mới tích cực trong toàn bộ hoạt động Kết quả là, Vietinbank đã ghi nhận sự tăng trưởng kinh doanh ấn tượng, đảm bảo hiệu quả bền vững, từ đó nâng cao uy tín và lòng tin của khách hàng.
Sơ đồ bộ máy tổ chức
Hình 1.1 Sơ đồ bộ máy tổ chức ngân hàng Vietinbank
Ch ức năng nhiệm vụ các phòng ban
Đại hội đồng cổ đông là cơ quan có thẩm quyền cao nhất của Vietinbank, có trách nhiệm thông qua các báo cáo, quyết định về việc tăng, giảm vốn điều lệ, phương án phát hành trái phiếu và các quyết định đầu tư mua, bán tài sản.
Hội đồng quản trị của Vietinbank là cơ quan quản lý có quyền lực toàn diện trong việc quyết định và thực hiện các quyền lợi, nghĩa vụ liên quan đến mục tiêu và quyền lợi của ngân hàng, ngoại trừ những vấn đề thuộc thẩm quyền của Đại hội đồng cổ đông.
Ban kiểm soát có trách nhiệm giám sát hoạt động và đảm bảo tuân thủ pháp luật cùng Điều lệ của Vietinbank Họ chịu trách nhiệm trước Đại hội đồng cổ đông về việc thực hiện quyền và nhiệm vụ được giao Các nhiệm vụ của ban kiểm soát bao gồm ban hành quy định nội bộ, thẩm định báo cáo tài chính hàng năm, đánh giá tính hợp lý, hợp pháp và trung thực trong công tác quản lý, cũng như xem xét sổ kế toán và các tài liệu liên quan đến hoạt động kinh doanh.
Ban điều hành của Vietinbank, bao gồm tổng giám đốc, các phó giám đốc và kế toán trưởng, được Hội đồng quản trị bổ nhiệm Ban này có trách nhiệm tổ chức, quản trị và điều hành các hoạt động của Vietinbank, lập kế hoạch chi tiết cho năm tài chính tiếp theo, thực hiện các báo cáo kiểm tra và kiểm soát nội bộ, tuyển dụng nhân sự, quyết định mức lương, cũng như thiết lập và duy trì hệ thống kiểm tra, kiểm soát nội bộ hiệu quả.
Văn phòng hội đồng ban quản trị có nhiệm vụ thực hiện các công việc liên quan đến văn thư và thư ký của hội đồng quản trị, bao gồm việc ghi chép biên bản và lưu trữ các nghị quyết, quyết định của Đại hội đồng cổ đông.
T ổng quan về bài toán
1.5.1 Gi ới thiệu bài toán
Trong bối cảnh hiện nay, các ngân hàng thương mại (NHTM) đã có sự phát triển mạnh mẽ, đóng góp quan trọng vào sự phát triển của ngành Ngân hàng và nền kinh tế Tuy nhiên, họ đang phải đối mặt với nhiều thách thức như áp lực cạnh tranh từ các tổ chức phi ngân hàng, ảnh hưởng của đại dịch COVID-19 và sự phát triển công nghệ Để nâng cao năng lực cạnh tranh, các NHTM cần không chỉ hoàn thiện nghiệp vụ truyền thống mà còn đổi mới công nghệ và đa dạng hóa sản phẩm, dịch vụ Ngành ngân hàng, với khả năng thu thập dữ liệu khách hàng phong phú, sở hữu một khối lượng dữ liệu lớn từ cả dữ liệu có cấu trúc và phi cấu trúc, tạo điều kiện cho việc cải tiến dịch vụ và nâng cao hiệu quả hoạt động.
Với sự phát triển của công nghệ số, khả năng khai thác dữ liệu của các ngân hàng thương mại (NHTM) như VietinBank đã gia tăng đáng kể Dữ liệu hiện nay được xem là tài sản quý giá nhất trong doanh nghiệp Để tối ưu hóa giá trị dữ liệu và nâng cao năng lực cạnh tranh, VietinBank đã triển khai Dự án kho dữ liệu doanh nghiệp (EDW) hợp tác với công ty ETC và Tech Mahindra Dự án này cho phép ngân hàng sử dụng hiệu quả nguồn dữ liệu cho quản trị điều hành, quản trị rủi ro, hỗ trợ ra quyết định và hoạch định chiến lược kinh doanh Kho dữ liệu doanh nghiệp của VietinBank thống nhất và cung cấp báo cáo chính xác nhất, với quy mô gần 40 terabyte, gấp 40 lần so với hệ thống core banking thông thường Tổng chi phí đầu tư cho dự án lên đến 5,6 triệu USD (khoảng 122 tỷ đồng), đánh dấu đây là dự án kho dữ liệu lớn nhất trong ngành ngân hàng Việt Nam.
Dự án tích hợp gần 20 hệ thống nghiệp vụ ngân hàng tại VietinBank, trong đó phân hệ E-Banking đóng vai trò quan trọng, liên quan đến thông tin khách hàng và lịch sử giao dịch E-Banking cho phép người dùng thực hiện giao dịch ngân hàng trực tuyến, tiết kiệm thời gian và chi phí, mang lại sự tiện lợi và hiệu quả Sự gia tăng người dùng internet và thiết bị di động đã thúc đẩy sự phát triển mạnh mẽ của E-Banking, tạo ra xu hướng cạnh tranh quyết liệt giữa các ngân hàng để chiếm lĩnh thị trường Để đối phó với thách thức này, việc áp dụng kho dữ liệu doanh nghiệp EDW sẽ hỗ trợ khai thác dữ liệu E-Banking, cung cấp báo cáo phân tích, giúp ngân hàng nắm bắt nhu cầu khách hàng và cải thiện chất lượng sản phẩm dịch vụ.
Mục tiêu của bài khóa luận là xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống E-banking tại Ngân hàng TMCP Công Thương.
Việt Nam đang tiến hành nghiên cứu quy trình trích xuất, chuyển đổi và tải dữ liệu từ hệ thống nguồn lên kho dữ liệu chủ đề DM, đồng thời xây dựng báo cáo phân tích cho hệ thống E-banking.
1.5.2 Th ực trạng công tác quản lý dữ liệu trên hệ thống E-banking tại ngân hàng VietinBank
Vietinbank là ngân hàng hàng đầu tại Việt Nam trong lĩnh vực đầu tư công nghệ thông tin và dịch vụ thanh toán trực tuyến Đội ngũ cán bộ IT của Vietinbank đã phát triển các dịch vụ ngân hàng điện tử, nổi bật là Vietinbank iPay và SMS banking Các dịch vụ E-banking của ngân hàng bao gồm Vietinbank iPay, Vietinbank eFast, iPay mobile, SMS banking, Mobile banking và Bank plus.
VietinBank đã thành công trong việc triển khai dự án hiện đại hóa ngân hàng và hệ thống thanh toán (INCAS), đánh dấu lần đầu tiên ngân hàng này đưa dữ liệu trực tiếp vào hệ thống quản lý tập trung Điều này thay thế cho việc quản lý dữ liệu phân tán tại từng chi nhánh như trước đây, góp phần nâng cao hiệu quả quản lý và tối ưu hóa quy trình hoạt động.
− Dữ liệu được lưu trữ tập trung tại hệ thống máy chủ tại trụ sở chính
− Các giao dịch được xử lý trực tuyến tại máy chủ
− Hệ thống có mã Code phân biệt giữa các chi nhánh với nhau
− Có sự liên kết, sử dụng thông tin chặt chẽ của từng chi nhánh
− Mỗi cán bộ được cấp 01 User để truy cập vào hệ thống INCAS theo từng phân quyền theo nghiệp vụ của mình được phân công
Khi khách hàng thực hiện giao dịch tại Vietinbank như gửi tiền tiết kiệm, mở tài khoản thanh toán hay làm thẻ ATM, mỗi khách hàng sẽ được cấp một mã số khách hàng (CIF) duy nhất Mọi thông tin cá nhân và dữ liệu giao dịch của khách hàng sẽ được lưu trữ và tự động cập nhật vào hệ thống cơ sở dữ liệu Các cán bộ ngân hàng sẽ truy cập vào các Module khác nhau dựa trên quyền hạn và nhiệm vụ của họ để quản lý thông tin và giao dịch hiệu quả.
Hệ thống E-banking hiện nay cung cấp đa dạng dịch vụ với số lượng lớn khách hàng sử dụng Mỗi dịch vụ lưu trữ dữ liệu tại các hệ thống riêng biệt Để lập báo cáo cho E-banking, dữ liệu được sử dụng từ bốn hệ thống thông tin khác nhau.
− Bank Admin: hệ thống lưu trữ dữ liệu từ dịch vụ thanh toán internet banking
Hệ thống INCAS là một nền tảng lõi ngân hàng, cho phép quản lý tập trung cơ sở dữ liệu ngân hàng theo mô hình quan hệ và module Hệ thống này hỗ trợ tích hợp các hệ thống thông tin trong toàn bộ ngân hàng, nâng cao hiệu quả quản lý và vận hành.
− ISAPP: hệ thống lưu trữ dữ liệu từ dịch vụ SMS Banking và Bank plus
− GENTRONICS: hệ thống lưu trữ dữ liệu liên quan đến thẻ ATM
Quá trình lập báo cáo tại ngân hàng Vietinbank hiện nay gặp khó khăn do dữ liệu được tổng hợp từ nhiều hệ thống khác nhau Sự thiếu hụt kho dữ liệu tổng thể đã ảnh hưởng đến khả năng lập báo cáo và phân tích, từ đó hạn chế việc ra quyết định kinh doanh hiệu quả.
Việc lưu trữ thông tin khách hàng và giao dịch trên các hệ thống khác nhau gây khó khăn trong việc tổng hợp báo cáo cho dịch vụ E-banking.
Dữ liệu tồn tại dưới nhiều định dạng và hệ thống khác nhau, được lưu trữ trên các tập tin với cấu trúc CDSL đa dạng do nhiều nhà cung cấp phát triển Điều này tạo ra khó khăn trong việc tích hợp dữ liệu từ các nguồn khác nhau để xuất ra báo cáo.
Khối lượng dữ liệu trong các hệ thống ngày càng lớn và gia tăng nhanh chóng, dẫn đến hiệu suất truy vấn dữ liệu giảm sút Việc truy vấn thông tin từ nhiều bảng kết hợp cũng làm tăng thời gian truy vấn, gây ảnh hưởng tiêu cực đến hiệu suất tổng thể.
Dữ liệu trong các hệ thống hiện tại rất chi tiết và được cập nhật thường xuyên, nhưng điều này dẫn đến việc thiếu tính lịch sử cần thiết để phân tích các giai đoạn và xu hướng khác nhau, từ đó hạn chế khả năng đưa ra dự đoán chính xác cho tương lai.
1.5.3 Lý do l ựa chọn bài toán
K ết luận chương 1
Chương 1 đã giới thiệu tổng quan về Ngân hàng Vietinbank về sự hình thành và phát triển, giá trị cốt lỗi và chiết lý kinh doanh, sơ đồ bộ máy tổ chức và chức năng của mỗi phòng ban Bên cạnh đó, trong chương này cũng đã trình bày tổng quan về bài toán cần nghiên cứu Nêu lên được thực trạng của bài toán, ý nghĩa thực tiễn, những khó khăn, thách thức của doanh nghiệp cần giải quyết để tối ưu hoá hệ thống báo cáo phân tích bằng việc xây dựng kho dữ liệu cho hệ thống E-banking của công ty.
TỔNG QUAN VỀ KHO DỮ LIỆU
Định nghĩa kho dữ liệu
Kho dữ liệu đã xuất hiện từ những năm 90 của thế kỷ 20, với William H Inmon là người tiên phong trong công nghệ này Ông định nghĩa kho dữ liệu là một tập hợp dữ liệu được tổ chức theo hướng chủ đề.
Kho dữ liệu được định nghĩa là một hệ thống tích hợp, gắn với thời gian, ổn định và được thiết kế nhằm hỗ trợ quá trình ra quyết định của người quản lý Định nghĩa này nhấn mạnh bốn đặc điểm chính của kho dữ liệu, bao gồm tính chất chủ đề, tính biến đổi theo thời gian, tính không thay đổi và mục đích hỗ trợ quyết định.
Theo Devlin, kho dữ liệu được định nghĩa là một kho lưu trữ toàn diện và đồng nhất, chứa dữ liệu thu thập từ nhiều nguồn khác nhau Dữ liệu này được tổ chức để người dùng có thể dễ dàng hiểu và sử dụng trong bối cảnh kinh doanh.
Kho dữ liệu chứa thông tin quan trọng hỗ trợ ra quyết định hiện tại và quá khứ, được thiết kế riêng cho từng mục đích khác nhau Khác với cơ sở dữ liệu tác nghiệp, kho dữ liệu quản trị lượng thông tin lớn, lưu trữ đa phương tiện, bao gồm thông tin có cấu trúc và từ nhiều nguồn khác nhau Nó cung cấp thông tin gộp hoặc đã qua tổng hợp nhằm hỗ trợ quản lý trong quá trình ra quyết định Nhờ vậy, kho dữ liệu cung cấp cái nhìn sâu sắc hơn về hiệu suất công ty thông qua việc so sánh dữ liệu từ nhiều nguồn không đồng nhất, điều mà cơ sở dữ liệu tác nghiệp truyền thống khó có thể thực hiện.
Quá trình ETL giúp chuyển đổi dữ liệu từ nhiều nguồn khác nhau về một cấu trúc đồng nhất và lưu trữ chúng trong kho dữ liệu Khi dữ liệu được lưu trữ, nó sẽ được sắp xếp, hợp nhất và tổng kết, giúp dễ dàng điều phối và sử dụng Theo thời gian, kho dữ liệu sẽ ngày càng phong phú hơn khi có thêm nhiều nguồn dữ liệu được cập nhật.
Đặc điểm kho dữ liệu
Từ khái niệm trên nhận thấy 4 đặc điểm chính của kho dữ liệu như sau:
Dữ liệu được tổ chức theo hướng chủ đề, tập trung vào các khía cạnh chính như khách hàng, sản phẩm và bán hàng Cách tiếp cận này mang lại cái nhìn rõ ràng và ngắn gọn về các vấn đề liên quan đến cùng một chủ đề.
Hình 2.1 Tính hướng chủ đề của DWH
Dữ liệu trong kho dữ liệu được thu thập từ nhiều nguồn khác nhau và không đồng nhất, do đó cần áp dụng các kỹ thuật làm sạch và tích hợp để đảm bảo tính thống nhất về định dạng và cấu trúc Việc hợp nhất dữ liệu thành một tập hợp có nghĩa cho phân tích là một thách thức lớn Do đó, dữ liệu tích hợp cần đảm bảo tính nhất quán, và đôi khi chấp nhận sự dư thừa để nâng cao hiệu quả truy vấn.
Hình 2.2 Tính tích h ợp trong DWH
Dữ liệu trong kho dữ liệu (DWH) có tính ổn định và không biến động, cho phép thực hiện hai thao tác chính: nạp dữ liệu và truy cập thông tin Tính ổn định này thể hiện qua việc dữ liệu được lưu trữ lâu dài, với dữ liệu cũ không bị xóa khi có dữ liệu mới thêm vào Nhờ đó, DWH cung cấp thông tin về một khoảng thời gian dài, hỗ trợ các mô hình phân tích và dự báo, từ đó giúp đưa ra những quyết định hợp lý và phù hợp với quy luật tiến hóa tự nhiên.
Hình 2.3 Tính ổn định, không biến động của DWH
Kho dữ liệu (DW) chứa một lượng lớn dữ liệu lịch sử, được lưu trữ dưới dạng các bản sao phản ánh giá trị dữ liệu tại những thời điểm cụ thể Điều này cho phép khôi phục và so sánh chính xác dữ liệu qua các giai đoạn khác nhau Yếu tố thời gian không chỉ đảm bảo tính đơn nhất của mỗi bản ghi mà còn cung cấp đặc trưng về thời gian cho dữ liệu.
Dữ liệu trong kho dữ liệu tác nghiệp cần phải chính xác tại thời điểm truy cập, trong khi dữ liệu trong kho dữ liệu (DW) chỉ cần có hiệu lực trong khoảng thời gian từ 5 đến 10 năm hoặc lâu hơn Sau một thời gian nhất định, dữ liệu của hệ thống CSDL tác nghiệp sẽ trở thành dữ liệu lịch sử và được chuyển vào kho dữ liệu, tạo thành những thông tin hợp lý về các chủ điểm cần lưu trữ.
Ki ến trúc Kho dữ liệu
Tùy thuộc vào tình trạng của tổ chức, kho dữ liệu có thể được thiết kế theo nhiều cách khác nhau Dưới đây là ba kiến trúc phổ biến trong kho dữ liệu mà các tổ chức thường áp dụng.
2.3.1 Ki ến trúc kho dữ liệu căn bản
Kiến trúc kho dữ liệu cơ bản không phải là một phương pháp thiết kế phổ biến trong lĩnh vực kho dữ liệu Mục tiêu chính của kiến trúc này là tạo ra một tập dữ liệu nhỏ gọn và tối ưu hóa việc lưu trữ dữ liệu.
Hình 2.5 Ki ến trúc kho dữ liệu cơ bản
Kiến trúc cơ bản của hệ thống Data Warehouse gồm 3 phần:
• Data Source: Là nơi dữ liệu từ nhiều nguồn khác nhau được thu thập
• Warehouse: Đây là nơi lưu trữ dữ liệu đã được xử lý bao gồm Metadata, Raw Data và Summary Data
Hệ thống người dùng bao gồm các công cụ phân tích, báo cáo và khai thác dữ liệu (data mining) Kiến trúc này đơn giản, không có phần ETL (extraction, transformation, and loading), cho phép người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua kho dữ liệu (data warehouse).
2.3.2 Ki ến trúc kho dữ liệu với staging area
Hình 2.6 Ki ến trúc kho dữ liệu với staging area
Trong kiến trúc hệ thống, vùng lưu trữ trung gian Staging Area được tách biệt khỏi Data Warehouse (DW) để tích hợp và chuyển đổi dữ liệu từ nhiều nguồn trước khi đưa vào kho dữ liệu Dữ liệu tại Staging Area được làm sạch và định dạng phù hợp, đảm bảo rằng người dùng cuối có thể truy xuất dữ liệu một cách hiệu quả từ các hệ thống xử lý nghiệp vụ thông qua Data Warehouse.
2.3.3 Ki ến trúc kho dữ liệu với staging area và data marts
Kiến trúc kho dữ liệu với khu vực staging và các data marts là một trong những mô hình phổ biến nhất cho hệ thống kho dữ liệu Mô hình này bổ sung quy trình ETL, cho phép phân chia kho dữ liệu thành các chủ đề nhỏ hơn, được gọi là data marts.
Tại kiến trúc kho dữ liệu với staging area và data marts có 3 tầng chính như sau:
Tầng dưới chủ yếu tập trung vào việc trích xuất thông tin từ nhiều nguồn khác nhau, sau đó sử dụng các công cụ ETL để thực hiện các thao tác chuyển đổi, làm sạch, tải dữ liệu hoặc làm mới thông tin.
• Middler tier: Tầng giữa gồm máy chủ OLAP, chuyển đổi dữ liệu thành 1 cấu trúc phù hợp cho các phân tích và truy vấn phức tạp
• Top tier: Tầng trên cùng gồm các tool cho phân tích, thống kê, lập báo cáo… ở phía client
2.3.4 Cách ti ếp cận kho dữ liệu
Theo phương pháp của Ralph Kimball, data mart đóng vai trò quan trọng như là kho lưu trữ dữ liệu cho các lĩnh vực kinh doanh cụ thể Kho dữ liệu được hình thành từ sự kết hợp của nhiều data mart, giúp tối ưu hóa quá trình báo cáo và phân tích Thiết kế kho dữ liệu của Kimball áp dụng phương pháp "Bottom-up", trong đó dữ liệu được tải vào data mart qua quy trình ETL trước khi chuyển vào kho dữ liệu (DW), nơi thông tin được lưu trữ.
Hình 2.8 Cách ti ếp cận Bottom-up
Theo Bill Inmon, kho dữ liệu là nơi lưu trữ tập trung cho toàn bộ dữ liệu của doanh nghiệp Trong phương pháp này, tổ chức sẽ phát triển một mô hình kho dữ liệu chuẩn hóa, từ đó tạo ra các kho dữ liệu chiều (dimensional data marts) dựa trên mô hình đã được thiết lập.
Cách tiếp cận từ trên xuống (Top-down) trong xây dựng kho dữ liệu (DW) là phương pháp mà ETL tải thông tin trực tiếp vào kho dữ liệu, sau đó dữ liệu sẽ được chuyển đến data mart.
Hình 2.9 Cách ti ếp cận Top-down
− Khác nhau giữa Top-down và Bottom-up
- Cung cấp góc nhìn dữ liệu theo chiều nhất quán trên các data mart( vì cùng từ một nguồn là data warehouse mà ra)
- Đây là mô hình được nhiều công ty lớn lựa chọn
-Tốn nhiều thời gian, chi phí
- Báo cáo có thể được tạo dễ dàng vì Data mart được tạo trước và việc tương tác với data mart là tương đối dễ dàng
- Không tốt bằng Top-down nhưng kho dữ liệu có thể được mở rộng và tăng số lượng data mart
Thành ph ần của kho dữ liệu
Với các hệ thống kho dữ liệu khác nhau sẽ có cấu trúc khác nhau Nhưng một DW về cơ bản sẽ có 4 lớp sau:
Hình 2.10 Ki ến trúc DWH
Source Layer (Lớp dữ liệu nguồn):
Lớp dữ liệu nguồn bao gồm nhiều loại dữ liệu đa dạng, chẳng hạn như dữ liệu hệ thống tác nghiệp (bán hàng, nhân sự, sản phẩm, hàng tồn kho, tiếp thị), dữ liệu nhật ký máy chủ web phản ánh hành vi duyệt web của người dùng, dữ liệu nghiên cứu thị trường nội bộ, và dữ liệu từ bên thứ ba như điều tra dân số, nhân khẩu học và khảo sát.
Dữ liệu nguồn có thể đến từ nhiều hệ quản trị cơ sở dữ liệu khác nhau như MySQL, Oracle, MSSQL, DB2, hoặc ở các định dạng file như text, XML, Excel, và nhiều loại khác.
Staging là khu vực lưu trữ tạm thời, nơi dữ liệu từ lớp nguồn (Source layer) được làm sạch và tải vào thông qua quy trình ETL Mục đích của việc này là để lưu trữ dữ liệu nguồn tại khu vực STG.
Data mart (Kho dữ liệu chủ đề) là khu vực lưu trữ dữ liệu chuyên biệt về một lĩnh vực cụ thể Các kho dữ liệu này có thể được phát triển trước khi xây dựng kho dữ liệu tổng hợp (DWH) và sau đó được tích hợp lại để hình thành DWH Ngược lại, DWH cũng có thể được xây dựng trước, sau đó tạo ra các data mart.
Siêu dữ liệu đóng vai trò quan trọng trong việc tổ chức kho dữ liệu, giúp cả người dùng cuối và nhân viên quản trị truy cập đầy đủ thông tin về các đối tượng và thuộc tính trong bảng Họ cần biết nơi tìm thấy dữ liệu, các loại thông tin hiện có, hình thức và loại dữ liệu, mối liên hệ giữa dữ liệu trong các cơ sở dữ liệu khác nhau, cũng như nguồn gốc và người quản lý dữ liệu.
Siêu dữ liệu là một loại cơ sở dữ liệu được hình thành để mô tả cấu trúc nội dung của cơ sở dữ liệu chính.
OLAP (Online Analytical Processing) là hệ thống phân tích dữ liệu hiệu quả, cho phép người dùng cắt lát (slice) dữ liệu từ nhiều khía cạnh khác nhau Hệ thống này hỗ trợ việc khoan xuống (Drill-Down) để xem chi tiết hơn hoặc cuộn lên (Roll-Up) để tổng hợp dữ liệu Cốt lõi của OLAP là dữ liệu được trích xuất từ kho dữ liệu và chuyển đổi thành mô hình đa chiều, sau đó lưu trữ trong kho dữ liệu đa chiều.
Data mining là quá trình phân tích dữ liệu để phát hiện các quy luật và quy tắc nhằm hỗ trợ quyết định kinh doanh Thay vì sử dụng các câu truy vấn thông thường, data mining áp dụng các thuật toán đặc biệt như mô hình thống kê và toán học để thực hiện phân tích dữ liệu hiệu quả.
T ổ chức dữ liệu logic trong DWH
2.5.1 Lược đồ kho dữ liệu
Lược đồ hình sao là một dạng lược đồ cơ bản và đơn giản nhất trong kho dữ liệu, được sử dụng phổ biến để phát triển các hệ thống DW và data mart Đây là một trường hợp cần thiết của lược đồ bông tuyết và rất hiệu quả trong việc xử lý các truy vấn cơ bản.
Hình 2.11 Lược đồ hình sao
Lược đồ hình sao bao gồm một bảng Fact (bảng sự kiện) ở trung tâm và xung quanh là các bảng Dimension (bảng chiều), với dữ liệu không được chuẩn hoá Các truy vấn tập trung vào bảng Fact và được cấu trúc thông qua các bảng Dimension Ưu điểm của lược đồ hình sao là khả năng tối ưu hóa hiệu suất truy vấn và đơn giản hóa việc phân tích dữ liệu.
Truy vấn dữ liệu trở nên đơn giản hơn nhờ vào việc các thông tin đo lường và thông tin mô tả được tập trung trên bảng fact Điều này giúp câu lệnh truy vấn trở nên dễ dàng hơn, không cần phải thực hiện nhiều phép join giữa các bảng khác nhau.
− Điểm bất lợi của lược đồ hình sao là tính toàn vẹn của dữ liệu, dữ liệu không được chuẩn hóa
2.5.1.2 Lược đồ hình bông tuyết
Lược đồ hình bông tuyết là một phiên bản mở rộng của lược đồ hình sao, trong đó các bảng Dimension được chuẩn hoá Điều này có nghĩa là từ bảng Dimension ban đầu, chúng ta sẽ chia thành nhiều bảng Dimension khác nhau có mối quan hệ phân cấp.
Hình 2.12 Lược đồ hình sao
Lược đồ hình bông tuyết giúp chuẩn hóa các bảng dimension trong lược đồ hình sao, từ đó cải thiện năng suất truy vấn Nó giảm thiểu không gian đĩa cần thiết để lưu trữ dữ liệu và nâng cao hiệu suất nhờ vào việc chỉ cần kết hợp các bảng có kích thước nhỏ hơn, thay vì các bảng lớn không được chuẩn hóa.
Lược đồ chòm sao là một tập hợp nhiều bảng fact cùng sử dụng chung một số bảng dimension Lược đồ là sự kết hợp của nhiều data mart
Hình 2.13 Lược đồ chòm sao
2.5.2 Mô hình d ữ liệu đa chiều
Dữ liệu trong kho dữ liệu (DWH) rất lớn và không cho phép sửa đổi hay tạo mới, vì vậy cần tối ưu hóa để thuận tiện cho phân tích và báo cáo Các thao tác với dữ liệu trong DWH dựa trên mô hình dữ liệu đa chiều, giúp cải thiện hiệu suất cho các truy vấn phức tạp và cho phép người dùng xem dữ liệu từ nhiều góc độ khác nhau Mô hình này được thể hiện dưới dạng khối đa chiều (cube), trong đó mỗi chiều mô tả một đặc trưng của dữ liệu.
Hình 2.14 Hình ảnh cube 3 chiều thể hiện số lượng bán hàng theo 3 chiều
Cây phân cấp là một phương pháp hiệu quả để tổ chức dữ liệu theo nhiều cấp độ tổng hợp khác nhau, giúp người dùng dễ dàng khám phá và truy cập thông tin chi tiết.
(dimension) được phân cấp theo loại Ví dụ như phân cấp chiều product, location và time như hình ảnh sau:
Chiều thời gian được chia thành các quý và mỗi quý có thể chia thành các tháng bằng cách cắt lớp chiều thời gian
Hình 2.16 Hình ảnh cắt lớp chiều time
Với mức độ phân cấp như ảnh người dùng có thể lựa chọn mức độ chi tiết của chiều dữ liệu
− Chiều hàng hoá (Product) có các mức: sản phẩm, loại sản phẩm, công nghiệp
− Chiều thị trường (Location) có các mức: khu vực, quốc gia, thành phố, địa điểm
− Chiều thời gian (Time) có các mức: năm, quý, tháng, tuần, ngày
Vì vậy, nếu mỗi bảng chiều chứa nhiều mức độ trừu tượng thì dữ liệu có thể được xem từ nhiều khung nhìn linh động khác nhau
− Một số thao điển hình trên khối cube o Roll-up (Cuộn) thực hiện tính toán gộp theo một hoặc nhiều chiều dữ liệu
Thao tác roll-up trong phân tích dữ liệu cho phép tổng hợp thông tin từ cấp thành phố lên đến cấp quốc gia, giúp người dùng có cái nhìn tổng quát hơn về dữ liệu Ngược lại, thao tác drill-down cung cấp thông tin chi tiết hơn theo các chiều dữ liệu, cho phép người dùng khám phá sâu hơn vào các khía cạnh cụ thể của dữ liệu.
Thao tác drill down trong chiều Time cho phép chuyển đổi từ mức độ quý sang chi tiết hơn là tháng Trong khi đó, Slice (Cắt lát) thực hiện việc "cắt" lấy một "lát" dữ liệu theo một chiều cụ thể của Data-cube.
Hình 2.19 Thao tác slice chi ều time với tiêu chí là Quý 1 o Dice (Cắt khối) thực hiện “cắt” lấy một “khối con” dữ liệu của Data- cube
Thao tác dice cắt cube thành khối con theo tiêu chí Pivot cho phép người dùng xoay Data-cube theo các chiều dữ liệu, từ đó cung cấp nhiều góc nhìn đa dạng vào dữ liệu.
Bảng sự kiện (fact table) là một thành phần quan trọng trong cơ sở dữ liệu, chứa các phép đo, số liệu và sự kiện liên quan đến quy trình kinh doanh Những giá trị định lượng này giúp doanh nghiệp đánh giá giá trị kinh doanh hiện tại và dự đoán xu hướng phát triển trong tương lai.
Bảng Fact thường không có trường khóa chính riêng, mà thay vào đó là tập hợp các khóa ngoại từ các bảng Dimension liên quan Hầu hết các bảng Fact bao gồm các trường lưu trữ giá trị số liệu, được gọi là tiêu chí đo (Measurement) Ngoài ra, bảng Fact có thể có hoặc không có các dimension thoái hóa (Degenerate Dimension).
Có 3 loại bảng fact chính: bảng fact giao dịch, bảng fact snapshot và bảng fact tổng hợp:
Bảng fact giao dịch (Transactional fact table) là loại bảng dữ liệu phổ biến nhất, với mỗi hàng thể hiện một sự kiện cụ thể trong quy trình kinh doanh Loại bảng này thường chứa nhiều khóa ngoại hơn các loại bảng fact khác, do có mối quan hệ với tất cả các bảng dimension có thể có.
Bảng fact snapshot (Accumulating snapshot fact table) lưu trữ dữ liệu với thời gian không xác định Mỗi bản ghi trong bảng này được cập nhật liên tục theo trạng thái của thực thể, chẳng hạn như số dư tài khoản, cấp độ tài khoản, các phép đo nhiệt độ và chiều cao.
Bảng fact tổng hợp (Periodic snapshot fact table) lưu trữ thông tin về quy trình kinh doanh trong một khoảng thời gian nhất định và sẽ được cập nhật sau mỗi chu kỳ Những dạng phổ biến của bảng fact tổng hợp bao gồm theo ngày, tháng và năm.
Cấu trúc bảng Dimension gồm các thành phần sau:
ETL TRONG DATAWAREHOUSE
ELT, viết tắt của Extract – Load – Transform (trích xuất – tải – biến đổi), là giải pháp hiệu quả cho doanh nghiệp trong thời đại IoT (Internet of Things), khi khối lượng dữ liệu tăng nhanh chóng Với ELT, doanh nghiệp không chỉ lưu trữ dữ liệu một cách hiệu quả mà còn có khả năng khai thác triệt để các thông tin thu thập được.
ETL (Extract, Transform, Load) là quy trình chuyển dữ liệu từ nhiều nguồn vào hệ thống đích, thường được áp dụng trong kho dữ liệu Khái niệm ETL đã trở nên phổ biến từ những năm 1970 và đóng vai trò quan trọng trong việc quản lý và phân tích dữ liệu.
ETL bao gồm 3 quá trình
Việc trích xuất dữ liệu là quá trình xác định và thu thập thông tin cần thiết từ nhiều nguồn khác nhau như cơ sở dữ liệu, tệp tin, kho lưu trữ, hệ thống ERP và CRM.
− Load (Tải lên): Quy trình này sẽ bao gồm việc tải các dữ liệu được trích xuất sẽ được lên các database xác định
Chuyển đổi dữ liệu là quy trình chuyển đổi thông tin từ định dạng cũ trên hệ thống nguồn sang định dạng mới, nhằm tối ưu hóa cho việc phân tích dữ liệu.
2.6.2 Cách th ức hoạt động của ETL
2.6.2.1 Giai đoạn trích xuất dữ liệu
Trong giai đoạn này, dữ liệu được trích xuất từ hệ thống vào khu vực staging area, nơi các biến đổi được thực hiện để nâng cao hiệu suất hệ thống Việc tải dữ liệu trực tiếp vào kho dữ liệu (DW) có thể gây khó khăn trong việc khôi phục nếu xảy ra sự cố dữ liệu hỏng Khu vực staging area cung cấp cơ hội để xác thực dữ liệu được trích xuất trước khi tải vào kho dữ liệu.
Extract là bước đầu tiên trong quy trình ETL, đóng vai trò quan trọng trong việc trích xuất dữ liệu từ các hệ thống nguồn Hầu hết các doanh nghiệp đều sử dụng nhiều loại dữ liệu để quản lý, do đó, trong giai đoạn này, cả dữ liệu có cấu trúc và không có cấu trúc sẽ được cập nhật vào kho dữ liệu theo nguyên tắc hợp nhất Dữ liệu thô có thể được trích xuất từ nhiều nguồn khác nhau.
− Ứng dụng phục vụ hoạt động bán hàng và tiếp thị
− Nền tảng lưu trữ dữ liệu
− Các ứng dụng và thiết bị di động
− Hệ thống CRM (Quản lý khách hàng)
Có hai phương pháp trích xuất dữ liệu:
− Trích xuất toàn bộ (Full Extraction): Trích xuất tất cả dữ liệu vào khu vực dàn dựng mà không cần áp dụng điều kiện
Trích xuất dữ liệu với thông báo cập nhật từ nguồn gửi, chỉ thực hiện việc trích xuất đối với các dữ liệu đã sửa đổi Nếu có bất kỳ thay đổi nào trong số dữ liệu đã trích xuất, chỉ những dữ liệu đã được cập nhật mới được đưa vào khu vực tổ chức.
Trích xuất dữ liệu có điều kiện tải, như trong các bộ lập lịch hàng ngày, chỉ thực hiện việc trích xuất dữ liệu trong ngày đó, trong khi phần còn lại sẽ được xử lý vào ngày tương ứng Quan trọng là quá trình trích xuất không được làm giảm hiệu suất và thời gian phản hồi của hệ thống nguồn, là những cơ sở dữ liệu sản xuất trực tiếp, vì bất kỳ sự chậm trễ hoặc khóa nào cũng có thể ảnh hưởng đến lợi nhuận của công ty.
2.6.2.2 Giai đoạn chuyển đổi dữ liệu
Dữ liệu thô được trích xuất từ hệ thống nguồn thường có nhiều định dạng và cấu trúc khác nhau, vì vậy cần phải được chuyển đổi để sử dụng hiệu quả Quá trình này là bước quan trọng trong quy trình ETL, giúp thêm giá trị và biến đổi dữ liệu nhằm tạo ra các báo cáo BI sâu sắc Đây là giai đoạn then chốt, nơi áp dụng các hàm xử lý dữ liệu đã trích xuất Nếu dữ liệu không cần chuyển đổi, nó được gọi là di chuyển trực tiếp hoặc truyền qua dữ liệu.
Một số kỹ thuật được sử dụng trong giai đoạn này:
− Chuyển đổi bộ ký tự và xử lý mã hóa
− Chuyển đổi Đơn vị đo lường như Chuyển đổi ngày giờ, chuyển đổi tiền tệ, chuyển đổi số, chuyển đổi chuỗi thành ngày,v.v
− Kiểm tra xác thực ngưỡng dữ liệu Ví dụ: tuổi không được nhiều hơn hai chữ số
− Các trường bắt buộc không được để trống
− Làm sạch (ví dụ: ánh xạ NULL thành 0 hoặc Giới tính Nam thành "M" và
− Tách một cột thành nhiều cột và hợp nhất nhiều cột thành một cột duy nhất
− Chuyển đổi các hàng và cột,
− Sử dụng tra cứu để hợp nhất dữ liệu
2.6.2.3 Giai đoạn tải dữ liệu
Bước cuối cùng của quy trình ETL là tải dữ liệu đã được chuyển đổi vào một đích mới Quá trình tải dữ liệu có thể thực hiện một lần duy nhất (tải đầy đủ) hoặc theo lịch trình định kỳ (tải tăng dần).
Tải toàn bộ ETL dẫn đến việc dữ liệu được ghi vào các bản ghi mới, duy nhất trong kho dữ liệu Mặc dù phương pháp này hữu ích cho nghiên cứu, nhưng nó cũng tạo ra các tập dữ liệu tăng trưởng nhanh chóng, gây khó khăn trong việc duy trì.
Tải tăng dần là một phương pháp tiếp cận dễ quản lý hơn, cho phép so sánh dữ liệu mới với dữ liệu đã có, chỉ tạo ra các bản ghi bổ sung khi phát hiện thông tin mới và duy nhất Phương pháp này không chỉ tiết kiệm chi phí mà còn hỗ trợ quản lý kinh doanh một cách thông minh.
Làm tươi toàn bộ - xóa hoàn toàn nội dung của 1 hoặc nhiều bảng và tải lại với dữ liệu mới ( Tải đầu tiên là một làm tươi toàn bộ) [3]
Một số kỹ thuật tải dữ liệu
− Create: Là quá trình tạo một bảng mới hoàn toàn và tải dữ liệu vào bảng vừa tạo [3]
Quá trình tải dữ liệu yêu cầu bảng đã tồn tại, trong đó tiến trình append sẽ thêm các dữ liệu mới mà không làm thay đổi dữ liệu hiện có trong các bảng mục tiêu.
Nếu bảng mục tiêu đã tồn tại và có dữ liệu, quá trình thay thế sẽ xóa toàn bộ dữ liệu hiện có cùng với cấu trúc bảng, sau đó tải dữ liệu và cấu trúc bảng mới.
K ết luận chương 2
Chương 2 cung cấp cái nhìn tổng quan về kho dữ liệu (KDL), bao gồm khái niệm, đặc điểm, cách tiếp cận và kiến trúc của KDL Nó cũng đề cập đến các tầng trong KDL, tổ chức logic bên trong, mô hình đa chiều OLAP, cũng như các loại bảng fact và cấu trúc của chúng, cùng với các dimension Ngoài ra, chương này còn trình bày tổng quan về quy trình ETL trong kho dữ liệu, nhấn mạnh các khái niệm cơ bản liên quan.
ETL, giao đoạn trích xuất, giai đoạn chuyển đổi và giai doạn load dữ liệu.
XÂY DỰNG QUÁ TRÌNH ETL PHỤC VỤ CHO HỆ THỐNG E-BANKING
Ki ến trúc ETL tổng thể của hệ thống E-banking
Data Mart DB Data Mart Layer
Hình 3.1 Ki ến trúc ETL trong hệ thống E-banking
As illustrated in the current diagram, the source data flows through three distinct layers: from source systems to staging/ODS, from staging/ODS to the data warehouse, and finally from the data warehouse to the data mart.
3.1.1 Quá trình t ải dữ liệu từ Source system tới Staging and ODS
Hệ thống nguồn sẽ bao gồm dữ liệu từ các hệ thống khác nhau như Bank
Admin, INCAS, ISAPP, GENTRONICS Dữ liệu từ hệ thống nguồn được tải vào khu vực lưu trữ tạm thời gọi là Staging area, nơi dữ liệu được mapping 1-1 vào các bảng trong staging Staging area đóng vai trò như một kho backup cho dữ liệu hệ thống nguồn, giúp xử lý các lỗi có thể xảy ra trong quá trình ETL khi chuyển dữ liệu từ khu vực xử lý sang khu vực trình bày Việc sử dụng Staging area cho phép tái sử dụng dữ liệu từ hệ thống nguồn mà không lo lắng về sự thay đổi của dữ liệu.
Hình 3.2 Minh h ọa quá trình load dữ liệu vào Staging area
Sau khi dữ liệu được tải vào vùng Staging area, nó sẽ được chuyển đến khu vực ODS ODS, hay kho dữ liệu hoạt động, là nơi tích hợp và lưu trữ dữ liệu từ nhiều hệ thống nguồn khác nhau, phục vụ cho nhu cầu báo cáo và ra quyết định của doanh nghiệp Kho dữ liệu trong ODS được làm mới theo thời gian thực, do đó, nó rất được ưa chuộng cho các hoạt động hàng ngày, chẳng hạn như lưu trữ hồ sơ của nhân viên.
Thời gian lưu trữ dữ liệu cho các bảng STG / ODS như sau:
3.1.2 Quá trình t ải dữ liệu từ ODS tới DWH
Dữ liệu từ ODS được xử lý và liên tục tải lên lớp DWH, với việc thêm bản ghi mới và tổng hợp dữ liệu từ lịch sử bản ghi cũ Trong khi ODS cập nhật dữ liệu theo thời gian thực, DWH được thiết kế để thực hiện các truy vấn phức tạp trên tập dữ liệu lớn, khác biệt với ODS vốn chỉ truy vấn trên tập dữ liệu nhỏ.
3.1.3 Quá trình t ải dữ liệu từ DWH tới DM
Lớp data mart được thiết kế nhằm hỗ trợ yêu cầu báo cáo cho quyết định kinh doanh Quá trình nạp dữ liệu vào data mart bao gồm việc chuyển đổi dữ liệu sang mô hình hình sao hoặc bông tuyết, giúp tối ưu hóa việc truy vấn và phân tích dữ liệu.
Các quá trình sau sẽ được đưa vào quá trình tải dữ liệu của Data Mart:
1 Tạo surrogate key trong bảng chiều
2 Bảo toàn dữ liệu lịch sử cho dữ liệu
3 Xác định dữ liệu phân cấp để hỗ trợ xem chi tiết, tổng hợp và xem chi tiết thông qua các chức năng báo cáo
4 Tải dữ liệu Fact dưới dạng cấu trúc giao dịch không chuẩn hóa với tham chiếu dữ liệu chiều thông qua surrogate key để tạo mô hình sao / bông tuyết
5 Tải dữ liệu Tóm tắt tổng hợp từ dữ liệu thực tế có mức độ chi tiết thấp hơn để hỗ trợ báo cáo cấp cao và truy cập dữ liệu nhanh hơn
3.1.4 Quá trình ch ạy job và thông báo lỗi
Quá trình tải dữ liệu trên kho EDW được tổ chức thành một công việc liên tục từ đầu đến cuối, với mỗi tầng có một job riêng phục vụ cho ETL Các job tại mỗi tầng được kết nối trên Server job và chạy tuần tự; job tại tầng STG phải thành công trước khi job tại tầng ODS được thực hiện, và tiếp tục như vậy cho đến khi job tại tầng DM hoàn tất Trong trường hợp xảy ra vấn đề trong quá trình chạy, hệ thống sẽ ngừng job và gửi thông báo qua email ngay lập tức.
Hình 3.3 Sơ đồ tải dữ liệu tại EDW
Quá trình bắt đầu với việc job tại tầng STG chạy đầu tiên, nơi dữ liệu từ hệ thống nguồn được tải vào khu vực Staging Nếu có lỗi phát sinh, hệ thống sẽ gửi thông báo qua email và dừng quy trình lại.
Khi các job tại tầng STG và ODS hoàn tất thành công, dữ liệu sẽ được tải vào DWH, đảm bảo tuân thủ các tiêu chuẩn dữ liệu Dữ liệu IFS cần được chuyển vào các bảng đích tại DWH mà không bị mất mát Nếu phát hiện lỗi, hệ thống sẽ gửi thông báo qua email và tạm dừng quy trình.
Sau khi job tại tầng DWH hoàn thành thành công, dữ liệu sẽ được tải lên tầng DM Trong trường hợp phát hiện vấn đề về đối chiếu dữ liệu, hãy gửi thông báo lỗi qua email Nếu job thực hiện thành công, hãy gửi thông báo qua email xác nhận kết quả.
3.1.5 Các ki ểu xử lý load dữ liệu
Khác với ODS, DWH không chỉ lưu trữ dữ liệu hiện tại mà còn cả dữ liệu lịch sử Khi có sự thay đổi ở một bản ghi, DWH cần được cập nhật để phản ánh sự thay đổi đó Trong hệ thống E-banking, sẽ có hai loại SCD được áp dụng là SCD type 1 và SCD type 2.
3.1.5.1 Quá trình x ử lý SCD type 1
Dữ liệu được trích xuất từ ODS sẽ được so sánh với dữ liệu trong DWH dựa trên khóa natural key Nếu tìm thấy bản ghi trùng khớp với DWH, dữ liệu nguồn sẽ được cập nhật vào DWH Ngược lại, nếu không có bản ghi nào trùng khóa natural key, dữ liệu sẽ được thêm mới vào DWH.
Hình 3.4 Sơ đồ xử lý SCD type 1
3.1.5.2 Quá trình x ử lý SCD type 2
Dữ liệu từ ODS được so sánh với dữ liệu tại DWH qua khóa natural key, tương tự như SCD type 1 Nếu không tìm thấy bản ghi nào có cùng khóa, dữ liệu tại ODS sẽ được coi là mới và được chèn vào DWH với effective start date = COB_DT và effective end date = '9999-12-31' Nếu bản ghi đã tồn tại trong DWH, sẽ có hai trường hợp: nếu dữ liệu không thay đổi, quá trình tải dữ liệu sẽ kết thúc; nếu có sự thay đổi, bản ghi mới từ ODS sẽ được thêm vào và bản ghi cũ trong DWH sẽ được cập nhật.
Hình 3.5 Sơ đồ xử lý SCD type 2
N ền tảng sử dụng
3.2.1 H ệ quản trị cơ sở dữ liệu Oracle
Oracle là hệ thống quản lý cơ sở dữ liệu quan hệ do Oracle phát triển, đóng vai trò quan trọng trong công nghệ thông tin của doanh nghiệp Phần mềm này hỗ trợ nhiều nhiệm vụ như xử lý giao dịch, ứng dụng phân tích và hệ thống business intelligence (BI) Tương tự các phần mềm RDBMS khác, Oracle được xây dựng trên nền tảng ngôn ngữ lập trình SQL, ngôn ngữ phổ biến trong quản lý và truy vấn dữ liệu.
Cơ sở dữ liệu Oracle được tích hợp với PL/SQL, là phần mềm do chính Oracle phát triển nhằm mở rộng các tính năng độc quyền cho SQL chuẩn Nó cho phép người dùng lập trình bằng Java và tích hợp các chương trình viết trên PL/SQL, hoặc gọi Java từ ngôn ngữ khác Hệ thống Oracle database kết nối các bảng dữ liệu qua cấu trúc hàng và cột, giúp người dùng không cần lưu trữ dữ liệu trong nhiều bảng mà vẫn đảm bảo khả năng xử lý hiệu quả Điều này góp phần tiết kiệm đáng kể tài nguyên lưu trữ.
Mô hình quan hệ của cơ sở dữ liệu Oracle cung cấp nhiều ràng buộc để đảm bảo tính vẹn toàn và duy trì độ chính xác cao cho dữ liệu Đây là một phần của tính năng ACID, bao gồm các quy tắc về nguyên tử, sự thống nhất, tính độc lập và độ bền dữ liệu ACID được thiết kế nhằm đảm bảo độ tin cậy trong quá trình xử lý giao dịch của hệ thống lưu trữ cơ sở dữ liệu.
IBM® InfoSphere® DataStage® là nền tảng ETL hàng đầu cho việc tích hợp dữ liệu trong các hệ thống doanh nghiệp Nền tảng này có khả năng mở rộng, cung cấp quản lý siêu dữ liệu và kết nối doanh nghiệp hiệu quả Nó hỗ trợ tích hợp dữ liệu không đồng nhất, bao gồm dữ liệu lớn ở trạng thái nghỉ (Hadoop) và dữ liệu lớn đang chuyển động (dựa trên luồng), trên cả nền tảng phân tán và máy tính lớn.
Hình 3.6 Giao di ện IBM InfoSphere DataStage
IBM infosphere bao gồm các giai đoạn (stage) riêng lẻ được liên kết với nhau
Luồng dữ liệu từ nguồn đến đích được mô tả qua ba giai đoạn, như hình ảnh 4.1 Mỗi giai đoạn thường yêu cầu ít nhất một đầu vào và/hoặc một đầu ra dữ liệu Tuy nhiên, một số giai đoạn có thể xử lý nhiều hơn một đầu vào và đầu ra, cho phép tương tác giữa nhiều giai đoạn khác nhau.
Một số stage được sử dụng trong datastage
Thi ết kế Kho dữ liệu
3.3.1 C ấu trúc các bảng tại tầng STG
Cấu trúc các bảng trong hệ thống nguồn bao gồm: CUSSESSIONLOG, lưu trữ thông tin về hoạt động đăng nhập của khách hàng như mã người dùng, mã doanh nghiệp, kênh đăng nhập, loại khách hàng, thời gian đăng nhập và số lần hành động; BLENTERPRISE, chứa thông tin về các tổ chức, công ty lớn sử dụng dịch vụ, bao gồm mã internet banking, mã doanh nghiệp, tình trạng truy cập dịch vụ, mã gói dịch vụ, mã chi nhánh và số đăng ký kinh doanh; và BLCUSTOMER, tập hợp thông tin cá nhân của khách hàng như mã khách hàng, tên, họ, ngày sinh, email, số điện thoại, cùng với trạng thái đăng nhập và thông tin dịch vụ như mã internet banking, mã gói dịch vụ và tên đăng nhập.
Hình 3.7 Các b ảng trên hệ thống nguồn
− Cấu trúc các bảng trên khu vực STG
Hình 3.8 Các b ảng tại tầng STG 3.3.2 C ấu trúc các bảng tại tầng ODS
Cấu trúc các bảng trên khu vực ODS bao gồm: IFS IB IDV REF HIST, chứa dữ liệu từ bảng IBS_BLCustomer với thông tin đăng nhập; IFS IB IDV REF USR, lấy dữ liệu từ bảng IBS_BLCustomer tập trung vào thông tin khách hàng sử dụng dịch vụ; IFS USR LGN DTL, bao gồm dữ liệu từ bảng IBS_CUSSESSIONLOG; và IFS IB CUS NON IDV MSTR, chứa dữ liệu từ bảng IBS_BLENTERPRISE.
Hình 3.9 Các b ảng tại tầng ODS
3.3.3 C ấu trúc các bảng tại tầng DWH
Hình 3.10 Các b ảng tại tầng DWH 3.3.4 C ấu trúc các bảng tại tầng DM
- BRNCH_DIM: lưu trữ dữ liệu về các chi nhánh của ngân hàng
- TM_DIM: lưu trữ dữ liệu thời gian được phân cấp theo yêu cầu phía ngân hàng
- CHNL_DIM: lưu trữ dữ liệu về phương thức truy cập
- UTIL_PRD_DIM: lưu trữ dữ liệu về các dịch vụ, tiện ích
- CUS_AGE_GRP_DIM: lưu trữ dữ liệu về chỉ tiêu từng nhóm tuổi của khách hàng
- CUS_DIM: lưu trữ thông tin về khách hàng
- CUS_TYP_DIM: lưu trữ dữ liệu về loại khách hàng
- VTGE_DIM: lưu trữ dữ liệu về chỉ tiêu thời gian gắn bó của khách hàng
- LGN_TYP_DIM: lưu trữ dữ liệu về phương thức đăng nhập
- IB_TRNS_TIER_DIM: lưu trữ dữ liệu về chỉ tiêu khoảng tiền giao dịch
Xây d ựng quá trình ETL cho phân hệ E-banking
3.4.1 Xây d ựng ETL tại tầng STG
Hệ thống nguồn bao gồm các bảng lưu trữ trên CSDL Oracle 12c, với dữ liệu được lưu trữ tại khu vực tạm thời thông qua quá trình ETL Việc lưu trữ dữ liệu tại STG giúp tránh việc trích xuất lại từ nguồn trong trường hợp có sự cố khi tải dữ liệu vào DWH Quá trình transform tại tầng này tương đối đơn giản, chỉ yêu cầu mapping 1-1 giữa các trường thông tin từ bảng nguồn sang STG, đồng thời bổ sung 3 trường dữ liệu mới trên các bảng tại tầng STG.
COB_DT Ngày tải dữ liệu vào hệ thống
UPDTD_BY Ghi lại tên job
UPDTD_DTM Ghi lại thời gian dữ liệu update lần cuối
Thiết kế job đẩy dữ liệu lên tầng STG
Quá trình ETL tại tầng Source-STG được thực hiện đơn giản, và em sẽ trình bày một demo toàn bộ quá trình này trên một job, sử dụng parallel job để thiết kế Parallel job là quy trình xử lý dữ liệu bao gồm các giai đoạn riêng lẻ, mỗi giai đoạn thực hiện một quy trình cụ thể, chẳng hạn như một giai đoạn trích xuất dữ liệu từ nguồn, trong khi giai đoạn khác thực hiện chuyển đổi Các giai đoạn này được liên kết với nhau bằng các linked Tại tầng STG, chúng ta sử dụng ba giai đoạn chính.
Giai đoạn Transformer cho phép chuyển đổi dữ liệu, với các chuyển đổi có thể đơn giản hoặc phức tạp, áp dụng cho từng cột thuộc tính riêng lẻ Giai đoạn này sử dụng một tập hợp các hàm để hỗ trợ quá trình chuyển đổi dữ liệu.
− Oracle connector: có chức năng kết nối với oracle database và ghi dữ liệu vào CSDL
Hình ảnh toàn bộ job chạy thành công tại tầng STG 1000 bản ghi từ nguồn được đẩy sang khu vực STG
Hình 3.12 Demo đẩy dữ liệu từ Source lên STG
Minh họa cấu hình thông tin Unstructured Data stage của bảng IBS_BLENTERPRISE
Hình 3.13 C ấu hình thông tin tại Unstructured Data stage
Mapping các cột từ nguồn vào các bảng STG trên transformer stage
Hình 3.14 Mapping b ảng BLENTERPRISE tại transformer stage
To configure the Oracle connector for loading data into the target table, specify the connection details to the server, set the data writing mode to insert, and ensure the table action is set to append.
Hình 3.15 C ấu hình thông tin tại Oracle connector 3.4.2 Xây d ựng ETL tại tầng ODS
Tầng ODS thực hiện mapping 1-1 giữa các bảng STG, nhưng có ít trường thông tin hơn và tập trung vào các trường phục vụ cho báo cáo Trong ODS, job được thiết kế với 2 stage: oracle connector và transformer stage.
Hình 3.16 Demo đẩy dữ liệu từ STG sang ODS
Hình 3.17 C ấu hình thông tin kết nối tới bảng dữ liệu tại STG
Hình 3.18 Mapping b ảng IBS_BLENTERPRISE tại transformer stage
Hình 3.19 C ấu hình thông tin connect tại Oracle connector
3.4.3 Xây d ựng ETL tại tầng DWH
Hình 3.20 Demo đẩy dữ liệu từ ODS lên DWH
Ba bảng IB IDV REF USR, USR LGN DTL và IB CUS NON IDV MSTR đều được xử lý theo SCD type 1, với quá trình mapping tại các cột là kéo 1-1 Dưới đây là thông tin về các stage sử dụng cho ba bảng này.
Cấu hình thông tin của Oracle connector kết nối extract dữ liệu tại bảng IFS_IB_IDV_REF_USR
Hình 3.21 C ấu hình thông tin tại Oracle connector
Thông tin mapping các cột của bảng nguồn lên bảng đích tại tầng DWH
Hình 3.22 Mapping b ảng IFS_IB_IDV_REF_USR tại transformer stage
In the Oracle Connector's connection settings, the data writing mode is set to "Update and Insert," while the loading action is configured as "Append," allowing data to be processed in accordance with Slowly Changing Dimension (SCD) Type 1.
Hình 3.23 C ấu hình Oracle connect kết nối load dữ liệu tại bảng
Bảng IB_IDV_REF_USR_HIST tại tầng DWH là bảng duy nhất được xử lý theo SCD type 2 Trong bài viết này, tôi sẽ trình bày chi tiết về cách xử lý SCD type 2 tại bảng IB_IDV_REF_USR_HIST.
Hình 3.24 Hình ảnh job chạy cho bảng IB_IDV_REF_USR_HIST
Bảng nguồn (IFS_IB_IDV_REF_USR_HIST) left join với bảng đích
(IB_IDV_REF_USR_HIST) thông qua khóa INTNET_BNK_ID (đây là natural key) Khi đó sẽ xảy ra 2 trường hợp
− Nếu cột INTNET_BNK_ID null thì bản ghi là bản ghi mới cần được insert vào bảng đích
− Nếu cột INTNET_BNK_ID not null thì bản ghi cần được insert bản ghi mới và đồng thời update bản ghi cũ
Dữ liệu kết hợp từ hai bảng trong giai đoạn Transformer sẽ thực hiện việc ánh xạ và phân chia dữ liệu theo hai trường hợp: một là dữ liệu được cập nhật trực tiếp vào bảng đích, hai là dữ liệu mới cần được chèn vào, yêu cầu thêm giai đoạn Surrogate để tự động tạo khóa.
− Kết quả chạy thử dữ liệu
− Dữ liệu trên bảng nguồn:
Hình 3.26 D ữ liệu sau khi bị thay đổi
Sau khi cập nhật dữ liệu trên bảng nguồn và thực hiện lại job, chỉ một bản ghi thay đổi sẽ được lọc và extract để so sánh với bảng đích Kết quả là bản ghi vừa thay đổi sẽ được insert và update vào bảng đích Hình ảnh minh họa cho việc job chạy thành công sau khi dữ liệu trên bảng nguồn được cập nhật.
Hình 3.27 Hình ảnh job sau khi cập nhật lại dữ liệu bảng nguồn
The target table data involves inserting new records from the source with a flag set to 'Y' and an effective start date (EFF_STRT_DT) equal to the current date, while the effective end date (EFF_END_DT) is set to "9999-12-31" Simultaneously, the old records are updated with a flag set to 'N' and an effective end date of the previous day (EFF_END_DT = sysdate - 1).
Hình 3.28 D ữ bảng đích sau khi thay đổi dữ liệu 3.4.4 Xây d ựng ETL tại tầng DTM
Do tính chất nghiệp vụ và quy trình xử lý logic phức tạp của các bảng tầng DTM, bài viết này sẽ trình bày chi tiết quá trình ETL cho từng bảng, bao gồm bảng IB_USER_DIMENSION và bảng IB_TRNS_DTL_FACT Ngoài ra, sẽ có một phần demo chung cho các bảng có quy trình ETL tương tự như bảng LGN_TYP_DIM, IB_VTGE_DIM và IB_TRNS_TIER_DIM.
3.4.4.1 Quá trình ETL t ại các bảng LGN TYP DIM, IB VTGE DIM, IB TRNS TIER DIM
Các bảng LGN TYP DIM, IB VTGE DIM và IB TRNS TIER DIM đều có chung đặc điểm là chứa các chỉ tiêu ngân hàng yêu cầu với dữ liệu ít thay đổi Do đó, các bảng này sẽ được đổ trực tiếp vào tầng DTM mà không cần trải qua quy trình ETL ở các tầng dưới.
Minh họa dữ liệu của bảng IB_VTGE_DIM tại file mapping
Hình 3.29 Minh h ọa dữ liệu file mapping bảng IB_VTGE_DIM Để xây dựng job kéo dữ liệu em sử dụng 4 stage là
− Unstructured Data stage: được để xem dữ liệu nguồn và trích xuất dữ liệu từ file excel
− Transformer stage: Chuyển đổi tên các cột, định dạng các cột và mapping dữ liệu từ nguồn vào đích
− Surrogate key stage: có chức năng tạo khóa tự sinh một cách tự động
− Oracle connector: kết nối tới DB nguồn load dữ liệu vào bảng đích
Hình 3.30 Demo đẩy dữ liệu cho bảng LGN TYP DIM, IB VTGE DIM, IB TRNS
Hình 3.31 C ấu hình thông tin trên Unstructured Data stage
Hình 3.32 Mapping b ảng IB_VTGE_DIM tại transformer stage
Hình 3.33 C ấu hình thông tin trên Surrogate key stage
Để tích hợp dữ liệu vào kho dữ liệu, quá trình ETL tại bảng IB_USER_DIMENSION yêu cầu xây dựng các quy tắc ánh xạ dữ liệu từ nguồn đến đích Điều này bao gồm một bảng ánh xạ logic với thông tin chi tiết như tên bảng và cột nguồn/đích, định dạng dữ liệu, điều kiện xử lý, cũng như logic tải và chuyển đổi dữ liệu Bảng ánh xạ này được thiết kế nhằm thể hiện rõ ràng quá trình tải dữ liệu từ bảng nguồn sang bảng đích.
Hình 3.35 Mô hình ánh x ạ dữ liệu tại bảng IB_USER_ DIMENSION
Dựa vào bảng ánh xạ logic, job sẽ được thiết kế cho quá trình ETL tại bảng IB_USER_ DIMENSION như sau:
Hình 3.36 Demo quá trình đẩy dữ liệu thành công vào bảng IB_USER_
Dựa trên công cụ Data Stage, các mối liên hệ logic giữa các bảng được thiết kế và mô phỏng vật lý thông qua các công cụ hỗ trợ Trong phần này, em sẽ trình bày logic của các câu lệnh SQL được thiết kế trong các stage.
Hình 3.37 Minh h ọa 1 thiết kế job cho bảng bảng IB_USER_ DIMENSION
Hình 3.38 Minh h ọa 2 thiết kế job cho bảng bảng IB_USER_ DIMENSION
Hình 3.39 Minh h ọa 3 thiết kế job cho bảng bảng IB_USER_ DIMENSION
Chạy thử dữ liệu xử lý type 2 với Change capture:
- Dữ liệu trên bảng nguồn:
Hình 3.40 D ữ liệu ban đầu trên bảng IB_IDV_REF_USR
Hình 3.41 D ữ liệu sau khi thay đổi cột GLOB_BRNCH_CD
- Dữ liệu trên bảng đích:
Hình 3.42 D ữ liệu ban đầu trên bảng đích IB_USER_ DIMENSION
Hình 3.43 D ữ liệu sau khi cập nhật lại tại bảng IB_USER_ DIMENSION 3.4.4.3 Quá trình ETL t ại bảng IB_TRNS_DTL_FACT
Thi ết kế sequence job
Sequence job là quy trình cho phép thực hiện nhiều parallel job một cách tuần tự hoặc song song Việc sử dụng sequence giúp giảm thiểu sự phức tạp trong thiết kế khi phải quản lý nhiều job khác nhau trên cùng một parallel Ngoài ra, sequence job còn hỗ trợ tích hợp các phân nhánh điều kiện và vòng lặp để tối ưu hóa quy trình chạy job.
Dựa trên cơ chế hoạt động của sequence job, tôi sẽ thiết kế một sequence job để thực hiện toàn bộ các job đã được thiết kế ở các tầng được trình bày trong các mục trước đó.
3.5.1, 3.5.2, 3.5.3, 3.5.4 và theo cách xử lý gửi thông báo lỗi tại mục 3.1.14 Sequence job sẽ được thiết kế như sau:
Khi một job gặp lỗi, hệ thống sẽ gửi thông báo cho biết job đã thất bại ở tầng nào Ngược lại, khi tất cả các job hoàn thành thành công, một email sẽ được gửi để thông báo rằng tất cả các job đã chạy thành công.
Hình 3.46 Thông báo g ửi gmail chạy lỗi
Demo d ữ liệu tại các tầng
Hình 3.48 D ữ liệu bảng IBS_CUSSESSIONLOG
Hình 3.49 D ữ liệu bảng IBS_BLENTERPRISE
Hình 3.50 D ữ liệu bảng IBS_BLCUSTOMER 3.6.2 D ữ liệu tầng ODS
− Bảng IFS_IB_IDV_REF_USR:
Hình 3.51 D ữ liệu bảng IFS_IB_IDV_REF_USR
− Bảng IFS_IB_IDV_REF_USR_HIST:
Hình 3.52 D ữ liệu bảng IFS_IB_IDV_REF_USR_HIST
− Bảng IFS_IB_CUS_NON_IDV_MSTR:
Hình 3.53 D ữ liệu bảng IFS_IB_CUS_NON_IDV_MSTR
− Bảng IFS_USR_LGN_DTL:
Hình 3.54 D ữ liệu bảng IFS_USR_LGN_DTL 3.6.3 D ữ liệu tầng DWH
− Bảng IB_IDV_REF_USR:
Hình 3.55 D ữ liệu bảng IB_IDV_REF_USR
− Bảng IB_IDV_REF_USR_HIST:
Hình 3.56 D ữ liệu bảng IB_IDV_REF_USR_HIST
− Bảng IB_CUS_NON_IDV_MSTR:
Hình 3.57 D ữ liệu bảng IB_CUS_NON_IDV_MSTR
Hình 3.58 D ữ liệu bảng USR_LGN_DTL 3.6.4 D ữ liệu tầng DM
Hình 3.59 D ữ liệu bảng VTG_DIM
Hình 3.60 D ữ liệu bảng LGN_TYP_DIM
− Bảng IB_TRNS_TIER_DIM:
Hình 3.61 D ữ liệu bảng IB_TRNS_TIER_DIM
Hình 3.62 D ữ liệu bảng IB_USER_DIMENSION
− Bảng IB_TRNS_DTL_FACT:
Hình 3.63 D ữ liệu bảng IB_TRNS_DTL_FACT
K ết luận chương 3
Chương 3 đã trình bày kiến trúc tổng thể của dự án, quá trình load dữ liệu từ các tầng, quá trình chạy job và gửi thông báo, cách xử lý SCD type 1,2, giới thiệu các công cụ sử dụng và quá trình xây dựng chi tiết ETL tại mỗi tầng, cách xử lý dữ liệu tại mỗi tầng Đồng thời trình bày cách thiết kế sequence job cho dự án.
XÂY DỰNG BÁO CÁO CHO HỆ THỐNG E-BANKING
Cognos Business Intelligence cung cấp hệ thống báo cáo mạnh mẽ, cho phép khách hàng khai thác dữ liệu từ nhiều nguồn khác nhau và chuyển đổi chúng thành thông tin có giá trị để hỗ trợ quyết định chính xác và hiệu quả Là giải pháp BI hàng đầu thế giới, Cognos giúp tạo báo cáo, dự báo, phân tích giả lập và quản lý hiệu suất doanh nghiệp Bên cạnh đó, Cognos BI còn hỗ trợ khách hàng trong việc lập kế hoạch chiến lược, quản lý tài chính và điều hành các hoạt động kinh doanh một cách hiệu quả.
Các chức năng của Cognos:
Báo cáo và phân tích là công cụ mạnh mẽ, cho phép tạo ra mọi loại báo cáo phục vụ cho đa dạng đối tượng người dùng, đáp ứng đầy đủ nhu cầu báo cáo Giao diện của hệ thống linh hoạt thay đổi theo mức độ phân quyền của từng người dùng, đồng thời có khả năng phân tích khối lượng lớn dữ liệu, bao quát toàn bộ hoạt động kinh doanh.
Đo lường và đánh giá hiệu quả hoạt động là rất quan trọng, giúp kết nối hành động thực tế với chiến lược thông qua các chỉ số và bản đồ chiến lược Điều này cho phép điều chỉnh kế hoạch nhằm phục vụ quản trị hoạt động kinh doanh tổng thể một cách hiệu quả.
Dashboards cung cấp cái nhìn tổng quát về hoạt động kinh doanh thông qua báo cáo, bản đồ, biểu đồ và scorecards, giúp rút ngắn thời gian ra quyết định.
Quản trị sự kiện là quá trình quản lý toàn bộ các hoạt động từ khởi đầu đến khi kết thúc, đảm bảo rằng tất cả các thành viên và hệ thống đều thực hiện đúng các thao tác cần thiết vào thời điểm phù hợp.
4.2 Thi ết kế báo cáo và biểu mẫu
Dựa trên dữ liệu từ DTM và công cụ Cognos, tôi sẽ xây dựng một số báo cáo theo yêu cầu nghiệp vụ và mẫu template mà ngân hàng cung cấp.
Báo cáo phân tích E-banking theo thời gian gắn bó với ngân hàng cung cấp thông tin chi tiết về tổng số lượng khách hàng, tổng giá trị giao dịch và tổng số lần giao dịch theo từng chỉ tiêu thời gian gắn bó Thông qua báo cáo này, người dùng có thể nhận diện các biến đổi trong giá trị giao dịch và tần suất giao dịch của khách hàng, từ đó đánh giá xem liệu khách hàng có tiếp tục gia tăng thời gian gắn bó với dịch vụ hay không.
Hình 4.1 Báo cáo phân tích theo th ời gian gắn bó với ngân hàng
Báo cáo giá trị giao dịch trong quý 1:
Báo cáo sẽ phân tích giá trị giao dịch của từng loại khách hàng dựa trên các tiêu chí như nhóm tuổi, chi nhánh, mã khách hàng và loại dịch vụ Nó sẽ chỉ ra khoảng giá trị giao dịch cao nhất cho từng phân khúc khách hàng.
Hình 4.2 Báo cáo giá tr ị giao dịch trong quý 1
Bài khóa luận “Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống E-banking tại Ngân hàng TMCP Công Thương Việt Nam” đã phát triển quy trình ETL để chuyển dữ liệu từ hệ thống nguồn lên DTM, đồng thời thiết kế các báo cáo và biểu mẫu hỗ trợ quyết định Việc xây dựng kho dữ liệu đã khắc phục những hạn chế trong khai thác dữ liệu từ CSDL tác nghiệp, tích hợp dữ liệu từ nhiều nguồn khác nhau và tối ưu hóa hệ thống báo cáo của ngân hàng Kết quả đạt được sau khi thực hiện nghiên cứu này rất khả quan.
− Từ những kiến thức đã được trao dồi trên học viện áp dụng vào thiết kế quy trình ETL luồng dữ liệu cho hệ thống E-banking
− Xuất báo cáo từ dữ liệu tại tầng DTM thông qua công cụ cognos hỗ trợ cho việc phân tích và ra quyết định quản trị
− Hiểu biết thêm về các nghiệp vụ trong ngân hàng, tiếp cận gần hơn với thực tế bài toán cho công việc sau này
Sử dụng thành thạo các công cụ ETL và báo cáo phổ biến như IBM InfoSphere DataStage và IBM Cognos Analytics là rất quan trọng Tuy nhiên, đề tài này vẫn gặp một số hạn chế cần được khắc phục.
− Kết quả báo cáo đạt được chưa thể thể hiện hết các dữ liệu cần phân tích, đáp ứng đủ nhu cầu của nhà quản trị
Do yêu cầu bảo mật dữ liệu ngân hàng, tôi không thể công khai toàn bộ thông tin Vì vậy, dữ liệu trong báo cáo có thể không hoàn toàn chính xác so với thực tế.
Hướng phát triển trong tương lai
− Tối ưu hiệu suất các job trên tool Datastage, tối ưu hóa các câu lệnh SQL cải thiện tốc độ truy cập, trích xuất, tải dữ liệu hơn
− Xuất ra nhiều báo cáo linh động, trực quan hơn, có giá trị phân tích, so sánh, dự báo cho người dùng
− Tạo điều kiện kiểm tra xem job có đúng thực sự chạy thành công hay không