Cơ sở khoa học và thực tiễn của đề tài Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanhnghiệp nào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
Nguyễn hoài nam
HỖ TRỢ HỆ THỐNG RA QUYẾT ĐỊNH CỦA HOẠT ĐỘNG TÍN DỤNG
TRONG NGÂN HÀNG
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý hệ thống thông tin
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2013
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.Các số liệu, kết luận được đưa ra trong luận văn là trung thực,có nguồn gốc rõ ràng
Tác giả luận văn
Nguyễn hoài nam
Trang 3LỜI CẢM ƠN
Để hoàn thành được hoàn thành được công trình nghiên cứu này, ngoài sự nỗlực của bản thân, tác giả còn nhận được sự giúp đỡ rất lớn từ PGS.TS ………,người đã luôn quan tâm, trách nhiệm và nhiệt tình hướng dẫn, giúp đỡ, động viên tácgiả trong quá trình thực hiện nghiên cứu của mình Tác giả xin gửi lời cảm ơn chânthành tới PGS.TS ………
Tác giả cũng xin trân trọng cảm ơn các thầy, cô trong Viện Cộng nghệ thông tin– Đại học Quốc Gia Hà Nội, các bạn đồng nghiệp, lãnh đạo và cán bộ nhân viên Ngânhàng Nông nghiệp và phát triển Nông thôn Việt Nam và các bạn lớp Cao học CIO2 đãgiúp đỡ tác giả trong suốt thời gian học tập và nghiên cứu luận văn của mình
Để đạt được những kết quả nghiên cứu tốt hơn trong tương lai, tác giả rất mongtiếp tục nhận được sự hướng dẫn, giúp đỡ của các nhà chuyên môn, của các thầy côtrong Viện Công nghệ thông tin – Đại học Quốc Gia Hà Nội về phương pháp luận,cách thức tiếp cận khoa học và hợp lý
Tác giả luận văn
Lê Mạnh Tuấn
Trang 4MỤC LỤC
PHẦN MỞ ĐẦU 7
CHƯƠNG I HIỆN TRẠNG VỀ HỆ THỐNG CSDL VÀ HỆ THỐNG BÁO CÁO HIỆN TẠI NHNo&PTNT VIỆT NAM 9
1.1 Tổng quan NHNo&PTNT Việt Nam 9
1.1.1 Sơ lược về NHNo&PTNT Việt Nam 9
1.1.2 Lịch sử hình thành, phát triển của NHNo&PTNT Việt Nam 9
1.2 Hiện trạng hệ thống báo cáo và khai thác dữ liệu tại NHNo&PTNT Việt Nam 10 CHƯƠNG II GIỚI THIỆU VỀ KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH (DATA WAREHOUSE & BI) 11
2.1 Các khái niệm cơ bản 11
2.1.1 Data Warehouse và BI là gì? 11
2.1.2 Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI 12
2.1.3 Phân biệt giữa hệ thống OLTP và hệ thống DSS 13
2.2 Các phương pháp luận xây dựng hệ thống DW&BI 13
2.2.1 Phương pháp luận Top-down 14
2.2.2 Phương pháp luận Bottom-up 14
2.2.3 Phương pháp luận Spiral 14
2.2.4 Ưu/Nhược điểm của từng phương pháp 15
2.2.5 Cơ sở lựa chọn phương pháp luận 16
CHƯƠNG III THIẾT KẾ MỘT HỆ THỐNG DATA WAREHOUSE VÀ BI 17
3.1 Thiết kế logic một hệ thống DW và BI 17
3.1.1 Phạm vi công việc và phương pháp thực hiện của giai đoạn Thiết kế logic 17 3.1.2 Thiết kế tổng thể 18
3.1.3 Thiết kế chi tiết từng thành phần 20
3.2 Thiết kế vật lý một hệ thống DW và BI 31
3.2.1 Phạm vi công việc và phương pháp thực hiện của giai đoạn Thiết kế vật lý 31 3.2.2 Thiết kế mô hình vật lý của hệ thống 33
3.2.3 Thiết kế vật lý các CSDL trong DW 34
3.2.4 Thiết kế chi tiết tiến trình ETL 35
3.2.5 Thiết kế vật lý tầng BI 39
3.2.6 Dự báo tăng trưởng dữ liệu 40
3.2.7 Lập yêu cầu về cấu hình phần cứng 41
CHƯƠNG IV PHÂN TÍCH THIẾT KẾ DATA WAREHOUSE VÀ BI TẠI NHNo&PTNN VIỆT NAM 42
4.1 Phân tích hệ thống 42
4.1.1 Kiến trúc vật lý hệ thống CSDL tại NHNo&PTNT Việt Nam 42
4.1.2 Kiến trúc logic CSDL phần nghiệp vụ tín dụng 42
KẾT LUẬN 43
TÀI LIỆU THAM KHẢO 44
PHỤ LỤC 45
Trang 5DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
1 NHNo&PTNN Ngân hàng Nông nghiệp và Phát triển
Nông thôn Việt Nam
5 BI Hệ thống hỗ trợ ra quyết định (Business
Intelligence)
6 DW&BI Data Warehouse và Business Intelligence
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 2.1.1: Vai trò của DW&BI 11
Hình 2.1.2: Các thành phần chính của DW&BI 12
Hình 2.2.1: Các phương pháp luận xây dựng DW&BI 14
Hình 3.1.1: Mô hình logic tổng thể của hệ thống DW&BI 18
Hình 3.1.2: Star schema (CSDL hình sao) 20
Hình 3.1.3: Snowflake schema (CSDL hình bông tuyết) 21
Hình 3.1.4: Một ví dụ về Data Mart 24
Hình 3.1.5: Một ví dụ về Enterprise Model 27
Trang 6PHẦN MỞ ĐẦU
1. Cơ sở khoa học và thực tiễn của đề tài
Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanhnghiệp nào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiếnlược kinh doanh cho mình một cách chính xác
Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầuquản lý, lưu trữ thông tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều
và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý
Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùnglớn Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu đểcung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanhtrở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinhdoanh có chất lượng cao và ổn định
Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lýphân tích dữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiếnlược kinh doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu
Tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam việc xây dựngkho dữ liệu và hệ thống hỗ trợ ra quyết định về hoạt động tín dụng là rất cần thiết Khodữ liệu sẽ thu thập dữ liệu từ hệ thống nghiệp vụ, cung cấp các thông tin hữu ích chocác nhà quản lý có thể có những thông tin chính xác, nhanh chóng, hỗ trợ cho việc racác quyết định kịp thời và có lợi nhất cho hoạt động tín dụng của NHNo Ngoài ra, khodữ liệu còn hỗ trợ trong công việc quản trị rủi ro tín dụng – một vấn đề hết sức quantrọng trong bối cảnh khó khăn hiện tại của các ngân hàng
Xuất phát từ nhu cầu thực tế tại NHNo, luân văn sẽ thực hiện “HỖTRỢ HỆ THỐNG RA QUYẾT ĐỊNH CỦA HOẠT ĐỘNG TÍN DỤNG TRONG
3. Phạm vi và Đối tượng của đề tài:
- Đối tượng nghiên cứu: Các văn bản, dữ liệu có liên quan đến hoạt động tíndụng tại NHNo
Trang 7- Phạm vi áp dụng: đề tài được áp dụng cho hoạt động tín dụng tại NHNo.
4. Kết quả của đề tài
Bản thiết kế logic, thiết kế vật lý kho dữ liệu và hệ thống hỗ trợ ra quyết định về
các hoạt động tín dụng của NHNo Xây dựng kho dữ liệu với mẫu dữ liệu thực tế, đưa
ra các báo cáo cho người dùng cuối
5 Kết cấu của đề tài
Đề tài được kết cấu gồm 5 phần (chương) chính trong đó:
Chương II: Giới thiệu về kho dữ liệu và hệ thống hỗ trợ ra quyết định.
Nội dung chính của chương này trình bầy các khái niệm cơ bản về kho dữ liệu
và hệ thống hỗ trợ ra quyết định, các phương pháp luận và cơ sở lựa chọn phươngpháp luận để xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định
Chương III: Thiết kế một hệ thống Data Warehouse và BI.
Nội dung chính của chương này là đưa ra các bước cụ thể trong việc thiết kếlogic và thiết kế vật lý một kho dữ liệu và hệ thống hỗ trợ ra quyết định
Chương IV: Phân tích thiết kế hệ thống DW&BI tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam.
Mục tiêu của chương này là đưa ra bản thiết kế logic, bản thiết kế vật lý để xâydựng kho dữ liệu và hệ thống hỗ trợ ra quyết định trong các hoạt động tín dụng tạiNHNo
Phần kết luận: Kết luận tổng thể về luận văn
Đưa ra những điều làm được, những điều chưa làm được và hướng phát triểncủa luận văn
Trang 8CHƯƠNG I HIỆN TRẠNG VỀ HỆ THỐNG CSDL VÀ HỆ THỐNG BÁO
1.1 Tổng quan NHNo&PTNT Việt Nam
1.1. Sơ lược về NHNo&PTNT Việt Nam
Tên tiếng Việt: Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam
Tên giao dịch quốc tế: Vietnam Bank for Agriculture and Rural Development Tên viết tắt: Agribank (AGR)
Vốn điều lệ: 29,605,000,000,000 VND (Hai mươi chín nghìn sáu trăm linh năm
tỷ đồng Việt Nam)
1.2. Lịch sử hình thành, phát triển của NHNo&PTNT Việt Nam
Năm 1988, Ngân hàng Phát triển nông nghiệp Việt Nam được thành lập theoNghị định số 53/HĐBT ngày 26/3/1988 của Hội đồng Bộ trưởng (nay là Chính phủ) vềviệc thành lập các ngân hàng chuyên doanh, trong đó có Ngân hàng Phát triển nôngnghiệp Việt Nam hoạt động trong lĩnh vực nông nghiệp, nông thôn
Ngày 14/11/1990, Chủ tịch Hội đồng Bộ trưởng (nay là Thủ tướng Chính phủ)
ký Quyết định số 400/CT thành lập Ngân hàng Nông nghiệp Việt Nam thay thế Ngânhàng Phát triển nông nghiệp Việt Nam Ngân hàng Nông nghiệp Việt Nam là ngânhàng thương mại đa năng, chuyển hẳn sang kinh doanh tiền tệ, tín dụng và dịch vụngân hàng đối với các thành phần kinh tế, chủ yếu trong lĩnh vực nông, lâm, ngư, diêmnghiệp; là một pháp nhân, hạch toán kinh tế độc lập, tự chủ, tự chịu trách nhiệm vềhoạt động của mình trước pháp luật Vốn điều lệ của Ngân hàng Nông nghiệp ViệtNam thời điểm này là 200 tỷ đồng; thời gian hoạt động 99 năm
Ngày 15/11/1996, được Thủ tướng Chính phủ ủy quyền, Thống đốc Ngân hàngNhà nước Việt Nam ký Quyết định số 280/QĐ-NHNN đổi tên Ngân hàng Nôngnghiệp Việt Nam thành Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam
Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam hoạt động theo môhình tổng công ty 90, là doanh nghiệp nhà nước hạng đặc biệt, hoạt động theo Luật các
Trang 9tổ chức tín dụng và chịu sự quản lý trực tiếp của Ngân hàng Nhà nước Việt Nam Vớitên gọi mới, ngoài chức năng của một ngân hàng thương mại, Ngân hàng Nông nghiệp
và Phát triển nông thôn Việt Nam được xác định thêm nhiệm vụ đầu tư phát triển đốivới khu vực nông thôn thông qua việc mở rộng đầu tư vốn trung, dài hạn để xây dựng
cơ sở vật chất kỹ thuật cho sản xuất nông, lâm nghiệp, thủy hải sản góp phần thực hiệnthành công sự nghiệp công nghiệp hóa - hiện đại hóa nông nghiệp nông thôn
Năm 2011, thực hiện Quyết định số 214/QĐ-NHNN, ngày 31/01/2011, củaThống đốc Ngân hàng Nhà nước Việt Nam, Ngân hàng Nông nghiệp và Phát triểnnông thôn Việt Nam (Agribank) chuyển đổi hoạt động sang mô hình Công ty tráchnhiệm hữu hạn một thành viên do Nhà nước làm chủ sở hữu 100% vốn điều lệ Tháng11/2011, Agribank được Chính phủ phê duyệt cấp bổ sung 8.445,47 tỷ đồng, nângtổng số vốn điều lệ của Agribank lên 29.605 tỷ đồng, tiếp tục là ngân hàng thương mạicó vốn điều lệ lớn nhất Việt Nam
Năm 2012, vượt lên khó khăn của tình hình kinh tế thế giới và trong nước, hoạt
động kinh doanh của Agribank tiếp tục phát triển ổn định Tổng tài sản có củaAgribank đạt 617.859 tỷ đồng (tương đương 20% GDP), tăng 10% so với năm 2011, làNgân hàng Thương mại có quy mô tổng tài sản lớn nhất, các tỷ lệ an toàn hoạt độngkinh doanh được đảm bảo, tỷ lệ nợ xấu được kiểm soát giảm dần
Trong năm 2012, Agribank được trao tặng các giải thưởng: Top 10 doanhnghiệp lớn nhất Việt Nam - VNR500; Doanh nghiệp tiêu biểu ASEAN; Thương hiệunổi tiếng ASEAN; Ngân hàng có chất lượng thanh toán cao; Ngân hàng Thương mạithanh toán hàng đầu Việt Nam
1.2 Đánh giá hệ thống báo cáo và khai thác dữ liệu tại NHNo&PTNT Việt Nam
Hệ thống cơ sở dữ liệu hiện tại của NHNo là cở sở dữ liệu tập trung Sau mộtthời gian hoạt đông từ sau khi triển khai hệ thống IPCASII (năm 2009) tới nay, dữ liệucủa hệ thống ngày một gia tăng Hiện tại hầu hết các bảng nghiệp vụ đều có hơn 20triệu dòng dữ liệu Với lượng dữ liệu lớn như vậy, việc khai thác dữ liệu gặp một sốkhó khăn:
- Do dữ liệu ngày càng gia tăng vì thế tốc độ xử lý các truy vấn đểtạo báo cáo bị chậm
- Tổ chức dữ liệu theo mô hình cơ sở dữ liệu quan hệ khiến choviệc truy vấn dữ liệu không linh hoạt Với những câu hỏi nghiệp vụ phức tạpviệc truy vấn là rất khó khăn và thời gian xử lý chậm
- Một số báo cáo đang tổng hợp dữ liệu trực tiếp từ hệ thống, đấy
là dữ liệu nghiệp vụ chưa qua xử lý, còn dư thừa nhiều, không phù hợp với một
hệ thống báo cáo và phân tích số liệu
Trang 10Ngoài hệ thống cơ sở dữ liệu tác nghiệp, NHNo còn xây dựng một cơ sở dữ liệuphục vụ riêng cho công việc tạo báo cáo Hệ thống này được gọi là MIS (hệ thốngthông tin báo cáo tập trung) Cuối mỗi ngày hệ thống tác nghiệp thực hiện các tác vụtự động đẩy dữ liệu sang hệ thống MIS Các báo cáo sẽ tổng hợp dữ liệu từ hệ thốngMIS để tránh ảnh hưởng đến hoạt động của hệ thống tác nghiệp trong giờ hành chính.
Ta có thể thấy hệ thống báo cáo như vậy gặp một số vấn đề như sau:
- Dữ liệu của hệ thống MIS vẫn là dữ liệu thô, chưa qua xử lý
- Dữ liệu không phải là dữ liệu mới nhất trên hệ thống tác nghiệp,
do cuối mỗi ngày mới đẩy dữ liệu từ hệ thống tác nghiệp sang hệ thống MIS
- Dữ liệu của hệ thống MIS sẽ ngày một nhiều, gây khó khăn chocông việc tạo báo cáo
1.3 Tại sao cần xây dựng DW&BI tại NHNo&PTNT Việt Nam
Qua đánh giá sơ bộ về hệ thống cơ sở dữ liệu và hệ thống báo cáo hiện tại củaNHNo có thể nhận thấy:
- Hệ thống báo cáo hiện tại là một hệ thống mang tính giải pháptình thế, nhằm giảm tải cho hệ thống tác nghiệp
- Chưa đáp ứng được nhu cầu phân tích số liệu của NHNo ví dụnhư phân tích tình hình nợ xấu hàng năm, dự báo tình hình nợ xấu của năm sau
- Chưa hỗ trợ được các nhà quản lý trong việc đưa ra quyết địnhkinh doanh
Do đó việc xây dựng kho dữ liệu tại NHNo là hoàn toàn cần thiết Đáp ứng nhucầu thực tế, giải quyết các khó khăn hiện tại trong công việc phân tích dữ liệu và hỗ trợlãnh đạo đưa ra những quyết định có lợi cho NHNo
Trang 11CHƯƠNG II GIỚI THIỆU VỀ KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA
QUYẾT ĐỊNH (DATA WAREHOUSE & BI).
2.1 Các khái niệm cơ bản
1.3. Data Warehouse và BI là gì?
1.1.1.1 Data Warehouse
Data Warehouse (viết tắt là DW, còn gọi là Kho Dữ Liệu) là hệ thống tập trungdữ liệu nhằm mục đích khai thác, phân tích thông tin và hỗ trợ quyết định, với các đặctrưng về mặt dữ liệu là: tích hợp, hướng chủ đề, tích lũy theo thời gian và bất biến
1.1.1.2 Business Intelligence (BI)
Business Intelligence (viết tắt là BI) là tầng ứng dụng khai thác dữ liệu và phântích thông tin từ các nguồn dữ liệu khác nhau mà tiêu biểu trong đó chính là các DWvới thiết kế CSDL đa chiều (OLAP) Tầng ứng dụng BI này bao gồm các dữ liệumetadata, các chương trình ứng dụng, các công cụ phần mềm… nhằm mục đích đưacác kết quả báo cáo, phân tích nghiệp vụ,… đến trực tiếp các người dùng cuối (nhữngcán bộ nghiệp vụ, các lãnh đạo,…)
1.1.1.3 Vai trò của DW&BI
Vai trò của DW&BI trong việc cung cấp thông tin hỗ trợ quyết định được minhhọa như dưới đây:
Business Intelligent
Hình 2.1.1: Vai trò của DW&BI
Trang 121.1.1.4 Các thành phần chính của một hệ thống DW&BI
Các thành phần chính của một hệ thống DW&BI được minh họa ở hình 2.1.2,
bao gồm:
- Data Sources (Dữ liệu nguồn): bao gồm các CSDL của các hệ thống tác nghiệp,
các dữ liệu dạng file,…
- Data Warehouse (Kho dữ liệu tập trung): bao gồm CSDL tích hợp và các
CSDL chủ đề
- BI:tầng ứng dụng khai thác và phân tích thông tin hỗ trợ quyết định; các
end-user tương tác với hệ thống qua tầng BI này
- Administration: Metadata và quản trị hệ thống.
reports
information
knowledge CSDL tích hợp
CSDL chủ đề
CSDL chủ đề
CSDL chủ đề Files
CSDL tác nghiệp
CSDL tác nghiệp
Administration (Metadata và quản trị hệ thống)
Hình 2.1.2: Các thành phần chính của DW&BI
1.4. Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI
Một hệ thống DW bao gồm 4 đặc trưng về mặt dữ liệu, bao gồm: tích hợp,hướng chủ đề, tích lũy theo thời gian, bất biến
- Tích hợp (Integrated): Dữ liệu của DW được tập hợp về từ các nguồn khác
nhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu,…
- Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu trữ
theo các chủ đề nghiệp vụ mà người khai thác quan tâm
- Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch sử, theo
dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các dữliệu sẽ phát sinh trong tương lai
Trang 13- Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng
read-only và rất hiếm khi thay đổi (không update, không delete) DW chính là nhữngCSDL được thiết kế cho mục đích Khai thác và Phân tích thông tin (query, truyvấn) chứ không phải mục cập nhật (update, delete) như trong CSDL của cácứng dụng tác nghiệp
1.5. Phân biệt giữa hệ thống OLTP và hệ thống DSS
- OLTP (OnLine Transaction Processing): Hệ thống xử lý giao dịch trực tuyến.Đặc trưng của các ứng dụng OLTP là các tác vụ tự động ghi chép dữ liệu để xử
lý các nghiệp vụ của một tổ chức như ghi nhận đơn đặt hàng hoặc các giao dịchngân Các tác vụ này thường đọc hoặc cập nhật một vài dòng dữ liệu dựa trênkhoá chính của chúng Những tác vụ đó có cấu trúc, được lặp lại, bao gồm cácgiao dịch ngắn, tối giản và tách biệt, yêu cầu dữ liệu chi tiết và mới nhất Các
cơ sở dữ liệu tác nghiệp có kích thước từ vài trăm megabyte đến hàng gigabyte
và chỉ lưu trữ các dữ liệu hiện hành (vòng đời dữ liệu ngắn) Cơ sở dữ liệu cótính nhất quán, khả năng phục hồi cao
- DSS (Decision Support System): Hệ thống hỗ trợ quyết định
Phân biệt giữa Hệ thống OLTP và Hệ thống DSS:
Thời gian đáp ứng
một thao tác người
dùng
Dưới 1 giây đến hàng giây Từ hàng giây đến hàng giờ
Loại thao tác với
Phạm vi dữ liệu 30 - 60 ngày Tích lũy theo thời gian
Tổ chức dữ liệu Theo chương trình ứng
dụng
Theo thời gian, theo chủ đề
Quy mô dữ liệu Nhỏ đến lớn Lớn đến rất lớn
Nguồn dữ liệu Dữ liệu tác nghiệp, dữ liệu
bên trong
Dữ liệu tác nghiệp, dữ liệu bên trong, bên ngoài
Hoạt động Xử lý, tác động lên dữ liệu Phân tích trên dữ liệu
2.2 Các phương pháp luận xây dựng hệ thống DW&BI
Có nhiều phương pháp tiếp cận đã được sử dụng và phổ biến trên thế giới.Nhưng thông dụng nhất là 3 phương pháp sau:
- Business-Wide Data Warehouse (hay còn gọi là Top-down)
- Independent Data Marts (hay còn gọi là Bottom-up)
Trang 14- Interconnected Data Marts (hay còn gọi là Spiral)
Hình 2.2.3: Các phương pháp luận xây dựng DW&BI
1.6. Phương pháp luận Top-down
Xây dựng kho dữ liệu theo phương pháp luận Top-down là xây dựng kho dữliệu “đầy đủ”, xây dựng ngay và một lần kho dữ liệu đáp ứng được tất cả hoặc phầnlớn những nhu cầu khai thác thông tin, phân tích và lập dự báo chiến lược của mọi đốitượng sử dụng Một lần thiết kế cho toàn bộ hệ thống và thực hiện xây dựng toàn bộnhư thiết kế
1.7. Phương pháp luận Bottom-up
Phương pháp Bottom-up xây dựng từng kho dữ liệu cho mỗi chủ đề riêng biệt
và độc lập, đáp ứng được nhu cầu khai thác thông tin, phân tích và lập dự báo chiếnlược của một hoặc một số phòng ban cụ thể trong tổ chức / doanh nghiệp Với mỗi chủ
đề thông tin nghiệp vụ phát sinh là một lần thiết kế và xây dựng riêng biệt
1.8. Phương pháp luận Spiral
Phương pháp Spiral là phương pháp xây dựng dần từng kho dữ liệu cho mỗichủ đề dựa trên mô hình xoáy trôn ốc, mỗi kho dữ liệu chủ đề có khả năng tích hợp lạithành một Kho dữ liệu đầy đủ
Sau khi phân tích nghiệp vụ mức tổng thể của toàn bộ doanh nghiệp, liệt kêdanh sách các chủ đề thông tin cần xây dựng kho Sau đó sẽ thiết kế và xây dựng dầncho từng kho chủ đề dựa trên thiết kế tổng thể của toàn tổ chức / doanh nghiệp Thứ tự
Trang 15của việc xây dựng các kho chủ đề sẽ được dựa trên tính quan trọng của nghiệp vụ và
tính hiệu quả.
1.9. Ưu/Nhược điểm của từng phương pháp
Dưới đây là bảng phân tích những ưu điểm và nhược điểm của từng phươngpháp xây dựng hệ thống DW&BI
- Rủi ro cao do thời gian thực hiện dự án lâu (2-4 năm) và chi phí ban đầu rất lớn và nghiệp vụ bị thay đổi ngay trong quá trình triển khai dự án
- Đòi hỏi tài nguyên và cơ sở
hạ tầng tốt
- Đòi hỏi trình độ của người sử dụng và kỹ thuật cao và đồng đều
dụng Nên rất dễ nhìn thấy hiệu quả đầu tư
- Chi phí ban đầu cho việc xây dựng từng kho dữ liệu thấp
- Không đáp ứng được nhu cầu khai thác thông tin mức tổng thể của tổ chức / doanh nghiệp
- Dữ liệu bị dư thừa nhiều do đó tính nhất quán không cao
- Chi phí bảo trì vận hành hàng năm lớn
- Chi phí cho việc “tích hợp” thành một hệ thống tổng thể
là rất lớn Interconnected
ưu tiên
- Đáp ứng được nhu cầu khai
- Cần thời gian cho việc phân tích tổng thể trong giai đoạn đầu của dự án
- Cần có sự đánh giá đúng về thứ tự ưu tiên và phạm vi trong tứng giai đoạn phát triển
- Cần có sự giám sát chặt chẽ
Trang 16thác thông tin mức tổng thể của tổ chức / doanh nghiệp
- Tính nhất quán của dữ liệu cao
sự đồng bộ giữa thiết kế của từng Kho dữ liệu thành viên
và Kho dữ liệu tổng thể
1.10. Cơ sở lựa chọn phương pháp luận
Việc lựa chọn phương pháp tiếp cận để xây dựng một hệ thống Kho dữ liệu làmột quyết định quan trọng Ngoài việc dựa vào những phân tích ưu điểm, nhược điểmnhư đã nêu ở trên, quyết định lựa chọn cần dựa trên các yếu tố khác như:
- Nhu cầu khai thác thông tin, phân tích, lập báo cáo chiến lược của từng loại đốitượng sử dụng - mức độ ưu tiên đối với từng loại đối tượng và từng loại yêu cầu
- Kiến trúc hạ tầng / cơ sở vật chất hiện tại
- Kinh phí
- Công nghệ
- Khả năng hỗ trợ, cung cấp dịch vụ của đối tác
- Khả năng của đội ngũ nội tại (người sử dụng và nhân viên kĩ thuật)
Thông thường các doanh nghiệp / tổ chức có quy mô vừa và nhỏ và có nghiệpvụ ổn định hay chọn phương pháp tiếp cận Top-Down (hay Business-Wide DataWarehouse) Với các doanh nghiệp và tổ chức lớn có nhiều phòng ban, chi nhánh khácnhau và có nhu cầu khai thác thông tin rộng lớn của người sử dụng bên ngoài thườngchọn phương pháp tiếp cận Spiral (hay Interconnected Data Marts) Phương phápIndependent Data Marts rất ít được sử dụng Đối với các ngân hàng và tổ chức tàichính lớn, nên chọn theo phương pháp tiếp cận Spiral
Trong khuôn khổ luận văn, tôi sử dụng phương pháp tiếp cận Spiral để nghiêncứu, xây dựng kho dữ liệu với chủ để tín dụng Sau này nếu có điều kiện, tôi sẽ tíchhợp các phần nghiệp vụ khác để tạo thành một kho dữ liệu hoàn chỉnh Phục vụ côngviệc khai thác dữ liệu và hỗ trợ ra quyết định tại NHNo&PTNT Việt Nam
Trang 17CHƯƠNG III THIẾT KẾ MỘT HỆ THỐNG DATA WAREHOUSE VÀ BI 3.1 Thiết kế logic một hệ thống DW và BI
1.11. Phạm vi công việc và phương pháp thực hiện của giai đoạn Thiết
kế logic
2.1.1.1 Phạm vi công việc
Thiết kế logic đưa ra mô hình tổng thể và chi tiết các thành phần của hệ thốngnhưng ở mức logic (chưa gắn với các công nghệ cụ thể), mô tả cấu trúc của các bảngdữ liệu, quan hệ dữ liệu giữa các bảng, quan hệ giữa các thành phần trong hệ thống,…với mục tiêu là hệ thống sẽ đáp ứng được các nhu cầu thông tin của người dùng đã xácđịnh ở giai đoạn khảo sát và phân tích
Đầu vào của giai đoạn thiết kế logic là bộ tài liệu kết quả của những giai đoạn
trước: Khảo sát, Phân tích Những tài liệu đầu vào chính cho giai đoạn thiết kế logicbao gồm:
- Báo cáo khảo sát:
o Hiện trạng của việc cung cấp thông tin
o Các nhu cầu thông tin trong tương lai
o Hiện trạng dữ liệu nguồn
o Hiện trạng hạ tầng thông tin
- Tài liệu phân tích
o Mức độ đáp ứng các nhu cầu thông tin: về nội dung và về phương thức cungcấp
o Mức độ ưu tiên của thông tin (dựa trên tầm quan trọng, tính cấp thiết,…)
o Tổng hợp thành các chủ đề thông tin mà hệ thống mới sẽ đáp ứng, thốngnhất phạm vi xây dựng hệ thống
Nội dung công việc của giai đoạn thiết kế logic:
- Thiết kế mô hình tổng thể của hệ thống (ở mức logic, chưa gắn với các côngnghệ cụ thể)
- Thiết kế chi tiết từng thành phần (ở mức logic, chưa gắn với các công nghệ cụthể
Các kết quả của giai đoạn thiết kế logic:
- Tài liệu thiết kế logic của hệ thống với các nội dung chính
o Mô hình tổng thể
o Thiết kế chi tiết từng thành phần (các sơ đồ quan hệ ERD, cấu trúc logic cácbảng, các mapping, các thủ tục chuyển đổi dữ liệu,…)
Trang 182.1.1.2 Phương pháp thực hiện
Giai đoạn thiết kế logic được thực hiện theo trình tự sau:
- Thiết kế mô hình tổng thể
- Thiết kế các CSDL chủ đề (DM)
- Thiết kế CSDL tích hợp (EM)
- Thiết kế CSDL trung chuyển (các DSA nguồn và DSA đích)
- Thiết kế Metadata
- Thiết kế các tiến trình ETL:
o Chuyển dữ liệu từ Data Source sang DSA
o Chuyển dữ liệu từ DSA sang EM
o Chuyển dữ liệu từ EM sang các DM
- Thiết kế tầng khai thác và phân tích thông tin
o Thiết kế CSDL đa chiều (OLAP)
o Thiết kế tầng dữ liệu người dùng (End_User Layer)
1.12. Thiết kế tổng thể
2.1.2.1 Mô hình logic tổng thể của hệ thống
Tùy theo từng dự án cụ thể, mô hình logic tổng thể có thể khác nhau, nhưngnhìn chung một hệ thống DW và BI điển hình sẽ được thể hiện như hình dưới đây:
DSA đích CSDL tác nghiệp
DSA nguồn
DSA nguồn
DSA nguồn
Cổng giao tiếp
user
End-Administration (Metadata và Quản trị hệ thống)
Hình 3.1.4: Mô hình logic tổng thể của hệ thống DW&BI
Trang 192.1.2.2 Dữ liệu nguồn (Data source)
Dữ liệu nguồn là đầu vào của toàn bộ hệ thống DW, bao gồm một danh sáchnguồn dữ liệu được lựa chọn để đưa vào kho dữ liệu tập trung Dữ liệu nguồn điểnhình của DW là các CSDL tác nghiệp bên trong tổ chức, cung cấp số liệu chi tiết vềcác giao dịch phát sinh hàng ngày; các CSDL này có thể được xây dựng trên các côngnghệ khác nhau (Oracle, SQL Server, Foxpro,…)
Ngoài ra, dữ liệu nguồn cho DW cũng có thể ở dạng file (text, xml, excel, …);có thể là dữ liệu nguồn bên ngoài tổ chức (CSDL của các tổ chức liên kết, các cơ quannhà nước,…)
2.1.2.3 Kho dữ liệu tập trung (Data Warehouse)
Kho dữ liệu tích hợp là thành phần trung tâm của hệ thống, là nơi lưu trữ dữ
liệu tập trung từ các nguồn về, DW bao gồm một tập hợp các CSDL quan hệ được thiết
kế nhằm đảm bảo lưu trữ khối lượng lớn dữ liệu đồng thời đáp ứng tốt nhất các nhucầu tra cứu, khai thác dữ liệu Trong DW có các CSDL sau:
- DSA: CSDL trung chuyển, chứa dữ liệu tạm thời của một phiênchuyển dữ liệu, phục vụ công việc xử lý, làm sạch trước khi đưa vào CSDLchính DSA có hai loại:
o DSA nguồn: chứa dữ liệu tương ứng với một nguồn cụ thể, ởdạng 1:1 về nội dung và cấu trúc, phạm vi dữ liệu là một phiên
o DSA đích: chứa dữ liệu tổng hợp từ các DSA nguồn, phạm vi dữliệu là một phiên, cấu trúc DSA ở dạng thuận tiện cho việc chuyển đổi dữliệu vào CSDL tích hợp
- EM: CSDL tích hợp, chứa dữ liệu của toàn bộ các nguồn, đó làcác dữ liệu đã được xử lý, làm sạch và tích hợp EM cần đảm bảo cung cấp đủdữ liệu cho tất cả các DM
- DM: CSDL chủ đề, chứa dữ liệu về một chủ đề thông tin xácđịnh, phục vụ một lớp đối tượng người dùng cụ thể Tất cả các DM đều có dữliệu nguồn là EM
- OLAP: CSDL chủ đề đã được tổng hợp sẵn, được tổ chức ở dạng
đa chiều nhằm mục đích đáp ứng nhanh nhất việc khai thác thông tin Nguồn dữliệu cho OLAP là từ EM hoặc các DM
Bên trong DW có tiến trình ETL: thu thập, làm sạch, tích hợp dữ liệu; chuyểndữ liệu từ nguồn vào các CSDL bên trong DW
2.1.2.4 BI: Tầng ứng dụng khai thác và phân tích thông tin
BI là một môi trường thuận tiện để người dùng nghiệp vụ làm việc với hệthống, cho phép người dùng chủ động khai thác, phân tích, tạo báo cáo, chia sẻ thôngtin,… Thành phần BI này bao gồm:
Trang 20- Lớp dữ liệu nghiệp vụ: các thuật ngữ/tên gọi dành cho ngườidùng nghiệp vụ, mỗi thuật ngữ tương ứng với các trường dữ liệu trong các DM.
- Nơi chứa các kết quả phân tích, báo cáo
- Các chương trình ứng dụng, các công cụ dùng để khai thác vàphân tích
- Cổng giao tiếp với end-user (ví dụ: web portal, office, …)
2.1.2.5 Administration: Quản trị hệ thống
Administration là thành phần dành cho các chuyên gia kỹ thuật thực hiện việcquản trị, vận hành hệ thống, đảm bảo hệ thống hoạt động ổn định, an toàn và các dữliệu được làm mới định kỳ Thành phần này bao gồm:
- Metadata: lưu thông tin về các nguồn dữ liệu, thông tin của cácCSDL thành phần trong kho dữ liệu tập trung; thông tin quản lý các tiến trìnhETL
- Các công cụ quản trị, vận hành hệ thống (quản trị, vận hành cáctiến trình, các job tự động, các công việc backup/recovery…)
1.13. Thiết kế chi tiết từng thành phần
2.1.3.1 Data Warehouse (Kho dữ liệu tập trung)
a Các mô hình CSDL trong thiết kế Data Warehouse
Trong thiết kế logic DW, có hai loại mô hình CSDL thường được sử dụng, đó
là: mô hình sao và mô hình bông tuyết:
Star Schema (CSDL hình sao): là CSDL quan hệ được thiết kế logic dạng hình
sao bao gồm một bảng dữ liệu chi tiết ở vị trí trung tâm quan hệ với các bảng dữ liệudanh mục xung quanh (kiểu 1:N) Mỗi bảng danh mục đều là bảng duy nhất củanhánh, không có quan hệ với bảng danh mục nào khác Ví dụ, trong mô hình star sauđây, bảng dữ liệu trung tâm thể hiện sản lượng và doanh số, các bảng danh mục xungquanh là: khách hàng, sản phẩm, kênh phân phối, thời gian Mục tiêu của mô hình sao
là truy vấn dữ liệu được nhanh nhất; chấp nhận dư thừa dữ liệu ở các bảng danh mục
Bán hàng (số lượng, tiền)
Kênh phân phối Sản phẩm
Thời gian Khách hàng
N N
1 1
(Fact Table) (Dimension Table)
Hình 3.1.5: Star schema (CSDL hình sao)
Trang 21Snowflake Schema (CSDL hình bông tuyết): là CSDL hình sao nhưng đã được
chuẩn hóa thành dạng chuẩn 3: mỗi bảng danh mục được tách thành các bảng danhmục phân cấp (nếu có) để đảm bảo không dư thừa dữ liệu Trong ví dụ dưới đây,
nhánh bảng Khách Hàng đã được tách thành các bảng phân cấp Mục tiêu của mô hình
bông tuyết là kế thừa việc truy vấn nhanh của mô hình sao; không để dưa thừa dữ liệu
Bán hàng (số lượng, tiền)
Kênh phân phối Sản phẩm
Thời gian Khách hàng
N N
1 1
(Fact Table) (Dimension Table)
1
N Khối
Hình 3.1.6: Snowflake schema (CSDL hình bông tuyết)
b Một số thuật ngữ thường dùng
Dimension Table (bảng Dimension) : là bảng danh mục trong CSDL hình sao
hoặc bông tuyết, lưu trữ thông tin về các đối tượng như: khách hàng, sản phẩm, thờigian, … Các trường của bảng dimension bao gồm:
- Primary key: kiểu số (ví dụ: id sản phẩm)
- Các trường thông tin thuộc tính (ví dụ: mã sản phẩm, tên sảnphẩm, mã chủng loại, tên chủng loại,…)
- Trong mô hình sao, dimension table còn có thêm các trường sau:
o Các trường thông tin tổng hợp (aggregate data): các giá trị tổng
hợp và tính sẵn (ví dụ: tổng số lượng, tổng tiền, số lượng lớn nhất, số lượng nhỏ nhất, số lượng trung bình,…)
o Các trường thông tin dẫn xuất (derived data): các giá trị đượctính theo công thức dựa trên các trường thông tin tổng hợp đã có
Fact Table (bảng Fact hay còn gọi là Master Table) : là bảng trung tâm trong
CSDL hình sao hoặc bông tuyết, lưu trữ dữ liệu chi tiết về các giao dịch phát sinh.Trong bảng fact, tất cả các trường đều có kiểu dữ liệu là kiểu số (hoặc kiểu ngày), cáctrường của bảng fact bao gồm:
- Primary key: kiểu số, định danh duy nhất 1 dòng của bảng fact
(ví dụ: id giao dịch).
Trang 22- Foreign key: tham chiếu tới Primary Key của các bảng danh mục
(ví dụ: id sản phẩm).
- Các trường thông tin phát sinh: kiểu số (ví dụ Số lượng, Doanh thu, )
Slave Table : bảng dữ liệu chi tiết có quan hệ 1:1 với bảng fact (Master Table),
dùng để lưu các trường dữ liệu không phải kiểu số Các trường của Slave Table baogồm:
- Primary key: kiểu số (thường trùng tên trường và cùng kiểu dữliệu với Primary Key của bảng fact), cũng đồng thời đóng vai trò Foreign Keytrong quan hệ 1:1 với bảng fact
- Các trường thông tin không phải kiểu số (Ví dụ: ghi chú, mô tả giao dịch,…)
- (Slave Table không dùng Foreign Key đến các bảng dimension)
Surrogate Key (khóa giả): là trường kiểu số, dùng để làm Primary Key cho các
bảng dimension hoặc bảng fact trong trường hợp Primary Key gốc của các bảng nàykhông phải là kiểu số hoặc là key tổ hợp của nhiều trường
Measure (hay còn gọi là Fact) : là những thông tin có thể đo lường được, mỗi measure tương ứng với một trường thông tin phát sinh trong bảng fact như: Số lượng, Doanh số,
Dimension (hay còn gọi là Chiều) : là những chiều tổng hợp, phân tích về các measure, ví dụ: chiều sản phẩm, chiều thời gian,…; thông tin về dimension được lưu ở
table demension; trong dữ liệu chi tiết phát sinh, dimension chính là các trường Foregn
Key của bảng fact Dimension bao gồm một tập các thuộc tính (attribute) đi kèm, ví dụ: dimension Khách hàng bao gồm các thuộc tính sau: mã khách hàng, tên khách hàng, mã quận huyện, tên quận huyện, mã tỉnh thành, tên tỉnh thành, mã loại hình, tên loại hình…
Level: cấp độ tổng hợp dữ liệu bên trong một dimension; một level bao gồm các
thuộc tính ngang cấp của một dimension, khi tổng hợp dữ liệu thì các thuộc tính này ở
cùng một nhóm Ví dụ: trong dimension Khách hàng có 4 level sau:
- level Khách hàng bao gồm 2 thuộc tính: mã khách hàng, tênkhách hàng
- level Tỉnh thành bao gồm 2 thuộc tính: mã tỉnh thành, tên tỉnhthành
- level Quận huyện bao gồm 2 thuộc tính: mã quận huyện, tênquận huyện
- level Loại hình bao gồm 2 thuộc tính: mã loại hình, tên loại hình
Trang 23Hierarchy: là một tập các level có quan hệ phân cấp bên trong một dimension;
trong một dimension có thể có nhiều hieararchy Hieararchy là căn cứ để thực hiện cácthao tác trên dữ liệu tổng hợp: tổng hợp lên (roll-up) hoặc chi tiết xuống (drill-down)
Ví dụ: trong dimension Khách Hàng, có 2 hierarchy sau:
- hieararchy Khách hàng - địa chỉ là: Khách hàng<<Phường/xã<<Quận/huyện<<Tỉnh/thành
- hieararchy Khách hàng - loại hình là: Khách hàng<<Loại hình
Thông tin : mỗi thông tin là một bảng số liệu với 2 thành phần:
- Phần measure: các cột giá trị bằng số (các con số nghiệp vụ: sảnlượng, doanh thu,…)
- Phần dimension: các cột thể hiện chiều phân tích (như: sảnphẩm, thời gian,…)
Chủ đề thông tin: là tập hợp các thông tin có chung phần measure
- Ví dụ: chủ đề thông tin Sản Lượng Xuất Nhập Khẩu bao gồm các
báo cáo về sản lượng xuất nhập khẩu (cùng là thông tin về sản lượng) nhưngmỗi báo cáo có các chiều phân tích khác nhau: quốc gia, hàng hóa, chi cục,…
c Data Mart (DM): các CSDL chủ đề
Data Mart là CSDL được thiết kế theo mô hình sao (như đã nêu ở mục a.), chứadữ liệu về một chủ đề thông tin xác định, phục vụ một lớp đối tượng người dùng cụthể Trong một Kho dữ liệu tập trung (DW), có thể có nhiều DM, mỗi DM tương ứngvới một chủ đề thông tin
Dựa trên các kết quả đã có từ giai đoạn khảo sát và phân tích về nhu cầu thôngtin, dựa trên việc phân tích khả năng cung cấp những thông tin có thể lấy ra từ dữ liệunguồn (mặc dù người dùng chưa yêu cầu), các bước để thiết kế DM bao gồm:
- Xác định danh sách các chủ đề thông tin mà hệ thống cần đáp ứng Mỗi chủ đề thông tin cần có các nội dung sau:
o Các measure: các giá trị số (những con số nghiệp vụ như: Số lượng bán, Giá trị bán thể hiện chủ đề Tình Hình Bán Hàng)
o Các dimension: các chiều phân tích thông tin (ví dụ: sản phẩm,cửa hàng, thời gian,…)
- Với mỗi chủ đề, thiết kế một DM:
o Vẽ sơ đồ thực thể quan hệ (ERD, mô hình sao)
o Thiết kế các bảng dimension
Primary key: kiểu số, dùng Surrogate Key nếu Primary Key hiện thờichưa phải là kiểu số