Chuyên đề thực tập chuyên ngành Toán tài chínhLỜI MỞ ĐẦU 1.Tính cấp thiết của đề tàiKé từ khi giới thiệu máy tính vào các trung tâm xử lý dữ liệu một vài thập kytrước đây, chỉ cần về mọi
Trang 1Chuyên đề thực tập chuyên ngành Toán tài chính
Em xin chân thành cảm ơn thầy cô giáo trong khoa Ứng dụng toán trong tàichính đã tận tình giảng dạy, hướng dẫn và truyền đạt kiến thức trong suốt quá
trình học tập và thực hiện chuyên đề.
Em xin chân thành cảm ơn bạn bè thuộc lớp Toán tài chính K56 đã giúp em
tìm kiếm tài liệu, tìm kiếm nguồn tham khảo dé hoàn thành chuyên đề này
Mặc dù em đã rất cé gang hoàn thiện chuyên dé này bằng tất cả sự nhiệttình và năng lực của mình, song không tránh khỏi những thiếu sót hoặc có nhữngnghiên cứu chưa sâu Rất mong nhận được sự chỉ bảo và thông cảm của các thầy
cô.
Hoàng Thu Hà
SV: Hoàng Thu Hà — MSV: 11141103
Trang 2Chuyên đề thực tập chuyên ngành Toán tài chính
MỤC LỤC
CHUONG 1: LY THUYET KHO DU LIỆU 2-2 52522££2£s=s2 3
1.1 Tổng quan về dữ liệu :-2-©5¿+SE+EE+EE£SEEEE2EEEEEEEEE2EE22171 71.2121 rxe 3
1.1.1 Cau trúc của dữ liệu ¿-c- 5s St+k+EEx+ESEEEESEEEEEEEEEEEEEEEEEEEEEEEkrErrkrkekree 4
1.1.2 Dữ liệu giao dịch, MUC CƠ SỞ - c5 3 132 11 vn re 5
1.1.3 Dữ liệu tóm tắt hoạt động - - + 2 2 ++E£+E£EE£EEEEEEEEEEEEEkrrkrrerree 61.1.4 Dữ liệu tổng hợp hỗ trợ ra quyết định - + 5 + scz+zezxz+se2 71.1.5 Sơ đồ cơ sở dit liệu - Mô hình dữ liệu 2- ¿sec 7
1.1.6 Siêu dữ liệu (Metadata) - - ĂĂĂ S211 ng ra 9
1.1.7 Quy tắc kinh doanh với dữ liệu 2-2-2 ©5£+£+£x+£xzEzrszrxees 91.2 Cấu trúc Kho dữ liệu ¿- 2+2<+2E+2E2EEEEEEEE2E211271 712121 EU 10
1.2.1 HG Si án DO Nớẽo.'Ổ3 Ỏ 101.2.2 Khai thác, chuyển đổi, và tải ¿ 5¿©2+22++cx++zxvzrxerxeerxesrxee 12
1.2.3 Kho trung (ÂIm - 5 << 11k KH ng 13
1.2.4 Kho lưu trữ siêu dữ liệu - <5 555 22111 *E**** 222 VEEEeeessseeeeree 14 1.2.5 Kho dữ liệu cục DO - - - << E1 22301111 111923111111 111 ng vn 15
1.2.6 Phản hồi đánh giá hoạt động ¿2 2c<2E22EcEEEeEkerkerxrrkrex 15
1.3.3.2 Chiến lược Marketing - 2 52+2z+EEeEEEE2EEEEEEEErErrkerkrree 20
CHUONG 2: KHO DU LIEU TẠI NGAN HÀNG VA HỆ THONG QUAN
TRI DU LIEU KHACH HÀNG SU DUNG THẺ 2 s22 22
2.1 Kho dữ liệu ngân hang - - 5 11H HH ng 22
2.1.1 Giới thiệu về MySQL -2- 5:22 222‡EE2EE2EEEEEEEEECSrkrrrkerkerree 222.1.2 Tổng quan dữ liệu ngân hàng -¿ 2¿+¿©++2x++zxzzxerxesred 232.1.3 Cau trúc kho dit liệu ¿- 2 + s£+S£+E+£EE£EEEEEEEEEEEEEErrErrkrrkerkeee 24
SV: Hoàng Thu Hà — MSV: 11141103
Trang 3Chuyên đề thực tập chuyên ngành Toán tài chính
2.1.3.1 Lớp nguÖn -:- + 25225222 EEEEEEEEE1211211211217111 1111111 xeE 25
2.1.4 Xử lý dữ liệu kho -2¿- 5c s22 ESEE2 1211271127121 71111211 cre 27
2.2 Tình huống hệ thống thông tin khách hàng giao dịch thẻ - 28
2.2.1 Hệ thống nguồn dữ liệu khách hàng 2-2 ¿+ s2 s+£zz£zzse2 28
2.2.1.1 Ngudn dữ liệu nội bộ 2- 2 5¿22++2x++£x++zxczrxerxerrxerrxee 292.2.1.2 Nguồn dữ liệu bên ngoài - 2 2 s+E2E2EEeEEerEzrxerxerxeee 29
2.2.2 Khai thác dữ liệu khách hàng - - + + 1k E*sskEseeerseeeeeeee 30
2.2.2.1 Truy cập hệ thống nguồn dé chiết suất dữ liệu 302.2.2.2 Điều chỉnh dữ liệu khách hàng - 2-2 ++52+c++zs+zxcred 31
2.2.2.3 Cập nhật kho dữ liệu với dữ liệu đã được điều chỉnh 32
2.2.3 Khai thác thông tin từ kho dữ liệu 2- 22 <+2z++x£+£xzxxsrxesred 33
2.3 Yêu cau xử lý dữ liệu khách hang giao dịch thé dé hỗ trợ chiến lượctăng thị phần -¿- ¿52+ EEEEEEE1EE12112112111 1111111111111 11111111 cye 33
2.3.1 Đặt bài toán ¿- 2s 22 k2 1 211271121122112111211 111111 11kg 33
2.3.2 Các trường dit liệu chiết suất từ hệ thống thông tin khách hang 342.3.3 Phương pháp khai pha dữ liệu phù hợp với dữ liệu kho 39
2.3.3.1 Khai thác dữ liệu phù hợp với Kho dữ liệu . - 39
2.3.3.2 Số lượng lớn dit liệu 2-2 ©£++++E+£E++EE++EEczrxrrxerrkeerxee 392.3.3.3 Dữ liệu sạch, nhất quán 2 2 2+ ©x++E++E++EEeEEerEezreerxerxees 402.3.3.4 Kiểm tra giả thuyết và Do lường -¿ 5¿©cscscccxcscce2 4ICHUONG 3 TINH HUONG NHAN DIỆN KHACH HANG DE TANG
DOANH SO SU DUNG THE 7 43
3.1 Các trường dữ liệu về đặc điểm khách hang 2 5 5+2 43
3.1.1 6+ 1 2 43
3.1.1.1 Cấu trúc giới tính + s++++++++Ext+Ekt£E+eEkzrkrrrkerkeerkerrxee 433.V1.2 DO on -a 433.1.1.3 Nghề nghiỆp 2- 2+ ©S22SE2EEEE22E2E12712121121111 11211 cty 433.1.2 Doanh số sử dụng thẻ -¿- 2-52 S2E£2EEEEEEEEEEE2E127171 21121 44
3.1.3 Tài khoản thanh toán 2-2 2£ + £+E££EE£EEEEE2EEEEEEEECEEErEkrrkerkeee 44
3.1.4 Tài khoản tiết kiệm 2 252 2S2E£+EEEEEEEEEEEEEEEEEE21 2121 EEcrkeeg 44
3.1.5 Mở tài khoản chi lương < c1 33231133 EESeEreeeeesreeeeree 44
SV: Hoàng Thu Hà — MSV: 11141103
Trang 4Chuyên đề thực tập chuyên ngành Toán tài chính
3.1.6 Số dư tiền gửi bình quân hàng tháng 2 ¿5c ss+c++zzzzzce2 453.1.7 Số dư tiền vay bình quân ¿+ 2 s+S++E++E++E+E££EerEerxerxrrxrrerree 45
Sẽ :Ö11 45
3.1.9 Hang the 0 a 46
3.2 Mô hình Cây quyết định trong Data Mining sử dung trên đữ liệu kho 46
3.3 Kết quả phân tích qua mô hình cây quyết định -. -s¿s+¿ 483.3.1 Phân tích kết quả -¿ 2¿©2+¿©5£+++2EE+2EEEEEE2EEEEEEEEEEEErrkrrrkerkrsrei 483.3.1.1 Kết qua phân tích mô hình cây dựa vào biểu đồ 1 trong rpart 48
3.3.1.2 Kết qua phân tích mô hình cây dựa vào biéu đồ 2 trong rpart 50
3.3.1.3 Kết qua phân tích mô hình cây dựa vào biêu đồ 3 trong rpart 51
3.3.2 K@t LUA mẽ ốố 53
3.3.2.1 Các kết quả dat được ¿ :- s22 xe E221 cerree 533.3.2.2 Han CHE mẽ 543.3.2.3 Giải pháp cho các nghiên cứu tiếp theo -: 5¿5cs+¿ 54TÀI LIEU THAM KHAO -. 2- 22 ©5S2E2+EE£2EE2EEEEEESEEEEEEEEEErErrkerrree 56
PHU LUỤC -©2¿-55c22<2EEEEE2E122112711271211211211.11T1E.1.111E 11x eee 57
SV: Hoàng Thu Hà — MSV: 11141103
Trang 5Chuyên đề thực tập chuyên ngành Toán tài chính
CÁC SƠ ĐÒ VÀ MINH HỌA TRONG BÀI VIẾT
Hình minh họa 1.1: Phân cấp dit liệu và mô tả của nó giúp người dùng điềuhướng xung quanh một kho dữ liệu - - - 5 2222 32+ *+Exveseereeerresreerrsee 5
Hình minh họa 1.2: Các mô hình dữ liệu vật lý và logic có thé không giống nhau 8
Hình minh họa 1.3: Phương pháp đa tang đến kho dit liệu bao gồm một kho lưutrữ trung tâm, dữ liệu cục bộ, phân tích Sandbox, các công cụ cho người dùng
cuối, và các công cụ kết nối tất cả các mảnh lại với nhau :- -=s5ss+z 11Hình minh họa 2.1: Hệ thống cấu trúc kho dữ liệu trong ngân hàng 23Hình minh họa 2.2: Giao diện Phần mềm MySQL -c cà se 24
Sơ đồ 3.1: Mô hình cây dựa vào biểu đồ 1 trong rpart -s:-s+¿ 48Sơ đô 3.2: Mô hình cây dựa vào biéu đồ 2 trong rpart -: 2- s52 50Sơ đồ 3.3: Mô hình cây dựa vào biểu đồ 3 trong rpart - 5 s52 52
SV: Hoàng Thu Hà — MSV: 11141103
Trang 6Chuyên đề thực tập chuyên ngành Toán tài chính
LỜI MỞ ĐẦU
1.Tính cấp thiết của đề tàiKé từ khi giới thiệu máy tính vào các trung tâm xử lý dữ liệu một vài thập kytrước đây, chỉ cần về mọi hệ thống hoạt động trong kinh doanh đã được vi tính hóa,khai thác một lượng lớn dir liệu di vào hoạt động, và khai thác dữ liệu là một cách dé
hiểu được su rộng lớn cua dir liệu Tự động hóa đã làm thay đối cách mọi người kinh
doanh và sinh hoạt: bán lẻ trực tuyến, mạng xã hội, máy rút tiền tự động, lãi suất điều
chỉnh, kiểm soát hàng tồn kho chỉ trong thời gian, thẻ tín dụng, Google, giao hàng quađêm và câu lạc bộ mua bán người mua - ví dụ về cách tự động hóa máy tính đã mở ra
những thị trường mới và cách mạng hóa những cái hiện tại Tự động hóa cũng tạo ra lượng lớn đữ liệu tại các công ty có lợi từ các hoạt động này Dữ liệu tích lũy, nhưng
không phải thông tin - cũng không phải là thông tin đúng vào đúng thời điểm
Hiện nay, không một lĩnh vực nào không cần đến sự hỗ trợ của công nghệ thông
tin, và sự thành công của các lĩnh vực đó phụ thuộc rất nhiều vào việc nắm giữ thôngtin một cách nhanh chóngnhạy bén và hữu ich Với nhu cầu như thế chỉ sử dụng các
thao tác truyền thống thì độ chính xác không cao va mat rất nhiều thời giarDo vậy,việc lưu trữ dir liệu trong Kho dữ liệu chứa đựng thông tin phục vụ nhu cầu nắm bắt
thông tin có vai trò hết sức to lớrViệc lưu trữ dữ liệu trong kho đã có từ rat lâu nhưngsự bùng nổ của nó thì mới xảy ra trong những năm gần đâyCác công cụ thu thập dữliệu tự động và các công nghệ cơ sở dữ liệu được phát trién dẫn đến vấn dé một lượngdữ liệu không lỗ được lưu trữ trong cơ sở dữ liệu của các cá nhântô chức, do đó
việc khai phá tri thức là một trong những van dé đã và đang nhận được sự quan tâm
của các nhà nghiên cứu
Với mong muốn tìm hiểu về dữ liệu kho và bên cạnh đó nhận diện khách hangsử dung thẻ dé tăng doanh số sử dụng thẻ nên người viết đã lựa chọn đề tài: “Di liệukho (Data Warehouse) và Xử lý dữ liệu Kho hỗ trợ chién lược khách hang sử dụngthé tại ngân hàng” làm chuyên đề tốt nghiệp
2 Mục đíchnghiên cứu của đề tàiNghiên cứu các lý thuyết cơ bản của dit liệu, về hệ thống kho dữ liệu nói chungvà hệ thong kho dữ liệu trong ngân hàng nói riêng, qua đó xây dựng hệ thống quản trịdữ liệu khách hàng giao dịch thẻ và cuối cùng là nhận diện khách hàng giao dịch thẻdé hỗ trợ chiến lược tăng doanh số sử dụng thẻ trong tương lai
SV: Hoàng Thu Hà — MSV: 11141103 1
Trang 7Chuyên đề thực tập chuyên ngành Toán tài chính
3 Đối tượng và phạm vỉ nghiên cứu:Dựa vao lý thuyết và thuật toán của Kho dit liệu trong khai pha đữ liệu, thiếtkế kho dữ liệu khách hàng sử dụng thẻ ngân hang dé có chiến lược tăng doanh
thu sử dụng thẻ.
4 Tiến trình nghiên cứu:+ Nghiên cứu lý thuyết dữ liệu.+ Nghiên cứu lý thuyết cây quyết định trong SPSS Modeler+ Xử lý, phân tích số liệu
+ Viết báo cáo kết quả và kết luận.5 Ý nghĩa chuyên đề:
Việc nghiên cứu dé tai này giúp người viết và ban đọc biết được lý thuyếtdữ liệu, kho dữ liệu, hệ thống kho dữ liệu trong ngân hàng Từ đó nhận diệnkhách hàng sử dụng thẻ và xây dựng chiến lược tăng doanh số sử dụng thẻ trong
tương lai.
6 Kết câu của bài viết:
Bài viết gồm 3 phan:Chương 1: Lý thuyết về kho dữ liệuChương 2: Kho dữ liệu tại ngân hàng và Hệ thống quản trị dữ liệu khách
hàng sử dụng thẻ
Chương 3: Tình huống nhận diện khách hàng để tăng doanh số sử dụng thẻ
SV: Hoàng Thu Hà — MSV: 11141103 2
Trang 8Chuyên đề thực tập chuyên ngành Toán tài chính
CHUONG 1: LÝ THUYET KHO DU LIEU
1.1 Tổng quan về dữ liệuKho dữ liệu là quá trình thu thập dữ liệu khác nhau từ khắp tổ chức nhằm
mục đích hỗ trợ quyết định Một kho dữ liệu phục vụ như là một hệ thống hỗ trợ
ra quyết định của hồ sơ, làm cho có thể điều hoà các báo cáo đa dang bởi vìchúng có cùng nguôồn gốc và các định nghĩa Hệ thống như vậy không chi làmgiảm nhu cầu giải thích các kết quả mâu thuẫn, mà nó còn cung cấp quan điểmnhất quán về doanh nghiệp qua các đơn vị tổ chức và thời gian khác nhau Khodữ liệu giúp các nhà quản lý đưa ra các quyết định sáng suốt hơn và theo thờigian hơn, các quyết định thông tin sẽ dẫn đến kết quả tốt hơn Hỗ trợ ra quyếtđịnh là một thuật ngữ mơ hồ và rộng lớn, bao gồm mọi thứ từ báo cáo sản xuấtđến mô hình phức tạp đến các công cụ khuyến nghị trực tuyến
Kho dữ liệu là một liên kết tự nhiên của khai thác dữ liệu, trong đó có mộtyêu cầu đầu tiên đối với dữ liệu rõ ràng và nhất quán trong việc tìm kiếm cácmẫu có thể thực hiện được Phần lớn cố gang dang sau nỗ lực khai thác dữ liệu làtrong các bước xác định, thu thập, hiểu và làm sạch dữ liệu Một kho dữ liệu củacông ty được thiết kế tốt là một liên kết có giá trị Tuy nhiên, nếu thiết kế của khodir liệu bao gồm hỗ trợ cho các ứng dụng khai thác dữ liệu, kho sẽ tạo điều kiệncho các nỗ lực khai thác dit liệu Hai công nghệ này làm việc cùng nhau dé manglại giá trị Việc khai thác dữ liệu đáp ứng một số lời hứa của việc lưu trữ dữ liệubằng cách chuyên đổi nguồn gốc cơ bản của dữ liệu sạch và nhất quán thành
thông tin có thể thực hiện được
Mối quan hệ giữa dữ liệu và khai thác dữ liệu cũng có một phần của côngnghệ Ngoài khả năng xử lý nhiều công việc cùng một lúc, hầu hết phần mềm,bao gồm khai thác dữ liệu và phần mềm thống kê, không dễ dàng tận dụng lợi thếcủa bộ vi xử lý, nhiều đĩa và bộ nhớ lớn trên các máy chủ nhanh nhất Các hệthống quản lý cơ sở dữ liệu quan hệ, trung tâm của hầu hết các kho đữ liệu, đượckích hoạt song song va sẵn sàng tận dụng tat ca các tài nguyên của hệ thống déxử lý một truy vấn Thậm chí quan trọng hơn, người dùng không cần phải nhậnthức được thực tế này, bởi vì giao diện, một số biến thể của SQL, vẫn giữnguyên Cơ sở dữ liệu đang chạy trên một máy chủ mạnh có thé là một tài sảnmạnh dé xử lý sé lượng lớn đữ liệu, chăng hạn như khi tạo thuộc tính của kháchhang dé khai thác dữ liệu
SV: Hoàng Thu Hà — MSV: 11141103 3
Trang 9Chuyên đề thực tập chuyên ngành Toán tài chính
Kho đữ liệu có lợi ích như vậy, nhưng hệ thống này không phải là điều kiệntiên quyết cho việc khai thác dữ liệu và phân tích dữ liệu Các nhà thống kê,chuyên gia tính toán, và các nhà phân tích đã sử dụng các gói thống kê trongnhiều thập kỷ - và đạt được kết quả tốt — không cần đến kho dir liệu tập trungđược thiết kế tốt Các phân tích như vậy thường diễn ra trên các phân tích
sandbox (Sandbox là một kỹ thuật quan trọng trong lĩnh vực bảo mật có tác dụng
cô lập các ứng dụng, ngăn chặn các phần mềm độc hại dé chúng không thé làmhỏng hệ thống máy tính, hay cài cắm các mã độc nhăm ăn cắp thông tin), các hệthống chuyên dụng dé phân tích dữ liệu Ngày nay, công việc thống kê sử dụngcác công cụ khai thác dữ liệu và các gói phần mềm thống kê; báo cáo sử dụngcông cụ OLAP (Online Analytics Processing: quá trình xử lý trực tuyến) vàExcel; và phân tích truy vấn tùy biến được thực hiện trên kho dữ liệu của chínhnó Các phân tích sandbox vẫn hữu ích cho việc đầy hình bao của những gì có thêđược thực hiện, dé phân tích khối lượng lớn của các máy chủ web hoặc cho cácphương pháp thống kê phức tạp dé mô phỏng các khía cạnh của doanh nghiệp và
cho các nỗ lực nâng cao khác.
1.1.1 Câu trúc của dữ liệuRất nhiều dạng thông tin khác nhau được thể hiện trên máy tính Các mức
dữ liệu khác nhau đại diện cho các loại trừu tượng khác nhau:
e Dz liệu hoạt động (Operational/Transaction data)
e Di liệu tổng hợp hoạt động (Operational summary data)e De liéu tong hop hé tro ra quyét dinh (Decision-support summary data)e Luoc đồ (Schema)
e Siéu dữ liệu (Metadata)
e Quy tắc nghiệp vụ (Business Rules)Ví dụ: Hạng dữ liệu và mô tả của nó giúp người dùng điều hướng quanh
kho dt liệu Khi dtr liệu trở nên trừu tượng hơn, nó thường ít được phóng dai.
SV: Hoàng Thu Hà — MSV: 11141103 4
Trang 10Chuyên đề thực tập chuyên ngành Toán tài chính
Mức độ trừu tượng là một đặc tính quan trọng của dữ liệu được sử dụng
trong khai thác dữ liệu Một hệ thống được thiết kế tốt nên cho phép người dùngđi sâu vào các mức trừu tượng này để có được đữ liệu cơ sở hỗ trợ mọi quy tắctóm tắt và kinh doanh Các cấp thấp hơn của kim tự tháp rộng hơn và có xuhướng trở thành công cụ của cơ sở dữ liệu Các cấp trên là nhỏ hơn và có xuhướng trở thành công cụ của bảng tính và mã máy tính Tất cả các mức này rấtquan trọng bởi vì bạn không muốn phân tích dit liệu chi tiết dé chỉ tạo ra những
toán hóa đơn hoặc địa chỉ địa lý trên điện thoại di động, bản ghi của giao dịch sẽ
được lưu trữ ở đâu đó, cung cấp thông tin về ai, cái gì, ở đâu, khi nào, và baonhiêu Dữ liệu cấp độ giao dịch như vậy là nguyên liệu để tìm hiểu hành vi củakhách hàng Đó là đôi mắt và đôi tai của doanh nghiệp
Qua thời gian hệ thống hoạt động thay đổi do nhu cầu của doanh nghiệpchuyên hướng Các lĩnh vực có thé thay đổi ý nghĩa của dữ liệu nên dữ liệu quan
SV: Hoàng Thu Hà — MSV: 11141103 5
Trang 11Chuyên đề thực tập chuyên ngành Toán tài chính
trong được đưa ra và xóa Thay đổi là bắt buộc dé đáp ứng với việc giới thiệu sảnphẩm mới, mở rộng số lượng khách hang, thu mua, tái tổ chức, và công nghệmới Thực tế là dữ liệu hoạt động thay đổi theo thời gian phải là một phần củabat kỳ cách tiếp cận kho dữ liệu mạnh mẽ
Do khối lượng dữ liệu lớn, các công ty thường miễn cưỡng lưu trữ dữ liệucấp độ giao dịch trong kho dit liệu Từ quan điểm của khai thác dữ liệu, đây làmột điều không tốt, bởi vì các giao dịch mô tả tốt nhất hành vi của khách hàng
Các phân tích Sandbox là một giải pháp thay thế hiệu quả để khai thác và sử
dụng dữ liệu giao dịch không phù hợp với kho.
1.1.3 Dữ liệu tóm tắt hoạt độngTóm lược hoạt động đóng vai trò như các giao dịch; sự khác biệt là tóm
lược hoạt động được bắt nguồn từ các giao dịch Một ví dụ phô biến là các hệ
thống thanh toán, tong hợp các giao dịch, thường là vào chu kỳ hóa đơn hàngtháng Những tóm tắt này là khách hàng phải đối mặt và thường dẫn đến các giaodịch khác, chang hạn như thanh toán hóa đơn Trong một số trường hợp, bản tómlược hoạt động có thể bao gồm các lĩnh vực được tóm tắt để nâng cao sự hiểubiết của khách hàng về khách hàng hơn là vì mục tiêu hoạt động Chăng hạn,AT&T đã từng sử dụng hồ sơ chỉ tiết cuộc gọi dé tính điểm "bizocity" (bizocitylà một yếu tố hành vi thú vị mà đòi hỏi các phương pháp mô hình thống kê đầythách thức và theo dõi; một công cụ tính toán cần thiết dé duy trì một luồng dữliệu cuộc gọi và dé cập nhật cấu trúc dữ liệu thiết kế cần thận các cấu trúc dữ liệucó tầm quan trọng đặc biệt: khi xử lý hàng trăm triệu cuộc gọi mỗi ngày, các quytrình I/O có thể có xu hướng chiếm ưu thế thời gian CPU, và do đó làm giảmđáng ké toàn bộ quá trình chế biến; mô tả một giao diện với kết quả khai thác dữliệu Nó giúp cung cấp một truy cập thuận tiện vào dữ liệu và dé làm cho việckiểm tra có thể xảy ra khi kích thước dữ liệu vượt quá vài gigabyte), đo lườnghoạt động kinh doanh giống như kiểu gọi điện thoại của số điện thoại Hồ sơ của
môi cuộc gọi sẽ bị loại bỏ, nhưng điêm sô sẽ được cập nhật.
Có sự khác biệt giữa dữ liệu tóm tắt hoạt động và dữ liệu giao dịch, bởi vìtóm tắt là trong một khoảng thời gian và giao dịch đại diện cho các sự kiện Xemxét số tiền được thanh toán bởi khách hàng đăng ký Trong hệ thống thanh toán,
số tiền đã trả là tóm tắt cho thời hạn thanh toán, bởi vì nó bao gồm tất cả cáckhoản thanh toán trong suốt thời kỳ đó Bảng lịch sử thanh toán thay vào đó cungcấp chỉ tiết về mọi giao dịch thanh toán Đối với hầu hết khách hàng, các giaodịch tóm lược và thanh toán hàng tháng là tương đương Tuy nhiên, hai khoản
SV: Hoàng Thu Hà — MSV: 11141103 6
Trang 12Chuyên đề thực tập chuyên ngành Toán tài chính
thanh toán có thé đến trong cùng một thời kỳ thanh toán Thông tin thanh toánchi tiết hơn có thê hữu ích cho việc hiéu rõ mô hình thanh toán của khách hàng
1.1.4 Dữ liệu tổng hợp hỗ trợ ra quyết địnhDữ liệu tổng hợp hỗ trợ ra quyết định là dữ liệu được sử dụng để đưa raquyết định cho doanh nghiệp Dữ liệu tài chính được sử dụng dé điều hành côngty cung cấp một ví dụ về dữ liệu tóm tắt hỗ trợ ra quyết định; các cấp quản lý cấpcao thường coi đây là thông tin sạch nhất hiện có Một ví dụ khác là các kho dữliệu và các quầy dữ liệu có mục đích là cung cấp một hệ thống hỗ trợ ra quyếtđịnh ở cấp khách hàng
Nói chung, một ý tưởng tôi là sử dụng cùng một hệ thống cho các mục đíchphân tích và hoạt động, bởi vì nhu cầu hoạt động là quan trọng hơn, dẫn đến mộthệ thống được tối ưu hóa cho các hoạt động chứ không phải là hỗ trợ quyết định.Hệ thống tài chính thường không được thiết kế dé hiểu khách hàng, bởi vì chúngđược thiết kế cho các mục đích kế toán Một trong những mục tiêu của việc lưutrữ dữ liệu là đưa ra các định nghĩa và bố cục nhất quán dé các báo cáo tương tựtạo ra các kết quả tương tự cho dù người dùng doanh nghiệp nào đang sản xuất
chúng hoặc khi chúng được sản xuât.
Theo một nghĩa nào đó, tóm tắt sẽ phá hủy thông tin khi chúng tổng hợp dữliệu với nhau Tuy nhiên, tóm tắt cũng có thể mang lại thông tin cho bề mặt Các
giao dịch tại điểm bán hàng có thể nắm bắt tất cả các loại cá mòi đi qua máyquét, nhưng chỉ có các tóm tắt bắt đầu mô ta cách cư xử của người mua sắm theothói quen của họ - khoảng thời gian khi cửa hàng, tỷ lệ chi tiêu cho thực phẩmđóng hộp , cho dù sản phẩm hữu cơ bổ sung cho cá moi, và như vậy Trongtrường hợp này, bản tóm tắt khách hàng dường như đang tạo ra thông tin hoặc ítnhất là đưa nó lên bề mặt, làm cho nó có thể nhìn thấy được
1.1.5 So đồ cơ sé dữ liệu - Mô hình dữ liệuCấu trúc dữ liệu cũng quan trọng - dt liệu được lưu trữ, nơi lưu trữ, những
gi không được lưu trữ, vân vân Thanh bên "Cơ sở dữ liệu quan hệ là gi?" Giải
thích các ý tưởng chủ chốt đằng sau cơ sở dữ liệu quan hệ, các hệ thông phô biếnnhất dé lưu trữ số lượng lớn dữ liệu
Không có vấn đề làm thế nào dữ liệu được lưu trữ, có ít nhất hai cách để môtả bố trí Mô hình dữ liệu vật lý mô tả bố cục trong các chi tiết kỹ thuật cần thiếtbởi phần mềm cơ bản Một ví dụ là câu lệnh "CREATE TABLE" trong SQL.Mặt khác, mô hình dữ liệu lôgíc mô tả dữ liệu theo cách dễ tiếp cận hơn cho
SV: Hoàng Thu Hà — MSV: 11141103 7
Trang 13Chuyên đề thực tập chuyên ngành Toán tài chính
người dùng cuối Hai không nhất thiết phải giống nhau, thậm chí không giống
nhau.
Sự tôn tại của các trường trong cơ sở dữ liệu không có nghĩa là dữ liệu thựcsự có mặt Điều quan trọng là phải hiểu mọi trường được sử dụng để khai thác dữ
liệu và không giả định rang một trường được điên chính xác chi vì nó tôn tại.
Sự tương tự có thể giúp hiểu được sự khác nhau giữa các mô hình dữ liệuvật lý và logic Một mô hình logic cho một ngôi nhà tương tự như việc nói rằngmột căn nhà là phong cách nông trại, với bốn phòng ngủ, ba phòng tắm, và mộtnhà để xe hai xe Mô hình vật lý đi vào chỉ tiết hơn về cách nó được đặt ra Nềnmóng là bê tông cốt thép, sâu 4 feet; phiến là 1.500 feet vuông: các bức tường làkhối bê tông: và như vậy Các chi tiết về xây dựng, mặc dù hữu ích và day đủ, cóthé không hữu ích cho một gia đình tìm kiếm đúng nhà
Logical Data Model
COMPLAINT Mô hình logic có 4 thực thé cho
ACCT_ TD các khách hang thực hiện giao
COMPLAINT_CODE dich va một thực the cho tải
Biểu tượng có nghĩa là một thay đổi
san phẩm có chính xác một tải khoan.
PRODUCT_CHANGE
ACCT_ID
OLD_PROD
NEW_PROD Biéu tượng có nghĩa là một tải khoản có
thể có 0 hoặc nhiễu san phẩm thay đôi hơn.
ACCT_ID Mô hình vat ly cũng xác định các loại
NUM_COMPLAINTS chính xác, phan vùng chi mục, đặc điểm
lưu trữ, mức độ tương đông, các rang buộc
về giả trị, vả nhiễu thứ khác không phải la
Hình minh họa 1.2
SV: Hoàng Thu Hà — MSV: 11141103 8
Trang 14Chuyên đề thực tập chuyên ngành Toán tài chính
1.1.6 Siêu dữ liệu (Metadata)Siêu dữ liệu vượt xa mô hình đữ liệu dé cho phép người dùng doanh nghiệpbiết loại thông tin được lưu trữ trong cơ sở dữ liệu Đây là, về cơ bản, tài liệu về
hệ thống, bao gồm các thông tin như:
» Cac giá trị được cho phép hợp pháp trong từng lĩnh vực
* M6 tả nội dung của từng trường (ví dụ: ngày bắt đầu là ngày bán hay
ngày kích hoạt?)
» Negay tháng tải dữ liệu
* = Chỉ ra cách gần đây dữ liệu đã được cập nhật (khi nào sau khi chu kỳlập hoá đơn tính toán dữ liệu trong hệ thong này?)
* Các ánh xạ tới các hệ thống khác (mã trạng thái trong bang A là trườngmã trạng thái trong bảng B trong hệ thống nguồn như vay)
Khi có sẵn, siêu dữ liệu cung cấp một dịch vụ vô giá Khi không có sẵn, loạithông tin này cần phải được lượm lặt, thường là từ các quản trị viên và các nhà
phân tích cơ sở dữ liệu thân thiện - có lẽ là không hiệu quả trong việc sử dụng
thời gian của mọi người Đối với kho dif liệu, siêu dữ liệu cung cấp ky luật vìthay đổi đối với kho phải được phản ánh trong siêu dit liệu được truyền đạt tớingười dùng Nói chung, một hệ thống siêu dữ liệu tốt giúp đảm bảo sự thànhcông của kho dữ liệu bằng cách làm cho người dùng ý thức và thoải mái hơn vớinội dung Đối với người khai thác dit liệu, siêu dit liệu cung cấp sự trợ giúp cógiá trị trong việc theo dõi và hiéu dữ liệu
1.17 Quy tắc kinh doanh với dữ liệuMức trừu tượng cao nhất là quy tắc kinh doanh Những mô tả lý do tại saomối quan hệ tồn tại và cách chúng được áp dụng Một số quy tắc kinh doanh dénam bat, bởi vì chúng đại diện cho lịch sử kinh doanh - những chiến dịch tiếp thịđã diễn ra khi nào, những sản phâm nào có sẵn khi nào Các loại quy tắc kháckhó nắm bắt hơn và thường năm sâu bên trong các đoạn mã và bản ghi nhớ cũ.Không ai có thể nhớ tại sao hệ thống phát hiện gian lận lại bỏ qua những khiếunại dưới $500 Có lẽ có một lý do kinh doanh tốt, nhưng lý do, quy tắc kinhdoanh, có thé bị mat khi quy tắc là mã máy tính ghi nhớ quy tac
Quy tắc kinh doanh có quan hệ mật thiết với khai thác dữ liệu Một số kỹthuật khai thác dữ liệu, như phân tích giỏ hàng và cây quyết định, tạo ra quy tắcrõ ràng Thông thường, các quy tắc có thể đã được nhiều người biết Mô hình trảlời thư trực tiếp kết thúc mục tiêu khi khu vực giàu có phản ánh sự thật là dữ liệulịch sử thường dùng để xây dựng mô hình là chỉ tập trung vào mỗi vùng đó
SV: Hoàng Thu Hà — MSV: 11141103 9
Trang 15Chuyên đề thực tập chuyên ngành Toán tài chính
Nghĩa là, thiết lập mô hình chỉ có người phản hồi của khu vực đó, vì chỉ có người
giàu mới có mục tiêu trong quá khứ.
Việc tìm ra quy tắc kinh doanh trong dữ liệu vừa là thành công vừa là thấtbại tìm ra quy tắc là mô tả thành công của các thuật toán phức tạp mặc dù trongkhai thác dữ liệu, bạn muốn mô hình hành động và các mẫu như vậy thì khôngthể thực hiện được
1.2 Cấu trúc Kho dữ liệuPhương pháp tiếp cận đa kho để lưu trữ dữ liệu đã chỉ ra rằng dữ liệu cónhiều hình thức khác nhau Nó cung cấp một hệ thống toàn diện dé quản lý ditliệu và hỗ trợ quyết định Các thành phần chính của kiến trúc này là:
- Hệ thống nguồn là nơi dữ liệu đến.
* Công cụ trích xuất, chuyên đổi và tai (ETL) di chuyển dữ liệu giữa các
kho dữ liệu khác nhau.
» Kho trung tâm là kho lưu trữ chính cho kho dữ liệu.
* Phân tích sandbox cung cấp môi trường phân tích phức tạp hơn các truyvan SQL hoặc các công cụ khai thác dữ liệu
* Kho chứa siêu dữ liệu mô tả những gì có sẵn và ở đâu.
* Cac cơ sở dữ liệu cung cấp truy cập nhanh, chuyên biệt cho người dùngcuối và các ứng dụng
* Phản hồi hoạt động kết hợp hé trợ quyết định trở lại vào hệ thống hoạtđộng.
* _ Người sử dụng cuối cùng là lý do dé phát triển kho ở vị tri đầu tiên.Một hoặc nhiều thành phan tồn tại gần như trong các hệ thống gọi là kho dữliệu Chúng là khối căn bản của hỗ trợ ra quyết định thông qua một cách tiếp cận.Dữ liệu giống như dòng nước Nó bắt nguồn từ hệ thống nguồn và dòng chảythông qua thành phan của kho dữ liệu cơ bản nhất dé đưa thông tin cho ngườidùng cuối Các thành phàn chính này dừng lại ở nền tảng kỹ thuật bao gồm phần
cứng, phần mềm, và mạng lưới, và cơ sở hạ tầng phải đủ mạnh để vừa đáp ứng
nhu cầu của người dùng cuối vừa đáp ứng sự gia tăng số liệu và xử lý yêu cầu
1.2.1 Hệ thống nguồnDữ liệu bắt nguồn từ các hệ thống nguồn, điển hình là các hệ điều hành vàdữ liệu nguồn bên ngoài Chúng được thiết kế cho hiệu quả hoạt động, khôngphải dé hỗ trợ ra quyết định, và dir liệu phản ánh thực tế này Ví du: dữ liệu giaodịch có thể được hoán đổi mỗi vài tháng để giảm nhu cầu lưu trữ Cùng một
SV: Hoàng Thu Hà — MSV: 11141103 10
Trang 16Chuyên đề thực tập chuyên ngành Toán tài chính
thông tin có thé được đại diện theo nhiều cách Ví dụ: một hệ thống nguồn bán lẻđiểm bán hàng đại diện trả về hàng hóa bằng cách sử dụng cờ "trở lại" Nghĩa là,
ngoại trừ khi khách hàng thực hiện mua hàng mới vào cùng một thời điểm Trong
trường hợp này, sẽ có một số tiền âm trong trường mua hàng Những dị thườngnhư thế rất nhiều trong thế giới thực
Người dùng là lý do để kho dữ liệu tồn tại Chúng đại diện cho thông tin và hiểu biết đạt được
tty div liễu:
Hệ thống sử dung giao thức tiêu chuẩn như ODBC kết nai người dùng đến dữ liệu.
Kho dữ liệu trung tâm là dữ —————
liệu cơ sở quan hệ với md hình dữ liệu vật lý.
KHO TRUNG
TÂM
Kho dữ liệu trung tầm là
dữ liệu cơ sở quan hệ với mé hình dữ liệu vật
Phan chia /chuyển đổi và công cụ tải dữ liệu di chuyển giữa hệ
nghiệp có thê phân biệt với người tiêu dùng trong một công ty điện thoại:
» — Chỉ báo loại khách hàng: "B" hoặc "C" cho doanh nghiệp so với khách
hàng.
¢ Đánh gia kế hoạch: Một số chỉ được bán cho khách hàng doanh nghiệp;những người khác cho người tiêu dùng.
SV: Hoàng Thu Hà — MSV: 11141103 II
Trang 17Chuyên đề thực tập chuyên ngành Toán tài chính
* Kênh thu nhận: Một số kênh dành cho doanh nghiệp, một số kênh dànhcho người tiêu dùng.
* = Số dòng: một hoặc hai đối với người tiêu dùng, nhiều hơn cho kinh
Thu thập dữ liệu dé hỗ trợ quyết định nhắn mạnh các hệ thống hoạt động
bởi vì các hệ thống này ban đầu được thiết kế dé xử lý giao dịch Dua dữ liệu vàocùng một định dạng nhất quán hầu như luôn là phần tốn kém nhất của việc triển
khai giải pháp lưu trữ dữ liệu.
Các hệ thống nguồn cung cấp những thách thức khác Họ thường chạy trênmột loạt các phần cứng, và nhiều phần mềm được xây dựng trong nhà hoặc tùybiến cao (hoặc chúng được thuê ngoài và các dữ liệu thô có thé rất khó khăn décó được) Đôi khi họ sử dụng cấu trúc tệp phức tạp và độc quyên Hệ thống máytính lớn được thiết kế để giữ và xử lý đữ liệu, không phải để chia sẻ nó Mặc dùcác hệ thống đang trở nên cởi mở hơn, việc truy cập vào dữ liệu luôn là một vấnđề, đặc biệt là khi các hệ thống khác nhau hỗ trợ rất nhiều phần khác nhau của tổchức Và, các hệ thống có thé bi phân tan theo địa lý, góp phan hơn nữa vào sự
khó khăn trong việc đưa dữ liệu lại với nhau.
1.2.2 Khai thác, chuyển đổi, và tảiCác công cụ trích xuất, chuyên đổi và tải (ETL) giải quyết vấn đề thu thậpdữ liệu từ các hệ thống khác nhau bằng cách cung cấp khả năng ánh xạ và dichuyên dir liệu từ các hệ thống nguồn sang các môi trường khác Theo truyền
thống, di chuyén dữ liệu và làm sạch là trách nhiệm của các lập trình, những
người đã viết mã mục đích đặc biệt khi nhu cầu phát sinh Mã ứng dụng cụ thé
trở nên giòn vì các hệ thông nhân và hệ thông nguôn thay đôi.
Mặc dù chương trình vân có thê cân thiệt, các san phâm hiện có san đê giải
quyết phần lớn các vấn đề ETL Những công cụ này chỉ định hệ thống nguồn và
SV: Hoàng Thu Hà — MSV: 11141103 12
Trang 18Chuyên đề thực tập chuyên ngành Toán tài chính
ánh xạ giữa các bảng và tệp khác nhau Chúng cung cấp khả năng xác minh dữ
liệu và chỉ ra báo cáo lỗi khi tải không thành công Các công cụ cũng hỗ trợ tìm
kiếm các giá trị trong các bảng (do đó, chỉ những mã sản phẩm đã biết, ví dụ,được nạp vào kho dữ liệu) Mục dich của những công cụ này là dé mô ta dữ liệutừ đâu và điều gì sẽ xảy ra với nó - chứ không phải dé viết mã từng bước dé kéodữ liệu từ một hệ thống và đưa nó vào một hệ thống khác Các ngôn ngữ thủ tục
chuẩn, chăng hạn như C ++, C #, Java, COBOL và RPG, tập trung vào từng bước
thay vì hình ảnh lớn hơn về những gì cần phải làm Các công cụ ETL thườngcung cấp giao diện siêu dit liệu, do đó người dùng cuối có thể hiểu được nhữnggì đang xảy ra với dữ liệu "của ho" trong khi tải kho trung tâm.
Loại công cụ này thường rất tốt trong việc xử lý dữ liệu mà các tác giả ngạcnhiên rằng các công cụ này vẫn được nhúng trong các phòng công nghệ thông tin
và thường không được những người khai thác dữ liệu sử dụng Mastering Data
Mining có một nghiên cứu điển hình từ năm 1998 về việc sử dụng một trongnhững công cụ này từ Ab Initio dé phân tích hang trăm gigabyte các bản ghi chitiết cuộc gọi - một lượng dit liệu có thé vẫn gây ra một thách thức cho đến ngày
nay.
1.2.3 Kho trung tâm
Kho trung tâm là trung tâm của kho dữ liệu Nó thường là một cơ sở dữ liệuquan hệ truy cập thông qua một số biến thé của SQL
Một trong những ưu điểm của cơ sở dữ liệu quan hệ là khả năng chạy trênnhững máy mạnh mẽ, có thể mở rộng được băng cách tận dụng lợi thế của nhiềubộ vi xử lý và nhiều đĩa Hau hết các gói dit liệu thống kê và khai thác dữ liệu, ví
dụ, có thê chạy nhiều luồng xử lý cùng một lúc Tuy nhiên, mỗi thread đại diệncho một tác vụ, chạy trên một bộ xử lý Phần cứng khác không làm cho bắt kỳ tác
vụ nào chạy nhanh hơn (ngoại trừ khi các tác vụ khác xảy ra can thiệp vào nó).
Mặt khác, các cơ sở dữ liệu quan hệ có thể lay một truy vấn và, về bản chất, tạonhiều luồng cùng lúc cho cùng một truy vấn Kết quả là các ứng dụng nhiều dữ
liệu trên các máy tính mạnh mẽ thường chạy nhanh hơn khi sử dụng cơ sở dữ liệu
quan hệ hơn là khi sử dụng phần mềm không phải là song song và khai thác dữliệu là một ứng dụng rất nhiều dữ liệu
Một thành phan quan trọng trong kho trung tâm là một mô hình dit liệulogic mô tả cau trúc dữ liệu bên trong một cơ sở dit liệu theo các điều khoản quenthuộc với người dùng doanh nghiệp Như đã thảo luận ở phần trước của chương
SV: Hoàng Thu Hà — MSV: 11141103 13
Trang 19Chuyên đề thực tập chuyên ngành Toán tài chính
này, mô hình dữ liệu logic khác với mô hình dữ liệu vật lý Mục đích của dữ liệuvật lý là dé tối đa hóa hiệu suất và tạo điều kiện cho công việc của quản tri viên
cơ sở dữ liệu (DBA), chăng hạn như đảm bảo an ninh, sao lưu cơ sở dữ liệu, v.v.
Mô hình dữ liệu vật lý là việc thực hiện mô hình dữ liệu lôgic, kết hợp các thỏahiệp và sự lựa chọn dọc theo con đường để tối ưu hóa hiệu suất và đáp ứng cácmục tiêu của hệ thống khác
Kho dit liệu là một quá trình Hãy cảnh giác với bat kỳ cơ sở dữ liệu lớn nàođược gọi là kho dữ liệu không có quy trình dé cập nhật hệ thống dé liên tục đáp
ứng nhu cầu người dùng cuối và các yêu cầu kinh doanh đang phát triển Mộtkho dữ liệu mà không có một quá trình thay đổi cuối cùng sẽ biến mat vào sử
dụng, bởi vì nhu câu của người sử dụng tiên triên.
Khi bắt tay vào một dự án kho dữ liệu, nhiều tổ chức cảm thấy bắt buộcphải phát trién một mô hình dữ liệu toàn diện, toàn doanh nghiệp Những nỗ lực
này thường không thành công đáng ngạc nhiên Mô hình dữ liệu logic cho kho dữ liệu không phải là tương tự như mô hình doanh nghiệp Ví dụ, mâu thuẫn giữa
các mã sản phẩm trong mô hình dữ liệu logic cho kho dữ liệu có thể được giảiquyết bằng cách bao gồm cả phân cấp sản phẩm - một quyết định mat 10 phút déthực hiện Trong nỗ lực của cả doanh nghiệp, việc giải quyết các mã sản pham
mâu thuẫn có thé yêu cầu hàng tháng điều tra và cuộc hop.
Kho dit liệu là một quá trình dé quan lý hệ thống hỗ trợ ra quyết định của hồsơ Một quá trình là cái gì đó có thé điều chỉnh cho nhu cầu của người dùng khichúng được làm rõ và thay đổi theo thời gian Kho trung tâm chính nó sẽ là mộthệ thống dễ sử dụng mà không nhận thức được rằng khi người dùng học về dữliệu và về công việc, họ sẽ muốn thay đổi và cải tiến về quy mô thời gian tiếp thị(ngày và tuần) chứ không phải là về quy mô thời gian của công nghệ thông
tin(tháng).
1.2.4 Kho lưu trữ siêu dữ liệuSiêu dt liệu cũng nên được coi là một thành phần của kho dir liệu, mặc dùnó thường bị bỏ qua Mức thấp nhất của siêu dữ liệu là giản đồ cơ sở dữ liệu, bốcục vật lý của dữ liệu Tuy nhiên, khi sử dụng đúng, siêu đữ liệu còn nhiều hơnthé nữa Nó trả lời các câu hỏi đặt ra bởi người dùng cuối về sự sẵn có của ditliệu, cung cấp cho họ các công cụ dé duyệt qua nội dung của kho dit liệu và cho
mọi người tự tin hơn vào dữ liệu Sự tự tin này là cơ sở cho các ứng dụng mới và cơ sở người dùng mở rộng.
SV: Hoàng Thu Hà — MSV: 11141103 14
Trang 20Chuyên đề thực tập chuyên ngành Toán tài chính
Một hệ thống siêu dữ liệu tốt nên bao gồm:+ Lập bản đồ từ mô hình dit liệu lôgíc tới các hệ thống nguồn
* = Sơ đồ vật lý.
+ Lap bản dé từ mô hình logic tới giản đồ vật lý.* Các khung nhìn chung và công thức dé truy cập dữ liệu Điều hữu íchcho một người dùng có thể hữu ích cho người khác
* Thong tin về tải và cập nhật
» An ninh và truy cập thông tin.
Giao diện cho người dùng cuối và các nhà phát triển, do đó, họ chia sẻ môtả tương tự của cơ sở dữ liệu Trong bất kỳ môi trường lưu trữ dữ liệu nào, mỗiphần thông tin đều có ở đâu đó - trong các kịch bản được viết bởi DBA, trong thưđiện tử, trong tài liệu, trong bảng hệ thong trong co so đữ liệu, v.v Kho lưu trữsiêu dữ liệu cung cấp thông tin này cho người dùng theo một định dạng mà họ cóthé dé dang hiểu Điều quan trọng là cung cấp cho người dùng quyền truy cập déhọ cảm thay thoải mái với kho dữ liệu, với dữ liệu chứa trong và với cách sử
dụng nó.
1.2.5 Kho dữ liệu cục bộKho dữ liệu không thực sự làm bat cứ điều gì, ngoại trừ lưu trữ và lấy dữliệu sạch sẽ, nhất quán một cách hiệu quả Các ứng dụng cần thiết dé nhận ra giátrị, và chúng thường có dạng dữ liệu cục bộ Một kho dữ liệu cục bộ là một hệthống chuyên biệt thu thập dữ liệu cần thiết cho một bộ phận hoặc các ứng dụng
có liên quan.
Các siêu dữ liệu thường được kết hợp với các hệ thống báo cáo và dữ liệutóm lược cắt Các siêu dữ liệu như vậy thường sử dụng công nghệ OLAP Mộtloại dữ liệu quan trọng khác là một môi trường thăm dò được sử dụng để khaithác dữ liệu, được thảo luận chi tiết hon trong phần về các phân tích Sandbox
Không phải tat cả các dit liệu trong các kho dữ liệu đều cần đến từ khotrung tâm Thường thì các ứng dụng cụ thể có nhu cầu riêng về dữ liệu Ví dụnhư bộ phận bất động sản có thể đang sử dụng thông tin địa lý kết hợp với dữliệu từ kho trung tâm Bộ phận tiếp thị có thé kết hợp dữ liệu nhân khẩu mã ZIPvới dữ liệu khách hàng từ kho trung tâm Kho trung tâm chỉ cần chứa dit liệu cóthé được chia sẻ giữa các ứng dụng khác nhau, do đó, nó chỉ là một nguồn dữ
liệu - thường là hệ thống thống trị - cho các kho dữ liệu.
1.2.6 Phản hồi đánh giá hoạt động
SV: Hoàng Thu Hà — MSV: 11141103 15
Trang 21Chuyên đề thực tập chuyên ngành Toán tài chính
Hệ thống thông tin phản hồi đánh giá tích hợp các quyết định dựa vào dữliệu vào hệ thống hoạt động Chang hạn, một ngân hàng lớn có thé phát triển mô
hình bán chéo dé xác định sản phẩm nào để cung cấp cho khách hàng tiếp theo.
Đây là kết quả của một hệ thống khai thác dữ liệu Đề có ích, thông tin này cầntrở lại hệ thống hoạt động để khách hàng có thể nhận được thông điệp đượcnhằm mục tiêu trong hộp thư của họ, tại ATM, giữ tại trung tâm cuộc gọi, nhưcác quảng cáo biểu ngữ khi họ đăng nhập vào ngân hàng trực tuyến và vân vân.Điều này đòi hỏi sự kết nối từ cơ sở hạ tầng hỗ trợ ra quyết định vào cơ sở hạtầng hoạt động
Phản hồi đánh giá hoạt động cung cấp khả năng đề hoàn thành chu trình đạođức của khai thác dữ liệu rất nhanh Sau khi thiết lập một hệ thống thông tin phảnhồi, sự can thiệp chỉ cần thiết dé theo dõi và cải tiến nó - để cho máy tính làmnhững gì họ làm tốt nhất (các công việc lặp đi lặp lại) và cho phép mọi người làmnhững gi ho làm tốt nhất (tìm ra các mô hình thú vị và đưa ra ý tưởng) Một trongnhững ưu điểm của các doanh nghiệp điện tử là về lý thuyết họ có thể cung cấpphản hồi như vậy cho các hệ thống hoạt động một cách tự động hoàn toàn
1.2.7 Người dùngNgười dùng là thành phần cuối cùng và quan trọng nhất trong bất kỳ kho dữliệu nào Một hệ thống không có người sử dụng không phải là giá trị xây dựng.Những người dùng cuối này là các nhà phân tích tìm kiếm thông tin, nhà phát
triển ứng dụng và người dùng doanh nghiệp hoạt động trên thông tin
1.2.7.1 Các nhà phân tích
Các nhà phân tích muốn truy cập càng nhiều dữ liệu càng tốt để phân biệtcác mô hình và tạo các báo cáo đột xuất Họ sử dụng các công cụ chuyên dụng,
chăng hạn như các gói thống kê, dữ liệu công cụ khai phá dữ liệu và bảng tính.
Thông thường, các nhà phân tích được coi là đối tượng chính cho các kho dữ
liệu.
Thông thường, mặc dù, chi cần một vài người kỹ thuật tinh vi rơi vào théloại này Mặc dù công việc mà họ làm là rất quan trọng, việc giải thích cho mộtkhoản đầu tư lớn dựa trên sự gia tăng năng suất của họ là rất khó Chu trình đạođức của khai thác dữ liệu đi vào hoạt động ở đây Một kho dữ liệu tập hợp dữ
liệu dưới dạng đã được làm sạch va có ý nghĩa Tuy nhiên, mục đích là dé thúcđây sự sáng tạo, một khái niệm rất khó dé đo lường
Các nhà phân tích có nhu cau rat cụ thê vê kho dữ liệu:
SV: Hoàng Thu Hà — MSV: 11141103 16
Trang 22Chuyên đề thực tập chuyên ngành Toán tài chính
+ Hệ thống phải đáp ứng Phần lớn công việc của các nhà phân tích là trả lờicác câu hỏi cấp bách băng cách sử dụng các phân tích ngẫu nhiên hoặc các truy
vân ngau nhiên.
¢ Dữ liệu cân phải nhât quán trên cơ sở dữ liệu Nghĩa là, nêu một khách hàng bat dau vào một ngày cụ thê, thì lân xuât hiện đâu tiên của một sản phâm, kênh, vân vân nên được chính xác vào ngày đó.
* Dữ liệu cần phải nhất quán theo thời gian Một lĩnh vực mà có một ý nghĩađặc biệt bây giờ nên có cùng một ý nghĩa sẽ trở lại trong thời gian Ít nhất, sựkhác biệt cần được ghi chép lại hoặc kết hợp vào các kích thước thay đổi từ từ
* Các nhà phân tích phải có kha năng đi sâu vào cấp độ khách hàng và tốtnhất là chi tiết mức giao dịch dé xác minh các giá trị trong kho dữ liệu và dé pháttriển các tóm tắt mới về hành vi của khách hàng Các nhà phân tích đặt một tảinặng vào kho dữ liệu, và cần truy cập vào các thông tin phù hợp một cách kịp
thời.
1.2.7.2 Nhà phát triển ứng dụng
Kho dữ liệu thường hỗ trợ một loạt các ứng dụng (nói cách khác, data marts
có nhiều hương vị) Để phát triển các ứng dụng ổn định và mạnh mẽ, các nhàphát triển có một số nhu cầu cụ thé từ kho dữ liệu
Thứ nhất, các ứng dụng cần phải được bảo vệ khỏi những thay đổi trong cầutrúc của kho dir liệu Các bang mới, các lĩnh vực mới, va tô chức lại cấu trúc củacác bảng hiện có nên có tác động tối thiêu đến các ứng dụng hiện có Quan điểmđặc biệt dành riêng cho từng ứng dụng về dữ liệu giúp cung cấp sự đảm bảo này.Mở giao tiếp và kiến thức về những gì các ứng dụng sử dụng mà thuộc tính và
các thực thé có thé ngăn chặn sự tắc nghẽn phát trién
Thứ hai, các nhà phát triển cần truy cập vào các giá trị trường hợp lệ và đểbiết những gì các giá trị có ý nghĩa Đây là mục đích của kho siêu dữ liệu cungcấp tài liệu về cau trúc dữ liệu Bằng cách thiết lập ứng dung dé xác minh giá trịdữ liệu so với giá tri dự kiến trong siêu dữ liệu, các nhà phát triển có thé tránh
được các vân đê thường chỉ xuât hiện sau khi ứng dụng đã được triên khai.
Các nhà phát triển cũng cần cung cấp phản hồi về cấu trúc của kho dit liệu.Đây là một trong những phương pháp chính dé cải thiện kho, bằng cách xác định
dữ liệu mới cần được bao gồm và bằng cách khắc phục sự cố với dữ liệu đã đượctải Bởi vì nhu cầu kinh doanh thực sự thúc đây sự phát triển của các ứng dụng,
SV: Hoàng Thu Hà — MSV: 11141103 17
Trang 23Chuyên đề thực tập chuyên ngành Toán tài chính
sự hiệu biệt vê nhu câu của các nhà phát triên là rat quan trọng đê đảm bảo rangmột kho đữ liệu chứa đựng dit liệu nó cần dé mang lại giá trị kinh doanh
Kho dữ liệu sẽ thay đôi và các ứng dụng sẽ tiếp tục sử dụng nó Chia khóadé đưa ra thành công là kiểm soát và quản lý những thay đổi Các ứng dụng dànhcho người dùng cuối Kho dữ liệu có dé hỗ trợ nhu cầu dữ liệu của họ chứ không
phải ngược lại.
1.2.7.3 Người dùng doanh nghiệp
Người dùng doanh nghiệp là những người tiêu cực cuối cùng của thông tinthu được từ kho dit liệu của công ty Nhu cau của họ thúc đây sự phát triển củacác ứng dụng, kiến trúc của kho hàng, dữ liệu chứa trong, và các ưu tiên dé thực
Quan trọng hơn, là những người sử dụng máy tính trên bàn làm việc của họ
không chỉ là e-mail và Facebook và có thể tận dụng truy cập trực tiếp vào môi
trường lưu trữ dữ liệu Thông thường, những người dùng này truy cập trung tâm
dữ liệu marts để đáp ứng phần lớn nhu cầu thông tin của họ bằng cách sử dụngthân thiện, các công cụ đồ họa chạy trong môi trường máy tính quen thuộc củahọ Các công cụ này bao gồm trình tạo truy vấn không theo yêu cầu, ứng dụngtùy chỉnh, giao điện OLAP, công cụ truy vấn theo định dạng Excel và các côngcụ tạo báo cáo Đôi khi, người dùng doanh nghiệp có thể tìm hiểu sâu vào khotrung tâm dé khám phá những điều đặc biệt thú vị mà họ tìm thấy trong dit liệu
Thông thường, họ sẽ liên lạc với một nhà phân tích và yêu cầu họ thực hiện côngviệc phân tích nặng hơn hoặc chuẩn bị một trích xuất dit liệu cho Excel
Người dùng doanh nghiệp cũng có các ứng dụng được xây dựng cho các
mục đích cụ thé Các ứng dụng này thậm chí có thé kết hợp một số kỹ thuật khaithác dữ liệu Ví dụ, một ứng dụng lập kế hoạch tài nguyên có thể bao gồm một
công cụ tối ưu hóa tiến độ sử dụng thuật toán di truyền Một ứng dụng dự báo
bán hàng có thé đã tích hợp sẵn các mô hình phân tích ton tại
SV: Hoàng Thu Hà — MSV: 11141103 18
Trang 24Chuyên đề thực tập chuyên ngành Toán tài chính
Khi được xử lý trong một phần mềm, các thuật toán khai thác dữ liệuthường được giấu kín từ những người dùng cuối, những người quan tâm nhiều
hơn đến các kết quả so với những thuật toán đã tạo ra chúng
1.3 Xử lý dữ liệu kho
1.3.1 Quy trình chungMáy tính cá nhân của nhân viên, kết nối mạng nội bộ EDW, truy cập vào hệthống nguồn qua Import, nhập user, password, là có thể kết nối lên SPSSModeler hoặc phần mềm R Sau khi chiết suất dữ liệu sẽ thông qua SPSS
Collaboration and Deployment Services (SPSS Collaboration and Deployment
Services: cho phép triển khai và chia sẻ các phân tích dự báo trên toàn doanh
nghiệp Giải pháp cung cấp lưu trữ tập trung, an toàn các tài sản phân tích và các
khả năng nâng cao đề quản lý và kiểm soát các quy trình phân tích tiên đoán Nócũng cung cấp các cơ chế nâng cao dé cung cấp kết quả phân tích cho ngườidùng.) Kết quả sẽ xuất đưới dạng bang được đây vào Database trong Data Mart.Các dữ liệu sinh ra sẽ được xử lý bằng phần mềm MySQL đính kèm khi mua góithống kê
1.3.2 Phần mềm thống kê xử lý số liệuMột xu hướng đang trở nên phô biến đang áp dụng trực tiếp các phan mềmphân tích tiên tiến hơn vào cơ sở dữ liệu Bởi vì cơ sở dữ liệu rất giỏi xử lý dữ
liệu - và các cơ sở dir liệu mạnh mẽ tận dụng quá trình xử lý song song - đây là
một cách hay để mở rộng chức năng của SQL, làm cho nó có thể sử dụng một
data mart hoặc kho dữ liệu như là một sandbox phân tích.
Vào giữa những năm 1990, gói phần mềm khai thác dữ liệu Clementine đãbắt đầu cung cấp cho khai thác dữ liệu "trong cơ sở dữ liệu" Điều này cho phépgói phần mềm tận dụng các cơ sở dữ liệu cho một số công việc xây dựng môhình và chấm điểm Cơ sở dữ liệu đầu tiên hỗ tro Clementine được sản xuất bởimột công ty có tên là Tandem Tiến hành trước một vài năm, Clementine hiện làmột phần của IBM (ISL, người sáng tạo ban đầu của Clementine, được mua bởiSPSS, mà IBM đã mua) và Tandem hiện là một phần của HP (Tandem trở thành
Digital trở thành Compaq trở thành HP) và Clementine vẫn hỗ trợ xử lý trong cơ sở đữ liệu.
Bắt đầu vào năm 2002, phần mềm Oracle Data Mining đã bắt đầu di chuyểntất cả các chức năng khai thác dữ liệu trực tiếp vào cơ sở dữ liệu Điều này làmtăng tốc độ các thuật toán bởi vì chúng có thé truy cập dữ liệu trực tiếp thông qua
SV: Hoàng Thu Hà — MSV: 11141103 19
Trang 25Chuyên đề thực tập chuyên ngành Toán tài chính
công cụ cơ sở dit liệu và cũng bởi vì chúng có thé tận dụng các khả năng songsong của nó Ké từ đó, Oracle đã mở rộng đáng ké chức năng khai thác dữ liệu
của phân mêm.
Vì phần mềm của SAS rất phô biến nên những nỗ lực của SAS trong lĩnhvực này cũng rat quan trọng Các nhà cung cấp cơ sở dit liệu đang triển khai mộtsố SAS nguyên thủy trong cơ sở dữ liệu và phạm vi chức năng sẽ chỉ phát triểntrong tương lai Điều này cho phép phần mềm SAS - thường không được chophép song song - đê tận dụng sức mạnh của các cơ sở đữ liệu quan hệ.
Một bước đi theo hướng này được cung cấp bởi các công ty như FuzzyLogix, mở rộng cơ sở dữ liệu sử dụng các hàm do người dùng định nghĩa Góicủa nó cung cấp một loạt các thói quen thống kê và khai thác dữ liệu có thê đượcgọi trực tiếp từ SQL Tất nhiên, các chức năng này không phải là một phần củatiêu chuẩn SQL
1.3.3 Xử lý dir liệu theo yêu cầu quan tri
1.3.3.1 Quản trị rui ro
Công việc có vai trò quan trọng trong quy trình quản trị rủi ro là giai đoạn
thu thập các dữ liệu rủi ro trong quá khứ và hiện tại theo các nguồn khác nhau:
e Tt các hoạt động nghiệp vụ, các phòng/ban/đơn vi trong hệ thống (ở
đây các trưởng phong/ban/don vi có trách nhiệm khai báo và lưu trữ các rủi ro phát sinh trong quá trình tác nghiệp);
e Cac bộ phận giám sát, kiểm soát có trách nhiệm khai báo và lưu trữ cácrủi ro phát sinh trong quá trình kiểm tra, kiểm soát;
e = Chiết xuất lỗi, sự cô và tôn thất từ các hệ thống khác trong ngân hàng
như: core banking, các module: internet banking, thẻ, treasury,
e Ngoai ra còn từ các nguồn cung cấp dữ liệu tốn that bên ngoài như:
ORX - Operational Riskdata eXchange, BIS -— Bank of International
Settlement hoặc từ các sự kiện rủi ro đã được báo chi dang tải, sử dung các
nguôn di liệu bên ngoài và giả sử các sự kiện rủi ro hoặc các lỗi gây ra rủi ro ảnhhưởng đến hoạt động của ngân hàng minh dé xác định mức độ tổn thất có thé gây
Ta.
1.3.3.2 Chiến lược Marketing
SV: Hoàng Thu Hà — MSV: 11141103 20
Trang 26Chuyên đề thực tập chuyên ngành Toán tài chính
Dé phục vụ mục đích Marketing, ngân hàng sẽ tiến hành phân cụm kháchhàng qua phần mềm SPSS Khi khách hàng phát sinh giao dịch thanh toán qua
kênh chuyển khoản ngân hoàng hoặc liên ngân hàng, thanh toán trực tuyến
Internet Banking, Mobile Banking, POS ở siêu thị, nhà hàng, hệ thống sẽ ghilại thời gian, địa điểm, chỉ tiêu nhiều hay ít, có bao nhiêu loại thẻ, sử dụng nhiềunhất loại thẻ nào Dữ liệu khách hàng sẽ báo cáo qua cụm mới, từ đó đưa ra chiếnlược Marketing đến những người ít dùng thẻ để họ sử dụng thẻ nhiều hơn
SV: Hoàng Thu Hà — MSV: 11141103 21
Trang 27Chuyên đề thực tập chuyên ngành Toán tài chính
CHƯƠNG 2: KHO DỮ LIỆU TẠI NGÂN HÀNG VÀ HỆ THONG QUAN TRI DU LIEU KHÁCH HÀNG SỬ DỤNG THE.
2.1 Kho dữ liệu ngân hang2.1.1 Giới thiệu về MySQLSQL là một ngôn ngữ chuẩn hóa dé xác định và thao tác dữ liệu trong một
cơ sở dir liệu quan hệ.
Theo mô hình dữ liệu quan hệ, cơ sở dữ liệu được coi như một tập hợp các
bảng, các mối quan hệ được biểu diễn bằng các giá trị trong bảng và dữ liệu đượclay ra bang cách xác định bảng kết quả có thé được lấy từ một hoặc nhiều bảng
co SỞ.
Các câu lệnh SQL được thực thi bởi một trình quản ly cơ sở dữ liệu Một
trong các chức năng của trình quản lý cơ sở dit liệu là chuyển đổi đặc tả của bảngkết quả thành một chuỗi các hoạt động nội bộ để tối ưu hóa việc truy xuất dữ
liệu Sự biên đôi xảy ra theo hai giai đoạn: chuân bị và ràng buộc.
Tất cả các câu lệnh SQL thực thi phải được chuẩn bị trước khi chúng có théđược thực thi Kết quả của việc chuẩn bị là hình thức thực thi hoặc hoạt động của
tuyên bố Phương thức chuẩn bị một câu lệnh SQL và sự tồn tại của biểu mẫu
hoạt động của nó phân biệt SQL tinh từ SQL động.
MySQL là một hệ thống quan tri cơ sở dữ liệu quan hệ nhanh (RDBMS), dễsử dụng được sử dụng cho nhiều doanh nghiệp nhỏ và lớn MySQL được pháttriển, tiếp thi và hỗ trợ bởi MySQL AB, một công ty của Thụy Điển MySQLđang trở nên phô biến vì nhiều lý do:
e MySQL được phát hành theo giấy phép nguồn mở Vì vậy, không pháitrả tiền dé sử dụng nó
e MySQL là một chương trình rất mạnh mẽ theo đúng nghĩa của nó Nóxử lý một tập con lớn các chức năng của các gói cơ sở dữ liệu đắt tiền và mạnhnhất
e MySQL sử dụng một dạng chuẩn của ngôn ngữ dữ liệu SQL nỗi tiếng.e MySQL hoạt động trên nhiều hệ điều hành và với nhiều ngôn ngữ baogồm PHP, PERL, C, C ++, JAVA, v.v
e MySQL hoạt động rat nhanh và hoạt động tốt ngay cả với các tập dữ
liệu lớn.
SV: Hoàng Thu Hà — MSV: 11141103 22
Trang 28Chuyên đề thực tập chuyên ngành Toán tài chính
e MySQL rat thân thiện với PHP, ngôn ngữ được đánh giá cao nhất déphát triển web
e MySQL hỗ trợ co sở dữ liệu lớn, lên tới 50 triệu hàng hoặc nhiều hơntrong một bảng Giới hạn kích thước tệp mặc định cho một bảng là 4GB, nhưngcó thé tăng điều này (nếu hệ điều hành của máy tính có thé xử lý nó) với giới hạnlý thuyết là 8 triệu terabyte (TB)
MySQL là tùy chỉnh Giây phép nguồn mở cho phép các lập trình viênsửa đổi phan mềm MySQL dé phù hợp với môi trường riêng của ho
| Context Help | Snippets
© server status mHZØZãO 8E Beate @ © (seuect
EL Client Connections Net ‘actor's actor jd",
Topic: SELECT
& Users and Privileges 2 actor’ first_name’, tax
[Sl Status and System Variables 3 actor`,`last name `, tiện
& bata Export : _ DISTINCTROW ]
5 FROM `sakila`.`actor`; THTEH,_ĐR10RTTY]
&; ata Import/Restore 6 [STRATGHT_JOIN]
7 ®_ SELECT `flm`.'film Id`, {SQL_SMALT_RESULT)
INSTANCE 8 film’.*title’, {S0L_BG RESULTỊ
G startup / Shutdown 9 film’.*description”, {SQLSUFFER- RESULT]
10 film’ release year’, SQL_NO_CACTE]
n film*.*language_id", {sat & Options File 2 'film`,`original_language_id`, No
3 flm`.` rental_duratlon`, si bie “
MySQ1 ENTERPRISE 1⁄4 film`,` rental_rate `, [WHERE wheri on]
& Audit inspector 15 film’ length`, (ERBUE BY (c
expr | position
ch Online Backup He pid fs ri al [ASC | DESC]
ha Backup Recove: z sa lic Si (WITH R0LLUP]]p v 18 film*.* special features”, TKAVING where_condïtion]
Rr sia [ORDER BY {col_nane | 2 _
SCHEMAS ew | AOL aks - expr | position)
GREET Result Set Filter: (Q, 4 | tức: cA E> Eb | txporImpor: [Gy ify | Fetch rows: EP => TASC | DESC, = -1
— film_id title description release year language.id original langua rentai duraion _rental_rate length TH ar
ee, 1 ‘ACADEMY DIN A Epic Drama 2006 1 = 6 0.99 86
> a 2 ‘ACE GOLDFIN A Astounding 2006 1 3 4.99 48 g He
vial fim 3 ADAPTATION A Astounding 2006 1 7 2.99 50 CHƯNG
ng 4 AFFAIR PREJU A Fanciful Doc 2006 1 mm 5 2.99 117 filename’ —
Si 5 AFRICANEGG A Fast-Paced 2006 1 6 2.99 130 CE
6 AGENT TRUMAN A Intrepid Pan 2006 1 3 2.99 169 “export_options
© description 7 AIRPLANE SIERRA A Touching Sa 2006 1 6 4.99 62 dite 11810 OUNPFILE
@ release year 8 AIRPORT POLL A Epic Tale of 2006 1 6 4.99 54 Phá ai
language lở 9 ALABAMA DEVIL A Thoughtful 2006 1 = 3 2.99 114 {| var_nane]]
{FOR UPDATE | LOCK IN
© original languag | 10 ALADDIN CAL A Action-Pack 2006 1 6 4.99 63 27] share Mover? rental_duration
X tệp ri) N2 SELECT is used to retrieve rows
© rental_rate Apply Revert | selected trom one or more tables, and
— ‘ean inclide UNION statements and
tion Output; ‘subquories See UNION, and Online help
Object info | Session
= ets Time Action Response Duration / Fetch Time | subqueries
: CĐ 1Ð 25:03:10 SELECT Rm-tRimie, 'HÌm' túe, “Hm`.'desơipdon., 999 row(s) returned 0.015 sec / 0.136 sec | The most commonly used clauses of
Columns: © 2 230315 SELECT “filmTM.“filmid*, ` `lm`.`đescriptlen`, Error Code: 1054 Unknown column ‘film”length' in’ 0.004 sec SELECT statements are these:
i `Blm`.`Rlm.id`, ` `flm`.`đescription` row(s) retur
a s © 3 230318 SELECT `'fRim'`.`flm id`, „ — 'flm`.`đescription`, 999 row(s) returned 0.001 sec / 0.019 sec | | exon select apr indicates a
title 5 column that you want to retriove.
descri tion releas @yea year(4
Kiến trúc hệ thống được đề xuất được thiết kế dé khắc phục cung cấp một
Tổng quan dữ liệu ngân hàngmôi trường mạnh mẽ Các tính năng chính cho kiến trúc hệ thống được đề xuất
Trang 29Chuyên đề thực tập chuyên ngành Toán tài chính
* Dé báo cáo gần việc thu thập dữ liệu theo thời gian thực cho dit liệu hoạtđộng.
* Dé phát triển dit liệu khu vực chủ đề cho các trang tổng quan và Báo cáo
OLAP.
* Để làm việc với các thành phan MDM / CDI để cung cấp quan điểm duynhất của doanh nghiệp, mối quan hệ khách hàng
* Dé di chuyền dữ liệu và báo cáo từ hệ thống và nền tảng MIS hiện có
- Đề phục vụ cho việc tăng khối lượng dt liệu trong 5 năm tới.
* Đề tích hợp nhiều kênh phân phối như web, email, thiết bi di động, v.v
* Dé cho phép phân tích đa chiều mô hình OLAP cho phép cắt, thu nhỏ các kích thước.
» Cung cap các biêu mau và báo cáo băng ca tiêng Anh và tiêng Việt.
» Dé cải thiện hiệu suât truy van và báo cáo.
* Dé hỗ trợ tùy chỉnh, Khai thác dữ liệu và Phân tích thống kê nâng cao
trong tương lai.
2.1.3 Cau trúc kho dữ liệu
=
SMSB Internet Banking
Data Warehouse Data Mart
User Access Layer
Trang 30Chuyên đề thực tập chuyên ngành Toán tài chính
2.1.3.1 Lớp nguồnThành phần này của kiến trúc logic chỉ ra các nguồn dữ liệu khác nhau choKho dữ liệu Các nguồn dir liệu có thể được phân loại rộng rãi thành hai loại:
e Nộibộ
e Bên ngoài
Dữ liệu nội bộ tương ứng với dữ liệu ton tại trong các ứng dụng hoạt độngkhác nhau của các hệ thống hoạt động của công ty như lõi ngân hàng (CoreBanking) Dữ liệu từ các hệ thống nguồn này sẽ được trích xuất thông qua khuvực lưu trữ dữ liệu trung gian như dàn dựng, sao lưu bằng phương pháp kéo bằng
công cụ ETL Nếu dit liệu được đây từ hệ thống nguồn, định dạng dữ liệu tệp
phăng được sử dụng và được lưu trữ trong lớp BODS
Dữ liệu bên ngoài đề cập đến dữ liệu chứa trong Công ty, nhưng không phảilà một phần của bat kỳ ứng dụng chính thức nào Dữ liệu tổ chức không phải làmột phần của các ứng dụng hoạt động được nhóm theo dữ liệu bên ngoài vìphương pháp truy cập là như nhau.
2.1.3.2 Lớp dàn
e Thiết kếCác tệp nguồn từ cơ sở dữ liệu hệ thống nguồn và nguồn bên ngoài sẽ đượcnạp vào tầng dàn dựng Sau đó, dữ liệu từ các bảng dàn dựng sẽ được làm sạchtheo các phương pháp hay nhất của Data Warehouse và CDC (Thay đổi quá trìnhthu thập dữ liệu, so sánh với dữ liệu ngày làm việc trước đó) sẽ được thực hiệnnếu hệ thống nguồn không thể cung cấp dữ liệu giao dịch delta Nếu bất kỳ thayđổi định dạng dữ liệu nào được yêu cầu do quá trình di chuyển dữ liệu của hệ
thống nguồn, định dạng dữ liệu sẽ được chuyển đổi theo quy tắc di chuyển dữ
liệu Sau khi xử lý trên được thực hiện, dữ liệu được nạp vào một lớp được gọi là
IFS (Giao diện tập tin giao diện) chứa trong co sở dữ liệu Sybase IQ Lớp IFS vềcơ bản là một tập hợp các bảng được cau trúc theo cách sao cho dữ liệu từ các hệthống nguồn khác nhau được chuyên đổi thành một cấu trúc có thể nén gọn với
các bảng DWH.
e - Điểm kiểm tra hòa giải dit liệuThống kê dữ liệu đủ điều kiện sẽ được ghi lại tại thời điểm này để quy trìnhđiều chỉnh dữ liệu được kiểm tra trong toàn bộ quá trình tải dữ liệu
e Lưu trữ dữ liệu
SV: Hoàng Thu Hà — MSV: 11141103 25
Trang 31Chuyên đề thực tập chuyên ngành Toán tài chính
Việc lưu giữ dữ liệu theo giai đoạn sẽ được đề cập trong tài liệu dự án
SOW.
2.1.3.3 Lớp lưu trữ dữ liệu hoạt động (ODS) e ODS
Dữ liệu từ co sở dữ liệu nguồn hoặc từ cơ sở dữ liệu dàn dựng sẽ được tải
lên lớp ODS sau khi làm sạch dữ liệu và xử lý CDC Dữ liệu cũng sẽ được tích
hợp để cung cấp nguồn dữ liệu cho yêu cầu dữ liệu hạ lưu và dữ liệu kho
se Lưu trữ dữ liệu
Lưu giữ dữ liệu ODS sẽ được đề cập trong tài liệu dự án (SOW)
2.1.3.4 Lớp lưu trữ dữ liệu (DWH) e - Kho dữ liệu (DWH)
Dữ liệu được làm sạch và hợp nhất từ cơ sở dữ liệu nguồn và ODS sau đóđược chuyền đổi và được đưa vào kho thông qua các bảng IFS Lớp này là mô
hình dữ liệu iDecisionsTM được tùy chỉnh cho Công ty Các bảng ở dang quan
hệ chuan hóa, bao gồm dữ liệu giao dịch và dữ liệu chủ Lớp này sẽ được phânphát dưới dạng nguồn chính cho các báo cáo truy vấn kinh doanh, yêu cầu dữ
liệu của ứng dụng phân tích và hạ lưu.
e - Quá trình tải dữ liệu
Dữ liệu được tai trong DWH chủ yếu được phân loại thành ba nhóm, dữ liệutham số, dữ liệu chủ và dữ liệu giao dịch Dữ liệu tham số là dữ liệu tĩnh, đượcduy trì trong DWH dưới dạng ảnh chụp nhanh cuối cùng của dữ liệu hoạt động.Dữ liệu chính có thể là dữ liệu chụp nhanh hoặc dữ liệu lưu giữ lịch sử Dựa trêncau trúc dữ liệu nguồn, có thé có dit liệu giao dịch được hợp nhất với dữ liệu chủ.Dữ liệu giao dịch sẽ được duy trì tại DHW giống như chỉ tiết như trong hệ thống
SV: Hoàng Thu Hà — MSV: 11141103 26
Trang 32Chuyên đề thực tập chuyên ngành Toán tài chính
theo cấp độ chi tiết theo yêu cầu nghiệp vụ trong Data Mart Lop Data Mart cũnglà mô hình dit liệu iDecisionsTM được tùy chỉnh theo yêu cầu nghiệp vụ của
liệu DWH Một lớp trình bày được xây dựng trên lớp truy cập đọc cơ sở dữ liệu
là một giao diện dễ sử dụng để người dùng cuối truy vấn và phân tích dữ liệunghiệp vụ Báo cáo nguồn / báo cáo nguồn được xác định trước cũng được tạobằng giao diện này Lớp giao diện người dùng cuối như Vũ trụ và báo cáo sẽđược tạo bằng các thành phần BO Enterprise như BO Designer, BO WebIntelligence, vv Giao diện người dùng cuối này sẽ cung cấp một nền tảng dé xem
và tạo báo cáo, thực hiện truy vân đặc biệt.
Bang chi tiết hoặc bảng tóm tắt được tạo từ Datamart dựa trên yêu cầunghiệp vụ dé tạo thuận lợi cho báo cáo Tùy thuộc vào các thuộc tính và độ chitiết của dit liệu được báo cáo, lớp ứng dụng BO sẽ chon các bảng thích hợp dé
tạo báo cáo.
Các báo cáo có thể được tạo ra thông qua thành phần BOBI được gọi làInfoview và có thể được tải xuống dưới dạng định dạng pdf hoặc MS excel.Ngoài ra, việc tạo báo cáo có thể được lên lịch trong công cụ và được chia sẻ với
người dùng qua email hoặc đường dẫn mạng.
2.1.4 Xử lý dữ liệu khoSau khi kho dit liệu được đưa vào sử dụng thì yêu cầu rat quan trọng là nóphải được quản lý và theo déi thường xuyên, sao cho đảm bảo thông suốt chongười dùng khai thác thông tin hiệu quả nhất Việc quan trị kho dữ liệu bao gồm
Trang 33Chuyên đề thực tập chuyên ngành Toán tài chính
e Kiểm tra quá trình tích hợp thường xuyên
e = Quản lý và cập nhật kho siêu dữ liệu e - Giám sát và lập các báo cáo vê tình hình sử dung và trạng thái của kho
dữ
liệu như thời gian sử dụng, số người khai thác, thời gian dap ứng các yêucau
e - Quản lý qui trình sao lưu.
e Lap kế hoạch san sàng phục hồi kho dữ liệu khi có sự cô.e Lập kế hoạch dé nâng cấp và mở rộng hệ thống đĩa, bộ nhớ, băng
thông sẵn sàng cho sự gia tăng kích cỡ của kho dữ liệu theo thời gian.
e Lap kế hoạch lưu trữ bớt các dữ liệu cũ không cần thiết cho việc khaithác ra các thiết bị lưu trữ ngoài kho dữ liệu
e Lap kế hoạch mở rộng phạm vi dữ liệu của kho dữ liệu khi yêu cầunghiệp vụ thay đổi
2.2 Tinh huống hệ thống thông tin khách hang giao dich thé2.2.1 Hệ thống nguồn dữ liệu khách hàng
Một cách chung nhất hiện nay, thì khách hàng được hiểu là những ngườimua hàng nhằm thỏa mãn nhu cầu tiêu dùng cá nhân hoặc thỏa mãn nhu cầu củatô chức Khách hàng cũng được định nghĩa là những cá nhân, tổ chức có nhu cầu,có khả năng thanh toán và đang hướng tới doanh nghiệp dé được thỏa mãn nhu
` A
cau.
Ngân hang là một doanh nghiệp, và sản phẩm mà ngân hang bán ra là các dịch vụ ngân hàng Kinh doanh thẻ là một hoạt động kinh doanh của ngân hang,
do đó, các dịch vụ đi kèm thẻ thanh toán chính là các sản phẩm mà khách hàng
mua được từ ngân hàng Khách hàng chính là mục tiêu mà các hoạt động của
doanh nghiệp nói chung và các ngân hàng nói riêng nhắm tới, bởi thông qua “láphiếu đồng tiền” của mình, khách hàng quyết định sự tồn vong của mọi doanhnghiệp trong nền kinh tế Chính vì vậy, khách hàng là đối tượng trung tâm màcác hoạt động của doanh nghiệp phải luôn xoay quanh, lấy họ làm trọng tâm dé
hướng tới phục vụ.
Tùy theo từng tiêu thức khác nhau mà người ta có thê phân loại khách hàng
của doanh nghiệp thành từng nhóm khác nhau Tuy nhiên, theo mục đích nghiên
cứu của đê tài, chỉ xét tình hình cụ thê của thị trường và đặc điêm sản phâm của
SV: Hoàng Thu Hà — MSV: 11141103 28