1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyên đề thực tập: Dữ liệu kho (Data Warehouse) và Xử lý dữ liệu Kho hỗ trợ chiến lược khách hàng sử dụng thẻ tại ngân hàng

67 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Chuyên đề thực tập chuyên ngành Toán tài chínhLỜI MỞ ĐẦU 1.Tính cấp thiết của đề tàiKé từ khi giới thiệu máy tính vào các trung tâm xử lý dữ liệu một vài thập kytrước đây, chỉ cần về mọi

Trang 1

Chuyên đề thực tập chuyên ngành Toán tài chính

Em xin chân thành cảm ơn thầy cô giáo trong khoa Ứng dụng toán trong tàichính đã tận tình giảng dạy, hướng dẫn và truyền đạt kiến thức trong suốt quá

trình học tập và thực hiện chuyên đề.

Em xin chân thành cảm ơn bạn bè thuộc lớp Toán tài chính K56 đã giúp em

tìm kiếm tài liệu, tìm kiếm nguồn tham khảo dé hoàn thành chuyên đề này

Mặc dù em đã rất cé gang hoàn thiện chuyên dé này bằng tất cả sự nhiệttình và năng lực của mình, song không tránh khỏi những thiếu sót hoặc có nhữngnghiên cứu chưa sâu Rất mong nhận được sự chỉ bảo và thông cảm của các thầy

cô.

Hoàng Thu Hà

SV: Hoàng Thu Hà — MSV: 11141103

Trang 2

Chuyên đề thực tập chuyên ngành Toán tài chính

MỤC LỤC

CHUONG 1: LY THUYET KHO DU LIỆU 2-2 52522££2£s=s2 3

1.1 Tổng quan về dữ liệu :-2-©5¿+SE+EE+EE£SEEEE2EEEEEEEEE2EE22171 71.2121 rxe 3

1.1.1 Cau trúc của dữ liệu ¿-c- 5s St+k+EEx+ESEEEESEEEEEEEEEEEEEEEEEEEEEEEkrErrkrkekree 4

1.1.2 Dữ liệu giao dịch, MUC CƠ SỞ - c5 3 132 11 vn re 5

1.1.3 Dữ liệu tóm tắt hoạt động - - + 2 2 ++E£+E£EE£EEEEEEEEEEEEEkrrkrrerree 61.1.4 Dữ liệu tổng hợp hỗ trợ ra quyết định - + 5 + scz+zezxz+se2 71.1.5 Sơ đồ cơ sở dit liệu - Mô hình dữ liệu 2- ¿sec 7

1.1.6 Siêu dữ liệu (Metadata) - - ĂĂĂ S211 ng ra 9

1.1.7 Quy tắc kinh doanh với dữ liệu 2-2-2 ©5£+£+£x+£xzEzrszrxees 91.2 Cấu trúc Kho dữ liệu ¿- 2+2<+2E+2E2EEEEEEEE2E211271 712121 EU 10

1.2.1 HG Si án DO Nớẽo.'Ổ3 Ỏ 101.2.2 Khai thác, chuyển đổi, và tải ¿ 5¿©2+22++cx++zxvzrxerxeerxesrxee 12

1.2.3 Kho trung (ÂIm - 5 << 11k KH ng 13

1.2.4 Kho lưu trữ siêu dữ liệu - <5 555 22111 *E**** 222 VEEEeeessseeeeree 14 1.2.5 Kho dữ liệu cục DO - - - << E1 22301111 111923111111 111 ng vn 15

1.2.6 Phản hồi đánh giá hoạt động ¿2 2c<2E22EcEEEeEkerkerxrrkrex 15

1.3.3.2 Chiến lược Marketing - 2 52+2z+EEeEEEE2EEEEEEEErErrkerkrree 20

CHUONG 2: KHO DU LIEU TẠI NGAN HÀNG VA HỆ THONG QUAN

TRI DU LIEU KHACH HÀNG SU DUNG THẺ 2 s22 22

2.1 Kho dữ liệu ngân hang - - 5 11H HH ng 22

2.1.1 Giới thiệu về MySQL -2- 5:22 222‡EE2EE2EEEEEEEEECSrkrrrkerkerree 222.1.2 Tổng quan dữ liệu ngân hàng -¿ 2¿+¿©++2x++zxzzxerxesred 232.1.3 Cau trúc kho dit liệu ¿- 2 + s£+S£+E+£EE£EEEEEEEEEEEEEErrErrkrrkerkeee 24

SV: Hoàng Thu Hà — MSV: 11141103

Trang 3

Chuyên đề thực tập chuyên ngành Toán tài chính

2.1.3.1 Lớp nguÖn -:- + 25225222 EEEEEEEEE1211211211217111 1111111 xeE 25

2.1.4 Xử lý dữ liệu kho -2¿- 5c s22 ESEE2 1211271127121 71111211 cre 27

2.2 Tình huống hệ thống thông tin khách hàng giao dịch thẻ - 28

2.2.1 Hệ thống nguồn dữ liệu khách hàng 2-2 ¿+ s2 s+£zz£zzse2 28

2.2.1.1 Ngudn dữ liệu nội bộ 2- 2 5¿22++2x++£x++zxczrxerxerrxerrxee 292.2.1.2 Nguồn dữ liệu bên ngoài - 2 2 s+E2E2EEeEEerEzrxerxerxeee 29

2.2.2 Khai thác dữ liệu khách hàng - - + + 1k E*sskEseeerseeeeeeee 30

2.2.2.1 Truy cập hệ thống nguồn dé chiết suất dữ liệu 302.2.2.2 Điều chỉnh dữ liệu khách hàng - 2-2 ++52+c++zs+zxcred 31

2.2.2.3 Cập nhật kho dữ liệu với dữ liệu đã được điều chỉnh 32

2.2.3 Khai thác thông tin từ kho dữ liệu 2- 22 <+2z++x£+£xzxxsrxesred 33

2.3 Yêu cau xử lý dữ liệu khách hang giao dịch thé dé hỗ trợ chiến lượctăng thị phần -¿- ¿52+ EEEEEEE1EE12112112111 1111111111111 11111111 cye 33

2.3.1 Đặt bài toán ¿- 2s 22 k2 1 211271121122112111211 111111 11kg 33

2.3.2 Các trường dit liệu chiết suất từ hệ thống thông tin khách hang 342.3.3 Phương pháp khai pha dữ liệu phù hợp với dữ liệu kho 39

2.3.3.1 Khai thác dữ liệu phù hợp với Kho dữ liệu . - 39

2.3.3.2 Số lượng lớn dit liệu 2-2 ©£++++E+£E++EE++EEczrxrrxerrkeerxee 392.3.3.3 Dữ liệu sạch, nhất quán 2 2 2+ ©x++E++E++EEeEEerEezreerxerxees 402.3.3.4 Kiểm tra giả thuyết và Do lường -¿ 5¿©cscscccxcscce2 4ICHUONG 3 TINH HUONG NHAN DIỆN KHACH HANG DE TANG

DOANH SO SU DUNG THE 7 43

3.1 Các trường dữ liệu về đặc điểm khách hang 2 5 5+2 43

3.1.1 6+ 1 2 43

3.1.1.1 Cấu trúc giới tính + s++++++++Ext+Ekt£E+eEkzrkrrrkerkeerkerrxee 433.V1.2 DO on -a 433.1.1.3 Nghề nghiỆp 2- 2+ ©S22SE2EEEE22E2E12712121121111 11211 cty 433.1.2 Doanh số sử dụng thẻ -¿- 2-52 S2E£2EEEEEEEEEEE2E127171 21121 44

3.1.3 Tài khoản thanh toán 2-2 2£ + £+E££EE£EEEEE2EEEEEEEECEEErEkrrkerkeee 44

3.1.4 Tài khoản tiết kiệm 2 252 2S2E£+EEEEEEEEEEEEEEEEEE21 2121 EEcrkeeg 44

3.1.5 Mở tài khoản chi lương < c1 33231133 EESeEreeeeesreeeeree 44

SV: Hoàng Thu Hà — MSV: 11141103

Trang 4

Chuyên đề thực tập chuyên ngành Toán tài chính

3.1.6 Số dư tiền gửi bình quân hàng tháng 2 ¿5c ss+c++zzzzzce2 453.1.7 Số dư tiền vay bình quân ¿+ 2 s+S++E++E++E+E££EerEerxerxrrxrrerree 45

Sẽ :Ö11 45

3.1.9 Hang the 0 a 46

3.2 Mô hình Cây quyết định trong Data Mining sử dung trên đữ liệu kho 46

3.3 Kết quả phân tích qua mô hình cây quyết định -. -s¿s+¿ 483.3.1 Phân tích kết quả -¿ 2¿©2+¿©5£+++2EE+2EEEEEE2EEEEEEEEEEEErrkrrrkerkrsrei 483.3.1.1 Kết qua phân tích mô hình cây dựa vào biểu đồ 1 trong rpart 48

3.3.1.2 Kết qua phân tích mô hình cây dựa vào biéu đồ 2 trong rpart 50

3.3.1.3 Kết qua phân tích mô hình cây dựa vào biêu đồ 3 trong rpart 51

3.3.2 K@t LUA mẽ ốố 53

3.3.2.1 Các kết quả dat được ¿ :- s22 xe E221 cerree 533.3.2.2 Han CHE mẽ 543.3.2.3 Giải pháp cho các nghiên cứu tiếp theo -: 5¿5cs+¿ 54TÀI LIEU THAM KHAO -. 2- 22 ©5S2E2+EE£2EE2EEEEEESEEEEEEEEEErErrkerrree 56

PHU LUỤC -©2¿-55c22<2EEEEE2E122112711271211211211.11T1E.1.111E 11x eee 57

SV: Hoàng Thu Hà — MSV: 11141103

Trang 5

Chuyên đề thực tập chuyên ngành Toán tài chính

CÁC SƠ ĐÒ VÀ MINH HỌA TRONG BÀI VIẾT

Hình minh họa 1.1: Phân cấp dit liệu và mô tả của nó giúp người dùng điềuhướng xung quanh một kho dữ liệu - - - 5 2222 32+ *+Exveseereeerresreerrsee 5

Hình minh họa 1.2: Các mô hình dữ liệu vật lý và logic có thé không giống nhau 8

Hình minh họa 1.3: Phương pháp đa tang đến kho dit liệu bao gồm một kho lưutrữ trung tâm, dữ liệu cục bộ, phân tích Sandbox, các công cụ cho người dùng

cuối, và các công cụ kết nối tất cả các mảnh lại với nhau :- -=s5ss+z 11Hình minh họa 2.1: Hệ thống cấu trúc kho dữ liệu trong ngân hàng 23Hình minh họa 2.2: Giao diện Phần mềm MySQL -c cà se 24

Sơ đồ 3.1: Mô hình cây dựa vào biểu đồ 1 trong rpart -s:-s+¿ 48Sơ đô 3.2: Mô hình cây dựa vào biéu đồ 2 trong rpart -: 2- s52 50Sơ đồ 3.3: Mô hình cây dựa vào biểu đồ 3 trong rpart - 5 s52 52

SV: Hoàng Thu Hà — MSV: 11141103

Trang 6

Chuyên đề thực tập chuyên ngành Toán tài chính

LỜI MỞ ĐẦU

1.Tính cấp thiết của đề tàiKé từ khi giới thiệu máy tính vào các trung tâm xử lý dữ liệu một vài thập kytrước đây, chỉ cần về mọi hệ thống hoạt động trong kinh doanh đã được vi tính hóa,khai thác một lượng lớn dir liệu di vào hoạt động, và khai thác dữ liệu là một cách dé

hiểu được su rộng lớn cua dir liệu Tự động hóa đã làm thay đối cách mọi người kinh

doanh và sinh hoạt: bán lẻ trực tuyến, mạng xã hội, máy rút tiền tự động, lãi suất điều

chỉnh, kiểm soát hàng tồn kho chỉ trong thời gian, thẻ tín dụng, Google, giao hàng quađêm và câu lạc bộ mua bán người mua - ví dụ về cách tự động hóa máy tính đã mở ra

những thị trường mới và cách mạng hóa những cái hiện tại Tự động hóa cũng tạo ra lượng lớn đữ liệu tại các công ty có lợi từ các hoạt động này Dữ liệu tích lũy, nhưng

không phải thông tin - cũng không phải là thông tin đúng vào đúng thời điểm

Hiện nay, không một lĩnh vực nào không cần đến sự hỗ trợ của công nghệ thông

tin, và sự thành công của các lĩnh vực đó phụ thuộc rất nhiều vào việc nắm giữ thôngtin một cách nhanh chóngnhạy bén và hữu ich Với nhu cầu như thế chỉ sử dụng các

thao tác truyền thống thì độ chính xác không cao va mat rất nhiều thời giarDo vậy,việc lưu trữ dir liệu trong Kho dữ liệu chứa đựng thông tin phục vụ nhu cầu nắm bắt

thông tin có vai trò hết sức to lớrViệc lưu trữ dữ liệu trong kho đã có từ rat lâu nhưngsự bùng nổ của nó thì mới xảy ra trong những năm gần đâyCác công cụ thu thập dữliệu tự động và các công nghệ cơ sở dữ liệu được phát trién dẫn đến vấn dé một lượngdữ liệu không lỗ được lưu trữ trong cơ sở dữ liệu của các cá nhântô chức, do đó

việc khai phá tri thức là một trong những van dé đã và đang nhận được sự quan tâm

của các nhà nghiên cứu

Với mong muốn tìm hiểu về dữ liệu kho và bên cạnh đó nhận diện khách hangsử dung thẻ dé tăng doanh số sử dụng thẻ nên người viết đã lựa chọn đề tài: “Di liệukho (Data Warehouse) và Xử lý dữ liệu Kho hỗ trợ chién lược khách hang sử dụngthé tại ngân hàng” làm chuyên đề tốt nghiệp

2 Mục đíchnghiên cứu của đề tàiNghiên cứu các lý thuyết cơ bản của dit liệu, về hệ thống kho dữ liệu nói chungvà hệ thong kho dữ liệu trong ngân hàng nói riêng, qua đó xây dựng hệ thống quản trịdữ liệu khách hàng giao dịch thẻ và cuối cùng là nhận diện khách hàng giao dịch thẻdé hỗ trợ chiến lược tăng doanh số sử dụng thẻ trong tương lai

SV: Hoàng Thu Hà — MSV: 11141103 1

Trang 7

Chuyên đề thực tập chuyên ngành Toán tài chính

3 Đối tượng và phạm vỉ nghiên cứu:Dựa vao lý thuyết và thuật toán của Kho dit liệu trong khai pha đữ liệu, thiếtkế kho dữ liệu khách hàng sử dụng thẻ ngân hang dé có chiến lược tăng doanh

thu sử dụng thẻ.

4 Tiến trình nghiên cứu:+ Nghiên cứu lý thuyết dữ liệu.+ Nghiên cứu lý thuyết cây quyết định trong SPSS Modeler+ Xử lý, phân tích số liệu

+ Viết báo cáo kết quả và kết luận.5 Ý nghĩa chuyên đề:

Việc nghiên cứu dé tai này giúp người viết và ban đọc biết được lý thuyếtdữ liệu, kho dữ liệu, hệ thống kho dữ liệu trong ngân hàng Từ đó nhận diệnkhách hàng sử dụng thẻ và xây dựng chiến lược tăng doanh số sử dụng thẻ trong

tương lai.

6 Kết câu của bài viết:

Bài viết gồm 3 phan:Chương 1: Lý thuyết về kho dữ liệuChương 2: Kho dữ liệu tại ngân hàng và Hệ thống quản trị dữ liệu khách

hàng sử dụng thẻ

Chương 3: Tình huống nhận diện khách hàng để tăng doanh số sử dụng thẻ

SV: Hoàng Thu Hà — MSV: 11141103 2

Trang 8

Chuyên đề thực tập chuyên ngành Toán tài chính

CHUONG 1: LÝ THUYET KHO DU LIEU

1.1 Tổng quan về dữ liệuKho dữ liệu là quá trình thu thập dữ liệu khác nhau từ khắp tổ chức nhằm

mục đích hỗ trợ quyết định Một kho dữ liệu phục vụ như là một hệ thống hỗ trợ

ra quyết định của hồ sơ, làm cho có thể điều hoà các báo cáo đa dang bởi vìchúng có cùng nguôồn gốc và các định nghĩa Hệ thống như vậy không chi làmgiảm nhu cầu giải thích các kết quả mâu thuẫn, mà nó còn cung cấp quan điểmnhất quán về doanh nghiệp qua các đơn vị tổ chức và thời gian khác nhau Khodữ liệu giúp các nhà quản lý đưa ra các quyết định sáng suốt hơn và theo thờigian hơn, các quyết định thông tin sẽ dẫn đến kết quả tốt hơn Hỗ trợ ra quyếtđịnh là một thuật ngữ mơ hồ và rộng lớn, bao gồm mọi thứ từ báo cáo sản xuấtđến mô hình phức tạp đến các công cụ khuyến nghị trực tuyến

Kho dữ liệu là một liên kết tự nhiên của khai thác dữ liệu, trong đó có mộtyêu cầu đầu tiên đối với dữ liệu rõ ràng và nhất quán trong việc tìm kiếm cácmẫu có thể thực hiện được Phần lớn cố gang dang sau nỗ lực khai thác dữ liệu làtrong các bước xác định, thu thập, hiểu và làm sạch dữ liệu Một kho dữ liệu củacông ty được thiết kế tốt là một liên kết có giá trị Tuy nhiên, nếu thiết kế của khodir liệu bao gồm hỗ trợ cho các ứng dụng khai thác dữ liệu, kho sẽ tạo điều kiệncho các nỗ lực khai thác dit liệu Hai công nghệ này làm việc cùng nhau dé manglại giá trị Việc khai thác dữ liệu đáp ứng một số lời hứa của việc lưu trữ dữ liệubằng cách chuyên đổi nguồn gốc cơ bản của dữ liệu sạch và nhất quán thành

thông tin có thể thực hiện được

Mối quan hệ giữa dữ liệu và khai thác dữ liệu cũng có một phần của côngnghệ Ngoài khả năng xử lý nhiều công việc cùng một lúc, hầu hết phần mềm,bao gồm khai thác dữ liệu và phần mềm thống kê, không dễ dàng tận dụng lợi thếcủa bộ vi xử lý, nhiều đĩa và bộ nhớ lớn trên các máy chủ nhanh nhất Các hệthống quản lý cơ sở dữ liệu quan hệ, trung tâm của hầu hết các kho đữ liệu, đượckích hoạt song song va sẵn sàng tận dụng tat ca các tài nguyên của hệ thống déxử lý một truy vấn Thậm chí quan trọng hơn, người dùng không cần phải nhậnthức được thực tế này, bởi vì giao diện, một số biến thể của SQL, vẫn giữnguyên Cơ sở dữ liệu đang chạy trên một máy chủ mạnh có thé là một tài sảnmạnh dé xử lý sé lượng lớn đữ liệu, chăng hạn như khi tạo thuộc tính của kháchhang dé khai thác dữ liệu

SV: Hoàng Thu Hà — MSV: 11141103 3

Trang 9

Chuyên đề thực tập chuyên ngành Toán tài chính

Kho đữ liệu có lợi ích như vậy, nhưng hệ thống này không phải là điều kiệntiên quyết cho việc khai thác dữ liệu và phân tích dữ liệu Các nhà thống kê,chuyên gia tính toán, và các nhà phân tích đã sử dụng các gói thống kê trongnhiều thập kỷ - và đạt được kết quả tốt — không cần đến kho dir liệu tập trungđược thiết kế tốt Các phân tích như vậy thường diễn ra trên các phân tích

sandbox (Sandbox là một kỹ thuật quan trọng trong lĩnh vực bảo mật có tác dụng

cô lập các ứng dụng, ngăn chặn các phần mềm độc hại dé chúng không thé làmhỏng hệ thống máy tính, hay cài cắm các mã độc nhăm ăn cắp thông tin), các hệthống chuyên dụng dé phân tích dữ liệu Ngày nay, công việc thống kê sử dụngcác công cụ khai thác dữ liệu và các gói phần mềm thống kê; báo cáo sử dụngcông cụ OLAP (Online Analytics Processing: quá trình xử lý trực tuyến) vàExcel; và phân tích truy vấn tùy biến được thực hiện trên kho dữ liệu của chínhnó Các phân tích sandbox vẫn hữu ích cho việc đầy hình bao của những gì có thêđược thực hiện, dé phân tích khối lượng lớn của các máy chủ web hoặc cho cácphương pháp thống kê phức tạp dé mô phỏng các khía cạnh của doanh nghiệp và

cho các nỗ lực nâng cao khác.

1.1.1 Câu trúc của dữ liệuRất nhiều dạng thông tin khác nhau được thể hiện trên máy tính Các mức

dữ liệu khác nhau đại diện cho các loại trừu tượng khác nhau:

e Dz liệu hoạt động (Operational/Transaction data)

e Di liệu tổng hợp hoạt động (Operational summary data)e De liéu tong hop hé tro ra quyét dinh (Decision-support summary data)e Luoc đồ (Schema)

e Siéu dữ liệu (Metadata)

e Quy tắc nghiệp vụ (Business Rules)Ví dụ: Hạng dữ liệu và mô tả của nó giúp người dùng điều hướng quanh

kho dt liệu Khi dtr liệu trở nên trừu tượng hơn, nó thường ít được phóng dai.

SV: Hoàng Thu Hà — MSV: 11141103 4

Trang 10

Chuyên đề thực tập chuyên ngành Toán tài chính

Mức độ trừu tượng là một đặc tính quan trọng của dữ liệu được sử dụng

trong khai thác dữ liệu Một hệ thống được thiết kế tốt nên cho phép người dùngđi sâu vào các mức trừu tượng này để có được đữ liệu cơ sở hỗ trợ mọi quy tắctóm tắt và kinh doanh Các cấp thấp hơn của kim tự tháp rộng hơn và có xuhướng trở thành công cụ của cơ sở dữ liệu Các cấp trên là nhỏ hơn và có xuhướng trở thành công cụ của bảng tính và mã máy tính Tất cả các mức này rấtquan trọng bởi vì bạn không muốn phân tích dit liệu chi tiết dé chỉ tạo ra những

toán hóa đơn hoặc địa chỉ địa lý trên điện thoại di động, bản ghi của giao dịch sẽ

được lưu trữ ở đâu đó, cung cấp thông tin về ai, cái gì, ở đâu, khi nào, và baonhiêu Dữ liệu cấp độ giao dịch như vậy là nguyên liệu để tìm hiểu hành vi củakhách hàng Đó là đôi mắt và đôi tai của doanh nghiệp

Qua thời gian hệ thống hoạt động thay đổi do nhu cầu của doanh nghiệpchuyên hướng Các lĩnh vực có thé thay đổi ý nghĩa của dữ liệu nên dữ liệu quan

SV: Hoàng Thu Hà — MSV: 11141103 5

Trang 11

Chuyên đề thực tập chuyên ngành Toán tài chính

trong được đưa ra và xóa Thay đổi là bắt buộc dé đáp ứng với việc giới thiệu sảnphẩm mới, mở rộng số lượng khách hang, thu mua, tái tổ chức, và công nghệmới Thực tế là dữ liệu hoạt động thay đổi theo thời gian phải là một phần củabat kỳ cách tiếp cận kho dữ liệu mạnh mẽ

Do khối lượng dữ liệu lớn, các công ty thường miễn cưỡng lưu trữ dữ liệucấp độ giao dịch trong kho dit liệu Từ quan điểm của khai thác dữ liệu, đây làmột điều không tốt, bởi vì các giao dịch mô tả tốt nhất hành vi của khách hàng

Các phân tích Sandbox là một giải pháp thay thế hiệu quả để khai thác và sử

dụng dữ liệu giao dịch không phù hợp với kho.

1.1.3 Dữ liệu tóm tắt hoạt độngTóm lược hoạt động đóng vai trò như các giao dịch; sự khác biệt là tóm

lược hoạt động được bắt nguồn từ các giao dịch Một ví dụ phô biến là các hệ

thống thanh toán, tong hợp các giao dịch, thường là vào chu kỳ hóa đơn hàngtháng Những tóm tắt này là khách hàng phải đối mặt và thường dẫn đến các giaodịch khác, chang hạn như thanh toán hóa đơn Trong một số trường hợp, bản tómlược hoạt động có thể bao gồm các lĩnh vực được tóm tắt để nâng cao sự hiểubiết của khách hàng về khách hàng hơn là vì mục tiêu hoạt động Chăng hạn,AT&T đã từng sử dụng hồ sơ chỉ tiết cuộc gọi dé tính điểm "bizocity" (bizocitylà một yếu tố hành vi thú vị mà đòi hỏi các phương pháp mô hình thống kê đầythách thức và theo dõi; một công cụ tính toán cần thiết dé duy trì một luồng dữliệu cuộc gọi và dé cập nhật cấu trúc dữ liệu thiết kế cần thận các cấu trúc dữ liệucó tầm quan trọng đặc biệt: khi xử lý hàng trăm triệu cuộc gọi mỗi ngày, các quytrình I/O có thể có xu hướng chiếm ưu thế thời gian CPU, và do đó làm giảmđáng ké toàn bộ quá trình chế biến; mô tả một giao diện với kết quả khai thác dữliệu Nó giúp cung cấp một truy cập thuận tiện vào dữ liệu và dé làm cho việckiểm tra có thể xảy ra khi kích thước dữ liệu vượt quá vài gigabyte), đo lườnghoạt động kinh doanh giống như kiểu gọi điện thoại của số điện thoại Hồ sơ của

môi cuộc gọi sẽ bị loại bỏ, nhưng điêm sô sẽ được cập nhật.

Có sự khác biệt giữa dữ liệu tóm tắt hoạt động và dữ liệu giao dịch, bởi vìtóm tắt là trong một khoảng thời gian và giao dịch đại diện cho các sự kiện Xemxét số tiền được thanh toán bởi khách hàng đăng ký Trong hệ thống thanh toán,

số tiền đã trả là tóm tắt cho thời hạn thanh toán, bởi vì nó bao gồm tất cả cáckhoản thanh toán trong suốt thời kỳ đó Bảng lịch sử thanh toán thay vào đó cungcấp chỉ tiết về mọi giao dịch thanh toán Đối với hầu hết khách hàng, các giaodịch tóm lược và thanh toán hàng tháng là tương đương Tuy nhiên, hai khoản

SV: Hoàng Thu Hà — MSV: 11141103 6

Trang 12

Chuyên đề thực tập chuyên ngành Toán tài chính

thanh toán có thé đến trong cùng một thời kỳ thanh toán Thông tin thanh toánchi tiết hơn có thê hữu ích cho việc hiéu rõ mô hình thanh toán của khách hàng

1.1.4 Dữ liệu tổng hợp hỗ trợ ra quyết địnhDữ liệu tổng hợp hỗ trợ ra quyết định là dữ liệu được sử dụng để đưa raquyết định cho doanh nghiệp Dữ liệu tài chính được sử dụng dé điều hành côngty cung cấp một ví dụ về dữ liệu tóm tắt hỗ trợ ra quyết định; các cấp quản lý cấpcao thường coi đây là thông tin sạch nhất hiện có Một ví dụ khác là các kho dữliệu và các quầy dữ liệu có mục đích là cung cấp một hệ thống hỗ trợ ra quyếtđịnh ở cấp khách hàng

Nói chung, một ý tưởng tôi là sử dụng cùng một hệ thống cho các mục đíchphân tích và hoạt động, bởi vì nhu cầu hoạt động là quan trọng hơn, dẫn đến mộthệ thống được tối ưu hóa cho các hoạt động chứ không phải là hỗ trợ quyết định.Hệ thống tài chính thường không được thiết kế dé hiểu khách hàng, bởi vì chúngđược thiết kế cho các mục đích kế toán Một trong những mục tiêu của việc lưutrữ dữ liệu là đưa ra các định nghĩa và bố cục nhất quán dé các báo cáo tương tựtạo ra các kết quả tương tự cho dù người dùng doanh nghiệp nào đang sản xuất

chúng hoặc khi chúng được sản xuât.

Theo một nghĩa nào đó, tóm tắt sẽ phá hủy thông tin khi chúng tổng hợp dữliệu với nhau Tuy nhiên, tóm tắt cũng có thể mang lại thông tin cho bề mặt Các

giao dịch tại điểm bán hàng có thể nắm bắt tất cả các loại cá mòi đi qua máyquét, nhưng chỉ có các tóm tắt bắt đầu mô ta cách cư xử của người mua sắm theothói quen của họ - khoảng thời gian khi cửa hàng, tỷ lệ chi tiêu cho thực phẩmđóng hộp , cho dù sản phẩm hữu cơ bổ sung cho cá moi, và như vậy Trongtrường hợp này, bản tóm tắt khách hàng dường như đang tạo ra thông tin hoặc ítnhất là đưa nó lên bề mặt, làm cho nó có thể nhìn thấy được

1.1.5 So đồ cơ sé dữ liệu - Mô hình dữ liệuCấu trúc dữ liệu cũng quan trọng - dt liệu được lưu trữ, nơi lưu trữ, những

gi không được lưu trữ, vân vân Thanh bên "Cơ sở dữ liệu quan hệ là gi?" Giải

thích các ý tưởng chủ chốt đằng sau cơ sở dữ liệu quan hệ, các hệ thông phô biếnnhất dé lưu trữ số lượng lớn dữ liệu

Không có vấn đề làm thế nào dữ liệu được lưu trữ, có ít nhất hai cách để môtả bố trí Mô hình dữ liệu vật lý mô tả bố cục trong các chi tiết kỹ thuật cần thiếtbởi phần mềm cơ bản Một ví dụ là câu lệnh "CREATE TABLE" trong SQL.Mặt khác, mô hình dữ liệu lôgíc mô tả dữ liệu theo cách dễ tiếp cận hơn cho

SV: Hoàng Thu Hà — MSV: 11141103 7

Trang 13

Chuyên đề thực tập chuyên ngành Toán tài chính

người dùng cuối Hai không nhất thiết phải giống nhau, thậm chí không giống

nhau.

Sự tôn tại của các trường trong cơ sở dữ liệu không có nghĩa là dữ liệu thựcsự có mặt Điều quan trọng là phải hiểu mọi trường được sử dụng để khai thác dữ

liệu và không giả định rang một trường được điên chính xác chi vì nó tôn tại.

Sự tương tự có thể giúp hiểu được sự khác nhau giữa các mô hình dữ liệuvật lý và logic Một mô hình logic cho một ngôi nhà tương tự như việc nói rằngmột căn nhà là phong cách nông trại, với bốn phòng ngủ, ba phòng tắm, và mộtnhà để xe hai xe Mô hình vật lý đi vào chỉ tiết hơn về cách nó được đặt ra Nềnmóng là bê tông cốt thép, sâu 4 feet; phiến là 1.500 feet vuông: các bức tường làkhối bê tông: và như vậy Các chi tiết về xây dựng, mặc dù hữu ích và day đủ, cóthé không hữu ích cho một gia đình tìm kiếm đúng nhà

Logical Data Model

COMPLAINT Mô hình logic có 4 thực thé cho

ACCT_ TD các khách hang thực hiện giao

COMPLAINT_CODE dich va một thực the cho tải

Biểu tượng có nghĩa là một thay đổi

san phẩm có chính xác một tải khoan.

PRODUCT_CHANGE

ACCT_ID

OLD_PROD

NEW_PROD Biéu tượng có nghĩa là một tải khoản có

thể có 0 hoặc nhiễu san phẩm thay đôi hơn.

ACCT_ID Mô hình vat ly cũng xác định các loại

NUM_COMPLAINTS chính xác, phan vùng chi mục, đặc điểm

lưu trữ, mức độ tương đông, các rang buộc

về giả trị, vả nhiễu thứ khác không phải la

Hình minh họa 1.2

SV: Hoàng Thu Hà — MSV: 11141103 8

Trang 14

Chuyên đề thực tập chuyên ngành Toán tài chính

1.1.6 Siêu dữ liệu (Metadata)Siêu dữ liệu vượt xa mô hình đữ liệu dé cho phép người dùng doanh nghiệpbiết loại thông tin được lưu trữ trong cơ sở dữ liệu Đây là, về cơ bản, tài liệu về

hệ thống, bao gồm các thông tin như:

» Cac giá trị được cho phép hợp pháp trong từng lĩnh vực

* M6 tả nội dung của từng trường (ví dụ: ngày bắt đầu là ngày bán hay

ngày kích hoạt?)

» Negay tháng tải dữ liệu

* = Chỉ ra cách gần đây dữ liệu đã được cập nhật (khi nào sau khi chu kỳlập hoá đơn tính toán dữ liệu trong hệ thong này?)

* Các ánh xạ tới các hệ thống khác (mã trạng thái trong bang A là trườngmã trạng thái trong bảng B trong hệ thống nguồn như vay)

Khi có sẵn, siêu dữ liệu cung cấp một dịch vụ vô giá Khi không có sẵn, loạithông tin này cần phải được lượm lặt, thường là từ các quản trị viên và các nhà

phân tích cơ sở dữ liệu thân thiện - có lẽ là không hiệu quả trong việc sử dụng

thời gian của mọi người Đối với kho dif liệu, siêu dữ liệu cung cấp ky luật vìthay đổi đối với kho phải được phản ánh trong siêu dit liệu được truyền đạt tớingười dùng Nói chung, một hệ thống siêu dữ liệu tốt giúp đảm bảo sự thànhcông của kho dữ liệu bằng cách làm cho người dùng ý thức và thoải mái hơn vớinội dung Đối với người khai thác dit liệu, siêu dit liệu cung cấp sự trợ giúp cógiá trị trong việc theo dõi và hiéu dữ liệu

1.17 Quy tắc kinh doanh với dữ liệuMức trừu tượng cao nhất là quy tắc kinh doanh Những mô tả lý do tại saomối quan hệ tồn tại và cách chúng được áp dụng Một số quy tắc kinh doanh dénam bat, bởi vì chúng đại diện cho lịch sử kinh doanh - những chiến dịch tiếp thịđã diễn ra khi nào, những sản phâm nào có sẵn khi nào Các loại quy tắc kháckhó nắm bắt hơn và thường năm sâu bên trong các đoạn mã và bản ghi nhớ cũ.Không ai có thể nhớ tại sao hệ thống phát hiện gian lận lại bỏ qua những khiếunại dưới $500 Có lẽ có một lý do kinh doanh tốt, nhưng lý do, quy tắc kinhdoanh, có thé bị mat khi quy tắc là mã máy tính ghi nhớ quy tac

Quy tắc kinh doanh có quan hệ mật thiết với khai thác dữ liệu Một số kỹthuật khai thác dữ liệu, như phân tích giỏ hàng và cây quyết định, tạo ra quy tắcrõ ràng Thông thường, các quy tắc có thể đã được nhiều người biết Mô hình trảlời thư trực tiếp kết thúc mục tiêu khi khu vực giàu có phản ánh sự thật là dữ liệulịch sử thường dùng để xây dựng mô hình là chỉ tập trung vào mỗi vùng đó

SV: Hoàng Thu Hà — MSV: 11141103 9

Trang 15

Chuyên đề thực tập chuyên ngành Toán tài chính

Nghĩa là, thiết lập mô hình chỉ có người phản hồi của khu vực đó, vì chỉ có người

giàu mới có mục tiêu trong quá khứ.

Việc tìm ra quy tắc kinh doanh trong dữ liệu vừa là thành công vừa là thấtbại tìm ra quy tắc là mô tả thành công của các thuật toán phức tạp mặc dù trongkhai thác dữ liệu, bạn muốn mô hình hành động và các mẫu như vậy thì khôngthể thực hiện được

1.2 Cấu trúc Kho dữ liệuPhương pháp tiếp cận đa kho để lưu trữ dữ liệu đã chỉ ra rằng dữ liệu cónhiều hình thức khác nhau Nó cung cấp một hệ thống toàn diện dé quản lý ditliệu và hỗ trợ quyết định Các thành phần chính của kiến trúc này là:

- Hệ thống nguồn là nơi dữ liệu đến.

* Công cụ trích xuất, chuyên đổi và tai (ETL) di chuyển dữ liệu giữa các

kho dữ liệu khác nhau.

» Kho trung tâm là kho lưu trữ chính cho kho dữ liệu.

* Phân tích sandbox cung cấp môi trường phân tích phức tạp hơn các truyvan SQL hoặc các công cụ khai thác dữ liệu

* Kho chứa siêu dữ liệu mô tả những gì có sẵn và ở đâu.

* Cac cơ sở dữ liệu cung cấp truy cập nhanh, chuyên biệt cho người dùngcuối và các ứng dụng

* Phản hồi hoạt động kết hợp hé trợ quyết định trở lại vào hệ thống hoạtđộng.

* _ Người sử dụng cuối cùng là lý do dé phát triển kho ở vị tri đầu tiên.Một hoặc nhiều thành phan tồn tại gần như trong các hệ thống gọi là kho dữliệu Chúng là khối căn bản của hỗ trợ ra quyết định thông qua một cách tiếp cận.Dữ liệu giống như dòng nước Nó bắt nguồn từ hệ thống nguồn và dòng chảythông qua thành phan của kho dữ liệu cơ bản nhất dé đưa thông tin cho ngườidùng cuối Các thành phàn chính này dừng lại ở nền tảng kỹ thuật bao gồm phần

cứng, phần mềm, và mạng lưới, và cơ sở hạ tầng phải đủ mạnh để vừa đáp ứng

nhu cầu của người dùng cuối vừa đáp ứng sự gia tăng số liệu và xử lý yêu cầu

1.2.1 Hệ thống nguồnDữ liệu bắt nguồn từ các hệ thống nguồn, điển hình là các hệ điều hành vàdữ liệu nguồn bên ngoài Chúng được thiết kế cho hiệu quả hoạt động, khôngphải dé hỗ trợ ra quyết định, và dir liệu phản ánh thực tế này Ví du: dữ liệu giaodịch có thể được hoán đổi mỗi vài tháng để giảm nhu cầu lưu trữ Cùng một

SV: Hoàng Thu Hà — MSV: 11141103 10

Trang 16

Chuyên đề thực tập chuyên ngành Toán tài chính

thông tin có thé được đại diện theo nhiều cách Ví dụ: một hệ thống nguồn bán lẻđiểm bán hàng đại diện trả về hàng hóa bằng cách sử dụng cờ "trở lại" Nghĩa là,

ngoại trừ khi khách hàng thực hiện mua hàng mới vào cùng một thời điểm Trong

trường hợp này, sẽ có một số tiền âm trong trường mua hàng Những dị thườngnhư thế rất nhiều trong thế giới thực

Người dùng là lý do để kho dữ liệu tồn tại Chúng đại diện cho thông tin và hiểu biết đạt được

tty div liễu:

Hệ thống sử dung giao thức tiêu chuẩn như ODBC kết nai người dùng đến dữ liệu.

Kho dữ liệu trung tâm là dữ —————

liệu cơ sở quan hệ với md hình dữ liệu vật lý.

KHO TRUNG

TÂM

Kho dữ liệu trung tầm là

dữ liệu cơ sở quan hệ với mé hình dữ liệu vật

Phan chia /chuyển đổi và công cụ tải dữ liệu di chuyển giữa hệ

nghiệp có thê phân biệt với người tiêu dùng trong một công ty điện thoại:

» — Chỉ báo loại khách hàng: "B" hoặc "C" cho doanh nghiệp so với khách

hàng.

¢ Đánh gia kế hoạch: Một số chỉ được bán cho khách hàng doanh nghiệp;những người khác cho người tiêu dùng.

SV: Hoàng Thu Hà — MSV: 11141103 II

Trang 17

Chuyên đề thực tập chuyên ngành Toán tài chính

* Kênh thu nhận: Một số kênh dành cho doanh nghiệp, một số kênh dànhcho người tiêu dùng.

* = Số dòng: một hoặc hai đối với người tiêu dùng, nhiều hơn cho kinh

Thu thập dữ liệu dé hỗ trợ quyết định nhắn mạnh các hệ thống hoạt động

bởi vì các hệ thống này ban đầu được thiết kế dé xử lý giao dịch Dua dữ liệu vàocùng một định dạng nhất quán hầu như luôn là phần tốn kém nhất của việc triển

khai giải pháp lưu trữ dữ liệu.

Các hệ thống nguồn cung cấp những thách thức khác Họ thường chạy trênmột loạt các phần cứng, và nhiều phần mềm được xây dựng trong nhà hoặc tùybiến cao (hoặc chúng được thuê ngoài và các dữ liệu thô có thé rất khó khăn décó được) Đôi khi họ sử dụng cấu trúc tệp phức tạp và độc quyên Hệ thống máytính lớn được thiết kế để giữ và xử lý đữ liệu, không phải để chia sẻ nó Mặc dùcác hệ thống đang trở nên cởi mở hơn, việc truy cập vào dữ liệu luôn là một vấnđề, đặc biệt là khi các hệ thống khác nhau hỗ trợ rất nhiều phần khác nhau của tổchức Và, các hệ thống có thé bi phân tan theo địa lý, góp phan hơn nữa vào sự

khó khăn trong việc đưa dữ liệu lại với nhau.

1.2.2 Khai thác, chuyển đổi, và tảiCác công cụ trích xuất, chuyên đổi và tải (ETL) giải quyết vấn đề thu thậpdữ liệu từ các hệ thống khác nhau bằng cách cung cấp khả năng ánh xạ và dichuyên dir liệu từ các hệ thống nguồn sang các môi trường khác Theo truyền

thống, di chuyén dữ liệu và làm sạch là trách nhiệm của các lập trình, những

người đã viết mã mục đích đặc biệt khi nhu cầu phát sinh Mã ứng dụng cụ thé

trở nên giòn vì các hệ thông nhân và hệ thông nguôn thay đôi.

Mặc dù chương trình vân có thê cân thiệt, các san phâm hiện có san đê giải

quyết phần lớn các vấn đề ETL Những công cụ này chỉ định hệ thống nguồn và

SV: Hoàng Thu Hà — MSV: 11141103 12

Trang 18

Chuyên đề thực tập chuyên ngành Toán tài chính

ánh xạ giữa các bảng và tệp khác nhau Chúng cung cấp khả năng xác minh dữ

liệu và chỉ ra báo cáo lỗi khi tải không thành công Các công cụ cũng hỗ trợ tìm

kiếm các giá trị trong các bảng (do đó, chỉ những mã sản phẩm đã biết, ví dụ,được nạp vào kho dữ liệu) Mục dich của những công cụ này là dé mô ta dữ liệutừ đâu và điều gì sẽ xảy ra với nó - chứ không phải dé viết mã từng bước dé kéodữ liệu từ một hệ thống và đưa nó vào một hệ thống khác Các ngôn ngữ thủ tục

chuẩn, chăng hạn như C ++, C #, Java, COBOL và RPG, tập trung vào từng bước

thay vì hình ảnh lớn hơn về những gì cần phải làm Các công cụ ETL thườngcung cấp giao diện siêu dit liệu, do đó người dùng cuối có thể hiểu được nhữnggì đang xảy ra với dữ liệu "của ho" trong khi tải kho trung tâm.

Loại công cụ này thường rất tốt trong việc xử lý dữ liệu mà các tác giả ngạcnhiên rằng các công cụ này vẫn được nhúng trong các phòng công nghệ thông tin

và thường không được những người khai thác dữ liệu sử dụng Mastering Data

Mining có một nghiên cứu điển hình từ năm 1998 về việc sử dụng một trongnhững công cụ này từ Ab Initio dé phân tích hang trăm gigabyte các bản ghi chitiết cuộc gọi - một lượng dit liệu có thé vẫn gây ra một thách thức cho đến ngày

nay.

1.2.3 Kho trung tâm

Kho trung tâm là trung tâm của kho dữ liệu Nó thường là một cơ sở dữ liệuquan hệ truy cập thông qua một số biến thé của SQL

Một trong những ưu điểm của cơ sở dữ liệu quan hệ là khả năng chạy trênnhững máy mạnh mẽ, có thể mở rộng được băng cách tận dụng lợi thế của nhiềubộ vi xử lý và nhiều đĩa Hau hết các gói dit liệu thống kê và khai thác dữ liệu, ví

dụ, có thê chạy nhiều luồng xử lý cùng một lúc Tuy nhiên, mỗi thread đại diệncho một tác vụ, chạy trên một bộ xử lý Phần cứng khác không làm cho bắt kỳ tác

vụ nào chạy nhanh hơn (ngoại trừ khi các tác vụ khác xảy ra can thiệp vào nó).

Mặt khác, các cơ sở dữ liệu quan hệ có thể lay một truy vấn và, về bản chất, tạonhiều luồng cùng lúc cho cùng một truy vấn Kết quả là các ứng dụng nhiều dữ

liệu trên các máy tính mạnh mẽ thường chạy nhanh hơn khi sử dụng cơ sở dữ liệu

quan hệ hơn là khi sử dụng phần mềm không phải là song song và khai thác dữliệu là một ứng dụng rất nhiều dữ liệu

Một thành phan quan trọng trong kho trung tâm là một mô hình dit liệulogic mô tả cau trúc dữ liệu bên trong một cơ sở dit liệu theo các điều khoản quenthuộc với người dùng doanh nghiệp Như đã thảo luận ở phần trước của chương

SV: Hoàng Thu Hà — MSV: 11141103 13

Trang 19

Chuyên đề thực tập chuyên ngành Toán tài chính

này, mô hình dữ liệu logic khác với mô hình dữ liệu vật lý Mục đích của dữ liệuvật lý là dé tối đa hóa hiệu suất và tạo điều kiện cho công việc của quản tri viên

cơ sở dữ liệu (DBA), chăng hạn như đảm bảo an ninh, sao lưu cơ sở dữ liệu, v.v.

Mô hình dữ liệu vật lý là việc thực hiện mô hình dữ liệu lôgic, kết hợp các thỏahiệp và sự lựa chọn dọc theo con đường để tối ưu hóa hiệu suất và đáp ứng cácmục tiêu của hệ thống khác

Kho dit liệu là một quá trình Hãy cảnh giác với bat kỳ cơ sở dữ liệu lớn nàođược gọi là kho dữ liệu không có quy trình dé cập nhật hệ thống dé liên tục đáp

ứng nhu cầu người dùng cuối và các yêu cầu kinh doanh đang phát triển Mộtkho dữ liệu mà không có một quá trình thay đổi cuối cùng sẽ biến mat vào sử

dụng, bởi vì nhu câu của người sử dụng tiên triên.

Khi bắt tay vào một dự án kho dữ liệu, nhiều tổ chức cảm thấy bắt buộcphải phát trién một mô hình dữ liệu toàn diện, toàn doanh nghiệp Những nỗ lực

này thường không thành công đáng ngạc nhiên Mô hình dữ liệu logic cho kho dữ liệu không phải là tương tự như mô hình doanh nghiệp Ví dụ, mâu thuẫn giữa

các mã sản phẩm trong mô hình dữ liệu logic cho kho dữ liệu có thể được giảiquyết bằng cách bao gồm cả phân cấp sản phẩm - một quyết định mat 10 phút déthực hiện Trong nỗ lực của cả doanh nghiệp, việc giải quyết các mã sản pham

mâu thuẫn có thé yêu cầu hàng tháng điều tra và cuộc hop.

Kho dit liệu là một quá trình dé quan lý hệ thống hỗ trợ ra quyết định của hồsơ Một quá trình là cái gì đó có thé điều chỉnh cho nhu cầu của người dùng khichúng được làm rõ và thay đổi theo thời gian Kho trung tâm chính nó sẽ là mộthệ thống dễ sử dụng mà không nhận thức được rằng khi người dùng học về dữliệu và về công việc, họ sẽ muốn thay đổi và cải tiến về quy mô thời gian tiếp thị(ngày và tuần) chứ không phải là về quy mô thời gian của công nghệ thông

tin(tháng).

1.2.4 Kho lưu trữ siêu dữ liệuSiêu dt liệu cũng nên được coi là một thành phần của kho dir liệu, mặc dùnó thường bị bỏ qua Mức thấp nhất của siêu dữ liệu là giản đồ cơ sở dữ liệu, bốcục vật lý của dữ liệu Tuy nhiên, khi sử dụng đúng, siêu đữ liệu còn nhiều hơnthé nữa Nó trả lời các câu hỏi đặt ra bởi người dùng cuối về sự sẵn có của ditliệu, cung cấp cho họ các công cụ dé duyệt qua nội dung của kho dit liệu và cho

mọi người tự tin hơn vào dữ liệu Sự tự tin này là cơ sở cho các ứng dụng mới và cơ sở người dùng mở rộng.

SV: Hoàng Thu Hà — MSV: 11141103 14

Trang 20

Chuyên đề thực tập chuyên ngành Toán tài chính

Một hệ thống siêu dữ liệu tốt nên bao gồm:+ Lập bản đồ từ mô hình dit liệu lôgíc tới các hệ thống nguồn

* = Sơ đồ vật lý.

+ Lap bản dé từ mô hình logic tới giản đồ vật lý.* Các khung nhìn chung và công thức dé truy cập dữ liệu Điều hữu íchcho một người dùng có thể hữu ích cho người khác

* Thong tin về tải và cập nhật

» An ninh và truy cập thông tin.

Giao diện cho người dùng cuối và các nhà phát triển, do đó, họ chia sẻ môtả tương tự của cơ sở dữ liệu Trong bất kỳ môi trường lưu trữ dữ liệu nào, mỗiphần thông tin đều có ở đâu đó - trong các kịch bản được viết bởi DBA, trong thưđiện tử, trong tài liệu, trong bảng hệ thong trong co so đữ liệu, v.v Kho lưu trữsiêu dữ liệu cung cấp thông tin này cho người dùng theo một định dạng mà họ cóthé dé dang hiểu Điều quan trọng là cung cấp cho người dùng quyền truy cập déhọ cảm thay thoải mái với kho dữ liệu, với dữ liệu chứa trong và với cách sử

dụng nó.

1.2.5 Kho dữ liệu cục bộKho dữ liệu không thực sự làm bat cứ điều gì, ngoại trừ lưu trữ và lấy dữliệu sạch sẽ, nhất quán một cách hiệu quả Các ứng dụng cần thiết dé nhận ra giátrị, và chúng thường có dạng dữ liệu cục bộ Một kho dữ liệu cục bộ là một hệthống chuyên biệt thu thập dữ liệu cần thiết cho một bộ phận hoặc các ứng dụng

có liên quan.

Các siêu dữ liệu thường được kết hợp với các hệ thống báo cáo và dữ liệutóm lược cắt Các siêu dữ liệu như vậy thường sử dụng công nghệ OLAP Mộtloại dữ liệu quan trọng khác là một môi trường thăm dò được sử dụng để khaithác dữ liệu, được thảo luận chi tiết hon trong phần về các phân tích Sandbox

Không phải tat cả các dit liệu trong các kho dữ liệu đều cần đến từ khotrung tâm Thường thì các ứng dụng cụ thể có nhu cầu riêng về dữ liệu Ví dụnhư bộ phận bất động sản có thể đang sử dụng thông tin địa lý kết hợp với dữliệu từ kho trung tâm Bộ phận tiếp thị có thé kết hợp dữ liệu nhân khẩu mã ZIPvới dữ liệu khách hàng từ kho trung tâm Kho trung tâm chỉ cần chứa dit liệu cóthé được chia sẻ giữa các ứng dụng khác nhau, do đó, nó chỉ là một nguồn dữ

liệu - thường là hệ thống thống trị - cho các kho dữ liệu.

1.2.6 Phản hồi đánh giá hoạt động

SV: Hoàng Thu Hà — MSV: 11141103 15

Trang 21

Chuyên đề thực tập chuyên ngành Toán tài chính

Hệ thống thông tin phản hồi đánh giá tích hợp các quyết định dựa vào dữliệu vào hệ thống hoạt động Chang hạn, một ngân hàng lớn có thé phát triển mô

hình bán chéo dé xác định sản phẩm nào để cung cấp cho khách hàng tiếp theo.

Đây là kết quả của một hệ thống khai thác dữ liệu Đề có ích, thông tin này cầntrở lại hệ thống hoạt động để khách hàng có thể nhận được thông điệp đượcnhằm mục tiêu trong hộp thư của họ, tại ATM, giữ tại trung tâm cuộc gọi, nhưcác quảng cáo biểu ngữ khi họ đăng nhập vào ngân hàng trực tuyến và vân vân.Điều này đòi hỏi sự kết nối từ cơ sở hạ tầng hỗ trợ ra quyết định vào cơ sở hạtầng hoạt động

Phản hồi đánh giá hoạt động cung cấp khả năng đề hoàn thành chu trình đạođức của khai thác dữ liệu rất nhanh Sau khi thiết lập một hệ thống thông tin phảnhồi, sự can thiệp chỉ cần thiết dé theo dõi và cải tiến nó - để cho máy tính làmnhững gì họ làm tốt nhất (các công việc lặp đi lặp lại) và cho phép mọi người làmnhững gi ho làm tốt nhất (tìm ra các mô hình thú vị và đưa ra ý tưởng) Một trongnhững ưu điểm của các doanh nghiệp điện tử là về lý thuyết họ có thể cung cấpphản hồi như vậy cho các hệ thống hoạt động một cách tự động hoàn toàn

1.2.7 Người dùngNgười dùng là thành phần cuối cùng và quan trọng nhất trong bất kỳ kho dữliệu nào Một hệ thống không có người sử dụng không phải là giá trị xây dựng.Những người dùng cuối này là các nhà phân tích tìm kiếm thông tin, nhà phát

triển ứng dụng và người dùng doanh nghiệp hoạt động trên thông tin

1.2.7.1 Các nhà phân tích

Các nhà phân tích muốn truy cập càng nhiều dữ liệu càng tốt để phân biệtcác mô hình và tạo các báo cáo đột xuất Họ sử dụng các công cụ chuyên dụng,

chăng hạn như các gói thống kê, dữ liệu công cụ khai phá dữ liệu và bảng tính.

Thông thường, các nhà phân tích được coi là đối tượng chính cho các kho dữ

liệu.

Thông thường, mặc dù, chi cần một vài người kỹ thuật tinh vi rơi vào théloại này Mặc dù công việc mà họ làm là rất quan trọng, việc giải thích cho mộtkhoản đầu tư lớn dựa trên sự gia tăng năng suất của họ là rất khó Chu trình đạođức của khai thác dữ liệu đi vào hoạt động ở đây Một kho dữ liệu tập hợp dữ

liệu dưới dạng đã được làm sạch va có ý nghĩa Tuy nhiên, mục đích là dé thúcđây sự sáng tạo, một khái niệm rất khó dé đo lường

Các nhà phân tích có nhu cau rat cụ thê vê kho dữ liệu:

SV: Hoàng Thu Hà — MSV: 11141103 16

Trang 22

Chuyên đề thực tập chuyên ngành Toán tài chính

+ Hệ thống phải đáp ứng Phần lớn công việc của các nhà phân tích là trả lờicác câu hỏi cấp bách băng cách sử dụng các phân tích ngẫu nhiên hoặc các truy

vân ngau nhiên.

¢ Dữ liệu cân phải nhât quán trên cơ sở dữ liệu Nghĩa là, nêu một khách hàng bat dau vào một ngày cụ thê, thì lân xuât hiện đâu tiên của một sản phâm, kênh, vân vân nên được chính xác vào ngày đó.

* Dữ liệu cần phải nhất quán theo thời gian Một lĩnh vực mà có một ý nghĩađặc biệt bây giờ nên có cùng một ý nghĩa sẽ trở lại trong thời gian Ít nhất, sựkhác biệt cần được ghi chép lại hoặc kết hợp vào các kích thước thay đổi từ từ

* Các nhà phân tích phải có kha năng đi sâu vào cấp độ khách hàng và tốtnhất là chi tiết mức giao dịch dé xác minh các giá trị trong kho dữ liệu và dé pháttriển các tóm tắt mới về hành vi của khách hàng Các nhà phân tích đặt một tảinặng vào kho dữ liệu, và cần truy cập vào các thông tin phù hợp một cách kịp

thời.

1.2.7.2 Nhà phát triển ứng dụng

Kho dữ liệu thường hỗ trợ một loạt các ứng dụng (nói cách khác, data marts

có nhiều hương vị) Để phát triển các ứng dụng ổn định và mạnh mẽ, các nhàphát triển có một số nhu cầu cụ thé từ kho dữ liệu

Thứ nhất, các ứng dụng cần phải được bảo vệ khỏi những thay đổi trong cầutrúc của kho dir liệu Các bang mới, các lĩnh vực mới, va tô chức lại cấu trúc củacác bảng hiện có nên có tác động tối thiêu đến các ứng dụng hiện có Quan điểmđặc biệt dành riêng cho từng ứng dụng về dữ liệu giúp cung cấp sự đảm bảo này.Mở giao tiếp và kiến thức về những gì các ứng dụng sử dụng mà thuộc tính và

các thực thé có thé ngăn chặn sự tắc nghẽn phát trién

Thứ hai, các nhà phát triển cần truy cập vào các giá trị trường hợp lệ và đểbiết những gì các giá trị có ý nghĩa Đây là mục đích của kho siêu dữ liệu cungcấp tài liệu về cau trúc dữ liệu Bằng cách thiết lập ứng dung dé xác minh giá trịdữ liệu so với giá tri dự kiến trong siêu dữ liệu, các nhà phát triển có thé tránh

được các vân đê thường chỉ xuât hiện sau khi ứng dụng đã được triên khai.

Các nhà phát triển cũng cần cung cấp phản hồi về cấu trúc của kho dit liệu.Đây là một trong những phương pháp chính dé cải thiện kho, bằng cách xác định

dữ liệu mới cần được bao gồm và bằng cách khắc phục sự cố với dữ liệu đã đượctải Bởi vì nhu cầu kinh doanh thực sự thúc đây sự phát triển của các ứng dụng,

SV: Hoàng Thu Hà — MSV: 11141103 17

Trang 23

Chuyên đề thực tập chuyên ngành Toán tài chính

sự hiệu biệt vê nhu câu của các nhà phát triên là rat quan trọng đê đảm bảo rangmột kho đữ liệu chứa đựng dit liệu nó cần dé mang lại giá trị kinh doanh

Kho dữ liệu sẽ thay đôi và các ứng dụng sẽ tiếp tục sử dụng nó Chia khóadé đưa ra thành công là kiểm soát và quản lý những thay đổi Các ứng dụng dànhcho người dùng cuối Kho dữ liệu có dé hỗ trợ nhu cầu dữ liệu của họ chứ không

phải ngược lại.

1.2.7.3 Người dùng doanh nghiệp

Người dùng doanh nghiệp là những người tiêu cực cuối cùng của thông tinthu được từ kho dit liệu của công ty Nhu cau của họ thúc đây sự phát triển củacác ứng dụng, kiến trúc của kho hàng, dữ liệu chứa trong, và các ưu tiên dé thực

Quan trọng hơn, là những người sử dụng máy tính trên bàn làm việc của họ

không chỉ là e-mail và Facebook và có thể tận dụng truy cập trực tiếp vào môi

trường lưu trữ dữ liệu Thông thường, những người dùng này truy cập trung tâm

dữ liệu marts để đáp ứng phần lớn nhu cầu thông tin của họ bằng cách sử dụngthân thiện, các công cụ đồ họa chạy trong môi trường máy tính quen thuộc củahọ Các công cụ này bao gồm trình tạo truy vấn không theo yêu cầu, ứng dụngtùy chỉnh, giao điện OLAP, công cụ truy vấn theo định dạng Excel và các côngcụ tạo báo cáo Đôi khi, người dùng doanh nghiệp có thể tìm hiểu sâu vào khotrung tâm dé khám phá những điều đặc biệt thú vị mà họ tìm thấy trong dit liệu

Thông thường, họ sẽ liên lạc với một nhà phân tích và yêu cầu họ thực hiện côngviệc phân tích nặng hơn hoặc chuẩn bị một trích xuất dit liệu cho Excel

Người dùng doanh nghiệp cũng có các ứng dụng được xây dựng cho các

mục đích cụ thé Các ứng dụng này thậm chí có thé kết hợp một số kỹ thuật khaithác dữ liệu Ví dụ, một ứng dụng lập kế hoạch tài nguyên có thể bao gồm một

công cụ tối ưu hóa tiến độ sử dụng thuật toán di truyền Một ứng dụng dự báo

bán hàng có thé đã tích hợp sẵn các mô hình phân tích ton tại

SV: Hoàng Thu Hà — MSV: 11141103 18

Trang 24

Chuyên đề thực tập chuyên ngành Toán tài chính

Khi được xử lý trong một phần mềm, các thuật toán khai thác dữ liệuthường được giấu kín từ những người dùng cuối, những người quan tâm nhiều

hơn đến các kết quả so với những thuật toán đã tạo ra chúng

1.3 Xử lý dữ liệu kho

1.3.1 Quy trình chungMáy tính cá nhân của nhân viên, kết nối mạng nội bộ EDW, truy cập vào hệthống nguồn qua Import, nhập user, password, là có thể kết nối lên SPSSModeler hoặc phần mềm R Sau khi chiết suất dữ liệu sẽ thông qua SPSS

Collaboration and Deployment Services (SPSS Collaboration and Deployment

Services: cho phép triển khai và chia sẻ các phân tích dự báo trên toàn doanh

nghiệp Giải pháp cung cấp lưu trữ tập trung, an toàn các tài sản phân tích và các

khả năng nâng cao đề quản lý và kiểm soát các quy trình phân tích tiên đoán Nócũng cung cấp các cơ chế nâng cao dé cung cấp kết quả phân tích cho ngườidùng.) Kết quả sẽ xuất đưới dạng bang được đây vào Database trong Data Mart.Các dữ liệu sinh ra sẽ được xử lý bằng phần mềm MySQL đính kèm khi mua góithống kê

1.3.2 Phần mềm thống kê xử lý số liệuMột xu hướng đang trở nên phô biến đang áp dụng trực tiếp các phan mềmphân tích tiên tiến hơn vào cơ sở dữ liệu Bởi vì cơ sở dữ liệu rất giỏi xử lý dữ

liệu - và các cơ sở dir liệu mạnh mẽ tận dụng quá trình xử lý song song - đây là

một cách hay để mở rộng chức năng của SQL, làm cho nó có thể sử dụng một

data mart hoặc kho dữ liệu như là một sandbox phân tích.

Vào giữa những năm 1990, gói phần mềm khai thác dữ liệu Clementine đãbắt đầu cung cấp cho khai thác dữ liệu "trong cơ sở dữ liệu" Điều này cho phépgói phần mềm tận dụng các cơ sở dữ liệu cho một số công việc xây dựng môhình và chấm điểm Cơ sở dữ liệu đầu tiên hỗ tro Clementine được sản xuất bởimột công ty có tên là Tandem Tiến hành trước một vài năm, Clementine hiện làmột phần của IBM (ISL, người sáng tạo ban đầu của Clementine, được mua bởiSPSS, mà IBM đã mua) và Tandem hiện là một phần của HP (Tandem trở thành

Digital trở thành Compaq trở thành HP) và Clementine vẫn hỗ trợ xử lý trong cơ sở đữ liệu.

Bắt đầu vào năm 2002, phần mềm Oracle Data Mining đã bắt đầu di chuyểntất cả các chức năng khai thác dữ liệu trực tiếp vào cơ sở dữ liệu Điều này làmtăng tốc độ các thuật toán bởi vì chúng có thé truy cập dữ liệu trực tiếp thông qua

SV: Hoàng Thu Hà — MSV: 11141103 19

Trang 25

Chuyên đề thực tập chuyên ngành Toán tài chính

công cụ cơ sở dit liệu và cũng bởi vì chúng có thé tận dụng các khả năng songsong của nó Ké từ đó, Oracle đã mở rộng đáng ké chức năng khai thác dữ liệu

của phân mêm.

Vì phần mềm của SAS rất phô biến nên những nỗ lực của SAS trong lĩnhvực này cũng rat quan trọng Các nhà cung cấp cơ sở dit liệu đang triển khai mộtsố SAS nguyên thủy trong cơ sở dữ liệu và phạm vi chức năng sẽ chỉ phát triểntrong tương lai Điều này cho phép phần mềm SAS - thường không được chophép song song - đê tận dụng sức mạnh của các cơ sở đữ liệu quan hệ.

Một bước đi theo hướng này được cung cấp bởi các công ty như FuzzyLogix, mở rộng cơ sở dữ liệu sử dụng các hàm do người dùng định nghĩa Góicủa nó cung cấp một loạt các thói quen thống kê và khai thác dữ liệu có thê đượcgọi trực tiếp từ SQL Tất nhiên, các chức năng này không phải là một phần củatiêu chuẩn SQL

1.3.3 Xử lý dir liệu theo yêu cầu quan tri

1.3.3.1 Quản trị rui ro

Công việc có vai trò quan trọng trong quy trình quản trị rủi ro là giai đoạn

thu thập các dữ liệu rủi ro trong quá khứ và hiện tại theo các nguồn khác nhau:

e Tt các hoạt động nghiệp vụ, các phòng/ban/đơn vi trong hệ thống (ở

đây các trưởng phong/ban/don vi có trách nhiệm khai báo và lưu trữ các rủi ro phát sinh trong quá trình tác nghiệp);

e Cac bộ phận giám sát, kiểm soát có trách nhiệm khai báo và lưu trữ cácrủi ro phát sinh trong quá trình kiểm tra, kiểm soát;

e = Chiết xuất lỗi, sự cô và tôn thất từ các hệ thống khác trong ngân hàng

như: core banking, các module: internet banking, thẻ, treasury,

e Ngoai ra còn từ các nguồn cung cấp dữ liệu tốn that bên ngoài như:

ORX - Operational Riskdata eXchange, BIS -— Bank of International

Settlement hoặc từ các sự kiện rủi ro đã được báo chi dang tải, sử dung các

nguôn di liệu bên ngoài và giả sử các sự kiện rủi ro hoặc các lỗi gây ra rủi ro ảnhhưởng đến hoạt động của ngân hàng minh dé xác định mức độ tổn thất có thé gây

Ta.

1.3.3.2 Chiến lược Marketing

SV: Hoàng Thu Hà — MSV: 11141103 20

Trang 26

Chuyên đề thực tập chuyên ngành Toán tài chính

Dé phục vụ mục đích Marketing, ngân hàng sẽ tiến hành phân cụm kháchhàng qua phần mềm SPSS Khi khách hàng phát sinh giao dịch thanh toán qua

kênh chuyển khoản ngân hoàng hoặc liên ngân hàng, thanh toán trực tuyến

Internet Banking, Mobile Banking, POS ở siêu thị, nhà hàng, hệ thống sẽ ghilại thời gian, địa điểm, chỉ tiêu nhiều hay ít, có bao nhiêu loại thẻ, sử dụng nhiềunhất loại thẻ nào Dữ liệu khách hàng sẽ báo cáo qua cụm mới, từ đó đưa ra chiếnlược Marketing đến những người ít dùng thẻ để họ sử dụng thẻ nhiều hơn

SV: Hoàng Thu Hà — MSV: 11141103 21

Trang 27

Chuyên đề thực tập chuyên ngành Toán tài chính

CHƯƠNG 2: KHO DỮ LIỆU TẠI NGÂN HÀNG VÀ HỆ THONG QUAN TRI DU LIEU KHÁCH HÀNG SỬ DỤNG THE.

2.1 Kho dữ liệu ngân hang2.1.1 Giới thiệu về MySQLSQL là một ngôn ngữ chuẩn hóa dé xác định và thao tác dữ liệu trong một

cơ sở dir liệu quan hệ.

Theo mô hình dữ liệu quan hệ, cơ sở dữ liệu được coi như một tập hợp các

bảng, các mối quan hệ được biểu diễn bằng các giá trị trong bảng và dữ liệu đượclay ra bang cách xác định bảng kết quả có thé được lấy từ một hoặc nhiều bảng

co SỞ.

Các câu lệnh SQL được thực thi bởi một trình quản ly cơ sở dữ liệu Một

trong các chức năng của trình quản lý cơ sở dit liệu là chuyển đổi đặc tả của bảngkết quả thành một chuỗi các hoạt động nội bộ để tối ưu hóa việc truy xuất dữ

liệu Sự biên đôi xảy ra theo hai giai đoạn: chuân bị và ràng buộc.

Tất cả các câu lệnh SQL thực thi phải được chuẩn bị trước khi chúng có théđược thực thi Kết quả của việc chuẩn bị là hình thức thực thi hoặc hoạt động của

tuyên bố Phương thức chuẩn bị một câu lệnh SQL và sự tồn tại của biểu mẫu

hoạt động của nó phân biệt SQL tinh từ SQL động.

MySQL là một hệ thống quan tri cơ sở dữ liệu quan hệ nhanh (RDBMS), dễsử dụng được sử dụng cho nhiều doanh nghiệp nhỏ và lớn MySQL được pháttriển, tiếp thi và hỗ trợ bởi MySQL AB, một công ty của Thụy Điển MySQLđang trở nên phô biến vì nhiều lý do:

e MySQL được phát hành theo giấy phép nguồn mở Vì vậy, không pháitrả tiền dé sử dụng nó

e MySQL là một chương trình rất mạnh mẽ theo đúng nghĩa của nó Nóxử lý một tập con lớn các chức năng của các gói cơ sở dữ liệu đắt tiền và mạnhnhất

e MySQL sử dụng một dạng chuẩn của ngôn ngữ dữ liệu SQL nỗi tiếng.e MySQL hoạt động trên nhiều hệ điều hành và với nhiều ngôn ngữ baogồm PHP, PERL, C, C ++, JAVA, v.v

e MySQL hoạt động rat nhanh và hoạt động tốt ngay cả với các tập dữ

liệu lớn.

SV: Hoàng Thu Hà — MSV: 11141103 22

Trang 28

Chuyên đề thực tập chuyên ngành Toán tài chính

e MySQL rat thân thiện với PHP, ngôn ngữ được đánh giá cao nhất déphát triển web

e MySQL hỗ trợ co sở dữ liệu lớn, lên tới 50 triệu hàng hoặc nhiều hơntrong một bảng Giới hạn kích thước tệp mặc định cho một bảng là 4GB, nhưngcó thé tăng điều này (nếu hệ điều hành của máy tính có thé xử lý nó) với giới hạnlý thuyết là 8 triệu terabyte (TB)

MySQL là tùy chỉnh Giây phép nguồn mở cho phép các lập trình viênsửa đổi phan mềm MySQL dé phù hợp với môi trường riêng của ho

| Context Help | Snippets

© server status mHZØZãO 8E Beate @ © (seuect

EL Client Connections Net ‘actor's actor jd",

Topic: SELECT

& Users and Privileges 2 actor’ first_name’, tax

[Sl Status and System Variables 3 actor`,`last name `, tiện

& bata Export : _ DISTINCTROW ]

5 FROM `sakila`.`actor`; THTEH,_ĐR10RTTY]

&; ata Import/Restore 6 [STRATGHT_JOIN]

7 ®_ SELECT `flm`.'film Id`, {SQL_SMALT_RESULT)

INSTANCE 8 film’.*title’, {S0L_BG RESULTỊ

G startup / Shutdown 9 film’.*description”, {SQLSUFFER- RESULT]

10 film’ release year’, SQL_NO_CACTE]

n film*.*language_id", {sat & Options File 2 'film`,`original_language_id`, No

3 flm`.` rental_duratlon`, si bie “

MySQ1 ENTERPRISE 1⁄4 film`,` rental_rate `, [WHERE wheri on]

& Audit inspector 15 film’ length`, (ERBUE BY (c

expr | position

ch Online Backup He pid fs ri al [ASC | DESC]

ha Backup Recove: z sa lic Si (WITH R0LLUP]]p v 18 film*.* special features”, TKAVING where_condïtion]

Rr sia [ORDER BY {col_nane | 2 _

SCHEMAS ew | AOL aks - expr | position)

GREET Result Set Filter: (Q, 4 | tức: cA E> Eb | txporImpor: [Gy ify | Fetch rows: EP => TASC | DESC, = -1

— film_id title description release year language.id original langua rentai duraion _rental_rate length TH ar

ee, 1 ‘ACADEMY DIN A Epic Drama 2006 1 = 6 0.99 86

> a 2 ‘ACE GOLDFIN A Astounding 2006 1 3 4.99 48 g He

vial fim 3 ADAPTATION A Astounding 2006 1 7 2.99 50 CHƯNG

ng 4 AFFAIR PREJU A Fanciful Doc 2006 1 mm 5 2.99 117 filename’ —

Si 5 AFRICANEGG A Fast-Paced 2006 1 6 2.99 130 CE

6 AGENT TRUMAN A Intrepid Pan 2006 1 3 2.99 169 “export_options

© description 7 AIRPLANE SIERRA A Touching Sa 2006 1 6 4.99 62 dite 11810 OUNPFILE

@ release year 8 AIRPORT POLL A Epic Tale of 2006 1 6 4.99 54 Phá ai

language lở 9 ALABAMA DEVIL A Thoughtful 2006 1 = 3 2.99 114 {| var_nane]]

{FOR UPDATE | LOCK IN

© original languag | 10 ALADDIN CAL A Action-Pack 2006 1 6 4.99 63 27] share Mover? rental_duration

X tệp ri) N2 SELECT is used to retrieve rows

© rental_rate Apply Revert | selected trom one or more tables, and

— ‘ean inclide UNION statements and

tion Output; ‘subquories See UNION, and Online help

Object info | Session

= ets Time Action Response Duration / Fetch Time | subqueries

: CĐ 1Ð 25:03:10 SELECT Rm-tRimie, 'HÌm' túe, “Hm`.'desơipdon., 999 row(s) returned 0.015 sec / 0.136 sec | The most commonly used clauses of

Columns: © 2 230315 SELECT “filmTM.“filmid*, ` `lm`.`đescriptlen`, Error Code: 1054 Unknown column ‘film”length' in’ 0.004 sec SELECT statements are these:

i `Blm`.`Rlm.id`, ` `flm`.`đescription` row(s) retur

a s © 3 230318 SELECT `'fRim'`.`flm id`, „ — 'flm`.`đescription`, 999 row(s) returned 0.001 sec / 0.019 sec | | exon select apr indicates a

title 5 column that you want to retriove.

descri tion releas @yea year(4

Kiến trúc hệ thống được đề xuất được thiết kế dé khắc phục cung cấp một

Tổng quan dữ liệu ngân hàngmôi trường mạnh mẽ Các tính năng chính cho kiến trúc hệ thống được đề xuất

Trang 29

Chuyên đề thực tập chuyên ngành Toán tài chính

* Dé báo cáo gần việc thu thập dữ liệu theo thời gian thực cho dit liệu hoạtđộng.

* Dé phát triển dit liệu khu vực chủ đề cho các trang tổng quan và Báo cáo

OLAP.

* Để làm việc với các thành phan MDM / CDI để cung cấp quan điểm duynhất của doanh nghiệp, mối quan hệ khách hàng

* Dé di chuyền dữ liệu và báo cáo từ hệ thống và nền tảng MIS hiện có

- Đề phục vụ cho việc tăng khối lượng dt liệu trong 5 năm tới.

* Đề tích hợp nhiều kênh phân phối như web, email, thiết bi di động, v.v

* Dé cho phép phân tích đa chiều mô hình OLAP cho phép cắt, thu nhỏ các kích thước.

» Cung cap các biêu mau và báo cáo băng ca tiêng Anh và tiêng Việt.

» Dé cải thiện hiệu suât truy van và báo cáo.

* Dé hỗ trợ tùy chỉnh, Khai thác dữ liệu và Phân tích thống kê nâng cao

trong tương lai.

2.1.3 Cau trúc kho dữ liệu

=

SMSB Internet Banking

Data Warehouse Data Mart

User Access Layer

Trang 30

Chuyên đề thực tập chuyên ngành Toán tài chính

2.1.3.1 Lớp nguồnThành phần này của kiến trúc logic chỉ ra các nguồn dữ liệu khác nhau choKho dữ liệu Các nguồn dir liệu có thể được phân loại rộng rãi thành hai loại:

e Nộibộ

e Bên ngoài

Dữ liệu nội bộ tương ứng với dữ liệu ton tại trong các ứng dụng hoạt độngkhác nhau của các hệ thống hoạt động của công ty như lõi ngân hàng (CoreBanking) Dữ liệu từ các hệ thống nguồn này sẽ được trích xuất thông qua khuvực lưu trữ dữ liệu trung gian như dàn dựng, sao lưu bằng phương pháp kéo bằng

công cụ ETL Nếu dit liệu được đây từ hệ thống nguồn, định dạng dữ liệu tệp

phăng được sử dụng và được lưu trữ trong lớp BODS

Dữ liệu bên ngoài đề cập đến dữ liệu chứa trong Công ty, nhưng không phảilà một phần của bat kỳ ứng dụng chính thức nào Dữ liệu tổ chức không phải làmột phần của các ứng dụng hoạt động được nhóm theo dữ liệu bên ngoài vìphương pháp truy cập là như nhau.

2.1.3.2 Lớp dàn

e Thiết kếCác tệp nguồn từ cơ sở dữ liệu hệ thống nguồn và nguồn bên ngoài sẽ đượcnạp vào tầng dàn dựng Sau đó, dữ liệu từ các bảng dàn dựng sẽ được làm sạchtheo các phương pháp hay nhất của Data Warehouse và CDC (Thay đổi quá trìnhthu thập dữ liệu, so sánh với dữ liệu ngày làm việc trước đó) sẽ được thực hiệnnếu hệ thống nguồn không thể cung cấp dữ liệu giao dịch delta Nếu bất kỳ thayđổi định dạng dữ liệu nào được yêu cầu do quá trình di chuyển dữ liệu của hệ

thống nguồn, định dạng dữ liệu sẽ được chuyển đổi theo quy tắc di chuyển dữ

liệu Sau khi xử lý trên được thực hiện, dữ liệu được nạp vào một lớp được gọi là

IFS (Giao diện tập tin giao diện) chứa trong co sở dữ liệu Sybase IQ Lớp IFS vềcơ bản là một tập hợp các bảng được cau trúc theo cách sao cho dữ liệu từ các hệthống nguồn khác nhau được chuyên đổi thành một cấu trúc có thể nén gọn với

các bảng DWH.

e - Điểm kiểm tra hòa giải dit liệuThống kê dữ liệu đủ điều kiện sẽ được ghi lại tại thời điểm này để quy trìnhđiều chỉnh dữ liệu được kiểm tra trong toàn bộ quá trình tải dữ liệu

e Lưu trữ dữ liệu

SV: Hoàng Thu Hà — MSV: 11141103 25

Trang 31

Chuyên đề thực tập chuyên ngành Toán tài chính

Việc lưu giữ dữ liệu theo giai đoạn sẽ được đề cập trong tài liệu dự án

SOW.

2.1.3.3 Lớp lưu trữ dữ liệu hoạt động (ODS) e ODS

Dữ liệu từ co sở dữ liệu nguồn hoặc từ cơ sở dữ liệu dàn dựng sẽ được tải

lên lớp ODS sau khi làm sạch dữ liệu và xử lý CDC Dữ liệu cũng sẽ được tích

hợp để cung cấp nguồn dữ liệu cho yêu cầu dữ liệu hạ lưu và dữ liệu kho

se Lưu trữ dữ liệu

Lưu giữ dữ liệu ODS sẽ được đề cập trong tài liệu dự án (SOW)

2.1.3.4 Lớp lưu trữ dữ liệu (DWH) e - Kho dữ liệu (DWH)

Dữ liệu được làm sạch và hợp nhất từ cơ sở dữ liệu nguồn và ODS sau đóđược chuyền đổi và được đưa vào kho thông qua các bảng IFS Lớp này là mô

hình dữ liệu iDecisionsTM được tùy chỉnh cho Công ty Các bảng ở dang quan

hệ chuan hóa, bao gồm dữ liệu giao dịch và dữ liệu chủ Lớp này sẽ được phânphát dưới dạng nguồn chính cho các báo cáo truy vấn kinh doanh, yêu cầu dữ

liệu của ứng dụng phân tích và hạ lưu.

e - Quá trình tải dữ liệu

Dữ liệu được tai trong DWH chủ yếu được phân loại thành ba nhóm, dữ liệutham số, dữ liệu chủ và dữ liệu giao dịch Dữ liệu tham số là dữ liệu tĩnh, đượcduy trì trong DWH dưới dạng ảnh chụp nhanh cuối cùng của dữ liệu hoạt động.Dữ liệu chính có thể là dữ liệu chụp nhanh hoặc dữ liệu lưu giữ lịch sử Dựa trêncau trúc dữ liệu nguồn, có thé có dit liệu giao dịch được hợp nhất với dữ liệu chủ.Dữ liệu giao dịch sẽ được duy trì tại DHW giống như chỉ tiết như trong hệ thống

SV: Hoàng Thu Hà — MSV: 11141103 26

Trang 32

Chuyên đề thực tập chuyên ngành Toán tài chính

theo cấp độ chi tiết theo yêu cầu nghiệp vụ trong Data Mart Lop Data Mart cũnglà mô hình dit liệu iDecisionsTM được tùy chỉnh theo yêu cầu nghiệp vụ của

liệu DWH Một lớp trình bày được xây dựng trên lớp truy cập đọc cơ sở dữ liệu

là một giao diện dễ sử dụng để người dùng cuối truy vấn và phân tích dữ liệunghiệp vụ Báo cáo nguồn / báo cáo nguồn được xác định trước cũng được tạobằng giao diện này Lớp giao diện người dùng cuối như Vũ trụ và báo cáo sẽđược tạo bằng các thành phần BO Enterprise như BO Designer, BO WebIntelligence, vv Giao diện người dùng cuối này sẽ cung cấp một nền tảng dé xem

và tạo báo cáo, thực hiện truy vân đặc biệt.

Bang chi tiết hoặc bảng tóm tắt được tạo từ Datamart dựa trên yêu cầunghiệp vụ dé tạo thuận lợi cho báo cáo Tùy thuộc vào các thuộc tính và độ chitiết của dit liệu được báo cáo, lớp ứng dụng BO sẽ chon các bảng thích hợp dé

tạo báo cáo.

Các báo cáo có thể được tạo ra thông qua thành phần BOBI được gọi làInfoview và có thể được tải xuống dưới dạng định dạng pdf hoặc MS excel.Ngoài ra, việc tạo báo cáo có thể được lên lịch trong công cụ và được chia sẻ với

người dùng qua email hoặc đường dẫn mạng.

2.1.4 Xử lý dữ liệu khoSau khi kho dit liệu được đưa vào sử dụng thì yêu cầu rat quan trọng là nóphải được quản lý và theo déi thường xuyên, sao cho đảm bảo thông suốt chongười dùng khai thác thông tin hiệu quả nhất Việc quan trị kho dữ liệu bao gồm

Trang 33

Chuyên đề thực tập chuyên ngành Toán tài chính

e Kiểm tra quá trình tích hợp thường xuyên

e = Quản lý và cập nhật kho siêu dữ liệu e - Giám sát và lập các báo cáo vê tình hình sử dung và trạng thái của kho

dữ

liệu như thời gian sử dụng, số người khai thác, thời gian dap ứng các yêucau

e - Quản lý qui trình sao lưu.

e Lap kế hoạch san sàng phục hồi kho dữ liệu khi có sự cô.e Lập kế hoạch dé nâng cấp và mở rộng hệ thống đĩa, bộ nhớ, băng

thông sẵn sàng cho sự gia tăng kích cỡ của kho dữ liệu theo thời gian.

e Lap kế hoạch lưu trữ bớt các dữ liệu cũ không cần thiết cho việc khaithác ra các thiết bị lưu trữ ngoài kho dữ liệu

e Lap kế hoạch mở rộng phạm vi dữ liệu của kho dữ liệu khi yêu cầunghiệp vụ thay đổi

2.2 Tinh huống hệ thống thông tin khách hang giao dich thé2.2.1 Hệ thống nguồn dữ liệu khách hàng

Một cách chung nhất hiện nay, thì khách hàng được hiểu là những ngườimua hàng nhằm thỏa mãn nhu cầu tiêu dùng cá nhân hoặc thỏa mãn nhu cầu củatô chức Khách hàng cũng được định nghĩa là những cá nhân, tổ chức có nhu cầu,có khả năng thanh toán và đang hướng tới doanh nghiệp dé được thỏa mãn nhu

` A

cau.

Ngân hang là một doanh nghiệp, và sản phẩm mà ngân hang bán ra là các dịch vụ ngân hàng Kinh doanh thẻ là một hoạt động kinh doanh của ngân hang,

do đó, các dịch vụ đi kèm thẻ thanh toán chính là các sản phẩm mà khách hàng

mua được từ ngân hàng Khách hàng chính là mục tiêu mà các hoạt động của

doanh nghiệp nói chung và các ngân hàng nói riêng nhắm tới, bởi thông qua “láphiếu đồng tiền” của mình, khách hàng quyết định sự tồn vong của mọi doanhnghiệp trong nền kinh tế Chính vì vậy, khách hàng là đối tượng trung tâm màcác hoạt động của doanh nghiệp phải luôn xoay quanh, lấy họ làm trọng tâm dé

hướng tới phục vụ.

Tùy theo từng tiêu thức khác nhau mà người ta có thê phân loại khách hàng

của doanh nghiệp thành từng nhóm khác nhau Tuy nhiên, theo mục đích nghiên

cứu của đê tài, chỉ xét tình hình cụ thê của thị trường và đặc điêm sản phâm của

SV: Hoàng Thu Hà — MSV: 11141103 28

Ngày đăng: 26/09/2024, 03:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w