Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
536,27 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN THỊ NGUYỆT
NGHIÊN CỨUỨNGDỤNGLUẬTKẾTHỢP
TRONG PHÂNTÍCHTÀICHÍNHVÀKINHDOANH
NGÂN HÀNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Người hướng dẫn khoa học: PGS. TS NGUYỄN BÁ TƯỜNG
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012
1
MỞ ĐẦU
Mục đích của luận án này là nghiêncứu tổng quan
về khai thác dữ liệu, nghiêncứu một số thuật toán khai
thác luậtkếthợptrong đó đi sâu vào nghiên cứu, thử
nghiệm ứngdụng vào phântíchtàichínhngân hàng, giúp
chuyên gia có được những thông tin có tính chất qui luật,
trợ giúp quyết định hiệu quả.
Nội dung luận văn được chia thành 3 chương:
Chương 1: Tổng quan về hoạt động kinhdoanh của
ngân hàng thương mại: Giới thiệu tổng quan về hoạt động
của ngân hàng, các chức năng của ngânhàng thương mại;
Những quy chế đặc thù đối với hoạt động ngân hàng; Tìm
hiểu bảng cân đối kế toán ngânhàngvà các chỉ số tài
chính.
Chương 2: Cơ sở lý thuyết về khai thác dữ liệu: Tổ
chức và khai thác dữ liệu truyền thống; khai thác dữ liệu
và quá trình phát hiện tri thức, các dạng dữ liệu có thể
khai thác dữ liệu, nhiệm vụ của khai thác dữ liệu, các
phương pháp khai thác dữ liệu.
Chương 3: Nghiêncứuluậtkết hợp: Trong chương
này đi sâu vào nghiêncứuluậtkếthợp nhị phân.
2
Chương 1: TỔNG QUAN VỀ HOẠT ĐỘNG KINH
DOANH CỦA NGÂNHÀNG THƯƠNG MẠI
1.1. Kinhdoanhngânhàng – một loại hình kinh
doanh đặc biệt
1.1.1. Ngânhàng - một trung gian tàichính
Để hiểu được chức năng đặc biệt của ngânhàng
trong nền kinh tế, chúng ta hãy hình dung một thế giới
giản đơn trong đó không tồn tại hoạt động của hệ thống
ngân hàng. Trong một thế giới như vậy, những khoản tiết
kiệm của dân chúng chỉ có thể được sử dụng hoặc là dưới
dạng tiền mặt; hoặc là dưới dạng đầu tư chứng khoán vào
các công ty. Nói một cách khái quát, các công ty phát
hành chứng khoán để đầu tư vào các tài sản thực, như nhà
xưởng, máy móc, nguyên liệu Hình 1.1 mô tả luồng tiền
tiết kiệm được luân chuyển từ dân chúng đến các công ty
và ngược lại các chứng khoán là cổ phiểu và trái phiếu
(CP & TP) được luân chuyển từ phía công ty đến dân
chúng.
Công ty
(những người cần
vốn)
Dân chúng
(những người gửi tiết
kiệm)
CP&
Vốn
3
Hình 1.1 Các luồng vốn và chứng khoán trong một thế giới
không có ngân hàng.
Hình 1.2 chỉ ra bức tranh thực tế của thế giới mà
chúng ta đang sống, biểu diễn các lượng vốn luân chuyển
trong nền kinh tế, qua đó cho thấy vai trò, vị trí của hệ
thống ngânhàng là trung gian giữa người đầu tư và các
công ty là như thế nào.
Hình 1.2 Các luồng vốn luân chuyển trong một thế giới mà
các hệ thống ngânhàng tồn tạivà phát triển
Ngân hàng thực hiện hai chức năng cơ bản đó là:
chức năng luân chuyển tài sản và chức năng cung cấp các
dịch vụ thanh toán, môi giới và chuyển tài sản; và chức
năng cung cấp các dịch tư vấn.
1.1.2. Các chức năng của ngânhàng thương mại
- Tạo tiền;
- Thanh toán;
Ngân hàng
(nhà trung
gian)
Ngân hàng
(nhà luân
chuyển tài
sản)
Dân
chúng
Các công
ty
Vốn
Ch
ứng chỉ
TG
CP
&TP
Vốn
4
- Huy động tiết kiệm;
- Mở rộng tín dụng;
- Tài trợ ngoại thương;
- Dịch vụ ủy thác;
- Bảo quản an toàn vật có giá;
- Dịch vụ kinh kỹ;
1.1.3. Những quy chế đặc thù đối với hoạt động
ngân hàng
- Qui chế về an toàn trong hoạt động kinh
doanh ngân hàng;
- Qui chế về chính sách tiền tệ;
- Qui chế về phân phối tín dụng;
- Qui chế về bảo vệ người tiêu dùng;
- Qui chế về bảo vệ người đầu tư;
- Qui chế về thành lập ngânhàngvà cấp
giấy phép kinh doanh.
1.2. Tìm hiểu bảng cân đối kế toán ngânhàngvà các
chỉ số tàichính
1.2.1. Các khái niệm
1.2.2. Nội dungvàkết cấu bảng cân đối kế toán
1.2.3. Mô tả các khoản mục trên bảng cân đối kế
toán
1.2.4. Các chỉ số tàichính chủ yếu của ngânhàng
5
Chương 2: CƠ SỞ LÝ THUYẾT VỀ KHAI THÁC DỮ
LIỆU
2.1. Tổ chức và khai thác dữ liệu truyền thống
2.2. Bước phát triển tiếp theo của việc tổ chức và
khai thác các cơ sở dữ liệu
2.3. Khai thác dữ liệu và quá trình phát hiện tri thức
2.4. Các dạng dữ liệu có thể khai thác dữ liệu
Khai thác dữ liệu có khả năng chấp nhận một số
kiểu dữ liệu khác nhau điển hình như sau:
- Cơ sở dữ liệu quan hệ (relational databases).
- Cơ sở dữ liệu đa chiều (multidimention
structures, data warehouses, data mart).
- Cơ sở dữ liệu giao tác (transactional databases).
- Cơ sở dữ liệu quan hệ - hướng đối tượng (object
relational databases).
- Dữ liệu không gian và thời gian (spatial,
temporal, and time-series data).
- Cơ sở dữ liệu đa phương tiện (Multimedia
databases).
2.5. Nhiệm vụ chính của khai thác dữ liệu
- Phân lớp (Classification).
- Hồi quy (regression).
6
- Phân nhóm (Clustering).
- Tóm tắt (summarization).
- Mô hình hóa phụ thuộc (Dependency Modeling).
2.6. Các phương pháp khai thác dữ liệu
Quá trình khai thác dữ liệu là quá trình phát hiện
mẫu, trong đó, giải thuật khai thác dữ liệu tìm kiếm các
mẫu đáng quan tâm theo dạng xác định như các luật, cây
phân lớp, quy hồi, phân nhóm, v.v…
2.6.1. Các thành phần của giải thuật khai thác dữ
liệu
- Biểu diễn mô hình.
- Đánh giá mô hình.
- Tìm kiếm mô hình.
2.6.2. Một số phương pháp khai thác dữ liệu phổ
biến
2.6.2.1. Phương pháp quy nạp.
2.6.2.2. Cây quyết định và luật.
2.6.2.3. Phát hiện các luậtkết hợp.
2.6.2.4. Các phương pháp phân lớp và hồi quy
phi tuyến.
2.6.2.5. Phân nhóm vàphân đoạn (Clustering
and Segmentation).
2.6.2.6. Các phương pháp dựa trên mẫu.
7
2.6.2.7. Mô hình phụ thuộc dựa trên đồ thị xác
suất.
2.6.2.8. Khai thác dữ liệu dạng văn bản (Text
Mining).
2.6.2.9. Mạng neuron.
2.6.2.10. Giải thuật di truyền.
2.7. Phương pháp khai thác áp dụngtrong luận văn
Trong luận văn này, phương pháp khai thác dữ liệu
đã được áp dụng chủ yếu là phương pháp khai thác luật
kết hợp nhị phân có cải tiến bằng cách xác định những
thuộc tính về phải để khám phá những luật thật sự quan
tâm, thuật toán khám phá luậtkếthợp nhị phân sẽ được
trình bày trong chương 3.
8
Chương 3: KHÁM PHÁ LUẬTKẾTHỢP
3.1. Ý nghĩa của luậtkếthợpLuậtkếthợp là một phương pháp phổ biến và quan
trọng trong khai thác dữ liệu.
Độ hỗ trợ (support) và độ tin cậy (confidence) là
hai thước đo cho một luậtkết hợp.
3.2. Một số hướng tiếp cận trong khai thác luậtkết
hợp
- Luậtkếthợp nhị phân (Binary association rule hoặc
Boolean association rule).
- Luậtkếthợp có thuộc tính số và thuộc tính hạng
mục (quantitative and categorical association rule).
- Luậtkếthợp tiếp cận theo hướng tập thô (mining
association rules base on rought set).
- Luậtkếthợp nhiều mức (multi-level association
rule).
- Luậtkếthợp mờ (fuzzy assocication rule).
- Luậtkếthợp với thuộc tính được đánh trọng số
(association rule with weighted items).
- Khai thác luậtkếthợp song song (parallel mining
of association rules).
3.3. Phát biểu bài toán khai thác luậtkếthợp
9
3.3.1. Dữ liệu để khai thác
Cho I = {i1, i2, i3, , in} là tập bao gồm n mục
(Item – còn gọi là thuộc tính - attribute). X
I được gọi
là tập mục (itemset).
T = {t1, t2, , tm} là tập gồm m giao tác
(Transaction – còn gọi là bản ghi - record).
R là một quan hệ nhị phân trên I và T (hay R
IxT). Nếu giao tác t có chứa mục i thì ta viết (i, t)
R
(hoặc iRt). Ta sẽ ký hiệu DM = (T, I, R) là dữ liệu (ngữ
cảnh) để khai thác.
Ví dụ về cơ sở dữ liệu (dạng giao tác): I = {A, B,
C, D, E},
T = {1, 2, 3, 4, 5, 6}, thông tin về các giao tác cho
ở bảng sau:
Bảng 3.1.a Ví dụ về một cơ sở dữ liệu dạng giao tác –
(D) DM
T I
=
{A, B, C, D, E}
1 A B D E
2 B C E
3 A B D E
4 A B C E
5 A B C D E
6 B C D
[...]... Y))/card(T(X)) = T(X Y) T (X ) ; 3.5 Luậtkếthợp có thuộc tính số và thuộc tính hạng mục Khai thác luậtkếthợp với thuộc tính số và thuộc tính hạng mục (quantitative and categorical association 12 rule) là một trong những hướng tiếp cận quan trọngtrong lĩnh vực khai thác luậtkếthợp Đặc biệt trongphântích dữ liệu ngânhàng Ví dụ ta xét tập 24 tài khoản của 24 khách hàng như sau: Bảng 3.4 Cơ sở dữ... về ngânhàng thương mại, các chức năng của ngânhàng thương mại và bảng tổng kếttài sản cũng như các chỉ số tàichính bổ sung của hoạt động ngânhàngvà mục tiêu của luận văn Chương 2 và chương 3: Luận văn đã trình bày những vấn đề chung về khai thác dữ liệu, trong đó luận văn cũng đã trình bày được phương pháp khai thác dữ liệu được áp dụngtrong luận văn là phương pháp khai thác luậtkếthợp nhị phân. .. phân bằng cách áp dụng các phương pháp rờ rạc hóa để đưa bảng dữ liệu tàichính về các bảng nhị phân để có thể áp dụng các luậtkếthợp Phương pháp khám phá luật dựa trên việc xác định những thuộc tính chỉ xuất hiện ở vế trái và những thuộc tính chỉ xuất hiện ở vế phải của luật, như vậy thuật toán khám phá luậtkếthợp 23 nhị phân sẽ giảm đáng kể chi phí tập phổ biến và chi phí khám phá luật, đồng thời... ta có thể xác định và tính độ tin cậy liên quan các luật: Loại tiền gửi => rút đúng hạn Loại tiền gửi => rút trước hạn Loại tiền gửi => gửi tiếp,…v.v 22 KẾT LUẬN 1 Những vấn đề đã giải quyết trong luận văn Với kiến thức về lĩnh vực ngânhàng còn hạn chế, những vấn đề đã được đề cập và giải quyết trong luận văn chỉ là một phầntrong lĩnh vực phântíchtàichínhngân hàng, tuy nhiên trong luận văn cũng... của luật Độ hỗ trợ của luật kếthợp X => Y Độ hỗ trợ của luật kếthợp X => Y, ký hiệu s(X => Y) là tỷ số của số các giao tác trong D có chứa X Y trên số tất cả giao tác trong D Hay s(X => Y) = card (T(X Y))/card(T) = T(X Y) T ; trong đó T(X) là tập giao tác chứa tập mục X Độ tin cậy của luật kếthợp X => Y Độ tin cậy (confidence) của luật X => Y, ký hiệu conf(X => Y) là tỷ số các giao tác trong. .. giao tác trong cơ sở dữ liệu D chứa X trên tổng số các giao tác trong cơ sơ dữ liệu D Hay s(X) = Card (T(X)) / Card (T) = T(X ) T 3.3.4 Luậtkếthợp X => Y Cho DM = (T, I, R) là dữ liệu để khai thác X, Y I là các tập mục thỏa mãn điều kiện X Y 11 Luậtkếthợp của X và Y, ký hiệu X=>Y, đây là luật chỉ khả năng xuất hiện Y khi X xuất hiện Luật kếthợp có hai độ đo gắn với nó là: độ hỗ trợ và độ... những luật thật sự quan tâm, không đưa ra những luật không có ý nghĩa đối với người sử dụng 2 Hướng phát triển của đề tài Do hiểu biết còn hạn chế về hoạt động ngânhàng cũng như thời gian có hạn nên luận văn chưa giải quyết được những vấn đề như: khả năng dự báo rủi ro, dự báo lãi suất, xếp hạng hoạt động của ngân hàng, mối quan hệ giữa lãi suất vàkết quả huy động vốn khi thay đổi lãi suất, v.v… .và. .. ĐH là có) với độ tin cậy là 3/6 = 50% 3.6 Phương pháp rời rạc hóa dữ liệu để phântíchtàichính – ngânhàng Trường hợp 1: Nếu A là thuộc tính số rời rạc hoặc thuộc tính hạng mục có miền giá trị hữu hạn dạng {v1, v2,…, vk} và k đủ nhỏ ( GT & conf( TIENGUI1 => GT) = 3/7 = 43% TIENGUI2 => GT & conf( TIENGUI2 => GT) = 6/13 =48% TIENGUI3 => GT & conf( TIENGUI3 => GT) = 1/4 = 25% Vậy số khách hàng có tiền gửi từ 3 trăm triệu đến 3 trăm triệu sẽ gửi tiếp là lớn nhất = 48% Trong khi đó khách hàng gửi từ 5 trăm triệu trở lên chỉ có 25% gửi tiếp Bây giờ ta xét bài toán rời rạc và nhị phân hóa . NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN THỊ NGUYỆT
NGHIÊN CỨU ỨNG DỤNG LUẬT KẾT HỢP
TRONG PHÂN TÍCH TÀI CHÍNH VÀ KINH DOANH
NGÂN HÀNG
. 3: Nghiên cứu luật kết hợp: Trong chương
này đi sâu vào nghiên cứu luật kết hợp nhị phân.
2
Chương 1: TỔNG QUAN VỀ HOẠT ĐỘNG KINH
DOANH CỦA NGÂN