Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Nội dung
Luận văntốt nghiệp
Học mạng nơrontheomôhìnhSOMvà
ứng dụngtrong bài toánquảnlý khách
hàng vayvốnNgânhàng
-1-
MỤC LỤC
MỞ ĐẦU 2
CHƯƠNG 1. MẠNGNƠRONVÀỨNGDỤNGTRONGHỌC MÁY 4
1.1 Mạngnơron 4
1.1.1 Đơn vị xử lý 5
1.1.2 Hàm xử lý 7
1.1.3 Hình trạng mạng 9
1.2 Mạngnơrontrong khai phá dữ liệu 10
1.2.1 Khai phá dữ liệu 10
1.2.2 Khai phá dữ liệu tài chính 13
1.3 Các phương pháp học sử dụngmạngnơron 15
1.3.1 Học có giám sát 16
1.3.2 Học không giám sát 19
1.4 Kết luận chương 1 20
CHƯƠNG 2. THUẬT TOÁNSOM VỚI BÀITOÁN PHÂN CỤM 21
2.1 Các phương pháp phân cụm 21
2.2 Dùngmạngnơrontrong phân cụm 22
2.2.1 Học ganh đua 22
2.2.2 Thuật toánSOM 24
2.2.3 Sử dụngSOMtrong khai phá dữ liệu 29
2.2.4 SOM với bàitoán phân cụm 31
2.2.5 Các phương pháp phân cụm khác 35
2.3 Một vài ứngdụng của SOM 38
2.3.1 Lựa chọn quỹ đầu t
ư 39
2.3.2 Đánh giá rủi ro tín dụng giữa các nước 40
2.4 Kết luận chương 2 43
CHƯƠNG 3. ỨNGDỤNGMÔHÌNHSOMTRONGBÀITOÁNNGÂNHÀNG 45
3.1 Phát biểu bàitoán 45
3.2 Giới thiệu công cụ SOM Toolbox 46
3.3 Cấu trúc chương trình 47
3.3.1 Xây dựng tập dữ liệu 47
3.3.2 Xử lý dữ liệu trước huấn luyện 52
3.3.3 Khởi tạo SOMvà huấn luyện 52
3.3.4 Mô phỏng (trực quan hoá) 56
3.3.5 Phân tích kết quả 59
3.4 Mộ
t số nhận xét 60
3.4.1 Độ phức tạp tính toán 60
3.4.2 Kết quả chạy chương trình 63
3.4.3 So sánh với các công cụ khác 71
3.5 Kết luận chương 3 73
KẾT LUẬN 74
TÀI LIỆU THAM KHẢO 75
-2-
MỞ ĐẦU
Sự phát triển mạnh mẽ của Công nghệ nói chung và Công nghệ thông tin nói riêng
đã tạo nên nhiều hệ thống thông tin phục vụ việc tự động hoá mọi hoạt động kinh
doanh cũng như quảnlýtrong xã hội. Điều này đã tạo ra những dòng dữ liệu khổng
lồ trở thành hiện tượng “bùng nổ thông tin”. Nhiều hệ quản trị cơ sở dữ liệu mạnh
với các công cụ phong phú và thuậ
n tiện đã giúp con người khai thác có hiệu quả
các nguồn tài nguyên dữ liệu lớn nói trên. Bên cạnh chức năng khai thác cơ sở dữ
liệu có tính tác nghiệp, sự thành công trong kinh doanh không chỉ thể hiện ở năng
suất của các hệ thống thông tin mà người ta còn mong muốn cơ sở dữ liệu đó đem
lại tri thức từ dữ liệu hơn là chính bản thân dữ liệu. Phát hiện tri thức trong cơ sở
dữ
liệu (Knowledge Discovery in Databases - KDD) là một quá trình hợp nhất các dữ
liệu từ nhiều hệ thống dữ liệu khác nhau tạo thành các kho dữ liệu, phân tích thông
tin để có được nhiều tri thức tiềm ẩn có giá trị. Trong đó, khai phá dữ liệu (Data
Mining) là quá trình chính trong phát hiện tri thức. Sử dụng các kỹ thuật và các khái
niệm của các lĩnh vực đã được nghiên cứu từ trước như học máy, nhận dạng, thống
kê, h
ồi quy, xếp loại, phân nhóm, đồ thị, mạng nơron, mạng Bayes, được sử dụng
để khai phá dữ liệu nhằm phát hiện ra các mẫu mới, tương quan mới, các xu hướng
có ý nghĩa.
Luận văn với đề tài “Học mạngnơrontheomôhìnhSOMvàứngdụngtrong bài
toán quảnlý khách hàngvayvốnNgân hàng” khảo sát lĩnh vực khai phá dữ liệu
dùng mạng nơron. Luậnvăn tập trung vào phương pháp họcmạngnơron có giám
sát và không có giám sát, dùng thuật toánSOM để giải quyết bàitoán phân cụm
theo môhìnhmạng nơron.
Phương pháp nghiên cứu chính của luậnvăn là tìm hiểu các bài báo khoa học được
xuất bản trong một vài năm gần đây về khai phá dữ liệu dùngmạngnơronvà áp
dụng công cụ SOM ToolBox để giải quyết bàitoán phân tích dữ liệu kháchhàng
vay vốntrongNgân hàng.
-3-
Nội dung của bản luậnvăn gồm có phần mở đầu, ba chương và phần kết luận.
Chương 1 giới thiệu về mạngnơronvà các thành phần chính trongmạngnơron
(mục 1.1), dùngmạngnơrontrong khai phá dữ liệu nói chung và dữ liệu tài chính
nói riêng (mục 1.2) và các phương pháp học sử dụngmạngnơron gồm học có giám
sát (mục 1.3.1) với thuật toán BBP (Boosting-Based Perceptron) vàhọc không có
giám sát (mục 1.3.2).
Chương 2 trình bày chi tiết việc áp dụ
ng mạngnơrontrong khai phá dữ liệu mà đặc
biệt là phân cụm dữ liệu (mục 2.1 và 2.2), có liên quan đến hai thuật toánhọc không
có giám sát đó là thuật toánhọc ganh đua (mục 2.2.1) và thuật toánSOM (2.2.2).
Trên cơ sở đó luậnvăn giới thiệu một số ứngdụng điển hình của SOMtrong lĩnh
vực tài chính (mục 2.3).
Chương 3, áp dụngSOM để giải quyết bàitoán phân tích thông tin kháchhàngvay
vốn Ngân hàng, gồm việc tìm hiểu quy trình lập hồ
sơ kháchhàngvayvốn (mục
3.1), tìm hiểu bộ công cụ SOM Toolbox (mục 3.2 và 3.3) để xây dựng chương trình
cho bàitoán nói trên. Và cuối cùng là một số kết quả chạy chương trình và nhận xét.
Luận văn này được thực hiện dưới sự hướng dẫn khoa học của TS. Hà Quang Thụy.
Tôi xin chân thành cảm ơn sâu sắc tới Thầy đã chỉ dẫn tận tình giúp tôi có thể hoàn
thành bản luậnvăn này. Tôi xin chân thành cảm ơn các thầy giáo và các bạn trong
b
ộ môn Các Hệ thống Thông tin đã có những góp ý hữu ích trong quá trình thực
hiện bản luận văn. Tôi cũng vô cùng cảm ơn sự giúp đỡ và động viên khích lệ của
người thân trong gia đình tôi, bạn bè và các đồng nghiệp trongNgânhàng VPBank
trong suốt quá trình thực hiện luận văn.
Hà nội, tháng 03 năm 2004
Đỗ Cẩm Vân
-4-
CHƯƠNG 1. MẠNGNƠRONVÀỨNGDỤNGTRONGHỌC MÁY
1.1 Mạngnơron
Bộ não con người chứa khoảng 10
11
các phần tử (được gọi là nơron) liên kết chặt
chẽ với nhau. Đối với mỗi nơron, có khoảng 10
4
liên kết với các nơron khác. Một
nơron được cấu tạo bởi các thành phần như tế bào hình cây, tế bào thân và sợi trục
thần kinh (axon). Tế bào hình cây có nhiệm vụ mang các tín hiệu điện tới tế bào
thân, tế bào thân sẽ thực hiện gộp (sum) và phân ngưỡng các tín hiệu đến. Sợi trục
thần kinh làm nhiệm vụ đưa tín hiệu từ tế bào thân tới tế bào hình cây của các nơron
liên kết.
Điểm tiếp xúc giữa một sợi trục thần kinh của nơron này với một tế bào hình cây
của một nơron khác được gọi là khớp thần kinh (synapse). Sự sắp xếp các nơronvà
mức độ mạnh yếu của các khớp thần kinh do các quá trình hoá học phức tạp quyết
định, sẽ thiết lập chức năng của mạng nơron.
Khi con người sinh ra, một bộ phận các nơ
ron đã có sẵn trong não, còn các bộ phận
khác được phát triển thông qua quá trình học, vàtrong quá trình đó xảy ra việc thiết
lập các liên kết mới và loại bỏ đi các liên kết cũ giữa các nơron.
Cấu trúc mạngnơron luôn luôn phát triển và thay đổi. Các thay đổi có khuynh
hướng chủ yếu là làm tăng hay giảm độ mạnh các mối liên kết thông qua các khớp
thần kinh.
Hình 1. Nơron sinh học
-5-
Một trong những phương pháp điển hình giải quyết bàitoánhọc máy là thiết lập các
mạng nơron nhân tạo. Mạngnơron nhân tạo chưa tiếp cận được sự phức tạp của bộ
não. Tuy nhiên, do mô phỏng hoạt động họctrong não mà về cơ bản có hai sự
tương quan giữa mạngnơron nhân tạo vànơron sinh học. Thứ nhất, cấu trúc tạo
thành chúng đều là các thiết bị tính toán đơn gi
ản (với mạngnơron sinh học đó là
các tế bào thân còn với mạng nhân tạo thì đơn giản hơn nhiều) được liên kết chặt
chẽ với nhau. Thứ hai, các liên kết giữa các nơron quyết định chức năng hoạt động
của mạng.
Mạng nơron, được xem như hoặc là môhình liên kết (connectionist model), hoặc là
mô hình phân bố song song (parallel-distributed model) và có các thành phần phân
biệt sau đây:
1) Tập các đơn vị xử lý;
2) Trạng thái kích hoạt hay đầu ra của đơn vị xử lý;
3) Liên kết giữa các đơn vị, mỗi liên kết được xác định bởi một trọng số
w
ji
cho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn vị i;
4) Luật lan truyền quyết định cách tính tín hiệu ra của đơn vị từ đầu vào
của nó;
5) Hàm kích hoạt, xác định mức độ kích hoạt khác dựa trên mức độ kích
hoạt hiện tại;
6) Đơn vị điều chỉnh (độ lệch - bias) của mỗi đơn vị;
7)
Phương pháp thu thập thông tin (luật học – learning rule);
8) Môi trường hệ thống có thể hoạt động.
1.1.1 Đơn vị xử lý
Một đơn vị xử lý, cũng được gọi là một nơron hay một nút (node), thực hiện công
việc rất đơn giản: nhận tín hiệu vào từ các đơn vị khác hay một nguồn bên ngoài và
sử dụng chúng để tính tín hiệu ra sẽ được lan truyền sang các đơn vị khác.
-6-
trong đó:
x
i
: các đầu vào của đơn vị thứ j,
w
ji
: hệ số nối tới đơn vị thứ j,
θ
j
: độ lệch đối với đơn vị thứ j,
a
j
: tổng thứ j của đầu vào mạng (net input), tương ứng với đơn vị thứ j,
z
j
: đầu ra của đơn vị thứ j,
g(x) : hàm kích hoạt.
Trong một mạngnơron có 3 kiểu đơn vị:
1) Các đơn vị đầu vào (input unit), nhận tín hiệu từ bên ngoài;
2) Các đơn vị đầu ra (output unit), gửi tín hiệu ra bên ngoài;
3) Các đơn vị ẩn (hidden unit), đầu vào (input) và đầu ra (output) của
chúng đều nằm trong mạng.
Như được thể hiện tronghình 2, mỗi đơn vị j có thể có một hoặ
c nhiều đầu vào: x
0
,
x
1
, x
2
, , x
n
, nhưng chỉ có một đầu ra z
j
. Mỗi đầu vào của một đơn vị có thể là dữ
liệu từ bên ngoài mạng, hoặc đầu ra của một đơn vị khác, hoặc đầu ra của chính đơn
vị đó.
∑
)(
j
ag
0
x
1
x
x
n
.
.
.
0j
w
1j
w
jn
w
j
θ
j
a
j
z
∑
=
+=
n
i
jijij
xwa
1
θ
)(
jj
agz =
H
ình 2. Đơn vị xử l
ý
-7-
1.1.2 Hàm xử lý
1.1.2.1 Hàm kết hợp
Mỗi đơn vị trongmạngnơron kết hợp các tín hiệu đưa vào nó thông qua các liên kết
với các đơn vị khác, sinh ra một giá trị gọi là net input
. Hàm thực hiện nhiệm vụ
này gọi là hàm kết hợp, được định nghĩa bởi một luật lan truyền cụ thể. Trong phần
lớn các mạng nơron, giả sử rằng mỗi đơn vị cung cấp một đầu vào cho đơn vị mà nó
có liên kết. Tổng đầu vào đơn vị j đơn giản chỉ là tổng theotrọng số của các đầu ra
riêng lẻ từ các đơn vị
kết nối tới nó cộng thêm ngưỡng hay độ lệch
θ
j
:
∑
=
+=
n
i
jiijj
xwa
1
θ
Trường hợp w
ji
>0, nơron được coi là ở trong trạng thái kích thích. Ngược lại khi
w
ji
<0, nơron được coi là ở trạng thái kiềm chế. Chúng ta gọi đơn vị với luật lan
truyền như trên là đơn vị tổng (sigma unit).
Trong một vài trường hợp người ta cũng có thể sử dụng các luật lan truyền phức tạp
hơn. Một trong số đó là luật tổng – tích (sigma-pi rule), có dạng sau:
∑
∏
=
=
+=
n
i
m
k
jikji
xwa
1
1
θ
Rất nhiều hàm kết hợp sử dụng “độ lệch” để tính net input tới đơn vị. Đối với một
đơn vị đầu ra tuyến tính, thông thường, độ lệch
θ
j
được chọn là hằng số vàtrongbài
toán xấp xỉ đa thức
θ
j
= 1.
1.1.2.2 Hàm kích hoạt
Phần lớn các đơn vị trongmạngnơron chuyển net input
bằng cách sử dụng một
hàm vô hướng gọi là hàm kích hoạt, nếu kết quả của hàm này là một giá trị gọi là
-8-
mức độ kích hoạt của đơn vị. Ngoại trừ khả năng đơn vị đó là một lớp ra, giá trị
kích hoạt được đưa vào một hay nhiều đơn vị khác. Các hàm kích hoạt thường bị ép
vào một khoảng giá trị xác định, do đó thường được gọi là các hàm bẹp (squashing).
Các hàm kích hoạt hay được sử dụng là:
- Hàm đồng nhất (Linear function, Identity function)
xxg
=
)(
Nếu coi đầu vào là một đơn vị thì sẽ sử dụng hàm này. Đôi khi một hằng số được
nhân với net input để tạo ra một hàm đồng nhất.
- Hàm bước nhị phân (Binary step function, Hard limit function)
Hàm này cũng được biết đến với tên “hàm ngưỡng” (threshold function). Đầu ra của
hàm này được giới hạn vào một trong hai giá trị.
⎩
⎨
⎧
≥
=
),(,0
)(,1
)(
θ
θ
xif
xif
xg
Dạng hàm này được sử dụngtrong các mạng chỉ có một lớp. Tronghình vẽ sau
θ
được chọn bằng 1.
-1 1
-1
1
x
g(x)
Hình 3. Hàm đồng nhất
-1 0 1 2 3
1
g(x)
x
Hình 4. Hàm bước nhị phân
-9-
- Hàm sigmoid (Sigmoid function)
x
e
xg
−
+
=
1
1
)(
Hàm này đặc biệt thuận lợi khi sử dụng cho các mạng huấn luyện, bởi nó dễ lấy đạo
hàm, do đó có thể giảm đáng kể tính toántrong quá trình huấn luyện. Hàm này
được ứngdụng cho các chương trình ứngdụng mà các đầu ra mong muốn rơi vào
khoảng [0,1].
1.1.3 Hình trạng mạng
Hình trạng của mạng được định nghĩa bởi: số lớp (layer), số đơn vị trên mỗi lớ
p, và
sự liên kết giữa các lớp như thế nào. Các mạng về tổng thể được chia thành hai loại
dựa trên cách thức liên kết các đơn vị.
1.1.3.1 Mạng truyền thẳng
0-2-4-6 2 4 6
g(x)
x
Hình 5. Hàm Sigmoid
bias
.
.
.
.
.
.
.
.
.
bias
0
x
1
x
n
x
2
x
1
y
n
y
2
y
1
h
m
h
2
h
0
h
)1(
ji
w
)2(
kj
w
Input Layer Hidden Layer Output Layer
Hình 6. Mạngnơron truyền thẳng nhiều lớp
[...]... phõn cm theo phõn cp phõn cm SOM Cỏc mu cú th c phõn cm trc tip hoc phõn cm theo mt s c tớnh xỏc nh trc ca SOMTrong phõn cm b phn cỏc n v ni suy cú th b b qua khi phõn tớch [3] Trong phõn cm tớch t quan h lõn cn SOM cú th c dựng rng buc kh nng hp nht trong cu trỳc dng cõy dendrogram -33- Nu iu ny c dựng kt hp vi cỏc rng buc lõn cn, cỏc n v ni suy th hin ng biờn trong ma trn m vn tuõn theo cu trỳc... thay i tip theo s l ph nh Lut 1 Nu thay i ln cui trong chui l ph nh, thỡ thay i tip theo s l khng nh Lut 2 Nu thay i ln cui trong chui l khng nh, thỡ thay i tip theo s l khng nh Lut 1 Nu thay i ln cui trong chui l khng nh, thỡ thay i tip theo s l khng nh Lut 2 Nu thay i ln cui trong chui l ph nh v cỏc ln thay i trc khụng phi l khng nh, thỡ thay i tip theo s l khng nh 1.3 Cỏc phng phỏp hc s dng mng nron... tớnh thng nhanh hn thut toỏn x lýtheo khi õy l mt c im cú li cho tp d liu -13- ln Mt gii phỏp c gi l tt nu nh mụ hỡnh cú th c phỏt hin ch trong mt ln duyt qua mt tp d liu ln Lý do ny, chng t thi gian hun luyn ca cỏc phng phỏp hc mng nron l chp nhn cho vic khai phỏ d liu 1.2.2 Khai phỏ d liu ti chớnh Theo ỏnh giỏ ca Rao vo nm 1993 [4]: Cỏc kt qu ỏng chỳ ý trong mng nron trong sut my nm qua thu c t vic... mi cm v ý tng l chn mụ hỡnh tt nht trong s cỏc mụ hỡnh ca cỏc cm - Cỏc phng phỏp khỏc nh l tip cn mng nron v hc ganh ua Cỏc k thut phõn cm ó v ang c ỏp dng trong nhiu vn nghiờn cu Vớ d nh, trong lnh vc y t: phõn loi bnh, cỏch cha bnh, hoc triu chng bnh; trong lnh vc ti chớnh c bit l nghiờn cu th trng, la chn qu u t, c nh ri ro tớn dng, ; trong x lý nh, nhn dng mu, ; trong web nh phõn lp ti liu, phõn... Th tc ny phự hp vi vic iu chnh xp x ban u ca SOMtrong cựng mt khụng gian ging nh d liu u vo v sau ú iu chnh tt trờn ma trn Cú nhiu bin th ca SOM Mt ch khỏc ca SOM l dựng t l hc mng nron v cỏc kớch thc lõn cn Ngoi ra cú th s dng cu trỳc ma trn mt cỏch -29- thớch hp hoc ngay c cu trỳc ang phỏt trin Mc ớch ca cỏc bin i ny l thit lp SOMtheo hỡnh trng tt hn trong khuụn kh ca tp d liu hoc thc hin kt qu... nhau Nh ó trỡnh by, SOM rt hiu qu trong vic phõn cm v rỳt gn kớch thc d liu Nu tớch hp SOM vi cỏc phng phỏp khỏc cú th sinh lut Trc quan hoỏ rt cú ý ngha trong khai phỏ d liu, l yu t quan trng trong bỏo cỏo kt qu hoc to tri thc [10] Cỏc minh ho trc quandựng hiu thu ỏo tp d liu v túm tt cu trỳc tp d liu Cú th khng nh im mnh ca SOM l phng phỏp trc quan hoỏ Cỏc k thut trc quan hoỏ dựngSOM gm: - Trc quan... o cho cỏc im trong cm vi trng s phự hp Nh vy, -31- o va gn c giỏ tr cho tt c cỏc im ging nh khong cỏch va gi c hỡnh thỏi ca cm d liu Phng phỏp SOM hon ton cú th c dựng nh mt phộp o 2.2.4 SOM vi bi toỏn phõn cm SOM l phng phỏp phõn cm theo cỏch tip cn mng nron v thut toỏn hc ganh ua Vect trng s ca ma trn SOM chớnh l trng tõm cm, vic phõn cm cú th cho kt qu tt hn bng cỏch kt hp cỏc n v trong ma trn... th hin cỏc n v lõn cn trong ma trn, vỡ vy cỏc n v ny phi cú thuc tớnh ging nhau hn so vi cỏc n v trong cỏc cm khỏc S di chuyn t mt cm ny sang cm khỏc trong ma trn din ra t t trờn mt s n v trong ma trn iu ny cú ngha l nu s cm mong mun l nh thỡ ma trn SOM cng phi c phõn cm DựngSOM nh mt bc trung gian phõn cm, ú l cỏch tip cn gm hai mc: u tiờn phõn cm tp d liu, v sau ú phõn cm SOM Vi mi vect d liu ca... ti chớnh thng mi; (2) cỏc h thng mng nron m li thớch hp cho vic xõy dng mụ hỡnh ti chớnh v d bỏo; (3) dựng mng nron hi quy trong ti chớnh d oỏn li trong kinh doanh Tin x lý cng c dựng ph bin trong tng quỏt hoỏ cng nh trong cỏc ng dng mng nron trong ti chớnh Mt hng chung ca tin x lý l dựng hm sigmoid v cỏc cỏch bin i khỏc nhau lm thay i cỏc giỏ tr ln hn 1 Mc ớch ca cụng vic ú l nhm tng tc hun luyn... trc vo trong mt tp cỏc cm d liu Cỏc cm d liu s th hin cỏc quy tc biu din trong tp d liu nh cỏc minh ho ging nhau c ỏnh x vo trong cỏc lp ging nhau Bin th ca hc ganh ua m chỳng ta xột õy ụi khi c gi l hc ganh ua n iu, liờn quan n vic hc trong mng nron mt lp Cỏc n v u vo trong mng cú cỏc giỏ tr liờn quan n lnh vc ang xột, v k n v u ra th hin k lp vớ d u vo c phõn cm -23- Giỏ tr u vo cho mi u ra trong . Luận văn tốt nghiệp Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn Ngân hàng -1- MỤC LỤC MỞ ĐẦU 2 CHƯƠNG 1. MẠNG NƠRON VÀ ỨNG. SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn Ngân hàng khảo sát lĩnh vực khai phá dữ liệu dùng mạng nơron. Luận văn tập trung vào phương pháp học mạng nơron có giám sát và không. dùng mạng nơron và áp dụng công cụ SOM ToolBox để giải quyết bài toán phân tích dữ liệu khách hàng vay vốn trong Ngân hàng. -3- Nội dung của bản luận văn gồm có phần mở đầu, ba chương và phần