Tuy nhiên theo thống kê thi chỉ có một lượng nhỏ của những dữ liệu này khoảng dưới10% là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì và có thể làm gì với những dữ liệu n
Trang 1ĐẠI HỌC ĐÀ NẴNG
PHẠM ĐÌNH BÔN
NGHIÊN CỨU CÂY QUYẾT ĐỊNH
VÀ ỨNG DỤNG ĐỂ PHÂN LOẠI
KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG
VIETINBANK CHI NHÁNH KON TUM
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Đà Nẵng - Năm 2017
Trang 2Đại học Đà Nẵng
Người hướng dẫn khoa học: TS PHẠM ANH PHƯƠNG
Phản biện 1: TS Nguyễn Trần Quốc Vinh
Phản biện 2: TS Nguyễn Quang Thanh
Luận văn đã được bảo vệ tại hội đồng chấm luận văn thạc
sĩ Hệ thống thông tin họp tại Đại học Đà Nẵng vào ngày 07 tháng 01 năm 2017
Có thể tìm hiểu luận văn tại:
Thư viện trường Đại học Sư phạm Đại học Đà Nẵng Trung tâm Thông tin học liệu Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại Cùng với sự phát triển của Công nghệ Thông tin và ứng dụng của nó trong đời sống - kinh
tế - xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn Người ta lưu trữ những dữ liệu này vì cho rằng nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên theo thống kê thi chỉ
có một lượng nhỏ của những dữ liệu này (khoảng dưới10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì và có thể làm
gì với những dữ liệu này, nhưng họ vẫn tiếp tục thu thập và lưu trữ vì
hy vọng những dữ liệu này sẽ cung cấp cho họ những thông tin quý giá một cách nhanh chóng để đưa ra những quyết định kịp thời vào một lúc nào đó Chính vì vậy, các phương pháp quản trị và khai thác
cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining)
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới, tại Việt Nam kỹ thuật này còn tương đối mới mẻ tuy nhiên cũng đang được nghiên cứu và bắt đầu đưa vào một số ứng dụng thực tế
Vì vậy, hiện nay ở nước ta vấn đề phát hiện tri thức và khai phá dữ liệu đang thu hút được sự quan tâm của nhiều người và nhiều công ty phát triển ứng dụng Công nghệ Thông tin Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo…
Trang 4Có nhiều phương pháp phân lớp được đề xuất, tuy nhiên không có phương pháp tiếp cận phân loại nào là tối ưu và chính xác hơn hẳn những phương pháp khác Dù sao với mỗi phương pháp có một lợi thế và bất lợi riêng khi sử dụng Một trong những công cụ khai phá tri thức hiệu quả hiện nay là sử dụng cây quyết định để tìm
ra các luật phân lớp Với mong muốn nghiên cứu về việc ứng dụng cây quyết định để phân loại khách hàng của Ngân hàng thương mại,
tôi đã chọn đề tài “Nghiên cứu cây quyết định và ứng dụng để
phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum”
2 Mục tiêu nghiên cứu
- Nghiên cứu các thuật toán xây dựng cây quyết định ID3
- Áp dụng mô hình cây quyết định (ID3: Decision Tree) vào việc phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
- Bài toán phân lớp dữ liệu trong khai phá dữ liệu;
- Cây quyết định;
Phạm vi nghiên cứu
- Nghiên cứu về thuật toán ID3;
- Phân lớp dữ liệu khách hàng, cụ thể: khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum
4 Phương pháp nghiên cứu
- Đọc hiểu tài liệu
- Cài đặt ứng dụng chạy trên hệ điều hành Window
5 Cấu trúc luận văn
Báo cáo luận văn gồm các phần chính như sau:
MỞ ĐẦU
Trang 5CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
CHƯƠNG 2 CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU CHƯƠNG 3 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG
VIETINBANK CHI NHÁNH KON TUM
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Chương này trình bày sơ lược về khai phá dữ liệu, ứng dụng của khai phá dữ liệu, các phương pháp khai phá dữ liệu thông dụng
và ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính ngân hàng
1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU
Khám phá tri thức
1.1.1.
Quá trình khám phá dữ liệu gồm các bước cơ bản sau đây [1][2][9]:
Bước 1: Xác định vấn đề và lựa chọn nguồn dữ liệu (Problem
Understanding anh Data Understanding)
Bước 2: Chuẩn bị dữ liệu (Data preparation)
Bước 3: Khai phá dữ liệu (Data Mining)
Bước 4: Đánh giá mẫu (Partern Evalution)
Bước 5: Biểu diễn tri thức và triển khai (Knowlegde
presentation and Deployment)
Tóm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ
liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất [2], [3],[8]
Trang 6Hình 1.1: Quá trình phát hiện tri thức trong CSDL
Khai phá dữ liệu
1.1.2.
Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Quá trình khai phá dữ liệu bao gồm các giai đoạn [1][3]:
Giai đoạn 1: Gom dữ liệu
Giai đoạn 2: Trích lọc dữ liệu
Giai đoạn 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ Giai đoạn 4: Chuyển đổi dữ liệu
Giai đoạn 5: Phát hiện và trích mẫu dữ
Giai đoạn 6: Đánh giá kết quả mẫu
Quá khai phá dữ liệu được mô hình hóa một cách tổng quát như hình vẽ dưới đây [2][7]:
Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu
Trang 71.2 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU
Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi:
Phân tích dữ liệu tài chính (Financial Data Analysis)
Công nghiệp bán lẻ (Retail Industry)
Công nghiệp viễn thông (Telecommunication Industry)
Phân tích dữ liệu sinh học (Biological Data Analysis)
Phát hiện xâm nhập (Intrusion Detection)
Một số ứng dụng trong khoa học (Scientific Applications)
1.3 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG
mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), có nghĩa
là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là biết trước Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục
Quá trình phân lớp dữ liệu gồm hai bước [4][5]:
Bước thứ nhất (Learning)
Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm định trước Đầu vào của quá trình này
Trang 8là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case) Luận văn sử dụng các thuật ngữ này với nghĩa tương đương Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết định, công thức logic, hay mạng nơron Quá trình này được mô tả như trong hình 1.3
Hình 1.3 : Quá trình phân lớp dữ liệu - (a) Bước xây dựng mô hình
phân lớp Bước thứ hai (Classification)
Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới Trước tiên độ chính xác mang tính chất dự đoán của
mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là
tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình
Trang 9phân lớp đúng (so với thực tế)
Hình 1.4: Quá trình phân lớp dữ liệu - (b1)Ƣớc lƣợng độ chính xác
của mô hình
Hình 1.5: Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới
Có thể liệt kê ra đây các kỹ thuật phân lớp đã đƣợc sử dụng trong những năm qua:
Phân lớp cây quyết định (Decision tree classification)
Bộ phân lớp Bayesian (Bayesian classifier)
Mô hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier)
Mạng nơron
Phân tích thống kê
Các thuật toán di truyền
Trang 10Phương pháp tập thô (Rough set Approach)
Phân cụm (Clustering)
1.3.2.
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng
về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu
Luật kết hợp (Association Rules)
1.3.3.
Khai phá luật kết hợp được thực hiện qua 2 bước:
Bước 1 : Tìm tất cả các tập mục phổ biến, một văn bản phổ biến được xác định qua độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu
1.4 ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC NGÂN HÀNG
Ngành công nghiệp ngân hàng trên toàn thế giới đã trải qua những thay đổi to lớn trong cách thức kinh doanh Với việc thực hiện các nhiệm vụ kinh doanh đặc thù của mình trong thời gian gần đây, các ngân hàng đã có sự thay đổi lớn đó là chấp nhận và áp dụng công nghệ thông vào việc kinh doanh của mình Như một kết quả hiển nhiên, việc thực hiện giao dịch đã trở nên dễ dàng và đồng thời khối lượng dữ liệu từ các giao dịch này đã tăng lên đáng kể Nó là vượt quá khả năng của con người để phân tích số lượng dữ liệu thô khổng
lồ này và chuyển đổi nó thành tri thức hữu ích cho các tổ chức
Marketing
1.4.1.
Trang 11Một trong những lĩnh vực đƣợc ứng dụng rộng rãi nhất cho ngành ngân hàng của kỹ thuật khai phá dữ liệu đó là lĩnh vực quảng bá sản phẩm Bộ phận tiếp thị và bán hàng của các Ngân hàng có thể sử dụng kỹ thuật khai phá dữ liệu để phân tích cơ sở dữ liệu về khách hàng
CHƯƠNG 2 CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU 2.1 TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC THEO CÂY QUYẾT ĐỊNH
Giới thiệu chung
2.1.1.
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình
dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về
Trang 12một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi
từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định[6]
Các kiểu cây quyết định
2.1.2.
Cây quyết định còn có hai tên khác:
Cây hồi quy (Regression tree): ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)
Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua)
Ưu điểm cây quyết định
2.1.3.
So với các phương pháp khai phá dữ liệu khác, cây quyết định
là phương pháp có một số ưu điểm:
Cây quyết định dễ hiểu Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn
Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng
Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và
dữ liệu có giá trị là tên thể loại Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ
Trang 13có thể dùng cho các biến có giá trị bằng số
Cây quyết định là một mô hình hộp trắng Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean Mạng nơ-ron là một ví dụ
về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được
Có thể thẩm định một mô hình bằng các kiểm tra thống kê Điều này làm cho ta có thể tin tưởng vào mô hình
Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn Có thể dùng máy tính cá nhân để phân tích các lượng
dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định
1 Tạo một nút T, nút này gồm tất cả các mẫu của tập huấn luyện
2 Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "yes" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là
"yes" và dừng lại T lúc này là nút lá
3 Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "no" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "no"
Trang 14liệu , X có các giá trị vi,v2, vn
Chia tập mẫu trong T thành các tập con T1, T2, ,Tn chia theo giá trị của X
Tạo n nút con T; (i=1,2.n) với nút cha là nút T
Tạo các nhánh nối từ nút T đến các nút T; (i=1,2.n) là các thuộc tính của X
5 Thực hiện lặp cho các nút con T:(i =1,2 n) và quay lại bước
Thuật toán C4.5
2.2.2.
Thuật toán C4.5 do Quinlan phát triển vào năm 1996 [1] [2] [3] [4] Thuật toán C4.5 là một thuật toán được cải tiến từ thuật toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính số (numeric atributes) và và làm việc được với tập dữ liệu bị thiếu và bị nhiễu Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược ưu tiên theo chiều sâu (Depth - First)
Một số cài tiến của thuật toán C4.5:
1 Làm việc với thuộc tính đa trị
2 Làm việc với dữ liệu bị thiếu
Thuật toán SLIQ[5]
2.2.3.
Thuật toán SLIQ (Supervised Learning In Quest) được gọi là thuật toán phân lớp leo thang nhanh Thuật toán này có thể áp dụng cho cả hai kiểu thuộc liên tục và thuộc tính rời rạc[4][5]
Trang 15Thuật toán này có sử dụng kỹ thuật tiền xử lý phân loại(Pre sorting) trước khi xây dựng cây, do đó giải quyết được vấn đề bộ nhớ cho thuật toán ID3
Thuật toán SLIQ có sử dụng giải thuật cắt tỉa cây hữu hiệu Thuật toán SLIQ có thể phân lớp rất hiệu quả đối với các tập
dữ liệu lớn và không phụ thuộc vào số lượng lớp, số lượng thuộc tính
và số lượng mẫu trong tập dữ liệu
2.3 VÍ DỤ MINH HỌA
Phát biểu bài toán
2.3.1.
David là quản lý của một câu lạc bộ đánh golf nổi tiếng Anh
ta đang có rắc rối chuyện các thành viên đến hay không đến Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên
Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không
Vậy là trong hai tuần, anh ta thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (overcast) hoặc mưa (raining) Nhiệt độ (temperature) bằng độ F Độ ẩm (humidity) Có gió mạnh (windy) hay không Và là số người đến chơi golf vào hôm đó David thu được một bộ dữ liệu gồm 14 dòng và 5 cột