Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thôngtin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp.Ngoài bước phân tích thô, nó còn liên q
Trang 1TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ
DỮ LIỆUĐỀ
Trang 2BẢNG ĐIỂM
Trang 3MỤC LỤC
LỜI CẢM ƠN 1
CHƯƠNG 1: KHAI PHÁ DỮ LIỆU 2
1.1 Tổng quan về khai phá dữ liệu: 2
1.1.1 Khái niệm về khai phá dữ liệu: 2
1.1.2 Các chức năng chính của khai phá dữ liệu: 3
1.2 Các kỹ thuật khai phá dữ liệu 4
1.2.1 Kỹ thuật phân lớp: 4
1.2.2 Kỹ thuật phân cụm: 5
1.2.3 Kỹ thuật phân tích luật kết hợp: 5
1.2.4 Kỹ thuật bài toán hồi quy: 5
1.2.5 Kỹ thuật dự đoán: 5
1.2.6 Kỹ thuật phân tích chuỗi: 6
CHƯƠNG 2: PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 7
2.1 Kỹ thuật phân lớp dữ liệu: 7
2.2 Thuật toán cây quyết định: 8
CHƯƠNG 3: BÀI TOÁN PHÁT HIỆN RỦI RO TÍN DỤNG 11
3.1 Khái niệm rủi ro tín dụng: 11
3.2 Những nguyên nhân phát sinh rủi ro tín dụng: 11
3.3 Phân loại nhóm nợ: 11
3.4 Điều kiện vay vốn: 13
3.6 Đối tượng áp dụng: 13
CHƯƠNG 4: DEMO 15
4.1 Cây quyết định của bài toán phát hiện rủi ro tín dụng: 15
4.2 Code ứng dụng phát hiện rủi ro tín dụng ngân hàng bằng C#: 16
KẾT LUẬN 21
TÀI LIỆU THAM KHẢO 22
Trang 4LỜI CẢM ƠN
Qua bài tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa côngnghệ thông tin, đặc biệt là thầy Vũ Văn Định đã cho chúng em có cơ hội đượctìmhiểu một góc kiến thức mới, hay và bổ ích cùng với đó là sự tận tâm dạy dỗchúng em, giúp chúng em có thể hoàn thiện đề tài này Trong quá trình tìm hiểu vàhoàn thiện, đề tài sẽ không thể tránh khỏi những sai sót, khuyết điểm Vì vậy,nhóm thực hiện chúng em hy vọng nhận được sự đánh giá và đóng góp nhiệt tình
từ phía thầy và các bạn để bài của nhóm chúng em được hoàn thiện hơn
Chúng em xin chân thành cảm ơn!
Trang 5CHƯƠNG 1: KHAI PHÁ DỮ LIỆU1.1 Tổng quan về khai phá dữ liệu:
1.1.1 Khái niệm về khai phá dữ liệu:
Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trongcác bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học,thống kê và các hệ thống cơ sở dữ liệu Đây là một lĩnh vực liên ngành của khoahọc máy tính Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thôngtin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp.Ngoài bước phân tích thô, nó còn liên quan tới cơ sở dữ liệu và các khía cạnh quản
lý dữ liệu, xử lý dữ liệu trước, suy xét mô hình và suy luận thống kê, các thước đothú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hiệnhình hóa và cập nhật trực tuyến Khai thác dữ liệu là bước phân tích của quá trình
"khám phá kiến thức trong cơ sở dữ liệu" hoặc KDD
Khai phá dữ liệu là một bước của quá trình khai thác tri thức (KnowledgeDiscovery Process), bao gồm:
• Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problemunderstanding and data understanding)
• Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữliệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu(data selection), biến đổi dữ liệu (data transformation)
• Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu vàlựa chọn kỹ thuật khai thác dữ liệu Kết quả cho ta một nguồn tri thức thô
• Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọcnguồn tri thức thu được
2
Trang 6• Triển khai (Deployment).
Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầutiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.1.1.2 Các chức năng chính của khai phá dữ liệu:
Data Mining được chia nhỏ thành một số hướng chính như sau:
• Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắtkhái niệm
• Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng kháđơn giản
• Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vàomột trong những lớp đã biết trước
• Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũngnhư tên của cụm chưa được biết trước Người ta còn gọi phân cụm là học khônggiám sát (học không thầy)
• Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luậtkết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứngdụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báocao
1.1.3 Lợi ích của Khai phá dữ liệu và ứng dụng
Lợi ích chính của Khai phá dữ liệu nằm ở khả năng phát hiện các mẫu vàmối liên hệ tiềm ẩn trong cơ sở dữ liệu Hay nói cách khác giúp ta làm chủ kho dữliệu lớn, bằng mô hình tri thức được xây dựng dựa trên nguồn dữ liệu có sẵn, Khaiphá dữ liệu đem lại nhiều giá trị như:
Trang 7• Lịch sử bán hàng và hành vi của khách hàng có thể được sử dụng để xây dựng các mô hình dự báo doanh số, sản phẩm và dịch vụ mới cho tương lai.
• Các công ty trong ngành tài chính sử dụng các công cụ Khai phá dữ liệu
để xây dựng các mô hình phát hiện rủi ro và gian lận
• Trong Lĩnh vực sản xuất công nghiệp có thể sử dụng Khai phá dữ liệu trong việc cải thiện an toàn sản phẩm, xác định các vấn đề về chất lượng, quản lý chuỗi cung ứng và cải thiện hoạt động vận hành sản xuất
Ứng dụng
Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sựquan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễncủa nó Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:
• Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support)
• Điều trị y học (medical treatment)
• Text mining & Web mining
• Tin-sinh (bio-informatics)
• Tài chính và thị trường chứng khoán (finance & stock market)
• Bảo hiểm (insurance)
1.2 Các kỹ thuật khai phá dữ liệu
1.2.1 Kỹ thuật phân lớp:
Là một trong những kỹ thuật Khai phá dữ liệu phổ biến nhất, ví dụ như:quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi nhómkhách hàng, hay phân tích xem nhóm khách hàng nào có khả năng sẽ chuyển sangdùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty…
4
Trang 8Kỹ thuật phân lớp là dữ liệu được tổ chức trong các lớp cho trước, hay cònđược gọi là học có quan sát Trong kỹ thuật phân loại người ta sử dụng các nhãnlớp cho trước để sắp xếp các đối tượng Mà trong đó, một tập huấn luyện bao gồmcác đối tượng đã được kết hợp với các nhãn đã biết Những thuật toán có quan sát
sẽ được áp dụng cho tập các đối tượng cần phân loại để từ đó có thể mô hình hóa
sự phân lớp của dữ liệu
1.2.2 Kỹ thuật phân cụm:
Kỹ thuật phân cụm khác biệt với kỹ thuật phân lớp là các nhãn lớp chưa biết
và không có dữ liệu huấn luyện Đối tượng được phân cụm dựa trên các thuộc tínhtương đồng giữa chúng Bài toán phân cụm còn hay được gọi là học không có giámsát
1.2.3 Kỹ thuật phân tích luật kết hợp:
Kỹ thuật phân tích luật kết hợp, hay còn gọi là kỹ thuật phân tích giỏ hàngbởi vì nó thường được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, cácbài toán lựa chọn hàng hóa đi kèm…
Kỹ thuật phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mốiliên hệ giữa các thuộc tính dữ liệu mà thường xuất hiện cùng nhau trong các tập dữliệu
1.2.4 Kỹ thuật bài toán hồi quy:
Kỹ thuật hồi quy cũng tương tự như kỹ thuật phân lớp Điểm khác biệt làhồi quy dự đoán cho các dữ liệu liên tục
1.2.5 Kỹ thuật dự đoán:
Dự đoán là phần quan trọng của khai phá dữ liệu Có hai loại dự đoánchính:
Trang 9• Dự đoán về một số giá trị dữ liệu chưa biết hay có xu hướng sắp
xảy ra
• Dự đoán để phân lớp dựa trên (một tập huấn luyện và giá trị thuộc tính)của đối tượng
1.2.6 Kỹ thuật phân tích chuỗi:
Là kỹ thuật để tìm ra các mẫu trong một loạt các giá trị hay trạng thái rờirạc Ví dụ: việc chọn mua hàng hóa của khách hàng có thể mô hình là một chuỗi
dữ liệu Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C… là một chuỗicác trạng thái rời rạc Trong khi đó thời gian lại là chuỗi số liên tục Phân tíchchuỗi (PTC) và phân tích luật kết hợp (PTLKH) giống nhau ở chỗ đều phân tíchtập hợp các đối tượng hay trạng thái Điểm khác biệt là mô hình chuỗi phân tích sựchuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi mỗi một mặt hàngtrong giỏ hàng là như nhau và độc lập Với mô hình chuỗi, thì việc chọn mặt hàng
A trước mặt hàng B hay việc chọn mặt hàng B trước A sau là khác nhau Còn ở môhình kết hợp thì cả hai trường hợp đều không khác nhau
7
Trang 10CHƯƠNG 2: PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH2.1 Kỹ thuật phân lớp dữ liệu:
Ngày nay phân lớp dữ liệu (classification) là một trong những hướng nghiêncứu chính của khai phá dữ liệu Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu vớinhiều thông tin ẩn con người có thể trích rút ra các quyết định nghiệp vụ thôngminh Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một
mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai.Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giátrị rời rạc (discrete value), có nghĩa là phân lớp thao tác với những đối tượng dữliệu mà có bộ giá trị là biết trước Trong khi đó, dự đoán lại xây dựng mô hình vớicác hàm nhận giá trị liên tục Ví dụ mô hình phân lớp dự báo thời tiết có thể chobiết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió,nhiệt độ,… của ngày hôm nay và các ngày trước đó Hay nhờ các luật về xu hướngmua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh có thể ra nhữngquyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán… Một môhình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềmnăng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng Trongnhững năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trongnhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expertsystem), thống kê (statistics) Công nghệ này cũng ứng dụng trong nhiều lĩnh vựckhác nhau như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm,
y tế, giáo dục Phần lớn các thuật toán ra đời trước đều sử dụng cơ chế dữ liệu cưtrú trong bộ nhớ (memory resident), thường thao tác với lượng dữ liệu nhỏ Một sốthuật toán ra đời sau này đã sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khảnăng mở rộng của thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi
Trang 11Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyếtđịnh tới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phânlớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xáccao và có khả năng mở rộng được Trong đó khả năng mở rộng được của thuật toánđược đặc biệt trú trọng và phát triển.
Có thể liệt kê ra đây các kỹ thuật phân lớp đã được sử dụng trong những năm qua:
• Phân lớp cây quyết định (Decision tree classification)
• Bộ phân lớp Bayesian (Bayesian classifier)
• Mô hình phân lớp K-nearest neighbor
• Mạng nơron
• Phân tích thống kê
• Các thuật toán di truyền
• Phương pháp tập thô (Rough set Approach)
2.2 Thuật toán cây quyết định:
Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhàkhoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thông
kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền Trong số những mô hình
đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụmạnh, phổ biến và đặc biệt thích hợp cho data mining nói chung và phân lớp dữliệu nói riêng Có thể kể ra những ưu điểm của cây quyết định như: xây dựngtương đối nhanh; đơn giản, dễ hiểu Hơn nữa các cây có thể dễ dàng được chuyểnđổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu mộtcách hiệu quả Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương
9
Trang 12tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác.
Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả tronghình vẽ sau:
Hình 1 Biểu đồ thuật toán cây quyết định
Trong cây quyết định:
• Gốc: là node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong
• Node lá: biểu diễn lớp hay sự phân phối lớp
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa
Trang 13lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó.
11
Trang 14CHƯƠNG 3: BÀI TOÁN PHÁT HIỆN RỦI RO TÍN DỤNG3.1 Khái niệm rủi ro tín dụng:
Tín dụng ngân hàng (cho vay) là quan hệ tín dụng giữa ngân hàng, các tổchức tín dụng và các tổ chức kinh tế, cá nhân theo nguyên tắc hoàn trả Việc hoàntrả được nợ gốc trong tín dụng có nghĩa là việc thực hiện được giá trị hàng hoá trênthị trường, còn việc hoàn trả được lãi vay trong tín dụng là việc thực hiện được giátrị thặng dư trên thị trường Trong quan hệ tín dụng có hai đối tượng tham gia làngân hàng cho vay và người đi vay
Rủi ro tín dụng là:
• Khoản lỗ có nguy cơ xảy ra khi ngân hàng cấp tín dụng
• Những thiệt hại mà ngân hàng gánh chịu do người vay vốn khôngtrả đúng hạn, không thực hiện đúng nghĩa vụ cam kết trong hợp đồng chovay vì bất kể lý do gì
3.2 Những nguyên nhân phát sinh rủi ro tín dụng:
Rủi ro tín dụng thường xảy ra bởi những nguyên nhân sau:
• Khách hàng vay vốn gặp những nguy cơ và tai nạn bất ngờ hoặc thua lỗtrong kinh doanh nên không có tiền trả nợ dẫn đến nợ quá hạn
• Do tác động của tình hình kinh tế trong nước và thế giới
• Các vấn đề vì ham lợi nhuận, vi phạm nguyên tắc cho vay, phân tích đánh giá khách hàng sai, quyết định cho vay thiếu thông tin xác thực
3.3 Phân loại nhóm nợ:
Ngân hàng thực hiện phân loại nợ như sau:
Nhóm 1:(nợ được đánh giá là đủ tiêu chuẩn):
Trang 15hàng đánh giá là có đủ khả năng thu hồi đầy đủ cả gốc và lãi đúng hạn.
• Các món nợ khác của Khách hàng cũng đều không bị quá hạn
Nhóm 2 (nợ được đánh giá là cần chú ý):
• Nợ đã quá hạn chưa quá 3 tháng
• Nợ đã được cơ cấu lại thời hạn trả nợ trong hạn.Những khoản tín dụngđược đánh giá là có khả năng thu hồi đầy đủ cả gốc và lãi, nhưng có dấuhiệu khách hàng bị suy giảm khả năng trả nợ
Nhóm 3:(nợ được đánh giá là dưới tiêu chuẩn):
• Các khoản nợ quá hạn từ 3 tháng => đến 6 tháng
• Các khoản nợ đã được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 90 ngày
• Nợ được đánh giá là rủi ro có khả năng không thu hồi được đầy đủ cả gốc
và lãi khi đến hạn, và có khả năng tổn thất một phần nợ gốc và lãi
Nhóm 4:(nợ nghi ngờ):
• Các khoản nợ quá hạn từ 6 tháng => đến 1 năm
• Các khoản nợ được được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn từ 90 đến 180 ngày
• Các khoản nợ bị đánh giá là có khả năng tổn thất cao
Nhóm 5:(nợ có khả năng bị mất vốn):
• Nợ quá hạn trên 1 năm
• Các khoản nợ khoanh phải chờ Chính Phủ xử lý
• Các khoản nợ được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 180ngày
Trên quan điểm phân hạng nợ Tốt/Xấu thì:
• Nợ Tốt: là những khoản vay nằm trong Nhóm 1, 2
13
Trang 16• Nợ Xấu: là những khoản vay nằm trong Nhóm 3, 4, 5
3.4 Điều kiện vay vốn:
Các khách hàng muốn được vay vốn phải có các điều kiện sau đây:
• Có năng lực pháp luật dân sự, năng lực hành vi dân sự và chịutrách nhiệm dân sự theo quy định của pháp luật
• Có mục đích sử dụng vay vốn hợp pháp
• Có khả năng tài chính đảm bảo trả nợ trong thời hạn cam kết
• Có phương án sản xuất kinh doanh, dự án đầu tư, dịch vụ khả thi và có hiệu quả
3.5 Căn cứ xác định định mức cho vay
• Nhu cầu vay vốn của khách hàng
• Mức vốn của khách hàng tham gia vào dự án, phương án kinh doanh, sảnxuất, dịch vụ, đời sống
• Tỷ lệ cho vay tối đa so với giá trị tài sản bảo đảm tiền vay theo quy định về bảo đảm tiền vay của ngân hàng
• Khả năng hoàn trả nợ của khách hàng
• Khả năng nguồn vốn của mỗi ngân hàng và không được vượt quá định mức cho vay được ủy quyền bởi tổng giám đốc Ngân hàng cho vay
3.6 Đối tượng áp dụng:
Ngân hàng cho vay các đối tượng sau:
• Giá trị vật tư, máy móc, hàng hoá, thiết bị và các khoản chi phí để kháchhàng thực hiện các dự án sản xuất, kinh doanh dịch vụ
Ngân hàng không cho vay các đối tượng sau: