2.1.1 Khái niệm
Tổng hợp từ nhiều tài liệu ta có rất nhiều định nghĩa về khai phá dữ liệu:
Theo (Tom M.Mitchell, 1997) thì khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tuơng lai.[5]
(Ferruzza, 2015) cho rằng khai phá dữ liệu là tập hợp các phuơng pháp đuợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chua biết bên trong dữ liệu.[6]
Hay (Parsaye, 2000) nhận định khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm các mẫu thơng tin chua biết và bất ngờ trong cơ sở dữ liệu lớn.[7] Khai phá dữ liệu là một buớc thiết yếu trong quá trình khám phá tri thức. Quá trình khám phá trí thức bao gồm các buớc:
(1) Gom dữ liệu: Tập hợp dữ liệu là buớc đầu tiên trong khai phá dữ liệu. Buớc này lấy
dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu
(2) Trích lọc dữ liệu:Ở buớc này dữ liệu đuợc lựa chọn và phân chia theo một số tiêu
chuẩn nào đó
(3) Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Ở buớc thứ ba này là một buớc rất
quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thuờng mắc phải trong khi gom dữ liệu là khơng đủ chặt chẽ, logic; vì vậy, dữ liệu thuờng chứa các giá trị vơ nghĩa và khơng có khả năng kết nối dữ liệu, ví dụ: tuổi = -1. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu khơng chặt chẽ nói trên. Những dữ liệu dạng này sẽ đuợc xem nhu thơng tin thừa, khơng có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không đuợc làm sạch sẽ tạo ra những kết quả sai lệch nghiêm trọng.
(4) Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đuợc chuyển
đổi hay đuợc hợp nhất về dạng thích hợp cho việc khai phá
(5) Khaiphá dữ liệu: Đây là một buớc cốt yếu. Ở giai đoạn này nhiều thuật toán khác
nhau đã đuợc sử dụng một cách phù hợp để trích xuất thơng tin có ích trong dữ liệu.
(6) Ước lượng mẫu: Ơ giai đoạn này các mẫu dữ liệu đuợc chiết xuất, không phải bất
cứ mẫu dữ liệu nào cũng đều hữu ích, đơi khi nó bị sai lệch. Vì vậy cần phải uu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần thiết.
Khóa luận tốt nghiệp Xây dựng module Dự đốn rủi ro trong quy trình cho vay đồng tài trợ tại Ngân hàng Á Châu
(7) Biểu diễn tri thức: Đây là bước cuối cùng trong quá trình khám phá tri thức.
Hình 5. Quá trình khám phá tri thức
Từ quá trình khám phá tri thức trên chúng ta thấy được sự khác biệt giữa khám phá tri thức và khai phá dữ liệu. Trong khi khám phá tri thức là nói đến q trình tổng thể phát hiện tri thức hữu ích từ dữ liệu. Cịn khai phá dữ liệu chỉ là một bước trong quá trình khám phá tri thức, các công việc chủ yếu là xác định được bài toán khai phá, tiến hành lựa chọn phương pháp khai phá dữ liệu phù hợp với dữ liệu có được và tách ra từ các tri thức cần thiết.
2.1.2 Ưu thế khai phá dữ liệu
Khai phá dữ liệu có một số ưu thế dưới đây:
-I- So với phương pháp học máy, khai phá dữ liệu có lợi thể hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các bộ dữ liệu chứa nhiều nhiễu, bộ dữ liệu không đầy đủ hoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được sử dụng với cơ sở dữ liệu đầy đủ, ít biến động và tập dữ liệu không quá lớn
-I- Phương pháp thống kê là một trong những nền tảng lý thuyết của Khai phá dữ liệu, nhưng khi so sánh hai phương pháp này với nhau ta có thể thấy các phương pháp cịn tồn tại một số điểm yếu mà khai phá dữ liệu đã khắc phục được. Điển hình: các phương pháp
thống kê chuẩn khơng phù hợp với các kiểu dữ liệu có cấu trúc trong cơ sở dữ liệu; kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ đuợc; phuơng pháp thống kê cần có sự huớng dẫn của nguời dùng để xác định phân tích dữ liệu nhu thế nào và ở đâu.
Với những uu điểm này, khai phá dữ liệu đang trở nên vơ cũng hữu ích và có tầm quan trọng trong cuộc sống ở những lĩnh vực khác nhau.
2.1.3 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu là một huớng tiếp cận khá mới nhung thu hút đuợc các chuyên gia nghiên cứu bởi tính ứng dụng thực tiễn của nó đuợc ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau và ngày càng có tầm quan trọng.
-I- Lĩnh vực thuơng mại điện tử:
- Cơng cụ tìm hiểu, định huớng thúc đẩy, giao tiếp với khách hàng
- Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng trong một phân khu thị truờng nhất định
-I- Nhân sự: Giúp nhà tuyển dụng chọn ứng viên thích hợp nhất cho nhu cầu của công ty -I- Y học: Hỗ trợ bác sĩ phát hiện ra bệnh của bệnh nhân dựa trên các xét nghiệm đầu vào -I- An ninh, an toàn mạng: Ứng dụng trong hệ thống phát hiện xâm nhập trái phép IDS/IPS để phát hiện ra các cuộc tấn công xâm nhập mạng trái phép
-I- Lĩnh vực tài chính ngân hàng: Đặc biệt, ứng dụng khai phá dữ liệu đã có đóng góp to lớn trong hoạt động kinh doanh hiệu quả của các ngân hàng. Khi ngành công nghiệp ngân hàng ngày càng phát triển thì việc thực hiện giao dịch trở nên dễ dàng đồng thời khối luợng dữ liệu từ các giao dịch này cũng tăng lên chóng mặt, thể loại dữ liệu đa dạng và hàm chứa nhiều nội dung hữu ích... Các ngân hàng cần sử dụng các nguồn dữ liệu này một cách hiệu quả nhằm phục vụ cho hoạt động kinh doanh. Nhận thức đuợc tầm quan trọng của việc sử dụng dữ liệu đúng đắn, một số ngân hàng đã thay thế phuơng pháp phân tích dữ liệu truyền thống bằng những cơng cụ khai phá dữ liệu. Một số ví dụ minh họa điển hình: vào ngày 08/05/2017 tại Viện Đào tạo Công nghệ và Quản trị Robusta chi nhánh Hà Nội đã triển khai khóa đào tạo “Khai phá dữ liệu” dành cho Ngân hàng TMCP Công Thuơng Việt Nam. Hay vào năm 2017 tại Ngân hàng thuơng mại cổ phần ngoại thuơng Việt Nam công cụ Data Mining đuợc nghiên cứu và đã đang đua vào sử dụng phục vụ việc phân khúc khách hàng và lợi nhuận , chấm điểm tín dụng và phê duyệt, quảng bá và bán sản phẩm, phát hiện các giao dịch gian lận v.v.
Khai phá dữ liệu giải quyết các vấn đề kinh doanh bằng cách tìm kiếm các mẫu và các mối tuơng quan đuợc ẩn chứa trong các thông tin liên quan tới việc kinh doanh đuợc luu
Khóa luận tốt nghiệp Xây dựng module Dự đốn rủi ro trong quy trình cho vay đồng tài trợ tại Ngân hàng Á Châu trữ trong cơ sở dữ liệu. Ứng dụng khai phá dữ liệu để xây dựng các mơ hình và phân tích, các chun viên ngân hàng có thể đua ra những dự đốn có tính chính xác cao, phục vụ cho việc hoạt động kinh doanh một cách hiệu quả nhất, tối đa hóa lợi nhuận và giảm thiểu tổn thất. Đặc biệt, ứng dụng khai phá dữ liệu để dự đốn rủi ro trong mảng tín dụng có tầm quan trọng vơ cùng lớn. Chuyên viên ngân hàng cần biết chắc chắn khách hàng họ cho vay có tin vậy hay khơng, khách hàng nào sẽ có nguy cơ rủi ro cao hơn mặc định trên một khoản vay, nên cho vay ở mức tiền nhu thế nào cho hợp lý và khai phá dữ liệu sẽ giúp ngân hàng giải quyết những vấn đề này.
2.2Bài toán dự đoán rủi ro cho vay đồng tài trợ
2.2.1 Giới thiệu bài toán dự đoán rủi ro
Nhu đã đề cập ở trên, dự đoán rủi ro khách hàng truớc khi quyết định có cấp tín dụng hay khơng đặc biệt trong cho vay đồng tài trợ vốn hàm chứa nhiều rủi ro là vô cùng quan trọng. Từ việc tìm hiểu quy trình cho vay đồng tài trợ tại Ngân hàng Á Châu, em nhận thấy hệ thống cần có chức năng dự đốn rủi ro cho vay đồng tài trợ. Chính vì thế, em đề xuất với đội dự án phát triển module dự đoán rủi ro vào hệ thống bằng việc áp dụng kiến thức khai phá dữ liệu và tính ứng dụng thực tiễn của nó để xây dựng mơ hình và PHÁT TRIỂN module này.
-I- Đầu vào: tập các hồ sơ khách hàng đã có và hồ sơ khách hàng hiện tại. -I- Đầu ra: đua ra kết luận hồ sơ khách hàng hiện tại có chứa rủi ro hay khơng
2.2.2 Sử dụng cây quyết định để dự đoán rủi ro
2.2.2.1 Đặc điểm cây quyết định
Trong những năm qua, nhiều mơ hình phân lớp dữ liệu đã đuợc các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất nhu mạng notron, mơ hình thống kê tuyến tính, cây quyết định, mơ hình di truyền. Trong số những mơ hình đó, cây quyết định với những uu điểm của mình đuợc đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho data ning nói chung và phân lớp dữ liệu nói riêng.
Cây quyết định (decision tree) là một trong những hình thức mơ tả dữ liệu trực quan nhất, dễ hiểu nhất đối với nguời dùng. Cây quyết định mô tả một cấu trúc cây bao gồm các nút và các nhánh, cho phép nguời dùng dự đoán nhãn của một đối tuợng mới dựa trên tập thuộc tính của nó. Trong đó, mỗi nút trong (internal node) biểu diễn một thuộc tính, mỗi nhánh (branch) biểu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root)
Hình 7. Đặc điểm cây quyết định
2.2.2.2 Ưu nhược điểm
-I- ưu điểm:
Cây quyết định có những uu điểm nổi bật sau:
- Dễ hiểu, nguời dùng có thể nhanh chóng hiểu đuợc các luật của cây quyết định. Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi đuợc sang dạng if..then..else, hoặc các câu lệnh SQL. Đây là uu điểm nổi bật của kỹ thuật này.
Khóa luận tốt nghiệp Xây dựng module Dự đốn rủi ro trong quy trình cho vay đồng tài trợ tại Ngân hàng Á Châu - Có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại. Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến. Chẳng hạn các luật quan hệ chỉ có thể dùng cho các biến tên, mạng nơ-ron chỉ dùng cho các dạng biến số
- Có thể thẩm định mơ hình bằng các kiểm tra thống kê, điều này làm tăng độ tin tưởng của người dùng vào mơ hình
- Có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.
- Kỹ thuật cây quyết định thể hiện rõ ràng những thuộc tính tốt nhất. Các thuật toán xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốt nhất tập dữ liệu bắt đầu từ node gốc của cây. Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự đốn hay phân lớp.
-I- Nhược điểm
Dù có những ưu điểm nổi bật trên song cây quyết định vẫn không tránh khỏi những điểm yếu:
- Cây quyết định dễ xảy ra lỗi khi có nhiều lớp. Một cây quyết điinh chỉ thao tác với lớp giá trị nhị phân dạng yes/no hay acept/reject.
- Cây quyết định cũng khó giải quyết với thời gian liên tục
- Chi phí tính tốn để xây dựng mơ hình cây quyết định cao: phải đi qua nhiều node để đến node lá cuối cùng. Tại từng node, cần tính tốn mật độ (hay tiêu chuẩn phân chia) trên từng thuộc tính. Với thuộc tính liên tục phải thêm thao tác sắp xếp lại tập dữ liệu theo thứ tự giá trị của từng thuộc tính đó. Sau đó mới có thể chọn được một thuộc tính phát triển và tương ứng là một phân chia tốt.
2.2.2.3 Thuật toán ID3
-I- Ý tưởng của thuật tốn
Thuật tốn ID3 được cơng bố bởi Quinlan (trường đại học Syney, Australia) vào cuối thập niên 70 của thế kỷ 20. ID3 là thuật toán cơ bản nhất trong lĩnh vực học cây quyết định. ID3 xây dựng cây quyết định theo hướng tiếp cận từ trên xuống (top-down). Nhiệm vụ của ID3 là học cây quyết định từ một tập các mẫu huấn luyện gồm:
- Đầu vào: Một tập hợp các mẫu, mỗi mẫu bao gồm các thuộc tính mơ tả một đối tượng xác định và một giá trị phân lớp của nó. Chú ý: nếu các thuộc tính có giá trị liên tục, ví dụ như Tuổi thì ta phải tiến hành đổi chúng thành các giá trị rời rạc, ví dụ chia tuổi thành 3 loại: Trẻ, Trung niên, Già
- Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập dữ liệu huấn luyện và hy vọng phân loại đúng cho cả các mẫu chưa gặp trong tương lai.
-I- Thuật toán: với tập mẫu huấn luyện D, thuộc tính phân lớp C, thuộc tính mơ tả A:
Bước 1: Tạo Nút_gốc cho cây quyết định
Bước 2: IF tất cả các mẫu huấn luyện đều có giá trị của nhãn C là P, RETURN
cây có một nút duy nhất là Nút_gốc với nhãn P
Bước 3: IF A rỗng, RETURN cây có một nút duy nhất là Nút_gốc với nhãn là
giá trị phổ biến nhất trong C
Bước 4:
4.1 Gọi X là thuộc tính của A phân lớp D tốt nhất 4.2 Gán nhãn cho nút gốc với tên thuộc tính X 4.3 A = A - {X}
4.4. FOREACH giá trị của X
4.4.1 Thêm một nhánh mới duới Nút_gốc với X=v 4.4.2 Xác định tập con Dv với X = v
4.4.3 IF Dv rỗng: Thêm duới nhánh mới này một nút lá có nhãn là giá trị phổ biến nhất của thuộc tính quyết định trong D
ELSE: Thêm cây con vào duới nhánh này bằng cách gọi đệ quy ID3
Bước 5: RETURN Nút_gốc
-I- Xác định thuộc tính tốt nhất:
Việc lựa chọn thuộc tính thực hiện nhờ việc lựa chọn các tiêu chí phân chia sao cho việc phân nguồn dữ liệu D đã cho một cách tốt nhất thành các lớp phân biệt.
Vấn đề quan trọng nhất của thuật tốn ID3 là chọn lựa đuợc thuộc tính tốt nhất để đua vào các nút của cây. Sử dụng kết quả của lý thuyết thông tin là các độ đo Entropy và
Information Gain
- Entropy: có giá trị nằm trong đoạn [0..1] để đo tính thuần nhất (hay nguợc lại là độ pha trộn) của một tập hợp
■ Entropy = 0: Tất cả các phần tử của tập hợp đều thuộc cùng một loại, khi đó ta nói tập hợp này là thuẩn nhất hoặc có độ pha trộn là thấp nhất. Khi tập mẫu là thuần nhất thì ta có thể biết chắc chắn về giá trị phân loại của một mẫu thuộc tập này, hay ta có luợng thơng tin (information gain) về tập đó là cao nhất.
■ Entropy = 1: Tập mẫu có độ pha trộn cao nhất, nghĩa là số luợng các mẫu có cùng giá trị phân loại là tuơng đuơng nhau, khi đó ta khơng thể đốn chính xác một mẫu có thể có giá trị phân loại gì, hay nói khác hơn, luợng thơng tin ta có đuợc về tập này là ít nhất.
Khóa luận tốt nghiệp Xây dựng module Dự đốn rủi ro trong quy trình cho vay đồng tài trợ tại Ngân hàng Á Châu Lượng thông tin kỳ vọng để phân lớp một phần tử trong tập dữ liệu D- Entropy của D:
Info (D)= pilog2 (pi)
Trong đó:
Pí là xác suất một phần tử dữ liệu trong D thuộc vào lớp Ci
1n D‘l
Pi I DI
Di là tập các phần tử dữ liệu trong D thuộc vào lớp Ci
m là số lượng các lớp trong D
Giả sử dữ liệu trong D được phân chia theo một thuộc tính A, thuộc tính này có v giá trị rời rạc khác nhau {a1, a2, a3, .. .,av}
■ D được chia thành v tập con {D1, D2, D3.,Dv} với Dj là tập các phần tử có giá trị của thuộc tính A là a i
■ Mỗi tập con Dj sẽ tương ứng với một nhánh trong cây.
■ Dj càng đồng nhất càng tốt, tức là acsc phần tử trong tập con này đều cùng