2.4.1. Giới thiệu
Trong nền kinh tế thị trường, ngân hàng đóng vai trò hết sức quan trọng trong việc huy động các nguồn lực tài chính để thúc đẩy phát triển kinh tế xã hội, là nơi gặp gỡ giữa bên có nguồn vốn với những bên có nhu cầu sử dụng chúng, bởi vậy một chính sách tín dụng tốt phải giải quyết được hài hòa mối quan hệ giữa bên cho vay và bên vay mà ở đây ngân hàng đóng vai trò ở cả hai phía( vừa là người vay vừa là người cho vay) – ví dụ như áp dụng mức lãi suất huy động nào huy động tối đa nguồn vốn nhàn rỗi? Áp dụng lãi suất cho vay nào là tốt nhất? ...Hoạt động của các ngân hàng luôn tiềm tàng những rủi ro, mà việc xác định nó một cách tường minh thường rất khó ví dụ như khả năng tín dụng của người vay để
từ đó đưa ra một mức tín dụng với lãi xuất có thể chi trả được [Debski94], giải quyết hài hòa mâu thuẫn: người vay muốn vay với lãi suất thấp nhất có thể, ngược lại các ngân hàng lại muốn cho vay với lãi suất cao nhất.
Cách tiếp cận đầu tiên để dự đoán đánh giá về chính sách tài chính bắt đầu với việc sử dụng những phương pháp theo lối kinh nghiệm. Sau đó, hệ phương pháp tỷ số tài chính được phát triển cho vấn đề dự báo,phân tích. Cách tiếp cận của những tỷ số tài chính đã đưa ra những phương pháp cho dự báo thất bại dựa trên phân tích thống kê đa biến một trong số đó là sử dụng phân tích biệt số cho việc dự đoán rủi ro.
Từ nghiên cứu của Altman(1968), nhiều nghiên cứu đề xuất những phương pháp khác đã được sử dụng để giải quyết những hạn chế của phân tích biệt số và để đưa ra độ chính xác dự đoán cao hơn.Trong số những nghiên cứu này chúng ta có thể kể đến nghiên cứu của Ohlson (1980) sử dụng phân tích logarit và nghiên cứu của Zmijewski (1984) sử dụng phân tích tin cậy (probit analysis).
Các phương pháp kể trên đã được kiểm tra, nghiên cứu và so sánh. Những phương pháp này đã dẫn đến những mô hình với khả năng thoả mãn để đánh giá một chính sách tín dụng tốt hay không tốt, tuy vậy chúng có một số giới hạn thông thường bởi vì những giả định phi thực tế của các giả thuyết thống kê hay vì gặp khó khăn trong ngôn ngữ giao tiếp với các chuyên gia tài chính.
2.4.2. Lựa chọn dữ liệu thuộc tính
Từ một số nghiên cứu ứng dụng tập thô trong đánh giá các chính sách tín dụng được nghiên cứu xem xét, bởi các tác giả trong [Siejach93, Bed93, Skabek96] những chỉ số tài chính của ngân hàng được thu thập phân tích và đánh giá gồm 9 chỉ số quan trọng sau.
Bảng 2.6 các tỷ số sử dụng trong phân tích chính sách tín dụng
2 a2 Tỷ lệ khả năng thanh toán
3 a3 Hệ số khả năng thanh toán nhanh 4 a4 Hệ số quay vòng số tiền thu được 5 a5 Tỷ lệ luân chuyển hàng hóa 6 a6 Tỷ lệ các khoản phải trả quá hạn 6 a7 Tỷ lệ vốn cổ phần
8 a8 Tỷ lệ vốn chủ sở hữu 9 a9 Tỷ lệ bảo đảm trả lãi
- 9 tỷ số tài chính đã được các tác giả lựa chọn với sự giúp đỡ của các chuyên gia kinh tế và ngân hàng để hình thành tập các thuộc tính điều kiện gồm 12 thuộc tính:
1 c1 Tỷ suất lợi nhuận ròng
2 c2 Xu hướng của tỷ suất lợi nhuận ròng 3 c3 So sánh tỷ suất lợi nhuận ròng
4 c4 Tỷ lệ khả năng thanh toán
5 c5 Hệ số khả năng thanh toán nhanh 6 c6 Hệ số quay vòng số tiền thu được 7 c7 Tỷ lệ luân chuyển hàng hóa 8 c8 Tỷ lệ các khoản phải trả quá hạn 9 c9 Tỷ lệ vốn cổ phần
10 c10 Tỷ lệ vốn chủ sở hữu
11 c11 Xu hướng tỷ lệ vốn chủ sở hữu 12 c12 Tỷ lệ bảo đảm trả lãi
Các thuộc tính có các khoảng xác định với hai giá trị c1,c3...c10,c12: {chấp nhận được, không chấp nhận}, c2,c4:{tăng, giảm}
Các thuộc tính điều kiện gồm 1 thuộc tính, trả lời cho chính sách tín dụng thuộc vào nhóm (bình thường, theo dõi, khó đòi).
Với việc xác định được các tập thuộc tính điều kiện và quyết định giúp cho xác định minh bạch hơn các giao thức quyết định, những giao
thức này rất hữu ích trong quá trình thu thập dữ liệu. Kết quả tính toán, với 512 luật trong bảng quyết định được mô tả chi tiết trong [Skabek96]. Thông qua việc áp dụng Datalogic đã thực hiện rút gọn thành 150 luật quyết định: Tín dụng bình thường: 55 luật; tín dụng giám sát: 81 luật; tín dụng khó đòi: 14 luật.
Ví dụ: Quyết định => Tín dụng khó đòi: IF( [c8=NOT]&[c9=NOT]&[c7=NOT]&[c12=NOT]) THEN d1=[“Khó đòi]”; Tín dụng giám sát: IF( [c8=NOT] &[c4=ACC]&[c1=ACC]&[c7=ACC]&[c10=NOT]&[c5=ACC]) THEN “d1=[“Giám sát]”; Tín dụng bình thường: IF( [c10=ACC] &[c7=ACC]&[c9=ACC]&[c5=ACC]&[c1=ACC]&[c4=ACC]&[c6=ACC]) THEN “d1=[“Bình thường]”
2.5 Đánh giá chiến lƣợc thị trƣờng
Cũng gần với hai lĩnh vực kinh tế - tài chính nêu trên, những yếu tố nào cần được phân tích đánh giá để đưa ra những quyết định về mở rộng hay thu hẹp lĩnh vực kinh doanh của một công ty cũng là những yếu tố được nghiên cứu xem xét. Xuất phát từ tính không rõ ràng, tường minh của những yếu tố đầu vào cũng như đầu ra. Tiếp cận theo hướng tập thô, với sự trợ giúp của các hệ thống tính toán khi phân tích các dữ liệu là hướng tiếp cận hết sức hiệu quả mang lại lợi ích không phải bàn cãi.
Những kết quả nghiên cứu trong lĩnh vực này được đưa ra bởi “Pentor” (Viện nghiên cứu, đánh giá về thị trường). Các thuộc tính điều kiện được xác định bởi các chuyên gia, gồm 5 thuộc tính:
1 c1 Lĩnh vực kinh doanh ( branch of business)
2 c2 Trạng thái thị trường theo vòng đời của hàng hoá (stage) 3 c3 Doanh thu( Turnover)
5 c5 Số đo theo tỷ lệ phần trăm chi phí quảng cáo ( share) Các thuộc tính quyết định gồm 3 thuộc tính:
1 d1 Sum: tỷ lệ phần trăm tổng chi phí dành cho quảng cáo trên giá trị sản phẩm bán ra.
2 d2 Division: tỷ lệ của các loại hình quảng cáo theo tổng chi phí
3 d3 Budget: thuộc tính quyết định được thiết lập trên cơ sở kết hợp hai thuộc tính quyết định d1 và d2
Từ những dữ liệu tính toán bởi DataLogic sử dụng mô hình đầu vào là các giao thức quyết định, những luật quyết định đã được đưa ra và trình bày trong [Buzala95] gồm 19 luật quyêt định, ở dạng như sau:
Quyết định: Budger ==> ECBABB : [0.05<=c5<=0.08] OR [c3<=3041]&[0.05<=c5<=0.09]. Từ các luật thu được, DataLogic cũng cho phép tính toán theo hướng ngược lại để xác định các thuộc tính điều kiện với giá trị thuộc tính quyết định cho trước.
2.6. Nhận xét và thảo luận một số vấn đề về sử dụng lý thuyết tập thô trong ứng dụng kinh tế - tài chính tập thô trong ứng dụng kinh tế - tài chính
Trong việc ứng dụng lý thuyết tập thô trong các bài toán kinh tế tài chính, bước đầu tiên là lựa chọn và thu thập dữ liệu. Trong bước này vấn đề về tính sẵn sàng và tính tin cậy của dữ liệu phải được xem xét đến. Sau đó những dữ liệu này được tiền xử lý để xây dựng bảng quyết định. Ở đây, tiền xử lý bao gồm tính toán các chỉ tiêu cho chuỗi thời gian, rời rạc hoá cho các biến liên tục, thay đổi tỷ lệ các thuộc tính cho những giá trị qui định (nominal) và xoá phần không liên quan và giá trị thiếu.
Sau tiền xử lý là trích rút các luật từ bảng quyết định. Trong bước này nhiều phương pháp được áp dụng. Trong quá trình rời rạc hoá chủ yếu là dựa vào tri thức của chuyên gia miền, tuy vậy trong trường hợp thiếu tri
thức chuyên gia miền thì phương pháp rời rạc hoá tự động được sử dụng là phương pháp dựa trên thống kê 2 . Trong quá trình rời rạc hoá các thuộc tính dạng số dựa trên thống kê 2 sẽ dẫn đến một số thuộc tính được hợp nhất chỉ còn lại một giá trị duy nhất và như vậy thì thuộc tính này không liên quan đến mô tả tập dữ liệu nguồn, nó không được đưa vào bảng quyết định mã hoá, quá trình lựa chọn đặc trưng kết thúc. Như vậy, quá trình lựa chọn đặc trưng được thực hiện thông qua rời rạc hoá.
Hình 2.4 Thủ tục dự báo kinh tế - tài chính sử dụng tập thô
- Qui nạp luật quyết định: Thách thức chính trong việc quy nạp luật quyết định từ các rút gọn tìm ra là ở chỗ xác định những thuộc tính nào sẽ nằm trong phần điều kiện của luật quyết định. Có nhiều phương pháp được đề xuất bởi Grzy-mala-busse (1992), Skowron (1993), Slowinski and Stefanowski (1992), Stefanowski and Vanderpooten (1994) và Ziarko et al (1993). Những phương pháp qui nạp luật nâng cao đã được nghiên cứu bởi
Sưu tập và lựa chọn dữ liệu
Tiền xử lý dữ liệu
Bảng thông tin mã hoá
Trích rút các luật quyết định Kiểm định đánh giá
Rời rạc hoá các giá trị liên tục Xử lý giá trị thiếu, thừa Định thang tỷ lệ cho giá trị qui định Các thuật toán máy học Tri thức chuyên gia
Bazan (1998) với việc so sánh các phương pháp động (dynamic) và không động (non-dynamic) trong việc qui nạp luật từ bảng quyết định.
Các thủ tục phát sinh luật quyết định từ bảng quyết định hoạt động theo nguyên lý tự học qui nạp, các đối tượng được xem như là các mẫu quyết định.
Các thuật toán qui nạp luật sử dụng một trong các chiến lược sau: (i) Phát sinh một tập luật quyết định cực tiểu phủ tất cả các đối tượng từ bảng quyết định
(ii) Phát sinh một tập vét cạn các luật bao gồm tất cả những luật có khả năng cho bảng quyết định
(iii). Phát sinh một tập những luật quyết định mạnh phủ bởi tương đối nhiều đối tượng nhưng không nhất thiết phải là tất cả các đối tượng từ bảng quyết định.
2.7. Tổng kết chƣơng 2
Chương 2 đã trình bày các vấn đề về rời rạc hoá các thuộc tính dạng số, phương pháp lựa chọn đặc trưng và rời rạc hoá dựa trên thống kê 2
theo thuật toán chi2 Và thuật toán chi2 Sửa đổi dựa trên lý thuyết tập thô.
Trình bày những vấn đề về lựa chọn đặc trưng để xây dựng bảng quyết định thông qua quá trình rời rạc, lựa chọn thuộc tính để qui nạp luật quyết định dựa trên tập thô và phân lớp các đối tượng dựa trên kỹ thuật VCR cũng đã được trình bày và đánh giá. Trong chương 2 đã trình bày một số vấn đề tổng quan thông qua các ví dụ phân tích đánh giá về công ty, chính sách tín dụng và chiến lược thị trường thông qua các công cụ phân tích dựa trên mô hình tập thô.
Chƣơng 3
PHÁT HIỆN TRI THỨC QUA LẬP TRÌNH LOGIC QUY NẠP VÀ ỨNG DỤNG TRONG PHÁT HIỆN
CÁC DẦU HIỆU TÀI CHÍNH BẤT THƢỜNG
3.1. Giới thiệu
Các phương pháp dựa trên những ngôn ngữ thuộc tính - giá trị (attribute-value languages : AVLS) rất thông dụng trong các ứng dụng thuật toán tự học. Mạng Nơron và cây quyết định là các ví dụ diễn hình của các phương pháp dựa trên AVLS.
Chúng tương đối đơn giản, hiệu quả và có thể giải quyết dữ liệu nhiễu. Tuy nhiên, những phương pháp này đều có những giới hạn lớn trong cách biểu diễn tri thức.
Mục đích của lập trình logic qui nạp (Inductive logic programming - ILP) là vượt qua những giới hạn này. Các hệ thống tự học ILP kết hợp với tri thức nền và các quan hệ giữa các đối tượng vào tiến trình tự học. Bảng 2. 1 , trình bày những điểm mạnh và yếu của các phương pháp dựa trên AVLS và phương pháp ILP logic cấp 1 Bratko và Muggleton [1995] đã chỉ ra rằng các hệ thống ILP tương đối không hiệu quả và có phần giới hạn khả năng giải quyết dữ liệu số.
Mục tiêu của khai phá dữ liệu quan hệ (relational data mining - RDM) là vượt qua hạn chế của ILP hiện tại. Việc sử dụng thuật ngữ mới RDM song song với thuật ngữ trước đây ILP và logic cấp 1 (first order logic - FOL) để nhấn mạnh mục tiêu - phát hiện các quan hệ. Thuật ngữ ILP và FOL phản ảnh kỹ thuật cho việc phát hiện quan hệ - lập trình logic. Trong thực tiễn, việc phát hiện các qui luật quan hệ có thể được thực hiện mà không cần suy luận logic. Như vậy, khai phá dữ liệu quan hệ là:
Phát hiện các quan hệ ẩn (các quan hệ logic cấp 1 tổng quát) thông thường trong dữ liệu số và dữ liệu ký hiệu sử dụng tri thức nền (lý thuyết miền) [9, 10]
Các hệ thống ILP có một cơ cấu để mô tả nền tảng tri thức tài chính trong một hình thức mà con người có thể hiểu được và đọc được. Điều này rất quan trọng cho các nhà đầu tư rõ ràng, các luật có thể hiểu được có những lợi thế đối với dự báo kinh tế tài chính mà không cần có thêm các giải thích .
Phƣơng pháp Lợi thế cho
tiến trình tự học Hạn chế cho tiến trình tự học Các phương pháp dựa trên ngôn ngữ giá trị thuộc tính - Đơn giản
- Hiệu quả, và giải quyết được dữ liệu nhiễu
- Giới hạn về diễn trả tri thức cơ sở
- Thiếu các quan hệ trong ngôn ngữ mô tả khái niệm Phương pháp
lập trình logic qui nạp – ILP
- Xấp xỉ thời gian tự học với số lớn các mẫu huấn luyện
- Cơ sở lý thuyết chặt chẽ (logic cấp 1 và lập trình logic)
- Mềm dẻo: Tri thức nền, mô tả vấn đề, các ràng buộc cụ thể vấn đề
- Mô tả dễ hiểu: Tri thức nền và quan hệ giữa các mẫu
- Không xấp xỉ thời gian tự học với số lớn cac đối trong các quan hệ.
- Khả năng xử lý yếu với dữ liệu dạng số.
Bảng 3.1. So sánh cácphương pháp dựa trên A VL và phương pháp ILP logic cấp 1
Có hai kiểu dữ liệu dạng số trong khai phá dữ liệu (i) các biến mục tiêu dạng số và (ii) các thuộc tính dạng số sử dụng để mô tả các đối tượng và phát hiện các mẫu.
Các phương pháp FOL truyền thống giải quyết duy nhất những nhiệm vụ phân lớp mà không có các thao tác trực tiếp trên dữ liệu dạng số. Phương pháp MMDR giải quyết dự báo khoảng của các biển dạng số với các giá trị liên tục như là giá cùng với nhiệm vụ phân lớp.
Mô tả tri thức là một bước khởi đầu quan trọng trong khai phá dữ liệu quan hệ [9, 10] . Trong các phương pháp dựa trên thuộc tính, hình thức thuộc tính của dữ liệu trên thực tế điều khiển dạng biểu diễn tri thức. Ví dụ, thông tin thị trường chứng khoán dựa trên thuộc tính như là giá cổ phiếu, số cổ phiếu giao dịch sẽ được chuyển thành dạng logic cấp 1. Tri thức này bao gồm khá nhiều chứ không chỉ duy nhất các giá trị thuộc tính. Có nhiều cách để mô tả tri thức trong ngôn ngữ logic cấp 1 . Một trong số đó là bỏ qua thông tin quan trọng (mô tả bằng các quan hệ giữa các đối tượng), cách khác là dấu nó. Vì thế, các thuật toán khai phá dữ liệu có thể làm việc quá dài dể tìm ra (dig) thông tin thích dáng hay thậm chí có thể đưa ra nhiều luật không xác đáng.
3.2. Lập trình logic qui nạp (Inductive logic programming - LLP)[27] LLP)[27]
Lập trình logic qui nạp (ILP) được định nghĩa như là phần giao nhau của tự học qui nạp và lập trình logic. ILP được dựa trên lập trình logic theo nghĩa các chương trình logic, chúng là một tập con quan trọng của logic cấp 1 được sử dụng để mô tả dữ liệu vào và mô hình có được. Các thuật toán ILP có thể được sử dụng để giải quyết các nhiệm vụ khai phá dữ liệu quan hệ bởi vì các chương trình logic khái quát hoá cơ sở dữ liệu quan hệ, có nghĩa một cơ sở dữ liệu quan hệ có thể dễ dàng chuyển đổi vào một chương trình logic. Dữ liệu được mô tả trong các chương trình logic với các sự kiện (facts), tri thức được mô tả với các luật. Hầu hết các khái niệm của công nghệ cơ sở dữ liệu quan hệ có phần tương ứng trong lập trình logic, chỉ có thuật ngữ là khác
Dữ liệu vào cho một thuật toán ILP được mô tả như một chương trình logic.
Một chương trình logic là một tập những định nghĩa vị từ. Một vị từ