tập thô trong ứng dụng kinh tế - tài chính
Trong việc ứng dụng lý thuyết tập thô trong các bài toán kinh tế tài chính, bước đầu tiên là lựa chọn và thu thập dữ liệu. Trong bước này vấn đề về tính sẵn sàng và tính tin cậy của dữ liệu phải được xem xét đến. Sau đó những dữ liệu này được tiền xử lý để xây dựng bảng quyết định. Ở đây, tiền xử lý bao gồm tính toán các chỉ tiêu cho chuỗi thời gian, rời rạc hoá cho các biến liên tục, thay đổi tỷ lệ các thuộc tính cho những giá trị qui định (nominal) và xoá phần không liên quan và giá trị thiếu.
Sau tiền xử lý là trích rút các luật từ bảng quyết định. Trong bước này nhiều phương pháp được áp dụng. Trong quá trình rời rạc hoá chủ yếu là dựa vào tri thức của chuyên gia miền, tuy vậy trong trường hợp thiếu tri
thức chuyên gia miền thì phương pháp rời rạc hoá tự động được sử dụng là phương pháp dựa trên thống kê 2 . Trong quá trình rời rạc hoá các thuộc tính dạng số dựa trên thống kê 2 sẽ dẫn đến một số thuộc tính được hợp nhất chỉ còn lại một giá trị duy nhất và như vậy thì thuộc tính này không liên quan đến mô tả tập dữ liệu nguồn, nó không được đưa vào bảng quyết định mã hoá, quá trình lựa chọn đặc trưng kết thúc. Như vậy, quá trình lựa chọn đặc trưng được thực hiện thông qua rời rạc hoá.
Hình 2.4 Thủ tục dự báo kinh tế - tài chính sử dụng tập thô
- Qui nạp luật quyết định: Thách thức chính trong việc quy nạp luật quyết định từ các rút gọn tìm ra là ở chỗ xác định những thuộc tính nào sẽ nằm trong phần điều kiện của luật quyết định. Có nhiều phương pháp được đề xuất bởi Grzy-mala-busse (1992), Skowron (1993), Slowinski and Stefanowski (1992), Stefanowski and Vanderpooten (1994) và Ziarko et al (1993). Những phương pháp qui nạp luật nâng cao đã được nghiên cứu bởi
Sưu tập và lựa chọn dữ liệu
Tiền xử lý dữ liệu
Bảng thông tin mã hoá
Trích rút các luật quyết định Kiểm định đánh giá
Rời rạc hoá các giá trị liên tục Xử lý giá trị thiếu, thừa Định thang tỷ lệ cho giá trị qui định Các thuật toán máy học Tri thức chuyên gia
Bazan (1998) với việc so sánh các phương pháp động (dynamic) và không động (non-dynamic) trong việc qui nạp luật từ bảng quyết định.
Các thủ tục phát sinh luật quyết định từ bảng quyết định hoạt động theo nguyên lý tự học qui nạp, các đối tượng được xem như là các mẫu quyết định.
Các thuật toán qui nạp luật sử dụng một trong các chiến lược sau: (i) Phát sinh một tập luật quyết định cực tiểu phủ tất cả các đối tượng từ bảng quyết định
(ii) Phát sinh một tập vét cạn các luật bao gồm tất cả những luật có khả năng cho bảng quyết định
(iii). Phát sinh một tập những luật quyết định mạnh phủ bởi tương đối nhiều đối tượng nhưng không nhất thiết phải là tất cả các đối tượng từ bảng quyết định.
2.7. Tổng kết chƣơng 2
Chương 2 đã trình bày các vấn đề về rời rạc hoá các thuộc tính dạng số, phương pháp lựa chọn đặc trưng và rời rạc hoá dựa trên thống kê 2
theo thuật toán chi2 Và thuật toán chi2 Sửa đổi dựa trên lý thuyết tập thô.
Trình bày những vấn đề về lựa chọn đặc trưng để xây dựng bảng quyết định thông qua quá trình rời rạc, lựa chọn thuộc tính để qui nạp luật quyết định dựa trên tập thô và phân lớp các đối tượng dựa trên kỹ thuật VCR cũng đã được trình bày và đánh giá. Trong chương 2 đã trình bày một số vấn đề tổng quan thông qua các ví dụ phân tích đánh giá về công ty, chính sách tín dụng và chiến lược thị trường thông qua các công cụ phân tích dựa trên mô hình tập thô.
Chƣơng 3
PHÁT HIỆN TRI THỨC QUA LẬP TRÌNH LOGIC QUY NẠP VÀ ỨNG DỤNG TRONG PHÁT HIỆN
CÁC DẦU HIỆU TÀI CHÍNH BẤT THƢỜNG
3.1. Giới thiệu
Các phương pháp dựa trên những ngôn ngữ thuộc tính - giá trị (attribute-value languages : AVLS) rất thông dụng trong các ứng dụng thuật toán tự học. Mạng Nơron và cây quyết định là các ví dụ diễn hình của các phương pháp dựa trên AVLS.
Chúng tương đối đơn giản, hiệu quả và có thể giải quyết dữ liệu nhiễu. Tuy nhiên, những phương pháp này đều có những giới hạn lớn trong cách biểu diễn tri thức.
Mục đích của lập trình logic qui nạp (Inductive logic programming - ILP) là vượt qua những giới hạn này. Các hệ thống tự học ILP kết hợp với tri thức nền và các quan hệ giữa các đối tượng vào tiến trình tự học. Bảng 2. 1 , trình bày những điểm mạnh và yếu của các phương pháp dựa trên AVLS và phương pháp ILP logic cấp 1 Bratko và Muggleton [1995] đã chỉ ra rằng các hệ thống ILP tương đối không hiệu quả và có phần giới hạn khả năng giải quyết dữ liệu số.
Mục tiêu của khai phá dữ liệu quan hệ (relational data mining - RDM) là vượt qua hạn chế của ILP hiện tại. Việc sử dụng thuật ngữ mới RDM song song với thuật ngữ trước đây ILP và logic cấp 1 (first order logic - FOL) để nhấn mạnh mục tiêu - phát hiện các quan hệ. Thuật ngữ ILP và FOL phản ảnh kỹ thuật cho việc phát hiện quan hệ - lập trình logic. Trong thực tiễn, việc phát hiện các qui luật quan hệ có thể được thực hiện mà không cần suy luận logic. Như vậy, khai phá dữ liệu quan hệ là:
Phát hiện các quan hệ ẩn (các quan hệ logic cấp 1 tổng quát) thông thường trong dữ liệu số và dữ liệu ký hiệu sử dụng tri thức nền (lý thuyết miền) [9, 10]
Các hệ thống ILP có một cơ cấu để mô tả nền tảng tri thức tài chính trong một hình thức mà con người có thể hiểu được và đọc được. Điều này rất quan trọng cho các nhà đầu tư rõ ràng, các luật có thể hiểu được có những lợi thế đối với dự báo kinh tế tài chính mà không cần có thêm các giải thích .
Phƣơng pháp Lợi thế cho
tiến trình tự học Hạn chế cho tiến trình tự học Các phương pháp dựa trên ngôn ngữ giá trị thuộc tính - Đơn giản
- Hiệu quả, và giải quyết được dữ liệu nhiễu
- Giới hạn về diễn trả tri thức cơ sở
- Thiếu các quan hệ trong ngôn ngữ mô tả khái niệm Phương pháp
lập trình logic qui nạp – ILP
- Xấp xỉ thời gian tự học với số lớn các mẫu huấn luyện
- Cơ sở lý thuyết chặt chẽ (logic cấp 1 và lập trình logic)
- Mềm dẻo: Tri thức nền, mô tả vấn đề, các ràng buộc cụ thể vấn đề
- Mô tả dễ hiểu: Tri thức nền và quan hệ giữa các mẫu
- Không xấp xỉ thời gian tự học với số lớn cac đối trong các quan hệ.
- Khả năng xử lý yếu với dữ liệu dạng số.
Bảng 3.1. So sánh cácphương pháp dựa trên A VL và phương pháp ILP logic cấp 1
Có hai kiểu dữ liệu dạng số trong khai phá dữ liệu (i) các biến mục tiêu dạng số và (ii) các thuộc tính dạng số sử dụng để mô tả các đối tượng và phát hiện các mẫu.
Các phương pháp FOL truyền thống giải quyết duy nhất những nhiệm vụ phân lớp mà không có các thao tác trực tiếp trên dữ liệu dạng số. Phương pháp MMDR giải quyết dự báo khoảng của các biển dạng số với các giá trị liên tục như là giá cùng với nhiệm vụ phân lớp.
Mô tả tri thức là một bước khởi đầu quan trọng trong khai phá dữ liệu quan hệ [9, 10] . Trong các phương pháp dựa trên thuộc tính, hình thức thuộc tính của dữ liệu trên thực tế điều khiển dạng biểu diễn tri thức. Ví dụ, thông tin thị trường chứng khoán dựa trên thuộc tính như là giá cổ phiếu, số cổ phiếu giao dịch sẽ được chuyển thành dạng logic cấp 1. Tri thức này bao gồm khá nhiều chứ không chỉ duy nhất các giá trị thuộc tính. Có nhiều cách để mô tả tri thức trong ngôn ngữ logic cấp 1 . Một trong số đó là bỏ qua thông tin quan trọng (mô tả bằng các quan hệ giữa các đối tượng), cách khác là dấu nó. Vì thế, các thuật toán khai phá dữ liệu có thể làm việc quá dài dể tìm ra (dig) thông tin thích dáng hay thậm chí có thể đưa ra nhiều luật không xác đáng.
3.2. Lập trình logic qui nạp (Inductive logic programming - LLP)[27] LLP)[27]
Lập trình logic qui nạp (ILP) được định nghĩa như là phần giao nhau của tự học qui nạp và lập trình logic. ILP được dựa trên lập trình logic theo nghĩa các chương trình logic, chúng là một tập con quan trọng của logic cấp 1 được sử dụng để mô tả dữ liệu vào và mô hình có được. Các thuật toán ILP có thể được sử dụng để giải quyết các nhiệm vụ khai phá dữ liệu quan hệ bởi vì các chương trình logic khái quát hoá cơ sở dữ liệu quan hệ, có nghĩa một cơ sở dữ liệu quan hệ có thể dễ dàng chuyển đổi vào một chương trình logic. Dữ liệu được mô tả trong các chương trình logic với các sự kiện (facts), tri thức được mô tả với các luật. Hầu hết các khái niệm của công nghệ cơ sở dữ liệu quan hệ có phần tương ứng trong lập trình logic, chỉ có thuật ngữ là khác
Dữ liệu vào cho một thuật toán ILP được mô tả như một chương trình logic.
Một chương trình logic là một tập những định nghĩa vị từ. Một vị từ có thể được định nghĩa ngoại diên (extensional) hay nội hàm (intensional).
Một vị từ được định nghĩa ngoại diện là chương trình logic tương đương với một bảng cơ sở trong cơ sở dữ liệu quan hệ. Một bảng cơ sở với tên là p, m thuộc tính và N bộ tương ứng với một vị từ p/m, với p là tên vị từ, m là số đối hay ngôi của nó. Vị từ p/m được định nghĩa ngoại diên bởi N sự kiện dưới dạng p(u1,..,um) mỗi sự kiện tương ứng với 1 bộ, với ui là giá trị thuộc tính thứ i của bộ đó.
Một cách hình thức, ILP được định nghĩa như sau:
Cho :
+ Tri thức nền , B , một tập các mệnh đề Horn
+ Các mẫu dương, P- một tập các mệnh đề Horn ( các literal cơ sở) + Các mẫu âm, N - một tập những mệnh đề Horn ( các literal cơ sở) Tìm: Một giả thuyết, H - một tập những mệnh đề Horn, sao cho:
+ p P: H B ╞═ P + p N: H B ╞/═ P
3.3. Thuật toán FOIL và FOCL [20, 21]
Nhiều hệ thống học máy quan hệ đâ phát triển trong những năm gần đây [Mitchell, 1997] . Trên lý thuyết, những hệ thống này có nhiều lợi thế. Mặc dù trên thực tế, độ phức tạp của ngôn ngữ phải được hạn chế chặt chẽ, giảm khả năng ứng dụng của chúng. Ví dụ, một số hệ thống yêu cầu, các định nghĩa khái niệm được diễn tả dưới dạng những cặp thuộc tính-giá trị hay chỉ dưới dạng những vị từ một ngôi. Những hệ thống cho phép những định nghĩa khái niệm quan hệ thực sự đặt vào những hạn chế mạnh trong hình thức qui nạp và tri thức ban đầu, được cung cấp cho hệ thống.
Ba phương pháp khai phá dữ liệu quan hệ : FOIL và FOCL sẽ được xem xét trong phần này và MMDR. Thuật toán FOIL [Quinlan, 1989;
Quinlan, 1990] học những mệnh đề Horn không chứa hằng (Constant-free Horn clauses), một tập con hữu ích của vị từ cấp 1 . Sau đó FOIL được mở rộng nhằm sử dụng nhiều dạng kiểu tri thức nền để gia tăng lớp các vấn đề có thể được giải quyết, để giảm bớt không gian giả thuyết được khảo sát, gia tăng độ chính xác của các luật đã học.
Thuật toán FOCL sử dụng logic cấp 1 và metric tối ưu dựa trên thông tin của FOIL kết hợp với tri thức nền
Vấn đề phát sinh luật và kiểm tra là một bài toán NP-C (NP đầy đủ) [21], vì thế chúng ta phải đối diện với vấn đề thiết kế các thuật toán NP-C. Có một vài vấn đề liên quan đó là: điều gì xác định số các luật được kiểm tra? khi nào thì dừng phát sinh luật? thuật toán FOIL và FOCL dựa trên - tiêu chuẩn độ đo thông tin (information gain) thu được.
3.3.1. Thuật toán FOIL
FOIL sử dụng những mẫu dương và mẫu âm {e+}, {e-}cho khái niệm C và những vị từ (nền) liên quan. Thuật toán FOIL cố gắng phát sinh một luật R kết hợp từ những vị từ này theo một cách sao cho R là đúng với những mẫu dương, R(e+) = 1, và sai với những mẫu âm R(e-) = 0. Luật này không chứa những ký hiệu hằng và hàm, nhưng có thể chứa những vị tự phủ định trong cả FOIL và FOCL.
Thuật toán FOIL có hai giai đoạn chính:
- Giai đoạn tách rời (separate stage) khởi đầu một mệnh đề mới - Giai đoạn chiếm dần (conquer stage)
Mỗi mệnh đề mô tả một số tập con các mẫu dương và không có các mẫu âm. FOIL sử dụng hai toán tử
- Khởi đầu một mệnh đề rỗng mới
- Thêm một Literal vào cuối mệnh đề hiện tại
Việc thêm các Literal tiếp tục cho đến khi không còn mẫu âm nào được phủ bởi mệnh đề. Những Literal này được thêm vào cuối mệnh đề
hiện tại. FOIL khởi đầu những mệnh đề mới cho đến khi tất cả các mẫu dương được phủ bởi một số mệnh đề
Thuật toán FOIL:
Cho POS là tập những mẫu dương. Cho NEG tập các mẫu âm.
Đặt Newclausebody là (rỗng)
Until POS là do: (trước khi POS là rỗng, thực hiện)
Separate: (Khởi đầu những mệnh đề mới - begins new clauses) Xoá trong POS tất cả những mấu thoả Newclausebody.
Đặt lại NEG là những mẫu âm ban đầu Thiết lập lại Newclausebody là
Until NEG là do: (Trước khi NEG là , thực hiện)
Conquer: (Xây dựng thân mệnh đề - build clause body)
Chọn một literal L.
Kết nối L vào Newclausebody.
- Quá trình thêm những Literal chấp nhận một cơ chế để phát sinh các Literal, có nghĩa là một kết hợp đặc biệt của các biến và những tên vị từ. Nếu một vị từ (tên vị từ) đã được lựa chọn, thì sự lựa chọn các biến được gọi là một (biến số hoá) Variablization (của vị từ) [Pazzani, Kibler, 1992] . Nếu biến đã chọn đã xuất hiện trong Literal không âm của luật, thì biến được gọi là cũ (Old), ngược lại, biến được gọi là mới (New). FOIL và FOCL yêu cầu ít nhất một biến cũ. Biến cũ này có thể nằm trong phần đầu hay thân luật hiện tại (Mệnh đề Horm)
FOIL sử dụng cách tiếp cận tối ưu hoá leo núi để thêm literal với độ đo thông tin tối đa (information gain) đối với mệnh đề (luật). Điều này yêu cầu tính toán độ đo thông tin cho mỗi lượng biến đổi (variablization) của mỗi vị từ P. Metric độ đo thông tin được sử dụng bởi FOIL là :
Gain(literal) = T++* (log2(P1/(P1 + N1)) - log2 (P0/(P0+N0)))
Với P0 và N0 là số những mẫu dương và bộ âm trước khi thêm literal vào mệnh đề; Với Pi và Ni là số các mẫu dương và bộ âm sau khi thêm literal vào mệnh đề.
T++ là số các bộ dương trước khi thêm literal sao cho ít nhất có một mở rộng tương ứng trong những bộ dương sau khi thêm literal.
Chi phí (Cost): Tìm kiếm leo núi sử dụng bởi FOIL phụ thuộc vào hệ số phân nhánh của cây tìm kiếm. Hệ số phân nhánh này là một hàm mũ của (I) số ngôi của vị từ sẵn có, (2) ngôi của vị từ đã được học và (3) chiều dài của mệnh đề đang được học [Pazzani, Kibler, 1992] . Hai độ đo ước lượng chi phí của tính toán FOIL:
+ Chi phí lý thuyết: số các literal khác nhau có thể được lựa chọn để mở rộng phần thân của vị từ được cho (không phụ thuộc vào số các mẫu huấn luyện),
+ Chi phí đánh giá: Chi phí tính toán độ đo thông tin của mỗi literal (phụ thuộc vào số các mẫu huấn luyện).
Heuristic: Kiểm thử những lượng thay đổi của một vị từ được tránh bởi một heuristic tỉa nhánh và cận trong FOIL.
3.3.2. Thuật toán FOCL
Thuật toán FOCL [Pazzani, 1997, Pazzani, Kibler] mở rộng và sửa đổi FOIL để cho phép nhiều dạng tri thức nền:
- Những ràng buộc đề giới hạn không gian tìm kiếm
- Những vị từ định nghĩa bởi một luật thêm vào những vị từ định nghĩa bởi một tập các mẫu.
- Đưa vào những luật bộ phận, có khả năng sai là một xấp xỉ đầu của vị từ được học.
Những mở rộng này hướng dẫn xây dựng một mệnh đề bằng việc lựa chọn những literal để kiểm thử. FOCL cố gắng để ràng buộc việc tìm kiếm bằng cách sử dụng định kiểu biến, những ràng buộc liên đối số và một cách tiếp cận lặp mở rộng (iterative-widening approach) để thêm những biến