.1 Sơ đồ thuật toán MMDR

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế - tài chính (Trang 76 - 85)

MMDR

Lựa chọn/phát sinh những luật logic với các biến x, y, ..,z

IF A(x,y, . . . ,z) THEN B(x,y, . . . ,z)

Học những luật logic trên dữ liệu huấn luyện sử dụng xác suất

suy luận có điều kiện P(B(x,y, . . . ,z)/A(x,y, . . . ,z))

Kiểm tra và lựa chọn những luật logic (nguyên lý Occam,

kiểm định Fisher) Tạo ra các khoảng và các ngưỡng dự

báo sử dụng những luật

3.4.2. Luật xác suất logic "Law-like"

Một luật IF -THEN C là : A 1 & . . . &Ak => A0

Phần If A1&...&Ak chứa các phát biểu logic đúng/sai A1,...,Ak, phần Then chứa một phát biểu logic đơn A0. Những luật con có thể được phát sinh bằng cách cắt bỏ phần If, ví dụ : A1&A2 => A0, A1&A2 &A3 => A0

... vân vân. Một luật con là mạnh hơn về mặt logic so với luật để xây dựng luật con đó. Như vậy, nếu một luật C và luật con của nó phân lớp đúng đắn cùng một tập hợp các mẫu thì luật con được ưu tiên hơn, bởi vì : Luật con là khái quát hơn, đơn giản hơn, dễ dàng kiểm tra hơn (dễ bác bỏ hơn) bởi vì một tập lớn hơn các mẫu có khả năng chứng minh nó (phần If của luật con ít hạn chế hơn).

Với luật C, xác suất điều kiện của nó được định nghĩa : Prob(c) : Prob(A0/A1&...&Ak) .

Tương tự, các xác suất điều kiện

Prob((A0/Ai& . . . &Aih) được định nghĩa cho các luật con Ci dạng Ai1 & . . . &Aih => A0 với {Ail. . .Aih}  {A1....Ak}

Xác suất điều kiện Prob(C) được sử dụng để ước lượng khả năng dự dự báo để dự đoán A0 Một Luật là "law-like" nếu tất các luật con của nó có xác suất điều kiện nhỏ hơn luật đó, và ý nghĩa thống kê của nó được thiết lập. Mỗi luật con Ci khái quát hoá C, có nghĩa là khả năng Ci đúng cho một tập các thể hiện lớn hơn.

3.5. Ứng dụng MMDR trong việc phát hiện các điểm bất thƣờng của thị trƣờng chứng khoán

3.5.1 Các biến

Sử dụng hai biến thời gian TR - tập huấn luyện, CT- tập kiểm soát/kiểm tra để huấn luyện và đánh giá giải thuật dự báo. Ở đây TR={a1, a2

...atr} là dữ liệu trong 10 năm từ 1985-1994 ( tr=2528 ngày) và CT = {a1, a2

...act} là dữ liệu trong hai năm 1995, 1996 ( ct=506 ngày).

Sử dụng khoảng thời gian 5 ngày tuần tự như một đơn vị dự báo chính: at= (a1t,a2t,a3t,a4t,a5t). Ở đây ajt được hiểu là ngày thứ j trong 5 ngày của đối tượng at. Biến Weekday(at) có 5 giá trị 1,2,3,4,5: tương đương với các ngày trong tuần, ví dụ: Weekday(at)=1 nghĩa là ngày thứ hai, Weekday(at)=1 nghĩa là ngày thứ sáu.

Một số các biến mới được sinh từ SP500C ( Standard and Poor 500 close):

- Sai phân quan hệ (relative differences): ●ij(at) = SP500C(ajt)- SP500C(ait))/SP500C(ait), i<j, i,j=1,..,5;

- Sai phân giữa hai sai phân quan hệ: ●ijk(at)=●jk(at) - ●ij(at)

- Hoán vị vòng ( cyclic permutation): ● cho đối tượng a và hàm wd(a). wd(a)=<1,2,3,4,5> được hiểu là đối tượng a biểu diễn 5 từ thứ 2 đến thứ 6, nhưng wd(b)= <2,3,4,5,1> thì lại biểu diến 5 ngày từ thứ ba đến thứ 2 tuần sau. ●(a) là một hoán vị vòng được thực hiện bằng cách dịch chuyển để thu được b= ●(a).

3.5.2 các giả thuyết và các luật xác suất

Ký hiệu a=at1, b=bt2 là các đối tượng bất kỳ. (●(a)●●(b))● là một bất đẳng thức như (● (a)●● (b))● ,i<j;i,j=1,...,5 hoặc là (● (a)●● (b))●

i<j<k; i,j,k=1,...,5; ●,●0,●1,●3 {0,1}, (0) nghĩa là không phủ định biểu thức (●ij(a)●●ij(b) và (1) có ý nghĩa ngược lại.

Có 4 giả thuyết sau đây được thử nghiệm:

- (wd(a) = wd(b)= <d1,...,d5>) &(●(a)●●(b))●1 ●(target(a5

) ●target(b5

))●0: IF với bất kỳ đối tượng a,b có sai phân ●12(a) nhỏ hơn ●12(b) THEN giá chứng khoán trong ngày cuối cùng của a sẽ lớn hơn ngày cuối cùng của b:

- (wd(a) = wd(b) =<d1,...,d5>)&(●(a)●●(b))●1 &(●(a)●●(b))●2 ●(target(a5)

) ●target(b5))●0: IF với bất kỳ đối tượng a,b có sai phân ●12(a) nhỏ hơn ●12(b) VÀ ●23(a) nhỏ hơn ●23(b) THEN giá chứng khoán trong ngày cuối cùng của a sẽ lớn hơn ngày cuối cùng của b.

- (wd(a) =wd(b) =<d1,...,d5>)& (●(a)●●(b))●1& (●(a)●●(b))●2 & (●(a)●●(b))●3(target(a5))●target(b5))●0: IF với bất kỳ đối tượng a,b có sai phân ●12(a) nhỏ hơn ●12(b) VÀ ●23(a) nhỏ hơn ●23(b) VÀ ●123(a) nhỏ hơn ●123(b) THEN giá chứng khoán trong ngày cuối cùng của a sẽ lớn hơn ngày cuối cùng của b.

- (wd(a) =wd(b) =<d1,...,d5>)&(●(a)●●(b))●1 &(●(a)●●(b))●2&...& (●(a)●●(b))●k● (target(a5)

)●target(b5))●0: IF với bất kỳ đối tượng a,b có sai phân ●12(a) nhỏ hơn ●12(b) VÀ ●23(a) nhỏ hơn ●23(b) VÀ ●123(a) nhỏ hơn ●123(b) VÀ ... THEN giá chứng khoán trong ngày cuối cùng của a sẽ lớn hơn ngày cuối cùng của b.

Ở dưới góc độ tài chính các giả thuyết nêu trên có thể phát biểu như sau: NẾU ngày cuối cùng( chẳng hạn là ngày thứ hai) của 5 ngày hiện tại trùng với ngày cuối cùng của các đối tượng 5 ngày trong lịch sử dữ liệu VÀ sai phân SP500C giữa ngày thứ ba và ngày thứ năm trong quá khứ không lớn hơn sai phân giữa ngày thứ ba và thứ năm hiện tại VÀ sai phân SP500C giữa ngày thứ ba và ngày thứ hai trong quá khứ lớn hơn sai phân

giữa ngày thứ ba và thứ năm hiện tại VÀ sai phân SP500C giữa ngày thứ ba, thứ tư và ngày thứ tư, thứ năm trong quá khứ không lớn hơn sai phân tương ứng trong hiện tại VÀ ... THÌ chúng tôi dự đoán rằng chứng khoán của 5 ngày sau kể từ ngày thứ hai hiện tại sẽ tăng trưởng ít hơn so với 5 ngày tính từ thời điểm ngày thứ hai trong quá khứ.

Có nhiều phương pháp dự đoán nổi tiếng được sử dụng để nghiên cứu thị trường chứng khoán, chúng được viết theo các thuật ngữ như đã trình bày ở trên, một trong số đó là phương pháp chuỗi Markov sử dụng các điều kiện xác suất để đánh giá biểu thức, giả thuyết trên dữ liệu huấn luyện. Trở về với bài toán chứng khoán, ở đây ta xem xét các đối tượng 6 ngày thay vì 5 ngày như trước đây. <d1,...,d5,d6>=<thứ hai, thứ ba, thứ tư, thứ năm, thứ sáu, thứ hai>, (wd(a)=wd(b)= <d1,...,d5,d6>), a= at, a6t=a1t+1. Sai phân quan hệ đối với giá chứng khoán mục tiêu(S): Deltaij(at)=(S(ajt)- S(ait))/S(ait).

Từ tập huấn luyện TR, với các ngày i,j từ at và at+1, tìm được các xác xuất điều kiện:

0.31 luật 1: (Deltaij(at)<Deltaij(at+1)) => (target(a6t)<target(a6t+1)) 0.69 luật 2: (Deltaij(at)<Deltaij(at+1)) => NOT (target(a5t)<target(a5t+1)) 0.65 luật 3: NOT(Deltaij(at)<Deltaij(at+1)) => (target(a5t)<target(a5t+1)) 0.35 luật 4: NOT (Deltaij(at)<Deltaij(at+1)) => NOT

(target(a5t)<target(a5t+1))

Biểu diễn dưới dạng ma trận các xác xuất, sử dụng chuỗi Markov cho dự báo: Target

0 1

Delta 0 0.31 0.69 1 0.65 0.35

Sử dụng 0 để biểu đạt cho sự tăng lên của giá chứng khoán và 1 cho sự giảm. Luật 2 biểu đạt theo ngôn ngữ: nếu delta tăng lên thì target giảm với xác xuất là 0.69.

Với mỗi luật xác suất C=(A1(x,y,...,z)&...&Ak(x,y,...,z)●A0(x,y,...,z)), thực hiện tính toán xác suất điều kiện P(A0/A1&...&Ak) qua các dữ liệu

huấn luyện. Những xác suất này được dùng như các hàm đánh giá kết hợp với kiểm thử cho ý nghĩa thống kê. Đây là cách thông thường để thiết kế một hàm đánh giá. Từ những cơ chế gốc để lựa chọn các biểu thức xấp xỉ sử dụng tiêu chuẩn đánh giá đã đề cập (xác suất điều kiện P(A0/A1&...&Ak) ). Nghiên cứu này gắn liền với các phương pháp tìm kiếm áp dụng cho giả thuyết xác suất có độ phức tạp cao [Russel and norvig, 1995, pp 546-552]. Sau khi tìm được một vài luật xác suất: ●1●2●...●k-1

một luật mới có thể được tìm ra bằng cách thêm vào điều kiện IF một biểu thức logic mới dạng nguyên tử: (●(a)●●(b))●.

Đối với các giả thuyết, các kiểm định Fisher được sử dụng qua các bước để kiểm thử thống kê nhằm đạt được các luật xác suất. Các điều kiện :(●(a)●●(b))● được loại dần nếu sau khi kiểm tra nó không ảnh hưởng đến xác xuất điều kiện, cứ như vậy đến khi ta thu được kết quả cuối cùng là một giả thuyết rút gọn đã được kiểm thử - luật xác suất.

3.5.3 Quá trình học ( learning)

Bốn giả thuyết nêu trên được kiểm thử qua tập huấn luyện TR = {a1,...,a tr}, với các cặp a, b được chọn một cách ngẫu nhiên qua một hệ thống khai phá, với các giả thuyết xác suất sử dụng các cặp đối tượng từ TR. Kết quả của quá trình học là một tập luật và mỗi luật trong nó được diễn tả bằng xác suất điều kiện trong TR. Sử dụng tập CT để kiểm kiểm thử một luật có ổn định hay không.

Ba ví dụ dưới đây đều có xác suất điều kiện rất cao khi huấn luyện và kiểm thử qua các tập TR và CT:

- (wd(a) =wd(b) =<2,3,4,5,1>)& (●13(a)●●13(b)) & (●15(a)>15(b)) & (●234(a)●●234(b))&(●245(a)●●245(b))●(target(a5)

)●target(b5)): Tần suất trong TR là 0.6385, trong CT là 0.7609. Điều này nếu diễn giải theo ngôn ngữ tài

chính: giá chứng khoán sẽ giảm nhiều hơn từ thứ 3 đến thứ hai của thời điểm hiện tại ( nghiên cứu) so với 5 ngày trước đây với xác xuất là 0.7.

- (wd(a) =wd(b) =<2,3,4,5,1>)& (●24(a)●●24(b)) & (●145(a)●●145(b)) & (●234(a)>●234(b)) &(●235(a)●●235(b)) ●●●●●●●●●●●●●●●●●● (target(a5))● target(b5)), có tần suất trong TR là 0.63, và trong CT là 0.66.

- (wd(a) =wd(b) =<2,3,4,5,1>)& (●25(a)●●25(b)) & (●45(a)>●45(b)) & (●124(a)>●124(b))●(target(a5))●target(b5

)).

Qua tính toán như vậy tìm được 134 luật. Quá trình sinh luật kết thúc khi không tìm được luật nào mới có xác suất điều kiện cao hơn mà vẫn có ý nghĩa thống kê. Tuy nhiên cần lưu ý rằng quá trình tìm kiếm luật dừng lại không phải là do các nguyên nhân nội tại của nó mà còn có nhiều nguyên nhân khác như dung lượng dữ liệu sẵn có, mức độ chấp thuận được của xác suất . Tính toán trong thực tế thường kết thúc sớm hơn do ngưỡng về thời gian hoặc đã đặt tới mức xác suất chấp nhận được. Mức trung bình chấp nhận được của xác suất điều kiện trên tập huấn luyện TR là 0.5813, còn trên tệp kiểm thử là: 0.5759. Sai khác ở đây là: 0.0054=0.5813-0.5759 tương đương 0.54%. Mặc dù vậy sai khác này có sự biến động nhưng không vượt quá 3%. Các luật có sự sai khác lớn cho chúng ta thông tin thể hiện luật đó trở nên mạnh hơn hoặc yếu đi, thể hiện sự biến động lớn của thị trường, sự thay đổi chiến lược kinh doanh, hành vi của các nhà đầu tư chứng khoán khi đó các luật này được biết đến và được sử dụng để nâng cao hiệu quả thị trường. Có ba dạng quy luật:

(1) Quy luật/Luật có kết quả tương tự trên dữ liệu huấn luyện và kiểm thử, có sai khác về tần suất là ●3% ( 40%, 53 luật) với trung bình 0.14% giảm về tần suất.

(2)Quy luật/luật tăng tần suất trên dữ liệu thử nghiệm (28%, 38 luật) mức tăng trung bình là 5.8%

(3) Quy luật/luật giảm tần suất trên dữ liệu thử nghiệm (32%, 43 luật) mức giảm trung bình là 6.6%.

Như vậy các luật có thể không làm việc với mẫu do nhiễu, đây cũng là một vấn đề bình thường trong các phương pháp dự báo. sử dụng MMDR có thể giảm thiểu được nhiễu nhiều hơn so với các phương pháp khác do nếu phát hiện được nhiễu thì có thể kết hợp ngay trong các luật để giảm nhiễu này.

Thông thường lý do các luật không làm việc với mẫu là do phương pháp áp dụng quá nhạy cảm với giả thiết khởi tạo. MMDR khắc phục được các hạn chế này do tối thiểu các giả thiết đầu vào.

3.5.4 Dự báo ( forecast).

Từ tập luật thu được, chúng ta có thể thực hiện việc dự báo, tuy nhiên việc dự báo chỉ được thực hiện khi ta xác định rõ được giá trị (target(a5)) hoặc target(b5) trong (target(a5))●target(b5)). Nếu ta lấy cả hai đối tượng a và b đều từ CT khi đó dự báo a là không thể vì cả hai giá trị mục tiêu đều không được xác định.

Dự báo giá trị mục tiêu cho đối tượng a thuộc CT thông qua việc áp dụng các luật từ tập luật thu được xác định hai tập hợp đối với cặp đối tương: {<a,b> ●b● TR} và {<b,a> ●b● TR}. trước tiên với mỗi luật trong các tập này xác định một tập các cận trên: Up1(a5

)= {target(b5)}, nếu ●0=1, và tập các cận dưới Low1(a5

)={target(b5)}, nếu ●0 = 0 cho giá trị chưa biết: target (a5). Cũng tương tự tại bước thứ 2 xác định: Up2(a5

), Low2(a5). Toàn bộ các tập hợp cận trên, dưới cho target (a5) thu được thông qua sự kết hợp những giới hạn này với rất cả các luật cụ thể.

Tiếp theo sử dụng thống kê thứ tự vào mức tin cậy chấp thuận. Tính toán số p-quintile ( p=0.55,0.60,0.65,0.70,0.75,0.80,0.85,0.90) cho cận trên của target (a5) và (1-p)-quintile cho cận dưới của target (a5). Với mỗi giá

trị của p-quintile ta có cận trên Upp(a5) của target (a5

) được tính từ Up1(a5) ,

Up2(a5), và cận dưới Lowp(a5) được tính từ Low1(a5) , Low2(a5).

Gán Lowp(a5) = -cho các giá trị p lớn (0.80,0.85,0.90) nếu (1-p)- quintile nhỏ hơn giá trị nhỏ nhất của cận dưới target (a5) , và gán Upp(a5) = +cho các giá trị p lớn (0.80,0.85,0.90) nếu p-quintile lớn hơn giá trị lớn nhất của cận trên target (a5).

Sẽ không có dự báo nếu cận dưới Lowp(a5) lớn hơn cận trên Upp(a5).

Điều này có thể xảy ra với giá trị p nhỏ ( 0.55,0.60,0.65). Lưu ý là khoảng xác định của p [Lowp(a5), Upp(a5)] cho một giá trị chưa biết target (a5) với p tăng tức là: Lowp1(a5)Lowp2(a5)Upp1(a5)Upp2(a5 nếu p1>p2. Tất cả các khoảng xác định này là kết quả của dự báo.

3.5.5 Các kết quả thu được

Các tính toán dự báo cho mỗi p-quintile và cho các đối tượng từ tập CT cho kết quả thể hiện trong bảng sau:

Bảng 3.2 bảng kết quả đánh giá dự báo trên tập các luật tìm được Trong đó các tham số: Trong đó các tham số:

- Rejections: Tỷ lệ phần trăm về từ chối dự báo - Errors: Tỷ lệ phần trăm về lỗi dự báo (Errors)

- ML (mean length): Độ dài trung bình khoảng xác định p cho tất cả các dự báo.

- MLR: Độ dài trung bình khoảng xác định p cho các dự báo đúng.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế - tài chính (Trang 76 - 85)

Tải bản đầy đủ (PDF)

(90 trang)