NGHIÊN CỨU KHOA HỌC ỨNG DỤNG LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU TRỢ GIÚP NHÀ ĐẦU TƯ RA QUYẾT ĐỊNH ĐẦU TƯ TRONG THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM ThS Huỳnh Đức Thuận Khoa Công nghệ thông tin-Ðại học Ðơng Á TĨM TẮT Hiện biến động thị trường chứng khốn Việt Nam gây nhiều khó khăn cho nhà đầu tư chưa nắm quy luật Nhà đầu tư phải đối mặt với lượng lớn thông tin chứa đựng dạng liệu phức tạp Khai phá liệu giúp nhà đầu tư xử lý lượng lớn liệu để tìm thơng tin hữu ích trợ giúp họ đưa định đắn đầu tư, luật kết hợp giúp giải vấn đề Từ khóa: thị trường chứng khốn, khai phá liệu, thơng tin, liệu, nhà đầu tư, định, đầu tư, luật kết hợp ABSTRACT There are a lot of unruly variation in Vietnam stock exchange, exerting investor’s influence in bad trend because investors didn’t master the rules They face huge information inclulieuejcomplicated data Data mining help investor to handle this huge information to find out the usefull things, so that they can make the decision in the right way in the investment Association solve it Keywords: stock exchange, data mining, information, data, investor, decision, invest, association rule Đặt vấn đề Khai phá liệu (KPDL) sở liệu (CSDL) xu hướng quan trọng cơng nghệ thơng tin (CNTT) giới KPDL có khả ứng dụng vào nhiều lớp toán thực tế khác Lĩnh vực tài nói chung thị trường chứng khốn (TTCK) nói riêng lưu trữ khối lượng liệu khổng lồ, bao gồm thông tin ĐẠI HỌC ĐÔNG Á 03-2011 31 NGHIÊN CỨU KHOA HỌC mã cổ phiếu, thông tin giao dịch khối lượng giao dịch rịng, thơng tin liệu khách hàng… Ứng dụng sinh luật kết hợp từ KPDL để phát quy luật ẩn chứa khối lượng liệu khổng lồ mang lại cho nhà đầu tư nhiều hội để chọn lựa loại cổ phiếu cần đầu tư, có hình thức quy mô giao dịch phù hợp nhằm đạt giá trị gia tăng hiệu Tuy nhiên, bối cảnh việc đầu tư vào TTCK Việt Nam có nhiều khó khăn: lượng thơng tin nhiều khơng hợp nhất, chuyển biến khó đoán trước diễn biến TTCK, phần mềm trợ giúp chưa phù hợp với môi trường TTCK Việt Nam… Đó khó khăn cần trợ giúp cho nhà đầu tư phân tích hoạt động đầu tư phù hợp TTCK mà KPDL mang lại Thực trạng thị trường chứng khoán Việt nam TTCK Việt Nam đời 10 năm có ảnh hưởng to lớn đến kinh tế quốc gia Việc nghiên cứu xây dựng hệ thống phân tích dự đốn (nhiệm vụ tư vấn, hỗ trợ định) cho TTCK quan trọng cấp thiết cho nhà đầu tư nhà hoạch định sách vĩ mơ TTCK Việt Nam gồm hai sàn giao dịch: HOSE (tại TP.HCM) HASTC (tại HN) Tại TTCK Việt Nam rủi ro thường gặp nhà đầu tư rủi ro tính khoản thấp, rủi ro từ thông tin, rủi ro từ quy định chất lượng dịch vụ sàn giao dịch, rủi ro từ biến động thị trường Hiện nhà đầu tư sử dụng phương pháp phân tích chủ yếu dựa vào bốn cách chính: dựa vào phân tích kỹ thuật để đưa tư vấn, dựa vào phân tích sở để đưa tư vấn, dựa vào phương pháp dự báo chuỗi thời gian khứ dựa vào phương pháp máy học Tuy nhiên tháng năm 2011 biến động thị trường chưa nằm tính tốn nhà đầu tư, rủi ro tồn đọng Luật kết hợp khai phá liệu Khi lưu trữ liệu khổng lồ thấy chắn chúng phải chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Từ thực tế làm phát triển khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu Mục tiêu KPDL lấy thơng tin hữu ích từ lượng liệu khổng 32 ĐẠI HỌC ĐÔNG Á 03-2011 NGHIÊN CỨU KHOA HỌC lồ Các bước q trình KPDL bao gồm: -Gom liệu (Gathering): tập hợp liệu bước trình KPDL Đây bước khai thác CSDL, kho liệu chí liệu từ nguồn ứng dụng Web -Trích lọc liệu (Selection): giai đoạn liệu lựa chọn phân chia theo số tiêu chuẩn đó, ví dụ chọn tất người có tuổi đời từ hai lăm đến ba lăm có trình độ đại học -Làm sạch, tiền xử lý chuẩn bị trước liệu (Cleansing, Pre-processing and Preparation): giai đoạn thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng trình KPDL Một số lỗi thường mắc phải gom liệu tính khơng đủ chặt chẽ, logic Vì vậy, liệu thường chứa giá trị vơ nghĩa khơng có khả kết nối liệu, chẳng hạn tuổi = sáu trăm bảy mươi ba Giai đoạn tiến hành xử lý dạng liệu không chặt chẽ nói Những liệu dạng xem thơng tin dư thừa, khơng có giá trị Bởi vậy, trình quan trọng liệu không “làm - tiền xử lý - chuẩn bị trước” gây nên kết sai lệch nghiêm trọng -Chuyển đổi liệu (Transformation): giai đoạn chuyển đổi liệu, liệu đưa sử dụng điều khiển việc tổ chức lại Dữ liệu chuyển đổi phù hợp với mục đích khai thác -Phát trích mẫu liệu (Pattern Extraction and Discovery): bước mang tính tư KPDL Ở giai đoạn nhiều thuật toán khác sử dụng để trích mẫu từ liệu Thuật toán thường dùng nguyên tắc phân loại, ngun tắc kết hợp mơ hình liệu tuần tự, v.v -Đánh giá kết mẫu (Evaluation of Result): giai đoạn cuối trình KPDL Ở giai đoạn này, mẫu liệu chiết xuất phần mềm KPDL Không phải mẫu liệu hữu ích, đơi cịn bị sai lệch Vì vậy, cần phải ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức cần chiết xuất Đây q trình mang tính định tính với mục đích xác định lĩnh vực yêu cầu phát tri thức xây dựng toán tổng kết Những nhiệm vụ khai phá liệu là: phân cụm, phân loại, phân nhóm, phân lớp; khai phá luật kết hợp; lập mơ hình dự báo; phân tích đối tượng ngồi cuộc; phân tích tiến hóa Các tồn cần phải giải KPDL lượng liệu lớn; kích thước lớn; liệu ĐẠI HỌC ĐÔNG Á 03-2011 33 NGHIÊN CỨU KHOA HỌC động; trường liệu không phù hợp; giá trị bị thiếu; trường liệu bị thiếu; phù hợp; khả biểu đạt mẫu; tương tác với người sử dụng tri thức sẵn có Một hướng tiếp cận hiệu sử dụng luật kết hợp (association rules), dạng luật biểu diễn tri thức dạng đơn giản Phương pháp nhằm phát luật kết hợp thành phần liệu CSDL Mẫu đầu giải thuật KPDL tập luật kết hợp Luật kết hợp dạng luật đơn giản lại mang nhiều ý nghĩa Thông tin mà dạng luật đem lại đáng kể hỗ trợ không nhỏ trình định Tìm kiếm luật kết hợp quý mang nhiều thông tin từ CSDL tác nghiệp hướng tiếp cận lĩnh vực khai thác liệu Lấy I={I1, I2, , Im} tập hợp m tính chất riêng biệt Giả sử D CSDL, với ghi chứa tập T tính chất (có thể coi T tập I), ghi có số riêng Một luật kết hợp mệnh đề kéo theo có dạng X => Y, X, Y tập I, thỏa mãn điều kiện: X ∩ Y = ∅ Các tập hợp X Y gọi tập mục (itemset) Bài toán luật kết hợp -Khái niệm: Cho tập I = {I1, I2, , Im} tập m mục, giao dịch T định nghĩa tập khoản mục I (T ⊆ I) Gọi D CSDL n giao dịch giao dịch đánh nhãn với định danh Một giao dịch T∈D hỗ trợ tập X ⊆ I chứa tất item X Bài toán 1: Tìm tất tập mục mà có độ hỗ trợ lớn độ hỗ trợ tối thiểu người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu gọi tập mục phổ biến Bài toán 2: Dùng tập mục phổ biến để sinh luật mong muốn -Quy trình khai thác luật kết hợp Bước một: Tìm tất tập phổ biến (theo ngưỡng minsup) Bước hai: Tạo luật từ tập phổ biến Đối với tập phổ biến S, tạo tất tập khác rỗng S Đối với tập khác rỗng A S luật A => (S - A) luật kết hợp cần tìm nếu: conf (A => (S - A)) = supp(S) / supp(A) ≥ minconf Một số tính chất liên quan đến hạng mục phổ biến Với tập mục phổ biến, có tính chất sau: Tính chất 1: (Độ hỗ trợ tập con): Với A B tập mục, A ⊆ B sup(A) ≥ sup(B) Điều rõ ràng tất giao tác D hỗ trợ B hỗ trợ A 34 ĐẠI HỌC ĐƠNG Á 03-2011 NGHIÊN CỨU KHOA HỌC Tính chất 2: Một tập chứa tập khơng phổ biến tập không phổ biến Nếu mục B khơng có độ hỗ trợ tối thiểu D nghĩa sup(B)< minsup tập A B khơng phải tập phổ biến support(B) ≤ support(A) < minsup (theo tính chất 1) Tính chất 3: Các tập tập phổ biến tập phổ biến Nếu mục B mục phổ biến D, nghĩa support(B) ≥ minsup tập A B tập phổ biến D support(A) ≥ support(B) > minsup Phát luật kết hợp hệ thông tin nhị phân -Độ hỗ trợ vectơ báo nhị phân : cho X1⊂ D, độ hỗ trợ vB(X1) biểu diễn supB(vB(X1)) định nghĩa: supB(vB(X1)) = {o ⊂ O| "d ∈ X1, c(o, d) = 1} Dễ thấy rằng: card(supB(vB(X1))) = card(rB(X1)) -Tính card(rB(S)) (lực lượng tập hợp): cho S = {s1, s2, … , sk} tập D Trong sj báo SB, j = ÷ k Mỗi sj tương ứng với vectơ báo nhị phân vB({sj}) Các yếu tố ρB(S) tính bằng: card(ρB(S)) = card(supB(vB{s1}) Q supB(vB{sk})) Các thuật tốn sinh luật kết hợp -Thuật toán AIS Thuật toán Agrwal đề nghị năm 1993 Thuật toán trọng khai phá luật kết hợp có dạng X → Y, với Y tập hợp bao gồm tính chất (tập hợp phần tử) Thuật tốn tìm cách xây dựng tập ứng cử viên cho tập mục phổ biến Với cách đánh số thứ tự từ điển cho tính chất, việc bổ sung phần tử cho tập ứng cử viên tránh trùng lặp, tiết kiệm tối đa thời gian tính tốn -Thuật toán SETM Thuật toán Houtsma đề nghị năm 1995 Thuật toán sử dụng kỹ thuật bổ sung phần tử (từ tập hợp phần tử) nhằm tìm kiếm tập hợp ứng cử viên Một cải tiến đáng kể Thuật toán đề nghị lưu lại ID giao dịch với tập hợp ứng cử viên Agrawal ra, Thuật tốn khơng khơng có phương án quản lý nhớ mà cịn giả định nhét tồn tập hợp ứng cử viên bước trước vào nhớ để bước sau tiện bề sử dụng -Thuật toán Apriori-Tid Thuật toán tỉa bớt tập ứng cử viên có tập khơng phổ biến trước tính độ hỗ trợ Thuật tốn Apriori tính tất tập ứng cử tập k lần duyệt ĐẠI HỌC ĐÔNG Á 03-2011 35 NGHIÊN CỨU KHOA HỌC CSDL Apriori dựa vào cấu trúc băm Tìm kiếm xuống cấu trúc ta chạm lá, ta tìm tập ứng cử viên có tiền tố chung bao gồm giao dịch Sau tập ứng cử tìm giao dịch ánh xạ trước Trong trường hợp tìm thấy biến đếm tăng lên -Thuật tốn Apriori mở rộng để sinh luật kết hợp Sau tập mục phổ biến từ tác vụ CSDL tìm thấy, sinh luật kết hợp mạnh, luật kết hợp mạnh (strong association rule) luật thoả mãn hai độ hỗ trợ cực tiểu độ tin cậy cực tiểu Điều thực việc sử dụng tính độ tin cậy luật, ta nhắc lại: độ tin cậy luật X → Y là: conf (X → Y) = P(Y/X) = sup(X∪Y)/sup(X), sup(X∪Y) độ hỗ trợ X∪Y sup(X) độ hỗ trợ X Có thể coi tỷ số tỷ số giữa: số tác vụ chứa X∪Y số tác vụ chứa X Dựa biểu thức tính tốn đó, luật kết hợp sinh sau: với tập mục phổ biến l, sinh tất tập không rỗng l, với tập không rỗng a l, ta có luật a → (l-a) với sup(l) ≥ minconf * Sup(a), minconf ngưỡng độ tin cậy cực tiểu Vì luật sinh từ tập mục phổ biến nên độ hỗ trợ luật thoả mãn, tức độ hỗ trợ luật sup(l) Ở ta sử dụng thuật toán Apriori-Tid Apriori mở rộng để sinh luật kết hợp phù hợp với liệu lớn TTCK, thuật tốn AIS SETM mang tính chất tham khảo chạy chậm khối lượng liệu lớn Phân tích ứng dụng luật kết hợp để khai phá Với số lượng giao dịch hàng ngày tăng, bình quân 80.650.490 lượt/ ngày CSDL giao dịch ngày tăng Với ngày thay đổi, loại cổ phiếu tăng thêm dòng CSDL, ngồi thơng tin khác tăng thêm dịng/1 ngày Lượng CSDL lần phân tích chia theo khoảng thời gian (1 tuần, tháng, tháng, tháng, 12 tháng, 24 tháng, 36 tháng) Tất CSDL hoàn toàn truy xuất Các liệu thu thập phân tích, định dạng chứa data warehouse, loại liệu sử dụng để khai phá Sau giai đoạn khai phá, ta sử dụng thuật toán Apriori để đưa mẫu phân tích dùng cho dự đốn Các liệu dự đoán bao gồm số cố phiếu ngày (ngày T+1, T+2 T+3), khả mua/bán/chuyển nhượng (gọi chung giao dịch) hàng ngày, dự đoán khả diễn cổ phiếu Kịch hệ thống chương trình 36 ĐẠI HỌC ĐÔNG Á 03-2011 NGHIÊN CỨU KHOA HỌC Bước một: nhà đầu tư lựa chọn ngày giao dịch (tương ứng có dịng giao dịch CSDL), cổ phiếu quan tâm bao gồm: VNE, HRC, MCV KLS Hệ thống phản hồi thông tin cổ phiếu biểu đồ kĩ thuật CSDL có dòng sau: Giao dịch T1: VNE, HRC, MCV; Giao dịch T2: HRC, MCV, KLS; Giao dịch T3: HRC; Giao dịch T4: VNE, HRC Bước hai: bước chạy thuật toán Nhà đầu tư lựa chọn mức độ tăng cổ phiếu tăng khá, độ hỗ trợ 40% Đầu tiên hệ thống quét tập 1-mục để tìm độ hỗ trợ tương ứng chúng: {VNE}: độ hỗ trợ = 2/4 = 50%; {HRC}: độ hỗ trợ = 4/4 = 100%; {MCV}: độ hỗ trợ = 2/4 = 50%; {KLS}: độ hỗ trợ = 1/4 = 25% Hệ thống loại cổ phiếu KLS có độ hỗ trợ 25% Khi danh mục tập mục 1-mục thỏa mãn tập mục phổ biến VNE, HRC MCV Hệ thống sinh tập 2-mục tính toán độ hỗ trợ tương ứng: {VNE, HRC}: độ hỗ trợ = 2/4 = 50%; {VNE, MCV}: độ hỗ trợ = 1/4 = 25%; {HRC, MCV}: độ hỗ trợ = 2/4=50% Hệ thống loại nhóm cổ phiếu {VNE, MCV} có độ hỗ trợ 25% Khi danh mục tập mục 2-mục thỏa mãn tập mục phổ biến {VNE, HRC} {HRC, MCV} Khi xét đến tập 3-mục {VNE, HRC, MCV} hệ thống tính tốn độ hỗ trợ đạt 25% nên loại cổ phiếu khoải tập mục phổ biến Vậy tập mục phổ biến có dịng CSDL: {VNE}: độ hỗ trợ = 2/4 = 50%; {HRC}:độ hỗ trợ = 4/4 = 100%; {MCV}: độ hỗ trợ = 2/4 = 50%; {VNE, HRC}: độ hỗ trợ = 2/4 = 50%; {HRC, MCV}: độ hỗ trợ = 2/4 = 50% Bước ba: nhà đầu tư nhập vào độ tin cậy 80%, hệ thống sinh luật kết hợp tương ứng với độ tin cậy (xem 80% độ tin cậy tối thiểu) -Luật 1: HRC → VNE: đạt độ tin cậy 100% -Luật 2: HRC → MCV: đạt độ tin cậy 100% Hai luật không thỏa mãn là: -Luật 1’: VNE → HRC: đạt độ tin cậy 50% -Luật 2’: MCV → HRC: đạt độ tin cậy 50% Như hệ thống hồn tất q trình phân tích sau tìm luật kết hợp diễn giải cho chúng Qua kịch bản, với yêu cầu người dùng độ hỗ trợ 40% độ tin cậy 80% hệ ĐẠI HỌC ĐÔNG Á 03-2011 37 NGHIÊN CỨU KHOA HỌC thống khuyên người dùng: số lượng mua cổ phiếu HRC tăng phải mua cổ phiếu VNE chịu ảnh hưởng luật kết hợp, tương tự cho cổ phiếu MCV Kết luận Khai phá tri thức bao gồm bước: hình thành, xác định định nghĩa tốn; thu thập tiền xử lý liệu; KPDL, rút tri thức; sử dụng tri thức phát nhằm trợ giúp cho việc định tư vấn giao dịch cổ phiếu Về thuật toán sinh luật kết hợp, ta xây dựng minh hoạ số thuật toán, luật kết hợp để phát tập mục phổ biến qui luật giao dịch cổ phiếu Hiện thuật toán cung cấp thực tốt nhiệm vụ Tuy nhiên thị trường chứng khoán diễn biến liên tục theo thời gian thực nên thuật toán phải đáp ứng thời gian thực Định hướng phát triển nghiên cứu sâu thuật tốn KPDL, tiếp tục hồn thiện mở rộng giải pháp để thỏa mãn yêu cầu Trong kĩ thuật chọn lựa để xử lý quan tâm nhiều (giống mờ hóa thơng tin) để loại bỏ liệu liên quan, xử lý lượng liệu quan tâm Ngồi qua q trình khảo sát sàn giao dịch chứng khoán Thăng Long nhận thấy nhà đầu tư có nhiều nhu cầu để có cách thức giao dịch thuật tiện Ngồi Chính phủ chuẩn bị đưa qui định cho phép giao dịch chứng khoán qua mạng Internet (vào cuối năm 2010) nên ứng dụng xây dựng nhiều hệ thống khác sử dụng rộng rãi (ứng dụng web, ứng dụng điện thoại di động, giải pháp SMS…)■ TÀI LIỆU THAM KHẢO [1] Trương Ngọc Châu, Phan Văn Dũng, “Nghiên cứu tính ứng dụng khai thác luật kết hợp CSDL giao dịch,” Đại học Bách Khoa, Đại học Đà Nẵng [2] Phan Huy Khánh, Cơng nghệ trí thức, Đại học Bách Khoa, Đại học Đà Nẵng [3] Nguyễn Trung Tuấn, Kỹ thuật phát tri thức KPDL, ứng dụng tốn dự báo từ thơng tin Kinh tế - xã hội, Tạp chí Bưu viễn thông, 2003 [4] R Agrawal, T Imielinski, and A Swami, Mining association rules between sets of items in large databases, In Proc of the ACM SIGMOD Conference on Management of Data, pages 207–216, 1993 [5] R Agrawal, R Srikant, Fast algorithms for mining association rules, The International Conference on Very Large Databases, pages 487–499, 1994 38 ĐẠI HỌC ĐÔNG Á 03-2011 ... thu? ?t toán sinh lu? ?t k? ?t hợp -Thu? ?t toán AIS Thu? ?t toán Agrwal đề nghị năm 1993 Thu? ?t toán trọng khai phá lu? ?t k? ?t hợp có dạng X → Y, với Y t? ??p hợp bao gồm t? ?nh ch? ?t (t? ??p hợp phần t? ??) Thu? ?t tốn... t? ?nh t? ??n -Thu? ?t tốn SETM Thu? ?t tốn Houtsma đề nghị năm 1995 Thu? ?t toán sử dụng kỹ thu? ?t bổ sung phần t? ?? (t? ?? t? ??p hợp phần t? ??) nhằm t? ?m kiếm t? ??p hợp ứng cử viên M? ?t cải tiến đáng kể Thu? ?t toán... danh M? ?t giao dịch T? ??D hỗ trợ t? ??p X ⊆ I chứa t? ? ?t item X Bài t? ??n 1: T? ?m t? ? ?t tập mục mà có độ hỗ trợ lớn độ hỗ trợ t? ??i thiểu người dùng xác định Các t? ??p mục thoả mãn độ hỗ trợ t? ??i thiểu gọi t? ??p mục