3.2.2.1 Chức năng Fuzzy Database:
62
Hình 3.4 : Giao diện chính chương trình
Khi chức năng này được kích hoạt chương trình sẽ đọc dữ liệu đầu vào là file dulieuchitiet.xls , thực hiện mờ hóa cơ sở dữ liệu bằng hàm thuộc hình thang
Hình 3.5 Mờ hóa database phần VnIndex
3.2.2.2 Chức năng Find Association Rules
Thực hiện tìm luật kết hợp mờ trên cơ sở dữ liệu đã được mờ hoá . Tại đây người dùng sẽ nhập vào hai thông số đặc trưng là độ hỗ trợ ( support) và độ tin cậy ( confidence ), sau đó chương trình sẽ tiến hành tìm kiếm các luật thỏa mãn trong cơ sơ dữ liệu đã được mờ hóa và hiện thi ra màn hình những luật thỏa mãn đó: Ví dụ : nhập Confidence= 0.2 (20%) và Support = 0.1 (10%) ta thu được:
63
Hình 3.6 a: Kết quả tìm luật Với độ hỗ trợ và tin cậy của từng luật tìm thấy được:
64
3.2.2.3 Chức năng calculate Index
Thực hiện tính chỉ số theo các loại chứng khoán mà người dùng đã chọn. Chức năng này dành cho người sử dụng chỉ quan tâm đến một số loại cố phiếu nhất
định. Để thực hiện chức năng này người sử dụng bấm vào nút lệnh Custom Index sẽ xuất hiện giao diện như sau:
Hình 3.7 Giao diện chức năng tính customer index
Tiếp theo người sử dụng chọn Custom và chọn các loại cổ phiếu quan tâm như:
65
Hình 3.8 Người dùng lựa chọn loại chứng khoán quan tâm
Sau đó click vào nút calculate Index để tính chỉ số Custom-Index theo công thức (3.1). Sau đó mờ hóa cơ sở dữ liệu bằng cách click vào Fuzzy Database sẽ được:
66
Hình 3.9 : Mờ hóa database theo Customer index
Cuối cùng, người sử dụng nhập vào độ tin cậy ( confidence ) và độ hỗ trợ ( support ) rồi click chức năng Find Association Rules, chương trình sẽ liệt kê những luận thỏa mãn cho người dùng như hình sau :
67
Hình 3.10 : Kết quả tìm luật của Custom Index
3.3 Cài đặt
Chương trình được cài đặt bằng ngôn ngữ lập trình Java verson 1.5. Sau khi mã chương trình được dich ra các class (byte code) thì có thể chạy trên tất cả các máy chỉ cần có cài đặt bộ JDK1.5. Để chạy chương trình tạo một tệp tin bó ( *.bat ) và chỉ cần chạy tệp tin bó này thì chương trình sẽđược chạy.
Chương trình đã cài đặt chạy với 246 bản ghi. Sau khi mờ hóa người dùng muốn tìm kiếm luật cho phần chỉ số chứng khoán chung ( VnIndex) thì bắt buộc phải nhập vào độ hỗ trợ ( support ) và độ tin cậy ( confidence ). Giả sử với support=0.1 và confidence=0.1 thì chương trình sẽ tìm kiếm được các luật:
68
Luật độ hỗ trợ độ tin cậy
Tam li thi truong tot => VnIndex giam trung binh 15% 16% Nuoc ngoai mua it => VnIndex giam trung binh 14% 18% Mua trai phieu nhieu => VnIndex giam nhe 11% 17% Gia tri giao dich thap => VnIndex giam nhe 12% 15% Nuoc ngoai mua it => VnIndex giam nhe 15% 20% Nuoc ngoai ban it => VnIndex giam nhe 14% 21% Tam li thi truong tot => VnIndex giam nhe 17% 19% Nuoc ngoai ban it va Tam li thi truong tot => VnIndex tang manh 10% 17%
Nuoc ngoai mua it va Tam li thi truong tot => VnIndex giam trung binh
12% 18%
Với độ hỗ trợ (support )=0.4 và độ tin cậy ( confidence )= 0.1 ta tìm được các luật :
Luật độ hỗ trợ độ tin cậy
Nuoc ngoai mua trung binh => VnIndex tang manh 10% 40% Nuoc ngoai mua trung binh va Tam li thi truong tot => VnIndex tang manh
10% 45%
Khi người dùng quan tâm đến nhóm cổ phiếu về : Công nghiệp ( Industry ) hoặc Tài chính ( Finance ) hoặc về sản xuất tiêu dùng ( Consumer goods) hoặc do người dùng tùy chọn. Khi ấy người dùng sẽ sử dụng chức năng 3.2.2.3 và tính toán chỉ số chứng khoán theo công thức 3.1, sau khi mờ hóa lại cơ sở dữ liệu với 2097 bản ghi, người dùng sẽ nhập vào độ hỗ trợ ( suppport ) và độ tin cậy ( confidence)
để tìm kiếm luật. Giả sử người dùng quan tâm đến cổ phiếu BBC của công ty cổ
69
Ngày Mã CK Số lCP ượng Giá cửđóng a SL giao dịch TGiao dổng Giá trịch ị Giá trMua ịĐTNN ĐTNN BánGiá trị
28/12/2007 BBC 10770782 100 6890 683195 0 1000 27/12/2007 BBC 10770782 100 4450 445000 0 0 26/12/2007 BBC 10770782 100 2160 213450 0 109000 25/12/2007 BBC 10770782 100 1810 180675 0 26000 24/12/2007 BBC 10770782 100 1220 122000 0 55000 21/12/2007 BBC 10770782 100 5520 547680 0 40000 20/12/2007 BBC 10770782 100 5050 510100 0 0 19/12/2007 BBC 10770782 100 16500 1649890 0 840000 18/12/2007 BBC 10770782 100 2900 289500 0 130000 17/12/2007 BBC 10770782 100 6320 635720 214120 235000 14/12/2007 BBC 10770782 100 8050 805000 0 485000 13/12/2007 BBC 10770782 101 4770 483970 0 0 12/12/2007 BBC 10770782 102 13700 1376005 0 131600 11/12/2007 BBC 10770782 103 10740 1093260 0 0 10/12/2007 BBC 10770782 101 8720 888460 8160 204000 07/12/2007 BBC 10770782 103 9520 975240 0 102000 06/12/2007 BBC 10770782 105 10650 1094460 0 0 05/12/2007 BBC 10770782 104 11220 1171680 0 0 04/12/2007 BBC 10770782 107 8140 870980 321000 0 03/12/2007 BBC 10770782 107 13940 1464170 0 32100
Bảng 3.3 : Giao dịch của cổ phiếu BBC trong tháng 12 với độ hỗ trợ =0.1 và độ tin cậy =0.1 ta sẽ tìm thấy các luật :
Luật độ hỗ trợ độ tin cậy
Tam li thi truong tot => CustomIndex giam nhe 32% 33% Nuoc ngoai ban it => CustomIndex giam nhe 11% 31% Nuoc ngoai ban it va Tam li thi truong tot => CustomIndex giam nhe 11% 31%
Tam li thi truong tot => CustomIndex giam nhe 32% 33% Nuoc ngoai ban trung binh => CustomIndex giam nhe 11% 67%
70
Nuoc ngoai ban trung binh va Tam li thi truong tot => CustomIndex giam
nhe 11% 67%
Tam li thi truong tot => CustomIndex tang nhe 11% 11% Cùng với đồ thị thể hiện sử thay đổi chỉ số chứng khoán của BBC:
Hình 3.11 : Đồ thị của cổ phiếu BBC trong tháng 12
71
KẾT LUẬN VÀ KIẾN NGHỊ Những vấn đềđã được giải quyết trong luận văn
Trong luận văn này đã giới thiệu phương pháp tiếp cận với luật kết hợp mờ
trong khai phá dữ liệu. Bài toán tìm luật kết hợp mờ được ứng dụng trong nhiều lĩnh vực khác nhau. Ở chương 2 và 3 của luận văn đã thực hiện cài đặt thuật toán tìm luật kết hợp mờ và áp dụng vào bài toán chứng khoán. Chương trình đã đưa ra
được các luật cùng với độ hỗ trợ và độ tin cậy tương ứng.
Hướng phát triển của luận văn:
Một trong những công việc quan trọng của khai phá luật kết hợp là tìm tất cả
các tập phổ biến trong cơ sở dữ liệu, nên trong thời gian tới luận văn sẽ mở rộng nghiên cứu theo hướng: áp dụng thuật toán song song cho bài toán khai phá luật kết hợp mờ.
Thuật toán song song chia đều cơ sở dữ liệu và tập ứng viên cho các bộ vi xử lý, và tập các ứng viên sau khi chia cho từng bộ xử lý là hoàn toàn độc lập với nhau, mục đích là cải thiện thời gian mờ hoá dữ liệu vàchi phí tìm luật kết hợp mờ. Tiếp tục hoàn thiện chương trình để có thểứng dụng vào trong thực tế
72
Tài liệu tham khảo :
Tiếng Việt:
1. Hệ mờ, Mạng Nơron và Ứng dụng Chủ biên: Bùi Công Cường, Nguyễn Doãn Phước , Nhà xuất bản khoa học và kỹ thuật
2. PGS.TS Nguyễn Thanh Thuỷ, Khai phá dữ liệu - kỹ thuật và ứng dụng, Hà Nội, 2001.
3. PGS.TS Đỗ Phúc (2006), Giáo trình Khai thác Dữ liệu, Trường Đại học Công nghệ thông tin TP. Hồ Chí Minh, Đại học Quốc gia TP. Hồ Chí Minh. 4. Tổng quan về khai phá dữ liệu – Tác giả Nguyến Đức Cường kỷ yếu hội
nghị khoa học và Công nghệ lần thứ 9
5. Nghiên cứu tính ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch ( Research on the Application of Association rules in transaction
Database ) – Trương Ngọc Châu – Phan Văn Dũng Trường Đại học Bách khoa Đà Nẵng.
Tiếng Anh :
1. Data mining Overview By Dr. Michael Gilman, CEO, Data Mining Technologies Inc
2. Data mining concepts and technicques by Jiawei Han and Micheline Kamber – Simon Fraser University
3. Examples of the use of data mining in financial applications By Stephen Langdell, Phd, Numberical Algorithms Group
4. Mining the Stock Market : Which Measure is Best?
By Martin Gavrilov, Dragomir Anguelov, Piotr Indyk, Rajeev Motwani Department if Coputer Science Stanford University