D trên cơ sở dựa vào việc cải tiến và phát triển thuật toán CHARM.
4.1.3.1.Chỉ định mô hình
4.2.1. Dữ liệu phục vụ xây dựng mô hình
Dữ liệu phục vụ việc phát hiện luật kết hợp chứng khoán và xây dựng mô hình dự báo được thu thập theo các phiên giao dịch trên hai sàn chứng khoán Hà Nội và Thành phố Hồ Chí Minh kể từ ngày 2/6/2008 đến ngày 31/11/2009 bao gồm các thông tin sau: ngày giao dịch, giá trị của hai chỉ số HNX, HOSE và giá của các cổ
phiếu Blue chip.
Các luật kết hợp phục vụ việc xây dựng mô hình dự báo chỉ số chứng khoán
được phát hiện từ CSDL tác vụ có mẫu âm. Tập dữ liệu này được xây dựng như
sau: xuất phát từ tập dữ liệu về biến động của các chỉ số chứng khoán và biến động giá của các mã cổ phiếu blue chip, nếu chỉ số chứng khoán hoặc giá của một cổ
phiếu blue chip nào đó tăng giá so với phiên trước đó thì ta thêm chữ số ”1” vào bên phải của mã chỉ số chứng khoán hay mã cổ phiếu đó; thêm chữ số ”2 ” nếu chỉ số
chứng khoán hoặc giá cổ phiếu giảm so với phiên trước.
Ví dụ: ACB là mã cổ phiếu của Ngân hàng Thương mại Á châu, ACB1 là ký hiệu mã cổ phiếu này tăng giá so với phiên trước đó, ACB2 là ký hiệu mã cổ phiếu này giảm giá và nó chính là mục dữ liệu mẫu âm.
Theo cách này ta nhận được CSDL tác vụ có mẫu âm, một phần của nó được thể hiện ở dạng như trong hình 4.1.
Hình 4.1: Tập dữ liệu về chứng khoán
Nhận xét: Bài toán phát hiện luật kết hợp có độ phức tạp hàm mũ đối với số
các mục dữ liệu trong CSDL nên về mặt lý thuyết ta khó có thể phát hiện được các luật này khi số mục dữ liệu là khá lớn. Tuy nhiên trong thực tiễn vẫn phát hiện được các luật kết hợp ngay cả trong trường hợp số các mục dữ liệu là rất lớn. Nguyên nhân của hiện tượng này là dữ liệu trong CSDL tác vụ nói chung là thưa. Tình trạng thưa có thể sẽ mất đi nếu CSDL còn chứa nhiều mục dữ liệu âm.
104
Như đã biết việc xây dựng thuật toán hiệu quả, khả thi để phát hiện luật kết hợp mẫu âm cho đến nay vẫn là vấn đề mở tuy rằng đã có một số kết quả nghiên cứu quan trọng về cơ sở lý thuyết của các luật này [52]. Với nhận xét rằng bằng việc chuyển đổi biểu diễn CSDL tác vụ theo cách vừa được giới thiệu ở trên, ta có thểđưa bài toán phát hiện luật kết hợp mẫu âm về bài toán phát hiện luật kết hợp từ
CSDL tác vụ thông thường (tức là chỉ gồm mục dữ liệu mẫu dương).
Trong trường hợp bài toán dự báo chỉ số chứng khoán Việt Nam do số lượng các cổ phiếu blue chip và các chỉ số chứng khoán là không lớn (31 cổ phiếu blue chip, 2 chỉ số chứng khoán) nên có thể biểu diễn CSDL tác vụ mẫu âm theo cách ở
trên và khi đó nhiều luật kết hợp phát hiện được từ CSDL này thực chất là luật kết hợp mẫu âm. Nói cách khác trong nhiều trường hợp ta có thể phát hiện luật kết hợp mẫu âm theo cách phát hiện luật kết hợp từ CSDL tác vụ thông thường.