Dữ liệu phục vụ xây dựng mơ hình

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 103 - 104)

D trên cơ sở dựa vào việc cải tiến và phát triển thuật toán CHARM.

4.1.3.1.Chỉ định mơ hình

4.2.1. Dữ liệu phục vụ xây dựng mơ hình

Dữ liệu phục vụ việc phát hiện luật kết hợp chứng khốn và xây dựng mơ hình dự báo được thu thập theo các phiên giao dịch trên hai sàn chứng khoán Hà Nội và Thành phố Hồ Chí Minh kể từ ngày 2/6/2008 đến ngày 31/11/2009 bao gồm các thông tin sau: ngày giao dịch, giá trị của hai chỉ số HNX, HOSE và giá của các cổ phiếu Blue chip.

Các luật kết hợp phục vụ việc xây dựng mơ hình dự báo chỉ số chứng khoán

được phát hiện từ CSDL tác vụ có mẫu âm. Tập dữ liệu này được xây dựng như

sau: xuất phát từ tập dữ liệu về biến động của các chỉ số chứng khoán và biến động giá của các mã cổ phiếu blue chip, nếu chỉ số chứng khoán hoặc giá của một cổ phiếu blue chip nào đó tăng giá so với phiên trước đó thì ta thêm chữ số ”1” vào bên phải của mã chỉ số chứng khoán hay mã cổ phiếu đó; thêm chữ số ”2 ” nếu chỉ số chứng khoán hoặc giá cổ phiếu giảm so với phiên trước.

Ví dụ: ACB là mã cổ phiếu của Ngân hàng Thương mại Á châu, ACB1 là ký hiệu mã cổ phiếu này tăng giá so với phiên trước đó, ACB2 là ký hiệu mã cổ phiếu này giảm giá và nó chính là mục dữ liệu mẫu âm.

Theo cách này ta nhận được CSDL tác vụ có mẫu âm, một phần của nó được thể hiện ở dạng như trong hình 4.1.

Hình 4.1: Tập dữ liệu về chứng khoán

Nhận xét: Bài toán phát hiện luật kết hợp có độ phức tạp hàm mũ đối với số

các mục dữ liệu trong CSDL nên về mặt lý thuyết ta khó có thể phát hiện được các luật này khi số mục dữ liệu là khá lớn. Tuy nhiên trong thực tiễn vẫn phát hiện được các luật kết hợp ngay cả trong trường hợp số các mục dữ liệu là rất lớn. Nguyên nhân của hiện tượng này là dữ liệu trong CSDL tác vụ nói chung là thưa. Tình trạng thưa có thể sẽ mất đi nếu CSDL còn chứa nhiều mục dữ liệu âm.

104

Như đã biết việc xây dựng thuật toán hiệu quả, khả thi để phát hiện luật kết

hợp mẫu âm cho đến nay vẫn là vấn đề mở tuy rằng đã có một số kết quả nghiên

cứu quan trọng về cơ sở lý thuyết của các luật này [52]. Với nhận xét rằng bằng việc chuyển đổi biểu diễn CSDL tác vụ theo cách vừa được giới thiệu ở trên, ta có thể đưa bài toán phát hiện luật kết hợp mẫu âm về bài toán phát hiện luật kết hợp từ CSDL tác vụ thông thường (tức là chỉ gồm mục dữ liệu mẫu dương).

Trong trường hợp bài toán dự báo chỉ số chứng khoán Việt Nam do số lượng các cổ phiếu blue chip và các chỉ số chứng khốn là khơng lớn (31 cổ phiếu blue chip, 2 chỉ số chứng khốn) nên có thể biểu diễn CSDL tác vụ mẫu âm theo cách ở

trên và khi đó nhiều luật kết hợp phát hiện được từ CSDL này thực chất là luật kết hợp mẫu âm. Nói cách khác trong nhiều trường hợp ta có thể phát hiện luật kết hợp mẫu âm theo cách phát hiện luật kết hợp từ CSDL tác vụ thông thường.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 103 - 104)

Tải bản đầy đủ (PDF)

(133 trang)