Khám phá tri thức và Khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực như: Thống kê, Trí tuệ nhân tạo, Hệ chuyên gia, CSDL, thuật toán, tính toán song song, CSDL, ... Đặc biệt Khám phá tri thức và Khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật, ... Các CSDL lớn và các công cụ phân tích trực tuyến (OLAP) cũng liên quan rất chặt chẽ với công cụ Khai phá dữ liệu và Khám phá tri thức.
Một hệ thống Khai phá dữ liệu điển hình bao gồm các phương thức, thuật toán, kỹ thuật từ nhiều lĩnh vực khác nhau, điểm chung giữa các hệ thống này là chúng đều trích rút từ các kho dữ liệu có kích thước rất lớn.
Khai phá dữ liệu - Khám phá tri thức được sử dụng rất nhiều trong các lĩnh vực khoa học, kinh doanh, ..., đặc biệt trong các ngành có CSDL lớn, phức tạp, chứa đựng nhiều tri thức như:
- Bảo hiểm, tài chính và TTCK: ở đây Khai phá dữ liệu có nhiệm vụ phân tích tình hình tài chính và dự báo giá, chỉ số của các loại cổ phiếu trong TTCK. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện các giao dịch gian lận, ...
- Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định: Dựa vào dữ liệu sẵn có, phân tích dự liệu để đưa ra những quyết định đúng lúc, có lợi nhất.
- Điều trị y học và chăm sóc y tế: Một số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện, từ đó phân tích các mối liên hệ giữa triệu chứng bệnh, chuẩn đoán và phương pháp điều trị hợp lý.
- Text Mining và Web Mining: Phân lớp văn bản và các trang Web, tóm tắt nội dung văn bản, ... từ đó có thể nhóm các văn bản, trang Web theo các chủ đề, lọc bỏ các trang Web độc hại, ... - Quản trị mạng và phát hiện các truy cập bất thường: Phân tích các dữ liệu truy cập để phát
hiện ra các truy cập bất thường hay các truy cập với mục đích xấu.
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật, tìm kiếm, so sánh các hệ gene và thông tin di truyền đã được mã hóa, mối liên hệ gene với một số bệnh di truyền ... - Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lượng
CHƯƠNG IV : ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL CHỨNG KHOÁN (CSDL CHUỖI THỜI GIAN) 4.1. CÁC KHÁI NIỆM VỀ CSDL CHUỖI THƠI GIAN.
a. CSDL chuỗi thời gian - Time Series DataBase (TSDB): Cơ sở dữ liệu chuỗi thời gian là một tập hợp các bản ghi { } ( ) 1 t N j t j
r∆ =∆ , trong đó mỗi một bản ghi chứa một tập các thuộc tính và giá trị thời
gian { t} j m k t j s s s d d d t
r∆ = 1, 2,..., , 1, 2,..., , ∆ [6]. Mỗi một thuộc tính có thể nhận giá trị thực hoặc giá trị rời rạc và có hoặc không có mối liên hệ với giá trị thời gian. Nếu thuộc tính có mối liên hệ với giá trị thời gian thì nó được gọi là thuộc tính động, trong trong trường hợp ngược lại thì được gọi là thuộc tính tĩnh. Còn giá trị thời gian t
j
t∆
được đưa ra trên thang chia thời gian ứng với mỗi khoảng thời gian, ví dụ như là phút, ngày, tháng, năm.
b. Hàm thuộc tính: đó là hàm của thời gian mà các phần tử của nó là các giá trị của thuộc tính
i trong bản ghi, ký hiệu là a t(t)
i∆ . t j t j t t i t a r t r a∆ ( χ)= ∆ ∈ ∆,∋ χ ∈ ∆ (4.1) Trong đó t i
a∆ – là thuộc tính i theo thời gian với khoảng (Interval) thời gian ∆t; t j
r∆ – là bản ghi thứ j trong CSDL chuỗi thời gian với interval thời gian ∆t; tχ – là nhãn thời gian tương ứng với bản ghi đó.
Nếu như hàm thuộc tính a t( )t
i∆ có thể được sấp xỉ cũng bởi một hàm thời gian khác φ∆t( )t
trên khoảng thời gian [t1,t2] thì người ta nói rằng φ∆t( )t và các tham số của nó chính là đặc tínhg của a t( )t
i∆ trên khoảng thời gian [t1,t2]. Ví dụ, nếu ( ) t i t i t t ∆t ∆
∆ =α +β
φ trên một khoảng thời gian nào đó, thì có thể nói rằng trong khoảng thời gian đó hàm a t( )t
i∆ có độ lệch t i∆
α , ở đây độ lệch chính là đặc tính được rút ra từ a t( )t
i∆ trên một khoảng thời gian nào đó. Sự thay đổi các đặc chưng giữa hai khoảng thời gian liền kề được gọi là sự kiện.
Thường thì dữ liệu của CSDL thời gian được sinh ra từ các hệ thống “nhiễu loạn”. Hệ thống nhiều loạn là một hệ thống mà các đối tượng trong nó chịu tác động của rất nhiều các yếu tố khác nhau, ngẫu nhiên và không xác định. Ví dụ như, sự phát triển của các chỉ số chứng khoán chịu ảnh hưởng của rất nhiều các yếu tố như tính chất của thị trường (mới hay đã ổn định), trình độ và tâm lý của nhà đầu tư, trình độ phát triển kinh tế xã hội, các biến đổi của tình hình kinh tế – tài chính trên thế