Như đã biết, Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hóa, ... Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, Khai phá dữ liệu còn có thể áp dụng một số kỹ thuật như mạng nơ ron, lí thuyết tập thô hoặc tập mờ, biểu diễn tri thức, … So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt:
+ So với phương pháp học máy: Khai phá dữ liệu có lợi thế hơn ở chỗ, Khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không quá lớn,
+ Với phương pháp hệ chuyên gia: Phương pháp này khác với Khai phá dữ liệu ở chỗ các tri thức của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được,
+ Phương pháp thống kê: Là một trong những nền tảng lí thuyết của Khai phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được:
- Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều các CSDL,
- Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực,
- Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được,
- Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu,
3.6. HƯỚNG NGHIÊN CỨU VÀ VIỆC ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU HIỆN NAY.
Khai phá dữ liệu là một lĩnh vực mới và mặc dù còn rất nhiều vấn đề chưa được nghiên cứu một cách chọn vẹn, nhưng tiềm năng và khả năng ứng dụng của nó rất cao và đã được chứng minh qua nhiều ứng dụng thực tế. Hiện nay có một số hướng nghiên cứu mà Khai phá dữ liệu quan tâm đến là:
OLAM (OnLine Analytical Mining) : Là sự tích hợp giữa CSDL, kho dữ liệu, và Khai phá dữ liệu. Một số hệ cơ sở dữ liệu như Oracle, MS SQL Server đã tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến (OLAP). Những tính năng này được hỗ trợ dưới dạng các công cụ đi kèm và người sử dụng phải mua nếu cần sử dụng. Các nhà nghiên cứu trong lĩnh vực CSDL còn muốn có thêm sự tích hợp giữa CSDL, kho dữ liệu, và Khai phá dữ liệu. Khám phá được nhiều tri thức khác nhau từ các kiểu dữ liệu khác nhau. Tính chính xác và hiệu quả, khả năng mở rộng và tích hợp, xử lý dữ liệu bị nhiễu không đầy đủ và tính có ích của tri thức được khám phá. Vấn đề song song hoá và phân tán quá trình Khai phá dữ liệu. Vấn đề ngôn ngữ truy vấn trong Khai phá dữ liệu phải cung cấp cho người sử dụng một ngôn ngữ thuận tiện, gần gũi tương tự như SQL trong CSDL quan hệ. Biểu diễn các tri thức khai phá được sao cho trực quan và gần gũi với người sử dụng để người sử dụng tri thức có hiệu quả hơn.
Khai phá dữ liệu đã được ứng dụng rất thành công trong CSDL thị trường, đây là một phương pháp phân tích CSDL khách hàng, tìm kiếm các mẫu trong số các khách hàng và sử dụng các mẫu này để lựa chọn các khách hàng tiềm năng trong tương lai. Tạp chí Business Week của Mỹ đã đánh giá có hơn 50% các nhà bán lẻ đang và có ý định sử dụng CSDL thị trường cho hoạt động kinh doanh của họ. Các ứng dụng khác của Khai phá dữ liệu trong kinh doanh như phân tích thị trường chứng khoán, phân tích các văn kiện tài chính, phân tích và báo cáo các thay đổi trong dữ liệu bán hàng của siêu thị, phát hiện và phòng chống gian lận, …
3.7. ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU –KHÁM PHÁ TRI THỨC.
Khám phá tri thức và Khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực như: Thống kê, Trí tuệ nhân tạo, Hệ chuyên gia, CSDL, thuật toán, tính toán song song, CSDL, ... Đặc biệt Khám phá tri thức và Khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật, ... Các CSDL lớn và các công cụ phân tích trực tuyến (OLAP) cũng liên quan rất chặt chẽ với công cụ Khai phá dữ liệu và Khám phá tri thức.
Một hệ thống Khai phá dữ liệu điển hình bao gồm các phương thức, thuật toán, kỹ thuật từ nhiều lĩnh vực khác nhau, điểm chung giữa các hệ thống này là chúng đều trích rút từ các kho dữ liệu có kích thước rất lớn.
Khai phá dữ liệu - Khám phá tri thức được sử dụng rất nhiều trong các lĩnh vực khoa học, kinh doanh, ..., đặc biệt trong các ngành có CSDL lớn, phức tạp, chứa đựng nhiều tri thức như:
- Bảo hiểm, tài chính và TTCK: ở đây Khai phá dữ liệu có nhiệm vụ phân tích tình hình tài chính và dự báo giá, chỉ số của các loại cổ phiếu trong TTCK. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện các giao dịch gian lận, ...
- Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định: Dựa vào dữ liệu sẵn có, phân tích dự liệu để đưa ra những quyết định đúng lúc, có lợi nhất.
- Điều trị y học và chăm sóc y tế: Một số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện, từ đó phân tích các mối liên hệ giữa triệu chứng bệnh, chuẩn đoán và phương pháp điều trị hợp lý.
- Text Mining và Web Mining: Phân lớp văn bản và các trang Web, tóm tắt nội dung văn bản, ... từ đó có thể nhóm các văn bản, trang Web theo các chủ đề, lọc bỏ các trang Web độc hại, ...
- Quản trị mạng và phát hiện các truy cập bất thường: Phân tích các dữ liệu truy cập để phát hiện ra các truy cập bất thường hay các truy cập với mục đích xấu.
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật, tìm kiếm, so sánh các hệ gene và thông tin di truyền đã được mã hóa, mối liên hệ gene với một số bệnh di truyền ... - Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất
CHƯƠNG IV : ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL CHỨNG KHOÁN (CSDL CHUỖI THỜI
GIAN)
4.1. CÁC KHÁI NIỆM VỀ CSDL CHUỖI THƠI GIAN.
a. CSDL chuỗi thời gian - Time Series DataBase (TSDB): Cơ sở dữ liệu chuỗi thời gian là một tập hợp các bản ghi { } ( ) 1 t N j t j
r∆ =∆ , trong đó mỗi một bản ghi chứa một tập các thuộc tính và giá trị thời
gian { t} j m k t j s s s d d d t
r∆ = 1, 2,..., , 1, 2,..., , ∆ [6]. Mỗi một thuộc tính có thể nhận giá trị thực hoặc giá trị rời rạc và có hoặc không có mối liên hệ với giá trị thời gian. Nếu thuộc tính có mối liên hệ với giá trị thời gian thì nó được gọi là thuộc tính động, trong trong trường hợp ngược lại thì được gọi là thuộc tính tĩnh. Còn giá trị thời gian tj∆t được đưa ra trên thang chia thời gian ứng với mỗi khoảng thời gian, ví dụ như là phút, ngày, tháng, năm.
b. Hàm thuộc tính: đó là hàm của thời gian mà các phần tử của nó là các giá trị của thuộc tính
i trong bản ghi, ký hiệu là a t(t)
i∆ . t j t j t t i t a r t r a∆ ( χ)= ∆ ∈ ∆ ,∋ χ∈ ∆ (4.1)
Trong đó ai∆t– là thuộc tính i theo thời gian với khoảng (Interval) thời gian ∆t; rj∆t– là bản
ghi thứ j trong CSDL chuỗi thời gian với interval thời gian ∆t; tχ– là nhãn thời gian tương ứng với
bản ghi đó.
Nếu như hàm thuộc tính a t( )t
i∆ có thể được sấp xỉ cũng bởi một hàm thời gian khác φ∆t( )t
trên khoảng thời gian [t1,t2] thì người ta nói rằng φ∆t( )t và các tham số của nó chính là đặc tínhg của a t( )t
i∆ trên khoảng thời gian [t1,t2]. Ví dụ, nếu ( ) t i t i t t ∆t ∆
∆ =α +β
φ trên một khoảng thời gian nào đó, thì có thể nói rằng trong khoảng thời gian đó hàm a t( )t
i∆ có độ lệch α , ở đây độ lệch chính là i∆t đặc tính được rút ra từ a t( )t
i∆ trên một khoảng thời gian nào đó. Sự thay đổi các đặc chưng giữa hai khoảng thời gian liền kề được gọi là sự kiện.
Thường thì dữ liệu của CSDL thời gian được sinh ra từ các hệ thống “nhiễu loạn”. Hệ thống nhiều loạn là một hệ thống mà các đối tượng trong nó chịu tác động của rất nhiều các yếu tố khác
hưởng của rất nhiều các yếu tố như tính chất của thị trường (mới hay đã ổn định), trình độ và tâm lý của nhà đầu tư, trình độ phát triển kinh tế xã hội, các biến đổi của tình hình kinh tế – tài chính trên thế giới, các biến động do tự nhiên gây ra vv…