1.3.1. Chuỗi thời gian (Time series) [30]
Ở đây chúng ta xem xét chuỗi thời gian trong ngữ cảnh của việc phát triển các hệ thống dự đoán. Chuỗi thời gian là một dãy những giá trị số được đánh chỉ số bằng cách gia tăng các đơn vị thời gian, trong trường hợp tổng quát hơn là những vectơ với độ dài cố định. Ví dụ giá của một mặt hàng, như cam ở trong một cửa hàng, chỉ số bởi thời gian khi giá được kiểm tra. Dự báo chuỗi thời gian là ước lượng một giá trị trong tương lai của chuỗi.
Hầu hết dữ liệu trong nền kinh tế và tài chính xuất hiện trong dạng chuỗi thời gian - có thể hiểu chuỗi thời gian là một tập các quan sát lặp lại của cùng một biến.
Chúng ta có thể viết một chuỗi thời gian như. {x1,x1, ...,xT} hay {xt}, t = 1, 2, .., T
Chúng ta xem xt như là một biến ngẫu nhiên. - Những thuộc tính của chuỗi thời gian tài chính
+ Chuỗi thời gian tài chính thường hoạt động gần giống như là một tiến trình đường đi ngẫu nhiên; Chuỗi thời gian tài chính lệ thuộc vào sự thay đổi hệ thống quản trị kinh doanh, có nghĩa các đặc tính thống kê của chuỗi thời gian là khác nhau ở những thời điểm khác nhau; chuỗi thường rất nhiễu, có nghĩa có một số lượng lớn những thay đổi ngẫu nhiên (không thể dự đoán được) hằng ngày.
+ Tần suất dữ liệu (Data frequency) [30] đề cập đến mức độ thường mà các giá trị chuỗi được thu thập: hàng giờ, hằng ngày, hàng tuần, vv. Nếu một chuỗi tài chính cung cấp các giá trị hằng ngày hay là dài hơn, cơ
bản đó là chuỗi dữ liệu tần suất thấp, trái lại khi có nhiều lần lấy mẫu trong ngày - thí đó là dữ liệu tần suất cao.
+ Đặc tính thang của chuỗi thời gian (scaling property) cho thấy chuỗi là tương tự như chính nó ở các thang thời gian khác nhau [30] (Mantegna & Stanley, 2000).
Điều này là phổ biến trong chuỗi thời gian tài chính, có nghĩa cho một đồ thị doanh thu mà không có các dấu hiệu trục thì không thể biết nó mô tả những thay đổi theo hàng ngày, hàng giờ, hay hàng tháng vì tất cả các đồ thị nhìn như nhau.
1.3.2. Dữ liệu sử dụng trong dự báo chuỗi thời gian tài chính [21]
Có một vài kiểu dữ liệu khác nhau có thể phân thành các loại sau: - Dữ liệu kỹ thuật (technical data) : Dữ liệu kỹ thuật bao gồm những con số như là giá cổ phiếu quá khứ, khối lượng giao dịch (volume), tính thay đổi (volatility) vv.
Thực sự thuật ngữ chuỗi thời gian tài chính thông thường đề cập đến chuỗi thời gian của dữ liệu kỹ thuật [12].
- Dữ liệu cơ sở (fundamental data): Dữ liệu cơ sở mô tả các hoạt động kinh tế hiện tại của công ty hay các công ty. Ngoài ra dữ liệu cơ sở còn bao gồm thông tin về những tình huống thị trường hiện tại cũng như các tham số kinh tế vĩ mô.
- Kiểu dữ liệu cuối cùng, là các thực thể dẫn xuất (derived entities): Dữ liệu loại này được hình thành do việc chuyển đổi và kết hợp dữ liệu kỹ thuật và /hay dữ liệu cơ sở.
1.3.2.1. Dữ liệu kỹ thuật (Technical Data): Dữ liệu kỹ thuật điển hình liên quan đến dự báo chuỗi thời gian tài chính là :
- Giá đóng cửa (close price - giá giao dịch thực hiện cuối cùng trong ngày)
- Giá giao dịch cao nhất trong ngày - Giá giao dịch thấp nhất trong ngày
Trong hầu hết các trường hợp, dữ liệu hàng ngày được sử dụng cho việc mô hình hoá hoạt động giá cổ phiếu, dữ liệu cho mỗi giao dịch riêng rẽ trong ngày đôi khi cũng sẵn có. Những dữ liệu dữ như vậy thường được sử dụng để mô hình hoá thị trường
1.3.2.2. Dữ liệu cơ sở (Fundamental Data): Phân tích giá trị của công ty thông thường được thực hiện bởi những nhà phân tích thị trường chuyên nghiệp dựa trên một cơ sở chung. Những phân tích của họ cung cấp một cơ sở cho việc đánh giá giá trị thực về cổ phiếu của công ty. Những nhà phân tích cơ sở xem xét các yếu tố sau:
- Tình hình hình kinh tế chung được xác định bởi lạm phát, lãi suất, cán cân thương mại, vv
- Điều kiện ngành công nghiệp của công ty đó thuộc về xác định bởi:
+ Các chỉ số giá cổ phiếu
+ Giá của các hàng hoá liên quan như dầu, kim loại khác, các loại tiền tệ.
+ Giá các cổ phiếu của các đối thủ cạnh tranh - Điều kiện của công ty xác định bởi:
+ Tỷ số P/E (giá/tiền lãi - price/earnings) : giá cổ phiếu chia theo tiền lãi cho mỗi cổ phiếu trong 12 tháng vừa qua)
+ Giá trị tài sản mỗi cổ phiếu (Tài sản có thực chia ra theo toàn bộ số cổ phiếu).
+ Số dư tiền lãi thực (thu nhập thực chia theo tổng số bán được)
+ Tỷ số nợ (tài sản nợ chia theo tổng tài sản có)
+ Ước lượng lợi nhuận tương lai
+ Ước lượng bán được tương lai
1.3.3. Các nhiệm vụ tài chính [7]
Hoạt động kinh tế - tài chính là một hoạt động rộng rãi bao trùm mọi lĩnh vực của xã hội, là nơi phát sinh một lượng dữ liệu khổng lồ. Nhiệm vụ tài chính bao gồm : Xác định giá trị công ty, đánh giá dự báo thị trường,
đánh giá chính sách tín dụng , quản lý cho vay, phân tích cho vay, xác định chiến lược kinh doanh là những nhiệm vụ khai phá dữ liệu tài chính cốt lõi. Dự báo chiến lược kinh doanh bao gồm việc đưa ra các xu hướng thị trường, hoạch định chiến lược đầu tư, nhận định các điều kiện tốt nhất để thực hiện đầu tư. Các đơn vị, công ty tài chính phát sinh ra những tập dữ liệu khổng lồ đã xây dựng một nền tảng cho các tiếp cận tới những vấn đề động và cực kỳ phức tạp này với các công cụ khai phá dữ liệu. Những lợi ích to lớn trong việc giải quyết những vấn đề này đã thúc đẩy việc nghiên cứu khai phá dữ liệu trong kinh tế - tài chính.
Các thuật toán dự báo có thể được cung cấp bởi những phương pháp từ thống kê, máy học, phân tích các hệ thống động.
- Chi tiết của khai phá dữ liệu trong tài chính xuất phát từ nhu cầu để:
Dự báo chuỗi thời gian đa chiều với mức độ nhiễu cao
Cung cấp các tiêu chuẩn hiệu quả cụ thể thêm vào độ chính xác dự báo
Kết hợp dự báo nhiều cấp (phút, ngày, tuần, tháng và năm) Có thể giải thích dự báo và mô hình dự báo
Có thể mang lại lợi ích từ các mẫu khó thấy với thời gian sống ngắn
Kết hợp ảnh hưởng của những người tham gia thị trường và qui luật thị trường
1 3.4. Những vấn đề đặt ra trong phân tích dự báo Tài chính [30]
Một số quan tâm về tính khoa học và thực tiễn liên quan đến dự báo tài chính là :
- Khả năng dự báo: Dự báo có ý nghĩa theo nghĩa thống kê của dữ liệu thị trường tài chính là có thể thực hiện được không?
Phương pháp: Nếu dự báo là có thể, những phương pháp nào là tốt nhất khi thực hiện dự báo. Những phương pháp nào là phù hợp tốt nhất cho những đặc trưng dữ liệu gì - điều đó có thể biết trước không ?
- Những siêu phương pháp (meta-methods): Những cách gì để nâng cao hiệu quả của phương pháp ? kinh nghiệm biến đổi thành công trong các lĩnh vực khác, sử dụng toàn bộ hay cắt bớt, có thể nâng cao dự đoán tài chính hay không ?
- Dữ liệu: Số lượng, loại dữ liệu cần thiết cho dự đoán có thể được mô tả?
- Tiền xử lý dữ liệu: Việc chuyển đổi dữ liệu để tạo thuận lợi trong dự đoán có thể được nhận ra? Trong thực tiễn, những công thức chuyển đổi nào nâng cao chất lượng dữ liệu đầu vào ?
Đánh giá: Những đặc điểm của thủ tục đánh giá đúng đắn liên quan đến những thuộc tính của dữ liệu tài chính và dự báo tài chính mong muốn là gì ?
- Phát triển dự báo: Có những đặc trưng gì chung của các hệ thống dự đoán thành công hay không ? nếu thế, chúng là gì và cách chúng có thể được nâng cao? các lý do chung của sự thất bại trong dự đoán có thể được nhận diện ? chúng là thuộc về bản chất, không thể khắc phục được hay có một cách để sửa đổi chúng ?
Chuyển vào các lĩnh vực khác : Các phương pháp đã phát triển cho dự báo tài chính có thể mang lại lợi ích cho các lĩnh vực khác hay không?
- Ước lượng dự đoán : Những dữ liệu tài chính có thể được ước lượng hợp lý, nhanh chóng để có thể được dự đoán hay không ?
- Kết quả của việc dự đoản: Kết quả lý thuyết và thực tiễn của dự đoán minh hoạ dữ liệu tài chính là gì ? một phương pháp dự đoán thành công chuyển đổi vào các mô hình kinh tế là gì ? những gì có thể có hiệu quả xã hội của dự đoán tài chính ?
1 3.5. Phương pháp luận trong phát hiện tri thức tài chinh [10]
1. 3.5.1. Lý thuyết thị trường hiệu quả [10, 30]
Lý thuyết thị trường hiệu quả phát biểu rằng thực tế không thể suy ra một mô hình dự báo toàn cục dài hạn cố định từ thông tin thị trường chứng khoán quá khứ, ý tưởng này dựa trên quan sát rằng, nếu thị trường đưa ra một vài loại qui luật thì một số người sẽ lợi dụng nó và qui luật sẽ biến mất. Nói cách khác, tuỳ vào lý thuyết thị trường hiệu quả, sự thay đổi giá của mỗi biến số kinh tế là một bước đi ngẫu nhiên. Hình thức hơn, tức là các sự thay đổi giá là hoàn toàn độc lập từ một bước thời gian đối với bước kế tiếp trong một thời gian dài.
Lý thuyết này không loại trừ những qui luật diều kiện cục bộ ngắn hạn ẩn có thể tồn tại. Những qui luật này không thể làm việc mãi, chúng sẽ được sửa đổi thường xuyên. Người ta chỉ ra rằng, dữ liệu tài chính thường không ngẫu nhiên và giả thuyết thị trường hiệu quả đó đơn thuần chỉ là một tập con của giả thuyết thị trường hỗn độn lớn hơn, giả thuyết này không loại trừ những mô hình dự báo ngắn hạn thành công cho việc dự đoán chuỗi thời gian hỗn độn.
Khai phá dữ liệu không cố gắng chấp nhận hay phản bác lý thuyết thị trường hiệu quả, khai phá dữ liệu tạo ra các công cụ có thể có lợi cho việc phát hiện các dạng điều kiện ngắn hạn khó thấy, các xu hướng trong một dải rộng dữ liệu tài chính.
1.3.5.2. Phân tích cơ bản và phân tích kỹ thuật (Fundamental and technical analyses) [10 , 22]
Phân tích cơ bản và phân tích kỹ thuật là hai kỹ thuật được sử dụng rộng rãi trong dự báo thị trường tài chính. Phân tích cơ bản cố gắng xác định tất cả các biến kinh tế có thể ảnh hưởng đến tính động của một giá cổ phiếu hay tỷ giá hối đoái cho trước. Ví dụ, những biến này có thể bao gồm tình trạng thất nghiệp, các sản phẩm nội địa tài sản, nợ, tình hình sản xuất, các loại sản phẩm, v.v .. Thường thì rất khó để thiết lập những biến này là có liên quan và cách đánh giá hiệu quả của chúng.
Phân tích kỹ thuật thửa nhận rằng, khi tỷ suất lấy mẫu của một biến kinh tế nhất định là cao, tất cả các thông tin cần thiết để dự đoán những giá trị tương lai được chứa trong chính bản thân chuỗi thời gian, chính xác hơn phân tích kỹ thuật nghiên cứu thị trường với chính chứng khoán tài chính, giá, số lượng giao dịch. Phân tích kỹ thuật nghiên cứu xu hướng lên giá, xuống giá trên thị trường chứng khoán nói chung và trào lưu lên xuống của giá cổ phiếu của một công ty. Phân tích kỹ thuật cho phép người đầu tư chọn thời điểm thích hợp để mua hoặc bán chứng khoán, sao cho có lợi nhất.
Vì thế, phân tích kỹ thuật có thể phù hợp với những dự báo ngắn hạn cho chuỗi thời gian tài chính mà không có những thay đổi lớn trong môi trường kinh tế ở những lần kiểm liên tiếp. Hiện tại các kỹ thuật khai phá dữ liệu cố gắng kết hợp một số các chiến lược phấn tích kỹ thuật phổ biến nhất trong tiền xử lý dữ liệu và trong việc xây dựng các thuộc tính thích hợp [Von Altrock, 1997] .
1.3.6. Các phương pháp luận khai phá dữ liệu trong tài chính
Những nhiệm vụ dự báo trong tài chính đặc biệt được đưa ra một trong hai dạng (i) Dự báo thẳng những đặc trưng dạng số của thị trường, ví dụ : Doanh thu chứng khoán hay tỷ suất hối đoái . . . ; (ii) dự báo liệu đặc trưng thị trường sẽ gia tăng hay giảm xuống .
1.3.6.1. Phương pháp luận dựa trên thuộc tính và phương pháp luận quan hệ (Attribute-based and relational methodologies) [7]
Một vài tham số đặc trưng trong những phương pháp luận khai phá dữ liệu cho dự báo tài chính, các loại dữ liệu và các thuật toán toán học là quan trong nhất trong số này. Kiểu dữ liệu đầu tiên được mô tả bởi những thuộc tính của các đối tượng mà mỗi đối tượng x được cho bởi một tập các giá trị A1(x), . . . ., An(x). Phương pháp luận khai phá dữ liệu thừa nhận kiểu dữ liệu này và nó được biết đến như là một phương pháp luận dựa trên thuộc tính hay thuộc tính - giá trị.
Kiểu dữ liệu quan hệ là kiểu dữ liệu thứ hai, ở đây các đối tượng được mô tả bởi những quan hệ của chúng với các đối tượng khác, chẳng hạn x > y, y < z, x > z , trong ví dụ này chúng ta có thể không biết x = 3 , y = 1 và z =2 . Như vậy những thuộc tính của các đối tượng là không được biết. Các đối tượng có thể có các các thuộc tính khác nhau nhưng vẫn có cùng quan hệ.
Một đặc trưng dữ liệu quan trọng khác của phương pháp luận mô hình hoá tài chính là một tập thực tế các thuộc tính liên quan. Cách tiếp cận phân tích cơ sở kết hợp tất cả các thuộc tính sẵn có, nhưng cách tiếp cận phân tích kỹ thuật chỉ dựa trên một chuỗi thời gian chẳng hạn như giá chứng khoán và các tham số dẫn xuất từ nó.
Phần lớn chuỗi thời gian phổ biến là giá trị chỉ số ở lúc mở và đóng, giá trị chỉ số cao nhất, thấp nhất và số lượng giao dịch, doanh thu còn lại từ chuỗi thời gian quan tâm. Các yếu tố cơ sở bao gồm giá vàng, chỉ số bán lẻ, các chỉ số sản xuất công nghiệp, tỷ suất hối đoái ngoại tệ. Các yếu tố kỹ thuật bao gồm các biến được dẫn xuất từ chuỗi thời gian chẳng hạn như các trung bình động.
1.3.6.2 Phương pháp luận quan hệ dựa trên thuộc tính [7] (Attribute-based relational methodologies)
Khai phá dữ liệu quan hệ được kết hợp với lập trình logic qui nạp. Khẳng định điển hình nhất về khai phá dữ liệu quan hệ đó là nó không thể giải quyết các tập dữ liệu lớn (Thularisam, 1999). Phát biểu này dựa trên việc thừa nhận rằng dữ liệu ban đầu được cung cấp dưới dạng các quan hệ. Chẳng hạn, để khai phá một dữ liệu huấn luyện với m thuộc tính với n đối tượng dữ liệu, chúng ta cần lưu trữ và điều khiển mxn thành phần dữ liệu, nhng với m quan hệ nhị phân đơn giản nhất, chúng ta cần lưu trữ và điều khiển n2 x m thành phần.
Khai phá dữ liệu quan hệ dựa trên thuộc tính không cần lưu trữ và điều khiển n2
xm thành phần. Nó tính toán các quan hệ từ tập dữ liệu dựa trên thuộc tính theo nhu cầu.
1.3. 7. Lựa chọn dữ liệu, phạm vi phân tích dự báo [7]
Khai phá dữ liệu trong tài chính có những thách thức như khai phá dữ liệu nói chung trong việc lựa chọn dữ liệu cho việc xây dựng mô hình. Trong tài chính, vấn đề này liên kết chặt chẽ với việc lựa chọn biến mục tiêu (target variable) y: y=T(k+ 1 ) , y=T(k+2), . . , y= T(k+n), với y=T(k+1) mô tả dự báo cho thời điểm thời điểm kế tiếp , và y : T(k + n) mô tả dự báo trong n thời điểm tiếp theo. Việc lựa chọn tập dữ liệu T và kích thước của nó cho một phạm vi dự báo mong muốn cụ thể n là một thách thức đáng kể.