1.2. Mô hình mạng thần kinh nhân tạo - ANN
1.3.1. Mô hình mạng truyền thẳng (Feedforward Networks)
Hình 1.4 minh họa cho cấu trúc của một ANN gồm một lớp ẩn với 2 neuron, 3 biến đầu vào {xi}, i = 1, 2, 3 và 1 biến đầu ra y.
Hình 1.4: Mô hình mạng truyền thẳng
Nguồn: Neural Networks in Finance gaining predictive edge in the market của Paul D. Mc Nelis
Từ hình trên ta có thể thấy đƣợc quá trính xử lý diễn ra đồng thời. Bên cạnh quy trình xử lý tuần tự nhƣ trong các hệ thống tuyến tính điển hình (thể hiện ở chỗ các biến đầu vào đƣợc sử dụng để dự báo các biến đầu ra bằng cách xác định trọng số cho mỗi neuron đầu vào), hai neuron ở lớp ẩn sẽ xử lý các biến đầu vào một cách đồng thời để từ đó có thể nâng cao hiệu quả dự báo. Các “khớp thần kinh” (synapse) sẽ nối giữa các biến đầu vào (còn gọi là neuron đầu vào – input neuron) với neuron của lớp ẩn, hoặc giữa neuron lớp ẩn với các biến đầu ra (neuron đầu ra – output neuron). Hầu hết vấn đề mà chúng ta cần xử lý trong quá trình xây dựng ANN không liên quan nhiều đến vô số các neuron của quá trình song song này. Vì vậy, ta sẽ không đi sâu vào vấn đề này.
Mạng truyền thẳng với một lớp ẩn duy nhất là loại mô hình ANN cơ bản, đƣợc sử dụng phổ biến nhất trong ứng dụng kinh tế, tài chính. Nhìn chung, mạng lưới này sẽ mô phỏng cách thức mà não người xử lý những dữ liệu kích thích được tiếp nhận ở neuron đầu vào và cho ra kết quả phản ứng ở neuron đầu ra. Tương tự sự phát triển của não, ngày càng có nhiều neuron sẽ đƣợc kết nối với nhau bởi các khớp thần kinh.
Kết quả là nhiều lớp ẩn hơn sẽ đƣợc hình thành, tín hiệu từ những neuron khác nhau Biến đầu vào - x Các neuron lớp
ẩn - n
Biến đầu ra - y x1
x2
x3
n1
n2
y
sẽ hoạt động đồng thời và đƣợc kết nối bởi các khớp thần kinh để cho ra những phản ứng có nhiều sắc thái hơn.
Điều hiển nhiên là, với những dữ liệu kích thích đầu vào đơn giản, chẳng hạn nhƣ kinh nghiệm về nhiệt độ quá nóng hoặc quá lạnh, thì không cần phải đƣợc xử lý bởi quá nhiều neuron ở nhiều lớp ẩn trước khi cho ra kết quả phản ứng lại. Tuy nhiên, khi dữ liệu kích thích đầu vào trở nên phức tạp hoặc đa dạng hơn, nhiều neuron hơn ở các lớp ẩn sẽ đƣợc kích hoạt và các phản ứng hoặc những quyết định đƣợc đƣa ra sẽ là kết quả của quá trình cân nhắc khi kết hợp các tín hiệu từ nhiều neuron của nhiều lớp ẩn khác nhau.
Loại ANN này đƣợc ứng dụng rộng rãi trong lĩnh vực “thần kinh – ngôn ngữ học”
dùng để nhận dạng mẫu hình. Tuy nhiên, trong lĩnh vực kinh tế - tài chính, sự kết hợp của các biến đầu vào với một loạt các neuron ở các lớp ẩn mang một ý nghĩa khác. Trong lĩnh vực này, các biến số ngầm nhƣ kỳ vọng… đóng một vai trò quan trọng trên thị trường nói riêng và nền kinh tế nói chung. Keynes đề cập đến chúng dưới góc độ là “hành vi bầy đàn” của nhà đầu tư tại các thời điểm “bùng – vỡ” của nền kinh tế mà ta thường bảo đó là lúc thị trường đang lạc quan hoặc bi quan. Tuy chúng ta có thể có được dữ liệu khảo sát về kỳ vọng của mọi người, nhưng các dữ liệu này thường có độ trễ. Hơn nữa, những gì được thể hiện trên các bảng khảo sát chưa chắc đã thật sự phản ánh được kỳ vọng của người trả lời.
Trong bối cảnh đó, sự tồn tại của các lớp ẩn với những quá trình xử lý một cách đan xen nhau đối với các dữ liệu quan sát đầu vào trở nên vô cùng có ý nghĩa. Những giá trị trễ (lagged value) và giá trị hiện tại của lãi suất, tỷ giá, thay đổi trong GDP cùng với các loại thông tin khác sẽ tác động đến nền kinh tế bằng cách tác động đến những kỳ vọng chủ quan của người tham gia trên thị trường. Những kỳ vọng này lại chịu tác động của kinh nghiệm, trình độ, văn hóa… của riêng mỗi người. Tất cả những neuron này tác động qua lại với nhau hình thành nên kỳ vọng hoặc dự báo để rồi từ đó dẫn dắt hành động hoặc quyết định của mọi người trên thị trường. Cụ thể là mọi người sẽ có động thái tăng hoặc giảm giá, bán hoặc mua, hành động một cách lạc quan hoặc bi quan. Về cơ bản là những dự báo mà đƣợc hình thành từ quá trình tác động qua lại song song của các neuron thần kinh sẽ quyết định hành động của mỗi người trên thị trường.
Việc sử dụng mô hình ANN để mô phỏng quá trình ra quyết định đƣợc dựa trên
“nguyên lý về sự tách biệt các chức năng” mà Rustichini, Dickhaut, Ghirardato, Smith và Pardo (2002) đã định nghĩa rằng: “không phải tất cả chức năng của não bộ đƣợc thực hiện bởi toàn bộ não bộ” [Rustichini (2002), tr 3]. Một nguyên lý thứ hai đƣợc gọi là “nguyên lý về sự hợp tác các chức năng” cho rằng: “mỗi khu vực của não
đƣợc kích hoạt cho các chức năng khác nhau nhƣng cũng có những khu vực giao nhau đƣợc sử dụng cho những chức năng khác nhau” [Rustichini (2002) tr 3].
Dựa trên dữ liệu thực nghiệm và mô phỏng não bộ, Rustichini, Dickhaut, Ghirardato, Smith và Pardo (2002) đã chứng minh rằng các chủ thể ra quyết định dựa trên việc đánh giá, ước lượng đặc biệt là trong trường hợp phải phản ứng lại trong một thời gian ngắn. Bên cạnh đó, các ông cũng đã tranh luận cho sự tồn tại của việc chuyên môn hóa trong quá trình xử lý các số liệu gần đúng” [Rustichini (2002) tr 16].
Suy rộng ra, dưới góc độ của thống kê thì mô hình ước lượng ANN là một “cỗ máy sàng lọc”. Trong trường hợp đơn biến, với biến đầu vào duy nhất là x, một hàm ước lƣợng bậc m, Ψ𝑚, dựa trên một chuỗi các không gian ƣớc lƣợng không lồng vào nhau:
𝚿𝒎=[𝝍𝒎,𝟎 𝒙 , 𝝍𝒎,𝟏 𝒙 , … , 𝝍𝒎,𝒎 𝒙 ]
Beresteanu (2003) đã chỉ ra rằng mỗi một sự mở rộng hữu hạn, ψ𝑚,0(𝑥); 𝜓𝑚,1 𝑥 …;
𝜓𝑚,𝑚 𝑥 sẽ có thể sử dụng những tập hợp hàm khác nhau [Beresteanu (2003) tr 9].
Trong phần phụ lục “các dạng hàm phổ biến trong ANN” sẽ đề cập chi tiết các dạng hàm này.
1.3.2. Mô hình mạng truyền thẳng đa lớp (Multilayer Feedforward Networks) Việc thiết lập nhiều lớp ẩn hơn sẽ làm cho cấu trúc của mô hình mạng trở nên phức tạp hơn. Hình 1.5 minh họa một mạng lưới truyền thẳng với hai lớp ẩn và 2 neuron ở mỗi lớp.
Hình 1.5: Mô hình mạng truyền thẳng với hai lớp ẩn
Nguồn: Neural Networks in Finance gaining predictive edge in the market của Paul D. Mc Nelis
Biến đầu vào - x x1
x2
x3
Số neuron lớp ẩn 1 - n
n1
n2
Biến đầu ra - y
y p1
p2 Số neuron lớp ẩn 2 - p
Mô hình đó được diễn đạt dưới dạng hệ thống phương trình toán học với i* biến đầu vào; k* neuron ở lớp ẩn đầu tiên và l* neuron ở lớp ẩn thứ hai:
𝒏𝒌,𝒕 = 𝝎𝒌,𝟎 + 𝝎𝒌,𝒊𝒙𝒊,𝒕
𝒊∗
𝒊=𝟏
𝑵𝒌,𝒕 = 𝟏
𝟏+𝒆−𝒏𝒌,𝒕
𝒑𝒍;𝒕 = 𝒑𝒍;𝟎+ 𝒌𝒌=𝟏∗ 𝒑𝒍;𝒌𝑵𝒌;𝒕 𝑷𝒍,𝒕 = 𝟏
𝟏+𝒆−𝒍𝒍,𝒕
𝒚𝒕= 𝜸𝟎+ 𝜸𝒍𝑷𝒍;𝒕
𝒍∗
𝒍=𝟏
Điều dễ thấy là khi thêm một lớp ẩn thứ hai thì số hệ số cần phải ƣớc lƣợng sẽ tăng một lƣợng là (k* + 1)(l* - 1) + (l* + 1); Vì với mạng truyền thẳng một lớp, i* biến đầu vào và k* neuron, ta sẽ có (i* + 1)k* + (k* + 1) hệ số, trong khi đó, khi thêm một lớp ẩn với l* neuron thì số hệ số bây giờ sẽ là (i* + 1)k* + (k* + 1)l* + (l* + 1).
Mạng truyền thẳng đa lớp sẽ làm cho mô hình trở nên phức tạp hơn. Với mô hình này, ta sẽ phải ƣớc lƣợng nhiều hệ số hơn mà đến lƣợt nó sẽ khiến ta phải chịu nhiều ràng buộc hơn trong điều kiện số mẫu quan sát có giới hạn. Bên cạnh đó, mô hình này cũng đòi hỏi thời gian huấn luyện nhiều hơn. Càng nhiều hệ số thì khả năng các ƣớc lƣợng hệ số rơi vào các tối ƣu cục bộ, thay vì các tối ƣu toàn cục, sẽ càng lớn.
Tuy vậy, ta cũng để tâm đến ƣu điểm của việc sử dụng nhiều lớp ẩn. Dayhoff và Deleo (2001), dựa trên nghiên cứu trước đó của Hornik, Stinchocomb và White (1989) khi nói về vấn đề này, đã cho rằng:
Định lý về quá trình ƣớc lƣợng hàm đã đƣợc chứng minh với ANN ba lớp. Kết luận này cho thấy rằng ANN hai lớp với các trọng số đƣợc huấn luyện sẽ có khả năng ƣớc lƣợng đƣợc bất cứ hàm phi tuyến nào. Đây là một đặc điểm rất quan trọng và nó là nền tảng cho việc ứng dụng mô hình ANN ở rất nhiều các lĩnh vực khác. Mô hình ANN có thể ƣớc lƣợng một hàm số đa biến bằng cách xây dựng nên hàm số đó đồng thời điều chỉnh hàm số đó cho phù hợp. Trong khi đó, các mô hình hồi quy phi tuyến truyền thống chỉ dừng lại ở việc cố gắng điều chỉnh cho thích hợp với một hàm số đã đƣợc định sẵn. Chính lợi thế này đã giúp cho mô hình ANN trở nên vƣợt trội so với các công cụ hồi quy thống kê cổ điển khác. [Davhoff và Deleo (2001), tr 1624].