2.4.1. Tổng quát hóa và học quá mức
Mạng thần kinh nhân tạo được huấn luyện dựa trên tập dữ liệu huấn luyện gồm các biến đầu vào và các biến đầu ra mục tiêu nhằm tối thiểu hóa sai số. Tập huấn luyện này không hoàn hảo và hữu hạn, các dữ liệu có thể bị nhiễu. Một thuộc tính quan trọng của Mạng thần kinh là nó có khả năng tổng quát hóa những gì mà nó đã học. Vậy khi có một tín hiệu mới được đưa vào mạng, liệu rằng mạng có khả năng tổng quát hóa tín hiệu mới này để tối thiểu hóa sai số hay không ?. Nếu mạng tổng quát hóa tốt thì dù dữ
liệu có bị nhiễu, mạng vẫn có thể chạy tốt và có khả năng tối thiểu hóa sai số. Để mạng có khả năng tổng quát hóa tốt, thì số lượng trọng số của mạng nên ít hơn số quan sát trong tập dữ liệu huấn luyện. Nếu mạng càng nhiều trọng số thì mạng sẽ rơi vào tình trạng khít quá mức. Ngược lại, nếu mạng có quá ít trọng số thì mạng sẽ không đủ khả năng để mô phỏng hàm cơ sở. Chẳng hạn, với mạng chỉ bao gồm lớp đầu vào và lớp đầu ra thì chỉ mô phỏng hàm tuyến tính đơn giản, không thể mô phỏng hàm phi tuyến. Trong quá trình huấn luyện, có một số dữ liệu trong tập dữ liệu trong mẫu không được tham gia huấn luyện mạng mà dùng để kiểm tra lại quá trình tính toán của mạng. được gọi là dữ liệu phê duyệt. Quá trình kiểm tra lại việc tính toán của mạng trong khi huấn luyện gọi là quá trình phê duyệt. Khi mạng huấn luyện, sai số huấn luyện giảm xuống, nghĩa là huấn luyện đang tối thiểu hóa sai số, đồng thời sai số phê duyệt cũng giảm xuống. Tuy nhiên, nếu sai số phê duyệt không giảm hay bắt đầu tăng lên, điều này có nghĩa là mạng bắt đầu khít quá mức và huấn luyện nên dừng lại. Trường hợp khít quá mức xảy ra trong quá trình huấn luyện gọi là học quá mức. Trường hợp này chúng ta nên giảm số lượng các nơ-ron ẩn, số lượng các lớp ẩn nếu mạng đang có nhiều hơn một lớp ẩn, và (hoặc) gia tăng kích cỡ của tập dữ liệu trong mẫu. Việc huấn luyện – phê duyệt nhằm chống lại tình trạng học quá mức bằng cách dừng lại việc huấn luyện, tức là sử dụng thủ tục ngừng đúng lúc.
2.4.2. Thủ tục ngừng đúng lúc
Các mô hình Mạng thần kinh nhân tạo đã được chứng minh có thể gặp phải vấn đề khít quá mức với dữ liệu huấn luyện khiến cho việc dự báo ngoài mẫu trở nên kém chính xác. Để giải quyết vấn đề này, các mô hình Mạng thần kinh thường dùng thủ tục ngừng đúng lúc, nó liên quan đến việc dữ liệu được chia làm ba phần: dữ liệu huấn luyện, dữ liệu phê duyệt và dữ liệu kiểm tra.
Dữ liệu huấn luyện (Training set) được sử dụng bởi các thuật toán dùng để ước lượng các trọng số của mô hình. Dữ liệu kiểm tra (Test set) được sử dụng để đánh giá tính chính xác của dự báo. Vì bộ dữ liệu kiểm tra không được sử dụng trong quá trình ước lượng các trọng số của mô hình nên các dự báo từ dữ liệu kiểm tra là các dự báo ngoài mẫu. Dữ liệu phê duyệt (Validation set) là một phần nhỏ của dữ liệu trong mẫu, không được dùng trong quá trình huấn luyện. Sau mỗi vòng lặp của quá trình ước lượng các trọng số của mô hình, một cuộc kiểm tra nhỏ trong quá trình huấn luyện được tạo ra bằng cách sử dụng các giá trị biến đầu vào trong dữ liệu phê duyệt để tính toán các giá trị đầu ra tương ứng của mô hình, đối chiếu các giá trị này với các giá trị đầu ra mục tiêu, mô hình tính toán MSE cho dữ liệu phê duyệt. Quá trình phê duyệt này được xem như là một chỉ báo chính xác của dự báo ngoài mẫu.
Hình 2.18: Biểu diễn thủ tục ngừng đúng lúc
Khi số vòng lặp tăng dần, MSE của dữ liệu huấn luyện và dữ liệu phê duyệt nhìn chung đều giảm dần. Sau một số vòng lặp nhất định, MSE của dữ liệu phê duyệt đạt cực tiểu tại vòng lặp t0 và bắt đầu gia tăng vì mô hình “đang cụ thể hóa” các quan sát của dữ liệu huấn luyện và do đó đang làm mất khả năng tổng quát hóa đối với dữ liệu khác. Sau t0 vòng lặp, MSE của dữ liệu huấn luyện tiếp tục giảm và đạt cực tiểu tại t1. Như vây, sau t0 vòng lặp mạng bắt đầu học quá mức và quá trình huấn luyện sẽ dừng lại. Theo Gonzalez (2000), quá trình huấn luyện dừng lại khi sai số dự báo được tối thiểu trong dữ liệu phê duyệt hơn là tối thiểu trong dữ liệu huấn luyện. Phương pháp này đảm bảo rằng mô hình không thể thực hiện cụ thể hóa dữ liệu huấn luyện mà có khả năng tổng quát hóa dữ liệu ngoài mẫu.
Thủ tục ngừng đúng lúc giúp cho các nhà nghiên cứu chọn lựa mô hình với MSE thấp nhất trong dữ liệu phê duyệt. Tuy nhiên, sự lựa chọn này sẽ làm cho sai số dự báo từ dữ liệu sẽ bị thiên lệch một cách tối đa, tức là chúng không được xem như là một ước lượng không lệch của tính chính xác dự báo của mô hình. Để khắc phục vấn đề này thì cần thiết phải thực hiện các dự báo ngoài mẫu bằng cách sử dụng các dữ liệu kiểm tra nhằm tạo ra một dự báo không lệch của khả năng tổng quát hóa mô hình. Cụ thể, để so sánh tính chính xác của dữ liệu ngoài mẫu của mô hình Mạng thần kinh nhân tạo với tính chính xác của mô hình Hồi quy tuyến tính thì mẫu dữ liệu được sử dụng không phải là dữ liệu huấn luyện hoặc dữ liệu phê duyệt của mô hình, mà là phải dùng dữ liệu kiểm tra.
Thủ tục ngừng đúng lúc phụ thuộc vào quan điểm của các nhà thống kê vì nó không sử dụng tất cả các thông tin chứa trong mẫu để ước lượng các trọng số. Chỉ dữ liệu huấn luyện có tác động trực tiếp đến giá trị trọng số. Hơn nữa, đối với mẫu nhỏ việc phân chia dữ liệu thành 3 phần có thể dẫn đến ít quan sát hơn trong mỗi mẫu dữ liệu để cho kết quả đáng tin cậy. Thêm vào đó, sự lựa chọn tùy ý kích cỡ mẫu cho mỗi thành phần có thể sẽ đưa đến một sự nhạy cảm trong các kết quả ước lượng. Mặc dù vẫn tồn tại các hạn chế nhưng thủ tục ngừng đúng lúc cũng đóng góp đáng kể cho các nhà nghiên cứu trong việc tìm ra các mô hình có kết quả chính xác.
2.5. Ƣu điểm và khuyết điểm của mô hình Mạng thần kinh nhân tạo 2.5.1.Ƣu điểm
Thứ nhất, mô hình Mạng thần kinh nhân tạo có các hàm kích hoạt phi tuyến nên có khả năng tính toán các mối quan hệ phi tuyến hiệu quả hơn mô hình Hồi quy tuyến tính. Những hàm kích hoạt này có vai trò rất lớn trong việc mô hình hóa Mạng thần kinh nhờ vào khả năng mô phỏng bất kỳ hàm phi tuyến nào với một mức độ chính xác khá chắc chắn.
Thứ hai, mô hình Mạng thần kinh nhân tạo là không cần biết trước dạng hàm của các mối quan hệ cần nghiên cứu. Thật vậy, các mối quan hệ phi tuyến có thể được giải quyết bằng cách tuyến tính hóa thông qua các cách thức chuyển đổi toán học tương đối đơn giản, nhưng điều này đòi hỏi các nhà nghiên cứu phải có những hiểu biết ban đầu về bản chất của các mối quan hệ phi tuyến để có thể xác định cách thức chuyển đổi thích hợp. Những thông tin này hiếm khi có sẵn trong lĩnh vực dự báo các biến kinh tế vĩ mô. Hoặc chúng cũng có thể giải quyết mối quan hệ phi tuyến bằng kỹ thuật hồi quy phi tuyến. Về mặt lý thuyết, kỹ thuật hồi quy phi tuyến và Mạng thần kinh nhân tạo đều thực hiện tốt như nhau trong việc giải quyết các mối quan hệ phi tuyến. Tuy nhiên, trong thực tế, khi ước lượng bằng mô hình Hồi quy phi tuyến đòi hỏi nhà nghiên cứu phải giả định một dạng hàm ban đầu cho mối quan hệ được nghiên cứu. Chọn lựa dạng hàm sai sẽ dẫn đến các hệ số ước lượng không chính xác và một dự báo kém. Mặt khác, khi ước lượng bằng mô hình Mạng thần kinh nhân tạo, các nhà nghiên cứu không cần phải quan tâm về dạng hàm của hiện tượng được nghiên cứu vì khả năng học hỏi dữ liệu cao của mô hình sẽ cho phép nó bắt chước gần như bất kỳ dạng hàm nào. Vì vậy, chúng ta chỉ cần đưa vào mạng một tập dữ liệu trong quá trình huấn luyện và mạng sẽ tiến hành học và phát hiện ra những mối quan hệ của tập dữ liệu. Sau đó, biểu diễn những mối quan hệ này dưới dạng mô hình toán học và áp dụng mô hình này trong quá trình sử dụng mà không cần phải hiểu biết trước những mối quan hệ giữa chúng.
Thứ ba, khả năng chấp nhận lỗi cao. Mạng có thể chấp nhận và xử lý các dữ liệu mẫu chưa biết, bị thiếu, không hoàn toàn chính xác tuyệt đối. Do đó, nó làm giảm quá trình sàng lọc, làm trơn dữ liệu cho quá trình huấn luyện. Với đặc điểm này, Mạng thần kinh cho phép xây dựng dễ dàng các mô hình mà trong đó sự thay đổi liên tục về quy tắc dữ liệu có thể dễ dàng được cập nhật trong quá trình học lại của mạng.
Ưu điểm cuối cùng, mô hình Mạng thần kinh nhân tạo xuất phát từ tính linh hoạt của cấu trúc mô hình. Chỉ cần một điều chỉnh nhỏ đối với dạng hàm kích hoạt hay cấu trúc mạng lưới (số lớp nơ-ron, số nơ-ron trong lớp,…) thì sẽ tạo ra mô hình phù hợp mục tiêu nghiên cứu của các nhà nghiên cứu.
2.5.2. Khuyết điểm
Bên cạnh các ưu điểm mà mô hình Mạng thần kinh nhân tạo có được thì vẫn tồn tại một vài hạn chế:
Thứ nhất, vấn đề khó giải thích các trọng số ước lượng trong mô hình hay còn gọi là vấn đề “hộp đen” (Black box). Dạng hàm phi tuyến phức tạp của mô hình Mạng thần kinh nhân tạo khiến nó trở nên khó khăn hơn trong việc giải thích các trọng số được ước lượng. Trong mô hình Hồi quy tuyến tính, các giá trị của các hệ số hồi quy giải thích tác động trực tiếp của mỗi biến số đầu vào với biến số đầu ra. Trong mô hình Mạng thần kinh nhân tạo, các trọng số ước lượng không giải thích được chính xác mối quan hệ giữa biến đầu vào và biến đầu ra. Việc xác định mối quan hệ giữa chúng rất phức tạp. Chính sự phức tạp này mà mô hình thần kinh nhân tạo còn được gọi là “một hộp đen”, mô hình thần kinh nhân tạo sử dụng các giá trị đầu vào để tính toán đầu ra, nhưng người nghiên cứu không hiểu rõ tại sao lại có một kết quả dự báo như vậy. Đây là vấn đề cần lưu ý để giảm bớt việc áp dụng phân tích độ nhạy theo đề nghị của Refense, Zapranis và Francis (1994).
Thứ hai, mô hình Mạng thần kinh nhân tạo không chắc chắn tìm ra được tối thiểu hóa toàn cục. Vì trong quá trình huấn luyện, kết quả ước lượng rất nhạy cảm với giá trị ban đầu của các trọng số nên mạng đã tạo ra một bề mặt sai số chứa rất nhiều tối thiểu hóa cục bộ. Và nhiệm vụ của mạng là phải tìm ra điểm thấp nhất trong bề mặt sai số này. Trong mạng tuyến tính có hàm sai số, bề mặt sai số là parabol, tức là có một giá trị nhỏ nhất. Do đó, chúng ta dễ dàng xác định giá trị cực tiểu. Đối với mô hình Mạng thần kinh, thật khó xác định được vị trí có giá trị nhỏ nhất của bề mặt sai số hay khó xác định được điểm tối thiểu hóa toàn cục.
Nhược điểm thứ ba của mô hình Mạng thần kinh nhân tạo là yêu cầu kích cỡ mẫu lớn. Một mô hình Mạng thần kinh nhân tạo có thể đòi hỏi một số lượng lớn các trọng số. Trong khi đó, nếu mẫu dữ liệu quá nhỏ đưa đến một số lượng có giới hạn của các biến
số đầu vào, làm xảy ra tình trạng khít quá mức ngay cả khi thủ tục ngừng đúng lúc được sử dụng. Thực tế, thủ tục dừng đúng lúc có thể làm gia tăng tình trạng khít quá mức vì nó yêu cầu mẫu chia làm ba phần, làm cho số lượng quan sát trong tập huấn luyện dùng để ước lượng càng bị giới hạn. Nhược điểm này thường gặp trong việc dự báo các biến số kinh tế vĩ mô vì số lượng dữ liệu khá hạn chế, đặc biệt là dự báo theo theo quý. Tuy nhiên, có một vài nghiên cứu cho rằng việc dự báo các biến kinh tế vĩ mô cũng có thể đạt được một số thành công nhất định khi sử dụng kích cỡ mẫu tương đối nhỏ. Vì thế, yêu cầu kích cỡ mẫu lớn không nên xem là vấn đề không thể khắc phục được.
Cuối cùng, việc xây dựng một cấu trúc mô hình Mạng thần kinh nhân tạo phù hợp sẽ mất rất nhiều thời gian. Các mô hình Mạng thần kinh nhân tạo không chỉ lựa chọn bộ dữ liệu mà còn phải xác định cấu trúc mô hình cho kết quả dự báo chính xác nhất. Để tìm ra cấu trúc tốt nhất, các nhà nghiên cứu phải thực hiện phương pháp thử và sai. Các nhà nghiên cứu phải tiến hành chọn lựa dạng mạng, các biến đầu vào, thay đổi các giá trị ban đầu của trọng số, số lớp nơ-ron ẩn, số lượng nơ-ron ẩn trong mỗi lớp, dạng hàm truyền, các thông số của mô hình như kích thước bước, động lượng,… để tìm ra mạng có MSE nhỏ nhất. Việc này đòi hỏi nhà nghiên cứu phải thực hiện hàng trăm, hàng nghìn lần. Sau khi tìm được cấu trúc tốt nhất, nhà nghiên cứu phải tiếp tục thực hiện hàng trăm lần bằng cách thay đổi những giá trị ban đầu của các trọng số với hy vọng tìm ra điểm tối thiểu hóa toàn cục. Do đó, việc xây dựng cấu trúc của một mô hình Mạng thần kinh nhân tạo tốn rất nhiều thời gian. Trên thực tế, các nhà nghiên cứu có thể rút ngắn thời gian xây dựng mô hình nhờ mô hình hồi quy tuyến tính hỗ trợ cho việc lựa chọn các biến đầu vào.
2.6. So sánh mô hình Mạng thần kinh nhân tạo và mô hình Hồi quy tuyến tính
Như đã trình bày ở các phần trên, mô hình Hồi quy tuyến tính thể hiện mối quan hệ chính xác giữa biến đầu vào và đầu ra, còn mô hình Mạng thần kinh không giải thích chính xác mối quan hệ giữa chúng. Tuy nhiên, mô hình Mạng thần kinh đơn giản nhất (mạng gồm một lớp đầu vào và một lớp đầu ra) có hàm kích hoạt xác định tương tự như mô hình Hồi quy tuyến tính. Các nơ-ron đầu vào tương tự như các biến số độc lập, các nơ-ron đầu ra là các biến số phụ thuộc. Các trọng số của mô hình Mạng thần kinh nhân tạo giống như các hệ số ước lượng của mô hình hồi quy và độ lệch tương tự như hệ số chặn.
Với mô hình Hồi quy tuyến tính, các nhà nghiên cứu xây dựng dạng hàm trên cơ sở đã biết trước mối quan hệ giữa biến phụ thuộc và các biến độc lập của dạng hàm đó. Ngược lại, mô hình Mạng thần kinh không được biết về những mối quan hệ giữa các biến của dạng hàm, mà chủ yếu là để dữ liệu xác định dạng hàm. Như vậy, Mạng thần
kinh nhân tạo phù hợp khi nhà nghiên cứu không có bất kỳ ý tưởng nào về dạng hàm của mối quan hệ giữa những đầu vào và đầu ra. Nhưng, nếu dạng hàm được biết, mô hình hồi quy là phù hợp hơn.
Vì mô hình Mạng thần kinh được xem như một “hộp đen”. Không ai biết điều gì xảy ra trong hộp đen đó, nó vượt ngoài tầm kiểm soát của người xây dựng mô hình. Do đó, các nhà kinh tế học e ngại việc sử dụng mô hình Mạng thần kinh như là một công cụ thống kê thay thế trong việc dự báo các biến kinh tế. Bên cạnh đó, việc xây dựng cấu