Dự báo tốc độ tăng trưởng kinh tế Việt Nam Sự vượt trội của mô hình Mạng thần kinh nhân tạo (ANN) so với mô hình Hồi quy tuyến tính truyền thống.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
CÔNG TRÌNH DỰ THI GIẢI THƯỞNG NGHIÊN CỨU KHOA HỌC SINH VIÊN
“NHÀ KINH TẾ TRẺ – NĂM 2011”
Thuộc nhóm ngành : KHOA HỌC KINH TẾ
Tp Hồ Chí Minh, tháng 06/2011
Trang 2TÓM TẮT ĐỀ TÀI
1 Lý do chọn đề tài
Tốc độ tăng trưởng Tổng sản phẩm quốc nội (Gross Domestic Product - GDP) là một chỉ số kinh tế có ý nghĩa rất quan trọng đối với các nhà điều hành kinh tế và các doanh nghiệp trong việc xem xét mức tăng trưởng của nền kinh tế, là tiền đề hỗ trợ cho các quyết định về chính sách, chiến lược cho một giai đoạn trong tương lai Vì các thông tin về tốc độ tăng trưởng GDP được công bố ra công chúng có một độ trễ nhất định nên vấn đề cấp thiết hiện nay là cần có một mô hình dự báo tốc độ tăng trưởng GDP
có hiệu quả Do vậy, các công trình hướng đến việc xây dựng mô hình dự báo các biến
số vĩ mô, đặc biệt là tốc độ tăng trưởng GDP luôn nhận được sự quan tâm của nhiều nhà nghiên cứu trong và ngoài nước
Những năm gần đây, mô hình Mạng thần kinh nhân tạo (Artificial Neural Network – ANN) được mô phỏng theo cách thức tổ chức và vận hành của bộ não con người, với các ưu điểm vượt trội trong việc xác định và dự báo một cách chính xác các biến số kinh tế có quan hệ phi tuyến đã được các nhà kinh tế học tập trung nghiên cứu và ứng dụng rộng rãi Tuy nhiên, ở thời điểm hiện tại việc ứng dụng mô hình Mạng thần kinh nhân tạo cho việc dự báo các biến số kinh tế ở Việt Nam vẫn chưa phổ biến Từ các lý
do trên, nhóm nghiên cứu đã thực hiện đề tài: “Dự báo tốc độ tăng trưởng kinh tế Việt Nam: Sự vượt trội của mô hình Mạng thần kinh nhân tạo (ANN) so với mô hình Hồi quy tuyến tính truyền thống”
2 Mục tiêu nghiên cứu
Để tiến hành nghiên cứu việc xây dựng và kiểm chứng khả năng dự báo của mô hình Mạng thần kinh nhân tạo, bài nghiên cứu đã đặt ra các vấn đề cần giải quyết trong suốt quá trình nghiên cứu:
Thứ nhất, mô hình Mạng thần kinh nhân tạo là gì ?, cơ chế hoạt động như thế nào ? Thứ hai, những ưu điểm, khuyết điểm và các vấn đề vẫn chưa được giải quyết từ các công trình nghiên cứu trên thế giới ?
Thứ ba, mô hình Hồi quy tuyến tính truyền thống là một mô hình đã rất phổ biến hiện nay ở Việt Nam, và rằng nó khác biệt như thế nào so với mô hình Mạng thần kinh nhân tạo ?
Thứ tư, có nhiều quan điểm liên quan đến việc cần phải điều chỉnh dữ liệu trước khi đưa vào mô hình Mạng thần kinh nhân tạo, liệu rằng nó có cần thiết cho bài nghiên cứu này khi tiến hành xây dựng mô hình Mạng thần kinh nhân tạo hay không ?
Trang 3Thứ năm, mô hình Mạng thần kinh nhân tạo nào sẽ được lựa chọn để xây dựng mô hình dự báo tốc độ tăng trưởng GDP Việt Nam?
Thứ sáu, khả năng ứng dụng mô hình Mạng thần kinh nhân tạo trong việc dự báo tốc độ tăng trưởng GDP Việt Nam nói riêng và các biến kinh tế nói chung ?, mô hình Mạng thần kinh nhân tạo có thể kết hợp với mô hình Hồi quy tuyến tính để cho ra một mô hình dự báo tốt ở Việt Nam như một số công trình trên thế giới đã thực hiện hay không ?
Cuối cùng, hướng nghiên cứu mở rộng nào trong tương lai mà bài nghiên cứu đặt
ra cho những vấn đề còn hạn chế?
3 Phương pháp nghiên cứu
Trong bài nghiên cứu này, nhóm sử dụng phương pháp định lượng sẽ là phương pháp chủ yếu để xây dựng mô hình Mạng thần kinh nhân tạo và mô hình Hồi quy tuyến tính truyền thống cho dự báo Tuy nhiên, phương pháp định tính cũng sẽ được nhóm sử dụng làm cơ sở lựa chọn các nhân tố kinh tế tác động đến tốc độ tăng trưởng GDP Bên cạnh đó, phương pháp so sánh sẽ được áp dụng để tìm kiếm mô hình dự báo hiệu quả từ các mô hình trên
Mô hình Mạng thần kinh nhân tạo được xây dựng trên phần mềm NeuroSolutions phiên bản 6.01 (bản dùng thử), và mô hình Hồi quy tuyến tính truyền thống được xây dựng bằng phần mềm EViews 5.0
Về bộ dữ liệu dùng cho xây dựng mô hình được thu thập từ Ngân hàng nhà nước Việt Nam và Tổng cục thống kê Việt Nam
4 Nội dung nghiên cứu
Thứ nhất, bài nghiên cứu sẽ tiến hành lược khảo các bài nghiên cứu trước đây trong và ngoài nước để có tổng quan về vấn đề cần nghiên cứu Thứ hai, nhóm sẽ trình bày lý thuyết về Mạng thần kinh nhân tạo để đặt nền tảng cho việc xây dựng mô hình Thứ
ba, xây dựng các mô hình dự báo tốc độ tăng trưởng GDP Cuối cùng, bài nghiên cứu thực hiện so sánh và rút ra kết luận cho một mô hình dự báo tốc độ tăng trưởng GDP hiệu quả
Trang 4đã tiến hành so sánh hiệu quả dự báo giữa mô hình Mạng thần kinh nhân tạo và mô hình Hồi quy tuyến tính truyền thống để tìm ra mô hình dự báo tốt nhất Vì vậy, bài nghiên cứu này sẽ là một đóng góp tích cực cho hướng nghiên cứu mới trong lĩnh vực
dự báo các biến số kinh tế
6 Hướng phát triển sắp tới của đề tài
Bên cạnh những gì bài nghiên cứu đã thực hiện được thì thật sự cần thiết để nói rằng vấn đề ứng dụng mô hình Mạng thần kinh nhân tạo trong việc xử lý thông tin và dự báo các biến số kinh tế sẽ không ngừng lại, mà nó cần phải liên tục được nghiên cứu, hoàn thiện, khắc phục những điểm yếu, cũng như vận dụng, khai thác các ưu điểm của
mô hình Từ đó, góp phần đưa mô hình Mạng thần kinh nhân tạo như là một sự lựa chọn tốt cho công tác dự báo biến số kinh tế bên cạnh các mô hình kinh tế lượng truyền thống ở Việt Nam
Trang 5MỤC LỤC
PHẦN MỞ ĐẦU 1
Chương 1: GIỚI THIỆU 2
1.1 Mô hình Mạng thần kinh nhân tạo và công tác dự báo 2
1.2 Lược khảo các nghiên cứu trước đây 3
1.3 Mục tiêu của bài nghiên cứu 7
Chương 2: MÔ HÌNH MẠNG THẦN KINH NHÂN TẠO 9
2.1 Đặc điểm của Mạng thần kinh nhân tạo 9
2.1.1 Nơ-ron sinh học 9
2.1.2 Nơ-ron nhân tạo 11
2.1.3 Mạng thần kinh nhân tạo 13
2.2 Các dạng mô hình Mạng thần kinh nhân tạo 14
2.2.1 Mạng thần kinh truyền thẳng 14
2.2.1.1 Mạng thần kinh truyền thẳng đơn giản nhất 14
2.2.1.2 Mạng thần kinh truyền thẳng đa lớp 15
2.2.1.3 Mạng thần kinh bổ sung 17
2.2.2 Mạng thần kinh nhân tạo hồi tiếp 18
2.2.2.1 Mạng thần kinh hồi tiếp Jordan 19
2.2.2.2 Mạng thần kinh hồi tiếp Elman 19
2.3 Huấn luyện Mạng thần kinh nhân tạo 20
2.3.1 Quá trình học của Mạng thần kinh 20
2.3.2 Các phương pháp học 20
2.3.2.1 Học theo tham số 20
2.3.2.2 Học cấu trúc 22
2.3.3 Hàm truyền 22
2.3.4 Thuật toán truyền ngược 26
2.3.4.1 Điều chỉnh trọng số của Mạng thần kinh 28
2.3.4.2 Nguyên tắc giảm độ dốc 29
2.3.4.3 Truyền ngược sai số 30
2.4 Các vấn đề của mô hình Mạng thần kinh nhân tạo 34
Trang 62.4.1 Tổng quát hóa và học quá mức 34
2.4.2 Thủ tục ngừng đúng lúc 35
2.5 Ưu điểm và khuyết điểm của mô hình Mạng thần kinh nhân tạo 37
2.5.1.Ưu điểm 37
2.5.2 Khuyết điểm 38
2.6 So sánh mô hình Mạng thần kinh nhân tạo và mô hình hồi quy tuyến tính 39
Chương 3: XÂY DỰNG MÔ HÌNH DỰ BÁO TỔNG SẢN PHẨM QUỐC NỘI (GDP) CỦA VIỆT NAM 41
3.1 Dữ liệu 41
3.1.1 Giải thích biến 43
3.1.2 Kỳ vọng về dấu 46
3.2 Xây dựng mô hình Hồi quy tuyến tính truyền thống cho dự báo tốc độ tăng trưởng GDP Việt Nam 47
3.3 Xây dựng mô hình Mạng thần kinh nhân tạo để dự báo tốc độ tăng trưởng Tổng sản phẩm quốc nội (GDP) của Việt Nam 50
3.3.1 Quy trình xây dựng mô hình Mạng thần kinh nhân tạo 50
3.3.1.1 Lựa chọn các biến số và thu thập dữ liệu 50
3.3.1.2 Tiền xử lý dữ liệu 51
3.3.1.3 Lựa chọn các thông số cho mô hình 54
3.3.1.4 Tiến hành thực hiện xây dựng mô hình 57
3.3.1.5 Dự báo và phân tích kết quả 58
3.3.2 Xây dựng mô hình Mạng thần kinh nhân tạo một cách độc lập để dự báo tốc độ tăng trưởng GDP 59
3.3.3 Xây dựng mô hình Mạng thần kinh nhân tạo với sự hỗ trợ từ mô hình hồi quy tuyến tính truyền thống 62
Chương 4: KẾT QUẢ DỰ BÁO VÀ KẾT LUẬN 67
4.1 So sánh kết quả dự báo tốc độ tăng trưởng GDP Việt Nam của các mô hình 67
4.2 Kết luận 72
PHẦN KẾT LUẬN 73
PHỤ LỤC 74
TÀI LIỆU THAM KHẢO 94
Trang 7DANH MỤC THUẬT NGỮ
Adaptive Linear Neuron – ADALINE Mạng nơ-ron tuyến tính thích ứng
Artificial Neural Network – ANN Mạng thần kinh nhân tạo
Augmented Neural Networks Mạng thần kinh bổ sung
Backpropagation Algorithm Thuật toán truyền ngược
Early Stopping Procedure Thủ tục ngừng đúng lúc
Elman Recurrent Neural Networks – ERNN Mạng thần kinh hồi tiếp Elman
Error Backpropagation Thuật toán sai số truyền ngược
Feed-Forward Neural Networks – FFNN Mạng thần kinh truyền thẳng
Gross Domestic Product – GDP Tổng sản phẩm quốc nội
Jordan Recurrent Neural Networks – JRNN Mạng thần kinh hồi tiếp Jordan
Trang 8Lower Bound Biên dưới
Mean Absolute Error – MAE Sai số tuyệt đối trung bình
Mean Absolute Percentage Error – MAPE Sai số phần trăm tuyệt đối trung bình
Mean Percentage Error – MPE Sai số phần trăm trung bình
Mean Square Error – MSE Sai số bình phương trung bình
Multilayer Feed- Forward Perceptron Mạng thần kinh đa lớp truyền thẳng Multilayer Perceptrons – MLPs Mạng thần kinh truyền thẳng đa lớp Multiple Adaptive Linear Neuron –
MADALINE
Mạng nơ-ron tuyến tính thích ứng đa lớp
nhất Recurrent Neural Networks Mạng thần kinh hồi tiếp
Recurrent Neural Networks –RNN Mạng thần kinh nhân tạo hồi tiếp Root Mean Squared Error – RMSE Căn bậc hai của sai số bình phương
trung bình Self Organizing Networks Mạng thần kinh tự tổ chức
Straight Gradient Descent Giảm độ dốc thẳng
Trang 9Upper Bound Biên trên
Trang 10DANH MỤC BẢNG
Bảng 3.1: Các biến được cân nhắc đưa vào mô hình dự báo GDP theo quý 42
Bảng 3.2: Tên biến và kỳ vọng về dấu 46
Bảng 3.3: Thống kê mô tả các biến 47
Bảng 3.4: Các thông số huấn luyện 63
Bảng 4.1: So sánh dự báo trong mẫu và dự báo ngoài mẫu 68
DANH MỤC HÌNH Hình 2.1: Minh họa cấu tạo của một nơ-ron sinh học 11
Hình 2.2: Nơ-ron nhân tạo 11
Hình 2.3: Mô hình Mạng thần kinh nhân tạo 14
Hình 2.4: Mô hình thần kinh nhân tạo đơn giản nhất 15
Hình 2.5: Mô hình Mạng thần kinh truyền thẳng đa lớp 16
Hình 2.6: Mô hình Mạng thần kinh nhân tạo bổ sung 17
Hình 2.7: Mô hình Mạng thần kinh nhân tạo hồi tiếp 18
Hình 2.8: Mô hình Mạng thần kinh hồi tiếp Jordan 19
Hình 2.9: Mô hình Mạng thần kinh hồi tiếp Elman 20
Hình 2.10: Đồ thị biểu diễn hàm truyền Heaviside 23
Hình 2.11: Đồ thị biểu diễn hàm truyền Xích ma 23
Hình 2.12: Đồ thị biểu diễn hàm Hyperbol 24
Hình 2.13: Đồ thị biểu diễn hàm LinearTanhAxon 25
Hình 2.14: Đồ thị biểu diễn hàm LinearSigmoidAxon 25
Hình 2.15: Mô hình Mạng thần kinh nhân tạo có sử dụng thuật toán truyền ngược 27
Hình 2.16: Biểu diễn việc điều chỉnh các trọng số theo nguyên tắc giảm độ dốc 29
Hình 2.17: Việc giảm độ dốc trên mặt phẳng sai số 34
Hình 2.18: Biểu diễn thủ tục ngừng đúng lúc 36
Hình 3.1: Mô hình Mạng thần kinh nhân tạo được xây dựng một cách độc lập tốt nhất cho dự báo tốc độ tăng trưởng GDP Việt Nam 60
Hình 3.2: Đồ thị thể hiện giá trị MSE của quá trình huấn luyện mô hình Mạng thần kinh nhân tạo được xây dựng một cách độc lập tốt nhất 60
Hình 3.3: Các trọng số ước lượng của mô hình Mạng thần kinh độc lập 61
Hình 3.4: Mô hình Mạng thần kinh nhân tạo tốt nhất với sự hỗ trợ từ mô hình Hồi quy tuyến tính truyền thống cho dự báo tốc độ tăng trưởng GDP Việt Nam 64
Hình 3.5: Đồ thị thể hiện giá trị MSE của quá trình huấn luyện mô hình Mạng thần kinh nhân tạo với sự hỗ trợ từ mô hình Hồi quy tuyến tính truyền thống 64
Trang 11Hình 3.6: Các trọng số ước lượng của mô hình Mạng thần kinh dựa trên kết quả của
Mô hình truyền thống 65
Hình 4.1: Đồ thị dự báo trong mẫu 69
Hình 4.2: Đồ thị dự báo ngoài mẫu 69
Hình 4.3: Đồ thị dự báo trong mẫu của mô hình ANN 70
Hình 4.4: Đồ thị dự báo trong mẫu của mô hình ANN & HQTT 70
Hình 4.5: Đồ thị dự báo ngoài mẫu của mô hình ANN 71
Hình 4.6: Đồ thị dự báo ngoài mẫu của mô hình ANN & HQTT 71
DANH MỤC PHỤ LỤC PHỤ LỤC 1: KẾT QUẢ ƢỚC LƢỢNG VÀ KIỂM ĐỊNH TRONG MÔ HÌNH HỒI QUY TUYẾN TÍNH 74
Hình A.1: Kết quả kiểm định phân phối chuẩn của phần dư 74
Bảng A.1: Kết quả hồi quy tăng trưởng GDP theo các nhân tố tác động 74
Bảng A.2: Các chỉ số thống kê 75
Bảng A.3: Kết quả kiểm định phương sai thay đổi 75
Bảng A.4: Kết quả kiểm định tự tương quan với độ trễ là 1 75
Bảng A.5: Kết quả kiểm định tự tương quan với độ trễ là 4 75
Bảng A.6: Kết quả kiểm đinh đa cộng tuyến 76
Bảng A.7: Kiểm định bỏ sót biến 76
PHỤ LỤC 2: KẾT QUẢ DỰ BÁO CỦA CÁC MÔ HÌNH 77
PHỤ LỤC 3: SƠ LƢỢC QUÁ TRÌNH PHÁT TRIỂN CỦA MẠNG THẦN KINH NHÂN TẠO 79
PHỤ LỤC 4: CÁC ỨNG DỤNG CỦA MẠNG THẦN KINH NHÂN TẠO 82
Trang 12PHẦN MỞ ĐẦU
Tốc độ tăng trưởng Tổng sản phẩm quốc nội (Gross Domestic Product - GDP) là một chỉ số kinh tế có ý nghĩa rất quan trọng đối với các nhà điều hành kinh tế và các doanh nghiệp trong việc xem xét mức tăng trưởng của nền kinh tế, là tiền đề hỗ trợ cho các quyết định về chính sách, chiến lược cho một giai đoạn trong tương lai Vì các thông tin về tốc độ tăng trưởng GDP được công bố ra công chúng có một độ trễ nhất định nên vấn đề cấp thiết hiện nay là cần có một mô hình dự báo tốc độ tăng trưởng GDP
có hiệu quả Do vậy, các công trình hướng đến việc xây dựng mô hình dự báo các biến
số vĩ mô, đặc biệt là tốc độ tăng trưởng GDP luôn nhận được sự quan tâm của nhiều nhà nghiên cứu trong và ngoài nước
Những năm gần đây, mô hình Mạng thần kinh nhân tạo (Artificial Neural Network – ANN) được mô phỏng theo cách thức tổ chức và vận hành của bộ não con người, với các ưu điểm vượt trội trong việc xác định và dự báo một cách chính xác các biến số kinh tế có quan hệ phi tuyến đã được các nhà kinh tế học tập trung nghiên cứu và áp dụng rộng rãi Tuy nhiên, ở thời điểm hiện tại việc ứng dụng mô hình Mạng thần kinh nhân tạo cho việc dự báo các biến số kinh tế nói chung và tốc độ tăng trưởng GDP nói riêng ở Việt Nam vẫn chưa phổ biến Từ các lý do trên, nhóm nghiên cứu đã thực hiện
đề tài: “Dự báo tăng trưởng kinh tế Việt Nam: Sự vượt trội của mô hình Mạng thần kinh nhân tạo (ANN) so với mô hình Hồi quy tuyến tính truyền thống”
Trang 13Chương 1 GIỚI THIỆU
Khái quát mô hình Mạng thần kinh nhân tạo và khả năng ứng dụng
Lược khảo các nghiên cứu trước đây Mục tiêu của bài nghiên cứu
Bài nghiên cứu bắt đầu bằng sự giới thiệu khái quát về mô hình Mạng thần kinh nhân tạo và khả năng ứng dụng của nó trong các lĩnh vực, đặc biệt là lĩnh vực kinh tế Thông qua việc lược khảo các công trình nghiên cứu trước đây, bài nghiên cứu sẽ cung cấp tổng quan về xu hướng, phương pháp nghiên cứu, các kết quả, kinh nghiệm
có được trong những năm qua về dự báo tốc độ tăng trưởng GDP bằng các mô hình nói chung và mô hình Mạng thần kinh nói riêng Từ đó bài nghiên cứu sẽ đặt ra các mục tiêu cần giải quyết
1.1 Mô hình Mạng thần kinh nhân tạo và công tác dự báo
Mạng thần kinh nhân tạo (Artificial Neural Network – ANN) là một mô hình thuật toán phổ biến, mô phỏng theo cấu trúc và quá trình hoạt động của bộ não con người nhằm nhận dạng, xác định các mẫu hình của một nhóm các thông tin, biến số Nó được ứng dụng hiệu quả trong nhiều lĩnh vực ngành nghề như điện tử, y học, khai khoáng,… bởi khả năng xử lý và dự báo các thông tin, tín hiệu với độ chính xác cao;
và do đó nó ngày càng nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học trên thế giới Tuy nhiên trong lĩnh vực kinh tế, mặc dù đã được thừa nhận và ứng dụng
từ nhiều năm trước nhưng nó vẫn còn khá mới do sự phức tạp của nó Trong thời gian qua, nhiều nhà kinh tế đã tiến hành hàng loạt các nghiên cứu tập trung vào việc ứng dụng Mạng thần kinh nhân tạo trong việc xác định mối quan hệ và dự báo các nhân tố, biến số kinh tế, chẳng hạn như tốc độ tăng trưởng Tổng sản phẩm quốc nội, lạm phát,
tỷ giá hối đoái, giá chứng khoán, và thậm chí là hiệu quả hoạt động của một công ty, ngân hàng, … ở nhiều nước và đã đạt được nhiều kết quả khả quan
Dự báo tốc độ tăng trưởng Tổng sản phẩm quốc nội Việt Nam luôn nhận được sự quan tâm của nhiều nhà nghiên cứu, và mô hình Mạng thần kinh nhân tạo có thể sẽ trở thành một công cụ dự báo hiệu quả cho các biến số kinh tế nói chung và tốc độ tăng trưởng GDP ở Việt Nam nói riêng
Trang 141.2 Lược khảo các nghiên cứu trước đây
Dự báo tăng trưởng GDP đóng một vai trò rất quan trọng trong việc điều hành cũng như ra quyết định về các chính sách kinh tế vĩ mô của một quốc gia, tác động rất lớn đối với các lĩnh vực kinh tế vi mô Các nhà nghiên cứu đã và đang tiến hành dự báo tốc độ tăng trưởng GDP bằng nhiều phương pháp dự báo cũng như nhiều mô hình dự báo khác nhau Tuy nhiên, xu hướng nghiên cứu hiện nay cho thấy các nhà nghiên cứu đang tập trung vào việc dự báo GDP trong trung và ngắn hạn, thường là theo quý hoặc theo tháng vì tính cần thiết, kịp thời, và chính xác hơn cho những điều chỉnh về mặt chính sách, chiến lược khi mà những biến động của các nền kinh tế diễn ra thường xuyên và phức tạp hơn
Klein và Sojo (1989) sử dụng 2 phương pháp Phương pháp đầu tiên là xây dựng các hàm dự báo cho tất cả thành phần phụ của GDP (ví dụ như dự báo chi tiêu quần áo và giày dép hàng quý với doanh thu bán lẻ hàng tháng ở các cửa hàng thời trang), sau đó tập hợp những thành phần phụ này để dự báo tốc độ tăng trưởng GDP Dữ liệu tháng chưa biết trong quý được dự báo bằng các mô hình trung bình di động tự hồi quy (ARMA) Phương pháp thứ hai là phân tích thành phần chính, bao gồm 25 chỉ báo theo tháng được dùng để ước lượng GDP cho quý hiện hành bằng hàm liên kết (Bridge) Miller và Chin (1996) sử dụng hai dự báo của hai mô hình khác nhau (mô hình sử dụng dữ liệu hàng quý và mô hình sử dụng dữ liệu hàng tháng, cả hai mô hình đều là mô hình VAR (mô hình Véc-tơ tự hồi quy - Vector Autoregression) để dự báo tốc độ tăng trưởng GDP Sau đó, hai dự báo độc lập này được kết hợp bằng trung bình trọng số để tối đa hóa mức độ chính xác của dự báo Kitchen và Monaco (2003) đã thực hiện ước lượng 30 hàm (mỗi hàm hồi quy ứng với một chỉ báo cho GDP với những tháng khác nhau trong giai đoạn 1975-1994) để thu được 30 dự báo về tốc độ tăng trưởng GDP của Mỹ cho mỗi quý từ Quý 1/1995 đến Quý 1/2003 Những dự báo này được kết hợp sử dụng trung bình trọng số dựa trên R2 của chúng
Và Rϋnstler và Sédillot (2003) đã nghiên cứu thực hiện các hàm liên kết theo dữ liệu
từ Quý 2/1990 đến Quý 4/2001 với các biến như: sản lượng công nghiệp (ngoại trừ giá trị của ngành công nghiệp xây dựng), lượng đăng ký xe mới, doanh thu bán lẻ, giá trị của ngành công nghiệp xây dựng nhằm dự báo tốc độ tăng trưởng GDP ngắn hạn của khu vực Châu Âu từ các chỉ báo theo tháng và so sánh với mô hình ARIMA Dữ liệu
từ Quý 1/1998 đến Quý 4/2001 đã được tác giả sử dụng làm dự báo ngoài mẫu, kết quả dự báo cho thấy hàm liên kết cho kết quả dự báo tốt hơn mô hình ARIMA
Trên cơ sở của việc áp dụng hàm liên kết, Diron (2005) nghiên cứu dữ liệu đã điều chỉnh liên quan đến việc dự báo tốc độ tăng trưởng GDP dựa trên những chỉ báo hàng
Trang 15tháng của khu vực Châu Âu Sau khi kiểm tra hoạt động của 8 hàm liên kết liên quan đến tốc độ tăng trưởng GDP với dữ liệu được thu thập trong lĩnh vực tài chính và vĩ
mô, bài nghiên cứu này đã cho thấy rằng việc dùng dữ liệu đã điều chỉnh không làm thiên lệch đánh giá đáng tin cậy về những dự báo GDP ngắn hạn Hàm liên kết tiếp tục được Isabel Yi Zheng và James Rossiter (2006) cải thiện để dự báo tốc độ tăng trưởng GDP theo quý của Canada với các biến như: chỉ số niềm tin tiêu dùng, tổng số giờ làm việc, số lượng nhà ở đang xây dựng, doanh thu bán lẻ, sản lượng công nghiệp Mỹ trong giai đoạn từ Quý 3/1986 đến Quý 2/2004, trong đó dữ liệu từ Quý 3/1999 đến Quý 2/2004 được dùng làm dự báo ngoài mẫu
Massimiliano Marcellino (2007) thực hiện phân tích chi tiết về hoạt động dự báo của những mô hình chuỗi thời gian đơn biến cho tốc độ tăng trưởng GDP và lạm phát Có tất cả 55 mô hình được sử dụng để so sánh hoạt động dự báo với các phương án độ trễ khác nhau, trong đó có 19 mô hình tuyến tính gồm các mô hình tự hồi quy (AR) và mô hình dự báo đơn giản - bước đi ngẫu nhiên, trong bài nghiên cứu này mô hình bước đi ngẫu nhiên phù hợp với dữ liệu lạm phát hơn so với GDP vì ổn định hơn; 21 mô hình Time-varying gồm Time-varying Autoregression (ARTV) hay Logistic Smooth Transition Autoregression (LSTAR); 15 mô hình phi tuyến với các mô hình Mạng thần kinh nhân tạo (ANN) Đối với những khoảng thời gian dự báo dài hơn, 2 hay 4 quý, nhìn chung hoạt động của mô hình ANN không tốt bằng, trong khi đó ARTV và LSTAR cải thiện đáng kể nhưng vẫn không hoạt động tốt hơn các mô hình tuyến tính Quá trình dự báo ngắn hạn thường gặp phải khó khăn về dữ liệu do các dữ liệu GDP và các biến số có liên quan theo tháng hoặc theo quý trong quá khứ vẫn còn hạn chế trong việc công bố ở một số quốc gia; cùng với đó là vấn đề dữ liệu đôi khi bị bóp méo theo các mục đích khác nhau gây ảnh hưởng đến độ tin cậy của dự báo Để khắc phục vấn
đề thiếu dữ liệu cho công tác dự báo, Tilak AbeySinghe và Gulasekeran Rajaguru (2004) đã tiến hành nghiên cứu mở rộng về việc tách GDP theo năm của Trung Quốc
và các quốc gia ASEAN4 (Indonesia, Malaysia, Philippines và Thái Lan) thành các số liệu theo quý để dùng cho các mô hình vĩ mô, dựa trên ý tưởng chính của Chow và Lin (1971), Fernandez (1981) và Litterman (1983) Kết quả cho thấy rằng mặc dù chất lượng của chuỗi dữ liệu theo năm dùng để tách còn hạn chế nhưng chuỗi dữ liệu sau khi tách vẫn có chất lượng tốt Thực tế thì việc tách các chuỗi GDP có thể không dễ làm như lý thuyết đưa ra khi mà chất lượng của dữ liệu có sẵn để tách không cao Bên cạnh các dự báo dựa trên các mô hình kinh tế truyền thống với nhiều sự cải tiến, một xu hướng nghiên cứu phát triển tồn tại song song và ngày càng thu hút sự quan tâm của các nhà nghiên cứu, đó là sự mô tả và dự báo dựa trên mô hình Mạng thần
Trang 16kinh nhân tạo (Artificial neural network - ANN) Trong đó, mối quan tâm chính đối với mô hình ANN là khả năng mô phỏng các mối quan hệ phi tuyến giữa các biến kinh
tế Theo Granger (1991), các mối quan hệ phi tuyến trong dữ liệu kinh tế và tài chính thường phổ biến hơn các mối quan hệ tuyến tính Vì thế, các nghiên cứu thực nghiệm
về ANN không ngừng gia tăng Bằng phương pháp so sánh, các nhà nghiên cứu cố gắng đo lường tính hiệu quả của các mô hình kinh tế truyền thống và mô hình Mạng thần kinh nhân tạo, nhằm tìm ra mô hình dự báo chính xác
Kuan và White (1994), về mặt lý thuyết đã cho thấy khả năng ứng dụng mô hình Mạng thần kinh nhân tạo cũng như các mô hình truyền thống cho các biến kinh tế và
họ nhấn mạnh sự tương đồng của hai phương pháp này Sau đó, nhiều nhà nghiên cứu
đã ứng dụng mô hình Mạng thần kinh cho các biến kinh tế khác nhau Maasoumi, Khontanzad và Abaye (1994) đã chứng minh chuỗi gồm 14 biến kinh tế vĩ mô như GDP thực, GDP danh nghĩa, thu nhập bình quân đầu người, sản lượng công nghiệp, việc làm, tỷ lệ thất nghiệp, hệ số giảm phát, chỉ số giá tiêu dùng, tiền lương, tiền lương thực, cung tiền, tốc độ lưu thông tiền, lãi suất trái phiếu, giá chứng khoán) của các nước OECD (Tổ chức hợp tác phát triển kinh tế) trong báo cáo chuyên đề của Nelson
và Plosser (1982) được dự báo tốt hơn với ANN
Li et.al (1995) dùng Mạng thần kinh nhân tạo để dự báo GDP của Anh và thực hiện
so sánh việc sử dụng hai thuật toán huấn luyện khác nhau của mạng truyền thẳng, đó
là thuật toán truyền ngược và thuật toán di truyền (Genetic algorithm) dựa vào mô hình Mạng thần kinh Các biến đầu vào được sử dụng là chi tiêu tiêu dùng, chi tiêu chính phủ, đầu tư, xuất khẩu, nhập khẩu hàng hóa và dịch vụ từ Quý 1/1965 đến Quý 3/1994, trong đó 4 quý 1993 và 3 quý của năm 1994 được dùng để so sánh hoạt động
dự báo Kết quả cho thấy việc sử dụng Mạng thần kinh truyền thẳng một lớp ẩn với thuật toán truyền ngược cho kết quả dự báo tốt hơn
Swanson và White (1997) cũng sử dụng Mạng thần kinh nhân tạo cho việc dự báo 9 biến kinh tế vĩ mô trong đó có GDP thực Họ so sánh sự khác nhau giữa mô hình tuyến tính và mô hình phi tuyến (ANN) bằng cách sử dụng các chỉ báo với cỡ mẫu lớn
để thực hiện dự báo ngoài mẫu Kết quả là những mô hình tuyến tính đa biến thì tốt hơn Tkacz và Hu (1999) sử dụng ANN để dự báo tốc độ tăng trưởng GDP của Canada theo quý từ Quý 1/1968 đến Quý 1/1998 và so sánh hiệu quả dự báo của mô hình ANN với các mô hình tuyến tính truyền thống Các biến giải thích được sử dụng là: biên độ lãi suất trong dài hạn và ngắn hạn; lãi suất trái phiếu dài hạn và tỷ lệ chiết khấu thương phiếu 90 ngày; tốc độ gia tăng cung tiền M1 và M2; tốc độ gia tăng chỉ
số TSE 300 (chỉ số thị trường chứng khoán Canada) Tác giả xây dựng mô hình ANN
Trang 17với Mạng thần kinh truyền thẳng đa lớp có một lớp ẩn với 2 nơ-ron ẩn Kết quả là hiệu quả dự báo từ ANN tốt hơn các mô hình Hồi quy tuyến tính
Steven Gonzalez (2000) thực hiện so sánh mô hình Mạng thần kinh nhân tạo và mô hình hồi quy tuyến tính khi dự báo tốc độ tăng trưởng GDP thực theo quý của Canada Năm biến được sử dụng đó là: tốc độ gia tăng trong chỉ số về nhóm chỉ báo hoạt động nền kinh tế, tỷ lệ gia tăng việc làm, chỉ số niềm tin tiêu dùng, sai phân bậc 1 của lãi suất thực dài hạn, sai phân bậc 1 của ngân sách chính phủ liên bang Kết quả cho thấy
mô hình Mạng thần kinh nhân tạo với cấu trúc mạng truyền thẳng có 2 đơn vị ẩn dự báo ít chính xác hơn mô hình Hồi quy tuyến tính
Tkacz (2001) tiếp tục thực hiện dự báo GDP của Canada thông qua việc sử dụng các biến tài chính và tiền tệ (gồm các biến: biên độ lãi suất của Mỹ và Canada; lãi suất trái phiếu doanh nghiệp; tốc độ tăng cung tiền M1 và M2; tốc độ gia tăng chỉ số TSE 300)
từ Quý 1/1968 đến Quý 2/1999 Trong bài nghiên cứu này, tác giả đã so sánh các mô hình chuỗi thời gian (ARIMA, san bằng mũ), mô hình tuyến tính và mô hình ANN (Mạng thần kinh truyền thẳng với 1 lớp ẩn có 3 đơn vị ẩn trong lớp ẩn và hàm truyền xích ma được sử dụng) Kết quả cho thấy giá trị sai số của mô hình ANN thấp hơn giá trị sai số của các mô hình khác, đặc biệt là trong việc dự báo tốc độ tăng trưởng GDP với chuỗi dữ liệu dài hạn Nói cách khác, hiệu quả dự báo của ANN cao hơn
Zhang (2003) sử dụng phương pháp hỗn hợp - sự kết hợp mô hình ARIMA và mô hình ANN, tác giả thu được kết quả dự báo tốt hơn với phương pháp hỗn hợp này so với từng mô hình riêng lẻ Junoh (2004) dự báo GDP với dữ liệu từ năm 1995-2000 của Malaysia bằng cách dùng các chỉ báo của nền kinh tế tri thức như: số người sử dụng điện thoại di động trên 1000 dân; số người sử dụng Internet trên 1000 dân; số lượng máy tính trên 1000 dân; lượng lắp đặt máy tính các nhân trên 1000 dân Trong nghiên cứu này, tác giả tiến hành so sánh ANN với mô hình hồi quy tuyến tính Tác giả sử dụng Mạng thần kinh truyền thẳng với một lớp ẩn, một đơn vị ẩn, hàm truyền là hàm Xích ma và tỷ lệ học là 0,1 để xây dựng mô hình ANN, đồng thời dữ liệu được chuẩn hóa trong khoảng (0;1) và đã chỉ ra rằng ANN cho kết quả tốt hơn trong việc dự báo tốc độ tăng trưởng GDP
Yrd Doc Dr Recep DÜZGÜN (2008) cũng đề cập đến việc so sánh hiệu quả của mô hình ARIMA và mô hình ANN trong việc dự báo GDP (theo giá so sánh 1987) của Thổ Nhĩ Kỳ từ Quý 1/1987 đến Quý 3/2007 Trong đó, đối với mô hình ANN, tác giả
sử dụng Mạng thần kinh truyền thẳng 1 lớp ẩn với 2 đơn vị ẩn và hàm truyền xích ma; các biến đầu vào được sử dụng cho mô hình này bao gồm: chi tiêu tiêu dùng, chi tiêu chính phủ, vốn đầu tư nội địa, xuất khẩu hàng hóa và dịch vụ, nhập khẩu hàng hóa và
Trang 18dịch vụ; tất cả được chuẩn hóa trong khoảng (0,2; 0,8) Tuy nhiên, kết quả dự báo lại cho thấy mô hình ARIMA tốt hơn mô hình ANN
Nhóm Curak Marijana (2009) sử dụng các biến tài chính như cung tiền M2 và vốn hóa thị trường chứng khoán để dự báo tốc độ tăng trưởng kinh tế của 27 nước thành viên Liên minh châu Âu trong giai đoạn 1991-2007, đồng thời so sánh hoạt động dự báo của 2 mô hình: mô hình hồi quy tuyến tính và mô hình ANN, trong đó mô hình ANN
sử dụng mạng truyền thẳng, một lớp ẩn và hàm Tanh làm hàm truyền Sử dụng các chỉ tiêu như: RMSE, MAE, TIC, MAPE để so sánh hoạt động dự báo của 2 mô hình; kết quả cho thấy, mô hình ANN cho kết quả dự báo tốt hơn mô hình hồi quy tuyến tính theo chỉ tiêu RMSE, MAE, TIC nhưng điều này là ngược lại với chỉ tiêu MAPE
Gần đây năm 2010, Amin Gharipour, Morteza Sameti, và Ali Yousefian đã đưa ra một công trình nghiên cứu “Phân tích việc mô phỏng tương đối hành vi kinh tế giữa các mô hình SVMs (Support Vector Machines) và các mô hình Mạng thần kinh nhân tạo” với mục tiêu lựa chọn mô hình dự báo tốt nhất tốc độ tăng trưởng GDP các quốc gia Trung Đông (Iran, U.A.E, và Thổ Nhĩ Kỳ) Mạng thần kinh được sử dụng trong bài nghiên cứu này là Mạng thần kinh truyền thẳng đa lớp với 3 lớp, 21 nơ-ron ở lớp đầu vào, 28 nơ-ron ở lớp ẩn, các hàm truyền được sử dụng là hàm Tanh và hàm Xích ma để dự báo GDP Trung Đông Kết quả bài nghiên cứu chỉ ra rằng ANN thực hiện tốt hơn hẳn SVMs cho cả sự tổng quát hóa từ bộ dữ liệu huấn luyện và độ chính xác gần đúng
1.3 Mục tiêu của bài nghiên cứu
Để tiến hành nghiên cứu việc xây dựng và kiểm chứng khả năng dự báo của mô hình Mạng thần kinh nhân tạo, bài nghiên cứu đã đặt ra các vấn đề cần giải quyết trong suốt quá trình nghiên cứu:
Thứ nhất, mô hình Mạng thần kinh nhân tạo là gì ?, cơ chế hoạt động như thế nào ? Thứ hai, những ưu điểm, khuyết điểm và các vấn đề vẫn chưa được giải quyết từ các công trình nghiên cứu trên thế giới ?
Thứ ba, mô hình Hồi quy tuyến tính truyền thống là một mô hình đã rất phổ biến hiện nay ở Việt Nam, và rằng nó khác biệt như thế nào so với mô hình Mạng thần kinh nhân tạo ?
Thứ tư, có nhiều quan điểm liên quan đến việc cần phải điều chỉnh dữ liệu trước khi đưa vào mô hình Mạng thần kinh nhân tạo, liệu rằng nó có cần thiết cho bài nghiên cứu này khi tiến hành xây dựng mô hình Mạng thần kinh nhân tạo hay không ?
Trang 19Thứ năm, mô hình Mạng thần kinh nhân tạo nào sẽ được lựa chọn để xây dựng mô hình dự báo tốc độ tăng trưởng GDP Việt Nam?
Thứ sáu, khả năng ứng dụng mô hình Mạng thần kinh nhân tạo trong việc dự báo tốc độ tăng trưởng GDP Việt Nam nói riêng và các biến kinh tế nói chung ?, mô hình Mạng thần kinh nhân tạo có thể kết hợp với mô hình Hồi quy tuyến tính để cho ra một mô hình dự báo tốt ở Việt Nam như một số công trình trên thế giới đã thực hiện hay không ?
Cuối cùng, hướng nghiên cứu mở rộng nào trong tương lai mà bài nghiên cứu đặt
ra cho những vấn đề còn hạn chế ?
Trang 20Chương 2
MÔ HÌNH MẠNG THẦN KINH NHÂN TẠO
Đặc điểm của mô hình Mạng thần kinh nhân tạo Các dạng mô hình Mạng thần kinh nhân tạo Huấn luyện Mạng thần kinh nhân tạo
Các vấn đề của mô hình Mạng thần kinh nhân tạo
Ưu điểm và khuyết điểm của mô hình Mạng thần kinh nhân tạo
So sánh mô hình Mạng thần kinh nhân tạo và mô hình Hồi quy tuyến tính
Bài nghiên cứu sẽ dành toàn bộ chương 2 để trình bày cô đọng một số kiến thức nền tảng về Mạng thần kinh nhân tạo bao gồm: đặc điểm, cơ chế hoạt động, các thuật toán, và các cải tiến giúp quá trình hoạt động của mạng trở nên hiệu quả Tuy nhiên như các mô hình kinh tế lượng khác, mô hình Mạng thần kinh nhân tạo vẫn còn tồn tại các khuyết điểm cần khắc phục bên cạnh các ưu điểm vượt trội của nó Đồng thời, việc so sánh mô hình Mạng thần kinh nhân tạo với mô hình Hồi quy tuyến tính trên phương diện lý thuyết sẽ hỗ trợ cho quá trình xây dựng và kiểm định hiệu quả dự báo của mô hình Mạng thần kinh và mô hình Hồi quy tuyến tính trong các chương sau
2.1 Đặc điểm của Mạng thần kinh nhân tạo
2.1.1 Nơ-ron sinh học
Theo quy luật của tự nhiên cùng với quá trình lao động, con người đã có những bước phát triển rất nhanh và đã trở thành loài sinh vật có bộ não tiến hóa rất cao cho phép thực hiện những suy luận phức tạp Bộ não là tổ chức vật chất cao cấp, có cấu tạo vô cùng phức tạp, dày đặc các mối liên kết giữa các nơ-ron nhưng xử lý thông tin rất linh hoạt Vì thế trong nhiều năm qua, các nhà khoa học đã nổ lực không ngừng trong việc tìm hiểu, nghiên cứu về bộ não con người, khả năng học hỏi, và cách thức mà bộ não con người làm việc Họ đã tìm ra những đặc trưng của bộ não mà những năm gần đây
đã được sử dụng làm nền tảng để xây dựng mô hình Mạng thần kinh nhân tạo Để hiểu
rõ về mô hình này, trước hết chúng ta sẽ tìm hiểu các đặc điểm cơ bản của bộ não
Bộ não người bao gồm một lượng rất lớn các ron (khoảng 10 tỷ ron) Mỗi ron có thể kết nối với hàng chục ngàn nơ-ron khác thông qua các khớp thần kinh
Trang 21nơ-(synapse) tạo thành một mạng lưới rộng lớn Mỗi nơ-ron là một tế bào gồm các sợi nhánh có dạng như cành cây (dendrite), một thân tế bào hoặc phần sinh dưỡng, và một sợi trục ra (axon) Các sợi nhánh có nhiệm vụ dẫn truyền các tín hiệu dưới dạng các xung điện thần kinh từ môi trường hoặc từ các nơ-ron khác vào thân tế bào (cell –
body) Thân bào chứa nhân có nhiệm vụ tổng hợp các xung điện thần kinh, làm tăng
thêm cường độ các xung điện thần kinh nhận được và xử lý cho tín hiệu đi ra Sợi trục với cấu tạo từ một bó các dây thần kinh sẽ tiếp tục dẫn truyền xung điện thần kinh từ thân tế bào đến các nơ-ron khác Điểm kết nối giữa sợi trục của nơ-ron này với sợi nhánh của nơ-ron khác gọi là khớp thần kinh Như vậy, mỗi nơ-ron thực hiện nhiệm
vụ đơn giản là truyền xung điện thần kinh nhận được dọc theo sợi trục qua các khớp thần kinh đến các nơ-ron khác
Tuy nhiên, không phải tất cả các xung điện thần kinh đều được truyền đi, mà đối với một số nơ-ron chỉ truyền đi một số xung điện thần kinh nhất định Phản ứng của một nơ-ron khi nhận được xung điện thần kinh từ các nơ-ron bên cạnh phụ thuộc vào cường độ của xung điện thần kinh nhận được và độ nhạy riêng của nó đối với mỗi nơ-ron truyền xung điện thần kinh đến nó Nơ-ron chỉ hoạt động khi tất cả các tín hiệu mà
nó nhận được ở thân bào thông qua các sợi nhánh vượt quá một giá trị ngưỡng hoạt
động (threshold) – một giới hạn mà nếu nhỏ hơn giới hạn này thì nơ-ron sẽ không
phản ứng với tín hiệu đó, tức là nó sẽ không truyền tín hiệu đó đi mà rơi vào trạng thái nghỉ Cường độ tín hiệu thu được của nơ-ron phụ thuộc vào độ nhạy của các khớp thần kinh Khi được học tập thì hoạt động kết nối của các khớp thần kinh được tăng cường, tạo ra các liên kết mạnh giữa các nơ-ron làm cho tín hiệu được truyền đi dễ dàng hơn Như vậy, một nơ-ron sinh học hoạt động dưới hình thức nhận các tín hiệu đầu vào, tập hợp xử lý các tín hiệu này để đưa ra một tín hiệu đầu ra Tín hiệu này tiếp tục được truyền đi và trở thành tín hiệu đầu vào của các nơ-ron khác Cứ như vậy, các nơ-ron tiếp tục được kích hoạt và dường như tất cả các nơ-ron được kích hoạt cùng lúc Chính điều này tạo ra suy nghĩ, cảm xúc hay hành động, khả năng phản xạ của chúng ta
Trang 22Hình 2.1: Minh họa cấu tạo của một nơ-ron sinh học
2.1.2 Nơ-ron nhân tạo
Từ những nghiên cứu về bộ não của con người, các nhà khoa học đã khám phá ra những ưu điểm của nó và cố gắng bắt chước những ưu điểm đó để xây dựng một mô hình thần kinh nhân tạo có khả năng học hỏi, nhận dạng, phân loại và điều khiển Một nơ-ron nhân tạo cơ bản có cấu trúc được mô tả theo hình 2.2:
Hình 2.2: Nơ-ron nhân tạo
Trang 23Một nơ-ron nhân tạo gồm có:
Đầu vào (Xi) là các tín hiệu vào từ dữ liệu gốc hay từ các nơ-ron khác
Các trọng số (Weights) liên kết giữa tín hiệu đầu vào thứ i với nơ-ron j, được ký hiệu là wji Các trọng số này được chọn một cách ngẫu nhiên tại thời điểm xây dựng mạng và được điều chỉnh liên tục trong quá trình huấn luyện mạng Lưu ý, trọng số có thể âm nghĩa là nó đóng vai trò kiềm chế hơn là kích hoạt nơ-ron Cũng giống như một nơ-ron sinh học, một nơ-ron nhân tạo cũng có phần nhân tương ứng với bộ cộng và hàm truyền giúp xử lý các tín hiệu, thông tin đầu vào
Hàm tổng (sum) được dùng để tính tổng của các tích đầu vào với trọng số tương ứng của nó
Ngưỡng (Threshold – ) là một giới hạn mà tại đó cường độ xung điện của các
tín hiệu đầu vào phải đạt đến giá trị này để kích hoạt nơ-ron hoạt động, truyền xung điện qua hàm truyền để xử lý và cho ra tín hiệu đầu ra của nơ-ron
Hàm truyền f (Transfer function) hay còn gọi là hàm kích hoạt (Activity function), dùng để giới hạn phạm vi đầu ra của nơ-ron Nó nhận kết quả của hàm tổng và ngưỡng Thông thường, phạm vi của nơ-ron đầu ra được giới hạn trong đoạn [0; 1] hoặc [-1; 1] Có rất nhiều loại hàm truyền, có thể là hàm truyền tuyến tính hoặc hàm truyền phi tuyến
Đầu ra là tín hiệu đầu ra của một nơ-ron sau khi được hàm truyền xử lý
Độ lệch (Bias – bj) được đưa vào nhằm tăng khả năng thích nghi của mạng trong quá trình học Mỗi nơ-ron có thể có một trọng số tương ứng với độ lệch
Giá trị đầu ra của mỗi nơ-ron còn được thể hiện dưới dạng biểu thức sau:
∑
Trong đó:
Xi là giá trị đầu vào thứ i
Wji là trọng số kết nối giữa nơ-ron thứ j và tín hiệu vào thứ i
bj là độ lệch của nơ-ron thứ j
f( )là hàm truyền
Yj là giá trị đầu ra của nơ-ron thứ j
Hoạt động của nơ-ron nhân tạo là nhận các tín hiệu đầu vào, sau đó nhân các tín hiệu này với trọng số tương ứng nhằm khuếch đại tín hiệu đầu vào Tất cả các tín hiệu đầu
Trang 24vào sau khi được khuếch đại sẽ đi vào thân nơ-ron tổng hợp lại và tiếp tục biến đổi nhờ một hàm kích hoạt (thường là hàm phi tuyến) Cuối cùng tín hiệu sẽ được đưa ra ở đầu ra của nơ-ron và lại trở thành đầu vào của các nơ-ron khác hoặc trở thành tín hiệu
ra của toàn mạng
Như vậy, cũng giống với nơ-ron sinh học, nơ-ron nhân tạo cũng nhận các tín hiệu đầu vào, xử lý và cho một tín hiệu đầu ra
2.1.3 Mạng thần kinh nhân tạo
Mạng thần kinh nhân tạo là một hệ thống xử lý thông tin được phỏng theo cách thức
xử lý thông tin của nơ-ron sinh học, bao gồm rất nhiều các nơ-ron nhân tạo hoạt động song song Một nhóm các nơ-ron được sắp xếp sao cho tất cả chúng đều nhận được các tín hiệu đầu vào tại cùng một thời điểm, sau đó xử lý và cho ra các tín hiệu đầu ra
cùng một lúc, được gọi là một lớp mạng (Layer) Mạng thần kinh nhân tạo đơn giản nhất có hai lớp: một lớp đầu vào (Input layer) nhận các tín hiệu đầu vào và một lớp đầu ra (Output layer) cho các tín hiệu đầu ra của mạng Lớp đầu vào thực chất không
phải là các nơ-ron thực, các nơ-ron hoạt động đơn giản chỉ nhằm giới thiệu các tín hiệu, thông tin vào (giá trị của biến đầu vào) Chúng ta cũng có thể kết hợp nhiều lớp mạng tạo thành mạng đa lớp, các lớp nằm giữa lớp đầu vào và lớp đầu ra gọi là các lớp
ẩn (Hidden layers) Các lớp ẩn chứa các nơ-ron ẩn, các nơ-ron ẩn này không thể hiện
bất kỳ một khái niệm thực nào mà chỉ là kết quả trung gian trong quá trình tính toán giá trị đầu ra của Mạng thần kinh Một Mạng thần kinh có thể có nhiều lớp ẩn Thông thường, một mô hình Mạng thần kinh nhân tạo gồm 1 hoặc 2 lớp ẩn Nếu có quá nhiều lớp ẩn thì mô hình sẽ trở nên quá vừa khít với dữ liệu Điều này hàm ý rằng mô hình
có thể đạt được mức độ dự báo chính xác hơn trong quá trình ước lượng các trọng số nhưng sẽ trở nên ít chính xác hơn khi thực hiện dự báo ngoài mẫu Ngoài ra, số lượng các nơ-ron ẩn càng nhiều thì số lượng các trọng số trong mô hình càng lớn làm kéo dài thời gian ước lượng của mô hình
Trang 25Hình 2.3: Mô hình Mạng thần kinh nhân tạo
2.2 Các dạng mô hình Mạng thần kinh nhân tạo
Một mô hình thần kinh nhân tạo đòi hỏi phải có các thành phần cơ bản sau:
Tập các trọng số kết nối nơ-ron này với các nơ-ron khác
Hàm tổng thực hiện nhiệm vụ tính tổng các tích giữa các tín hiệu đầu vào và các trọng số tương ứng
Hàm truyền thực hiện nhiệm vụ xử lý và cho các tín hiệu đầu ra tương ứng
Mạng thần kinh nhân tạo có thể bao gồm hai hoặc nhiều lớp, mỗi lớp có một hoặc nhiều nơ-ron, các nơ-ron giữa các lớp có sự kết nối với nhau tạo thành một mạng lưới Với những thành phần cơ bản trên, mỗi mô hình Mạng thần kinh nhân tạo được đặc trưng bởi số lượng các lớp nơ-ron, các nơ-ron trong một lớp và đặc biệt là sự liên kết giữa các lớp và dạng hàm truyền Tùy theo mối liên kết giữa các lớp mạng mà Mạng
thần kinh được chia thành hai loại chủ yếu: Mạng thần kinh truyền thẳng (Feedforward
Neural Networks) và Mạng thần kinh hồi tiếp (Recurrent Neural Networks)
2.2.1 Mạng thần kinh truyền thẳng
Trong Mạng thần kinh truyền thẳng, các tín hiệu được truyền thẳng theo một hướng,
từ các nơ-ron lớp đầu vào đến các nơ-ron lớp đầu ra và không cho phép bất kỳ một sự
phản hồi thông tin nội bộ nào
2.2.1.1 Mạng thần kinh truyền thẳng đơn giản nhất
Một mạng thần kinh truyền thẳng đơn giản nhất, với hai lớp: một lớp đầu vào và một lớp đầu ra Mạng này còn được gọi là Perceptron
Trang 26Hình 2.4: Mô hình thần kinh nhân tạo đơn giản nhất
Lớp đầu vào bao gồm các biến đầu vào như X0, X1,X2, …, Xn thể hiện các thông tin, tín hiệu vào Lớp đầu ra bao gồm các biến đầu ra như Y1, Y2, …, Yn thể hiện tín hiệu đầu ra của mạng Mỗi liên kết giữa biến đầu vào và biến đầu ra được xác định bởi một trọng số (wji), thể hiện mức độ ảnh hưởng tương đối của một biến đầu vào đó đối với biến đầu ra Mạng thần kinh nhân tạo đơn giản nhất hoạt động giống như một hệ thống đầu vào – đầu ra, tức là sử dụng giá trị của các nơ-ron đầu vào để tính giá trị nơ-ron đầu ra Giá trị của nơ-ron đầu ra được tính bằng cách cộng tất cả các tích của các giá trị nơ-ron đầu vào với trọng số tương ứng, sau đó đưa qua hàm truyền xử lý để cho ra giá trị đầu ra Giá trị của nơ-ron đầu ra trong trường hợp này cũng chính là giá trị tín hiệu đầu ra của mạng Giá trị này sau đó được so sánh và tính toán sai số với giá trị đầu ra mục tiêu Về mặt toán học, ta có:
∑
Với: Yj là giá trị đầu ra thứ j
Xi là giá trị đầu vào thứ i
wji là trọng số kết nối của nơ-ron j với giá trị đầu vào thứ i
2.2.1.2 Mạng thần kinh truyền thẳng đa lớp
Một mô hình Mạng thần kinh phức tạp hơn của Mạng thần kinh truyền thẳng bao gồm một hay một vài lớp nằm giữa lớp vào và lớp ra Các lớp này làm tăng khả năng học tập của mô hình, được gọi là các lớp ẩn Các lớp này đóng vai trò trung gian kết nối giữa các nơ-ron đầu vào và nơ-ron đầu ra, tạo mối quan hệ gián tiếp giữa các biến đầu vào và biến đầu ra Thông tin nhận được từ lớp đầu vào, đầu tiên sẽ được xử lý trong các lớp ẩn, và sau đó được truyền sang các lớp đầu ra Mạng này còn gọi là Mạng thần kinh truyền thẳng đa lớp (Multilayer Perceptron - MLPs)
Trang 27Hình 2.5: Mô hình Mạng thần kinh truyền thẳng đa lớp
Thật vậy, hầu hết các mối quan hệ trong kinh tế và tài chính là quan hệ gián tiếp Vì vậy, nhờ các lớp ẩn mà ta có thể thể hiện mối quan hệ gián tiếp giữa các biến đầu vào
và biến đầu ra Chẳng hạn như, mối quan hệ gián tiếp giữa cung tiền và đầu tư theo lý thuyết kinh tế Cung tiền ảnh hưởng đến đầu tư thông qua sự thay đổi lãi suất Khi cung tiền tăng, lãi suất ngắn hạn có thể giảm dẫn đến sự gia tăng trong đầu tư Trong
ví dụ này, lãi suất đóng vai trò giống như là lớp ẩn
Giá trị của các nơ-ron lớp ẩn được tính toán tương tự như tính giá trị của nơ-ron đầu ra trong hệ thống đầu vào – đầu ra đã được trình bày ở trên Vì các lớp ẩn nhận tín hiệu trực tiếp từ các nơ-ron đầu vào nên giá trị các nơ-ron ẩn được tính như sau:
(∑
)
Với
Hj là Giá trị của nơ-ron ẩn thứ j
Xi là Giá trị đầu vào của biến đầu vào thứ i
Wji là trọng số kết nối nơ-ron ẩn j và biến đầu vào thứ i
H( ) là hàm truyền hay hàm kích hoạt của nơ-ron lớp ẩn
Tương tự, giá trị của nơ-ron đầu ra cũng chính là giá trị biến đầu ra của mạng, được tính toán:
Trang 28Hj là giá trị của nơ-ron ẩn thứ j
kzj là trọng số kết nối nơ-ron đầu ra thứ z với nơ-ron ẩn thứ j
f( ) là hàm truyền hay hàm kích hoạt của nơ-ron đầu ra
Từ (2) và (3), ta có giá trị biến đầu ra của mạng:
(∑ ∑
)
Như đã nói ở trên, một mô hình có quá nhiều lớp ẩn sẽ dẫn đến tình trạng quá vừa khít với dữ liệu và cho kết quả không chính xác khi dự báo ngoài mẫu Do đó, trong thực tế người ta chỉ sử dụng mô hình với một hoặc hai lớp ẩn Mô hình với hai lớp ẩn thông thường được sử dụng trong kỹ thuật và khoa học máy tính vì khả năng học hỏi vượt trội của nó Hơn nữa, hầu hết các mô hình này đều có hơn một biến đầu ra nên thích hợp với mô hình có hơn một lớp ẩn Mô hình có một lớp ẩn được ưa chuộng hơn trong lĩnh vực kinh tế và tài chính, và thường chứa một biến đầu ra duy nhất
2.2.1.3 Mạng thần kinh bổ sung
Mạng thần kinh truyền thẳng với một số biến đầu vào có mối quan hệ trực tiếp hay quan hệ tuyến tính với biến đầu ra thì mối quan hệ này sẽ được thể hiện trong mô hình Mạng thần kinh được bổ sung (Augmented Neural Networks)
Hình 2.6: Mô hình Mạng thần kinh nhân tạo bổ sung
Theo cấu trúc Mạng thần kinh trên hình thì trong mô hình này, các biến đầu vào Xiliên kết trực tiếp với biến đầu ra Y bằng các trọng số: wY0, wY2, và wY3
Mô hình Mạng thần kinh bổ sung vừa chứa yếu tố phi tuyến, vừa chứa yếu tố tuyến tính Nó như là một mô hình hồi quy tuyến tính chuẩn được bổ sung các biến số phi
Trang 29tuyến Do đó, Mạng thần kinh này thường được sử dụng phổ biến để dự báo các biến
số kinh tế vĩ mô
2.2.2 Mạng thần kinh nhân tạo hồi tiếp
Như đã trình bày ở phần trước, mạng thần kinh truyền thẳng không cho phép sự phản hồi thông tin nội bộ, tức là giá trị đầu ra của nơ-ron không truyền ngược trở lại các nơ-ron của lớp trước đó Tuy nhiên, hầu hết các biến trong lĩnh vực kinh tế và tài chính thường phụ thuộc vào thời gian, nghĩa là giá trị đầu ra hiện tại có liên quan đến các giá trị đầu ra trong quá khứ Tức là, giá trị đầu ra tại thời điểm t nhận giá trị đầu ra ở thời điểm (t – 1) như là một tín hiệu đầu vào trong quá trình xử lý Vì vậy, mạng phải nhớ các giá trị đầu ra trong quá khứ để đưa vào tính toán giá trị đầu ra tại thời điểm t Mạng thần kinh truyền thẳng có thể giải quyết vấn đề này bằng cách bổ sung các giá trị có độ trễ của biến đầu vào và các giá trị có độ trễ của biến đầu ra vào lớp đầu vào của mạng Vấn đề này cũng có thể được giải quyết bằng cách sử dụng Mạng thần kinh
hồi tiếp (Recurrent Neural Networks - RNN)
Khác với Mạng thần kinh truyền thẳng, Mạng thần kinh hồi tiếp có chứa các liên kết ngược, tức là cho phép thông tin phản hồi nội bộ Đối với mạng này, tín hiệu đầu ra của một nơ-ron có thể được truyền ngược lại làm tín hiệu vào cho các nơ-ron các lớp trước hoặc truyền cho các nơ-ron trong cùng một lớp với các trọng số kết nối tương ứng, đồng thời chúng có thể kèm theo một độ trễ nhất định Như vậy, Mạng thần kinh hồi tiếp chứa đựng toàn bộ giá trị quá khứ và giá trị hiện tại của biến vào và biến ra của mạng
Hình 2.7: Mô hình Mạng thần kinh nhân tạo hồi tiếp
Thông tin được phản hồi về các lớp trước đó làm gia tăng số lượng các biến đầu vào
và các trọng số của mạng Điều này làm cho việc tính toán các trọng số tối ưu diễn ra
Trang 30phức tạp hơn Hơn nữa, việc xây dựng và đánh giá mô hình sẽ mất rất nhiều thời gian
và nguồn lực, làm cho Mạng thần kinh hồi tiếp không thực tế trong nhiều nghiên cứu mang tính hệ thống Để ứng dụng mô hình này, đòi hỏi phải sử dụng các phần mềm tiên tiến hơn trong việc tính toán các thông số
Có hai loại mạng thần kinh hồi tiếp cơ bản: Mạng thần kinh hồi tiếp Jordan (Jordan
Recurrent Neural Networks – JRNN) và Mạng thần kinh hồi tiếp Elman (Elman Recurrent Neural Networks – ERNN)
2.2.2.1 Mạng thần kinh hồi tiếp Jordan
Mạng thần kinh hồi tiếp Jordan được xây dựng bởi Jordan (1989), tín hiệu ở lớp đầu ra phản hồi ngược trở lại các lớp đầu vào với một độ trễ thời gian Giá trị đầu ra ở thời điểm (t – 1) trở thành tín hiệu đầu vào tại thời điểm t Do đó, giá trị đầu ra của giai đoạn hiện tại chứa tất cả các giá trị quá khứ của biến đầu ra cũng như các giá trị quá khứ của các biến đầu vào
Hình 2.8: Mô hình Mạng thần kinh hồi tiếp Jordan
2.2.2.2 Mạng thần kinh hồi tiếp Elman
Elman xây dựng mô hình Mạng thần kinh hồi tiếp Elman vào năm 1988 Trong mô hình này, tín hiệu đầu ra ở các nơ-ron lớp ẩn phản hồi ngược trở lại các nơ-ron ở lớp đầu vào với một độ trễ thời gian, trước khi truyền đến các nơ-ron lớp đầu ra
Trang 31Hình 2.9: Mô hình Mạng thần kinh hồi tiếp Elman
Với các đặc trưng của Mạng thần kinh hồi tiếp, nó đã từng được chứng minh là thành công hơn trong việc dự báo chuỗi thời gian nhờ vào quá trình phản hồi thông tin nội
bộ Horne và Giles (1995) đã chỉ ra rằng đôi khi Mạng thần kinh hồi tiếp chạy tốt hơn Mạng thần kinh truyền thẳng Nó đã được ứng dụng thành công trong các lĩnh vực như nhận dạng mẫu, điều khiển, phân loại, phân tích hình ảnh, chuẩn đoán y học, …
2.3 Huấn luyện Mạng thần kinh nhân tạo
2.3.1 Quá trình học của Mạng thần kinh
Mạng thần kinh được huấn luyện bằng cách đưa các cặp tín hiệu đầu vào và tín hiệu đầu ra vào mạng Các cặp số liệu này liên tục được đưa vào mạng và mạng nhanh chóng học mối quan hệ giữa đầu vào và đầu ra, quá trình này được gọi là quá trình mạng được huấn luyện Sau đó, khi ta đưa tín hiệu vào mạng, mạng sẽ xử lý dựa trên mối quan hệ giữa biến vào và biến ra đã học để cho ra tín hiệu ra tương ứng Quá trình huấn luyện thực chất là việc điều chỉnh các trọng số kết nối của mạng Trong quá trình huấn luyện, các trọng số được điều chỉnh đến khi đạt được các giá trị sao cho với mỗi tín hiệu đầu vào thì mạng sẽ cho ra tín hiệu đầu ra gần với giá trị đầu ra mục tiêu nhất; nói cách khác, sai số giữa giá trị đầu ra của mạng và giá trị đầu ra mục tiêu là nhỏ nhất
2.3.2 Các phương pháp học
2.3.2.1 Học theo tham số
Phương pháp học tham số (Parameter Learning) nhằm tìm kiếm ma trận trọng số tối ưu
để mạng cho ra các giá trị đầu ra sát với giá trị đầu ra mục tiêu Tức là, tìm ma trận trọng
số tối ưu để tối thiểu hóa sai số giữa giá trị đầu ra tính toán với giá trị đầu ra mục tiêu Dạng tổng quát của phương pháp học tham số được mô tả như sau:
̅̅̅̅̅ ̅̅̅̅̅̅
Trang 32Trong đó:
Δwji: thể hiện sự thay đổi của trọng số kết nối từ nơ-ron i đến nơ-ron j
Xi: tín hiệu vào được xem như là nơ-ron i
: tỷ lệ học (Learning rate), được giới hạn trong khoảng (0;1)
r: tín hiệu học
n: số nơ-ron đầu vào
m: số nơ-ron đầu ra
Tín hiệu học r được xác định để điều chỉnh trọng số của mạng Phương pháp học tham số
có thể chia thành 2 loại chính: học có giám sát (Supervised learning) và học không có giám sát (Unsupervised learning) Do đó, việc xác định r phụ thuộc vào từng loại học
hợp này, tín hiệu học r chính là sai số giữa Y và d, r = Y - d Sai số hay tín hiệu học
này sẽ được truyền ngược đến đầu vào để điều chỉnh trọng số của mạng Quá trình này
cứ thế tiếp diễn cho đến khi sai số được tối thiểu hóa và kết quả nhận được là ma trận trọng số tối ưu Nói cách khác, điều chỉnh Δwji sao cho rmin, từ đó thu được ma trận trọng số tối ưu Wji
Với r = Y - d, (1) trở thành:
̅̅̅̅̅ ̅̅̅̅̅̅
Từ công thức trên, chúng ta thấy rằng việc điều chỉnh trọng số phụ thuộc vào giá trị đầu ra mục tiêu d, nghĩa là giá trị đầu ra mục tiêu d đã được đưa vào mạng để giám sát quá trình huấn luyện của mạng, tức mạng học có giám sát
Huấn luyện mạng có thể được thực hiện theo 2 cách Một là, trọng số và sai số được điều chỉnh sau khi mỗi mẫu dữ liệu được đưa vào cho quá trình huấn luyện, gọi là
Trang 33huấn luyện từng dòng (On-Line Training) Hai là, sau khi tất cả các dữ liệu trong tập
huấn luyện được đưa vào mạng thì mạng sẽ thực hiện huấn luyện, điều chỉnh trọng số
và sai số, gọi là huấn luyện hàng loạt (Batch Training) Về mặt lý thuyết, hai cách
huấn luyện tương đương nhau, nhưng huấn luyện từng dòng đôi khi có ưu điểm hơn huấn luyện hàng hoạt trong một vài trường hợp phức tạp
Học không có giám sát
Đối với cách học không giám sát, tập dữ liệu huấn luyện có dạng: D = (X1, X2, …,
Xn), trong đó (X1, X2, … , Xn) là véc-tơ n chiều đặc trưng cho các biến đầu vào của mẫu huấn luyện Véc-tơ đầu ra mục tiêu d sẽ không được đưa vào mạng Không giống như học có giám sát, học không có giám sát không có một tập hợp ban đầu của các nhóm mẫu đã được phân loại về các nhân tố tác động đầu vào mà Mạng thần kinh phải
tự triển khai các mẫu riêng cho nó Nhiệm vụ của mạng là phải tự học, tự nhận ra cấu trúc, đặc trưng nổi bật của các đầu vào hay mạng được huấn luyện Từ đó, mạng phân chia tập dữ liệu thành các nhóm, mỗi nhóm chứa các đầu vào có đặc trưng giống nhau Khi mỗi nhóm dữ liệu được nhận ra, chúng có thể được đặt tên, lúc này mạng có thể thực hiện phân loại Như vậy, đầu ra của mạng là nhóm dữ liệu được đặt tên và là các giá trị rời rạc Các giá trị đầu ra được huấn luyện nhằm đáp ứng lại các nhóm mẫu của các biến đầu vào và dữ liệu đầu vào của mạng bị nén lại để cho ra đầu ra của mạng là một tập con của tập huấn luyện D Do đó, dữ liệu đầu ra của toàn mạng trùng với dữ liệu đầu vào của mạng Như vậy, mạng được huấn luyện không phụ thuộc vào các tín hiệu bên ngoài (đầu ra mục tiêu d), không nhận thông tin phản hồi từ môi trường, tức mạng đã thực hiện một quá trình huấn luyện với việc học không giám sát
Hình thức đơn giản nhất của phương pháp học không giám sát được thể hiện trong quy tắc học Hebb Khi nơ-ron i và nơ-ron j được kích hoạt đồng thời, liên kết giữa chúng được tăng cường Nếu nơ-ron j nhận tín hiệu đầu vào nơ-ron i, thì trọng số kết nối giữa chúng sẽ được điều chỉnh: , trong trường hợp này r = xi
2.3.2.2 Học cấu trúc
Cấu trúc Mạng thần kinh nhân tạo được đặc trưng bởi các thành phần như số lớp ron, số nơ-ron trong mỗi lớp và cách mà các lớp liên kết với nhau Việc học cấu trúc (Structure Learning) của mạng chính là tìm ra số lượng lớp ẩn, số lượng nơ-ron ẩn trong mỗi lớp để tìm được một cấu trúc mạng hoạt động tốt nhất
nơ-2.3.3 Hàm truyền
Hàm truyền hay còn gọi là hàm kích hoạt là một thành phần không thể thiếu trong mô hình Mạng thần kinh Hàm truyền giúp cho thông tin được truyền từ nơ-ron này đến
Trang 34các nơ-ron khác, và kết quả của hàm truyền là thông tin đầu ra của mỗi lớp ẩn và lớp đầu ra Sau đây là một số hàm truyền thường được sử dụng
Hàm Heaviside
Hàm Heaviside hay hàm Unit Step, hàm này được sử dụng bởi McCulloch và Pitts (1943) Trong mô hình mạng thần kinh đơn giản với 2 lớp đầu vào – đầu ra, tín hiệu chỉ truyền từ đầu vào tới đầu ra khi cường độ tín hiệu đầu vào vượt qua một ngưỡng
cụ thể nào đó Lúc này đầu ra của mạng được giới hạn một trong hai giá trị:
Hình 2.11: Đồ thị biểu diễn hàm truyền Xích ma
Hàm Xích ma có giá trị trong đoạn [0;1] nên thường được dùng trong các ứng dụng
mà giá trị đầu ra nằm trong đoạn [0;1] Khi hàm Xích ma tiệm cận 0 thì hàm hầu như
Trang 35không còn nhạy đối với các xung điện nhận được từ lớp đầu vào, hay đầu ra không được kích hoạt
Hình 2.12: Đồ thị biểu diễn hàm Hyperbol
Hầu hết các mô hình thần kinh nhân tạo đều sử dụng hàm kích hoạt là các hàm phi tuyến tại một số lớp trong mô hình Các hàm phi tuyến thường được dùng là hàm xích
ma và hàm Hyperbol Khi mạng chứa các lớp ẩn thì hàm xích ma được ưa thích hơn hàm Heaviside Bởi lẽ, với hàm xích ma chỉ cần trọng số có một sự thay đổi nhỏ sẽ làm thay đổi giá trị đầu ra, còn với hàm Heaviside khi trọng số thay đổi sẽ không làm thay đổi giá trị đầu ra Ngoài ra, sai số của quá trình huấn luyện sẽ là một hằng số nếu dùng hàm Heaviside; do đó, độ dốc sẽ không tồn tại hoặc bằng 0 khiến cho quá trình huấn luyện không thể thực hiện với thuật toán truyền ngược
Một số hàm truyền khác trong phần mềm NeuroSolutions 6.01
Ngoài các hàm truyền phổ biến ở trên, còn có một số hàm hiện nay được sử dụng khá rộng rãi trong các mạng thần kinh nhân tạo, cụ thể như:
Hàm LinearTanhAxon
Hàm này có dạng như sau:
Trang 36{
Hình 2.13: Đồ thị biểu diễn hàm LinearTanhAxon
Hàm LinearSigmoidAxon
{
Hình 2.14: Đồ thị biểu diễn hàm LinearSigmoidAxon
Hàm SoftMaxAxon
∑ Với k là số nơ-ron lớp đầu ra
Các giá trị đầu ra của các nơ-ron lớp đầu ra nằm giữa 0 và 1 và tổng của các giá trị đầu
ra này bằng 1
Trang 37Hàm LinearAxon
∑ ∑
Trong đó:
Xi là giá trị đầu vào
n là số nơ-ron lớp đầu vào
m là số nơ-ron lớp tiếp sau lớp đầu vào
wji là trọng số kết nối giữa nơ-ron lớp đầu vào và nơ-ron lớp tiếp theo
Hàm BiasAxon
( )
Hàm Axon
( ) Kuan và White (1994) đã chứng minh rằng việc dùng các hàm truyền tuyến tính trong lớp đầu ra và các hàm truyền phi tuyến trong lớp ẩn có thể cho ra một phép tính gần
chính xác của bất kỳ hàm nào với mức độ chắc chắn, với điều kiện các nơ-ron ẩn đủ lớn
2.3.4 Thuật toán truyền ngƣợc
Thuật toán truyền ngược (BackPropagation) là một thuật toán điều chỉnh trọng số được sử dụng rất phổ biến Thuật ngữ truyền ngược đề cập đến chiều truyền của sai số Mục tiêu quan trọng nhất là thực hiện điều chỉnh những trọng số và độ lệch của mạng nhằm tối thiểu hóa sai số trong hàm đầu ra hay còn gọi là hàm chi phí (Cost Function) Việc học truyền ngược được mô hình tiến hành thực hiện trong một vài bước lặp nhỏ Chúng ta phải cung cấp tập dữ liệu học hỏi và giá trị đầu ra thực hay còn gọi là giá trị đầu ra mục tiêu để tạo nên tập các giá trị đầu vào – đầu ra Đầu tiên, một trong các giá trị đầu vào – đầu ra được đưa vào mạng Sau đó, Mạng thần kinh tạo ra các giá trị đầu
ra dựa vào các trọng số (ban đầu các giá trị trọng số này là ngẫu nhiên nằm trong khoảng (-1;1)) Giá trị đầu ra này được so sánh với giá trị đầu ra cho trước và sai số bình phương trung bình (MSE) được tính toán dựa trên sự so sánh này Giá trị sai số được truyền ngược trở lại qua Mạng thần kinh, và những trọng số tiếp tục được tính toán và điều chỉnh trong mỗi lớp nhằm làm giảm sai số Quá trinh được lặp lại cho mỗi giá trị đầu vào - đầu ra Cả chu trình được lặp lại cho đến khi sai số cục bộ giảm xuống dưới ngưỡng cho trước mà ta chấp nhận được Tại điểm này chúng ta nói rằng Mạng thần kinh đã học tốt; tuy nhiên, Mạng thần kinh chưa bao giờ học chính xác một hàm lý tưởng nhưng nó sẽ tiệm cận với hàm lý tưởng
Trang 38Có thể tóm tắt quá trình huấn luyện truyền ngược này thành những bước sau:
1 Các giá trị đầu vào được đưa vào Mạng thần kinh
2 Thuật toán bắt đầu bằng việc gán giá trị cho các trọng số một cách ngẫu nhiên Mạng thần kinh sẽ tính toán sai số giữa giá trị đầu ra mục tiêu và giá trị đầu ra của
mô hình Sai số được truyền ngược trở lại từ lớp đầu ra đến các lớp ẩn
3 Những trọng số của Mạng thần kinh tiếp tục được điều chỉnh sao cho làm giảm sai số
Hình 2.15: Mô hình Mạng thần kinh nhân tạo có sử dụng thuật toán truyền ngƣợc
Trong mô hình thần kinh nhân tạo, một quá trình gồm có 3 bước như trên đi từ đầu vào đến đầu ra được gọi là một vòng lặp Công việc huấn luyện có thể diễn ra với cả nghìn vòng lặp, và nó ngừng lại hoặc là khi đạt được số lượng vòng lặp bằng với số vòng lặp được chọn trước, hoặc là khi sai số của Mạng thần kinh (Sai số bình phương trung bình - MSE) được tối thiểu hóa nằm dưới một ngưỡng cho trước, hoặc là khi mạng xuất hiện tình trạng học quá mức và được ngừng lại với thủ tục ngừng đúng lúc Mạng thần kinh sử dụng sai số hoặc hàm mục tiêu (hay còn gọi là hàm chi phí) để đo lường sự khác nhau giữa giá trị mục tiêu và giá trị đầu ra Những trọng số được điều chỉnh sao cho sai số hoặc hàm mục tiêu càng nhỏ càng tốt Hàm mục tiêu có thể được viết như sau:
Với: Tt là giá trị đầu ra thực hay giá trị đầu ra mục tiêu ở vòng lặp thứ t
Yt là giá trị đầu ra được tính toán ở vòng lặp thứ t
Trang 39Hàm mục tiêu trong lý thuyết tối ưu hóa có 2 dạng phổ biến nhất là sai số tuyệt đối trung bình (MAE) và sai số bình phương trung bình (MSE)
∑
Với công thức (9), phân số được lựa chọn để tạo sự thuận lợi trong việc tính đạo hàm của hàm chi phí khi ước lượng tham số Trong đạo hàm, sẽ bị loại bỏ, trong khi đó nếu sử dụng phân số ⁄ thì khi tính đạo hàm chúng ta lại được ⁄ , điều này gây khó khăn khi ước lượng tham số của Mạng thần kinh
Mặc dù khi thực hiện thuật toán truyền ngược thì hàm tính chi phí E có phần khác so với hàm tính MSE, nhưng tối thiểu hóa hàm E cũng là tối thiểu hóa hàm MSE Do đó, hàm MSE được dùng trong thuật toán để đơn giản hóa trong việc xác định hiệu quả của mô hình
2.3.4.1 Điều chỉnh trọng số của Mạng thần kinh
Nếu E là giá trị của hàm sai số thì độ dốc của E theo trọng số là
Với là véc-tơ của tất cả các trọng số của Mạng thần kinh tại vòng lặp thứ t Khi áp dụng thuật toán truyền ngược thì kiến thức sẽ được cộng dồn qua quá trình học hỏi
Do đó, trọng số của Mạng thần kinh được điều chỉnh như sau:
Trong đó
t là các trọng số của Mạng thần kinh tại vòng lặp thứ t
Trang 40t + 1 là các trọng số tại vòng lặp (t + 1)
Δ( )t là quá trình học hỏi
Quá trình học của Mạng thần kinh giống như là quá trình học trong hệ thần kinh sinh học Kinh nghiệm học hỏi của Mạng thần kinh đòi hỏi phải điều chỉnh Δ( )t để giảm sai số tại mỗi vòng lặp Việc điều chỉnh trọng số của Mạng thần kinh được thực hiện theo nguyên tắc giảm độ dốc (Gradient descent)
2.3.4.2 Nguyên tắc giảm độ dốc
Nguyên tắc giảm độ dốc khá đơn giản Các trọng số được di chuyển theo hướng ngược với đường cong, do đó nó sẽ đến điểm mà có bề mặt phẳng hơn
Hình 2.16: Biểu diễn việc điều chỉnh các trọng số theo nguyên tắc giảm độ dốc
Ở hình trên, chúng ta thấy rằng các trọng số được liên tục thay đổi độ dốc để sau mỗi vòng lặp thì các trọng số cũ hướng tới vị trí các trọng số mới có giá trị tối ưu hơn; từ
đó, sai số của mô hình cũng sẽ được cải thiện Đáy của bề mặt là một vùng phẳng nơi
có độ cong ít nhất Các trọng số ứng với sai số tối thiểu là các trọng số tối ưu
Do đó, giá trị điều chỉnh trọng số sẽ bằng một tỷ lệ tương ứng của độ dốc hàm mục tiêu, Δ( )t được viết như sau:
Với α được gọi là tỷ lệ học hỏi hay kích thước bước (Step size), và là một hằng số xác định Khi đó công thức (11) trở thành