Thiết kế cấu trúc của mạng neural nhân tạo nhiều l- 123docz.net

Chƣơng 1 KỸ THUẬT MÔ HÌNH VỈA NỨT NẺ LIÊN TỤC

2.2. Mạng thần kinh nhân tạo xây dựng cƣờng độ nứt nẻ

2.2.6. Thiết kế cấu trúc của mạng neural nhân tạo nhiều lớp truyền thẳng

Mặc dù về mặt lý thuyết, luôn tồn tại một mạng nhiều lớp truyền thẳng có thể làm việc với một bài toán với độ chính xác bất kỳ [26]. Tuy nhiên, để có thể tìm ra cấu trúc của mạng này là điều không hề đơn giản. Để xác định chính xác một kiến trúc mạng nhƣ: cần bao nhiêu lớp ẩn ?; số phần tử trong lớp ẩn là bao nhiêu ?, để giải đƣợc những câu hỏi trên là một công việc khó khăn và phụ thuộc vào từng bài toán cụ thể [22].

2.2.6.1. Số lớp ẩn

Trong các nghiên cứu trƣớc đây về mạng thần kinh nhân tạo đã chỉ ra trên lý thuyết một mạng 3 lớp truyền thẳng (với 1 lớp ẩn) là đủ để xấp xỉ mọi mối quan hệ, cơ sở toán học của việc khẳng định rằng mạng thần kinh nhân tạo ba lớp truyền thẳng là công cụ xấp xỉ vạn năng các hàm số liên tục dựa trên các định lý Stone – Weierstrass và Kolmogorov [26] . Việc sử dụng định lý Stone – Weierstrass để chứng minh khả năng xấp xỉ của mạng thần kinh nhân tạo đã đƣợc các tác giả Hornik et al. Funahashi, Cotter, Blum đã ra từ năm 1989. Tuy nhiên trên thực tế, khi đối mặt với một số bài toán phức tạp một số nghiên cứu vẫn phải sử dụng tới loại mạng sâu hơn với hai lớp ẩn nhƣ bài toán mô phỏng hai dòng xoáy [10] [11], bài toán mô phỏng đặc trƣng nứt nẻ trong vỉa nứt nẻ tự nhiên của tác giả Abdelkader Kouider El Ouahed [1],... Tuy nhiên khi sử dụng nhiều lớp ẩn, một số khó khăn gặp phải là:

- Phần lớn các thuật toán huấn luyện cho mạng thần kinh nhân tạo đều dựa trên các gradient (thuật toán gradient descent). Việc tăng thêm các lớp ẩn sẽ làm cho vector gradient không ổn định. Sự thành công của bất kỳ một thuật toán tối ƣu

theo gradient phụ thuộc rất lớn vào độ thay đổi của hƣớng khi mà các tham số thay đổi [26].

- Khi tăng thêm các lớp ẩn sẽ làm tăng thêm số lƣợng các cực trị địa phƣơng. Các thuật toán tối ƣu dựa trên gradient thƣờng sẽ bị bẫy ở cực trị địa phƣơng gần điểm xuất phát nhất [21] [22] [26].

2.2.6.2. Số đơn vị trong lớp ẩn

Một vấn đề quan trong trong việc thiết kế mạng neural nhân tạo nhiều lớp truyền thẳng là cần phải sử dụng bao nhiêu đơn vị trong mỗi lớp ẩn. Sử dụng quá ít đơn vị có thể dẫn đến việc mạng hoạt động mà không hội tụ, hay thiếu ăn khớp (underfitting). Sử dụng quá nhiều đơn vị sẽ làm cho mạng hoạt động chậm, ra tăng thời gian huấn luyện mạng, nếu số lƣợng đơn vị trong lớp ẩn là quá lớn còn có thể gây ra lỗi quá khớp (overfitting)[14] [22] [26]. Có một số phƣơng pháp mang tính kỹ thuật đề chọn lựa số phẩn tử trong các lớp ẩn:

- mn O, nằm giữa khoảng kích thƣớc lớp đầu vào và lớp đầu ra, trong đó m

là số đơn vị trong lớp ẩn, n là số đơn vị trong lớp đầu vào, O là số đơn vị trong lớp đầu ra (nhƣ ký hiệu trong hình 2.17).

- 2 

m O

m 

 tổng kích thƣớc của lớp đầu vào và lớp đầu ra. - m2n kích thƣớc lớp ẩn nhỏ hơn hai lần kích thƣớc lớp đầu vào.

- m On kích thƣớc lớp ẩn bằng căn bậc hai của tích kích thƣớc lớp đầu vào và đầu ra.

Các quy luật nói trên chỉ là các lựa chọn thô ban đầu, chúng không phản ánh đƣợc thực tế, bởi lẽ chúng chỉ xem xét đến nhân tố kích thƣớc của đầu vào và đầu ra mà bỏ qua các tác nhân quan trọng khác: nhƣ số mẫu huấn luyện, độ nhiễu ở đầu ra mục tiêu, độ phức tạp của hàm sai số, và luật học.

Năm 1991 Falman có trình bày một loại kiến trúc mạng phân lớp truyền thẳng và gọi nó là Cascade Correlation Neural Network – CCNN, mạng này có thể tự xây dựng số lớp ẩn và các liên kết dựa vào hai pha là pha đề cử và pha chặt tỉa các liên kết nội [11] [12], nhƣng trong nội dung luận văn này không đề cập đến loại mạng này.

Thiết kế cấu trúc của mạng neural nhân tạo nhiều lớp truyền thẳng

Mang thần kinh nhân tạo quy hồi

Sơ đồ hoạt động của chƣơng trình