Huấn luyện Gradient Descent

Một phần của tài liệu Tiểu luận môn công nghệ tri thức Ứng dụng mạng NEURAL dự đoán kết quả học sinh theo học kỳ (Trang 25)

Có nhiều thuật toán có thể dùng cho việc huấn luyện các mô hình mạng nơ-ron; hầu hết có thể được xem là áp dụng trực tiếp của lý thuyết tối ưu hóa và ước lượng thống kê.

Phần lớn các thuật toán huấn luyện mạng nơ-ron sử dụng một kiểu xuống dốc (gradient descent - tiến dần tới cực tiểu địa phương) nào đó. Điều này được thực hiện bằng cách lấy đạo hàm của hàm chi phí theo các tham số của mạng và thay đổi các tham số đó theo một hướng được tính toán theo độ dốc (gradient-related direction) để tiến dần tới cực tiểu địa phương của hàm chi phí.

Các phương pháp thường dùng cho huấn luyện mạng nơ-ron là: phương pháp tiến hóa, giải thuật luyện kim (simulated annealing), expectation maximisation (cực đại hóa kỳ vọng) và các phương pháp không tham số (non-parametric methods)

Kết quả trả về mong muốn của mạng: (18)

Các luật huấn luyện từ (3) đến (6) có thể biểu diễn một cách thuận tiện hơn, chúng có thể được tóm lược theo một dạng gọi là luật delta, thể hiện như sau:

Sự khác biệt của dk-yk đóng vai trò tín hiệu báo lỗi và k tương ứng với mẫu huấn luyện hiện tại. Tham số tỷ lệ huấn luyện là một hằng số dương giới hạn trong khoảng

0 ≤ n ≤ 1. Nguyên tắc huấn luyện là làm tăng đầu ra y bằng cách làm tăng w khi

e=d–y là số dương.

Do đó wi tăng nếu ui dương, và wi giảm nếu ui âm. Các tính năng theo ba nguyên tắc như sau:

- Đơn giản.

- Việc huấn luyện có thể thực hiện cục bộ tại mỗi noron.

- Việc cập nhật trọng số được thực hiện ngay và dùng những trọng số này để huấn luyện cho những mẫu kế tiếp.

Mục đích cuối cùng của việc huấn sửa lỗi là giảm tối thiểu hàm chi phí dựa trên tín hiệu báo lỗi e. Phản hồi của mỗi đầu ra của mạng noron gần đáp ứng được mục tiêu của mạng noron trong các trường hợp thống kê phán đoán. Thật vậy, một khi hàm đánh giá được chọn thì sự huấn luyện thật sự là vấn đề tối ưu hóa. Giá trị của hàm phổ biến là tổng bình phương của error:

Tổng tất cả các noron đầu ra của mạng ( chỉ số r). Mạng được huấn luyện bằng cách giảm thiểu đối với các trọng số, điều này dẫn đến phương pháp gradient descent. Phân số ½ dùng để đơn giản hóa sự khác biệt khi giảm thiểu . Một đồ thị biểu diễn giá

trị hàm (w) là một mặt phẳng đa chiều error – surface. Tùy thuộc vào loại hàm kích hoạt được sử dụng cho mạng chúng ta có thể gặp hai trường hợp:

1- Mạng hoàn toàn là những noron tuyến tính ( Mặt phẳng error là một hàm bậc hai của trọng số, có hình chảo với một điểm tối thiểu duy nhất).

2- Mạng gồm những noron không tuyến tính. ( Toàn bộ bề mặt cực tiểu). Trong cả hai trường hợp, mục tiêu của việc huấn luyện bắt đầu từ một điểm bất kỳ trên bề mặt, được xác định bởi trọng số và các yếu tố đầu vào ban đầu, di chuyển theo hướng cực tiểu toàn bộ từng bước một. Điều này khả thi với trường hợp thứ nhất, trong khi với trường hợp thứ hai thuật toán có thể bị vướng trong một tối tiểu cục bộ mà không bao giờ đạt tối tiểu toàn cục.

Hình 9: Ví dụ về bề mặt lỗi của một mạng Perceptron đơn giản.

Để xem bề mặt lỗi được hình thành như thế nào chúng ta sẽ tiến hành phân tích một mạng Perceptron đơn giản với một noron , đầu vào , một đối số, một hàm kích hoạt tuyến tính. Đầu ra của mạng là:

(22)

Giả sử cho một đầu vào cụ thể u=1, và một đầu ra mong muốn d=0.5, chúng ta có đồ thị mặt phẳng lỗi và hàm như sau:

(27)

Nếu có K mẫu trong tập huấn luyện, thì u, yd trở thành những vector có chiều dài K, và bình phương của các lỗi sẽ là tổng của các trường hợp w0, w1:

Tóm lại để nhỏ thì phải thay đổi trọng số theo hướng tiến dần về số âm của . Điều đó có nghĩa là:

Ở đây e được thay thế cho. Đạo hàm của cho biết error bị ảnh hưởng bao nhiêu bởi việc thay đổi trọng số. Có nhiều sự lựa chọn giá trị hàm (21), nếu giá trị được chọn là:

Phương pháp gradient cho thấy:

Một phần của tài liệu Tiểu luận môn công nghệ tri thức Ứng dụng mạng NEURAL dự đoán kết quả học sinh theo học kỳ (Trang 25)

Tải bản đầy đủ (DOCX)

(55 trang)
w