Một vài ưu điểm và nhược điểm của thuật toán Back-propagation

Một phần của tài liệu ĐỒ ÁN TỐT NGHIỆP Đề tài “Lý thuyết mạng Neuron và ứng dụng trong nhận dạng tiếng nói” (Trang 52 - 54)

PHƯƠNG PHÁP HỌC CHO MẠNG TIẾN (FEEDFORWARD) ĐA MỨC

2.2.6Một vài ưu điểm và nhược điểm của thuật toán Back-propagation

thuật toán Back-propagation

Thuật toán back-propagation luôn được coi như là thuật toán phổ biến nhất cho mô hình học có giám sát của mạng neuron tiến đa mức. Về cơ bản mà nói, nó là một kỹ thuật gradient (đạo hàm), chứ không phải là một kỹ thuật tối ưu hoá. Thuật toán này có hai thuộc tính riêng biệt:

* Nó rất đơn giản trong các tính toán cục bộ.

* Nó thực hiện sự dịch chuyển theo các gradient ngẫu nhiên trong

Hai tính chất này của thuật toán back-propagation đủ để trả lời cho tất cả các ưu và nhược điểm của nó.

Vấn đề tính toán cục bộ

Thuật toán back-propagation là một mô hình kết nối mà dựa trên các tính toán cục bộ để khám phá ra những khả năng xử lý thông tin của mạng neuron. Dạng giới hạn tính toán này được xem như một ràng buộc về tính cục bộ, với ý nghĩa là các tính toán của một neuron chỉ chịu ảnh hưởng của các neuron kết nối với nó. Việc sử dụng các tính toán cục bộ như vậy trong việc thiết kế mạng neuron nhân tạo thường được ủng hộ bởi ba lý do cơ bản:

Các mạng neuron nhân tạo thực hiện các tín toán cục bộ thường được duy trì như là một hình ảnh cuả các mạng lưới thần kinh sinh học.

Việc sử dụng các tính toán cục bộ cho phép một sự thoái hoá nhẹ nhàng về tính năng khi có lỗi cứng, và như vậy cung cấp cho chúng ta một nền tảng về một thiết kế mạng chấp nhận lỗi.

Các tính toán cục bộ thuận lợi cho việc sử dụng các kiến trúc song song như là một phương pháp hiệu quả để cài đặt các mạng neuron nhân tạo. Về lý do thứ nhất kể trên, liên quan đến sự hợp lý về mặt sinh học của thuật toán back-propagation, vẫn còn nhiều câu hỏi nghiêm túc được đặt ra mà chưa có lời giải đáp thoả đáng. Tuy nhiên những sự thiếu hụt về thần kinh sinh học không làm giảm đi giá trị về mặt kỹ thuật của thuật tián back-propagation với tư cách là một công cụ xử lý thông tin, và được chứng minh bằng những ứng dụng thành công của nó trong nhiều lĩnh vực khác nhau.

Vấn đề hiệu quả tính toán

Độ phức tạp về tính toán của một thuật toán thường được xác định bằng số lượng các phép cộng, phép nhân, và sự lưu trữ liên quan tới việc cài đặt nó. Một thuật toán học được gọi là hiệu quả trong tính toán khi độ phức tạp tính toán của nó là hàm đa thức của số lượng các tham số có thể điều chỉnh được. Trên cơ sở đó, chúng ta có thể nói rằng thuật toán back-propagation là hiệu quả trong tính toán. Đặc biệt, với việc sử dụng nó để tích luỹ một mạng tiến đa mức bao gồm W trọng

số synapse (kể cả các hệ số hiệu chỉnh), độ phức tạp của nó là một hàm tuyến tính của W. Điều này có thể dễ dàng được chứng minh bằng cách xem xét các tính toán liên quan đến việc thực hiện các giai đoạn tiến và lùi của thuật toán.

Vấn đề hội tụ

Thuật toán back-propagation sử dụng một “đánh giá tức thời” cho gradient của bề mặt lỗi trong không gian trọng số. Như vậy thuật toán là ngẫu nhiên về bản chất; nghĩa là nó có xu hướng đi theo những đường zigzag xung quanh hướng đi thực tới cực tiểu của bề mặt lỗi. Như vậy là nó có xu hướng hội tụ chậm; chúng ta có thể nêu ra hai nguyên nhân cơ bản sau:

Xét trường hợp bề mặt lỗi là khá bằng phẳng dọc theo một chiều trọng số nào đó. Điều này có nghĩa là đạo hàm của bề mặt lỗi theo trọng số này có trị tuyệt đối nhỏ. Trong trường hợp này, sự điều chỉnh áp dụng cho trọng số cũng nhỏ, và có thể cần nhiều vòng lặp kế tiếp nhau để có thể làm giảm đáng kể giá trị lỗi. Mặt khác nếu bề mặt lỗi có độ cong lớn dọc theo một chiều trọng số thì đạo hàm của bề mặt lỗi theo trọng số đang xét có trị số lớn, và như vậy các điều chỉnh áp dụng cho trọng số này cũng lớn. Điều này làm cho thuật toán có khả năng vượt quá điểm cực tiểu cần đi tới.

Chiều của vector gradient âm có thể chỉ theo hướng đi xa khỏi cực tiểu của mặt phẳng lỗi, và như vậy thì các điều chỉnh trọng số có xu hướng làm cho thuật toán đi sai hướng.

Theo một số nghiên cứu thực nghiệm, tốc độ hội tụ cục bộ của thuật toán back-propagation có tính chất tuyến tính, và có thể chính đó là nguồn gốc của các nguyên nhân gây ra sự chậm trễ của thuật toán. Gợi ý này đưa chúng ta đến một quan điểm như sau: Có thể các phương pháp tính toán với tốc độ hội tụ bậc cao hơn (có tính phi tuyến cao) sẽ cho phép hội tụ nhanh hơn nhưng yêu cầu nhiều nỗ lực tính toán hơn.

Một phần của tài liệu ĐỒ ÁN TỐT NGHIỆP Đề tài “Lý thuyết mạng Neuron và ứng dụng trong nhận dạng tiếng nói” (Trang 52 - 54)