1. Trang chủ
  2. » Công Nghệ Thông Tin

Backpropagation

18 876 10
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

CHƯƠNG 5 Backpropagation Backpropagation thực hiện dựa trên quy luật học Widrow–Hoff tổng quát hóa cho mạng đa lớp và các hàm truyền phi tuyến khác nhau. Mạng có ngưỡng, một lớp sigmoid và một lớp tuyến tính ngõ ra có thể mô phỏng bất kì hàm nào với số mẫu rời rạc hữu hạn. Thuật toán Backpropagation chuẩn là gradient descent, chính là quy luật học Widrow–Hoff. Khái niệm Backpropagation mô tả cách tính gradient trong mạng đa lớp phi tuyến. Thuật toán cơ bản có một số thay đổi dựa trên các kỹ thuật tối ưu hóa chuẩn như là các phương pháp “conjugate gradient” và “Newton”. Mạng Backpropagation được huấn luyện chính xác sẽ cho đáp ứng hợp lý khi đưa ngõ vào chưa từng được huấn luyện. Thông thường tín hiệu mới vào có ngõ ra tương tự với ngõ ra chính xác của tín hiệu vào đã được huấn luyện giống với ngõ vào mới này. Do tính chất tổng quát hóa này, ta có thể huấn luyện mạng dựa trên các cặp vào/ra đại diện mà vẫn cho kết quả tốt đối với các tín hiệu chưa được huấn luyện. 1. TỔNG QUÁT 1.1 Cấu trúc Phần này sẽ trình bày cách thiết kế mạng thường sử dụng với thuật toán Backpropagation _ mạng feedforward đa lớp. 1.1.1 Mô hình neuron ( tansig, logsig, purelin ) Neuron cơ bản có R ngõ vào, mỗi ngõ vào có trọng số tương ứng là W. Tổng của các ngõ vào có trọng số và ngưỡng tạo nên tín hiệu vào của hàm truyền f. Neuron có thể sử dụng nhiều loại hàm truyền khác nhau để tạo ra tín hiệu ngõ ra. Mạng đa lớp thường sử dụng hàm truyền log_sigmoid. Hàm truyền logsig tạo giá trò ngõ ra giữa 0 và 1 khi ngõ vào biến thiên từ -  đến +. Hơn nữa, mạng đa lớp cũng có thể sử dụng hàm truyền tansig. Đôi khi mạng Backpropagation cũng sử dụng hàm tuyến tính purelin. Nếu lớp cuối cùng của mạng đa lớp có các neuron sigmoid thì ngõ ra của mạng giới hạn trong một vùng nhỏ. Nếu sử dụng neuron tuyến tính thì ngõ ra của mạng có thể lấy bất kỳ giá trò nào. 1.1.2 Mạng feedforward Mạng một lớp gồm các neuron logsig có hai ngõ vào như sau : Mạng này thường có một hay nhiều lớp ẩn gồm các neuron sigmoid, lớp ngõ ra thường gồm các neuron tuyến tính. Các neuron trong các lớp ẩn có hàm truyền phi tuyến cho phép mạng học các mối quan hệ tuyến tính và phi tuyến giữa vector ngõ vào và ngõ ra. Lớp ngõ ra tuyến tính cho phép mạng tạo giá trò ra khoảng (-1,1). Mặt khác nếu muốn ép buộc ngõ ra của mạng (ví dụ giữa 0 và 1) thì lớp ngõ ra nên sử dụng hàm truyền sigmoid (ví dụ logsig). a. Hàm tạo mạng (newff) Bước đầu tiên huấn luyện mạng feedfoward là tạo đối tượng mạng. Hàm newff tạo mạng feedforward. Ví dụ : Net= newff ( [-1 2; 0 5],[3 1],{‘tarsig’,’purelin’},’traingd’) ; Hàm trên tạo mạng hai ngõ vào, hai lớp có hàm truyền là tansig và purelin, dùng thuật toán gradient descent. b. Hàm khởi động các trọng số : Trước khi huấn luyện mạng feedforward, trọng số và ngưỡng phải được khởi tạo. Dùng lệnh init để tạo giá trò đầu cho trọng số và ngưỡng. Ví du ï: net = init (net) Kỹ thuật cụ thể sử dụng khởi tạo giá trò mạng phụ thuộc vào các thông số mạng như net.initFcn và net.Layer{I}.initFcn. Thông số net.initFcn sử dụng xác đònh hàm khởi động trên toàn mạng. Hàm mặc đònh cho mạng feedforward là initlay, cho phép mỗi lớp sử dụng hàm khởi động riêng của nó. Với cách cài đặt này, thông số net.layers{i}.initFcn xác đònh phương pháp khởi động cho mỗi lớp. Đối với mạng feedforward có 2 phương pháp khởi động lớp khác nhau, thường được sử dụng là initwb và initnw. Hàm initwb tạo giá trò khởi động trở về giá trò cũ đã khởi động của từng trọng số và ngưỡng. Đối với mạng feedforward giá trò khởi động của trọng số thường dùng hàm rand cho giá trò ngẫu nhiên giữa (-1,1). Cách này thường sử dụng khi hàm truyền lớp là tuyến tính. Hàm initnw thường sử dụng với mạng feedforward có hàm truyền sigmoid. Phương pháp này dựa trên kỹ thuật Nguyễn và Widrow, tạo giá trò trọng số và ngưỡng ban đầu cho một lớp trong vùng họat động của neuron lớp đó với mọi không gian ngõ vào. Phương pháp này có nhiều ưu điểm như : ít neuron bò thừa và công việc huấn luyện nhanh. Hàm khởi động init thường được hàm newff gọi, do đó mạng tự động khởi tạo các giá trò mặc đònh. Tuy nhiên người sử dụng nếu muốn có thể khởi tạo lại trọng số và ngưỡng. Ví dụ :net.layer{1}.initFcn = ‘initwb’; net.inputWeights {1,1}.initFcn = ‘rands’; net.biases{1,1}.initFcn = ‘rands’; net.biases{2,1}.initFcn = ‘rands’; net.init(net); 1.2 Huấn luyện mạng Khi trọng số và ngưỡng của mạng đã được khởi tạo, mạng đã sẵn sàng huấn luyện. Cách thức huấn luyện yêu cầu một tập các mẫu chỉ cách thức hoạt động của mạng gồm các cặp ngõ vào và ngõ ra. Hàm hiệu suất mặc đònh của mạng feedforward là trung bình bình phương sai số. Thuật toán Backpropagation Có nhiều thuật toán Backpropagation khác nhau. Cách thực hiện đơn giản nhất là cập nhật trọng số và ngưỡng trực tiếp sao cho hàm hiệu suất giảm nhanh nhất _ gradient có giá trò âm. Mỗi vòng lặp thuật toán được viết lại như sau : x k+1 = x k - α k g k Với x k : vector trọng số và ngưỡng hiện tại. g k : gradient hiện tại. k : tốc độ học. Có hai cách thực hiện gradient descent là chế độ incremental và chế độ batch. Trong chế độ incremental, gradient được tính và cập nhật trọng số sau mỗi ngõ vào đưa vào mạng. Trong chế độ batch, tất cả các ngõ vào đưa vào mạng trước khi cập nhật trọng số. a. Huấn luyện incremental (ADAPT) Trong chế độ incremental, việc huấn luyện mạng sử dụng hàm adapt. Có nhiều thông số phải được thiết lập để hướng dẫn huấn luyện ở chế độ incremental. Đầu tiên, hàm net.adaptFcn xác đònh sử dụng loại hàm huấn luyện. Giá trò mặc đònh là hàm adaptwb. Thông số xác đònh hàm học là net.biases{i,j}.learnFcn, net.inputWeight{I,j}.learnFcn và net.layerweights{i,j}.learnFcn. Cuối cùng là thông số xác đònh số lần huấn luyện net.adaptParam.passes. b. Hàm gradient descent (LEARNGD) Đối với thuật toán giảm gradient nhanh nhất, trọng số và ngưỡng di chuyển theo hướng gradient âm của hàm hiệu suất. Với thuật toán này, hàm học là learngd. Hàm learngd có một thông số học là tốc độ học lr. Tốc độ học càng lớn, thì bước nhảy càng lớn. Nếu tốc độ học quá lớn, thuật toán sẽ không ổn đònh. Nếu tốc độ học quá nhỏ, thuật toán sẽ hội tụ lâu. c. Hàm gradient descent có quán tính (LEARNGD) Bổ sung cho hàm learngd hội tụ nhanh hơn, mạng feedforward có thể sử dụng thuật toán learndm _ giảm dốc nhất có quán tính. Quán tính cho phép mạng đáp ứng không chỉ với gradient cục bộ, mà còn theo hướng mới của mặt phẳng sai số. Hoạt động giống bộ lọc thông thấp, moment cho phép mạng bỏ qua các biểu hiện nhỏ trên mặt phẳng sai số. Moment thay đổi trọng số bằng tổng một phần sự thay đổi trọng số cuối cùng và sự thay đổi mới nhất theo quy luật học backpropagation. Biên độ ảnh hưởng của độ thay đổi trọng số cuối cùng cho phép có là trung bình bằng một hằng số moment, là số giữa (0,1). Khi moment bằng 0, trọng số thay đổi theo gradient. Khi moment bằng 1, trọng số thay đổi dựa trên sự thay đổi trọng số cũ và bỏ qua giá trò gradient. d. Huấn luyện batch (TRAIN) Ở chế độ này sử dụng hàm train, các trọng số và ngưỡng được cập nhật chỉ sau khi toàn bộ tập huấn luyện đã đi qua mạng. Gradient của mỗi mẫu huấn luyện được cộng dồn để xác đònh độ thay đổi của trọng số và ngưỡng. e. Batch gradient descent (TRAINGD) Tương đương với hàm learngd trong chế độ này là traingd, thực hiện hàm huấn luyện giảm dốc nhất chuẩn. Trọng số và ngưỡng được cập nhật theo chiều hướng gradient âm của hàm hiệu suất. Có bảy thông số huấn luyện đối với hàm traingd là epochs, show, goal, time, min_grad, max_fail và lr. f. Batch gradient descent với momentum (TRAINGDM) Thuật toán này tương đương với learngdm nhưng có hai điểm khác biệt. Thứ nhất, gradient được tính bằng cách lấy tổng các gradient trong mỗi mẫu huấn luyện, trọng số và ngưỡng chỉ được cập nhật sau khi tất cả các mẫu huấn luyện đi qua mạng. Thứ hai, nếu hàm hiệu suất mới với số vòng lặp cho trước vượt quá hàm hiệu suất của vòng lặp trước đó hơn max-perf-inc thì trọng số và ngưỡng mới sẽ bò hủy bỏ, hệ số moment cho bằng 0. 2. HUẤN LUYỆN NHANH Phần trên chúng ta đã trình bày hai thuật toán huấn luyện backpropagation : gradient descent và gradient descent có quán tính. Hai phương pháp này ứng dụng trong thực tế khá chậm. Chúng ta sẽ khảo sát nhiều thuật toán có hiệu suất cao hội tụ nhanh từ 10 đến 100 lần so với các thuật toán đã khảo sát ở trên. Các giải thuật nhanh chia làm 2 loại chính : • Loại thứ nhất sử dụng kỹ thuật thử là kỹ thuật được mở rộng từ việc phân tích hiệu suất của thuật toán giảm dốc nhất chuẩn. Kỹ thuật này gồm giải thuật backpropagation tốc độ học thay đổi có hàm huấn luyện traingda; và giải thuật phục hồi mạng backpropagation với hàm huấn luyện trainrp. • Loại thứ hai sử dụng kỹ thuật tối ưu hóa số chuẩn. Loại này có ba kỹ thuật tối ưu hóa số dùng để huấn luyện mạng Neural Networks : conjugate gradient (traincgf, traincgb, traincgp, trainscg), quasi _ Newton (trainbfg, trainoss) và Levenberg _ Marquardt (trainlm). 2.1 Giải thuật tốc độ học thay đổi (TRAINDA,TRAINDX) Trong giải thuật giảm dốc nhất chuẩn, tốc độ học được giữ cố đònh trong suốt thời gian huấn luyện. Hiệu suất giải thuật này rất nhạy với sự thay đổi của tốc độ học. Nếu tốc độ học quá lớn giải thuật sẽ bò dao động và không ổn đònh. Nếu tốc độ học quá nhỏ giải thuật sẽ tốn nhiều thời gian để hội tụ. Trong thực tế khó xác đònh tốc độ học tối ưu và tốc độ học tối ưu thay đổi trong suốt quá trình xử lý huấn luyện, khi giải thuật di chuyển trên mặt phẳng hiệu suất. Hiệu suất của giải thuật giảm dốc nhất sẽ tăng nếu chúng ta cho phép tốc độ học thay đổi trong suốt quá trình xử lý huấn luyện. Tốc độ học thích ứng sẽ cố gắng giữ bước nhảy càng lớn càng tốt mà vẫn giữ việc học ổn đònh. Tốc độ học sẽ tương ứng với độ phức tạp của mặt phẳng sai số cục bộ. Tốc độ học thích ứng yêu cầu có một vài thay đổi trong xử lý huấn luyện khi gọi hàm traingd. Đầu tiên ngõ ra của mạng và sai số sẽ được tính. Ở mỗi epoch trọng số và ngưỡng mới được tính dựa trên tốc độ học hiện tại. Ngõ ra và sai số mới sau đó mới được tính. Khi có quán tính, nếu tỉ số sai số mới và sai số cũ lớn hơn max-perf-inc (thường bàng 1,04) thì trọng số và ngưỡng mới sẽ bò hủy. Lúc này tốc độ học sẽ giảm (thường nhân với tỉ lệ lr_dec = 0,7 ). Ngược lại trọng số, ngưỡng mới v.v sẽ được giữ. Nếu sai số mới nhỏ hơn sai số cũ thì tốc độ học tăng (thường nhân với tỉ lệ lr_inc = 1,05). Thủ tục này làm tăng tốc độ học, nhưng chỉ mở rộng đối với mạng học không làm tăng sai số lớn. Vì thế, tốc độ học gần tối ưu sẽ đạt được trong một vùng cục bộ. Khi tốc độ học lớn hơn có thể làm cho việc học ổn đònh thì tốc độ học sẽ tăng. 2.2 Giải thuật phục hồi mạng backpropagation (TRAINRP) Mạng đa lớp thường sử dụng hàm truyền sigmoid trong các lớp ẩn. Những hàm này gọi là hàm nén, vì chúng nén vùng ngõ vào vô hạn thành vùng ngõ ra hữu hạn. Hàm sigmoid có đặc tính là độ dốc của hàm đạt zero khi ngõ vào có giá trò lớn. Đây chính là vấn đề được đề cập khi sử dụng giải thuật độ dốc lớn nhất để huấn luyện mạng đa lớp dùng hàm sigmoid, vì gradient có thể có biên độ rất nhỏ, và do đó trọng số và ngưỡng chỉ thay đổi nhỏ, cho dù trọng số và ngưỡng ở rất xa giá trò tối ưu. Mục đích của thuật toán huấn luyện phục hồi mạng backpropagation là loại bỏ các hậu quả này về biên độ của các đạo hàm riêng phần. Chỉ sử dụng dấu của đạo hàm để xác đònh hướng cập nhật trọng số; biên độ của đạo hàm không ảnh hưởng đến việc cập nhật trọng số. Độ thay đổi trọng số dựa trên giá trò cập nhật riêng lẻ. Giá trò cập nhật của mỗi trọng số và ngưỡng tăng bởi hệ del-inc khi đạo hàm của hàm hiệu suất tại những trong số tức thời cùng dấu với 2 lần lặp tiếp theo. Giá trò cập nhật sẽ giảm bởi hệ số del-dec khi đạo hàm ứng với trọng số hiện tại đổi dấu so với lần lặp trước đó. Nếu đạo hàm bằng không thì giá trò cập nhật giữ nguyên. Khi trọng số dao động thì sự thay đổi trọng số sẽ giảm, nếu trọng số tiếp tục thay đổi trên cùng một hướng sau nhiều vòng lặp thì biên độ thay đổi trọng số sẽ giảm. Phương pháp này thường nhanh hơn giải thuật giảm độ dốc nhất chuẩn. 2.3 Giải thuật conjugate_ gradient Giải thuật backpropagation cơ bản điều chỉnh trọng số theo hướng giảm dốc nhất. Đây là hướng mà hàm hiệu suất sẽ giảm nhanh nhất. Mặc dù hàm giảm nhanh theo hướng gradient nhưng không có nghóa hội tụ nhanh. Trong các giải thuật conjugate gradient sẽ tìm dọc theo hướng liên hợp, thông thường tạo ra độ hội tụ nhanh hơn hướng giảm dốc nhất. Có bốn phương pháp khác nhau về giải thuật conjugate gradient. Trong hầu hết các giải thuật huấn luyện đã được trình bày, tốc độ học dùng để xác đònh độ dài cập nhật trọng số (kích thước nấc). Hầu hết các giải thuật conjugate gradient, kích thước nấc sẽ thay đổi sau mỗi vòng lặp. Giải thuật sẽ tìm dọc theo hướng gradient liên hợp để xác đònh kích thước nấc cực tiểu hóa hàm hiệu suất. 2.3.1 Giải thuật cập nhật Fletcher-Reeves (TRAINCGF) Tất cả các giải thuật gradient liên hợp đều bắt đầu bằng việc đònh hướng giảm dốc nhất ở vòng lặp đầu tiên (gradient âm). p 0 = -g 0 Một đònh hướng sau đó sẽ được thực hiện để xác đònh khoảng cách tối ưu di chuyển dọc theo hướng tìm hiện tại. x k+1 = x k + α k p k Hướng tìm kiếm tiếp theo được xác đònh bằng cách lấy liên hợp hướng trước đó. Thủ tục tổng quát để xác đònh hướng tìm mới là kết hợp hướng giảm dốc nhất mới với hướng tìm trước đó. p k = -g k + β k p k-1 Ta phân biệt các giải thuật conjugate gradient dựa trên cách tính β k . Đối với phương pháp Fletcher-Reeves, β k được tính như sau : 1 1 − − = k T k k T k k gg gg β 2.3.2 Giải thuật cập nhật Polak – Ribiére (TRAIN CGP) Đây là một phương pháp khác của giải thuật conjugate gradient. Tương tự như phương pháp Flecher - Reeves, hướng tìm ở mỗi vòng lặp được xác đònh bởi : p k = -g k + β k p k-1 với 1 1 1 − − − ∆ = k T k k T k k gg gg β 2.3.3 Giải thuậât khởi động lại Powell – Beale (TRAINCGB) Đối với các giải thuật conjugate gradient, hướng tìm sẽ được khởi động lại sau mỗi chu kỳ. Điểm khởi động chuẩn xuất hiện khi số chu kỳ bằng thông số của mạng. Phương pháp Powell –Beale sẽ làm tăng hiệu suất huấn luyện, khởi động lại về giá trò âm gradient nếu giá trò trực giao giữa gradient cũ và mới còn lại rất nhỏ, nghóa là thỏa điều kiện. 2 1 2.0 kk T k ggg ≥ − 2.3.4 Giải thuậât Scaled Conjugate Gradient (TRAINSCG) Trong mỗi thuật toán conjugate gradient đều yêu cầu hướng tìm ở mỗi vòng lặp. Việc tìm này rất phức tạp vì yêu cầu mạng đáp ứng cho tất cả ngõ vào huấn luyện và được tính nhiều lần trong mỗi vòng lặp. Thuật toán Scaled Conjugate Gradient tránh sự phức tạp này. 2.4 Các thuật toán quasi – newton 2.4.1 Giải thuật BFGS (TRAINBFG) Phương pháp Newton là một phương pháp thay thế phương pháp conjugate gradient cho độ hội tụ nhanh. Bước cơ bản của phương pháp Newton là : x k+1 = x k – A -1 k g k với A k là ma trận Hessian (đạo hàm cấp 2) của hàm hiệu suất tại giá trò hiện tại của trọng số và ngưỡng. Tuy nhiên phương pháp này khó tính ma trận Hessian đối với mạng feedforward. Có nhiều thuật toán dựa trên phương pháp Newton, nhưng không cần tính đạo hàm cấp 2, gọi là phương pháp Quasi – Newton. Phương pháp này cập nhật ma trận Hessian gần đúng mỗi vòng lặp thuật toán. Việc cập nhật được tính là một hàm của gradient. Giải thuật BFGS yêu cầu tính nhiều hơn trong mỗi vòng lặp và lưu trữ nhiều hơn so với phương pháp conjugate gradient, và thường hội tụ sau một ít vòng lặp. Đối với các mạng lớn, tốt hơn ta nên dùng giải thuật backpropagation hay conjugate gradient. Tuy nhiên, đối với mạng nhỏ thì trainbfg hoạt động rất có hiệu quả. 2.4.2 Giải thuậât One Step Secant (TRAINOSS) Trong khi giải thuật BFGS yêu cầu lưu trữ và tính toán nhiều hơn so với phương pháp conjugate gradient, thì phương pháp One Step Secant yêu cầu lưu trữ và tính toán ít hơn. Giải thuật này như là cầu nối giữa giải thuật conjugate gradient và quasi – Newton. Giải thuật này không lưu toàn bộ ma trận Hessian, phương pháp này giả thiết ở mỗi vòng lặp ma trận Hessian trước đó là ma trận đồng nhất. Do đó phương pháp này có ưu diểm là hướng tìm mới được tính mà không cần tính ma trận ngược. 2.5 Giải thuật Levenberg – Marquardt (TRAINLM) Giống như phương pháp Quasi-Newton, giải thuật Levenberg – Marquardt được thiết kế để đạt được tốc độ bậc 2 mà không phải tính ma trận Hessian. Khi hàm hiệu suất có dạng là tổng bình phương thì ma trận Hessian được tính là : H = J T J và gradient được tính là : g = J T e. [...]... backpropagation đa lớp có đủ neuron để thực hiện bất kỳ hàm nào, nhưng backpropagation vẫn không phải luôn luôn tìm được chính xác các trọng số và ngưỡng Do đó chúng ta phải chạy thử mạng rất nhiều lần để có thể cho kết quả tốt Mạng cũng rất nhạy đối với số neuron trong các lớp ẩn Quá ít neuron thì không khít Quá nhiều neuron sẽ quá khít Do đó chúng ta phải thực hiện tổng quát hóa mạng 7 TÓM TẮT Backpropagation. .. toán tuyến tính và phi tuyến, cũng như các hàm trừu tượng khác Như thế mạng đã vượt qua các hạn chế của perceptron và mạng tuyến tính Tuy nhiên, mạng được huấn luyện theo lý thuyết phải chính xác, nên backpropagation và các biến thể của nó không phải luôn luôn tìm được cách giải quyết vấn đề tốt Tốc độ học trong mạng phi tuyến là một thách thức thực sự Giống như mạng tuyến tính, tốc độ học quá lớn sẽ...Và J là ma trận Jacobian là đạo hàm bậc nhất sai số mạng tại điểm trọng số và ngưỡng hiện tại, và e là vertor sai số mạng Ma trận Jacobian được tính bằng kỹ thuật backpropagation chuẩn nên ít phức tạp hơn tính ma trận Hessian Giải thuật Levenberg_Marquardt sử dụng phép gần đúng này với ma trận Hessian trong phương pháp Newton : [ x k +1 = x k − J T J + µI ] −1 JTe... neuron thì không khít Quá nhiều neuron sẽ quá khít Do đó chúng ta phải thực hiện tổng quát hóa mạng 7 TÓM TẮT Backpropagation có thể huấn luyện mạng feedforward với nhiều hàm truyền khác nhau Khái niệm backpropagation dựa trên quá trình xử lý bằng cách lấy đạo hàm của sai số mạng Quá trình xử lý này sử dụng nhiều chiến lược tối ưu hóa khác nhau Cấu trúc mạng đa lớp không bò bài toán ép buộc hoàn toàn... nhiên số lớp ẩn và kích thước của các lớp do người thiết kế chọn Mạng hai lớp có hàm truyền sigmoid/ linear có thể biểu diễn bất kỳ hàm nào nếu lớp sigmoid có đủ neuron Có nhiều thuật toán huấn luyện backpropagation khác nhau Chúng khác nhau về cách tính toán, dung lượng bộ nhớ và không có thuật toán nào là tốt nhất đối với mọi trường hợp HÀM Traingd Traingdm Traingdx Trainrp Traincgf Traincgp Traincgb... incremental Gradient descent có quán tính Thường nhanh hơn traingd, có thể sử dụng trong chế độ nấc Tốc độ học thay đổi Huấn luyện nhanh hơn traingd nhưng chỉ có thể sử dụng trong chế độ batch Resillient backpropagation Đây là thuật toán huấn luyện chế độ batch đơn giản, có độ hội tụ nhanh và ít tốn bộ nhớ Thuật toán conjugate gradient Fletcher – Reeves Ít tốn bộ nhớ nhất trong các thuật toán conjugate . CHƯƠNG 5 Backpropagation Backpropagation thực hiện dựa trên quy luật học Widrow–Hoff tổng quát. mẫu rời rạc hữu hạn. Thuật toán Backpropagation chuẩn là gradient descent, chính là quy luật học Widrow–Hoff. Khái niệm Backpropagation mô tả cách tính

Ngày đăng: 29/09/2013, 06:20

Xem thêm

HÌNH ẢNH LIÊN QUAN

Hình dưới cho thấy đáp ứng của mạng 1– 20-1 huấn luyện lần theo hàm sin. Rõ ràng mạng này quá khít với dữ liệu và không tổng quát hóa tốt. - Backpropagation
Hình d ưới cho thấy đáp ứng của mạng 1– 20-1 huấn luyện lần theo hàm sin. Rõ ràng mạng này quá khít với dữ liệu và không tổng quát hóa tốt (Trang 12)

TỪ KHÓA LIÊN QUAN

w