Các mạng nơ ron nhiều lớp (Multi-layer Neural Network)

Một phần của tài liệu nhận dạng ảnh Pattern recognition (Trang 26 - 29)

Rosenblatt và các tác giả khác cũng đã mô tả các mạng truyền thẳng nhiều lớp từ cuối những năm 50, nhng họ chủ yếu chỉ nghiên cứu sâu về mạng Perceptron một lớp. Sở dĩ nh vậy là do không tìm đợc cách thay đổi trọng số liên kết tại các lớp ẩn. Quả thật, ngay cả khi đã biết đợc sai số tại các đầu ra, ngời ta vẫn cha hình dung đợc các sai số đó đợc phân bố nh thế nào tại các nơ ron ẩn. Trong cuốn sách về mạng Perceptron xuất bản 1969, Minsky và Papert đã chỉ ra rằng khó có thể tổng quát hoá luật học đối với mạng một lớp sang mạng nhiều lớp. Có 2 lý giải chính cho vấn đề nàỵ Thứ nhất, thuật giải học của mạng nhiều lớp có thể không hiệu quả, hoặc không hội tụ về điểm cực trị tổng thể trong không gian vectơ trọng số. Mặt khác, các nghiên cứu trong lý thuyết tính toán đã chỉ ra rằng trong trờng hợp tồi nhất quá trình học các hàm tổng quát từ mẫu học không phải lúc nào cũng giải quyết đợc. Các nguyên tắc cơ bản trong luật học đối với mạng nhiều lớp đã đợc Bryson và Ho đề xuất từ năm 1969, nhng phải tới giữa năm 1980 vấn đề này mới đợc quan tâm trở lại bởi công trình nghiên cứu của Rumelhart năm 1986. Một thống kê cho thấy 90% ứng dụng mạng nơ ron trong công nghệ hoá học sử dụng mô hình nàỵ

Ạ Kiến trúc mạng I1 I2 I3 Ik Lớp ra (0) wjk aj H4 H5 Lớp ra (1) wjij outi O6 Lớp ra (2) Hình 7.23. Mạng nơ ron 2 lớp

Các nơ ron lớp thứ t đợc nối đầy đủ với các nơ ron lớp thứ t+1. Trong nhiều ứng dụng thực tế, để đơn giản, ngời ta thờng sử dụng mạng có một lớp ẩn, số nơ ron trong lớp ẩn đợc xác định dựa trên kinh nghiệm, hoặc dựa trên các kỹ thuật tìm kiếm khác nhau (xem D, mục 1.2.2).

B. Huấn luyện mạng

Quá trình huấn luyện mạng đợc trình bày ở đây là quá trình học có giám sát với tập mẫu {(Xs, Ys)}. Thủ tục học có thể tóm lợc nh sau:

Mỗi khi đa một mẫu Xs = (x1 , ..., xn) vào mạng, ta thực hiện các công việc sau: - Lan truyền mẫu Xs qua mạng để có outs = Tinh (Xs, NN)

- Tính sai số Errs của mạng dựa trên sai lệch outs - Ys

- Hiệu chỉnh các trọng số liên kết nơ ron dẫn tới lớp ra Wij từ nơ ron j tại lớp ẩn cuối cùng tới nơ ron i tại lớp ra:

wij = wij + α . aj . δi, (15) ở đây: α là hệ số học,

aj là đầu ra của nơ ron j,

δi là sai số mà nơ ron i ở lớp ra phải chịu trách nhiệm, đợc xác định theo công thức: δi = erri g'(Neti) (16)

với erri là sai số thành phần thứ i trong Errs , Neti là tổng thông tin vào có trong số của nơ ron thứ i (Neti=∑wij.aj) và g'(.) là đạo hàm của hàm kích hoạt g đợc dùng trong các nơ ron.

- Hiệu chỉnh các trọng số liên kết nơ ron Wjk dẫn tới tất cả lớp ẩn từ nơ ron thứ k sang nơ ron j (các lớp ẩn đợc xét từ dới lên) :

− Tính tổng sai số tại nơ ron j phải chịu trách nhiệm

Nhập môn xử lý ảnh số - ĐHBK Hà nội = ∑ 190 i wij i ) j (Net g' j δ δ (17)

− Hiệu chỉnh trọng số wjk

wjk = wjk +α ak δj (18)

(trờng hợp xét liên kết từ nơ ron vào thứ k sang nơ ron j trên lớp ẩn thứ nhất, ta có ak = Ik, chính là tín hiệu vào). Chú ý :

a) Trờng hợp xét hàm kích hoạt tại các nơ ron

ta có hệ thức g'(x)=g(x)(1-g(x)).

b) Từ các công thức (15), (18) ta có thể viết lại: wij = wij + ∆wij , wjk = wjk + ∆wjk , với ∆wij = α aj δi và ∆wjk = α ak δj

Trong các ứng dụng thực tế, ngời ta thờng hiệu chỉnh ∆wij theo nguyên tắc có chú ý đến thao tác trớc đó. Do vậy:

∆wij(mới) = α aj δi + β∆wij(cũ), ở đây β là hệ số quán tính.

Quá trình huấn luyện mạng cần chú ý tới các yếu tố sau:

ị Các trọng số ban đầu wij đợc gán các giá trị ngẫu nhiên, nhỏ

iị Lựa chọn các hệ số học α và hệ số quán tính β sao cho α + β≈1, với β không lớn hơn α quá nhiềụ

iiị Các tín hiệu vào, ra nên đợc định cỡ chỉ nằm trong khoảng [0,1]. Các nghiên cứu thực nghiệm chỉ ra rằng nên ở trong khoảng [0.2,0.8].

C. Sử dụng mạng

Giả sử đã huấn luyện mạng nh trên hình 7.23 với tập mẫu {(Xs,Ys)} để đợc ma trận trọng số W. Quá trình lan truyền trong mạng một vectơ tín hiệu vào X=(x1,x2,x3) đợc cho bởi:

out = g(w64 a4 + w 65 a5) = g(w 64 g(w 41 x1 + w 42 x2 + w 43 x3) + w 65 g(w 51 x1 + w 52 x2 + w 53 x3)) = F ( X , W)

Khả năng tính toán của mạng nhiều lớp

− Với một lớp ẩn, mạng có thể tính toán xấp xỉ một hàm liên tục bất kỳ đối với các biến tơng ứng là các tín hiệu đầu vàọ

− Với hai lớp ẩn, mạng có thể tính toán xấp xỉ một hàm bất kỳ. Tuy vậy, số nơ ron trong các lớp ẩn có thể tăng theo hàm mũ đối với số đầu vào và cho đến nay vẫn cha có những cơ sở lý luận đầy đủ để khảo sát họ các hàm có thể xấp xỉ nhờ các mạng nhiều lớp.

D. Nghiên cứu sự hội tụ và độ phức tạp của quá trình huấn luyện mạng

Phơng pháp hiệu chỉnh trọng số liên kết nơ ron (15)(18) dựa trên nguyên tắc lan truyền ngợc sai số có thể lý giải dựa trên nguyên lý tìm kiếm gradient trong không gian các tham số W sao cho cực tiểu hàm sai số tổng cộng:

ở đây, Yi là giá trị thực nghiệm quan sát đợc tại nơ ron i ở lớp ra, outi là giá trị tính toán của mạng tại nơ ron thứ i ở lớp

ra đối với mẫu Xs.

Khai triển E theo các trọng số thành phần, ta có:

x e x g( )=1+1− 2 ) ( 2 1 ) (w = ∑ Yiouti E

Lấy đạo hàm riêng của E theo các wij:

Việc hiệu chỉnh vectơ trọng số W = (wij) sao cho E(W)→min dẫn tới việc xác định vectơ gia số ∆W= (∆wij) ngợc hớng với vectơ gradient (∂E/∂wij). Nói cách khác,

∆wij = -α(-δi aj) = δi aj

∆wjk = -α(-δj ak) = δj ak

Công thức này phù hợp với các công thức (15) (18) tơng ứng.

Độ phức tạp thời gian của mạng nhiều lớp chủ yếu phụ thuộc vào thời gian huấn luyện mạng với một tập mẫu nào đó. Giả sử có m mẫu vào và |W| trọng số. Mỗi lần đa tất cả các mẫu đi qua mạng (gọi là một vòng lặp (epoch)) phải tốn O(m|W|) thao tác nơ ron. Trong trờng hợp xấu nhất, số vòng lặp sẽ phụ thuộc hàm mũ vào số đầu vào n. Do vậy, chi phí thời gian sẽ là O(knm|W|).

Hơn nữa quá trình học không phải lúc nào cũng hội tụ và có thể dẫn tới các cực tiểu địa phơng của hàm Ẹ Khi dùng mạng nơ ron nhiều lớp để biểu diễn tất cả các hàm logic có n đầu vào, ta phải dùng cỡ 2n/n nút ẩn, mạng này có khoảng O(2n) trọng số, do vậy phải tiêu tốn O(2n) bit để biểu diễn các hàm logic.

Ẹ Một số vấn đề về mạng nơ ron nhiều lớp.

 Mạng nơ ron nhiều lớp truyền thẳng là cách biểu diễn các đối tợng dựa trên các giá trị của các thuộc tính của chúng tơng đối hiệu quả, tuy rằng chúng cha vét cạn hết mọi khía cạnh khác nhau về đối tợng đó. Cách tiếp cận mạng loại này tỏ ra khá hiệu quả khi các quan sát (tín hiệu vào) có miền giá trị liên tục. Do vậy, có thể xem là tốt hơn so với những cách tiếp cận truyền thống dựa trên logic mệnh đề và cây quyết định.

 Khả năng tổng quát hóa: mạng loại này có thể đa ra những kết quả mang tính tổng quát hóa, tuy rằng kiểu phụ thuộc giữa đầu ra và đầu vào không quá rối rắm.

 Khả năng dung thứ lỗi: Mạng đợc luyện mẫu theo nguyên tắc hồi qui tuyến tính nên có thể chấp nhận sai số trong tập dữ liệu vàọ Tuy vậy, mạng không thể đa ra đợc những kết quả tính toán không chắc chắn, không chính xác kiểu nh mạng Bayes.

 Mạng đợc sử dụng nh một hộp đen, biểu thị quan hệ nào đó giữa tín hiệu ra và tín hiệu vào, mà không cần chỉ rõ dạng giải tích tờng minh của mối quan hệ đó. Tuy vậy, điểm bất lợi của cách tiếp mạng chính là ở chỗ không thể lý giải các kết quả ra một cách rõ ràng nh đối với suy diễn logic hay cây quyết định.

Một phần của tài liệu nhận dạng ảnh Pattern recognition (Trang 26 - 29)

Tải bản đầy đủ (DOC)

(34 trang)
w