Nghiên cứu ứng dụng mạng nơron truyền thẳng nhiều lớp nhận dạng vị trí rôbốt hai khâu
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là công trình do tôi tổng hợp và nghiên cứu Trong luận văn có sử dụng một số tài liệu tham khảo như đã nêu trong phần tài liệu tham khảo
Tác giả Luận văn
Nguyễn Đắc Nam
Trang 2LỜI NÓI ĐẦU
Trong hệ thống điều khiển hiện đại, có rất nhiều phương pháp điều khiển đảm bảo được tốt chất lượng điều khiển Trong điều khiển tự động, để điều khiển chính xác đối tượng khi chưa biết rõ được thông số, trước tiên ta phải hiểu rõ đối tượng đó Đặc biệt đối với các đối tượng phi tuyến ta cần dạng được đặc tính vào-ra của nó để đảm bảo tạo ra tín hiệu điều khiển thích nghi được lựa chọn chính xác hơn Những bộ điều khiển hiện đại thường được sử dụng như lôgic mờ, mạng nơron, mạng nơron mờ để nhận dạng và điều khiển thích nghi hệ thống phi tuyến
Trong thời gian của khoá học cao học, chuyên ngành Tự động hoá tại trường Đại Học Kỹ Thuật Công Nghiệp Thái Nguyên, được sự tạo điều kiện giúp đỡ của nhà trường và Tiến Sĩ Phạm Hữu Đức Dục em đã lựa chọn đề tài của mình là:
“Nghiên cứu ứng dụng mạng nơron truyền thẳng nhiều lớp nhận dạng vị trí rôbốt hai khâu”
Trong khoảng 6 tháng thực hiện đề tài, được sự hướng dẫn nhiệt tình của Tiến Sĩ Phạm Hữu Đức Dục, sự giúp đỡ của bạn bè cùng với sự nỗ lực, cố gắng của mình bản luận văn đến nay đã hoàn thành
Dù đã có nhiều cố gắng, xong bản luận văn vẫn không tránh khỏi những thiếu sót và hạn chế, em rất mong nhận được sự góp ý của các thầy để bản luận văn được tốt hơn
Em xin trân trọng cảm ơn!
Học viên
Nguyễn Đắc Nam
Trang 3MỤC LỤC
Trang
Lời cam đoan
Danh mục các ký hiệu, bảng, các chữ viết tắt Danh mục các hình vẽ
1.3.1.1 chức năng, tổ chức và hoạt động của bộ não con người 6
1.3.3 Mô hình toán học mạng nơ ron truyền thẳng và mạng nơ ron hồi quy 19
1.4.5 Tổng quát.(phép nội suy và phép ngoại suy) 28
Trang 42.2.2 Mô tả toán học của đối tượng ở miền rời rạc 36
2.3.1 Bộ điều khiển đảm bảo tính ổn định vững chắc 42
2.3.5 Điều khiển thích nghi theo mô hình mẫu (MRAC) 45
2.3.7 Điều khiển thích nghi bằng mạng nơ ron hồi quy tuyến tính 46
Chương III - Ứng dụng mạng nơ ron truyền thẳng nhiều lớp nhận dạng
Trang 53.1.1 Sơ đồ khối mạng nơ ron truyền thẳng nhiều lớp 53 3.1.2 Thuật toán học lan truyền ngược của sai lệch 53
3.2 Ứng dụng mạng nơ ron truyền thẳng nhiều lớp nhận dạng vị trí rô
Trang 6DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
1 Hình 1 Sơ đồ khối điều khiển thích nghi rô bốt hai khâu
2 Hình 2 Sơ đồ ứng dụng mạng nơ ron nhận dạng vị trí rô bốt hai khâu 3 Hình 1.1 Mô hình hai nơ ron sinh học
4 Hình 1.2 Mô hình nơ ron nhân tạo
5 Hình 1.3a Biểu diễn hình học của hàm Rump 6 Hình 1.3b Biểu diễn hình học của hàm bước nhảy 7 Hình 1.3c Biểu diễn hình học của hàm giới hạn cứng 8 Hình 1.3d Biểu diễn hình học của hàm Sigmoid hai cực 9 Hình 1.4a Mạng một lớp truyền thẳng
10 Hình 1.4b Mạng nhiều lớp truyền thẳng 11 Hình 1.4c Mạng nơ ron có phản hồi 12 Hình 1.4d Mạng nơ ron hồi quy
13 Hình 1.5 Cấu trúc huấn luyện mạng nơ ron 14 Hình 1.6 Mô hình học có giám sát và học củng cố 15 Hình 1.7 Mô hình học không có giám sát
16 Hình 1.8 Sơ đồ cấu trúc chung của quá trình học 17 Hình 1.9 Cấu trúc mạng nơ ron một lớp
18 Hình 1.10 Ký hiệu mạng R đầu vào và S nơ ron 19 Hình 1.11 Ký hiệu mạng một lớp
20 Hình 1.12 Cấu trúc mạng nơ ron 3 lớp 21 Hình 1.13 Ký hiệu mạng nơ ron 3 lớp 22 Hình 1.14 Ký hiệu mạng một l lớp hồi quy 23 Hình 1.15 Ký hiệu mạng nơ ron 3 lớp hồi quy
24 Hình 1.16a Mạng được huấn luyện theo phương pháp bình phương sai lệch cực tiểu
Trang 7PHẦN MỞ ĐẦU 1.Lý do lựa chọn đề tài
Để điều khiển chính xác đối tượng khi chưa biết rõ được thông số, trước tiên ta phải hiểu rõ đối tượng đó Đối với đối tượng là phi tuyến như rô bốt, ta cần thực hiện nhận dạng đặc tính vào ra của nó để đảm bảo tạo ra tín hiệu điều khiển thích nghi được lựa chọn chính xác hơn Hiện nay thường sử dụng logic mờ (Fuzzy Logic), mạng nơ ron ( Neural Networks), và mạng no ron mờ (Fuzzy Neural Networks) để nhận dạng và điều khiển thích nghi hệ thống phi tuyến.Trong khuôn khổ của khoá học Cao học, chuyên ngành Tự động hoá tại trường Đại học Kỹ thuật Công nghiệp Thái Nguyên, được sự tạo điều kiện giúp đỡ của nhà trường và Tiến sĩ
Phạm Hữu Đức Dục, em đã lựa chọn đề tài của mình là “Nghiên cứu ứng dụng
mạng nơ ron truyền thẳng nhiều lớp nhận dạng vị trí rô bốt hai khâu” 2.Mục đích của đề tài
Nghiên cứu việc ứng dụng mạng nơ ron trong quá trình nhận dạng và điều khiển hệ thống phi tuyến nói chung Đặc biệt đi sâu nghiên cứu mạng nơ ron truyền thẳng nhiều lớp nhận dạng đặc tính vào – ra của rô bốt hai khâu, làm cơ sở cho việc
tạo ra tín hiệu điều khiển thích nghi được lựa chọn chính xác hơn
3 Đối tƣợng và phạm vi nghiên cứu
a/ Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là sử dụng mạng nơ ron truyền thẳng nhiều lớp nhận dạng vị trí hai khâu rô bốt
Sơ đồ hình 1 mô tả một mô hình điều chỉnh thích nghi rô bốt hai khâu theo mô hình mẫu
Trang 8Sơ đồ điều khiển được thực hiện theo hai giai đoạn sau đây:
Giai đoạn 1: Sử dụng mạng nơ ron nhận dạng vị trí của rô bốt hai khâu, khi
đó các khoá K mở Căn cứ vào sai lệch e1 giữa tín hiệu ra của rô bốt (y) và tín hiệu ra của mạng nơ ron nhận dạng(ymh), mạng nơ ron tiến hành học để nhận dạng đặc tính vào ra y của rô bốt hai khâu, sao cho tín hiệu mạng nơ ron nhận dạng ymh bám theo được tín hiệu ra y của rô bốt hai khâu Với e1= y- ymh
Giai đoạn 2: Căn cứ vào kết quả nhận dạng ta có được mạng nơ ron có thể
thay thế gần đúng cho rô bốt hai khâu từ đó tiến hành điều khiển thích nghi rô bôt hai khâu theo mô hình mẫu Các khoá K đóng, dựa vào bộ thông số sai lệch (e2, 2
) giữa tín hiệu đầu ra của mô hình mẫu ym và tín hiệu đầu ra của mạng nơ ron nhận dạng ymh, bộ điều khiển thực hiện các luật học thích nghi tạo ra tín hiệu điều khiển u với mục đích tạo ra được tín hiệu đầu ra của mạng nhận dạng bám theo được tín hiệu đầu ra của mô hình Với e2 =ym – ymh và ė2 là đạo hàm cấp một của sai lệch e2
Với thời gian nghiên cứu có hạn, luận văn này chỉ đi sâu nghiên cứu ứng dụng mạng nơ ron nhiều lớp truyền thẳng nhận dạng vị trí rô bốt hai khâu
b/ Phạm vi nghiên cứu của đề tài
- ymh
- e1
y ymh
u
K
Bộ điều khiển
Mô hình mẫu
Rôbốt hai khâu
Mạng nơron nhận dạng
Trang 9Chương I Tổng quan về mạng nơ ron nhân tạo:
Phân tích tổng quan nề mạng nơ ron bao gồm : Lịch sử phát triển, kết cấu của các mạng nơ ron, vai trò của các mạng nơ ron trong điều khiển
Chương II Các phương pháp ứng dụng mạng nơ ron trong nhận dạng và điều
4 Ý nghĩa khoa học và thực tiễn của đề tài
Với ứng dụng mạng nơ ron truyền thẳng nhiều lớp nhận dạng quỹ đạo chuyển động trong miền thời gian thực của rô bốt hai khâu Sau khi nhận dạng được vị trí của rô bốt hai khâu, ta có thể thay thế gần đúng mô hình vị trí rô bốt hai khâu bằng một mạng nơ ron truyền thẳng, từ đó căn cứ vào các thông số mô phỏng của
Trang 10mạng nơ ron ta tính toán được tín hiệu điều chỉnh nhằm điều khiển thích nghi vị trí của rô bốt hai khâu phù hợp với những yêu cầu cần thiết của điều chỉnh thích nghi vị trí rô bốt hai khâu
Trang 11CHƯƠNG I
TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO
Mạng nơ ron nhân tạo (Artificial Neural Networks) là hệ thống được xây dựng dựa trên nguyên tắc cấu tạo của bộ não người Nó cho chúng ta một hướng mới trong nghiên cứu hệ thống thông tin Mạng nơ ron nhân tạo có thể thực hiện các bài toán: Tính toán gần đúng các hàm số, thực hiện các bài toán tối ưu, nhận mẫu, nhận dạng và điều khiển đối tượng hiệu quả hơn so với các phương pháp truyền thống
Mạng nơ ron nhân tạo có một số lượng lớn mối liên kết của các phần tử biến đổi có liên kết song song Nó có hành vi tương tự như bộ não người với khả năng học ( Learning ), gọi lại (Recall) và tổng hợp thông tin từ sự luyện tập của các tập mẫu dữ liệu Các phần tử biến đổi của mạng nơ ron nhân tạo được gọi là các nơ ron nhân tạo hoặc gọi tắt là nơ ron
1.1 LỊCH SỬ PHÁT TRIỂN CỦA MẠNG NƠ RON NHÂN TẠO
Mạng nơ ron nhân tạo đã có một lịch sử phát triển lâu dài Năm 1943, McCulloch và Pitts đã đưa ra khả năng liên kết và một số liên kết cơ bản của mạng nơ ron Năm1949, Hebb đã đưa ra các luật thích nghi trong mạng nơ ron Năm 1958, Rosenbatt đưa ra cấu trúc Perception Năm 1969, Minsky và Papert phân tích sự đúng đắn của Perception, họ đã chứng minh các tính chất và chỉ rõ các giới hạn của một số mô hình Năm 1976, Grossberg dựa vào tính chất sinh học đã đưa ra một số cấu trúc của hệ động học phi tuyến với các tính chất mới Năm 1982, Rumelhart đưa ra mô hình song song một số thuật toán và kết quả Thuật toán học lan truyền ngược được Rumelhart, Hinton, Williams (1986) đề xuất luyện mạng nơ ron nhiều lớp Những năm gần đây, nhiều tác giả đã đề xuất nhiều loại cấu trúc mạng nơ ron mới Mạng nơ ron được ứng dụng trong nhiều lĩnh vực kinh tế kỹ thuật khoa học vũ trụ (Hecht – Nielsen, 1988)
1.2 CÁC TÍNH CHẤT CỦA MẠNG NƠ RON NHÂN TẠO
Là hệ phi tuyến: Mạng nơ ron có khả năng to lớn trong lĩnh vực nhận dạng
và điều khiển các đối tượng phi tuyến
Trang 12Là hệ xử lý song song: Mạng nơ ron có cấu trúc song song, do đó có độ tính
toán rất cao rất phù hợp với lĩnh vực nhận dạng và điều khiển
Là hệ học và thích nghi: Mạng được luyện từ các số liệu quá khứ và có khả
năng tự chỉnh khi số liệu đầu vào bị mất, có thể điều khiển on- line
Là hệ nhiều biến, nhiều đầu vào, nhiều đầu ra (MIMO), rất tiện dùng khi đối
tượng điều khiển có nhiều biến số
1.3 MÔ HÌNH NƠ RON
1.3.1.Mô hình nơ ron sinh học
1.3.1.1 Chức năng, tổ chức và hoạt động của bộ não con người
Bộ não người có chức năng hết sức quan trọng trong đời sống của con người Nó gần như kiểm soát hầu hết mọi hành vi của con người từ các hoạt động cơ bắp đơn giản đến những hoạt động phức tạp như học tập, nhớ, suy luận, tư duy, sáng tạo,
Bộ não người được hình thành từ sự liên kết của khoảng 1011 phần tử (tế bào), trong đó có khoảng 1010 phần tử là nơ ron, số còn lại khoảng 9*1010 phần tử là các tế bào thần kinh đệm và chúng có nhiệm vụ phục vụ cũng như hỗ trợ cho các nơ ron Thông thường một bộ não trung bình cân nặng khoảng 1,5 kg và có thể tích là 235 cm3 Cho đến nay người ta vẫn chưa thực sự biết rõ cấu tạo chi tiết của bộ não Tuy vậy về đại thể thì cấu tạo não bộ được phân chia ra thành nhiều vùng khác nhau Mỗi vùng có thể kiểm soát một hay nhiều hoạt động của con người
Các đặc tính của não người:
- Tính phân lớp: Các vùng trong bộ não được phân thành các lớp, thông tin được xử lý theo các tầng
- Tính môđun: Các vùng của bộ nhớ được phân thành các môđun được mã hoá bằng các định nghĩa mối quan hệ tích hợp giữa các tín hiệu vào qua các giác quan và các tín hiệu ra
- Mối liên kết: Liên kết giữa các lớp dẫn đến các dữ liệu dùng chung xem như các liên hệ phản hồi khi truyền tín hiệu
Trang 13- Sử lý phân tán các tín hiệu vào: Các tín hiệu vào được truyền qua nhiều kênh thông tin khác nhau, được xử lý bằng các phương pháp đặc biệt
Bộ não có cấu trúc nhiều lớp Lớp bên ngoài thường thấy như là các nếp nhăn, là lớp có cấu tạo phức tạp nhất Đây là nơi kiểm soát và phát sinh các hành động phức tạp như nghe, nhìn, tư duy,
Tín hiệu thu, nhận ở các dạng xung điện – Màng (Membrane): Mỗi tế bào thần kinh có một màng, có nhiệm vụ giữ cho các chất nuôi tế bào không tràn ra ngoài Do đó, các phần tử nội bào và ngoại bào không bằng nhau, giữa chúng có dung dịch muối lỏng làm cho chúng bị phân rã thành các nguyên tử âm và dương Các nguyên tử dương trong màng tạo ra điện thế màng, nó tồn tại trong trạng thái cân bằng lực: lực đẩy các nguyên tử dương ra khỏi tế bào bằng với lực hút chúng vào trong tế bào
Điện thế màng là phần tử quan trọng trong quá trình truyền tin của hệ thần kinh Khi thay đổi khả năng thẩm thấu ion của màng thì điện thế màng của tế bào bị thay đổi và tiến tới một ngưỡng nào đó, đồng thời sinh ra dòng điện, dòng điện này gây ra phản ứng kích thích làm thay đổi khả năng thẩm thấu ion của tế bào tiếp theo
Xử lý thông tin trong bộ não:
Thông tin được tiếp nhận từ các giác quanvà chuyển vào các tế bào thần kinh vận động vào các tế bào cơ Mỗi tế bào thần kinh tiếp nhận thông tin, điện thế sẽ tăng trong thần kinh cảm giác, nếu điện thế này vượt ngưỡng nó tạo ra dòng điện trong tế bào thần kinh cảm giác, ý nghĩa dòng điện đó được giải mã và lưu ở thần kinh trung ương, kết quả xử lý thông tin được gửi đến các tế bào cơ
Các tế bào thần kinh đưa các tín hiệu giống nhau, do đó không thể phân biệt được đó là của loài động vật nguyên thuỷ hay của một giáo sư Các khớp thần kinh chỉ cho các tín hiệu phù hợp qua chúng, còn lại các tín hiệu khác bị cản lại Lượng tín hiệu được biến đổi được gọi là cường độ khớp thần kinh đó chính là trọng số của nơ ron trong mạng nơ ron nhân tạo
Trang 14Tại sao việc nghiên cứu về mạng thần kinh lại có tầm quan trọng lớn lao Có thể trả lời ngắn gọn là sư giống nhau của các tín hiệu của các tế bào thần kinh đơn lẻ, do đó chức năng thực sự của bộ não không phụ thuộc vào vai trò của một tế bào thần kinh đơn, mà phụ thuộc vào toàn bộ các tế bào thần kinh hay các tế bào thần kinh liên kết với nhau thành một mạng thần kinh hay một mạng nơ ron (Neural Networks)
Hoạt động của bộ não nói riêng và của hệ thần kinh nói chung đã được con người quan tâm nghiên cứu từ lâu nhưng cho đến nay người ta vẫn chưa hiểu rõ thực sự về hoạt động của bộ não và hệ thần kinh Đặc biệt là trong các hoạt động liên quan đến trí óc như suy nghĩ, nhớ, sáng tạo, Tuy thế cho đến nay, người ta cũng có những hiểu biết căn bản về hoạt động cấp thấp của não
Mỗi nơ ron liên kết với khoảng 104 nơ ron khác, cho nên khi hoạt động thì bộ não hoạt động một cách tổng lực và đạt hiệu quả cao Nói một cách khác là các phần tử của não hoạt động một cách song song và tương tác hết sức tinh vi phức tạp, hiệu quả hoạt động thường rất cao, nhất là trong các vấn đề phức tạp Về tốc độ xử lý của bộ não người rất nhanh mặc dù tốc độ xử lý của mỗi nơ ron (có thể xem như phần tử xử lý hay phần tử tính) là rất chậm so với xử lý của các cổng logic silicon trong các chip vi xử lý (10-3 giây so với 10-10 giây)
Hoạt động của cả hệ thống thần kinh bao gồm não bộ và các giác quan như sau:
Trước hết con người bị kích thích bởi giác quan từ bên ngoài hoặc trong cơ thể Sự kích thích đó được biến thành các xung điện bởi chính các giác quan tiếp nhận kích thích Những tín hiệu này được chuyển về trung ương thần kinh là não bộ để xử lý Trong thực tế não bộ liên tục nhận thông tin xử lý, đánh giá và so sánh với thông tin lưu trữ để đưa ra các quyết định thích đáng
Những mệnh lệnh cần thiết được phát sinh và gửi đến những bộ phận thi hành thích hợp như các cơ tay, chân, Những bộ phận thi hành biến những xung điện thành dữ liệu xuất của hệ thống
Trang 15Tóm lại: Bộ não người có chức năng hết sức quan trọng đối với đời sống của
con người Cấu tạo của nó rất phức tạp, tinh vi bởi được tạo thành từ mạng nơ ron có hàng chục tỉ tế bào với mức độ liên kết giữa các nơ ron là rất cao Hơn nữa, nó còn được chia thành các vùng và các lớp khác nhau Bộ não hoạt động dựa trên cơ chế hoạt động song song của các nơ ron tạo nên nó
1.3.1.2 Mạng nơron sinh học a/ Cấu tạo
Nơ ron là phần tử cơ bản tạo nên bộ não con người Sơ đồ cấu tạo của một nơ ron sinh học được chỉ ra như trong hình 1.1 Một nơ ron điển hình có 3 phần chính:
- Thân nơ ron (soma): Nhân của nơ ron được đặt ở đây
- Các nhánh (dendrite): Đây chính là các mạng dạng cây của các dây thần
kinh để nối các soma với nhau
- Sợi trục (Axon): Đây là một nối kết, hình trụ dài và mang các tín hiệu từ đó
ra ngoài Phần cuối của axon được chia thành nhiều nhánh nhỏ Mỗi nhánh nhỏ (cả của dendrite và axon) kết thúc trong một cơ quan nhỏ hình củ hành được gọi là synapte mà tại đây các nơ ron đưa các tín hiệu của nó vào các nơr on khác Những điểm tiếp nhận với các synapte trên các nơ ron khác có thể ở các dendrite hay chính soma
Trang 16b/ Hoạt động
Các tín hiệu đưa ra bởi một synapte và được nhận bởi các dendrite là các kích thích điện tử Việc truyền tín hiệu như trên liên quan đến một quá trình hóa học phức tạp mà trong đó các chất truyền đặc trưng được giải phóng từ phía gửi của nơi tiếp nối Điều này làm tăng hay giảm điện thế bên trong thân của nơ ron nhận Nơ ron nhận tín hiệu sẽ kích hoạt (fire) nếu điện thế vượt khỏi một ngưỡng nào đó và một xung (hoặc điện thế hoạt động) với độ mạnh (cường độ) và thời gian tồn tại cố định được gửi ra ngoài thông qua axon tới phần nhánh của nó rồi tới các chỗ nối synapte với các nơ ron khác Sau khi kích hoạt, nơ ron sẽ chờ trong một khoảng thời gian được gọi là chu kỳ, trước khi nó có thể được kích hoạt lại Synapses là hưng phấn (excitatory) nếu chúng cho phép các kích thích truyền qua gây ra tình trạng kích hoạt (fire) đối với nơ ron nhận Ngược lại, chúng là ức chế (inhibitory) nếu các kích thích truyền qua làm ngăn trở trạng thái kích hoạt (fire) của nơ ron nhận
1.3.2 Mạng nơ ron nhân tạo
Trang 17Trên mỗi đầu vào của nơ ron có gắn một trọng số để liên kết giữa nơ ron thứ i và nơ ron thứ j Các trọng số này tương tự như các tế bào cảm giác của mạng nơ ron sinh học
Với Vi(t) là tổng trọng của nơ ron thứ i; yj(t) là các đầu ra của nơ ron thứ jvà uk(t) là các đầu vào từ bên ngoài tương ứng với các trọng số Wij và W*ik; là hằng số gọi là ngưỡng của nơ ron thứ ị
Hệ động học tuyến tính SISO: Đầu vào là vi đầu ra là xi Ở dạng toán tử Laplace ta có:
Xi(s)= H(s).Vi(s) (1.2) Dạng thời gian của (1.2) có dạng (1.3)
x ( ) ( ) () (1.3) vi
học tuyến
tính
Hàm động học phi tuyến
ặ) y1
Trang 18Quan hệ của H(s) và h(t) và quan hệ vào – ra tương ứng của nơ ron được cho trong bảng 1.1
H(s) 1
xi(t) = wi(t) xi(t) = vi(t) Txi(t) +xi(t) = vi(t) xi(t) = vi(t-T) Bảng 1.1
Hàm động học phi tuyến: Mô tả mối quan hệ của đầu ra yi với đầu vào xi: yi=ăxi) với ặ) là hàm chuyển đổị
Hàm chuyển đổi: Để tìm được đầu ra của nơ ron ta phải tiến hành qua hai bước như
sau:
- Tìm các giá trị tổng trọng lượng đầu vào neti(t)
- Căn cứ vào neti(t) để tìm ra yi bằng các hàm chuyển đổi vào rạ
Hàm chuyển đổi ặ) thực hiện coi nơ ron như một hộp đen, chuyển đổi một tín hiệu vào thành tín hiệu rạCác dạng hàm chuyển đổi thường được sử dụng có dạng như sau:
+ Hàm Rump (Rump Function) là hàm có biểu diễn toán học như (1.4):
(1.4) Biểu diễn hình học của hàm Rump như hình vẽ 1.3.a
+ Hàm bước nhảy (Step Function) là hàm có biểu diễn toán học như (1.5):
(1.5) 1 nếu f > 1
ăf) = f nếu 0 f 1 0 nếu f < 0
1 nếu f 0
ăf) = 0 nếu f < 0
Trang 19Biểu diễn hình học của hàm như hình vẽ 1.3.b
+ Hàm giới hạn cứng (Threshold Function) là hàm có biểu diễn toán học như (1.6):
(1.6) Biểu diễn hình học của hàm như hình vẽ 1.3.c
+ Hàm sigmoid hai cực (Bipolar Sigmoid Function) là hàm có biểu diễn toán học như (1.7): a(f) = 1
1.3.2.2 Phân loại mạng nơ ron
Nelson và IIlingworth (1991) đã đưa ra mộy số loại cấu trúc của mạng nơ ron như hình 1.4 Nơron được vẽ là các vòng tròn xem như một tế bào thần kinh, chúng có các mối liên hệ đến các nơ ron khác nhờ các trọng số, lập thành các ma trận trọng số tương ứng
1 nếu f 0
a(f) = -1 nếu f < 0
Hình 1.3.d Hàm Sigmoid hai cực 0
a
f 1
1
0 a
f 1
0 a
f -1
1
Hình 1.3a Hàm Rump Hình 1.3b Hàm bước nhảy Hình 1.3b Hàm giới hạn cứng
Trang 20Mỗi một nơ ron có thể phối hợp với các nơ ron khác tạo thành một lớp các trọng số Mạng một lớp truyền thẳng (Single- Layer Feedforward Network) như hình 1.4 a
Có thể nối vài lớp nơ ron với nhau tạo thành mạng nhiều lớp truyền thẳng (Multi- Layer Feedforward Network) như hình 1.4.b
Hai loại mạng nơ ron một lớp và nhiều lớp được gọi là truyền thẳng nếu đầu ra của mỗi nơ ron được nối với các đầu vào của các nơ ron của lớp trước đó
Mạng nơ ron phản hồi là mạng mà đầu ra của mỗi nơ ron được quay trở lại nối với đầu vào của các nơ ron cùng lớp được gọi là mạng Laeral như hình 1.4.c
Mạng nơ ron phản hồi có thể thực hiện đóng vòng được gọi là mạng nơ ron hồi quy (Recurrent Network) như hình 1.4.d
Các nơ ron lớp vào trực tiếp nhận tín hiệu ở đầu vào, ở đó mỗi nơ ron chỉ có một tín hiệu vào Mỗi nơ ron ở lớp ẩn được nối với tất cả các nơ ron lớp vào và lớp ra Các nơ ron ở lớp ra có đầu vào được nối với tất cả các nơ ron ở lớp ẩn, chúng là đầu ra của mạng Cần chú ý rằng một mạng nơ ron cũng có thể có nhiều lớp ẩn Các mạng nơ ron trong mỗi nơ ron chỉ được liên hệ với tất cả các nơ ron ở lớp kế tiếp và
Trang 21tất cả các mối liên kết chỉ được xây dựng từ trái sang phải được gọi là mạng nhiều lớp truyền thẳng (perceptrons)
1.3.2.3 Các luật học
Thông thường mạng nơ ron được điều chỉnh hoặc được huấn luyện để hướng các đầu vào riêng biệt đến đích ở đầu ra Cấu trúc huấn luyện mạng được chỉ ra trên hình 1.5 Ở đây, hàm trọng của mạng được điều chỉnh trên cơ sở so sánh đầu ra với đích mong muốn (taget) cho tới khi đầu ra mạng phù hợp với đích Những cặp vào/đích (input/taget) được dùng để giám sát cho sự huấn luyện mạng
Để có được một số cặp vào/ra, ở đó mỗi giá trị vào được gửi đến mạng và giá trị ra tương ứng được thực hiện bằng mạng là sự xem xét và so sánh với giá trị mong muốn Bình thường tồn tại một sai số bởi lẽ giá trị mong muốn không hoàn toàn phù hợp với giá trị thực Sau mỗi lần chạy, ta có tổng bình phương của tất cả các sai số Sai số này được sử dụng để xác định các hàm trọng mới
Sau mỗi lần chạy, hàm trọng của mạng được sửa đổi với đặc tính tốt hơn tương ứng với đặc tính mong muốn Từng cặp giá trị vào/ra phải được kiểm tra và trọng lượng được điều chỉnh một vài lần Sự thay đổi các hàm trọng của mạng được dừng lại nếu tổng các bình phương sai số nhỏ hơn một giá trị đặt trước hoặc đã chạy đủ một số lần chạy xác định (trong trường hợp này mạng có thể không thoả mãn yêu cầu đặt ra do sai lệch còn cao) Có hai kiểu học:
- Học thông số (Paramater Learning): Tìm ra biểu thức cập nhật các thông số về trọng số, cập nhật kết nối giữa các nơ ron
Đích So sánh Hàm trọng (weights)
giữa các nơ ron Vào
Điều chỉnh
Hình 1.5 Cấu trúc huấn luyện mạng nơ ron
Trang 22- Học cấu trúc (Structure Learning): Trọng tâm là sự biến đổi cấu trúc của mạng nơ ron gồm số lượng nút (node) và các mẫu liên kết
Nhiệm vụ của việc học thông số là bằng cách nào đó, tìm được ma trận chính xác mong muốn từ ma trận giả thiết ban đầu với cấu trúc của mạng nơ ron có sẵn Để làm được việc đó, mạng nơ ron sử dụng các trọng số điều chỉnh, với nhiều phương pháp học khác nhau có thể tính toán gần đúng ma trận W cần tìm đặc trưng cho mạng.Có ba phương pháp học:
- Học có giám sát ( Supervised Learning)
Là quá trình học ở mỗi thời điểm thứ i khi đưa tín hiệu xi vào mạng nơ ron, tương ứng sẽ có các đáp ứng mong muốn di của đầu ra cho trước ở thời điểm đó Hay nói cách khác, trong quá trình học có giám sát, mạng nơ ron được cung cấp liên tục các cặp số liệu mong muốn vào –ra ở từng thời điểm (x1 ,d1), (x2,d2),… (xk,dk),…khi cho tín hiệu vào thực là xk sẽ tương ứng có tín hiệu đầu ra cũng được lặp lại là dk giống như mong muốn Kết quả của quá trình học có giám sát là tạo được một hộp đen có đầu vào là véc tơ tín hiệu vào X sẽ đưa ra được câu trả lời đúng d
Để đạt được kết quả mong muốn trên, khi đưa vào tín hiệu xk, thông thường sẽ có sai lệch ek giữa tín hiệu đầu
ra thực yk với tín hiệu đầu ra mong muốn dk Sai lệch đó sẽ được truyền ngược tới đầu vào để điều chỉnh thông số mạng nơ ron là ma trận trọng số W…Quá trình cứ thế tiếp diễn sao cho sai
lệch giữa tín hiệu ra mong muốn và tín hiệu ra thực tế nằm trong phạm vi cho phép, kết quả nhận được ma trận trọng số với các phần tử wij đã được điều chỉnh phù hợp với đặc điểm của đối tượng hay hàm số mạng nơ ron cần học Mô hình học có giám sát được minh hoạ như hình 1.6
Mạng nơron
Máy tính phát hiện
sai
d e
Hình 1.6.Mô hình học có giám sát và học củng cố
Trang 23- Học củng cố:(Reinforcement Learning)
Là phương pháp học trong đó tín hiệu d được đưa từ bên ngoài nhưng không được đầy đủ mà có thể chỉ đưa đại diện 1 bít để có tính chất kiểm tra quá trình đúng hay sai Tín hiệu đó được gọi là tín hiệu củng cố (Reinforcement Signal) Phương pháp học củng cố chỉ là một phương pháp học riêng của phương pháp học có giám sát, bởi vì nó cũng nhận tín hiệu chỉ đạo từ bên ngoài Chỉ khác là tín hiệu củng cố có tính ước lượng hơn là để dạy Tín hiệu giám sát bên ngoài d thường được tiến hành bởi các tín hiệu ước lượng để tạo thông tin ước lượng cho mạng nơ ron điều chỉnh trọng số với hy vọng sự ước lượng đó mang lại sự chính xác trong quá trình tính toán Mô hình học củng cố được minh hoạ như hình 1.6
- Học không có giám sát (Unsupervied Learning)
Trong trường hợp này, hoàn toàn không có tín hiệu ở bên ngoài Giá trị mục tiêu điều khiển không được cung cấp và không được tăng cường Mạng phải khám phá các mẫu, các nét đặc trưng, tính cân đối, tính tương quan… Trong khi khám phá các đặc trưng khác, mạng nơ ron đã chải
qua việc tự thay đổi thông số, vấn đề đó được gọi tự tổ chức (Self- Organizing) Mô hình học không có giám sát được minh hoạ như hình 1.17
Cấu trúc chung của quá trình học được mô tả như hình 1.20
Hình 1.8 Sơ đồ cấu trúc chung của quá trình học
Hình1.7.Mô hình học không có giám sát
Mạng nơron
Trang 24Trong đó tín hiệu vào xj, j=1,2,3…,m, có thể được lấy từ đầu ra của các nơ ron khác hoặc có thể được lấy từ bên ngoài Tín hiệu mong muốn di có sẵn chỉ có trong phương pháp học có giám sát hoặc củng cố Từ hai phương pháp học trên, trọng số của nơ ron thứ i được thay đổi tuỳ theo tín hiệu ở đầu vào mà nó thu nhận và giá trị đầu ra của nó Trong phương pháp học không có giám sát sự thay đổi của trọng số chỉ dựa trên cơ sở các giá trị đầu vào và đầu ra Dạng tổng quát của luật học trọng số của mạng nơ ron là cho biết gia số của véc tơ wi là wi tỷ lệ với tín hiệu học r và tín hiệu đầu vào x(t):
wi(t) = .r.x(t) (1.8) : Là hằng số học, xác định tốc độ học và là một số dương
r: Là tín hiệu học r = fr(wi,x,di) (1.9) Biểu thức (1.8) là biểu thức chung để tính số gia của trọng số, ta thấy trọng số wi = (wi1, wi2, …, wim)T có gia số tỷ lệ với tín hiệu vào x và tín hiệu học r Từ các biểu thức trên ta có véc tơ trọng số ở thời điểm (t+1) được tính là:
w i(t+1) = wi(t) + .fr{wi (t), x(t), di(t)}.x(t) (1.10) Vấn đề quan trọng trong việc phân biệt luật học cập nhật trọng số có giám sát hay không có giám sát là tín hiệu học r như thế nào để thay đổi hoặc cập nhật trọng số có trong mạng nơ ron
Có 2 phương pháp cơ bản để huấn luyện mạng nơ ron: Huấn luyện gia tăng (tiến dần) và huấn luyện theo gói Sự huấn luyện theo gói của mạng nhận được bằng việc thay đổi hàm trọng và độ dốc trong một tập (batch) của véc tơ đầu vào Huấn luyện tiến dần là thay đổi hàm trọng và độ dốc của mạng sau mỗi lần xuất hiện của một phần tử véc tơ đầu vào Huấn luyện tiến dần đôi khi được xem như huấn luyện trực tuyến hay huấn luyện thích nghi
Mạng nơ ron đã được huấn luyện để thực hiện những hàm phức tạp trong nhiều lĩnh vực ứng dụng khác nhau như trong nhận dạng, phân loại sản phẩm, xử lý tiếng nói, chữ viết và điều khiển hệ thống
Trang 25Thông thường để huấn luyện mạng nơron, người ta sử dụng phương pháp huấn luyện có giám sát, nhưng cũng có mạng thu được từ sự huấn luyện không có giám sát Mạng huấn luỵện không giám sát có thể được sử dụng trong trường hợp riêng để xác định nhóm dữ liệu
1.3.3 Mô hình toán học mạng nơ ron truyền thẳng và mạng nơ ron hồi quy
1.3.3.1.Mạng nơ ron truyền thẳng
a/ Mạng nơ ron một lớp
Một cấu trúc toán học mạng 1 lớp với R đầu vào và S nơ ron được chỉ ra trên hình 1.9
liên kết đầu vào và độ dốc để tạo thành một đầu ra vô hướng ni Các ni tập hợp với
nhau tạo thành s phần tử của véc tơ vào n Cuối cùng ở lớp ra nơ ron ta thu được véc tơ a gồm s phần tử
Ta có thể thiết lập lớp đơn của các nơ ron có các hàm chuyển khác nhau một cách dễ dàng bởi lẽ hai mạng được đặt song song Tất cả các mạng có thể có chung đầu vào và mỗi mạng có thể thiết lập một vài đầu ra
Các phần tử của véc tơ đầu vào được đưa vào mạng thông qua ma trận trọng
W, với:
b1
p2 p3
pR
wS,R
1
f n2 a2
b2
1
f nS aS
bS
Vào Các nơron
Trang 26
W
(1.12)
Trong đó: Chỉ số hàng trong các phần tử của ma trận W cho biết nơ ron nơi
đến còn chỉ số cột cho biết nơi xuất phát của trọng liên kết Ví dụ: w12 nói lên sự có mặt của tín hiệu vào từ phần tử thứ hai đến nơ ron thứ nhất với trong liên kết là w12
Để đơn giản ta ký hiệu mạng một lớp gồm S nơ ron, R đầu vào như hình vẽ 1.10
Trong đó: véc tơ vào P có kích thước R, ma trận trọng liên kết W có kích thước S x R còn a và b là các véc
tơ có kích thước S Như chúng ta đã biết, một lớp mạng bao gồm ma trận trọng liên kết, toán tử nhân, véc tơ độ
dốc b, bộ tổng và hàm truyền
b/ Mạng nơron nhiều lớp
Để khảo sát mạng nhiều lớp trước hết chúng ta cần đưa ra các ký hiệu qui ước cho một lớp mạng Đặc biệt ta cần phải phân biệt sự khác nhau giữa ma trận trọng lượng liên kết ở đầu vào và các ma trận trọng liên kết giữa các lớp
Ta gọi ma trận trọng lượng liên kết nối với đầu vào là các trọng vào (input weights) và các ma trận đến từ lớp ra là trọng liên kết lớp (layer weights) Ta sẽ dùng các chỉ số viết bên trên để phân biệt nguồn (chỉ số thứ hai) và đích (chỉ số thứ nhất) cho các trọng liên kết và các phần tử khác của mạng
Để minh hoạ, ta xét một lớp mạng có nhiều đầu vào như hình 1.11 Trong đó R là số phần tử lớp vào và S1 là số nơron của lớp 1 Ta thấy ma trận trọng liên kết
với véc tơ vào P là ma trận trọng vào (IW1,1) có nguồn là 1 (chỉ số thứ 2) và đích là P
Hình 1.10 Ký hiệu mạng một lớp R đầu vào và S nơ ron
a = f(WP+b) (1.13)
f n W
1 R
b
+
Sx1
a Sx1 Sx1
SxR
Vào Nơ ron
Rx1
S
Trang 271 (chỉ số thứ nhất) Đồng thời các phần tử của 1 lớp như độ dốc, tín hiệu vào hàm chuyển, đầu ra có chỉ số viết trên là 1 để nói rằng chúng được liên kết với
lớp thứ nhất (b1, n1, a1)
Một mạng nơ ron có thể có một vài lớp Mỗi lớp có ma trận trọng liên kết W, véc tơ độ
dốc b và đầu ra a Để phân biệt các ma trận trọng liên kết véc tơ vào cho mỗi lớp mạng trong sơ đồ, ta thêm con số chỉ lớp viết ở phía trên cho biến số quan tâm
Hình 1.12 là ký hiệu sơ đồ mạng 3 lớp Trong đó có R1 đầu vào, S1 nơ ron ở lớp 1, S2 nơron ở lớp 2 … Thông thường, các lớp khác nhau có số nơ ron khác nhau
Chú ý rằng đầu ra của mỗi lớp trung gian là đầu vào của lớp tiếp theo Như vậy lớp 2 có thể được xem như mạng 1 lớp với S1 đầu vào, S2 nơ ron và S2 x S1trọng liên kết của ma trận W2 Đầu vào của lớp 2 là véc tơ a1, đầu ra là véc tơ a2 Các lớp của mạng nhiều lớp đóng vai trò khác nhau Lớp cuối cùng là kết quả ở đầu ra của mạng, được gọi là lớp ra Lớp đầu tiên thu thập tín hiệu vào được gọi là lớp vào, các lớp khác được gọi là lớp ẩn Mạng 3 lớp ở trên có 1lớp ra (lớp3) có 1lớp vào (lớp1) và 1lớp ẩn (lớp 2)
Đối với mạng 3 lớp ta cũng có thể sử dụng ký hiệu tắt để biểu diễn (hình 1.13) Mạng nhiều lớp rất mạnh, ví dụ có mạng 2 lớp, trong đó lớp 1 có hàm chuyển
sigmoid, lớp 2 có hàm chuyển linear có thể được huấn luyện để làm xấp xỉ một
hàm bất kỳ (với số điểm gián đoạn có hạn chế)
Trong đó a3 là đầu ra của mạng, ta ký hiệu đầu ra này là y Ta sẽ sử dụng ký
hiệu này để định rõ đầu ra của mạng nhiều lớp P
a1 = f1(W1,1P+b1) (1.14)
f1 n1 1
+
S1x1
a1 S1x1 S1x1
S1xR
Vào Lớp 1
Rx1
S1 W1,1
Hình 1.11: Ký hiệu một lớp mạng b1
Trang 28
1.3.3.2.Mạng nơ ron hồi quy
Mạng hồi quy còn được gọi là mạng phản hồi là loại mạng tự liên kết thành các vòng và liên kết hồi quy giữa các nơ ron Mạng nơ ron hồi quy có trọng số liên kết đối xứng như mạng Hopfield luôn hội tụ về trạng thái ổn định Mạng liên kết hai chiều (BAM) là mạng thuộc nhóm mạng nơ ron hồi quy hai lớp nơ ron liên kết tay đôi, trong đó đảm bảo nơ ron của cùng một lớp không liên kết với nhau, cũng hội tụ về trạng thái ổn định Nghiên cứu mạng nơ ron hồi quy có trọng số liên kết không ………
b2S 1
Hình 1.12 Cấu trúc mạng nơ ron 3 lớp a1 = f1(W1,1P+b1)
f1 n11
b11
1
f1 n12
b12
1
f1 n1S
b1S
b22
1
f2 n2S a2S Lớp 2 (lớp ẩn)
a3 = f3(W3,2a2+b3) (1.15)
1
n31
b31
1
n32
b32
f3 a
32
f3 a
3S Lớp 3 (lớp ra)
a11
a12
a1S
lw
S,S3 2
a3 = f3[LW3,2f2(LW2,1f1(IW1,1P+b1)+b2]+b3 = y (1.16) IW1,1
Trang 29đối xứng sẽ gặp nhiều phức tạp hơn so với mạng truyền thẳng và mạng hồi quy đối xứng Mạng nơ ron hồi quy có khả năng về nhận mẫu, nhận dạng các hàm phi tuyến, dự báo … Một ưu điểm khác của mạng nơ ron hồi quy là chỉ cần mạng nhỏ hơn về cấu trúc cũng có khả năng như mạng truyền thẳng có cấu trúc lớp hơn
a/ Mạng nơ ron hồi quy không hoàn toàn (Partially Recrrent Networks)
Là mạng đó dựa trên cơ sở mạng lan truyền ngược vì cấu trúc hồi quy Cấu trúc của mạng hồi quy không hoàn toàn phần lớn là cấu trúc truyền thẳng nhưng có cả sự lựa chọn cho một bộ phận có cấu trúc hồi quy.Trong nhiều trường hợp, trọng số của cấu trúc hồi quy được duy trì không đổi, như vậy luật học truyền ngược có thể dễ dàng được sử dụng Trong các mạng loại này, sự truyền thẳng được xảy ra rất nhanh hoặc không phụ thuộc vào thời gian, trong khi đó tín hiệu hồi quy được thực hiện có tính thời gian Mạng có thể nhận mẫu dãy dựa vào tình trạng cuối cùng của dãy và có thể dự báo tiếp theo cho tín hiệu của dãy theo thời gian Như vậy, mạng hồi quy không hoàn toàn về cơ bản là mạng tryền thẳng , liên kết hồi quy có thể đi từ các nút ở các lớp ra hoặc lớp ẩn
b/ Mạng nơ ron hồi quy hoàn toàn(Fully Recrrent Networks)
Là một trong những loại mạng nơ ron hồi quy đầu tiên được Gossberg xây dựng để học và biểu diễn các mẫu bất kỳ loại mạng này được xây dựng theo mẫu Instar- Outstar Loại mạng hồi quy hoàn toàn có tác dụng nhận số
lượng mẫu nhiều nhơn Với mạng hồi quy hoàn toàn đã hình thành quan điểm thực hiện và luyện mạng hồi quy từ mạng truyền thẳng nhiều lớp được xây dựng từ một lớp cho mỗi bước tính Khái niệm này được gọi là lan truyền ngược theo thời gian phù hợp khi quan tâm đến các dãy với độ lớn T là nhỏ Nó đã được sử dụng học
P
f1 n1
1 R
+
S1x1
a1
S1x1 S1x1
Trang 30cho máy ghi cho nhiệm vụ thực hiện các dãy Nó có khả năng áp dụng cho điều khiển thích nghi Hình 1.14 là mạng nơ ron một lớp hồi quy Hình 1.15 là mạng nơ ron nhiều lớp hồi quy
1.4.QUÁ TRÌNH HUẤN LUYỆN MẠNG NHIỀU LỚP
Chúng ta đã biết, mạng nơ ron nhiều lớp có thể xấp xỉ gần đúng một hàm bất kỳ, tiếp đó là thủ tục tính chọn các thông số của mạng (các hàm trọng lượng và độ dốc) cho một đối tượng cụ thể được gọi là quá trình huấn luyện mạng Trong phần này chúng ta sẽ chỉ ra một phương pháp huấn luyện là phương pháp lan truyền ngược Kỹ thuật cơ bản của phương pháp lan truyền ngược là cập nhật trọng số theo hướng giảm độ dốc
Như đã nêu, mạng nhiều lớp có đầu ra của lớp trước là đầu vào của lớp tiếp theo Sơ đồ cấu trúc được cho như hình vẽ 1.13
Biểu thức toán học mô tả sự hoạt động như (1.17):
am+1 = f m+1(wm+1.am + bm+1 ) Với m = 0,1,2,…M-1 (1.17) Trong đó M là số lớp nơ ron trong mạng Các nơ ron của lớp thứ nhất nhận tín hiệu đầu vào từ bên ngoài: a0 = p (1.18) Đầu ra của các nơ ron ở lớp cuối cùng của mạng được coi là đầu ra của mạng: y = am (1.19)
+ S3x1
Trang 31Thuật toán lan truyền ngược của mạng nhiều lớp là một phương pháp làm giảm độ dốc Phương pháp này được dùng để cập nhật những thông số sao cho giảm thiểu sai số của mô hình Sai số được đo bằng phương pháp trung bình bình phương sai lệch Tập hợp mẫu vào ra được cho dưới dạng như (1.20):
(1.20) Trong đó pq là một đầu vào của mạng, và tq tương ứng là một đầu ra Mỗi một đầu vào tác động vào mạng sẽ có một đầu ra thực được so sánh với đáp ứng mẫu Hàm thông số của mạng được xác định theo biểu thức tổng bình phương sai lệch cực tiểu như (1.21):
F(x) = 21
e
(1.21) Trong đó x là véc tơ bao gồm cả trọng số liên kết và độ dốc của mạng Nếu mạng có nhiều đầu ra thì biểu thức tổng quát được tính như (1.22):
F(x) = ( ) ( )
(1.22) Sử dụng phương pháp xấp xỉ quen thuộc, chúng ta sẽ thay thế tổng bình
phương sai lệch bằng sai lệch của đáp ứng hiện tại:
F(x){t(k)a(k)}T{t(k)a(k)} (1.23) Trong đó bình phương sai lệch mong muốn đã được thay thế bằng bình phương sai lệch tại thời điểm k
Thuật toán giảm độ dốc theo phương pháp xấp xỉ bình phương sai lệch là: m
( (1.25) Trong đó là tốc độ học
1.4.2.Qui tắc chuỗi
p1,t1
p2,t2
pQ,tQ
…
Trang 32Với mạng một lớp tuyến tính thì các thành phần đạo hàm trong công thức (1.24) và (1.25) được tính dễ dàng và tiện lợi, từ đó sai lệch có thể được viết như một hàm tuyến tính của các trọng số
Với mạng nhiều lớp, sai lệch là hàm ẩn của các hàm trọng lượng ở các lớp ẩn, vì thế các phép đạo hàm sẽ tính khó khăn Bởi vì sai lệch là hàm ẩn của các trọng số ở các lớp ẩn nên chúng ta sẽ sử dụng qui tắc chuỗi toán học để tính đạo hàm riêng trong các biểu thức (1.24) và (1.25)
m
(1.26)
m
x (1.27) Số hạng thứ hai trong mỗi công thức có thể được tính dễ dàng vì đầu vào lớp
mạng thứ m là hàm hiện của trọng số và độ dốc của lớp ấy:
immjS
.
, (1.28)
Do đó: ;1,
(1.29)
Nếu chúng ta định nghĩa: m
(1.30) thì công thức (1.26) và (1.27) có thể được đơn giản hoá như (1.31), (1.32):
1,
(1.31)
mimi
sbF
(1.32) Đến đây chúng ta có thể biểu diễn thuật toán xấp xỉ để giảm độ dốc như (1.33), (1.34):
Trang 33wm, (k )1
w (1.33) m
b ( 1) ( ) (1.34) Khi đó ta có ma trận dạng (1.35), (1.36):
Wm(k+1) = Wm(k) - Sm.( am-1)T (1.35) Bm (k+1) = bm (k) - Sm (1.36) Trong đó các phần tử riêng của S được tính theo công thức (1.32)
1.4.3 Độ chính xác của thuật toán lan truyền ngược
Việc còn lại bây giờ là chúng ta tính toán độ chính xác Sm, nó cần đến các ứng dụng khác của qui tắc chuỗi Đó là quá trình chúng ta cho số hạng lan truyền ngược, bởi vì nó diễn tả mối liên hệ phản hồi và độ chính xác ở lớp m được tính từ độ chính xác của lớp m+1:
Sm = - 2.Ḟm (nm) (t-a) (1.37) Sm = Ḟm (nm) (wm+1)T.Sm+1
m = M-1… 2,1 (1.38) Trong đó
F (nm) có dạng như (1.39)
1.4.4.Biến thể của thuật toán lan truyền ngược
Trong một số trường hợp sẽ là không thích hợp với thuật toán mà chúng ta thường quy vào như lan truyền ngược cho bởi biểu thức (1.35) và (1.36) Trên thực tế, thường là thuật toán giảm độ dốc nhất Ở đây có nhiều thuật toán khả quan sử dụng các biến thể của giải thuật lan truyền ngược, trong đó các đạo hàm được xử lý từ lớp cối cùng đến lớp đầu tiên của mạng được tính theo công thức (1.37),(1.38)
Ví dụ: Kết hợp giữa độ dốc và thuật toán Newton ([Shan 90], [Scanl 185],
[Char 92]) thông thường cho độ chính xác hơn giải thuật giảm độ dốc nhất Ngày
Trang 34nay, khi cần thiết người ta có thể sử dụng giải thuật tương tự như lan truyền ngược để tính toán các đạo hàm riêng
Thuật toán Levenberg- Marqanrdt rất chính xác cho việc huấn luyện mạng cỡ nhỏ và trung bình và nó được sử dụng một thuật toán tương tự với thuật toán lan truyền ngược được cho bởi biểu thức (1.38) Để hiểu rõ các thuật toán trên, chúng ta sẽ phân tích trong phần sử dụng thuật toán lan truyền ngược, đó là các phép tính đạo hàm được xử lý từ lớp cuối cùng đến lớp đầu tiên Đó chính là lý do để người ta gọi là thuật toán lan truyền ngược Một sự khác biệt của thuật toán là kết quả của các phép đạo hàm được sử dụng để cập nhật các trọng số
1.4.5.Tổng quát (Phép nội suy và ngoại suy)
Chúng ta đã biết mạng nhiều lớp có khả năng làm xấp xỉ gần đúng các hàm bất kỳ, nhưng chúng ta chưa đề cập đến vấn đề tính chọn số nơ ron và số lớp cần thiết để đạt được một độ chính xác nhất định nào đó, chúng ta chưa đề cập đến vấn đề huấn luyện theo dữ liệu mẫu phải được chọn như thế nào Môt bí quyết xác định đủ số lượng nơ ron để đạt được mức độ phức tạp của hàm biên mà không cần quan tâm đến quá trình huấn luyện dữ liệu đó là trong trường hợp không cập nhật trạng thái mới Nếu không, chúng ta cần phải có đủ quá trình huấn luyện dữ liệu để mô tả tương xứng hàm biên Để minh hoạ cho việc chúng ta có thể huấn luyện mạng, ta xét ví dụ tổng quát dưới đây.Quá trình huấn luyện mạng được khái quát hoá theo biểu thức (1.40):
tq = g(pq) + eq (1.40) Trong đó pq là tập hợp các đầu vào; g( ) là hàm biên mà chúng ta muốn xấp xỉ gần đúng; eq là sai số đo của nhiễu và tq là tập hợp các đầu ra (đáp ứng của mạng)
Trang 35
Trên hình vẽ cho biết : Hàm biên g( ) (có nét đậm), Giá trị đích của quá trình học là tq (các vòng tròn ), đáp ứng đầu ra thực tương ứng vớp các đầu vào là aq (vòng tròn nhỏ có gạch chéo bên trong) và đáp ứng toàn bộ của quá trình huấn luyện là đường nét mảnh
Trong ví dụ trên hình vẽ 1.16a, đó là quá trình huấn luyện cho một mạng cỡ lớn sử dụng phương pháp bình phương sai lệch cực tiểu Quá trình học dựa trên 15 mẫu cho trước, chúng ta có thể thấy được độ chính xác với giá trị đích tại mỗi điểm trong quá trình học Tuy nhiên, đáp ứng toàn bộ của mạng lại không có khả năng đạt được tới đường biên Điều đó có 2 nguyên nhân chủ yếu là:
Thứ nhất do mạng có lượng quá điều chỉnh trong quá trình huấn luyện, đáp ứng của mạng quá phức tạp vì mạng có nhiều thông số độc lập
Vấn đề thứ hai ở đây là trong quá trình huấn luyện không nhận giá trị p< 0, nên các nơ ron( bao gồm cả dữ lệu cơ sở và các phương pháp xấp xỉ ) không thể đáp ứng được yêu cầu ngoại suy chính xác
Nếu một đầu vào mạng mà nằm ngoài phạm vi bao phủ của dữ liệu huấn luyện thì đáp ứng của mạng sẽ luôn bị sai
Rất ít khi chúng ta làm cho mạng biển diễn ra ngoài phạm vi của dữ liệu học, chúng ta có thể làm cho mạng có khả năng nội suy giữa các điểm dữ liệu Quá trình
Hình 1.16a
Đáp ứng của mạng khi sử dụng thuật
toán bình phương sai lệch cực tiểu
Hình 1.16b
Đáp ứng của mạng khi sử dụng thuật toán Bayesian
Trang 36khái quát hoá có thể đạt được sự đa dạng của các phương pháp kỹ thuật Một phương pháp được gọi là sự dừng sớm, nhiệm vụ của chúng ta là phân chia dữ liệu huấn luyện theo biến dữ liệu đặt Sự biểu diễn mạng dựa trên biến đặt sẽ được chỉ đạo trong suốt quá trình học Trong giai đoạn đầu của quá trình huấn luyện thì biến sai lệch giảm, khi bắt đầu có lượng quá điều chỉnh thì biến sai lệch cũng bắt đầu tăng và tại các điểm quá trình huấn luyện được dừng lại
Thêm một phương pháp kỹ thuật nữa làm cho mạng tổng quát hoá được gọi là sự làm đúng theo quy tắc Với phương pháp biểu diễn chỉ số so sánh làm thay đổi đến số hạng đem đến sự phức tạp cho mạng, số hạng bất lợi đó là tổng bình phương của các hàm trọng lượng:
F(x)= 2,1
)( k
Trên hình 1.16b cho thấy đáp ứng của mạng khi mạng được huấn luyện theo quy tắc Bayesian Chú ý rằng đáp ứng của mạng có độ chính xác phù hợp không dài hơn các điểm dữ liệu huấn luyện Nhưng nhìn chung đặc tính đầu ra của mạng lại sát vào nhau hơn so với hàm biên trong phạm vi của dữ liệu huấn luyện
Tuy nhiên, với quy tắc Bayesian đáp ứng của mạng không tính toán được ngoài phạm vi dữ liệu huấn luyện Như chúng ta đã đề cập trước đây là chúng ta không thể đòi hỏi mạng tính toán ngoại suy Nếu chúng ta muốn đáp ứng của mạng chính xác từ đầu đến cuối thì ta cần phải cung cấp dữ liệu huấn luyện trong suốt phạm vi đó Điều đó sẽ khó khăn hơn đối với trường hợp mạng có nhiều đầu vào
Trang 371.5 CÔNG NGHỆ PHẦN CỨNG SỬ DỤNG MẠNG NƠ RON
Mạng nơ ron nhân tạo được dùng để xây dựng các chip mang lại nhiều lợi ích với bản chất cấu trúc phân bố song song của sự gia công thông tin như các nơ ron sinh học Chíp nơ ron có thể được sử dụng làm các bộ đồng xử lý trong các máy tính thông thường và trong việc tính toán
Trong phần cứng, mạng nơ ron có thể sử dụng vào nhiều lĩnh vực Mạng nơ ron có thể sử dụng với các chức năng như các phần tử analog hoặc digital thay thế cho các phần tử điện tử thông thường Các chíp analog có một tiềm năng to lớn về sử lý tốc độ cao và kinh tế hơn chip digital cùng loại, các chip digital cũng có ưu điểm là có độ chính xác cao và dễ chế tạo hơn
Ở phần tử analog, các trọng số liên kết mã hoá được với các phần tử điện trở, điện cảm và điện dung Các mức của các nút hoạt hoá (cường độ của tín hiệu) được đặc trưng bằng các đại lượng dòng và áp.Ví dụ như lưới silic (Silicon Retina) là một mạng chip analog có thể cạnh tranh được với lưới sinh học (Biologcal Retina)
Công nghệ digital có thể áp dụng để chế tạo các chip nơ ron Vấn đề này được Hammestrom và Means (1990) đề cập đến Khả năng khác là xung học là đặc trưng cho trọng số và cường độ tín hiệu Xung học phản ánh tương ứng với tần suất hoặc khả năng của nơ ron hoạt hoá, tái tạo điều biến quan sát được như của mạng nơ ron sinh học Phép nhân của 2 xung học tương ứng với phép AND trong mạch logic, phép cộng của 2 xung học tương ứng với phép OR trong mạch logic
Trong hướng của thuật học, có một vài chọn lọc, các trọng số trong một chip nơ ron cần cố định trước như ROM(Read Only Memory), bộ nhớ có thể chương trình hoá PROM (Programmable ROM), bộ nhớ có thể xoá và lập trình được EPROM(Erasable PROM), hoặc bộ nhớ đọc / ghi RAM (Random Access Memory) Mạng nơ ron mở ra một hướng quan trọng về công nghệ, với ưu thế nổi bật của mạng nơ ron là khả năng truyền tín hiệu song song ở các chip nơ ron do đó tốc độ truyền tín hiệu rất cao, đặc trưng này không có ở các chip điện tử truyền thống
Trang 381.6 SO SÁNH KHẢ NĂNG CỦA MẠNG NƠ RON VỚI MẠCH LOGIC
- Mạng nơ ron dùng ở các dạng mức (0,1), (-1,1) ở dạng liên tục như hàm chuyển đổi sigmoid và dạng phi tuyến Do đó phần tử logic chỉ là một trường hợp riêng của mạng nơ ron
- Khả năng lập trình được của mạng nơ ron là rất tốt, thay vì phương pháp lắp giáp phần cứng không lập trình được của mạch logic
- Ưu điểm nổi bật của mạng nơ ron là khả năng truyền tín hiệu song song làm tăng tốc độ xử lý và tính toán
- Ngay ở một phần tử nơ ron cũng có thể được coi là một hệ điều khiển trong mạch vì nó có đầy đủ các thành phần: ngưỡng, tín hiệu vào- ra, phản hồi, bộ tổng Trong khi đó mạch logic chỉ là một phần tử hoặc một mạch điện tử
Trang 40CHƯƠNG II CÁC PHƯƠNG PHÁP ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG VÀ ĐIỀU KHIỂN
Thông thường người ta hay dùng mạng nơ ron truyền thẳng nhiều lớp với luật dạy học có giám sát Ưu điểm lớn nhất của các mạng loại này là khả năng tổng quát hoá ánh xạ đầu vào- đầu ra để có thể xấp xỉ bất cứ hàm nào với độ chính xác tuỳ ý Chủ yếu mạng nơ ron sử dụng để nhận dạng và điều khiển hệ thống
2.2 CÁC PHƯƠNG ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG
2.2.1 Cơ sở lý luận
Trong nhận dạng hệ thống, để mô hình hoá quan hệ đầu vào - đầu ra của hệ thống động học, mạng được học tập bằng tập hợp dữ liệu đầu vào đầu ra, còn trọng số được điều chỉnh bằng thuật toán lan truyền ngược Dễ nhận thấy rằng ánh xạ tĩnh phi tuyến sinh ra có thể thể hiện thoả đáng mọi hành vi động học của hệ thống trong khoảng quan tâm Để điều đó trở thành hiện thực, cần cung cấp cho mạng nơ ron thông tin về quá khứ của hệ thống, thông thường là các trễ đầu vào và đầu ra Phụ thuộc vào độ chính xác mong muốn mà ta phải cung cấp các thông tin về quá khứ đến mức độ phù hợp cho mạng Thực tế cho thấy việc sử dụng mạng hai lớp ẩn cho kết quả tốt hơn mạng một lớp ẩn
Mạng nơ ron có thể được dùng để phát hiện và nhận dạng lỗi, giúp đỡ lưu trữ thông tin để ra quyết định Nhưng trong hệ thống điều khiển có mạng nơ ron rất khó chứng minh các đặc tính như ổn định hệ thống Điều đó là do các khó khăn toán học liên quan với hệ thống phi tuyến điều khiển bằng mạng nơ ron