* Nơ-ron sinh học
Hệ thần kinh ở người có khoảng 1010 tế bào thần kinh được gọi là các
nơ-ron. Mỗi nơ-ron gồm có ba phần: Thân nơ-ron với nhân ở bên trong (soma), một đầu thần kinh ra (axon) và một hệ thống hình cây thần kinh (dendrite). Có nhiều loại nơ-ron khác nhau về kích thứơc và khả năng thu
phát tín hiệu. Tuy nhiên, chúng có cấu trúc và nguyên lý hoạt động chung. Hình vẽ (2.1) là một hình ảnh đơn giản hoá của một loại nơ-ron như vậy. Trong thực tế có rất nhiều dây thần kinh vào và chúng bao phủ một diện tích rất lớn (0.25 mm2) để nhận các tín hiệu từcác nơ-ron khác. Đầu thần kinh ra
được rẽ nhánh nhằm chuyển giao tín hiệu từthân nơ-ron tới nơ-ron khác. Các nhánh của đầu thần kinh được nối với các khớp thần kinh (synapse). Các khớp thần kinh này được nối với thần kinh vào của các nơ-ron khác. Thêm
vào đó, các nơ-ron có thể sửa đổi tín hiệu tại các khớp, trong các nơ-ron nhân tạo được gọi là trọng số. Khớp nối dây thần kinh ( Đầu Vào) Nhân Tế bào Trục Đầu ra
- Hoạt động của nơ-ron sinh học có thể mô tả tóm tắt như sau:
Mỗi nơ-ron nhận tín hiệu vào từ các tế bào thần kinh khác. Chúng tích hợp các tín hiệu vào, khi tổng tín hiệu vượt quá một ngưỡng nào đó chúng tạo tín hiệu ra và gửi tín hiệu này tới các nơ-ron khác thông qua dây thần kinh.
Các nơ-ron liên kết với nhau thành mạng. Mức độ bền vững của các liên kết
này xác định một hệ số gọi là trọng số liên kết.
* Nơ-ron nhân tạo
- Trọng số và tổng tín hiệu đầu vào:
Mô phỏng nơ-ron sinh học, ta có nơ-ron nhân tạo. Mỗi nơ-ron có rất nhiều dây thần kinh vào, nghĩa là mỗi nơ-ron có thể tiếp nhận đồng thời nhiều tín hiệu. Giả sử tại nơ-ron i có N tín hiệu vào, mỗi tín hiệu vào được gán một trọng số tương ứng. Ta có thể ước lượng tổng tín hiệu đi vào nơ-ron
i
net theo một số dạng sau:
(i) Dạng tuyến tính: , (2.1)
(ii) Dạng toàn phương: , (2.2)
(iii) Dạng mặt cầu: , (2.3)
trong đó và lần lượt là bán kính và tâm cầu.
j S ij W N j j ij i w s net 1 N j j ij i w s net 1 2 2 1 2 N j ij j i s w net j N wij 1,
- Hàm kích hoạt và các quy tắc xác định tín hiệu ra
Cần xác lập một quy tắc để xác định ảnh hưởng của tín hiệu vào tổng so với ngưỡng kích hoạt của nơron. Một hàm Fk được sử dụng để lấy tín hiệu vào tổng sk(t) và giá trị kích hoạt yk(t) hiện tại, tính giá trị kích hoạt mới của
nơron k:
( + 1) = ( ), ( ) (2.4) Thông thường, hàm kích hoạt là một hàm không giảm của tín hiệu vào tổng của nơron:
( + 1) = ( ) = ( ) ( )+ ( ) (2.5)
Các hàm kích hoạt không nhất thiết phải không giảm. Một sốhàm ngưỡng
thường được sử dụng (hình 2.2): Hàm ngưỡng giới hạn mạnh (hàm dấu), Hàm tuyến tính hoặc bán tuyến tính, Hàm ngưỡng giới hạn trơn. Hàm giới hạn trơn
còn gọi là hàm sigmoid (hàm dạng chữS) được xác định như sau:
= ( ) = 1
1 + (2.6)
Hình 2.2. Một số dạng hàm kích hoạt của nơron
Trong một số trường hợp, tín hiệu ra của một nơron có thể là một hàm
không xác định trước theo tín hiệu vào tổng của nơron. Khi đó, giá trị kích hoạt sẽ không được xác định một cách chính xác bởi tín hiệu vào của nơron,
mà tín hiệu vào của nơron sẽ xác định một xác suất p để một nơron nhận giá trị kích hoạt cao: ( ← 1) = 1 1 + / (2.7) trong đó T là một tham sốxác định độ dốc của hàm xác suất. - Quy tắc delta Xét mạng một lớp có một nơron ra với hàm kích hoạt tuyến tính, tín hiệu
ra được cho đơn giản như sau:
= + (2.8)
Mạng đơn giản như vậy có thể biểu diễn một quan hệ tuyến tính giữa giá trị của nơron ra và giá trị của các nơron vào. Ở đây mạng được sử dụng để
xấp xỉ hàm.
Giả sử cần huấn luyện mạng để xác lập một siêu phẳng càng khớp càng tốt với tập các mẫu huấn luyện bao gồm các giá trị vào xp và các giá trị ra mong muốn (đích) dp. Với mỗi mẫu vào, đầu ra của mạng sai khác với giá trị đích dp một lượng (dp-yp), trong đó yp là đầu ra thực sự của mẫu. Quy tắc delta sử dụng hàm giá hay hàm lỗi dựa trên những sai khác này để điều chỉnh các trọng số.
Hàm lỗi được xác định như sau:
= =1
2 ( − ) (2.9) trong đó chỉ số p chạy trong tập mẫu vào và Ep biểu diễn lỗi trên mẫu p.
xác định các giá trị của tất cả các trọng số rồi cực tiểu hóa hàm lỗi bằng một
phương pháp gọi là độ dốc (gradient) giảm dần:
∆ = − (2.10) trong đó là một hằng số thích ứng. Giá trị đạo hàm là:
= (2.11)
Vì các nơron là tuyến tính (công thức (2.8))
= (2.12)
Và
=−( − ) (2.13)
nên
∆ = (2.14) trong đó p = (dpyp) là sự sai khác giữa đầu ra đích và đầu ra thực sự của mẫu p.
- Nút bias:
Là một nút thêm vào nhằm tăng khả năng thích nghi của mạng nơ-ron trong qúa trình học. Trong các mạng nơ-ron có sử dụng bias, mỗi nơ-ron có thể có một trong số tương ứng với bias. Trong số này luôn có giá trị là 1.
- Mô hình của một nút xử lý (nút thứ i): N i j j i j ij i WV U # 1 θ , (2.15) Vi fi Ui , (2.16) trong đó :
là tín hiệu vào tại nơ-ron i. là tín hiệu ra tại nơ-ron i.
ij
W là trọng số liên kết từnơ-ron j đến nơ-ron i.
i
là ngưỡng (đầu vào ngoài) kích hoạt nơ-ron i.
i
f là hàm kích hoạt của nơ-ron i.
- Nơron – đơn vị xử lý cơ bản
Một mạng nơron nhân tạo bao gồm một tập các đơn vị xử lý cơ bản, gọi
là nơron, chúng truyền thông tin bằng cách gửi các tín hiệu cho nhau qua các kênh kết nối có trọng số. Mỗi nơron thực hiện một công việc tương đối đơn
giản: nhận tín hiệu từcác nơron lân cận hoặc từ nguồn bên ngoài, tính toán tín hiệu ra rồi truyền sang cho các nơron khác. Ngoài việc xử lý này, nhiệm vụ
thứ hai của nơron là điều chỉnh lại các trọng số. Hệ thống sẽ được thực hiện
i U i V Vi=fi(Ui) Ui= Vi Vi Wi1 Vj VN Wij WiN
song song vì nhiều nơron có thể thực hiện tính toán ở cùng thời điểm. Hình 2.4 minh họa các thành phần cơ bản của một mạng nơron nhân tạo.
Trong các hệ thống nơron, cần phân biệt ba loại chính: các nơron vào (ký hiệu là i) nhận dữ liệu từ bên ngoài mạng nơron, các nơron ra (ký hiệu là o) gửi dữ liệu ra ngoài mạng nơron, và các nơron ẩn (ký hiệu là h) với tín hiệu vào và ra của chúng chỉđược duy trì trong mạng.
Hình 2.4. Các thành phần cơ bản của mạng nơron nhân tạo
Trong quá trình tính toán, các nơron có thể được cập nhật một cách đồng bộ hoặc không đồng bộ. So với việc cập nhật đồng bộ, đôi khi việc cập nhật
không đồng bộ lại có một sốưu điểm.
- Liên kết giữa các nơron
Trong hầu hết các trường hợp, ta giả sử rằng mỗi nơron sẽ đóng góp (theo
tính chất cộng) vào tín hiệu vào của nơron được nối đến. Tín hiệu vào tổng tới
nơron k là tổng có trọng số của các tín hiệu ra riêng lẻ từcác nơron nối tới nó cộng với bias k(t):
( ) = ( ) ( )+ ( ) (2.17)
Giá trị trọng số wjk nếu dương thì được gọi là sự kích thích còn nếu âm gọi là sự ức chế. Các quy tắc kết hợp tín hiệu vào phức tạp hơn sẽđược sử dụng
trong một số trường hợp khác. Khi đó sẽ có sự phân biệt giữa tín hiệu kích thích và ức chế. Nơron với quy tắc lan truyền như công thức (2.17) được gọi
là nơron sigma.
* Mạng nơ-ron
Mạng nơ-ron nhân tạo (Artificial Neural Network) là một cấu trúc mạng được hình thành nên bởi sốlượng các nơ-ron nhân tạo lên kết với nhau. Mỗi nơ-ron có các đặc tính đầu vào, đầu ra và thực hiện một chức năng tính
toán cục bộ.
Với việc giả lập các hệ số sinh học, các cấu trúc tính toán, mạng nơ-ron có thể giải quyết được các lớp bài toán nhất định, như: Bài toán xếp loại, bài toán lập lịch, bài toán tìm kiếm, bài toán nhận dạng mẫu… Các bài toán phức tạp cao, không xác định. Tuy nhiên, sự liên kết giữa một bài toán bất kỳ trong thực tế với một giải pháp mạng nơ-ron lại là một công việc không dễ dàng.
Xét một cách tổng quát, mạng nơ-ron là một cấu trúc xử lý song song
thông tin phân tán mang các đặc tính nổi bật sau:
Là mô hình toán học dựa trên bản chất của nơ-ron.
Bao gồm một sốlượng rất lớn các nơ-ron liên kết với nhau.
Mạng nơ-ron có khả năng học, khái quát hóa tập dữ liệu học thông qua việc gán và hiệu chỉnh các trọng số liên kết .
Tổ chức theo kiểu tập hợp mang lại cho mạng nơ-ron khả năng tính
toán rất lớn, trong đó không có nơ-ron nào mang thông tin riêng biệt.
(i) Mạng truyền thẳng:
Mạng truyền thẳng một lớp
Mô hình mạng nơ-ron truyền thẳng một lớp là mô hình liên kết cơ bản và đơn giản nhất. Các nơ ron tổ chức lại với nhau thành một lớp, đường
truyền tín hiệu được truyền theo một hướng nhất định nào đó. Các đầu vào
được nối với các nơ ron theo các trọng số khác nhau, sau quá trình xử lý cho
ra một chuỗi các tín hiệu ra. Nếu mạng nơ ron là mô hình LTU thì nó được
gọi là mạng Perceptoin, còn mạng nơ ron là mô hình LGU thì nó được gọi là mạng Adaline.
Với mỗi giá trị đầu vào x = [ x1,x2,....,xn]T . Qua quá trình xử lý của mạng ta sẽ thu được một bộ tương ứng các giá trị đầu ra là y = [y1,y2,...,yn]T
được xác định như sau:
n i x w f y ij j i m j i i ( ). 1, 1 θ , (2.18) trong đó: m: số tín hiệu vào n : số tín hiệu ra
WiT = [ wi1, wi2,...,win]Tlà véc tơ trọng số của nơ ron thứ i. fi : hàm kích hoạt của nơ ron thứ i
i: là ngưỡng của nơ ron thứ i.
y1 yn y2 Xm x1 x2 Hình 2.5. Mạng truyền thẳng một lớp
Mạng truyền thẳng nhiều lớp.
Với mạng nơ ron truyền thẳng một lớp ở trên, khi phân tích một bài toán phức tạp sẽ gặp nhiều khó khăn, để khắc phục vấn đề này người ta đưa ra
mô hình mạng nơ ron truyền thẳng nhiều lớp bằng việc kết hợp một số lớp nơ
ron lại với nhau. Lớp nhận tín hiệu vào gọi là lớp vào, lớp đưa ra tín hiệu ra
của mạng được gọi là lớp ra. Các lớp ở giữa lớp vào và lớp ra được gọi là các lớp ẩn.
Hình 2.6. Mô tả cấu trúc của mạng nơ ron truyền thẳng nhiều lớp.
(ii) Mạng hồi quy
Mạng hồi quy một lớp có nối ngược
lớp vào lớp ẩn lớp ra x1 y1 x2 y2 ... ... ... ... ... ... . . . . . . . . . X1 X2 XN Y1 Y2 YM Hình 2.7. Mạng một lớp có nối ngược
Mạng hồi quy nhiều lớp có nối ngược