Hàm sigmoid lưỡng cực

Hàm chuyển của các đơn vị ẩn (hidden units) là cần thiết để biểu diễn sự phi tuyến vào trong mạng. Lý do là hợp thành của các hàm đồng nhất là một hàm đồng nhất. Mặc dù vậy nhưng nó mang tính chất phi tuyến (nghĩa là, khả năng biểu diễn các hàm phi tuyến) làm cho các mạng nhiều tầng có khả năng rất tốt trong biểu diễn các ánh xạ phi tuyến. Tuy nhiên, đối với luật học lan truyền ngược, hàm phải khả vi (differentiable) và sẽ có ích nếu như hàm được gắn trong một khoảng nào đó. Do vậy, hàm sigmoid là lựa chọn thông dụng nhất. Đối với các đơn vị đầu ra (output units), các

hàm chuyển cần được chọn sao cho phù hợp với sự phân phối của các giá trị đích mong muốn. Chúng ta đã thấy rằng đối với các giá trị ra trong khoảng [0,1], hàm sigmoid là có ích; đối với các giá trị đích mong muốn là liên tục trong khoảng đó thì hàm này cũng vẫn có ích, nó có thể cho ta các giá trị ra hay giá trị đích được căn trong một khoảng của hàm kích hoạt đầu ra. Nhưng nếu các giá trị đích khơng được biết trước khoảng xác định thì hàm hay được sử dụng nhất là hàm đồng nhất (identity function). Nếu giá trị mong muốn là dương nhưng khơng biết cận trên thì nên sử dụng một hàm kích hoạt dạng mũ (exponential output activation function).

2.3.4. Phân loại các mạng nơ-rôn

Liên kết các đầu vào và ra của nhiều nơ-rôn với nhau ta được một mạng nơ-rôn. Nguyên lý cấu tạo của một mạng nơ-rôn bao gồm một hoặc nhiều lớp. Mỗi lớp bao gồm nhiều nơ-rơn có cùng một chức năng trong mạng. Dựa vào số lớp hay sự liên kết giữa các lớp trong mạng mà người ta phân mạng nơ-rôn nhân tạo thành các nhóm khác nhau.

* Phân loại theo số lớp

Dựa theo số lớp thì mạng nơ-rơn gồm hai loại: mạng một lớp và mạng nhiều lớp. - Mạng một lớp: Mạng một lớp cấu thành từ một lớp mạng, nó vừa là lớp vào vừa là lớp ra.

Hình 2.10. Mơ hình mạng nơ-rơn một lớp - Mạng nhiều lớp

Mạng nhiều lớp được cấu thành từ nhiều lớp liên kết với nhau, bao gồm một lớp vào, lớp ẩn và một lớp ra. Trong đó, lớp nhận tín hiệu đầu vào được gọi là lớp vào. Các tín hiệu đầu ra của mạng được sản sinh bởi lớp ra của mạng. Các lớp nằm giữa lớp vào và lớp ra được gọi là lớp ẩn. Lớp ẩn là thành phần nội tại của mạng, nó khơng có bất kỳ tiếp xúc nào với mơi trường bên ngồi. Số lượng lớp ẩn có thể dao động từ 0 đến một vài lớp. Tuy nhiên, thực tế cho thấy chỉ cần một lớp ẩn là mạng đã đủ để giải quyết được một lớp các bài tốn phức tạp nào.

1 x 2 x n x 1 y 2 y m y

Hình 2.11. Mơ hình mạng nơ-rơn 3 lớp truyền thẳng

* Phân loại theo sự liên kết giữa các lớp

Sự liên kết trong mạng nơ-rôn tuỳ thuộc vào nguyên lý tương tác giữa đầu ra của từng nơ-rôn riêng biệt với nơ-rôn khác và tạo ra cấu trúc mạng nơ-rôn. Về nguyên tắc sẽ có rất nhiều kiểu liên kết giữa các nơ-rơn, nhưng chỉ có một số cấu trúc hay gặp trong ứng dụng sau:

- Mạng truyền thẳng (Feedforward neural networks)

Dòng dữ liệu đầu vào từ các nơ-rôn đầu vào đến các nơ-rôn đầu ra chỉ được truyền thẳng. Việc xử lý dữ liệu có thể mở rộng ra nhiều lớp, nhưng khơng có các liên kết ngược. Tức là, khơng có các liên kết từ các đơn vị đầu ra tới các đơn vị đầu vào trong cùng một lớp hay các lớp trước đó.

Nếu mơ hình hố mạng truyền thẳng bằng một đồ thị, thì nó là một đồ thị có hướng hữu hạn khơng chu trình. Trong đó, mỗi nơ-rôn là một nút, các liên liên kết giữa các nơ-rôn là các cung của đồ thị. Hình 2.11 là một minh họa về mạng truyền thẳng nhiều lớp.

- Mạng hồi quy (mạng nối ngược) (Recurrent neural network)

Khác với mạng truyền thẳng, mạng hồi quy có chứa các liên kết ngược. Mơ hình hố mạng hồi quy bằng một đồ thị thì nó là một đồ thị có hướng hữu hạn có chu trình. Hình 2.12 minh họa cho một mạng hồi quy.

Hình 2.12. Mơ hình mạng nơ-rơn 3 lớp hồi quy lớp lớp

vào

lớp

2.4. Huấn luyện mạng nơ-rôn

Chức năng của một mạng nơ-rôn được quyết định bởi các nhân tố như: hình trạng mạng (số lớp, số đơn vị trên mỗi tầng và cách mà các lớp được liên kết với nhau) và các trọng số của các liên kết bên trong mạng. Hình trạng của mạng thường là cố định và các trọng số được quyết định bởi một thuật toán huấn luyện (training algorithm). Tiến trình điều chỉnh các trọng số để mạng “nhận biết” được quan hệ giữa đầu vào và đích mong muốn được gọi là học (learning) hay huấn luyện (training). Rất nhiều thuật toán học đã được phát minh để tìm ra tập trọng số tối ưu làm giải pháp cho các bài toán. Các thuật tốn đó có thể chia làm hai nhóm chính: Học có thầy (Supervised learning) và Học khơng có thầy (Unsupervised Learning).

- Học có thầy (Supervised learning):

Hình 2.13 là mơ hình học có thầy. Mạng được huấn luyện bằng cách cung cấp cho nó các cặp mẫu đầu vào và các đầu ra mong muốn (target values). Các cặp được cung cấp bởi "thầy giáo", hay bởi hệ thống trên đó mạng hoạt động. Sự khác biệt giữa các đầu ra thực tế so với các đầu ra mong muốn được thuật toán sử dụng để thích ứng các trọng số trong mạng. Điều này thường được đưa ra như một bài toán xấp xỉ hàm số - cho dữ liệu huấn luyện bao gồm các cặp mẫu đầu vào x và một đích tương ứng t, mục đích là tìm ra hàm f(x) thoả mãn tất cả các mẫu học đầu vào.

Hình 2.13. Mơ hình học có thầy (Supervised learning model) - Học khơng có thầy (Unsupervised Learning):

Với cách học khơng có thầy, khơng có phản hồi từ mơi trường để chỉ ra rằng đầu ra của mạng là đúng. Mạng sẽ phải khám phá các đặc trưng, các điều chỉnh, các mối tương quan, hay các lớp trong dữ liệu vào một cách tự động. Trong thực tế, đối với phần lớn các biến thể của học khơng có thầy, các đích trùng với đầu vào. Nói một cách khác, học khơng có thầy ln thực hiện một công việc tương tự như một mạng tự liên hợp, cô đọng thông tin từ dữ liệu vào.

2.5. Một số ứng dụng của mạng nơ-rôn

Mạng nơ-rôn được coi như một hộp đen biến đổi đầu vào m biến thành vec-tơ ra n biến. Các biến của vec-tơ vào và ra có thể là các số thực, tốt nhất nằm trong khoảng [0, 1]

hoặc [-1, 1]; số nhị phân 0, 1 hay số nhị cực -1, +1. Số biến của vec-tơ vào/ra không bị hạn chế song sẽ ảnh hưởng tới thời gian tính và tài nguyên của máy tính. Với số lượng lớn các biến của các vec-tơ đầu vào và ra đồng nghĩa với việc tăng số lượng các số liệu quan sát. Thường số biến của vec-tơ ra nhỏ hơn số biến của vec-tơ vào nhưng không phải bắt buộc là như vậy. Các lĩnh vực mà mạng nơ-rôn thường được ứng dụng là:

- Phân loại (Classification) - Mơ hình hố (Modeling)

- Biến đổi (Transformation and mapping)

a. Phân loại

Một trong các công việc đơn giản và thường được sử dụng nhiều trong việc quản lý các đối tượng đa biến là phân loại. Đó có thể là sắp xếp các đối tượng vào các tập theo từng loại hoặc theo tầng lớp hoặc theo các lớp con của các lớp lớn hơn.

Thường xuyên việc phân loại theo tầng lớp bao gồm nhiều mức của các tập ra quyết định, phân lớp một đối tượng vào nhúm, nhúm con, chủng loại, chủng loại con, hoặc lớp. Ví dụ trong hố học việc dự báo các đặc điểm cấu trúc khác nhau cùng một hợp chất chưa biết trên phổ của nó.

b. Mơ hình hố

Các hệ thống phân loại đưa ra các câu trả lời rời rạc như có, khơng hoặc một số nguyên định danh đối tượng đầu vào thuộc lớp nào. Tuy nhiên, việc mơ

hình hố yêu cầu hệ thống phải sản sinh ra các câu trả lời mang tính liên tục. Trong việc mơ hình hố một số lượng nhỏ các số liệu được sử dụng để xây dựng mơ hình. Mơ hình này có thể đưa ra các dự báo cho tất cả các đối tượng đầu vào có thể. Việc tìm ra đường cong phù hợp với các số liệu thực nghiệm (curve- fitting) là một trong những ứng dụng thuộc dạng này. Trong phần lớn các ứng

dụng chúng chỉ là thủ tục một biến vào - một biến ra như sau:

Y = f(x, a, b, … , p) (2.8)

Ở đây hàm f chứa một tập các tham số a, b, …., p. Các tham số này phải được xác định bằng việc tối thiểu hoá độ chênh lệch giữa số liệu thực nghiệm và giá trị tính tốn từ mơ hình:

 (y thực nghiệm - ymơ hình)2  min (2.9) Mơ hình hố cũng có thể là vấn đề nhiều biến vào - một biến đầu ra hoặc nhiều biến đầu vào - nhiều biến đầu ra.

Trong bất kỳ loại mơ hình nào thì cũng phải tuân theo một giả định là: các thay đổi nhỏ của tín hiệu đầu vào sẽ chỉ gây ra những biến đổi nhỏ của tín hiệu ra.

Trong các vấn đề đa biến mạng nơ-rơn có nhiều lợi thế hơn so với các phương pháp mơ hình hố cổ điển sử dụng các hàm giải tích, các phương pháp mơ hình hố cổ điển đối với mỗi biến đầu ra chúng ta phải khẳng định trước một hàm giải tích cùng một bộ các tham số trong khi đó đối với mạng nơ-rơn chúng ta khơng cần bất kỳ sự hiểu biết trước về các tham số đó.

c. Biến đổi

Việc biến đổi nhằm mục đích nộn các đối tượng từ không gian m chiều vào khơng gian có số chiều nhỏ hơn rất nhiều (2 hoặc 3). Qua việc nộn các đối tượng này sẽ bộc lộ các đặc điểm mà chúng ta không thể nhận thấy khi các đối tượng ở trong không gian nhiều chiều.

Những câu hỏi mà việc biến đổi có thể trả lời là: Bản đồ của tồn bộ các đối tượng như thế nào? Có bao nhiêu vùng trong bản đồ có thể phân biệt được? Hình dáng của các vùng đó như thế nào? Các đặc điểm của các đối tượng thể hiện qua các vùng bản đồ như thế nào?

2.6. Một số mạng nơ-rơn được đề xuất để ứng dụng nhận dạng tín hiệu điện tim

2.6.1. Mạng MLP

2.6.1.1. Cấu trúc mạng

Mạng MLP là mạng nơ-rơn phổ biến nhất, nó là một mạng truyền thẳng với các phần tử cơ bản gọi là nơ-rôn [6]. Trong luận văn sử dụng mạng MLP với một lớp ẩn được trình bày trong hình 2.14. Nhiệm vụ đặt ra là phải xác định cấu trúc cố định cho mạng MLP: Số lớp ẩn, hàm truyền đạt của mỗi lớp, số lượng nơ-rôn trên mỗi lớp, trọng số ghép nối giữa nơ-rơn trong mơ hình MLP có thể được điều chỉnh lại cho phù hợp trong quá trình học để xuất các tín hiệu đầu ra mong muốn. Thuật tốn của q trình học được sử dụng cho mơ hình MLP trong luận văn này đã được đề xuất bởi Levenberg và Marquardt [6, 30].

Theo [6] mạng MLP với một lớp ẩn có thể được đặc trưng bởi các thơng số sau: - Bộ ba (N, M, K ), trong đó N – số đầu vào, M – số nơ-rôn thuộc lớp ẩn, K – số nơ-rôn ở lớp đầu ra.

- Các hàm truyền đạt f1 của lớp ẩn và f2 của lớp đầu ra.

- Ma trận trọng số W kết nối giữa lớp đầu vào và lớp ẩn (Wij - trọng số ghép nối

giữa nơ-rôn ẩn thứ i và đầu vào thứ j), ma trận các trọng số V kết nối giữa lớp ẩn và

lớp đầu ra (Vij  trọng số ghép nối giữa nơ-rôn đầu ra thứ i và nơ-rơn ẩn thứ j)

Khi đó, với véc-tơ đầu vào x   x1, x2,...,xN (đầu vào phân cực cố định x0=1) ta có đầu ra được xác định tuần tự theo chiều “lan truyền thuận” như sau:

(1) Tổng đầu vào của nơ-rôn ẩn thứ i (i=1,2,...,M): 0 . N j ij j ui x W   (2.10) (2) Đầu ra của nơ-rôn ẩn thứ i (i=1, 2 ,..., M), đầu vào phân cực của các nơ-rôn lớp ra là v0  1.

  1

vi  f  ui (2.11)

(3) Tổng đầu vào của nơ-rôn đầu ra thứ i (i=1, 2, ..., K):

. 0 gi M j ij j v V   (2.12)

(4) Đầu ra thứ i (i=1, 2, ..., K) của mạng sẽ bằng:

yi  f2 gi (2.13)

Tổng hợp lại ta có hàm truyền đạt của mạng MLP là một hàm phi tuyến có cơng thức như sau:   2 2 2 1 0 0 2 1 0 0 yi . ( ). . i M M j ij j ij j j M N k jk ij j k f g f v V f f u V f f x W V                                        (2.14)

2.6.1.2. Thuật toán học theo bước giảm cực đại cho mạng MLP

Q trình điều chỉnh các thơng số của mạng để thích nghi với bộ số liệu được gọi là quá trình học của mạng MLP hay cịn được gọi là q trình huấn luyện (train)

Trong số các thơng số đã nêu ở trên, nếu như các thông số cấu trúc (số đầu vào,

số đầu ra, số lớp ẩn, các hàm truyền đạt của mỗi lớp ẩn, số nơ–rôn trên mỗi lớp ẩn)

thường được chọn bằng thực nhiệm hoặc bằng phương pháp thử với các giá trị rời rạc nhất định thì các thơng số trọng số ghép nối giữa các nơ–rơn có thể được điều chỉnh thích nghi bằng các thuật tốn tối ưu hóa (cịn gọi là thuật tốn “học”). Các thuật toán “học” của mạng nơ–rơn có các ý tưởng cũng hồn tồn tương tự như các thuật tốn học của nơ–rơn, tuy nhiên cần chú ý rằng mức độ phức tạp của công thức là cao hơn do cấu trúc mạng nơ–rôn phức tạp hơn so với từng nơ–rôn đơn lẻ.

Tương tự như đối với nơ–rôn đơn lẻ, các thuật tốn thơng dụng nhất để điều chỉnh thích nghi các trọng số của một mạng nơ–rơn là các thuật tốn sử dụng gradient như thuật toán bước giảm cực đại, thuật toán Levenberg – Marquardt, …

Khi sử dụng thuật toán bước giảm cực đại, ta cũng khởi tạo các giá trị trọng số bằng các giá trị ngẫu nhiên nào đó: [w] = [w](0); [v] = [v](0). Sau đó ta sẽ xây dựng công thức lặp để điều chỉnh liên tiếp các giá trị này để hàm sai số tiến tới cực trị. Ta có các cơng thức thay đổi các trọng số trong hai ma trận W và V để xác định điểm cực trị của hàm mục tiêu E như sau:

        1 1 t t t t E W W W E V V V                          (2.15)

với hàm mục tiêu E cho theo (2.9) và độ lệch giữa véc–tơ đầu ra yi của mạng MLP và véc–tơ giá trị đích di được tính theo các cơng thức tính khoảng cách như các công thức từ (2.10) đến (2.14).

Từ các công thức (2.10) đến (2.14) và (2.15) đã nêu trên ta có:

1 1 ( ) p K ij ij ij i j y E y d V   V        (2.16) Trong đó:     2 2 0 M ij ij jk ij ij ik k y g V f g f g v V V  V            (2.17) Nhưng Vjk 1 V    chỉ khi j và k , Vjk 0 V  

 trong các trường hợp còn lại. Từ đó:

   2 1 p i i i i i E y d f g v V            (2.18) Một cách tương tự:   2  1  1 1 p K ij ij i j i i i j E y d f g V f u x W             (2.19)

Với các công thức gradient này, ta có thể tiến hành điều chỉnh thích nghi các giá trị của hai ma trận W và V để tìm cực tiểu của hàm sai số.

Ta có các cơng thức để điều chỉnh thích nghi các trọng số của mạng MLP theo thuật toán Levenberg – Marquardt [5]:

W(t1) W(t)– [H W  t ]1g W  t (2.20) V(t1) V(t)– [H V  t ]1g V  t (2.21) trong đó:

, – các ma trận chứa các trọng số ghép nối và tại bước lặp thứ (t) trong q trình thích nghi;

vec – tơ gradient của hàm sai số theo từng trọng số trong các ma trận;

ma trận gradient bậc hai của hàm sai số theo cặp trọng số từ các

Mơ hình mạng nơ-rôn sinh học

Mơ hình mạng nơ-rôn 3 lớp hồi quy