CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
1.2.3. Các luật học cơ bản
Mạng nơ-ron sử dụng hai nhóm luật học: nhóm luật học thông số (parameter learning rules) và nhóm các luật học cấu trúc (structure learning rules)
+ Học cấu trúc: Có nhiệm vụ đưa ra cấu trúc hợp lý của mạng như thay đổi số lượng nơ-ron hoặc thay đổi số lượng liên kết của các nơ-ron trong mạng.
+ Học thông số: có nhiệm vụ tính toán cập nhật giá trị của trọng số liên kết wij, các tham số kích hoạt ặ)
Quá trình học có thể được thực hiện có hoặc không có tín hiệu để so sánh gọi là học có giám sát hoặc học không có giám sát
Giả thiết ta có mạng nơ-ron có
- V ector tín hiệu vào X= [x1, x2,..., xj , ..., xm] T, Y tín hiệu ra - Vector trọng số liên kết của nơ-ron thứ i là
Wi = [wi1, wi2,...., wim] T
- d là vector tín hiệu đầu ra mong muốn d= [d1, d2,..., dj , ..., dp] T
1.2.3.1. Học có giám sát (học có thầy giáo) tức là có tín hiệu để so sánh
Cho trước p tập mẫu tín hiệu vào – ra: (x(1) , d(1)), ..., (x(k), d(k)), ..., (x(p), d(p));
với x là vector tín hiệu mẫu đầu vào x = (x(1), x(2), ..., x(p)) T; và d là vector tín hiệu đầu ra mong muốn d = (d(1), d(2), ..., d(p)) T.
Khi đưa một mẫu tín hiệu vào là x(k) vào đầu vào của mạng nơ-ron, ở đầu ra có tín hiệu ra y(k) tương ứng. Sai lệch giữa hai vector tín hiệu d và y có nhiệm vụ điều chỉnh vector trọng số W của mạng nơ-ron sao cho vector tín hiệu ra y của mạng bám theo được vector tín hiệu mong muốn d, nói cách khác là giảm thiểu sai lệch giữa chúng. Kiểu học có giám sát được minh họa như hình 1.6
Hình 1.6. Sơ đồ mạng nơ- ron học có giám sát.
1.2.3.2. Học tăng cường (học củng cố):
Trong quá trình học giám sát, giả thiết rằng đáp ứng đầu ra của mạng đã đạt được giá trị mong muốn. Nhưng ở một mẫu vào ra nào đó cho rằng kết quả không tin cậy, vì vậy cần phải tiến hành kiểm tra lại mẫu nói trên. Kiểu học này được gọi là kiểu học củng cố được thể hiện qua hình 1.7
Hình 1.7. Sơ đồ mạng nơ-ron học củng cố.
1.2.3.3. Học không giám sát:
Kiểu học này có đặc điểm là không có tín hiệu lấy từ bên ngoài. Mạng phải tự tìm ra các mẫu, nét đặc trưng, sự tương thích, phân loại trong dữ liệu đầu vào và mã hóa thành các mẫu ở đầu ra. Trong quá trình học không giám sát hình 1.8 nếu mạng không thay đổi thông số của nó thì được gọi là tự tổ chức.
Hình 1.8. Sơ đồ nơ-ron học củng cố.
* Yêu cầu đối với hai kiểu học:
+ Kiểu học có giám sát và củng cố: phải có tín hiệu mong muốn ở đầu ra d, các trọng số của nơ-ron thứ i được điều chỉnh theo các giá trị tín hiệu đầu vào, tín hiệu đầu ra và tín hiệu đầu vào mong muốn của nó.
+ Đối với kiểu học không có giám sát: Trọng số của nơ-ron thứ i chỉ phụ thuộc vào giá trị của sự kết hợp của tín hiệu đầu vào and/or với tín hiệu đầu ra.
* Dạng tổng quát học có tham số
Nhận xét: Luật học có tham số (trọng số) đều có sự thay đổi giá trị của vector trọng số liên kết của nơ-ron thứ i là Δwi tại thời điểm t tỷ lệ với tín hiệu học r và tín hiệu vào x(t)
ΔWi (t) = h.r.x(t) (8)
Trong đó:
ΔWi (t) chênh lệch trong cần cập nhật η hệ số học, thể hiện tốc độ học
r tín hiệu học, thường là sai lệch giữa đích và đầu ra
r = fr(Wi , x, di ) (9)
x(t) tín hiệu vào
Biểu thức tính vector trọng số của nơ-ron thứ i tại (t+1) là:
ΔWi (t+1) = ΔWi (t) + η. fr((Wi (t), x(t), di (t)), x(t) Ví dụ luật học không giám sát của Hebb (1949):
ΔWi (t) = η.yi .x (10)
Trong đó:
ΔWi (t) chênh lệch trong cần cập nhật η hệ số học, thể hiện tốc độ học y tín hiệu ra
x tín hiệu vào
1.2.3.4. Mô hình nơ-ron nhân tạo M-P Sơ đồ tổng quát
Hình 1.9. Nơ-ron M-P.
Trong đó:
xj(t): Đầu vào thứ j ở thời điểm (t) y(t+ Δ ): đầu ra của nơ-ron
Δ: Thời gian xử lí tín hiệu wj: trọng nối từ đầu vào thứ j θ: Ngưỡng
f(.): hàm tích hợp ặ): Hàm kích hoạt.
Phương trình mô tả
𝑌(𝑡 + ∆) = 𝑦(𝑡 + ∆) = 𝑎(∑𝑚𝑗=1𝑤𝑗𝑥𝑗(𝑡) − 𝜃) (11) 𝑎(𝑓) = {1 𝑛ế𝑢 𝑓 ≥ 0
0 𝑛ế𝑢 𝑓 < 0 (12)
*Khả năng tính toán
- Bằng cách chọn các trọng và ngưỡng thích hợp, một nơ-ron có thể thực hiện được ba phép tính logic cơ bản: OR, AND, NOT.
- Một mạng từ các nơ-ron M-P có thể thực hiện các hàm logic phức tạp bất kỳ, và có khả năng tính toán như một máy tính số hiện nay.
1.2.3.5. Các mạng Nơ-ron truyền thẳng sử dụng luật học giám sát
Mô hình mạng Adaline: Bao gồm cấu trúc, luật học và các ứng dụng
a. Phần tử Adaline (Adaptive Linear Element) – phần tử tuyến tính thích nghi được Widrow và Hoff đề xuất 1960
+ Cấu trúc: chỉ có một nơ-ron với hàm tính hợp tuyến tính và hàm kích hoạt dốc
Hình 1.10. Cấu trúc phân tử Adaline.
Chỉ gồm một nơ-ron tuyến tính hoặc hàm kích hoạt dốc Tín hiệu vector đầu vào: x = [x1, x2,...,xm] T,
Vector trọng số liên kết W = [w1, w2,...,wm] T với hàm chuyển đổi tuyến tính ặ) có dạng tuyến tính.
Phương trình mô tả tính toán tín hiệu ra y
𝒚 = 𝒂(𝒗) = 𝒂[∑𝒎𝒋=𝟏𝒘𝒋𝒙𝒋] = ∑𝒎𝒋=𝟏𝒘𝒋𝒙𝒋 ≡ 𝒅 (13) 𝒚 = 𝒂(𝒗) = 𝒂(𝒘𝑻𝒙) = 𝒘𝑻𝒙 (14) Luật học:
Cho trước bộ mẫu tín hiệu vào – ra gồm p phần tử {(x(1) ), d(1) ), (x(2) ), d(2) ), …., (x(p)), d(p))}
Trong đó mẫu tín hiệu đầu vào thứ k:
x(k) = [x1(k), x2 (k), …, xm(k)] T , Với p ≤ m; j=1,2,…,m; k=1,2,…,p
Luật học gồm luật học Adaline và luật học bình phương trung bình cực tiểu (Least Mean Square – LMS)
Hình 1.11. Phân tử Adaline phương pháp học có giám sát.
Luật học Adaline: Áp dụng tiêu chuẩn sai lệnh bình phương cực tiểu để tìm biểu thức cập nhật giá trị w.
- Hàm như sau:
𝑬(𝒘) = 𝟏
𝟐∑ (𝒅(𝒌) − 𝒚(𝒌))𝟐 =𝟏
𝟐∑ (𝒅(𝒌)− 𝒘𝑻𝒙(𝒌))𝟐 =𝟏
𝟐 𝒑
𝒌=𝟏 𝒑
𝒌=𝟏 ∑𝒑𝒌=𝟏(𝒅(𝒌)−
∑𝒎𝒋=𝟏𝒘𝒋𝒙𝒋)𝟐 (15)
- Sử dụng phương pháp hạ gradient tìm lượng điều chỉnh ΔWj
∆𝑊𝑗 = −𝜂 ə𝐸
ə𝑊𝑗= 𝜂 ∑𝑝𝑘=1(𝑑(𝑘)− 𝑊𝑇𝑥(𝑘))𝑥(𝑘)𝑗 (16)
- Luật cập nhật tìm trọng số tại thời điểm (t+1) là
𝑤𝑗(𝑡 + 1) = 𝑤𝑗(𝑡) + ∆𝑤𝑗 (17) Luật học LMS (Least Mean Square):
- Tín hiệu học r được tính theo biểu thức sau:
R = d – y = d – wT x (18)
- Lượng điều chỉnh trọng số ΔWj được tính theo biểu thức sau:
ΔWj = η.r.x (19)
- Luật cập nhật tìm trọng số tại thời điểm (t+1):
Wj(t+1) = wj(t) + Δwj (20) Chú ý: Phần tử Adaline có hàm chuyển đổi ặ) là tuyến tính, bài toán nhớ mẫu là tìm nghiệm của hệ phương trình tuyến tính
{𝒘𝟏𝒙𝟏(𝟏)+ 𝒘𝟐𝒙𝟐(𝟏) = 𝒅(𝟏) 𝒘𝟏𝒙𝟏(𝟐)+ 𝒘𝟐𝒙𝟐(𝟐) = 𝒅(𝟐)}
Hình 1.12. Phần tử Adaline luật học LMS.
Mạng Adaline (mạng tuyến tính thích nghi) được phát triển từ các phần tử Adaline Cấu trúc: là một lớp gồm n phần tử Adaline
Ví dụ: Mô tả cấu trúc mạng Adaline gồm có 2 phần tử Adaline (n=2); Trong đó: vector tín hiệu vào x=[x1, x2] T; vector tín hiệu ra y = [y1, y2] T;
Ma trận trong số: 𝑊 = [𝑊11 𝑊12 𝑊21 𝑊22]
Hình 1.13. Cấu trúc mạng Adaline 2 phần tử.
Luật học: Sử dụng luật học Adaline, - Hàm sai số:
𝐸 =1
2∑ ∑ (𝑑𝑖(𝑘)− 𝑦𝑖(𝑘))2 =1
2∑𝑝𝑘=𝑙∑𝑛𝑖=1[𝑑𝑖(𝑘)− 𝑎(𝑤𝑖𝑇𝑥(𝑘))]2
𝑛𝑖=1 𝑝
𝑘=𝑙 =
1
2∑𝑝𝑘=𝑙∑𝑛𝑖=1[𝑑𝑖(𝑘)− 𝑎(∑𝑚𝑗=1𝑤𝑖𝑗𝑥𝑗(𝑘))]2 - Sử dụng phương pháp hạ gradient tìm giá trị điều chỉnh DWij của phần tử mẫu vào ra thứ k là:
𝛥𝑊𝑖𝑗 = −𝜂 ə𝐸
ə𝑊𝑖𝑗 = 𝜂[𝑑𝑖(𝑘)− 𝑎(𝑣𝑖(𝑘))]𝑎′(𝑣𝑖(𝑘))𝑥𝑗(𝑘) = 𝜂𝑟𝑥𝑗(𝑘) Trong đó:
- Hằng số học được chọn rất nhỏ
- Sử dụng hàm chuyển đổi tuyến tính a(v) = v; trọng lượng đầu vào của phần tử thứ I là:
𝑣𝑖(𝑘) = 𝑤𝑖𝑇𝑥(𝑘) 𝑎′(𝑣𝑖(𝑘)) =ə𝑎(𝑣𝑖
(𝑘))
ə(𝑣𝑖(𝑘))
- Tín hiệu học r được tính theo biểu thức:
𝑟 = [𝑑𝑖(𝑘)− 𝑎(𝑤𝑖𝑇𝑥)]𝑎′(𝑤𝑖𝑇𝑥) - Luật cập nhật thông tìm trọng số tại thời điểm (t+1)
𝑤𝑖𝑗(𝑡 + 1) = 𝑤𝑖𝑗(𝑡) + 𝛥𝑤𝑖𝑗
Ví dụ:
Cho mạng Adaline có hai phần tử Adaline, hàm chuyển đổi ặ) là dạng tuyến tính. Mạng cần lưu giữ hai mẫu vào – ra sau:
Mẫu 1: x(1) = [x11(1) , x12(1) ] T = [0.1, 0.2] T;
y(1) = [y11(1) , y12(1) ] T = [d11(1) , d12(1) ] T =[0.5, 0.8] T
Mẫu 2: x(2) = [x21(2) , x22(2) ] T = [0.5, 0.25] T; y(2) = [y21(2) , y22(2) ] T = [d21(2) , d22(2) ] T =[1.0, 0.4] T
Chọn: Vector trọng số tại thời điểm ban đầu t=1, liên kết Adaline 1và 2 là:
w1(1) = [w11(1), w12(1)]T = [0.5, 1.0]T w2(1) = [w21(1), w22(1)]T = [0.2, 0.3]T η =1 ; a’(vi ) =1
Ý nghĩa: Đặc tính tuyến tính và thích nghi, nhờ một mạng Adaline ta có thể mô hình hoá một hệ thống tuyến tính y = WTX. Một khi các tham số của hệ thống thay đổi thì ma trận trọng cũng thay đổi thích nghi theo. Với các đặc tính tuyến tính và thích nghi, các mạng Adaline được áp dụng rộng rãi trong xử lí tín hiệu thích nghi, cân bằng hoá, khử nhiễu, điều khiển thích nghi các hệ thống tuyến tính ...