Mạng nơ-ron với một đầu ra

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số áp dụng của giải tích toán học trong machine learning và deep learning (Trang 26 - 33)

Mạng nơ-ron có thể được huấn luyện để xấp xỉ một lớp hàm F có dạng

f :Rn −→Rm.

Khi mạng được cung cấp các mẫu dữ liệu (x, f(x)), trong đó x ∈ Rn một thuật toán được áp dụng để điều chỉnh các trọng số wij và các hệ số điều chỉnh θj sao cho độ lệch giữa f(x) và mạng đầu ra y= (y1, ..., ym)T là nhỏ nhất.

2.3. Mạng nơ-ron như là xấp xỉ phổ quátXét khối lập phương n chiều Xét khối lập phương n chiều

In := [0,1]n.

Tập hữu hạn độ đo có dấu Borel chính quy trênIn được ký hiệu bằng M(In)

và tổng của hàm sigmoid có dạng

N

X

i=1

αiσ(wjTx+θj)

là trù mật trong không gian C(In) của giá trị thực liên tục trên In đã trang bị metric dsup cho bất kỳ hàm sigmoid σ.

Định nghĩa 2.3.1. Cho m là độ đo có dấu Borel chính quy hữu hạn trên In. Một hàm σ∈C(In) là phân biệt theo m nếu

Z

In

σ(wTx+θ)dm= 0,

với mọi w∈In và θ ∈R thì ta có m = 0.

Định lí 2.3.2. Cho σ là hàm phân biệt liên tục. Tập của tổng hữu hạn có dạng

g(x) = N X i=1 αiσ(wTjx+θj) là trù mật trong C(In).

Chứng minh. Khẳng định này đúng với mọi f ∈ C(In) và ε > 0. Bây giờ, rõ ràng tồn tại một tổng g(x) có dạng trên sao cho

với x∈In.

Cho S là tập con của C(In) bao gồm các hàm có dạng

g(x) = N

X

i=1

αiσ(wTjx+θj).

Hiển nhiên, S là không gian con tuyến tính của C(In).

Giả sử rằng tôpô đóng R := K(S) của S là tập con thực sự trong C(In), nghĩa làS không trù mật trongC(In). Khi đó, R là một không gian con đóng thực sự của C(In).

Theo Định lý Haln-Banach, có một phiếm hàm tuyến tính l khác 0 bị chặn trên C(In) sao cho l(R) = 0 (do đó l(S) = 0).

Theo Định lý Riesz Representation (ở tài liệu [7]) nói rằng tồn tại một hàm l có dạng

l(h) =

Z

In

h(x)dm

với độ đo m ∈ M(In) và với mọi h ∈C(In). Đặc biệt, ở đây σ(wTx+θ) ∈ R

với mọi w và θ, ta phải có

Z

In

σ(wTx+θ)dm= 0, ∀w, θ,

trong đó σ là hàm phân biệt, m = 0, mâu thuẫn với việc l khác 0 và bởi R=C(In) nên S phải trù mật trong C(In).

Định lí 2.3.3. Bất kỳ hàm sigmoid bị chặn và đo được đều là phân biệt.

Chứng minh. Cho σ ∈C(In) là một hàm sao cho

Z

In

σ(wTx+θ)dm= 0

với mọi w∈In và θ ∈R. Lưu ý rằng, hàm σλ được định nghĩa bởi σλ,φ(x) = σ(λ(wTx+θ) +φ)

với x∈In cụ thể là

Z

In

Nói cách khác, σ là phân biệt khi và chỉ khi mỗi hàm σλ,φ là hàm phân biệt. Với wTx+θ = 0, ta có σ(λ(wTx+θ) +φ) = σ(φ). Hơn nữa, lim λ−→∞σ(λ(wTx+θ) +φ) = ( 1 nếuwTx+θ >0 0 nếuwTx+θ <0 và σ(λ(wTx+θ) +φ) = σ(φ) nếu wTx+θ = 0.

Họ các hàm {σλ,φ|λ ∈R≥0} hội tụ theo từng điểm và được trội bởi hàm khả tích

γ :In −→R

được định nghĩa bởi

γ(x) =      1 nếu wTx+θ > 0 0 nếu wTx+θ < 0 σ(φ) nếu wTx+θ = 0

Cho Hw,−θ là một siêu phẳng và cho Hw>,0−θ là nửa không gian tương ứng. Khi đó lim λ−→∞ Z In σλdm= Z In γdm. Lưu ý rằng 0 = Z In σλdm = Z H>0 w,−θ σλdm+ Z Hw,−θ σλdm+ Z H<0 w,−θ σλdm = Z H>0 w,−θ 1dm+ Z Hw,−θ σ(φ)dm =m(Hw>0,−θ) +σ(φ)m(Hw,−θ).

Với y∈Rn đặt Jy là khoảng compact chứa tập {yTx|x∈In}. Định nghĩa bởi phiếm hàm tuyến tính F là

F(h) =

Z

trong đó µ là độ đo có dấu hữu hạn, F là phiếm hàm bị chặn L∞(J). Lấy h= 1[θ;∞] ta có F(h) = Z In h(yTx)dmx =m(Hw,θ) +σ()m() = 0.

Tương tự,F(h) = 0nếuh= 1[θ;∞). Bởi tính chất tuyến tính, hàmF(h) = 0

và do đó với bất kỳ hàm đơn giản là trù mật trong L∞(J). Cụ thể, với các hàm đo được bị chặn s(u) = sin(mTu) và c(u) = cos(mTu) thì

ˆ m = Z In (cosmTx+isinmTx)dm = Z In ei(m,x)dm= 0.

Ta có m= 0 do biến đổi Fourier của nó bằng 0 và như vậy thì σ là phân

biệt.

Mạng với một lớp bên trong và hàm sigmoid liên tục có thể xấp xỉ các hàm với bất kỳ độ chính xác nào, với điều kiện là không có ràng buộc nào được áp đặt cho số lượng nút hoặc độ lớn của trọng số.

Dựa trên tính chất liên tục của hàm sigmoid là phân biệt ta có hệ quả sau:

Hệ quả 2.3.4. Cho σ là hàm sigmoid liên tục. Tổng hữu hạn có dạng

g(x) = N

X

i=1

αiσ(wTjx+θj)

là trù mật trongC(In). Nói cách khác, với bất kỳ f ∈C(In)và ε >0 tồn tại một hàm g như trên sao cho kg(x)−f(x)k< ε với x∈In.

Đặt π ={P1, ..., Pk} là một phân hoạch của In, trong đó Pi là mL là tập con đo được của In với 1≤i≤k. Định nghĩa hàm quyết định

fπ :In −→ {1, ..., k};f(x) =j, ∀x∈Pj. Khi đó ta có định lý sau:

Định lí 2.3.5 (Định lý xấp xỉ phổ quát). Đặt σ là hàm sigmoid liên tục và đặt fπ là hàm quyết định của phân hoạch hữu hạn đo được π củaIn. Với bất kỳ

ε >0, có một tổng hữu hạn có dạng g(x) = N X i=1 αiσ(wTjx+θj) và một tập D⊆In suy ra mL(D)≤1−ε và |g(x)−f(x)|< ε với x∈D.

Chứng minh. Theo Định lý Lusin (ở tài liệu [3] trang 592, phụ đề 49), ta có một hàm h và một tập D với

m(D)≥1−ε. Kéo theo

h(x) =f(x), x∈D

với h là một hàm liên tục. Theo Hệ quả 2.3.4 có một tổng dạng

g(x) = N X i=1 αiσ(wTjx+θj) thỏa mãn |g(x)−f(x)|< ε, ∀x∈In. Sau đó, với x∈D ta có |g(x)−f(x)|=|g(x)−h(x)|< ε. Định lý đã được chứng minh.

2.4. Điều chỉnh trọng số bằng lan truyền ngược

Bây giờ ta xem xét một cấu trúc mạng thần kinh bao gồm 3 lớp đỉnh: nút đầu vào, noron lớp trong và noron lớp đầu ra. Các nhiệm vụ của mạng là tìm một xấp xỉ của hàm bị chặn f : A −→Rh, trong đó A là một tập con compact của Rn.

Tập huấn luyện là

((x1,t1), ...,(xm,tm))∈Seq(Rn ×Rh),

trong đó x1, ...,xm là m đầu vào vector được chọn ngẫu nhiên từ A, và t1, ...,tm

là các vector đầu ra đúng, tương ứng, trong đó ti=f(xi) với 1≤i≤m. Quá trình lan truyền bao gồm 2 giai đoạn :

Giai đoạn lan truyền xuôi vector xj được cung cấp cho các đơn vị đầu vào và đầu ra yj được thu thập từ các đơn vị đầu ra.

Giai đoạn lan truyền ngược, đầu ra đúngtj được so sánh với yj và quá trình quét ngược thứ hai của mạng liên quan đến điều chỉnh trọng số bắt đầu.

Hàm kích hoạt của các nút trong lớp ẩn và của các nút đầu ra được dùng hàm Logistic (hàm sigmoid) L:R−→R, L(x) = ex 1 +ex· Lưu ý rằng L0(x) = ex (1 +ex)2 =L(x)(1−L(x)), ∀x∈R.

Các trọng số wij của các cạnh của mạng noron được điều chỉnh thông qua một quá trình tuần tự. Giả sử rằng mẫu đào tạo của một mạng lưới thần kinh là chuỗi

(x1,t1), ...,(xm,tm)∈Seq(Rn×Rh),

trong đó x1, ...,xm là các vector đầu vào và t1, ...,tm là các vector đầu ra đúng tương ứng.

Nhìn chung, mạng sẽ tạo ra các đầu ra y1, ...,ym thay thế của t1, ...,tm và kích hoạt quá trình điều chỉnh trọng số của mạng wij.

Khi đầu ra đúng làtvà mạng tạo ra đầu rat, hàm mất mát của mạng nơ-ron R :Rn×k×Rk×h−→R

được xác định bởi

R(V, W) = 1

2kt−yk2,

trong đó V = (vli)∈Rn×k là ma trận trọng số của cạnh giữa các lớp đầu vào và nơ-ron trong lớp ẩn, và W = (wij), wij là ma trận trọng số của các cạnh giữa lớp ẩn và lớp nơ-ron đầu ra.

Thành phần thứ jth của vector đầu vào xi được ký hiệu là xij.

Tập hợp các chỉ số của các nơ-ron đầu ra được kết nối với nơ-ron Ni từ lớp ẩn được ký hiệu là D(i).

Đầu vào của một nơ-ron lớp ẩn Ni là pi= n

X

i=1

xlvli với 1≤i≤k;

Đầu vào của lớp nơ-ron đầu ra Oj là qj = k

X

l=1

wijzj với 1≤i≤h, trong đó zi là đầu ra của nơ-ron lớp ẩn Ni.

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số áp dụng của giải tích toán học trong machine learning và deep learning (Trang 26 - 33)

Tải bản đầy đủ (PDF)

(54 trang)