Chúng tôi sẽ bắt đầu với định nghĩa chung của các không gian vector, sau đó là những tham số cơ bản của các vector có ích nhất với các ứng dụng của mạng nơ-ron.. Không gian vector tuyến
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Viện Điện tử - Viễn thông
BÁO CÁO TIỂU LUẬN
Môn học: Chuyên đề
Đề tài: Tín hiệu và vec tơ trọng số
(Chương 5, Neural Network Design)
Người thực hiện : Ngô Tuấn Anh
Bùi Văn Nhẫn Nguyễn Việt Dũng
Giảng viên hướng dẫn : TS Lê Dũng
Tháng 02 năm 2012
Trang 25 Tín hiệu và không gian vector trọng số
Mục tiêu 2
Lý thuyết và ví dụ 3
Không gian vector tuyến tính 3
Độc lập tuyến tính 5
Mở rộng một không gian 6
Sản phẩm bên trong (Inner product) 7
Chuẩn hóa 8
Trực giao 8
Trực giao Gram-Schmidt 9
Mở rộng vec tơ 10
Vector nghịch đảo cơ bản 11
Tổng hợp kết quả 14
Giải quyết vấn đề 17
Lời kết 25
Đọc thêm 25
Bài tập 26
Mục tiêu
Từ chương 3 và 4, chúng ta thấy rằng sẽ thuận lợi nếu coi dữ liệu đầu vào, ra của mạng nơ-ron,
và các hàng của ma trận trọng số như là các vector Trong chương này, chúng ta sẽ khảo sát chi tiết những đặc tính nhất đối với phân tích mạng nơ-ron của không gian vector Chúng ta sẽ bắt đầu với những định nghĩa tổng quan, sau đó áp dụng chúng vào những vấn đề của mạng nơ-ron Những khái niệm được thảo luận trong chương này và chương 6 sẽ được sử dụng rất rộng rãi trong phần còn lại của quyển sách này, chúng rất quan trọng cho việc nắm bắt hoạt động của mạng nơ-ron
Trang 3Lý thuyết và ví dụ
Đại số tuyến tính là công cụ toán học cốt lõi để hiểu mạng nơ-ron Trong chương 3 và 4 chúng
ta đã thấy lợi ích từ việc biểu diễn đầu vào và đầu ra của mạng nơ-ron bằng các vector Thêm vào đó, chúng ta cũng đã thấy rằng thường sẽ tiện lợi hơn nếu coi các hàng của ma trận trọng
số như các vector trong cùng không gian vector với các vector đầu vào
Khi phân tích mạng Hamming trong chương 3, chúng ta thấy rằng các hàng của ma trận trọng
số trong lớp nơ-ron không có hồi tiếp tương ứng với các vector mẫu Trên thực tế, mục đích của lớp không hồi tiếp là tính toán nội tích giữa các vector mẫu với các vector đầu vào
Trong mạng Perceptron đơn, chúng ta để ý rằng ngưỡng quyết định luôn trực giao với ma trận trọng số ( một vector hàng )
Trong chương này, chúng tôi sẽ nhắc lại những khái niệm cơ bản của không gian vector ( như trực giao, nội tích, .) trong ngữ cảnh của các mạng nơ-ron Chúng tôi sẽ bắt đầu với định nghĩa chung của các không gian vector, sau đó là những tham số cơ bản của các vector có ích nhất với các ứng dụng của mạng nơ-ron
Trước khi bắt đầu, chúng tôi muốn nhắc lại rằng tất cả những vector được đưa ra thảo luận trong tài liệu này đều có bậc n, chứa các bộ số thực, ký hiệu bằng một chữ cái in đậm (ví dụ :
x = [x1, x2, x3 , , xn]T) Đó là những vector trong Rn , không gian Euclid n chiều Trong chương này, chúng ta sẽ thảo luận về các không gian vector nói chung hơn là Rn Các vector nói chung sẽ được biểu diễn với một kiểu chữ kịch bản như χ Chúng tôi sẽ trình bày trong chương này cơ chế của việc biểu diễn các vector dưới dạng các cột số
Không gian vector tuyến tính
Chúng ta sẽ bắt đầu với những khái niệm rất tổng quát, bằng việc sử dụng những khái niệm tổng quát chúng ta có thể giải quyết được một mảng lớn các vấn đề, đồng thời truyền đạt những kiến thức sâu hơn Vì những khái niệm, định nghĩa sẽ được đề cập trong chương này có phần trừu tượng nên chúng tôi sẽ cung cấp nhiều ví dụ liên quan
Không gian vector : một không gian vector tuyến tính, X, là một bộ các vector được định nghĩa trên một trường vô hướng F, trong đó F thỏa mãn các điều kiện sau :
Trang 4 Với mỗi vector X, tồn tại duy nhất một vector (–) X, thỏa mãn
+ (-) = 0
Toán tử nhân Với mọi a F và mọi X,
y
X
Trang 5 Xét tập X tương ứng với một đường thẳng đi qua gốc tọa độ, trên mặt phẳng, tập này thỏa mãn hoàn toàn 10 điều kiện kể trên do đó nó là một không gian vector (nếu đường thẳng không đi qua gốc tọa độ thì
sẽ không phải là không gian vector)
Bên cạnh không gian Euclid 2 chiều, còn một số tập khác cũng thỏa mãn
10 điều kiện của không gian vector như tập P2 bao gồm tất cả các đa thức bậc nhỏ hơn 3, 2 thành phần của tập này là
= 2 + t + 4t2
y = 1 + 5t Nếu bạn cho rằng các vector chỉ là những cột số thì trường hợp này có phần không bình thường, tuy nhiên như đã nêu trong định nghĩa, để có thể coi là một trường vector thì chỉ cần thỏa mãn 10 điều kiện đã nêu Trường hợp của P2, nếu ta cộng 2 đa thức có bậc nhỏ hơn 3 thì cũng sẽ thu được một đa thức bậc nhỏ hơn 3, tương tự với các điều kiện còn lại
Xét tập C[0, 1] của tất cả các hàm liên tục được định nghĩa trên đoạn [0;1], 2 thành phần của tập này là
= sin(t)
y = e-2tTổng của 2 hàm liên tục sẽ là một hàm liên tục, tích một hàm liên tục với một đại lượng vô hướng cũng là một hàm liên tục, … Do đó C[0, 1] là một không gian vector C[0, 1] khác với các không gian vector khác ở chỗ nó
có số chiều là vô hạn Khái niệm về chiều của một không gian vector sẽ được đề cập trong phần sau của chương này
Độc lập tuyến tính
Bây giờ chúng tôi đã xác định được những gì là 1 không gian vector, chúng tôi sẽ tìm ra một số thuộc tính của vecto Các thuộc tính đầu tiên là phụ thuộc tuyến tính và độc lập tuyến tính
X
R2
x
x
Trang 6Xét n vector {x1, x2,…,xn} Nếu tồn tại n đại lượng vô hướng a1, a2,…,an với ít nhất 1 trong số đó là khác 0, như vậy:
sau đó { } là phụ thuộc tuyến tính
Nói ngược lại sẽ là: nếu + + ⋯ + = 0 ngụ ý rằng mỗi = 0, sau đó { } là một tập hợp của các vec tơ độc lập tuyến tính
Lưu ý rằng các định nghĩa này tương đương với nói rằng nếu 1 tập các vec tơ là độc lập tuyến tính sau đó không có vec tơ trong bộ đó có thể được viết như là một sự kết hợp tuyến tính của các vec tơ khác
Như một ví dụ về độc lập, xét các vấn đề về nhận dạng mẫu của chương 3 Hai mô hình nguyên mẫu (cam và táo) được đưa ra bởi:
Trang 7một tập con mở rộng 1 không gian vec tơ nếu mọi vec tơ trong không gian có thể được viết như là tổ hợp tuyến tính của các vec tơ trong tập con
Các kích thước của một không gian vec tơ được xác định bởi số nhỏ nhất của các vec tơ
để mở rộng không gian Điều này dẫn đến định nghĩa của một tập hợp cơ bản Một tập
cơ bản cho X là một tập hợp các vec tơ độc lập tuyến tính mở rộng X Bất kỳ bộ cơ sở
có số lượng tối thiểu các vec tơ yêu cầu cho mở rộng không gian vec tơ Kích thước của
X bằng số lượng của các nguyên tố trong một tập gốc Bất kỳ không gian vec tơ nào cũng có thể có nhiều bộ cơ sở, nhưng mỗi cơ sở phải có cùng số nguyên tố (xem Stra8 cho bằng chứng của thực tế này)
Lấy ví dụ, các không gian vec tơ tuyến tính P Một cơ sở cho không gian này là:
Sản phẩm bên trong (Inner product)
Từ những tóm tắt ngắn gọn của chúng tôi về mạng nơ-ron ở Chương 3 và 4, đó là rõ ràng các sản phẩm bên trong là nền tảng hoạt động cho nhiều mạng nơ ron Ở đây chúng tôi sẽ giới thiệu một định nghĩa chung cho các sản phẩm bên trong và sau đó lấy một vài ví dụ
Bất kỳ hàm vô hướng của x và y có thể được định nghĩa là một sản phẩm bên trong, (x,y)
1 (x,y)=(y,x)
2 (x,ay1+by2)=a(x,y1)+b(x,y2)
3 (x,x)≥0, dấu bằng xảy ra nếu và chỉ nếu x bằng 0
Các sản phẩm bên trong chuẩn cho các véc tơ trong Rn là:
Nhưng điều này không phải là sản phẩm bên trong chỉ có thể xảy ra Xem xét lại tất cả các thiết lập [ , ] của tất cả các hàm liên tục được xác định trong khoảng [0,1] Cho thấy rằng các hàm vô hướng là một sản phẩm bên trong (xem Vấn đề P5.6)
Trang 8Hai vec tơ x,y∈ X được gọi là trực giao nếu (x.y)=0
Trực giao là 1 khái niệm quan trọng trong mạng nơ ron Chúng ta sẽ thấy trong Chương
7 khi các vec tơ nguyên mẫu của một vấn đề nhận dạng mẫu là trực giao và chuẩn hóa, một bộ kết hợp tuyến tính mạng nơ ron có thể được huấn luyện, sử dụng luật Hebb, để đạt được nhận dạng hoàn hảo
Ngoài những vec tơ trực giao, chúng ta cũng có thể có không gian vec tơ trực giao Một vec tơ x ∈X là trực giao với 1 không gian con X1 nếu x trực giao với mọi vec tơ trong không gian X1 Điều này thường được biểu diễn ⊥ Một không gian con X1 trực
Trang 9giao với 1 không gian con X2 nếu mọi vec tơ trong X1 trực giao với mọi vec tơ trong
X2 Điều này được biểu diễn bởi ⊥
Hình bên trái minh họa hai không gian trực giao được sử dụng trong ví dụ nhận biết ở Chương 3 (xem Hình 3.4) Mặt phẳng p1, p3 là một không gian con của R3, cái mà vuông góc với trục p2 (là một không gian con khác của R3) Mặt phẳng p1, p3 là ranh giới nhận thức quyết định khả năng nhận thức của một mạng nơ ron sẽ là một không gian vec tơ bất cứ khi nào các giá trị đường chéo bằng 0
Trực giao Gram-Schmidt
Có một mối quan hệ giữa trực giao và độc lập Nó có thể đổi một tập hợp các vec tơ độc lập vào một tập các vec tơ trực giao mở rộng cùng một không gian vec tơ Các thủ tục chuẩn để thực hiện việc này gọi là trực giao Gram-Schmidt
Giả sử rằng chúng ta có n vec tơ độc lập y1, y2,…, yn Từ những vec tơ này chúng ta muốn có được n vec tơ trực giao v1, v2,… vn Vec tơ trực giao đầu tiên được chọn là vec tơ độc lập đầu tiên
Để có được vec tơ trực giao thứ 2 chúng ta sử dụng y2, nhưng trừ đi 1 phần của y2
đó là hướng của v1 Điều này dẫn đến phương trình
( , )
Để minh hoạc quá trình này, chúng ta cần xét các vec tơ độc lập dưới đây trong R2:
Trang 10Cho không gian vector X có tập hợp vector cơ sở { , , , } v v1 2 vn , với mỗi xX ta có một biểu thức vector duy nhất:
1 1 2 2
n
xx v x v x v x v (5.24)
Trang 11Vì vậy mỗi vector trong không gian vector hữu hạn chiều được biểu diễn bởi cột số như sau:
xx x1 2 x nT (5.25)
Ký hiệu x ở đây biểu diễn cho vector tổng quát ( )x Tuy nhiên để hiểu được ý nghĩa
của x ta cần biết được tập hợp vector cơ sở Nếu tập hợp vector cơ sở thay đổi thì x
cũng sẽ thay đổi, tuy nhiên nó vẫn chỉ để biểu diễn cùng một vector tổng quát x Chúng ta sẽ thảo luận sâu hơn về vấn đề này ở mục tiếp theo
Nếu các vector trong tập hợp vector cơ sở trực giao v v i, j0,i jthì sẽ đễ dàng trong việc tính toán những hệ số trong biểu thức Đơn giản là chúng ta lấy tích trong của biểu thức (5.24):
j j
j j
v x x
v v
(5.27)
Khi mà các vector trong tập hợp vector cơ sở không trực giao thì việc tính toán các hệ
số của biểu thức vector sẽ trở nên phức tạp hơn Trường hợp này sẽ được đề cập đến ở mục tiếp theo
Trang 12R BI (5.30) Khi:
r x1, x r v1 1, 1x r v2 2, 2 x nr v n, n, (5.35) Với định nghĩa
Trang 13(Chúng ta sử dụng số mũ s để biểu thị cột số để thay cho biểu điểu biểu thức vector trong tập hợp cơ sở n Các thành phần thuộc tập hợp cơ sở bao gồm các thành phần đơn vị s và 1 s như hình bên Chúng ta sử dụng chú ý này trong vi dụ vì chúng 2
ta sẽ khai triển vector theo 2 tập hợp cơ sở khác nhau)
Bước đầu tiên chung ta khai triển vector để tìm vector cơ sở nghịch đảo
x v v (5.44)
Theo hình 5.2
Trang 14Hình 5.2 Khai triển Vector Chú ý rằng chúng ta có 2 cách khai triển cho vector xđược biểu diễn bởi xsvà xv Nói cách khác:
Khi biểu diễn một vector tổng quát ở dạng cột số chúng ta cần biết tập hợp vector
sở được sử dụng trong biểu thức Trong trường hợp không đề cập ta hiểu sử dụng tập hợp cơ sở
Biểu thức 5.43 cho thầy mối liên hệ giữa 2 biểu điễn khác nhau của x,xvB1xs Quá trình này được gọi là thay đổi cơ sở rất quan trọng trong chương cuối về phân tích hiệu năng của mạng nơ ron
Tổng hợp kết quả
Không gian vector tuyến tính
Định nghĩa: Một không gian vector tuyến tính X là một tập hợp các thành phần (các
vector) được xác định bởi trường vô hướng F mà thỏa mãn các điều kiện:
1 Một phép toán cộng vector được định nghĩa nếu xX và yXthìx y X
2 x y yx
3 xy z x yz
4 Tồn tại duy nhất một vector 0Xđược gọi là vector không (zero vector) và thỏa mãn x0 x với mọi xX
Trang 155 Với mỗi xX có duy nhất một vector thuộc X gọi là x thỏa mãn
6 Một phép toán nhân được định nghĩa là với mọi giá trị vô hướng aFvà mọi
xX thì axX
7 Với mọi xX thì 1x x (thành phần vô hướng là 1)
8 Với 2 thành phân vô hướng bất kỳ aFvà bFvà mọi xX thì
Cho n vector x x1, 2, ,x n Nếu tồn tại n thành phần vô hướng a a1, 2, ,a mà tồn tại ít n
nhất một thành phần vô hướng khác không, thỏa mãn
1 1 2 2 n n 0
Khi đó x gọi là phụ thuộc tuyến tính i
Không gian sinh
Gọi X là không gian vector tuyến tính và gọi u u1, 2, ,u mlà một tập vector con thuộc
X Tập con này là tập sinh của X nếu với mỗi xX tồn tại các thành phần vô hương
Trang 16Hai vector x và y được gọi là trực giao nếu x y , 0
Trực giao hóa Grarn-Schmidt
Giả sử ta có n vector độc lập y y1, 2, ,y Từ đây ta sẽ có n vector trực giao n v v1, , ,2 v n
,,
Trang 17
,,
j j
j j
v x x
, ,
n n T
Trang 18Để là một không gian vector thì thì ranh giới phải thỏa mãn 10 điều kiện được nêu ra ở phần đầu của chương này Điều kiện thư nhất yêu cầu tổng của 2 vector nằm trong không gian vector Đặt p và 1 p là hai vector năm trên ranh giới quyết định Để năm trên ranh giời phải 2
Vì vậy tổng của chúng cũng nằm trên ranh giới quyết định
Điều kiện thứ 2 và thứ 3 rõ ràng là thỏa mãn Điều kiện thứ 4 yêu cầu rằng zero vector nằm trên ranh giới Vì W00, zero vector nằm trên ranh giới quyết định Điều kiện thứ 5 ngụ ý
rằng nếu p nằm trên ranh giời, thì p cũng phải nằm trên ranh giời Ta có nếu p nằm trên
ranh giời thì
Wp 0
Nếu nhân cả hai về của biểu thức trên với -1 ta có
Suy ra điều kiện thứ 5 thỏa mãn
Điều kiện thứ 6 sẽ thỏa mãn nếu với mọi p nằm trên đường biện thì ap cũng nằm trên đường
biên Ta có thể chứng minh tương tự điều kiện thứ 5 bằng cách nhân cả 2 vế của biểu thức với
athay vì nhân với 1
Trang 19 2 2 2 4 0
af
Vì vậy af t không phải là thành phần của Y và điều kiện 6 không thỏa mãn
P5.3 Tập hợp vector nào sau đây là độc lập? Tìm thứ nguyên của của không gian vector sinh bởi tập hợp
i Chúng ta có thể giải quyết vấn đề này theo một vài cách Trước hết, giả sử rằng
các vector là phụ thuộc Ta có thể viết
Mặt khác, khi chúng ta có n vector trong , phương trình trên được viết dưới dạng ma trận:
hệ số bằng 0, do đó các vector là độc lập Nếu ma trận là duy nhất (không có ma trận nghịch đảo), thì bộ các hệ số khác 0 sẽ được thiết lập, và các vector là phụ thuộc Kiểm nghiệm này là
để tạo một ma trận sử dụng các vector là các cột Nếu định thức ma trận là 0 (ma trận duy nhất), thì các vector là phụ thuộc, nếu không các vector sẽ là độc lập Sử dụng khai triển Laplace [Brog91] ở cột thứ nhất, định thức ma trận là:
Trang 20Định thức Gramian sẽ là:
G =
( , ) ( , ) ( , )( , ) ( , ) ( , )( , ) ( , ) ( , )
,
Trong đó:
=
1111
=
1011
=
1211
2
1111
- 1
1011
− 1
1211
=
0000
Trang 21Số chiều không gian vector do đó phải nhỏ hơn 3 Chúng ta có thể chỉ ra rằng và là độc lập, do:
G = 4 3
3 3 = 4 ≠ 0
Do đó số chiều không gian vector là 2
P5.4 Nhớ lại ở chương 3 và chương 4 mạng perceptron lớp một chỉ có thể được sử dụng để nhận dạng các mẫu có thể được phân biệt một cách tuyến tính (có thể được phân biết bởi một đường bao tuyến tính – xem hình 3.3) Nếu hai mẫu được phân biệt một cách tuyến tính, chúng sẽ luôn luôn độc lập một cách tuyến tính ?
Không, đây là hai khái niệm không liên quan đến nhau Lấy một ví dụ đơn giản như sau Xem xét hai đầu vào của mạng perceptron được biểu diễn như hình P5.2
Giả sử chúng ta muốn phân biệt hai vector:
= 0.5
1.51.5
Nếu chúng ta lựa chọn các trọng số và độ lệch sẽ là = 1, = 1 và = −2, thì đường bao quyết định ( + = 0) được biểu diễn trong hình vẽ về bên trái Một điều rõ ràng là hai vector được phân biệt một cách tuyến tính tuy nhiên chúng không độc lập tuyến thính do
= 3
+ = 0
Input Sym, Hard Limit Neuron