1. Trang chủ
  2. » Luận Văn - Báo Cáo

NHẬN DIỆN mẫu BẰNG MẠNG NƠRON

33 293 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐÀO TẠO SAU ĐẠI HỌC BÁO CÁO TIỂU LUẬN MÔN CHUYÊN ĐỀ ĐỀ TÀI: NHẬN DIỆN MẪU BẰNG MẠNG NƠRON Giảng viên hướng dẫn : TS – LÊ DŨNG Nhóm học viên cao học : NGUYỄN HẢI CƯỜNG PHAN HOÀNG GIÁP BÙI XUÂN LINH Lớp : 11BKTTT1 Hà Nội, tháng 2/2012 NHẬN DIỆN MẪU BẰNG MẠNG NƠRON CHƯƠNG III: MẠNG ĐƠN LỚP Trong chương 1 chúng tôi cho thấy rằng các nguyên tắc tối ưu để giảm xác suất nhỏ nhất của phân loại đòi hỏi một mẫu mới được giao cho lớp có xác suất lớn nhất. Chúng tôi cũng chỉ ra làm thế nào để xác suất sau có thể được liên kết với điều kiện mật độ của lớp thông qua các định lý Baye và trong Chương 2 chúng tôi mô tả một số kỹ thuật để xác định các mật độ đó. Một cách tiếp cận khác, nó tránh việc xác định mật độ xác suất, mà dựa trên ý tưởng của một hàm phân biệt, cũng được giới thiệu trong chương 1. Trong một ứng dụng thực tế của hàm phân biệt, các hình thức tham số hàm được lựa chọn và các giá trị của các tham số này sau đó được xác định từ một tập hợp các dữ liệu đào tạo bằng một thuật toán học tập phù hợp. Lựa chọn đơn giản nhất của hàm phân biệt bao gồm một sự tổ hợp tuyến tính của các biến số đầu vào, trong đó các hệ số trong sự tổ hợp tuyến tính là các thông số của mô hình và đã được xem xét rộng rãi trong các tài liệu về phép xấp xỉ thông thường để nhận dạng mẫu. Biệt thức đơn giản có thể được khái quát bằng cách chuyển đổi sự tổ hợp tuyến tính với một hàm phi tuyến (được gọi là một hàm khởi động), điều đó dẫn đến khái niệm như hồi quy logicvà ‘perceptron’. Phần mở rộng liên quan đến việc chuyển đổi các biến đầu vào có hàm phi tuyến cố định trước khi tạo thành sự tổ hợp tuyến tính để khái quát hóa biệt thức tuyến tính. Như chúng ta sẽ thấy, những dạng khác nhau của biệt thức tuyến tính có thể được coi là dạng của mạng nơron, trong đó có một lớp duy nhất của trọng số phù hợp giữa các yếu tố đầu vào và đầu ra. Các kỹ thuật khác nhau tồn tại để xác định các giá trị trọng số trong mạng một lớp và trong chương này, chúng tôi sẽ xem xét một vài chi tiết của chúng. Đặc biệt, chúng ta sẽ nghiên cứu học tập ‘perceptron’, phương pháp bình phương nhỏ nhất và biệt thức Fisher. Cũng như hình thành một nhóm kỹ thuật quan trọng, mạng một lớp cung cấp những hiểu biết hữu ích vào các thuộc tính của mạng nhiều lớp phức tạp hơn. Mạng một lớp được nghiên cứu rộng rãi trong những năm 1960 và lịch sử của các mạng lưới như vậy được xem xét bởi Widrow và Lehr (1990) . Hai cuốn sách hữu ích từ thời kỳ này là Nilsson (1965) và Lewis và Coates (1967) . 3.1 Hàm biệt thức tuyến tính Trong chương 1, chúng ta đã thấy rằng các hàm biệt thức tối ưu có thể được xác định từ nhóm điều kiện mật độ thông qua định lý Bayes. Tuy nhiên, thay vì thực hiện tính toán mật độ, chúng ta có thể qui định các tham số hàm cho hàm biệt thức và sử dụng dữ liệu để thiết lập giá trị phù hợp cho các thông số. Trong phần này, chúng ta xem xét các dạng khác nhau của biệt thức tuyến tính và thảo luận về các thuộc tính của chúng. 3.1.1 Lớp hai Chúng tôi bắt đầu bằng xem xét vấn đề phân loại hai mục. Trong chương 1, chúng tôi giới thiệu các khái niệm về một hàm y(x) sao cho vector x là giao cho lớp C 1 nếu y(x)>0 và lớp C 2 nếu y(x)<0. Lựa chọn đơn giản của hàm biệt thức là 1 hàm tuyến tính trong các thành phần của x và do đó nó có thể được viết là y ( x ) =w T x+w 0 (3.1) Trong đó, chúng tôi sẽ đề cập đến vector w d chiều như vector trọng số và tham số w o như độ nghiêng. Đôi khi - w o được gọi là một ngưỡng. Lưu ý rằng việc sử dụng của độ dốc là khá khác biệt với khái niệm độ dốc thống kê được thảo luận ngắn gọn trên trang 41 và tại đoạn mục 9.1. Từ mục 2.1.3, chúng ta biết rằng, đối với nhóm điều kiện mật độ có phân phối bình thường với ma trận hiệp phương sai bằng nhau, một biệt thức tuyến tính dạng (3.1) là tối ưu. Các biểu thức trong (3.1) có một cách diễn dải đơn giản bằng hình học (Duda và Hart, 1973). Đầu tiên chúng ta lưu ý rằng biên y(x)=0 tương ứng với một mặt phẳng 1 chiều a(d - l) trong không gian x có d chiều. Đối với trường hợp của một không gian hai chiều đầu vào, d = 2, biên là một đường thẳng, như thể hiện trong hình 3.1. Nếu x A và x B là hai điểm trên siêu mặt phẳng, sau đó y(x A )=2= y(x B ), sử dụng ở (3.1), chúng tôi có w T (x B - x A )=0. Như vậy, w là trực giao với bất kỳ vector nằm trong siêu mặt phẳng và vì vậy chúng ta thấy rằng w xác định hướng của biên. Nếu x là một điểm trên siêu mặt phẳng thì khoảng cách chung từ nguồn gốc để siêu mặt phẳng được cho bởi l= w T x ‖ w‖ = −w 0 ‖ w‖ (3.2) Trong đó, chúng tôi đã sử dụng y(x)= 0 cũng như (3.1). Như vậy, độ dốc w 0 xác định vị trí của siêu mặt phẳng trong không gian x, như được chỉ ra trong hình 3.1. Có một ký hiệu hơi khác nhau mà chúng ta có thể áp dụng thường sẽ chứng minh thuận tiện. Nếu chúng ta định nghĩa mới vector (d + l) chiều ̃ w= ( w 0 ,w ) và ̃ x=(1, x) , sau đó chúng ta có thể viết lại ( 3.1) theo dạng y ( x ) = ̃ w T ̃ x (3.3) Với ký hiệu này, chúng ta có thể giải thích biên y(x) =0 như siêu mặt phẳng d chiều, nó đi qua gốc trong không gian x có (d+1) chiều. Chúng ta có thể đại diện cho hàm biệt thức tuyến tính (3.1) hoặc (3.3) trong giới hạn của một sơ đồ mạng như thể hiện trong hình 3.2. Đầu vào x 1 , .,x d được hiển thị như vòng tròn, nó được kết nối bởi các trọng số w i , ., w d với đầu ra y(x). Độ dốc w 0 là được biểu diễn như là một trọng số từ một đầu vào x 0 , nó là thiết lập để thống nhất. Hình 3.1 Biên tuyến tính, tương ứng với y(x)=0, trong một không gian hai đầu vào (3:1,3:2). Vectơ trọng số w, nó có thể được biểu diễn như một vector trong không gian x, xác định hướng của mặt phẳng quyết định, trong khi độ nghiêng cũng xác định vị trí của mặt phẳng trong khoảng cách vuông góc từ nguồn gốc. Hình 3.2 Biểu diễn của một hàm biệt thức tuyến tính như là một sơ đồ mạng nơron. Mỗi thành phần trong biểu đồ tương ứng với một biến trong biểu thức biệt thức tuyến tính. Độ dốc w 0 có thể được coi như một tham số trọng số từ một đầu vào có kích hoạt x 0 là thiết lập cộng 1. 3.1.2 Các lớp khác Biệt thức tuyến tính có thể dễ dàng được mở rộng cho trường hợp của các nhóm c bằng cách làm theo những ý tưởng được giới thiệu trong chương 1 và sử dụng một hàm biệt thức y k (x) cho mỗi nhóm c k theo dạng y k ( x ) =w k T ( x ) +w k0 (3.4) Một điểm x mới sau đó được gán cho lớp c k nếu y k (x) > y j (x) khi j≠k. Phần biên tách lớp c k từ lớp c j dược đưa ra bởi y k (x)=y j (x), nó tương ứng với một mặt siêu phẳng dạng w (¿ ¿ k−w j ) T x+ ( w k0 −w j0 ) =0 ¿ (3.5) Bằng cách tương tự với kết quả trước đó cho biệt thức ở ( 3.1), chúng ta thấy rằng biên được đưa ra bởi sự khác nhau giữa hai vectơ trọng số và khoảng cách vuông góc biên từ gốc được cho bởi l= −(w k0 −w j0 ) ‖ w k −w j ‖ (3.6) Hàm biệt thức đa lớp tuyến tính (3.4) có thể được trình bày trong một sơ đồ mạng nơron như thể hiện trong hình 3.3. Các vòng tròn ở phía trên cùng của sơ đồ tương ứng với các hàm y k (x) trong (3.4 ) đôi khi được gọi là các đơn vị xử lý và đánh giá các hàm biệt thức có thể được xem như là một dòng thông tin từ đầu vào đến đầu ra. Mỗi đầu ra y k (x) liên kết với một vector trọng số w k và độ dốc w k0 . Chúng tôi có thể thể hiện mạng đầu ra trong các thành phần của các vectơ {w k } để đưa ra y k ( x ) = ∑ i=1 d w ki x i +w k0 (3.7) Sau đó, mỗi dòng trong hình 3.3 liên kết một đầu vào i với một đầu ra k tương ứng với một tham số trọng số w ki . Như trước đây, chúng ta có thể coi các thông số độ dốc như là trọng số từ một đầu vào x 0 =1, vì vậy y k ( x ) = ∑ i=1 d w ki x i (3.8) Một khi mạng được huấn luyện, một vector mới được phân loại bằng cách áp dụng nó vào các yếu tố đầu vào của mạng, tính toán đơn vị đầu ra và gán vector với lớp có đầu ra đã kích hoạt lớn nhất. Điều này dẫn thiết lập của các vùng, điều đó là luôn luôn kết nối và lồi. Xem xét hai điểm x A và x B cả hai nằm trong miền R k như thể hiện trong hình 3.4. Bất kỳ điểm ̂ x nằm trên đường nối x A và x B có thể được viết như sau ̂ x=α x A +(1−α) x B (3.9) Trong đó, 0 α< 1. Từ khi x A và x B nằm trong miền R k , chúng phải đáp ứng y k (x A ) >y j (x A ) và y k (x B )>y j (x B ) khi j≠k. Sử dụng (3.4) và (3.9) thì y k ( ̂ x )= ay k (x A ) + (1 - a)y k (x B ) và do đó y k ( ̂ x ) > y j ( ̂ x ) khi j≠k. Vì vậy, tất cả các điểm trên đường nối liền x A và x B cũng nằm trong R k và miền R k phải được kết nối đơn giản và lồi. Hình 3.3: Biểu diễn của nhiều hàm biệt thức tuyến tính y k (x) như một sơ đồ mạng nơron có c đầu ra. Một lần nữa, độ dốc được biểu diễn như là trọng số từ một đầu vào x 0 =1. Hình 3.4: Ví dụ biên được tạo ra bởi một biệt thức đa lớp tuyến tính. Nếu cả hai điểm x A và x B nằm trong miền R k sau đó mỗi điểm ̂ x trên đường nối giữa chúng cũng phải nằm trong miền R k . Vì vậy, các miền phải được kết nối đơn giản và lồi. 3.1.3 Biệt thức logic Cho đến nay chúng tôi đã xem xét các hàm biệt thức, nó là các hàm tuyến tính đơn giản của các biến đầu vào. Có một số cách trong đó các hàm có thể được khái quát hóa và ở đây chúng ta xem xét sử dụng một hàm phi tuyến g(.),nó đại diện tổng tuyến tính để cung cấp cho một hàm biệt thức cho các vấn đề hai lớp học của biểu mẫu y=g(w T x+w 0 ) (3.10) trong đó g(.) được gọi là một hàm kích và thường được chọn là đơn điệu. Dạn (3.10) vẫn được coi là một biệt thức tuyến tính từ khi biên vẫn là tuyến tính từ lúc tạo ra, như một hệ quả của tính đơn điệu của g(.). Như một sự thúc đẩy cho biệt thức, xem xét một vấn đề hai lớp, trong đó mật độ lớp có điều kiện được đưa ra bởi các bảng phân bố Gaussian với ma trận hiệp phương sai bằng ∑ 1 =∑ 2 =∑ , do đó p ( x ∣ C k ) = 1 (2π) d 2 ∣ ∑ ∣ 1 2 exp { −1 2 ( x−μ k ) T Σ −1 (x−μ k ) } (3.11) Sử dụng định lý Bayes, khả năng của các thành viên của lớp C 1 được đưa ra bởi P ( C 1 ∣ x ) = p ( x ∣ C 1 ) P ( C 1 ) p ( x∣ C 1 ) P ( C 1 ) + p ( x∣ C 2 ) P ( C 2 ) (3.12) ¿ 1 1+exp ( −a ) (3.13) ¿ g ( a ) (3.14) Trong đó, a=ln a ( x∣ C 1 ) P(C 1 ) p ( x∣ C 2 ) P(C 2 ) (3.15) Và hàm g(a) là hàm kích logic được đưa ra bởi g ( a ) = 1 1+exp ⁡(−a) (3.16) Nó được vẽ trong hình 3.5. Nếu bây giờ chúng ta thay thế các biểu diễn cho mật độ nhóm điều kiện từ (3.11) vào (3.15), có được a=w T x+w 0 (3.17) Trong đó w=∑ −1 ( μ 1 −μ 2 ) (3.18) w 0 = −1 2 μ 1 T ∑ −1 μ 1 + 1 2 μ 2 T ∑ −1 μ 2 +ln P(C 1 ) P(C 2 ) (3.19) Hình 3.5: Biểu đồ của các hàm sích ma được đưa ra bởi (3.16). Vì vậy, chúng ta thấy rằng việc sử dụng hàm kích logic sích ma cho phép các đầu ra của biệt thức được hiểu là xác suất sau. Điều này ngụ ý rằng một biệt thức đang cung cấp nhiều hơn 1 quyết định phân loại đơn giản và có được kết quả lớn. Tầm quan trọng của việc diễn giải các đầu ra của mạng trong xác suất được thảo luận trong chương 6. Sích ma có nghĩa là “hình chữ S” và dạng logic của khoảng thời gian sích ma (- ∞,+∞) vào (0,1). Nếu |a| là nhỏ, sau đó hàm logic sích ma g(a) có thể được xấp xỉ bởi một hàm tuyến tính và như vậy một mạng với các hàm kích sích ma gồm một mạng tuyến tính như là một trường hợp đặc biệt. Nếu có nhiều hơn hai lớp sau đó một phần mở rộng của các phân tích trước đó dẫn đến sự khái quát hóa của sích ma logic được gọi là một hàm mũ chuẩn hóa hoặc softmax, nó được thảo luận chi tiết trong mục 6.9. Biệt thức tuyến tính với các hàm kích logic đã được sử dụng rộng rãi trong các tài liệu thống kê dưới tên biệt thức logic (Anderson, 1982). Hàm kích sích ma cũng đóng một vai trò quan trọng trong các mạng nơron đa lớp, như được thảo luận trong chương 4. Một dạng khác của biệt thức tuyến tính đã được giới thiệu bởi McCulloch và Pitts (1943) như là một mô hình toán học đơn giản cho hoạt động của một nơron duy nhất trong một hệ thống thần kinh sinh học. Một lần nữa đưa ra dạng (3.10) với một hàm kích là hàm bước Heaviside g ( a ) = { 0 khi a<0 1 khi a>0 (3.20) Trong mô hình này đầu vào x i thể hiện cho mức độ hoạt động của nơron khác, nó nối với các nơron được mô hình hoá, trọng số w i thể hiện độ vững chắc của các mối liên kết, được gọi là khớp thần kinh, giữa các nơron và độ dốc w 0 thể hiện cho các ngưỡng các nơron đến 'đốt cháy'. Mặc dù mô hình này có nguồn gốc của nó trong sinh học, rõ ràng rằng nó có thể được thúc dảy tốt như nhau trong khuôn khổ của nhận biết mẫu theo thống kê. Mạng của đơn vị ngưỡng đã được nghiên cứu bởi Rosenblatt (1962) dưới tên các perceptron và bởi Widrow và Hoff (1960 ), người gọi chúng là các adaline. Chúng sẽ được thảo luận chi tiết tại mục 3.5

Ngày đăng: 24/12/2013, 23:05

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w