SB không thay đổi giá trị của J(w), và vì vậy chúng ta không thể tìm thấy nhiều hơn

Một phần của tài liệu NHẬN DIỆN mẫu BẰNG MẠNG NƠRON (Trang 29 - 33)

(c-1) tuyến tính vào các tính năng này có nghĩa (Pukunaga, năm 1990). Chiều giảm và khai thác tính năng được thảo luận chiều dài lớn hơn trong Chương 8.

Bài tập

3.1 (*) Hãy xem xét một điểm ̂x nằm trên mặt phẳng y( ̂x ) = 0, y(x) được cho bởi (3.1). Bằng cách giảm tối đa khoảng cách || x- ̂x || đối với x thuộc diện hạn chế bởi (3.1). Bằng cách giảm tối đa khoảng cách || x- ̂x || đối với x thuộc diện hạn chế này, cho thấy rằng giá trị của y biệt chức năng tuyến tính (x) cho một thước đo (đã đánh dấu) của L khoảng cách vuông góc của điểm x quyết định biên giới y(x) = 0 của biểu mẫu:

L =

¿∣w∣∨¿

y(x)

¿ (3.108)

3.2 (*) Có một số cách có thể để khái quát các khái niệm về một chức năng biệt tuyến tính từ hai lớp tới lớp C. Một khả năng sẽ được sử dụng (c-1) chức năng biệt tuyến tính, như từ hai lớp tới lớp C. Một khả năng sẽ được sử dụng (c-1) chức năng biệt tuyến tính, như vậy yk (x) > 0 cho đầu vào x trong lớp Ckyk (x) < 0 cho những đầu vào

không thuộc lớp Ck . Bằng cách vẽ một ví dụ đơn giản trong hai kích thước cho c=3,

cho thấy rằng phương pháp này có thể dẫn đến các khu vực không gian trục x phân loại là mơ hồ. Một cách tiếp cận sẽ được sử dụng một biệt số chức năng yjk (x) cho mỗi cặp

có thể có của các lớp C j , và Ck , như vậy yjk (x) > 0 cho mô hình trong lớp

Cj, và yjk (x) < 0 cho mô hình của lớp Ck . Đối với các lớp C, chúng ta sẽ cần c(c-

l)/2 biệt số chức năng. Một lần nữa, bằng cách vẽ một ví dụ cụ thể trong hai kích thức cho c= 3, cho thấy rằng phương pháp này cũng có thể dẫn đến các khu vực không rõ ràng.

3.3 (*) Hãy xem xét một mô hình hỗn hợp của dạng (2.71) trong đó mật độ thành phần được đưa ra bởi: được đưa ra bởi:

P(x|j) = 1−Pji¿1−xii=1 d Pj i xi¿ (3.109) Tương đương (3.22). Cho thấy các giải pháp khả năng tối đa cho các thông số Pji được cho bởi: ̂ P ji = ∑ n P(jxn)xinn P(jxn) (3.110) trong đó P(j|x) là xác suất sau cho bởi thành phần j tương ứng với một vector x đầu vào và được đưa ra, từ định lý Bayes, bởi:

P(j|x) =

p(xj)P(j)

k

p(xk)P(k) (3.111) Và P(j) là xác suất tương ứng trước đó.

3.4 (**) Cho một tập hợp các điểm dữ liệu (xn), chúng ta có thể xác định vỏ lồi là tập hợp tất các các điểm x cho bởi tất các các điểm x cho bởi

X = ∑ nnxn (3.112) Trong đó αn ≥ 0 và ∑ n αn

= 1. Hãy xem xét một thiết lập thứ hai của tập hợp {

zn } và vỏ bọc ngoài tương ứng của nó. Hai tập hợp này sẽ được tách tuyến tính nếu có tồn tại một vector ŵ và một giá trị vô hướng w0 như vậy thì ŵTxn +

w0 > 0 với tất cả xn , và thì ŵTzn + w0 < 0 với tất cả zn . Cho thấy rằng, nếu vỏ lồi giao nhau, hai tập hợp điểm không thể là tuyến tính phân chia, và ngược lại rằng, nếu chúng được phân chia tuyến tính, vỏ lồi của chúng không giao nhau.

3.5 (* *) Vẽ tất cả 22 = 4 đường cắt của tập hợp điểm N=2 trong một chiều, và do đó cho thấy các phần nhỏ của đường cắt tuyến tính phân chia là 1.0. Bằng cách xem xét việc cho thấy các phần nhỏ của đường cắt tuyến tính phân chia là 1.0. Bằng cách xem xét việc mở rộng nhị thức của 2d = (1+1)d , xác minh rằng tổng kết trong (3.30) không thực sự cung cấp cho F=1 khi N=d+1 cho mỗi d. Tương tự như vậy, bằng cách vẽ tất cả 24 = 16 đường cắt của N=4 điểm trên một chiều, cho ta thấy rằng các phần nhỏ của đường cắt

tuyến tính phân chia là 0.5. Bằng cách xem xét việc mở rộng nhị thức của 22d+1 =

(1+1)2d+1 , hiển thị trong (3.30) mà các phần nhỏ của đường các là tuyến tính phân chia cho N= 2(d+1) được cho bởi F(2d+2,d) =0.5 cho mỗi N. Xác minh rằng những kết quả này phù hợp với hình 3.7

3.6(***) Tạo ra và vẽ đồ một tập hợp các điểm dữ liệu trong hai kích thước, rút ra từ hai lớp mà mỗi điểm trong đó được mô tả bởi một hàm mật độ lớp có điều kiện Gaussian. Thực hiện các thuật toán gốc Gradient để đào tạo một biệt hậu cần, và vẽ ranh giới quyết định khoảng thời gian thườn xuyên trong quá trình đào tạo trên cùng một biểu đồ như các dữ liệu. Khám phá ảnh hưởng của việc lựa chọn các giá trị khác nhau cho các tham số tỷ lệ học

η . So sánh hành vi của các thủ tục cập nhật liên tiếp và trọng lượng hành loạt mô tả (3.52) và (3.54) tương ứng.

Hình 3.16. Phân phối dữ liệu trong một chiều được rút ra từ hai lớp, sử dụng trong bài tập 3.7

3.7 (**) Hãy xem xét dữ liệu trong một kích thước được rút ra từ hai lớp có các bản phân phối được hiển thị trong hình 3.16. Tỷ lệ xác suất trước khi hai lớp là gì? Tìm biệt hàm phối được hiển thị trong hình 3.16. Tỷ lệ xác suất trước khi hai lớp là gì? Tìm biệt hàm tuyến tính y(x) = wx + w0 đó giảm thiểu tổng hợp của hai hình vuông lỗi chức năng

được xác định bởi: E = ∫0 3 y(x)−1❑2dx + ∫4 5 y(x)+1❑2dx (3.113)

Nơi mà các giá trị mục tiêu là t = +1 cho lơp C1 và t= -1 cho lớp C2. Cho rằng ranh giới quyết định đưa ra bởi y(x) =0 không tách riêng hai lớp. Có một lớp đơn percptron phải tìm một giải pháp tách hai lớp chính xác? Biện minh cho câu trả lời của bạn. Thảo luận ngắn gọn những lợi thế và hạn chế của ít nhất là hình vuông và các thuật toán perceptron trong ánh sáng của những kết quả này.

3.8 (*) Chứng minh rằng, đối với vector w và ŵ , bất bình đẳng sau đây là hài lòng

w ¿ ¿T ¿ ¿ ¿ ̂ ¿ ¿ ≤ 1 (3.114) Do đó, bằng cách sử dụng kết quả (3.73) và (3.76) từ chứng minh của định lý hội tụ perceptron được đưa ra trong văn bản, cho thấy một giới hạn trên về số lượng các bản cập nhật trọng lượng cần thiết cho hội tụ của thuật toán perceptron được đưa ra bởi:

τmax = ̂wTntn¿2

mi nn¿ ¿∣̂w∨¿2∣∨∅∨¿max2

¿ (3.115)

3.9 (***) Tạo một tập hợp dữ liệu bao gồm một số lượng nhỏ các vector theo hai chiều, mỗi thuộc một trong hai lớp. Viết một số thực hiện của thuật toán perception, và cốt truyện mỗi thuộc một trong hai lớp. Viết một số thực hiện của thuật toán perception, và cốt truyện cả các điểm dữ liệu và ranh giới quyết định sau mỗi sự lặp lại. Khám phá những hành vi của thuật toán cho cả bộ dữ liệu tuyến tính phân chia và bộ không tuyến tính.

3.10 (*) Sử dụng một số nhân Lagrange (phụ lục C) để cho thấy rằng, đối với hai lớp, các vector chiếu tối đa hóa sự tách biệt của lớp có nghĩa (3.79), để hạn chế ¿∨w∨¿2 =1, được vector chiếu tối đa hóa sự tách biệt của lớp có nghĩa (3.79), để hạn chế ¿∨w∨¿2 =1, được đưa ra bởi w α( m2 - m1 ).

3.11 (**) Sử dụng các định nghĩa của lớp giữa và lớp trống hiệp phương sai ma trận bởi (3.84) và (3.85) tương ứng, cùng với (3.91) và (3.92) và sự lựa chọn các giá trị mục tiêu (3.84) và (3.85) tương ứng, cùng với (3.91) và (3.92) và sự lựa chọn các giá trị mục tiêu được mô tả trong phần 3.6.2, cho thấy rằng biểu thức (3.90), giảm thiểu lỗi tổng hợp của hình vuông chức năng có thể được viết bằng các hình thức (3.93).

3.12 (*) Bằng cách làm cho sử dụng (3.98), cho thấy rằng ma trận hiệp phương sai tổng S7 được đưa ra (3.99) có thể được phân hủy thành các lớp trong và ma trận hiệp phương sai được đưa ra (3.99) có thể được phân hủy thành các lớp trong và ma trận hiệp phương sai giữa các lớp như trong(3.101), trong lớp hiệp ma trận phương sai Sw được cho bởi

(3.96) và (3.97), và các hiệp phương sai giữa các lớp ma trận SB được cho bởi (3.102)

+ Bùi Xuân Linh: từ trang 77-89. + Phan Hoàng Giáp: từ trang 90-103. + Nguyễn Hải Cường: từ trang 104-115.

Một phần của tài liệu NHẬN DIỆN mẫu BẰNG MẠNG NƠRON (Trang 29 - 33)

Tải bản đầy đủ (DOCX)

(33 trang)
w