tiến (feedforward) đa mức 2.1 Lý thuyết học và vấn đề nhận dạng mẫu
2.2.4 Biểu diễn đầu ra và quy tắc quyết định cho bài toán phân loạ
Về mặt lý thuyết, với một bài toán phân loại M lớp trong đó hợp của M lớp phân biệt tạo nên toàn bộ không gian đầu vào, chúng ta cần một tổng số M đầu ra để biểu diễn tất cả các quyết định phân lớp có thể, nh− đ−ợc mô tả trong hình 2.8. Trong hình này, vector xj=[xj1j, xj2,..., xjm]T biểu diễn nguyên mẫu thứ j của một vector ngẫu nhiên x gồm m phần tử cần đ−ợc phân loại bằng một mạng tiến đa mức. Lớp thứ k trong M lớp mà xj có thể thuộc vào đ−ợc ký hệu là Ck. Đặt ykj là đầu ra thứ k của mạng (t−ơng ứng với lớp thứ k) đ−ợc tạo ra để đáp ứng lại nguyên mẫu xj ykj=Fk(xj), k=1,2,...,M (2.34) mạng tiến đa mức: w xj y1,j y2,j yM,j
Hình 2.8 Sơ đồ khối của một bộ phân lọai mẫu
ở đó hàm Fk(.) xác định quan hệ giữa đầu vào và đầu ra thứ k của mạng. Để thuận tiện cho việc biểu diễn, đặt
yj=[y1j, y2j,..., yMj]T
=[F1(xj), F2(xj),..., FM(xj)]T (2.35)
=F(xj)
ở đó F(.) là một hàm kiểu vector. Một câu hỏi cơ bản đ−ợc đặt ra mà chúng ta hy vọng là có thể trả lời đ−ợc trong phần này là:
Sau khi một mạng tiến đã đ−ợc tích luỹ, quy tắc quyết định tối −u cho việc phân loại M đầu ra của mạng nên nh− thế nào?
Dễ thấy là bất kỳ một quy tắc quyết định đầu ra hợp lý nào đều phải dựa trên kiến thức về hàm kiểu vector F(.).
Nói chung, tất cả những gì có thể chắc chắn về hàm F(.) là hàm này là một hàm liên tục và nó có tác dụng làm cực tiểu hoá hàm nguy cơ thực nghiệm sau.
R N j dj F xj N = − = ∑ 1 2 2 1 || ( )|| (2.36)
ở đó dj=[d1j, d2j,..., dMj]T là mẫu đầu ra mong muốn cho nguyên mẫu xj, ||.|| chỉ độ lớn Euclide, và N là số l−ợng các ví dụ đ−ợc xử lý bởi mạng trong tích luỹ. Về bản chất, công thức (2.36) không có gì khác với hàm giá trong công thức (2.8). Hàm kiểu vector F(.) phụ thuộc rất nhiều vào sự lựa chọn các ví dụ (xj,dj) đ−ợc sử dụng để tích luỹ mạng; các giá trị khác nhau của (xj,dj) thực sự sẽ dẫn đến những kết quả khác nhau của hàm F(.). (Chú ý rằng ký hiệu (xj,dj) ở đây hoàn toàn t−ơng đ−ơng với ký hiệu (x(j),d(j)) đ−ợc sử dụng trong các phần tr−ớc.)
Dựa trên cơ sở lý thuyết thống kê, đặc biệt là quy tắc xấp xỷ Bayes cùng với các đánh giá xác suất lớp (ví dụ xác suất có điều kiện P(Ck|x)), ng−ời ta đã đ−a ra một quy tắc quyết định cho đầu ra mạng neuron nh− sau:
Phân loại vector ngẫu nhiên xj là thuộc vào lớp Ck nếu
Fk(x)>Fj(k) với mọi j≠k
ở đó Fk(x) và Fj(x) là các phần tử của hàm kiểu vector F(x)
Quy tắc quyết định này có −u điểm của việc trả về các quyết định không
nhập nhằng so với quy tắc ad hoc là quy tắc mà ở đó vector x đ−ợc coi là phần tử của một lớp xác định nếu giá trị đầu ra t−ơng ứng là lớn hơn một ng−ỡng cố định nào đó (th−ờng là 0.5 đối hàm logistics).