Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
455,89 KB
Nội dung
401 Ch¬ng 20 NHẬN DẠNG MẪU: PHÂN LỚP VÀ ĐÁNH GIÁ 20.1. GIỚI THIỆU Trong chương 18, chúng ta đã giới thiệu về nhận dạng mẫu thống kê và đã đề cập đến việc tách và trích chọn các đối tượng từ một cảnh phức tạp. Chương 19 đã chỉ ra các phương pháp xác định những đặc điểm của các đối tượng đó. Trong chương này, chúng ta tiếp cận bài toán nhận biết các đối tượng bằng cách phân lớp chúng thành từng nhóm. Có lẽ phải viết nhiều về chủ đề này và chúng ta chỉ có thể giới thiệu các khái niệm cơ bản ở đây. Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo tài liệu về chủ đề này (Phụ lục 2) 20.2. PHÂN LỚP 20.2.1. Chọn lọc đặc trưng Nếu ta muốn một hệ thống phân biệt các loại đối tượng khác nhau, đầu tiên chúng ta phải quyết định nên xác định những đặc điểm nào để tạo ra các tham số miêu tả. Các đặc điểm riêng biệt cần xác định gọi là các đặc trưng của đối tượng và các giá trị tham số kết quả gồm có vec tơ đặc trưng đối với từng đối tượng. Việc chọn lựa các đặc trưng thích hợp là rất quan trọng, vì chỉ có chúng mới được sử dụng để nhận biết đối tượng. Có vài phương tiện phân tích để hướng dẫn chọn lựa các đặc trưng. Khả năng trực giác thường xuyên chỉ đạo danh sách các đặc trưng có ích tiềm tàng. Các kỹ thuật sắp xếp đặc trưng tính toán có liên quan đến số lượng các đặc trưng khác nhau. Điều này cho phép lược bớt danh sách chỉ còn một vài đặc trưng tốt nhất. Các đặc trưng tốt có bốn đặc điểm: 1. Sự phân biệt đối xử. Các đặc trưng phải nhận những giá trị khác nhau một cách đáng kể đối với các đối tượng thuộc các lớp khác nhau. Ví dụ, đường kính là dặc tính tốt trong ví dụ sắp xếp trái cây ở chương 18, vì nó nhận những giá trị khác nhau đối với những quả sơ ri và những quả nho. 2. Tính tin cậy. Các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối tượng cùng lớp. Ví dụ, màu sắc có thể là đặc trưng kém đối với những quả táo nếu chúng xuất hiện theo các mức độ chín không ổn định. Tức là, một quả táo xanh và một quả táo chín (đỏ) có thể rất khác nhauvề màu sắc, mặc dù cả hai đều thuộc lớp đối tượng là các quả táo. 3. Tính độc lập. Nhiều đặc trưng được sử dụng khác nhau không được tương quan với nhau. Đường kính và trọng lượng của một trái cây sẽ tạo thành các đặc trưng tương quan chặt, vì trọng lượng tỷ lệ gần đúng với đường kính mũ ba. Bài toán mà cả đường kính lẫn trọng lượng về bản chất đều phản ánh cùng một tính chất, ấy là kích thước của trái cây. Trong khi các đặc trưng tương quan chặt có thể kết hợp (ví dụ, bằng cách lấy trung bình tất cả chúng cùng với nhau) 402 để làm giảm tính nhậy cảm đối với nhiễu, thì nói chung chúng lại không được sử dụng như những đặc trưng độc lập. 4. Các số nhỏ. Tính phức tạp của một hệ thống nhận dạng mẫu tăng nhanh chóng theo kích cỡ (số các đặc trưng được dùng) của hệ thống. Quan trọng hơn là số các đối tượng cần có để huấn luyện bộ phân lớp và để đo lường hiệu suất của nó tăng theo cấp số mũ với số các đặc trưng. Trong vài trường hợp, để có thể đạt được lượng dữ liệu cần thiết cho việc huấn luyện bộ phân lớp tương xứng chỉ là điều hão huyền. Cuối cùng, việc thêm các đặc trưng nhiễu hay đặc trưng tương quan chặt với các đặc trưng hiện có có thể làm suy giảmhiệu suất của những bộ phân lớp, đặc biệt bởi vì kích thước giới hạn của tập huấn luyện. Trong thực tế, quá trình chọn lựa đặc trưng thường bao gồm cả việc kiểm tra tập các đặc trưng hợp lý quatrực giác và việc giảm tập xuống còn một số các đặc trưng tốt nhất có thể chấp nhận. Thường có ít hoặc không có sẵn các đặc trưng lý tưởng dưới dạng các tính chất đã nói ở trên. 20.2.2. Thiết kế bộ phân lớp Thiết kế bộ phân lớp bao gồm việc thiết lập cấu trúc logic của bộ phân lớp và cơ sở toán học của quy tắc phân lớp. Thông thường, đối với mỗi đối tượng thường gặp, sự phân lớp tính toán, với từng lớp, giá trị báo hiệu (bằng độ lớn của nó) mức độ mà đối tượng đó tương tự đối tượng điển hình của lớp đó. Giá trị này được tính như một hàm đặc trưng và nó được dùng để chọn lớp gần giống với công việc được giao nhất. Hầu hết các quy tắc quyết định bộ phân lớp đều giảm đến một vạch ngưỡng phân chia các không gian kích cỡ thành các vùng rời nhau, mỗi lớp một (hoặc nhiều) vùng. Mỗi vùng (phạm vi các giá trị đặc trưng) ứng với một lớp riêng lẻ. Nếu các giá trị đặc trưng nằm trong một vùng riêng biệt thì đối tượng được ấn định cho lớp tương ứng. Trong vài trường hợp, một hoặc nhiều vùng như vậy có thể ứng với một lớp “không xác định”. 20.2.3. Huấn luyện bộ phân lớp Một khi các quy tắc quyết định cơ bản của bộ phân lớp đã được thiết lập thì ta phải xác định các giá trị ngưỡng riêng biệt phân tách các lớp. Điều này thường được thực hiện bằng cách huấn luyện bộ phân lớp theo nhóm các đối tượng đã biết. Tập huấn luyện là một tập hợp các đối tượng từ mỗi lớp đã được nhận biết trước đó bằng một phương pháp chính xác nào đó. Các đối tượng trong tập huấn luyện được đo, và không gian kích cỡ được phân chia, bằng các bề mặt quyết định, thành các vùng mà độ chính xác của bộ phân lớp là tối đa khi nó hoạt động trên tập huấn luyện. Khi huấn luyện một bộ phân lớp, ta có thể sử dụng quy tắc đơn lẻ, ví dụ như tối thiểu hoá tổng các sai số phân lớp. Nếu một vài sự phân lớp sai lầm có thể gây rắc rối hơn những cái khác thì ta có thể thiết lập một hàm giá để giải thích điều này bằng cách cân nhắc các sai số khác nhau một cách gần đúng. Các đường quyết định sau đó được đặt vào để tối thiểu hoá toàn bộ “giá” của việc thao tác bộ phân lớp. Nếu tập huấn luyện là biểu diễn của các đối tượng nói chung thì bộ phân lớp loại cũng phải thực hiện xung quanh các đối tượng mới giống như nó đã từng thực hiện trên tập huấn luyện. Có được một tập huấn luyện đủ lớn thường là một công việc gian khổ. Để được thể hiện, tập huấn luyện phải bam gồm các ví dụ về tất cả những đối tượng có thể gặp, kể cả những đối tượng hiếm khi nhìn thấy. Nếu tập huấn luyện ngăn chận một đối tượng không phổ biến nào đó, thì nó không biểu hiện. Nếu nó chứa các sai số phân lớp thì nó bị thành kiến. 403 20.2.4. Xác định hiệu suất Sự chính xác của một bộ phân lớp có thể được đánh giá trực tiếp bằng cách liệt kê hiệu suất của nó dựa trên tập các đối tượng kiểm tra đã biết. Nếu tập kiểm tra đủ lớn để biểu diễn các đối tượng lớn và nếu nó không có sai số, thì hiệu suất được đánh giá có thể rất hữu ích. Một phương pháp lựa chọn cho việc đánh giá hiệu suất là sử dụng tập kiểm tra của các đối tượng đã biết để đánh giá PDF của những đặc trưng theo từng nhóm. Từ những PDF cơ bản đã cho, ta có thể sử dụng các tham số phân lớp để tính tỷ lệ sai số mong muốn. Nếu đã dạng tổng quát của các PDF đó thì kỹ thuật này có thể sử dụng tập kiểm tra kích thước ở mép tốt hơn. Ta muốn có được hiệu suất của bộ phân lớp trên tập huấn luyện như một phép đo toàn bộ hiệu suất của nó, nhưng đánh giá này thường bị nghi ngờ về tính lạc quan. Một phương pháp tiếp cận tốt hơn là sử dụng một tập kiểm tra riêng biệt đối với việc đánh giá hiệu suất của bộ phân lớp. Tuy nhiên, điều này làm tăng đáng kể sự cần thiết của những dữ liệu trước phân lớp. Nếu những đối tượng đã phân lớp trước đây được đánh giá cao, thì ta có thể sử dụng một thủ tục vòng luân chuyển mà trong đó bộ phân lớp được huấn luyện với hầu hết mọi đối tượng và tiếp theo sau là đối tượng đó được phân lớp. Khi điều này được thực hiện với tất cả các đối tượng thì ta sẽ có một đánh giá của toàn bộ hiệu suất thực hiện của bộ phân lớp. 20.3. CHỌN LỰA ĐẶC TRƯNG Trong một bài toán nhạn dạng mẫu, ta thường phải đối mặt với côngviệc chọn lựa trong nhiều đặc trưng sẵn có, đặc trưng nào xác định và thể hiện bộ phân lớp. Bài toán chọn lựa đặc trưng đã nhận được sự quan tâm đáng kể trong tài liệu, nhưng lại nổi lên tình trạng không rõ ràng. Phần này dành cho độc giả như một vấn đề lý thú. Như đã lưu ý trước đây, ta tìm kiếm một tập nhỏ các đặc trưng tin cậy, độc lập và sự phân biệt đối xử. Nói chung, ta mong muốn làm suy giảm hiệu suất của bộ phân lớp khi các đặc trưng được đánh giá, ít ra cũng là những đặc trưng hữu ích. Thực tế, đánh giá nhiễu hay các đặc trưng tương quan chặt có thể thực sự cải tiến hiệu suất thực hiện. Sau đó, chọn lựa đặc trưng có thể được coi như quá trình đánh giá một vài đặc trưng và kết hợp các đặc trưng có liên quan khác, cho đến khi tập đặc trưng trở nên dễ sử dụng và sự thực hiện vẫn còn chính xác. Nếu tập đặc trưng được giảm từ M đặc trưng xuống còn một lượng N nào đó nhỏ hơn, thì chúng ta sẽ tìm kiếm tập N đặc trưng riêng biệt để tối thiểu hoá toàn bộ việc thực hiện bộ phân lớp. Một phương pháp tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản nhiều lần để chọn lựa đặc trưng được cho dưới đây. Đối với tất cả các tập con của N đặc trưng có thể có, huấn luyện bộ phân lớp, và xác định hiệu suất của nó bằng cách liệt kê các tỷ số phân lớp nhầm các nhóm khác nhau của bộ phân lớp. Sau đó tạo ra một chỉ số hiệu suất tổng thể là một hàm tỷ số lỗi. Cuối cùng, sử dụng tập N đặc trưng đó để tạo ra chỉ số hiệu suất tốt nhất. Dĩ nhiên bài toán với cách tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản nhiều lần là một khối lượng khổng lồ đối với tất cả trừ các bài toán nhận dạng mẫu đơn giản nhất. Thực tế, thường thì tài nguyên chỉ đủ để huấn luyện và đánh giá bộ phân lớp. Trong đa số các bài toán thực tiễn, phương pháp tiếp cận bằng cách lặp đi 404 lặp lại một thủ tục đơn giản nhiều lần là không thực tế và một kỹ thuật ít tốn tiền phải được sử dụng để đạt được cùng một mục đích. Trong phần thảo luận dưới đây, chúng ta sẽ xem xét trường hợp giảm một bài toán hai đặc trưng xuống còn một đặc trưng đơn giản. Giả sử tập huấn luyện là có sẵn và chứa các đối tượng của M lớp khác nhau. Đặt N j là số đối tượng trong lớp j. Hai đặc trưng x ij và y ij thu được khi xác định đối tượng thứ i trong lớp j. Ta có thể khởi đầu bằng việc tính giá trị trung bình của từng đặc trưng trong mỗi lớp: j N i ij j xj x N 1 1 (1) và j N i ij j yj y N 1 1 (2) Dấu mũ trên đầu xj và yj nhắc ta rằng đây là những đánh giá của các giá trị trung bình trong lớp dựa trên tập huấn luyện, chứ không phải là các giá trị trung bình thật sự của lớp. 20.3.1. Độ lệch đặc trưng Lý tưởng mà nói, các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối tượng trong cùng một lớp. Độ lệch đặc trưng x trong lớp j được đánh giá là j N i xj ij j xj x N 1 2 2 1 (3) và đối với đặc trưng y là j N i yj ij j yj y N 1 2 2 1 (4) 20.3.2. Tương quan đặc trưng Sự tương quan của các đặc trưng x và y trong lớp j có thể được đánh giá bởi yjxj N i yj ij xj ij j xyj j yx N 1 1 (5) Đại lượng này nằm giữa -1 và +1. Giá trị 0 cho thấy rằng hai đặc trưng là không tương quan, trong khi giá trị gần +1 cho thấy một mức đọ cao của sự tương quan. Giá trị -1 chứng tỏ rằng mỗi biến tỷ lệ với giá trị âm của biến khác. Nếu độ lớn của một tương quan xấp xỉ 1, thì hai đặc trưng có thể được kết hợp thành một hay có thể bỏ đi một trong hai đặc trưng đó. 20.3.3. Khoảng cách phân tách lớp Một phép tính xác đáng về khả năng của một đặc trưng để phân biệt hai lớp là khoảng cách độ lệch đã chuẩn hoá giữa các giá trị trung bình của lớp. Với đặc trưng x, khoảng cách này được cho bởi 405 22 xkxj xkxj xjk D (6) trong đó j, k là hai lớp. Rõ ràng, đặc trưng cao hơn là đặc trưng tạo ra sự tách lớp phổ biến nhất. 20.3.4. Giảm chiều Có nhiều phương pháp kết hợp hai đặc trưng x và y thành một đặc trưng z đơn lẻ. Một phương pháp đơn giản là sử dụng một hàm tuyến tính (Xem phần 13.6.2.1) byaxz (7) Bởi vì hiệu suất phân lớp không bị ảnh hưởng bởi việc lấy tỷ lệ độ lớn của các đặc trưng, chúng ta có thể lợi dụng sự hạn chế về độ lớn, ví dụ như 1 22 ba (8) Biểu thức này có thể hợp nhất với biểu thức (7) bằng cách viết sincos yxz (9) trong đó là một biến mới chỉ rõ tỷ lệ của x và y trong biểu thức. Nếu mỗi đối tượng trong tập huấn luyện tương ứng với một điểm trong không gian đặc trưng hai chiều (ví dụ mặt phẳng x, y), thì biểu thức (9) miêu tả mọi điểm lên trục z, làm thành với trục x một góc . Điều này được cho trong bảng 20-1. Rõ ràng, phải được chọn để tối thiểu hoá sự tách lớp hay một tiêu chuẩn chất lượng nào đó của một đặc trưng. Để hiểu thêm về sự giảm chiều, độc giả nên tham khảo một cuốn sách nói về nhận dạng mẫu. HÌNH 20-1 Hình 20-1 Giảm chiều bằng phép chiếu 20.4. SỰ PHÂN LỚP THỐNG KÊ Trong phần này, chúng ta sẽ xem xét một vài phương pháp thống kê phổ biến được dùng cho phân lớp. 406 20.4.1. Lý thuyết quyết định thống kê Giả sử chúng ta có một bài toán sắp xếp trái cây đơn giản như trong chương 18, nhưng chỉ với hai lớp và một đặc trưng đơn lẻ. Nghĩa là các đối tượng thể hiện chính bản thân chúng theo lớp 1 (anh đào) hoặc lớp 2 (táo). Đối với mỗi đối tượng, ta xác định một tính chất, đường kính, và ta gọi đặc trưng này là x. Có thể biết trước PDF của đường kính x đối với một hay cả hai lớp đối tượng. Ví dụ, Hiệp hội nông dân trồng anh đào có thể phát hành một bản tin mở đầu là đường kính trung bình của các quả anh đào là 20 mm và PDF là xẫpỉ hàm Gauss với độ lệch tiêu chuẩn là 4 mm. Nếu không biết PDF của đừng kính những quả táo, ta có thể ước lượng nó bằng cách đo một lượng lớn các quả táo, vẽ lược đồ các đường kính của chúng và tính trung bình và độ lệch. Sau đó chuẩn hoá thành đơn vị diện tích và có lẽ nên làm trơn, có thể coi lược đồ này như một ước lượng củaPDF tương ứng. 20.4.1.1. Xác suất tiên nghiệm Nói chung, đó là khả năng một lớp hầu như sẽ xuất hiện không theo thứ tự. Ví dụ, giả sử băng truyền trong ví dụ sắp xếp trái cây đã biết, vận chuyển số anh đào nhiều gấp hai lần số táo mỗi chu kỳ vận hành. Vì thế, ta có thể nói rằng một xác suất tiên nghiệm của hai lớp là 3 1 3 2 2 CPCP i vµ (10) Các biểu thức này phát biểu đơn giản rằng lớp 1 có khả năng xuất hiện gấp hai lần lớp 2. Xác suất tiên nghiệm biểu diễn điều mà chúng ta biết về một đối tượng trước khi nó được xác định. Trong ví dụ này, chúng ta ta biết rằng một đối tượng chưa xác định là anh đào có khả năng xuất hiện gấp hai lần táo. Xác suất có điều kiện. Hình 20-2 trình bày hình dạng của hai PDF. Ta ký hiệu PDF có điều kiện đối với đường kính anh đào là P(x|C 1 ), có thể đọc là “xác suất mà đường kính x sẽ xuất hiện, khi đã biết xác suất xuất hiện đối tượng thuộc lớp 1”. Tương tự, P(x|C 2 ) là xác suất xuất hiện của đường kính x, khi đã biết xác suất xuất hiện lớp 2. HÌNH 20-2 Hình 20-2 Các PDF có điều kiện 20.4.1.2. Định lý Bayes Trước khi một đối tượng được xác định, ta chỉ biết nó chỉ gồm xác suất tiên nghiệm của biểu thức (10). Tuy nhiên, sau khi xác định, ta có thể sử dụng số đo và 407 các PDF có điều kiện để chứng tỏ hiểu biết của ta về thành viên lớp của đối tượng. Sau khi xác định, cái gọi là xác suất hậu nghiệm để đối tượng thuộc lớp i được cho bởi định lý Bayes; tức là, xp CPCxp xCP ii i | | (11) trong đó 2 1 | i ii CPCxpxp (12) là hệ số chuẩn hoá cần thiết để tạo thành tổng các xác suất hậu nghiệm có tổng bằng 1. Định lý Bayes cho phép ta kết hợp xác suất tiên nghiệm của thành viên lớp, PDF có điều kiện và phép đo cần thiết để tính toán, đối với từng lớp, xác suất để xác định đối tượng thuộc lớp nào. Với những thông tin dã cho này, ta có thể ấn định mỗi đối tượng với lớp có khả năng chứa nó nhiều nhất. Trong ví dụ sắp xếp trái cây, ta ấn định đối tượng cho lớp 1 (ví dụ, ta sẽ gọi nó là anh đào) nếu xCPxCP || 21 (13) và ấn định nó cho lớp 2 (táo) nếu trái lại. Thay thế định lý Bayes [biểu thức (10)] vào biểu thức (13) nhân với mẫu số chung, ta được 2211 || CPCxpCPCxp (14) giống như điều kiện giả định lớp 1 chứa trái cây đường kính x. Tại ngưỡng quyết định, biểu thức (14) xuất hiện dấu đẳng thức, ta có thể ấn định các đối tượng cho các lớp tuỳ ý. Bộ phân lớp định nghĩa bởi quy tắc quyết định này là bộ phân lớp có thể đúng tối đa (maximun-likelihood). Trường hợp tổng quát. Giả sử ta không tiến hành không phải chỉ một mà là n phép tính trên mỗi đối tượng. Thay vì là một giá trị đặc trưng đơn lẻ, ta có một vec tơ đặc trưng [x 1 , x 2 , …, x n ] T , và mỗi đối tượng được xác định tương ứng với một điểm trong không gian đặc trưng n chiều. Cũng giả thiết rằng không phải chỉ có hai mà là m lớp đối tượng. Với những điều kiện đó, xác suất tiên nghiệm của thành viên lớp i theo định lý Bayes là m i in iin ni CiPCxxxp CPCxxxp xxxCp 1 21 21 21 |, ,, |, ,, , ,,| (15) trong đó các PDF có điều kiện bây giờ là n chiều. 20.4.1.3. Rủi ro Bayes Mỗi khi ta ấn định một đối tượng cho một lớp, điều rủi ro là ta tạo ra một sự sai lạc. Trong bài toán đa lớp, một vài sự phân lớp nhầm có thể gây tai hại hơn điều khác. Một phương pháp được đưa ra để làm sáng tỏ, đó là hàm giá. Đặt l ij là giá (hay “sự mất mát”) của việc ấn định một đối tượng vào lớp i khi nó thực sự thuộc vào lớp j. Thường thì l ij sẽ nhận giá trị 0 với mọi quyết định chính xác (i = j), nhận các giá trị nhỏ đối với các lỗi vô hại và nhận các giá trị lớn hơn đối với các sai lầm nghiêm trọng hơn. Rủi ro Bayes là một cái giá lâu dài do hoạt động của bộ phân lớp. Rủi ro được đánh giá bằng tích phân hàm giá có trọng số xác suất. 408 Giả sử ta xác định một đối tượng và ấn định nó cho lớp i. Mất mát xảy ra từ giả định này là sự rủi ro có điều kiện m j njijni xxxCplxxxCR 1 2121 , ,,|, ,,| (16) là giá được lấy trung bình trên toàn bộ m nhóm thực sự chứa đối tượng. Vì vậy, cho vec tơ đặc trưng, có một sự rủi ro nào đó hàm ý trong việc ấn định đối tượng cho nhóm bất kỳ. 20.4.1.4. Quy tắc Bayes Quy tắc quyết định Bayes phát biểu rằng mỗi đối tượng phải được ấn định cho một lớp mà lớp đó tạo ra sự rủi ro có điều kiện nhỏ nhất. Nếu thực hiện quy tắc này, ta có thể đặt R m (x 1 , x 2 , …, x n ) bằng sự rủi ro nhỏ nhất tương ứng với vec tơ đặc trưng [x 1 , x 2 , …, x n ] T . Toàn bộ sự rủi ro dài hạn đối với hoạt động của bộ phân lớp với quy tắc quyết định Bayes gọi là rủi ro Bayes. Điều này có được bằng cách tích phân hàm rủi ro trên toàn bộ không gian đặc trưng nnnm dxdxdxxxxpxxxRR , ,,, ,, 212121 (17) Rõ ràng, không có một quy tắc nào khác có thể giảm R m (x 1 , x 2 , …, x n ) tại một điểm bất kỳ và sự rủi ro toàn bộ được tối thiểu hoá bằng quy tắc quyết định Bayes. 20.4.2. Các loại bộ phân lớp Đó là điều cần thiết để phân bệt các loại bộ phân lớp khác nhau trên cơ sở cái đã biết về nền tảng thống kê và cái phải được đánh giá. Các bộ phân lớp tham số và không tham số. Nếu đã biết dạng hàm của các PDF có điều kiện, nhưng một vài tham số của hàm mật độ (giá trị trung bình, độ biến thiên,…) là chưa biết, thì bộ phân lớp được gọi là tham số. Bởi vì các xác suất tiên nghiệm cũng là các tham số, nên chúng có thể là chưa biết. Với các bộ phân lớp tham số, dạng hàm của các PDF có điều kiện sẽ được giả thiết, trên cơ sở của một nền tảng tri thức nào đó về bản thân các đối tượng. Thường thì các dạng hàm được giả thiết cho mục đích toán học cũng như các lý do thiết yếu hơn. Nếu chưa biết dạng hàm của một vài hay tất cả các PDF có điều kiện, thì bộ phân lớp được gọi là không tham số. Nghĩa là tất cả các PDF có điều kiện phải được đánh giá từ một tập dữ liệu huấn luyện. Để làm được điều đó cần có nhiều dữ liệu hơn viêc đánh giá đơn thuần một vài tham số trong PDF đã biết dạng hàm. Vì thế, kỹ thuật không tham số được sử dụng khi các kiẻu tham số thích hợp không có sẵn và khối lượng dữ liệu huấn luyện nằm trong phạm vi có thể. 20.4.3. Đánh giá tham số và huấn luyện bộ phân lớp Quá trình đánh giá các PDF có điều kiện hay các tham số của chúng dùng kích thước đối tượng được biết với cái tên huấn luyện bộ phân lớp. 20.4.3.1. Huấn luyện có giám sát và không có giám sát Nếu một đối tượng đã được phân lớp trước bởi một quá trình không sai sót nào đó, thì quá trình đó được gọi là huấn luyện có giám sát. Với huấn luyện không giám sát, các PDF có điều kiện được đánh giá bằng các mẫu mà lớp của chúng là chưa biết. Các lớp, thậm chí số lớp, phải được xác định bằng cách định vị nhóm các điểm trong không gian kích thước. Đây gọi là phân tích nhóm. Huấn luyện không có giám 409 sát thường chỉ được sử dụng khi nó không thuận tiện hay không có khả năng để có được một tập huấn luyện trước phân lớp hay khi số lớp và các đặc trưng của các lớp cũng chưa được xác định. Ở đây chúng ta sẽ nói về hai phương pháp tiếp cận thường dùng với huấn luyện có giám sát: kỹ thuật có thể đúng tối đa và kỹ thuật Bayes. Trong khi hai kỹ thuật khác nhau về tính triết học, thì chúng thường tạo ra các kết quả tương tự nhau. Các kết quả này giống nhau đến mức nào tuỳ thuộc vào tình huống đặc biệt. 20.4.3.2. Đánh giá có thể đúng tối đa Tiếp cận sự đánh giá có thể đúng tối đa giả thiết rằng các tham số được đánh giá là ổn định nhưng chưa biết. Một mẫu đã cho (tập huấn luyện) được vẽ và tham số đánh giá được coi như giá trị làm cho sự xuất hiện của tập huấn luyện là có khả năng xảy ra nhất. Ví dụ, giả thiết rằng 100 mẫu được vẽ từ sự phân bố chuẩn của các giá trị trung bình, với độ lệch tiêu chuẩn là 2. Giả thiết thêm rằng giá trị trung bình của 100 mẫu là 12. Dĩ nhiên, nó có vẻ phù hợp khi 100 mẫu có được từ nhóm mẫu có giá trị trung bình là 12 hơn là có được từ nhóm mẫu có giá trị trung bình là 0. mặc dù tình huống sau là có khả năng, nhưng nó yêu cầu một sự trùng khớp của các sự kiện không thể xảy ra. Nó có thể chứng tỏ rằng giá trị trung bình của nhóm mẫu cơ bản mà tạo ra giá trị mẫu quan sát trung bình có khả năng xảy ra nhất là 12. Đánh giá có thể đúng tối đa là một đề tài được phát triển toàn diện và nằm ngoài tầm kiểm soát của chúng ta. Ở đây chúng ta giới thiệu khái niệm và trích dẫn kết quả mà những đánh giá có thể đúng tối đa của giá trị trung bình và độ lệch tiêu chuẩn của một phân bố chuẩn là trung bình mẫu và độ lệch tiêu chuẩn mẫu được nhiều người biết đến. 20.4.3.3. Ước lượng Bayes Không giống như đánh giá có thể đúng tối đa, tiếp cận Bayes coi tham số chưa biết như một biến ngẫu nhiên. Hơn thế nữa, nó giả thiết là đã biết một chút gì đó về tham số chưa biết trước. Ước lượng Bayes giả thiết rằng tham số chưa biết có một PDF tiên nghiệm đã biết, hay giả thiết là đã biết, trước khi nhận được một mẫu bất kỳ. Sau khi xác định tập huấn luyện, định lý Bayes được sử dụng để cho phép các giá trị mẫu cập nhật, hay cải tiến, PDF tiên nghiệm. Điều này mang lại một PDF hậu nghiệm của giá trị tham số chưa biết. Chúng ta hy vọng rằng PDF này có một đỉnh hẹp đơn lẻ, tập trung vào giá trị thật sự của tham số. Một ví dụ về ước lượng Bayes, giả sử chúng ta muốn ước lượng trung bình của sự phân bố chuẩn với sự biến thiên đã biết. Trước khi xác định tập huấn luyện, chúng ta có thể sử dụng bất cứ nhận thức nào có sẵn để thiết lập một PDF tiên nghiệm trên giá trị trung bình đã biết. Ta gọi là hàm mật độ tiên nghiêm p( ). Ta ký hiệu dạng hàm đã biết của PDF với giá trị trung bình chưa biết là p(x| ). Điều này được phát biểu rằng, cho trước một giá trị đối với , thì ta sẽ biết p(x). Nếu X biểu diễn tập giá trị mẫu thu được bằng việc xác định tập huấn luyện, định lý Bayes sinh ra một PDF hậu nghiệm của sau khi tập huấn luyện được xác định: dpXp pXp Xp | | | (18) 410 Cái mà chúng ta thực sự muốn là p(x|X), ước lượng tốt nhất của mật độ p(x), cho trước kích thước tập huấn luyện X. Một cách để đạt được ước lượng này là thiết lập PDF chung (hai chiều) giữa cả hai x và với tích phân theo ; tức là, dXxpXxp |,| (19) Mật độ chung trong tích phân có thể được viết như một tích của hai PDF một chiều độc lập. Biểu thức (19) trở thành dXpxpXxp ||| (20) Đây là kết quả mong muốn, vì p(x| ) là dạng hàm được giả định và p( |X) là PDF hậu nghiệm của giá trị trung bình chưa biết từ biểu thức (18). Ví dụ. Để hiểu tác động của p(x| ) lên p(x|X) như thế nào, giả sử rằng p( |X) có một đỉnh nhọn đơn lẻ tại = 0 . Nghĩa là nhận thức trước đây của chúng ta đã kết hợp với tập huấn luyện để xác định trong phạm vi giới hạn hẹp xung quanh giá trị 0 . Nếu đỉnh đủ nhọn thì chúng ta có thể xấp xỉ hoá p( |X) bằng một xung tại 0 : 0 | Xp (21) Thì biểu thức (20) trở thành dxpXxp 0 || (22) Theo tính chất chọn lọc của xung, biểu thức này là 0 || xpXxp (23) Biểu thức này phát biểu rằng 0 là ước lượng tốt nhất của giá trị trung bình chưa biết. Nói cách khác, giả sử rằng phân bố hậu nghiệm của một giá trị trung bình chưa biết, p( |X), có một đỉnh tương đối rộng xung quanh 0 . Trong trường hợp này, p(x|X) trở thành trung bình trọng số của nhiều PDF, tất cả đều có các giá trị trung bình khác nhau trong lân cận của 0 . Điều này có tác dụng làm mờ hay mở rộng p(x|X) để phản ánh tính không chắc chắn của chúng ta về giá trị trung bình. Như đã nói đến trước đây, ước lượng có thể đúng tối đa và ước lượng Bayes tạo ra kết quả tương tự, nhưng không giống nhau, trong nhiều trường hợp thường gặp. Ví dụ, cả hai phương pháp tiếp cận đều có xu hướng thiết lập giá trị trung bình chưa biết tại giá trị trung bình của tập huấn luyện. Ước lượng Bayes cho phép ta kết hợp một tri thức tiên nghiệm bất kỳ mà ta có với dữ liệu xác định của tập huấn luyện để ước lượng tham số chưa biết. Hơn nữa, độ rộng của p( |X) là một dấu hiệu cho biết mức độ ta đã ước lượng được tham số chưa biết. Sử dụng ước lượng Bayes. Để tổng kết, các bước trong ước lượng Bayes như sau. Thứ nhất, chúng ta giả định một PDF tiên nghiệm đối với tham số hay các tham số chưa biết. Thứ hai, chúng ta tổng hợp các giá trị mẫu từ tổ hợp các mẫu bằng cách tính tập huấn luyện. Thứ ba, chúng ta sử dụng định lý Bayes để cải tiến PDF tiên nghiệm thành PDF hậu nghiệm, dùng các giá trị mẫu. Cuối cùng, chúng ta tạo mật độ chung của x và tham số chưa biết với tích phân tham số để được ước lượng mong muốn của PDF. [...]... của hình 2 0-4 c Chúng ta có thể nhận biết vùng có thể đuúng tối đa này bằng cách láy ảnh số của hình 2 0-4 b trừ cho ảnh số của hình 2 0-4 c Vùng này được trình bày trong hình 2 0-4 d đối với nhóm C Một thủ tục tương tự cho các nhóm khác tạo ra sự phân lớp thể hiện trong hình 2 0-5 HÌNH 2 0-5 413 Hình 2 0-5 Phân lớp nhiễm sắc thể 20. 4.4 Hiệu suất của bộ phân lớp Có nhiều phương pháp để đánh giá hiệu suất của một... ẩn 20. 5.2 Phần tử xử lý (PE) Phần tử xử lý cơ bản của một mạng nơ ron hoạt động khá đơn giản Nó đơn thuần là tổng các tích của vec tơ đầu vào và một vec tơ trọng số, biến đổi kết quả theo một hàm biến đổi sigma, và đưa ra kết quả (vô hướng) Kết quả này sau đó đi tiếp để trở thành đầu vào của một hay nhiều PE khác thông qua các kết nối mạng Hình 2 0-6 miêu tả một phần tử xử lý điển hình 414 Quá trình xử. .. HÌNH 2 0-4 Hình 2 0-4 PDF nhiễm sắc thể: (a) toàn bộ các nhiễm sắc thể; (b) chỉ có nhóm C; (c) các nhiễm sắc thể không thuộc nhóm C; (d) vùng quyết định nhóm C Biểu thức (14) đưa ra quy tắc quyết định đối với bộ phân lớp có thể đúng tối đa Nghĩa là chúng ta phải ấn định một nhiễm sắc thể với các giá trị đặc trưng (x, y) cho nhóm C nếu lược đồ của hình 2 0-4 b tại (x, y) lớn hơn lược đồ của hình 2 0-4 c Chúng... gần vec tơ đích hơn Sau cùng, tầng ẩn trung gian nằm dưới tầng ra cũng được điều chỉnh tương tự HÌNH 2 0-7 Hình 2 0-7 Mạng lan truyền ngược Trong khi hình 2 0-7 chỉ đưa ra một mạng hai tầng thì nói chung một mạng có thể sử dụng một lượng tầng bất kỳ Chúng ta sẽ sử dụng thuật ngữ tổng quát hơn trong bảng 2 0-1 để thảo luận về huấn luyện lan truyền ngược dưới đây Quá trình huấn luyện tiến hành từ trên xuống... của nó là hạn chế đầu vào của PE vào khoảng [0,1] Dạng hàm g là một thiết kế tuỳ ý và nó có thể sử dụng ảnh đáng kể của mình lên hành vi của mạng Theo quy ước, các đầu vào là dương, nhưng các trọng số kết nối có thẻ là dương (gia tăng) hay âm (hạn chế) HÌNH 2 0-6 Hình 2 0-6 Giản đồ của một phàn tử xử lý Trong một bài tập huấn luyện (có giám sát), các vec tơ đặc trưng của các đối tượng đã biết từ tập huấn... bằng trạng thái số Chúng ds phần mềm hay các chíp xử lý tín hiệu số (DPS) để mô phỏng phần mềm đối với kiến trúc mạng đã chọn và sau đó huấn luyện mạng Trong một tình trạng số bất kỳ của một nhóm PR kết nối, có một đòi hỏi về thứ tự xử lý, đó là chuỗi các phần tử được cập nhật Vì thế, quy tắc cập nhật là một nhân tố thiết kế quan trọng của một mạng nơ ron 20. 5.4 Thực hiện mạng nơ ron Những lợi thế thường... thuật chuẩn bị mẫu vật hiện nay có khả năng nhuộm các nhiễm sắc thể sao cho có thể phân biệt tất cả 24 kiểu, nhưng ví dụ này tốt hơn là dùng để minh hoạ các ý chính của thảo luận HÌNH 2 0-3 Hình 2 0-3 Nhiễm sắc thể người: (a) ảnh hiển vi đã số hoá; (b) kiểu tế bào Giống như công việc nhận dạng mẫu, công việc của chúng ta đơn thuần chỉ là ấn định mỗi nhiễm sắc thể vào một trong bảy nhóm, từ A đến G Chúng... 2 0-1 THUẬT NGỮ TRONG MẠNG LAN TRUYỀN NGƯỢC BẢNG 2 0-1 Tiếp đến, các trọng số tại đầu vào mỗi nút trong tầng ẩn đèu được điều chỉnh bằng một lượng wijk jk g ' S jk Oik 1 (34) Biểu thức này tương tự biểu thức (32), ngoại trừ số hạng sai số jk biểu diễn sai số tập trung bởi tất cả các nút; tức là, N k 1 jk w ik 1 ijk 1 (35) i 1 Nếu có nhiều hơn hai tầng, quá trình huấn luyện sẽ xử. .. suốt quá trình thực hiện việc huấn luyện HÌNH 2 0-8 Hình 2 0-8 Điều chỉnh trọng số: (a) các vec tơ dã chuẩn hoá; (b) các vec tơ chưa chuẩn hoá Bằng việc cạnh tranh đối với các vec tơ đầu vào, một vec tơ trọng số nguyên mẫu trung bình phát triển dần dần cho từng nhóm trong không gian đặc trưng Ví dụ, các vec tơ trọng số xuất phát ban đầu không bằng nhau (hình 20. 9a) và hướng về phía vec tơ trung bình đối... thấp Nhiều nhóm hiển nhiên cho biết khác nhau về hình thái giữa các cặp tương đồng 412 Hình 2 0-4 b tđưa ra một lược đồ tương tự cho các nhiễm sắc thể thuộc nhóm C Tập con các nhiễm sắc thể được nhận biết bằng một nhà di truyền học có kinh nghiệm Lược đồ của tất cả các nhiễm sắc thể ngoài nhóm C cho trong hình 2 0-4 c Việc huấn luyện bộ phân lớp trong trường hợp này bao gồm phân chia không gian đặc trưng . đồ của hình 2 0-4 b tại (x, y) lớn hơn lược đồ của hình 2 0-4 c. Chúng ta có thể nhận biết vùng có thể đuúng tối đa này bằng cách láy ảnh số của hình 2 0-4 b trừ cho ảnh số của hình 2 0-4 c. Vùng này. bày trong hình 2 0-4 d đối với nhóm C. Một thủ tục tương tự cho các nhóm khác tạo ra sự phân lớp thể hiện trong hình 2 0-5 . HÌNH 2 0-5 414 Hình 2 0-5 Phân lớp nhiễm sắc thể 20. 4.4. Hiệu suất. HÌNH 2 0-1 Hình 2 0-1 Giảm chiều bằng phép chiếu 20. 4. SỰ PHÂN LỚP THỐNG KÊ Trong phần này, chúng ta sẽ xem xét một vài phương pháp thống kê phổ biến được dùng cho phân lớp. 406 20. 4.1. Lý