Bài giảng Xử lý ảnh - Chương 20: Nhận dạng mẫu: Phân lớp và đánh giá

Sự phân biệt đối xử.. Tính tin cậy.[r]

(1)

Chương 20

NHẬN DẠNG MẪU:

PHÂN LỚP VÀ ĐÁNH GIÁ

20.1 GIỚI THIỆU

Trong chương 18, giới thiệu nhận dạng mẫu thống kê đề cập đến việc tách trích chọn đối tượng từ cảnh phức tạp Chương 19 phương pháp xác định đặc điểm đối tượng Trong chương này, tiếp cận toán nhận biết đối tượng cách phân lớp chúng thành nhóm Có lẽ phải viết nhiều chủđề giới thiệu khái niệm Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo tài liệu chủđề (Phụ lục 2)

20.2 PHÂN LỚP

20.2.1 Chọn lọc đặc trưng

Nếu ta muốn hệ thống phân biệt loại đối tượng khác nhau, phải định nên xác định đặc điểm để tạo tham số miêu tả Các đặc điểm riêng biệt cần xác định gọi đặc trưng đối tượng giá trị tham số kết gồm có vec tơđặc trưng đối tượng Việc chọn lựa đặc trưng thích hợp quan trọng, có chúng sử dụng để nhận biết đối tượng

Có vài phương tiện phân tích để hướng dẫn chọn lựa đặc trưng Khả trực giác thường xuyên đạo danh sách đặc trưng có ích tiềm tàng Các kỹ thuật xếp đặc trưng tính tốn có liên quan đến số lượng đặc trưng khác Điều cho phép lược bớt danh sách vài đặc trưng tốt

Các đặc trưng tốt có bốn đặc điểm:

1 Sự phân biệt đối xử. Các đặc trưng phải nhận giá trị khác cách đáng kể đối tượng thuộc lớp khác Ví dụ, đường kính dặc tính tốt ví dụ xếp trái chương 18, nhận giá trị khác sơ ri nho

2 Tính tin cậy. Các đặc trưng phải nhận giá trị giống đối tượng lớp Ví dụ, màu sắc đặc trưng táo chúng xuất theo mức độ chín khơng ổn định Tức là, táo xanh táo chín (đỏ) khác nhauvề màu sắc, hai thuộc lớp đối tượng táo

(2)

để làm giảm tính nhậy cảm nhiễu, nói chung chúng lại khơng sử dụng đặc trưng độc lập

4 Các số nhỏ. Tính phức tạp hệ thống nhận dạng mẫu tăng nhanh chóng theo kích cỡ (số đặc trưng dùng) hệ thống Quan trọng số đối tượng cần có để huấn luyện phân lớp để đo lường hiệu suất tăng theo cấp số mũ với số đặc trưng Trong vài trường hợp, để đạt lượng liệu cần thiết cho việc huấn luyện phân lớp tương xứng điều hão huyền Cuối cùng, việc thêm đặc trưng nhiễu hay đặc trưng tương quan chặt với đặc trưng có làm suy giảmhiệu suất phân lớp, đặc biệt kích thước giới hạn tập huấn luyện Trong thực tế, trình chọn lựa đặc trưng thường bao gồm việc kiểm tra tập đặc trưng hợp lý quatrực giác việc giảm tập xuống số đặc trưng tốt chấp nhận Thường có khơng có sẵn đặc trưng lý tưởng dạng tính chất nói

20.2.2 Thiết kế phân lớp

Thiết kế phân lớp bao gồm việc thiết lập cấu trúc logic phân lớp sở toán học quy tắc phân lớp Thông thường, đối tượng thường gặp, phân lớp tính tốn, với lớp, giá trị báo hiệu (bằng độ lớn nó) mức độ mà đối tượng tương tựđối tượng điển hình lớp Giá trị tính hàm đặc trưng dùng để chọn lớp gần giống với công việc giao

Hầu hết quy tắc định phân lớp giảm đến vạch ngưỡng phân chia khơng gian kích cỡ thành vùng rời nhau, lớp (hoặc nhiều) vùng Mỗi vùng (phạm vi giá trịđặc trưng) ứng với lớp riêng lẻ Nếu giá trị đặc trưng nằm vùng riêng biệt đối tượng ấn định cho lớp tương ứng Trong vài trường hợp, nhiều vùng ứng với lớp “không xác định”

20.2.3 Huấn luyện phân lớp

Một quy tắc định phân lớp thiết lập ta phải xác định giá trị ngưỡng riêng biệt phân tách lớp Điều thường thực cách huấn luyện phân lớp theo nhóm đối tượng biết Tập huấn luyện tập hợp đối tượng từ lớp nhận biết trước phương pháp xác Các đối tượng tập huấn luyện đo, khơng gian kích cỡđược phân chia, bề mặt định, thành vùng mà độ xác phân lớp tối đa hoạt động tập huấn luyện

Khi huấn luyện phân lớp, ta sử dụng quy tắc đơn lẻ, ví dụ tối thiểu hoá tổng sai số phân lớp Nếu vài phân lớp sai lầm gây rắc rối khác ta thiết lập hàm giá để giải thích điều cách cân nhắc sai số khác cách gần Các đường định sau đặt vào để tối thiểu hố tồn “giá” việc thao tác phân lớp

(3)

20.2.4 Xác định hiệu suất

Sự xác phân lớp có thểđược đánh giá trực tiếp cách liệt kê hiệu suất dựa tập đối tượng kiểm tra biết Nếu tập kiểm tra đủ lớn để biểu diễn đối tượng lớn khơng có sai số, hiệu suất đánh giá hữu ích

Một phương pháp lựa chọn cho việc đánh giá hiệu suất sử dụng tập kiểm tra đối tượng biết để đánh giá PDF đặc trưng theo nhóm Từ PDF cho, ta sử dụng tham số phân lớp để tính tỷ lệ sai số mong muốn Nếu dạng tổng qt PDF kỹ thuật sử dụng tập kiểm tra kích thước mép tốt

Ta muốn có hiệu suất phân lớp tập huấn luyện phép đo toàn hiệu suất nó, đánh giá thường bị nghi ngờ tính lạc quan Một phương pháp tiếp cận tốt sử dụng tập kiểm tra riêng biệt việc đánh giá hiệu suất phân lớp Tuy nhiên, điều làm tăng đáng kể cần thiết liệu trước phân lớp

Nếu đối tượng phân lớp trước đánh giá cao, ta sử dụng thủ tục vịng ln chuyển mà phân lớp huấn luyện với hầu hết đối tượng sau đối tượng đóđược phân lớp Khi điều thực với tất đối tượng ta có đánh giá tồn hiệu suất thực phân lớp

20.3 CHỌN LỰAĐẶC TRƯNG

Trong toán nhạn dạng mẫu, ta thường phải đối mặt với côngviệc chọn lựa nhiều đặc trưng sẵn có, đặc trưng xác định thể phân lớp Bài toán chọn lựa đặc trưng nhận quan tâm đáng kể tài liệu, lại lên tình trạng không rõ ràng Phần dành cho độc vấn đề lý thú

Nhưđã lưu ý trước đây, ta tìm kiếm tập nhỏ đặc trưng tin cậy, độc lập phân biệt đối xử Nói chung, ta mong muốn làm suy giảm hiệu suất phân lớp đặc trưng đánh giá, đặc trưng hữu ích Thực tế, đánh giá nhiễu hay đặc trưng tương quan chặt thực cải tiến hiệu suất thực

Sau đó, chọn lựa đặc trưng coi q trình đánh giá vài đặc trưng kết hợp đặc trưng có liên quan khác, tập đặc trưng trở nên dễ sử dụng thực xác

Nếu tập đặc trưng giảm từMđặc trưng xuống cịn lượng N nhỏ hơn, tìm kiếm tập Nđặc trưng riêng biệt để tối thiểu hố tồn việc thực phân lớp

Một phương pháp tiếp cận cách lặp lặp lại thủ tục đơn giản nhiều lần để chọn lựa đặc trưng cho Đối với tất tập Nđặc trưng có, huấn luyện phân lớp, xác định hiệu suất cách liệt kê tỷ số phân lớp nhầm nhóm khác phân lớp Sau tạo số hiệu suất tổng thể hàm tỷ số lỗi Cuối cùng, sử dụng tập Nđặc trưng đóđể tạo số hiệu suất tốt

(4)

lặp lại thủ tục đơn giản nhiều lần khơng thực tế kỹ thuật tốn tiền phải sử dụng đểđạt mục đích

Trong phần thảo luận đây, xem xét trường hợp giảm toán hai đặc trưng xuống đặc trưng đơn giản Giả sử tập huấn luyện có sẵn chứa đối tượng M lớp khác Đặt Nj sốđối tượng lớp j Hai đặc

trưng xij yij thu xác định đối tượng thứi lớp j Ta khởi đầu

bằng việc tính giá trị trung bình đặc trưng lớp:

    j N i ij j xj x N 1  (1)     j N i ij j yj y N 1  (2)

Dấu mũ đầu xj yj nhắc ta đánh giá giá trị trung

bình lớp dựa tập huấn luyện, giá trị trung bình thật lớp

20.3.1 Độ lệch đặc trưng

Lý tưởng mà nói, đặc trưng phải nhận giá trị giống đối tượng lớp Độ lệch đặc trưng x lớp jđược đánh giá

            j N i xj ij j xj x N 2   (3)

và đặc trưng y

            j N i yj ij j yj y N 2   (4)

20.3.2 Tương quan đặc trưng

Sự tương quan đặc trưng x y lớp j có thểđược đánh giá

yj xj N i yj ij xj ij j xyj j y x N                           1 (5)

Đại lượng nằm -1 +1 Giá trị cho thấy hai đặc trưng không tương quan, giá trị gần +1 cho thấy mức đọ cao tương quan Giá trị -1 chứng tỏ biến tỷ lệ với giá trị âm biến khác Nếu độ lớn tương quan xấp xỉ 1, hai đặc trưng có thểđược kết hợp thành hay bỏđi hai đặc trưng

20.3.3 Khoảng cách phân tách lớp

Một phép tính xác đáng khả đặc trưng để phân biệt hai lớp khoảng cách độ lệch chuẩn hoá giá trị trung bình lớp Với đặc trưng

(5)

2

xk xj

xk xj xjk

D

 

  



 

 

(6)

trong j, k hai lớp Rõ ràng, đặc trưng cao đặc trưng tạo tách lớp phổ biến

20.3.4 Giảm chiều

Có nhiều phương pháp kết hợp hai đặc trưng x y thành đặc trưng zđơn lẻ Một phương pháp đơn giản sử dụng hàm tuyến tính (Xem phần 13.6.2.1)

by ax

z  (7)

Bởi hiệu suất phân lớp khơng bịảnh hưởng việc lấy tỷ lệđộ lớn đặc trưng, lợi dụng hạn chế vềđộ lớn, ví dụ

1 2

 b

a (8)

Biểu thức hợp với biểu thức (7) cách viết

  sin cos y x

z  (9)

trong đó biến rõ tỷ lệ x y biểu thức

Nếu đối tượng tập huấn luyện tương ứng với điểm không gian đặc trưng hai chiều (ví dụ mặt phẳng x, y), biểu thức (9) miêu tả điểm lên trục z, làm thành với trục x góc  Điều cho bảng 20-1 Rõ ràng,  phải chọn để tối thiểu hoá tách lớp hay tiêu chuẩn chất lượng đặc trưng Để hiểu thêm giảm chiều, độc giả nên tham khảo sách nói nhận dạng mẫu

HÌNH 20-1

Hình 20-1 Giảm chiều phép chiếu

20.4 SỰ PHÂN LỚP THỐNG KÊ

(6)

20.4.1 Lý thuyết định thống kê

Giả sử có tốn xếp trái đơn giản chương 18, với hai lớp đặc trưng đơn lẻ Nghĩa đối tượng thể thân chúng theo lớp (anh đào) lớp (táo) Đối với đối tượng, ta xác định tính chất, đường kính, ta gọi đặc trưng x

Có thể biết trước PDF đường kính xđối với hay hai lớp đối tượng Ví dụ, Hiệp hội nơng dân trồng anh đào phát hành tin mởđầu đường kính trung bình anh đào 20 mm PDF xẫpỉ hàm Gauss với độ lệch tiêu chuẩn mm Nếu khơng biết PDF đừng kính táo, ta có thểước lượng cách đo lượng lớn táo, vẽ lược đồ đường kính chúng tính trung bình độ lệch Sau chuẩn hố thành đơn vị diện tích có lẽ nên làm trơn, coi lược đồ ước lượng củaPDF tương ứng

20.4.1.1 Xác suất tiên nghiệm

Nói chung, khả lớp xuất khơng theo thứ tự Ví dụ, giả sử băng truyền ví dụ xếp trái biết, vận chuyển số anh đào nhiều gấp hai lần số táo chu kỳ vận hành Vì thế, ta nói xác suất tiên nghiệm hai lớp

   

3

2

2 

 P C

C

P i vµ (10)

Các biểu thức phát biểu đơn giản lớp có khả xuất gấp hai lần lớp Xác suất tiên nghiệm biểu diễn điều mà biết đối tượng trước xác định Trong ví dụ này, ta biết đối tượng chưa xác định anh đào có khả xuất gấp hai lần táo

Xác suất có điều kiện. Hình 20-2 trình bày hình dạng hai PDF Ta ký hiệu PDF có điều kiện đường kính anh đào P(x|C1), đọc “xác suất mà

đường kính x xuất hiện, biết xác suất xuất đối tượng thuộc lớp 1” Tương tự, P(x|C2) xác suất xuất đường kính x, biết xác suất xuất

hiện lớp

HÌNH 20-2

Hình 20-2 Các PDF có điều kiện

20.4.1.2 Định lý Bayes

(7)

các PDF có điều kiện để chứng tỏ hiểu biết ta thành viên lớp đối tượng Sau xác định, gọi xác suất hậu nghiệm để đối tượng thuộc lớp i cho định lý Bayes; tức là,

     

 x

p C P C x p x C

P i i i

|

|  (11)

trong

         | i i i PC

C x p x

p (12)

là hệ số chuẩn hoá cần thiết để tạo thành tổng xác suất hậu nghiệm có tổng

Định lý Bayes cho phép ta kết hợp xác suất tiên nghiệm thành viên lớp, PDF có điều kiện phép đo cần thiết để tính tốn, lớp, xác suất để xác định đối tượng thuộc lớp Với thông tin dã cho này, ta có thểấn định đối tượng với lớp có khả chứa nhiều Trong ví dụ xếp trái cây, ta ấn định đối tượng cho lớp (ví dụ, ta gọi anh đào)

C x PC x

P 1|  2 | (13)

và ấn định cho lớp (táo) trái lại Thay thếđịnh lý Bayes [biểu thức (10)] vào biểu thức (13) nhân với mẫu số chung, ta

x|C1  PC1 px|C2  P C2

p  (14)

giống nhưđiều kiện giảđịnh lớp chứa trái đường kính x Tại ngưỡng định, biểu thức (14) xuất dấu đẳng thức, ta có thểấn định đối tượng cho lớp tuỳ ý Bộ phân lớp định nghĩa quy tắc định phân lớp tối đa (maximun-likelihood)

Trường hợp tổng quát. Giả sử ta không tiến hành mà n phép tính đối tượng Thay giá trịđặc trưng đơn lẻ, ta có vec tơ đặc trưng [x1, x2, …, xn]T, đối tượng xác định tương ứng với điểm

trong không gian đặc trưng n chiều Cũng giả thiết khơng phải có hai mà m lớp đối tượng Với điều kiện đó, xác suất tiên nghiệm thành viên lớp i theo định lý Bayes

             m i i n i i n n i Ci P C x x x p C P C x x x p x x x C p 2 | , , , | , , , , , , | (15)

trong PDF có điều kiện n chiều 20.4.1.3 Rủi ro Bayes

Mỗi ta ấn định đối tượng cho lớp, điều rủi ro ta tạo sai lạc Trong toán đa lớp, vài phân lớp nhầm gây tai hại điều khác Một phương pháp đưa để làm sáng tỏ, hàm giá

Đặt lij giá (hay “sự mát”) việc ấn định đối tượng vào lớp i

thực thuộc vào lớp j Thường lij nhận giá trị với định xác

(8)

Giả sử ta xác định đối tượng ấn định cho lớp i Mất mát xảy từ giả định rủi ro có điều kiện

    



m j

n j

ij n

i x x x l pC x x x

C R

1

2

1, , , | , , ,

| (16)

là giá lấy trung bình tồn m nhóm thực chứa đối tượng Vì vậy, cho vec tơđặc trưng, có rủi ro hàm ý việc ấn định đối tượng cho nhóm

20.4.1.4 Quy tắc Bayes

Quy tắc định Bayes phát biểu đối tượng phải ấn định cho lớp mà lớp tạo rủi ro có điều kiện nhỏ Nếu thực quy tắc này, ta có thểđặt Rm(x1, x2, …, xn) rủi ro nhỏ tương ứng với vec tơđặc trưng

[x1, x2, …, xn]T Toàn rủi ro dài hạn hoạt động phân lớp với quy

tắc định Bayes gọi rủi ro Bayes Điều có cách tích phân hàm rủi ro tồn khơng gian đặc trưng

   



 Rm x x xn p x x xn dxdx dxn

R 1, 2, , 1, 2, , (17)

Rõ ràng, khơng có quy tắc khác giảm Rm(x1, x2, …, xn)

điểm rủi ro tồn bộđược tối thiểu hố quy tắc định Bayes

20.4.2 Các loại phân lớp

Đó điều cần thiết để phân loại phân lớp khác sở biết tảng thống kê phải đánh giá

Các phân lớp tham số không tham số Nếu biết dạng hàm PDF có điều kiện, vài tham số hàm mật độ (giá trị trung bình, độ biến thiên,…) chưa biết, phân lớp gọi tham số Bởi xác suất tiên nghiệm tham số, nên chúng chưa biết Với phân lớp tham số, dạng hàm PDF có điều kiện sẽđược giả thiết, sở tảng tri thức thân đối tượng Thường dạng hàm giả thiết cho mục đích tốn học lý thiết yếu

Nếu chưa biết dạng hàm vài hay tất PDF có điều kiện, phân lớp gọi không tham số Nghĩa tất PDF có điều kiện phải đánh giá từ tập liệu huấn luyện Để làm điều cần có nhiều liệu viêc đánh giá đơn vài tham số PDF biết dạng hàm Vì thế, kỹ thuật khơng tham số sử dụng kiẻu tham số thích hợp khơng có sẵn khối lượng liệu huấn luyện nằm phạm vi

20.4.3 Đánh giá tham số huấn luyện phân lớp

Q trình đánh giá PDF có điều kiện hay tham số chúng dùng kích thước đối tượng biết với tên huấn luyện phân lớp

20.4.3.1 Huấn luyện có giám sát khơng có giám sát

(9)

sát thường chỉđược sử dụng khơng thuận tiện hay khơng có khả để có tập huấn luyện trước phân lớp hay số lớp đặc trưng lớp chưa xác định

Ởđây nói hai phương pháp tiếp cận thường dùng với huấn luyện có giám sát: kỹ thuật có thểđúng tối đa kỹ thuật Bayes Trong hai kỹ thuật khác tính triết học, chúng thường tạo kết tương tự Các kết giống đến mức tuỳ thuộc vào tình đặc biệt

20.4.3.2 Đánh giá tối đa

Tiếp cận sựđánh giá tối đa giả thiết tham số đánh giá ổn định chưa biết Một mẫu cho (tập huấn luyện) vẽ tham số đánh giá coi giá trị làm cho xuất tập huấn luyện có khả xảy

Ví dụ, giả thiết 100 mẫu vẽ từ phân bố chuẩn giá trị trung bình, với độ lệch tiêu chuẩn Giả thiết thêm giá trị trung bình 100 mẫu 12 Dĩ nhiên, phù hợp 100 mẫu có từ nhóm mẫu có giá trị trung bình 12 có từ nhóm mẫu có giá trị trung bình tình sau có khả năng, yêu cầu trùng khớp kiện xảy Nó chứng tỏ giá trị trung bình nhóm mẫu mà tạo giá trị mẫu quan sát trung bình có khả xảy 12

Đánh giá có thểđúng tối đa đề tài phát triển toàn diện nằm ngồi tầm kiểm sốt Ởđây giới thiệu khái niệm trích dẫn kết mà đánh giá có thểđúng tối đa giá trị trung bình độ lệch tiêu chuẩn phân bố chuẩn trung bình mẫu độ lệch tiêu chuẩn mẫu nhiều người biết đến

20.4.3.3 Ước lượng Bayes

Không giống đánh giá tối đa, tiếp cận Bayes coi tham số chưa biết biến ngẫu nhiên Hơn nữa, giả thiết biết chút tham số chưa biết trước Ước lượng Bayes giả thiết tham số chưa biết có PDF tiên nghiệm biết, hay giả thiết biết, trước nhận mẫu Sau xác định tập huấn luyện, định lý Bayes sử dụng phép giá trị mẫu cập nhật, hay cải tiến, PDF tiên nghiệm Điều mang lại PDF hậu nghiệm giá trị tham số chưa biết Chúng ta hy vọng PDF có đỉnh hẹp đơn lẻ, tập trung vào giá trị thật tham số

Một ví dụ vềước lượng Bayes, giả sử muốn ước lượng trung bình phân bố chuẩn với biến thiên biết Trước xác định tập huấn luyện, sử dụng nhận thức có sẵn để thiết lập PDF tiên nghiệm giá trị trung bình biết Ta gọi hàm mật độ tiên nghiêm p()

Ta ký hiệu dạng hàm biết PDF với giá trị trung bình chưa biết p(x|) Điều phát biểu rằng, cho trước giá trịđối với , ta biết p(x) Nếu X biểu diễn tập giá trị mẫu thu việc xác định tập huấn luyện, định lý Bayes sinh PDF hậu nghiệm  sau tập huấn luyện xác định:

     

   





  

d p X p

p X p X

p

| |

(10)

Cái mà thực muốn p(x|X), ước lượng tốt mật độ p(x), cho trước kích thước tập huấn luyện X Một cách đểđạt ước lượng thiết lập PDF chung (hai chiều) hai x  với tích phân theo ; tức là,

    

 

 p x  X d

X x

p | , | (19)

Mật độ chung tích phân viết tích hai PDF chiều độc lập Biểu thức (19) trở thành

      

 

 p x  p  X d

X x

p | | | (20)

Đây kết mong muốn, p(x|) dạng hàm giảđịnh p(|X) PDF hậu nghiệm giá trị trung bình chưa biết từ biểu thức (18)

Ví dụ. Để hiểu tác động p(x|) lên p(x|X) nào, giả sử p(|X) có đỉnh nhọn đơn lẻ  = 0 Nghĩa nhận thức trước kết

hợp với tập huấn luyện để xác định  phạm vi giới hạn hẹp xung quanh giá trị

0 Nếu đỉnh đủ nhọn xấp xỉ hố p(|X) xung 0:

|X 0

p (21)

Thì biểu thức (20) trở thành

      



 

 p x     d

X x

p | | (22)

Theo tính chất chọn lọc xung, biểu thức

x|X px|0

p  (23)

Biểu thức phát biểu 0là ước lượng tốt giá trị trung bình chưa

biết

Nói cách khác, giả sử phân bố hậu nghiệm giá trị trung bình chưa biết, p(|X), có đỉnh tương đối rộng xung quanh 0 Trong trường hợp này,

p(x|X) trở thành trung bình trọng số nhiều PDF, tất có giá trị trung bình khác lân cận 0 Điều có tác dụng làm mờ hay mở rộng

p(x|X) để phản ánh tính khơng chắn giá trị trung bình

Nhưđã nói đến trước đây, ước lượng có thểđúng tối đa ước lượng Bayes tạo kết tương tự, không giống nhau, nhiều trường hợp thường gặp Ví dụ, hai phương pháp tiếp cận có xu hướng thiết lập giá trị trung bình chưa biết giá trị trung bình tập huấn luyện Ước lượng Bayes cho phép ta kết hợp tri thức tiên nghiệm mà ta có với liệu xác định tập huấn luyện đểước lượng tham số chưa biết Hơn nữa, độ rộng p(|X) dấu hiệu cho biết mức độ ta ước lượng tham số chưa biết

Định dạng
Số trang	10
Dung lượng	265,46 KB