tiểu luận môn xử lý ảnh số object recognition

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG  TIỂU LUẬN MÔN: XỬ LÝ ẢNH SỐ Giảng viên : TS. Ngô Văn Sỹ Học viên : Võ Văn Triều Chuyên ngành : Kỹ thuật điện tử Khoá : K26 Đà Nẵng, năm 2013 Chương 12: Object Recognition 2. Nhận dạng dựa trên phương pháp Decision-Theoretic Phương pháp Decision-Theoretic nhận dạng dựa trên việc sử dụng hàm quyết định (hàm biệt thức) . Đặt là một vector mẫu n chiều như đã thảo luận ở 12.1. Đối với W nhóm mẫu :, vấn đề cơ bản trong phương pháp nhận dạng sử dụng Decision-Theoretic là tìm ra W hàm quyết định thỏa mãn tính chất: nếu một mẫu x thuộc nhóm thì: j=1,2,…,W; (12.2-1) Nói cách khác, một mẫu x bất kì được cho rằng thuộc nhóm mẫu thứ i, nếu khi thay x vào tất cả các hàm quyết định, cho giá trị lớn nhất. Ranh giới quyết định phân chia nhóm với được cho bởi giá trị của x sao cho . Hay tương đương: (12.2-2) Do đó: với mẫu của nhóm , và với mẫu của nhóm . Mục đích của các thảo luận trong phần này là nhằm phát triển các phương pháp khác nhau để tìm ra hàm quyết định thỏa mãn (12.2-1). 12.2.1. Khớp nối: Kỹ thuật nhận dạng dựa trên trùng khớp biểu diễn mỗi nhóm bởi một vector nguyên mẫu. Một mẫu bất kì được xác định thuộc về nhóm gần nhất dựa theo metric được định nghĩa trước, Phương pháp đơn giản nhất là phân loại khoảng cách tối thiểu, tức là tính toán khoảng cách Euclid giữa vector chưa xác định và vector nguyên mẫu, từ đó chọn ra khoảng cách nhỏ nhất. Chúng ta cũng sẽ bàn về một phương pháp dựa trên sự tương quan, mà ta có thể lập được công thức một cách trực tiếp dựa vào các hình ảnh, và nó cũng khá trực quan. Phân loại khoảng cách tối thiểu: Giả sử ta định nghĩa nguyên mẫu của mỗi nhóm mẫu là vector trung bình của các mẫu trong nhóm đó: j=1,2,…,W (12.2-3) Trong đó là số vector mẫu của nhóm , và tổng được tính qua các vector này. Như đã đề cập, một cách để tìm ra nhóm của vector x là gán nó vào nhóm có khoảng cách Euclid gần nhất: j=1,2,…,W (12.2-4) Với . Từ đó ta sẽ kết luận x thuộc nhóm nếu là khoảng cách nhỏ nhất. Khoảng cách nhỏ nhất đó sẽ dẫn đến sự trùng khớp tốt nhất cho việc thiết lập công thức. Không khó để chứng minh (bài toán 12.2) rằng việc lựa chọn khoảng cách nhỏ nhất tương đương với đánh giá hàm: j=1,2,…,W (12.2-5) Và x sẽ được kết luận thuộc nhóm nếu cho giá trị lớn nhất. Công thức này phù hợp với tư tưởng cơ sở của hàm quyết định được định nghĩa trong (12.2-1). Từ công thức (12.2-2) và (12.2-5), ranh giới quyết định giữa nhóm và cho việc phân loại khoảng cách tối thiểu là: (12.2-6) Bề mặt cho bởi phương trình (12.2-6) là đường chia trực giao của đoạn thẳng nối giữa và . Với n=2, nó là một đường thẳng, với n=3 nó là một mặt phẳng, và với n>3 nó là một hyperplane. Hình 12.6 biểu diễn 2 nhóm mẫu trích từ hình 12.1. Hai nhóm Iris versicolor và Iris setosa biểu thị tương ứng cho và , có vector lấy mẫu trung bình và . Từ phương trình (12.2-5), hàm quyết định sẽ là: Hình 12.6: Ranh giới quyết định của sự phân loại giữa các nhóm Iris versicolor và Iris setosa. Dấu chấm và hình vuông tô đậm là các điểm trung bình Từ phương trình (12.2-6), đường ranh giới sẽ có phương trình: Hình 12.6 biểu diễn hình đương ranh giới này (các trục có tỉ lệ khác nhau). Thay bất kì vector mẫu nào từ nhóm vào ta sẽ được . Ngược lại, bất kì mẫu nào từ sẽ cho . Nói cách khác, khi cho một mẫu chưa xác định thuộc 1 trong 2 nhóm này, dấu của sẽ giúp cho việc xác định mẫu đó thuộc về nhóm nào. Trong thực tế, việc phân loại khoảng cách tối thiểu hoạt động tốt khi khoảng cách giữa các giá trị trung bình là lớn so với sự phân bố ngẫu nhiên của các nhóm tương ứng với các giá trị trung bình đó. Trong phần 12.2.2 ta chứng minh rằng sự phân loại khoảng cách tối thiểu sẽ mang lại hiệu quả tối ưu khi sự phân bố về giá trị trung bình của mỗi nhóm có dạng hình cầu “hypercloud” trong không gian mẫu n chiều. Việc xảy ra đồng thời trung bình có giá trị lớn và sự trải nhóm có giá trị nhỏ hiếm khi xảy ra, trừ khi người thiết kế hệ thống cố ý can thiệp vào ngõ vào. Ví dụ: một hệ thống được thiết kế để đọc các font chữ được cách điệu, như bộ font chữ E-13B của hội lien hiệp ngân hàng Mĩ trong hình 12.7 , bộ này gồm 14 ký tự được thiết kế có chủ đích trên lưới ô 9x7 nhằm thuận tiện cho việc đọc. Những ký tự này thường được in bằng mực có chứa vật liệu nhiễm từ tốt. Trước khi được đọc, loại mực này sẽ được đưa vào một từ trường, điều này sẽ làm nổi bật mỗi ký tự để đơn giản hóa việc phát hiện. Nói cách khác, vấn đề phân đoạn được giải quyết bằng cách làm nổi bật các đặc tính chính của mỗi ký tự. Hình 12.7: Bộ font ký tự E-12B của hội liên hiệp ngân hàng Mĩ và các dạng sóng tương ứng Các ký tự thường được quét theo chiều ngang với một đầu đọc khe đơn hẹp nhưng cao hơn so với ký tự. Khi đầu đọc di chuyển qua ký tự, nó sẽ tạo ra tín hiệu điện 1 chiều tăng hoặc giảm tương ứng với vùng ký tự nằm dưới đầu đọc. Ví dụ xét dạng sóng tương ứng với số 0 trong hình 12.7, khi đầu đọc di chuyển từ trái sang phải, vùng được nhìn thấy bởi đầu đọc bắt đầu tăng dần lên, tạo ra một vi phân dương (mức thay đổi dương). Khi đầu đọc bắt đầu rời cạnh trái của số 0, vùng được nhìn thấy bởi đầu đọc bắt đầu giảm, tạo ra một vi phân âm. Khi đầu đọc đến vùng giữa của ký tự, vùng được đọc giữ nguyên, tạo ra một vi phân 0. Mẫu này lặp lại khi đầu đọc tiến vào cạnh phải của ký tự. Thiết kế này đảm bảo dạng sóng của mỗi ký tự là riêng biệt. Nó cũng đảm bảo rằng các đỉnh và zero của mỗi dạng sóng xảy ra gần như là trên một đường thẳng đứng của lưới nền dùng biểu diễn các dạng sóng đó. Font E-13B có tính chất: việc lấy mẫu các dạng sóng tại các điểm sẽ cung cấp đầy đủ thông tin cho việc phân loại. Việc dùng mực nhiễm từ giúp tạo ra các dạng sóng sạch, do đó tối thiểu hóa sự phân tán. Việc thiết kế một bộ phân loại khoảng cách tối thiểu cho ứng dụng này là không khó. Ta chỉ việc lưu trữ các giá trị mẫu của mỗi dạng sóng và đặt mỗi bộ giá trị mẫu biểu diễn một vector nguyên mẫu , j=1,2,…,14. Khi một ký tự chưa biết cần được phân loại, phương pháp là quét nó theo cách đã mô tả, biểu diễn trên lưới, lấy mẫu dạng sóng để thu đươc vector x, và xác định nhóm của nó bằng cách chọn nhóm của vector nguyên mẫu cho giá trị cao nhất như ở phương trình (12.2-5). Việc phân loại tốc đô cao có thể được thực hiện nhờ vào các mạch analog tạo nên bởi các dải điện trở( xem 12.4). Khớp nối bằng sự tương quan: Chúng ta đã giới thiệu các khái niệm cơ bản về sự tương quan hình ảnh trong 4.6.4. Ở đây ta sẽ dùng nó làm cơ sở để tìm sự trùng khớp của một ảnh phụ w(x,y) có kích thước JxK trong một ảnh f(x,y) có kích thước MxN, với giả thiết và . Mặc dù phương pháp tương quan có thể được biểu diễn dưới dạng vector (xem 12.5), nhưng việc tính toán trên ảnh hoặc ảnh phụ sẽ trực quan hơn. Ở dạng đơn giản nhất, sự tương quan giữa f(x,y) và w(x,y) là: (12.2-7) Với x=0,1,…,M-1 y=0,1,…,N-1 Tổng trên được lấy trong vùng ảnh f và w chồng lên nhau. Chú ý rằng khi so sánh phương trình này với phương trình (4.6.30), hoàn toàn giả thiết các hàm số là thực và ta loại trừ hằng số MN. Lý do là ta sẽ dùng một hàm số được chuẩn hóa mà trong đó các hằng số bị loại bỏ, và định nghĩa được cho bởi phương trình (12.2-7) được dùng thường xuyên trong thực tế. Ta cũng dùng ký hiệu s và t trong phương trình (12.2-7) để tránh nhầm lẫn với m và n, sẽ được sử dụng cho mục đích khác trong chương này. Hình 12.8 minh họa cho qui trình này,với giả thiết gốc của f nằm ở phái trên bên trái, còn gốc của w nằm tại tâm của nó. Với một giá trị của (x,y) trong f, ví dụ , áp dụng phương trình (12.2-7) ta sẽ có một giá trị của c. Khi x và y thay đổi, w di chuyển quanh khu vực ảnh, cho ta hàm c(x,y). Các gía trị lớn nhất của c biểu thị vị trí mà w trùng khớp nhất với f. Chú ý rằng điều này không chính xác tại các giá trị của x,y gần cạnh của f. Hình 12.8:Sự sắp xếp để đạt được sự tương quan của f và w tại điểm Hàm tương quan cho bởi phương trình (12.2-7) có nhược điểm là nhạy với sự thay đổi biên độ của f và w. Ví dụ khi gấp đôi tất cả giá trị của f sẽ làm giá trị của c(x,y) tăng gấp đôi theo. Một phương pháp thường được dùng để khắc phục điều này là thực hiện việc khớp nối thông qua các hệ số tương quan, được định nghĩa như sau: (12.2-8) Với x=0,1,…,M-1 y=0,1,…,N-1 là giá trị trung bình của các pixel trong w (chỉ tính 1 lần) là giá trị trung bình của f trong vùng trùng khớp với vị trí hiện tại của w, và các tổng được lấy qua các tọa độ chung của f và w Hệ số tương quan sẽ nằm trong khoảng (-1,1), phụ thuôc vào tỉ lệ thay đổi biên độ của f và w (xem 12.5). Hình 12.9 minh họa cho các khái niệm vừa trình bày. Hình 12.9(a) là f(x,y) và 12.9(b) là w(x,y), 12.9(c) biểu diễn hệ số tương quan . Giá trị cao hơn của (sáng hơn) là tại vị trí trùng khớp nhất của f và w (a) (b) (c) Hình 12.9 Mặc dù hàm tự tương quan có thể được chuẩn hóa đối với sự thay đổi biên độ thông qua hệ số tương quan, nhưng việc đạt được sự chuẩn hóa đối với sự thay đổi về kích thước và hướng quay là không dễ. Việc chuẩn hóa đối với kích thước bao gồm việc lấy tỉ lệ không gian, một quá trình đòi hỏi khối lượng tính toán không nhỏ. Nếu một đầu mối về hướng quay có thể được trích ra từ f(x,y) thì ta có thể quay w(x,y) để làm nó thẳng hướng với góc quay trong f(x,y). Tuy nhiên, nếu không biết trước được góc quay nguyên gốc, thì ta phải xét mọi góc quay của w(x,y) để tìm ra kết quả tốt nhất. Việc này là không thực tế, và kết quả là sự tương quan ít khi được dùng trong trường hợp có góc quay bất kì. Trong phần 4.6.4 ta đã nhấn mạnh rằng sự tương quan có thể được sử dụng trong miền tần số thông qua phép biến đổi Fourier nhanh. Nếu f và w cùng kích cỡ, phương pháp này sẽ hiệu quả hơn tính toán trực tiếp sự tương quan trong miền không gian. Phương trình (12.2-7) được dùng khi w nhỏ hơn nhiều so với f. Một đánh giá cân bằng thực hiện bởi Campbell [1969] chỉ ra rằng, nếu số lượng phần tử khác không trong w nhỏ hơn 132 (ảnh phụ kích thước 13x13), thì việc thực thi phương trình (12.2-7) trực tiếp sẽ hiệu quả hơn phương pháp dùng biến đổi Fourier nhanh. Tất nhiên con số này tùy thuộc vào máy móc và thuật toán được sử dụng, nhưng nó đã chỉ ra kích thước xấp xỉ của ảnh phụ mà tại đó miền tần số nên được cân nhắc như một giải pháp thay thế. Các hệ số tương quan khó tính toán hơn trong miền tần số. Nó thường được tính trực tiếp trong miền không gian. 12.2.2. Phân loại thống kê tối ưu: Trong phần này ta sẽ phát triển một phương pháp nhận dạng mang tính xác suất. Một điều thực tế là trong hầu hết các lĩnh vực, khi đo đạc hoặc giải thích các sự kiện, việc tính toán xác suất là rất quan trọng khi nhận dạng mẫu, do sự xảy ra ngẫu nhiên của các nhóm mẫu. Thiết lập Xác suất một mẫu x thuộc về nhóm được biểu thị bằng . Nếu phán định rằng x thuộc nhóm trong khi thật ra nó thuôc nhóm , nó sẽ chịu một rủi ro, biểu thị . Khi mà x có thể thuộc một trong W nhóm đang xét, rủi ro trung bình phải gánh chịu khi phán định x thuôc nhóm là (12.2-9) Phương trình này thường được gọi là rủi ro trung bình có điều kiện. Từ lý thuyết xác suất cơ bản, ta biết rằng Dùng khai triển này ta viết (12.2-9) dưới dạng (12.2-10) Với là hàm mật độ xác suất của nhóm và là xác suất xảy ra nhóm . Do dương và giống nhau cho tất cả , j=1,2,…,W, nó có thể được bỏ qua trong phương trình (12.2-10) mà không gây ảnh hưởng đến hàm này khi xét các giá trị cực tiểu và cực đại. Khai triển này trở thành: (12.2-11) Từ một mẫu chưa biết cho trước, ta có W nhóm để lựa chọn khi tiến hành phân loại. Nếu tính cho mỗi mẫu x và gán nó vào nhóm có độ rủi ro thấp nhất, tổng rủi ro trung bình cho tất cả các quyết định sẽ là nhỏ nhất. Việc phân loại làm tối thiểu hóa tổng rủi ro trung bình này gọi là phân loại Bayes. Do đó phân loại Bayes phán định một mẫu x thuộc nhóm nếu: (12.2-12) Với mọi Rủi ro cho một quyết định đúng được gán giá trị 0 và giá trị 1 cho quyết định sai. Khi đó hàm rủi ro trở thành: (12.2-13) Với nếu i=j và nếu . Phương trình (12.2-13) cho thấy rủi ro cho các quyết định sai là 1, và các quyết định đúng có rủi ro là 0. Thay (12.2-13) vào (12.2-11) ta được: = (12.2-14) Phân loại Bayes sẽ gán mẫu x vào nhóm , nếu với mọi : (12.2-15) Hoặc tương đương: (12.2-16) So sánh với phương trình (12.2-1), ta thấy rằng phân loại Bayes chỉ là sự tính toán hàm quyết định dưới dạng: (12.2-17) Vector mẫu x sẽ được gán vào nhóm có giá trị hàm quyết định lớn nhất. Hàm quyết định cho bởi phương trình (12.2-7) tối ưu theo hướng tối thiểu hóa rủi ro trung bình khi phân loại sai. Tuy nhiên cần biết được hàm mật độ xác suất của các mẫu trong mỗi nhóm, cũng như xác suất xảy ra của mỗi nhóm. Yêu cầu thứ 2 thường không khó thỏa mãn. Ví dụ: nếu khả năng xuất hiện của tất cả các nhóm là như nhau thì . Ngay cả khi điều kiện này không đúng, các xác suất đó cũng có thể được suy ra từ các dữ liệu của bài toán. Việc đánh giá hàm mật độ xác suất là một vấn đề khác. Nếu vector mẫu x là vector n chiều, thì là hàm n biến. mà nếu chưa biết được dạng của nó, thì ta sẽ cần đến lý thuyết xác suất đa biến để ước lượng. Phương pháp này khó ứng dụng trong thực tế, đặc biệt nếu số mẫu hiện diện của mỗi nhóm là không lớn hoặc dạng của hàm mật độ xác suất khó xác định. Do đó, sử dụng phân loại Bayes thường dựa trên giả định của một biểu thức phân tích cho các hàm mật độ khác nhau, sau đó ước lượng các thông số cần thiết từ các mẫu được lấy từ mỗi [...]... thay đổi trọng số tương ứng được thực hiện Qui trình này cũng áp dụng cho các trọng số nền Như đã thảo luận, nó đơn giản được xem như các trọng số điều chỉnh đầu vào đơn vị thành mối tổng hợp của tất cả các nút trong mạng Thực tế phổ biến là để theo dõi các sai số mạng , cũng như các sai số liên quan đến các mẫu riêng biệt Trong một bài huấn luyện thành công , sai số mạng giảm với số lần lặp lại... chỉnh trọng số trong mỗi lớp theo cách tìm kiếm một hàm sai lệch cực tiểu của các dạng thể hiện trong phương trình (12.2-51) Như trước đây, việc điều chỉnh trọng số tương ứng với đạo hàm từng phần của sai số liên quan đến trọng số đạt được với kết quả này Nói cách khác, (12.2-52) với lớp P đứng trước lớp Q, được định nghĩa trong phương trình (12.2-42), và là một số gia điều chỉnh dương Sai số là một... thế Có ngõ vào cho mỗi nút trong lớp J, nhưng mỗi ngõ vào riêng có thể được đặt trọng số khác nhau Do đó, ngõ vào của nút đầu tiên trong lớp J được đặt trọng số bằng hệ số , k = 1,2, , ; đầu vào cho nút thứ hai được được đặt trọng số bằng hệ số , k = 1,2, , , và cứ thế Do đó cần tổng cộng x hệ số để xác định trọng số của các đầu ra của lớp K khi chúng được đưa vào lớp J Ngoài ra còn cần thêm để xác... như hình 12.19 Số nút nơron trong lớp đầu tiên được chọn là 48, tương ứng với số chiều của các vectơ mẫu đầu vào Bốn nơron trong lớp thứ ba (đầu ra) tương ứng với số lượng các lớp mẫu, và số nơron trong lớp giữa được quy định là 26 ( mức trung bình của số nơron trong các lớp ngõ vào và ngõ ra) Không có quy tắc nào để qui định số nút trong các lớp bên trong của một mạng nơron, vì vậy con số này thường... mong muốn cho Tham số bây giờ có thể tính được bởi vì tất cả các phần tử của nó được biết đến Do đó phương trình ( 12.2-62 ) và ( 12.2-67 ) thiết lập hoàn toàn các quy luật huấn luyện cho lớp P Tầm quan trọng của phương trình ( 12.2-67 ) là nó tính từ số lượng và đó là những thuật ngữ được tính toán trong lớp ngay sau lớp P Sau khi sai số và trọng số đã được tính toán cho lớp P , những số lượng có thể... dụng theo cách tương tự để tính toán sai số và trọng số cho các lớp ngay trước lớp P Nói cách khác, chúng ta đã tìm thấy một cách để truyền các sai số ngược trở lại vào mạng, bắt đầu với các sai số tại lớp ra Chúng tôi có thể tổng hợp và khái quát hóa các qui trình huấn luyện như sau Đối với bất kỳ lớp K và J, với K là lớp ngay trước lớp J , tính toán trọng số điều chỉnh các kết nối giữa hai lớp, bằng... đang xét ở bước thứ k trong chuỗi huấn luyện bị phân loại nhầm Số gia hiệu chỉnh c được giả thiết là một hằng số dương Thuật toán hội tụ khi cả tập huấn luyện cho 2 nhóm được phân loại mà không có sai sót nào Thuật toán hội tụ sau 1 số bước hữu hạn nếu 2 tập huấn luyện của các mẫu là tách biệt tuyến tính Một chứng minh của kết quả này, gọi là lý thuyết huấn luyện perceptron, có thể được tìm thấy trong... nghĩa là cực tiểu tương ứng với sự phân loại đúng Nếu w(k) biểu diễn vector trọng số tại bước lặp thứ k, 1 thuật toán hạ thấp gradient tổng quát sẽ được viết như sau: (12.2-38) Với w(k+1) là giá trị mới của w, và Từ phương trình (12.2-37): (12.2-39) Trừ vào phương trình (12.2-38) ta có: (12.2-40) Với vector trọng số ban đầu w(1) tùy ý Bằng cách định nghĩa sự thay đổi (delta) ở vector trọng số: (12.2-41)... hình 12.14(a), offset trong hình 12.17 tương tự với hệ số trong phần trước về perceptron Điều này cho thấy rằng hàm ngưỡng có thể được thực hiện dưới dạng hình 12.14(a) bằng cách lấy offset làm hệ số bổ sung để điều chỉnh ngõ vào hằng số thống nhất cho tất cả các nút mạng Để tuân theo các ký hiệu chủ yếu trong các tài liệu, ta sẽ không chỉ ra một hằng số ngõ vào riêng biệt có giá trị +1 cho tất cả các... có giá trị +1 cho tất cả các nút trong hình 12.16 Thay vào đó, đầu vào và các trọng số được điều chỉnh của nó là một phần không thể thiếu của các nút mạng Như đã nêu trong hình 12.16, có một hệ số như vậy cho mỗi nút trong số nút trong lớp J Trong hình 12.16, đầu vào cho một nút trong bất kỳ lớp nào là tổng có trọng số của ngõ ra từ các lớp trước Gọi lớp K là lớp trước lớp J (không có thứ tự chữ cái . HỌC ĐÀ NẴNG  TIỂU LUẬN MÔN: XỬ LÝ ẢNH SỐ Giảng viên : TS. Ngô Văn Sỹ Học viên : Võ Văn Triều Chuyên ngành : Kỹ thuật điện tử Khoá : K26 Đà Nẵng, năm 2013 Chương 12: Object Recognition 2. Nhận. trình (4.6.30), hoàn toàn giả thiết các hàm số là thực và ta loại trừ hằng số MN. Lý do là ta sẽ dùng một hàm số được chuẩn hóa mà trong đó các hằng số bị loại bỏ, và định nghĩa được cho bởi. con số này tùy thuộc vào máy móc và thuật toán được sử dụng, nhưng nó đã chỉ ra kích thước xấp xỉ của ảnh phụ mà tại đó miền tần số nên được cân nhắc như một giải pháp thay thế. Các hệ số tương

Định dạng
Số trang	37
Dung lượng	1,78 MB