sự khác nhau từ ma trận Cooc11, Cooc10, Cooc01 và Cooc00. Công thức khoảng cách được tính như sau:
dist(T1, T2)= j i T T i j Cooc i j Cooc , 2 2 1(, ) 11 (, )) 11 ( j i T T i j Cooc i j Cooc , 2 2 1(, ) 10 (, )) 10 ( j i T T i j Cooc i j Cooc , 2 2 1(, ) 01 (, )) 01 ( j i T T i j Cooc i j Cooc , 2 2 1(, ) 00 ( , )) 00 (
Trên đây là những phương pháp phát hiện chất liệu một cách cơ sở nhất. Tiếp theo là các phương pháp nâng cao hiệu suất phát hiện.
2.4 Cách tiếp cận Mạng Nơron
Ngày nay, những nghiên cứu của ngành trí tuệ nhân tạo không ngừng phát triển theo nhiều hướng khác nhau. Một trong những hướng hay được sử dụng hiện nay là mạng Nơron. Với cơ chế mô phỏng các Nơron trong bộ não con người, các Nơron rất đơn giản trong cơ chế làm việc nhưng khi kết hợp lại với nhau lại có khả năng tính toán, suy nghĩ, ghi nhớ và điều khiển.
Mạng nơron là một hệ thống gồm nhiều phần xử lý đơn giản- các nơron, liên kết với nhau và hoạt động song song. Khả năng hoạt động của hệ thống phụ thuộc vào cấu trúc của hệ, các mối liên kết giữa các nơron và quá trình xử lý bên trong của các nơron. Mạng nơron có khả năng học dữ liệu và tổng quát hóa từ các số liệu đã luyện, nhớ, ngoại và nội suy, và quan trọng nhất đối với nhận dạng hay phát hiện là khả năng phân lớp mạnh của nó.
Qua thời gian, lớp các mô hình và các thuật toán luyện đi kèm với nó đã được phát triển rất nhanh và đa dạng làm cho lý thuyết và công nghệ mạng nơron cũng như khả năng ứng dụng của chúng thật sự phong phú. Trước hết
ta có thể tìm hiểu sơ qua về ý tưởng phương pháp mạng nơron trong phát hiện đối tượng.
2.4.1 Mô hình Mạng Nơron nhân tạo
Một nơron nhân tạo (đơn vị xử ý -PE) phản ánh các tính chất cơ bản của nơron sinh học và được mô phỏng dưới dạng sau:
Nơron nhân tạo có n tín hiệu vào xi , i=1, 2,…, n và một tín hiệu ra y. Trạng thái bên trong của nơron được xác định qua bộ tổng các đầu vào với các trọng số liên kết wi (i=1, 2, …, n). Đầu ra của nơron được xác định qua hàm phi tuyến nào đó. Hình vẽ dưới đây cho ta một hình dung về nơron nhân tạo.
x1
wj1
x2 wj2 yj
wjn
xn Hình 2.10. Nơron nhân tạo j
Như vậy mô hình định lượng của nơron nhân tạo có dạng:
) ) ( ( ) ( 1 n i i ix t w f t y (2.1) Với n i i ix t I t w
Net ( ) ( )là tín hiệu tổng hợp đầu vào. wi - trọng số liên kết, i=1,2,…, n
- ngưỡng kích hoạt nơron. t - thời gian
n - số tín hiệu đầu vào
f - hàm kích hoạt
Tóm lại có thể xem nơron là một hàm phi tuyến nhiều đầu vào và một đầu ra.
2.4.2 Hàm kích hoạt
Trong các hàm kích hoạt đáng quan tâm nhất là hai dạng hàm: - Hàm dấu (giới hạn chặt): 0 1 0 1 ) ( ) ( z neu z neu z sign z a (2.2)
- Hàm dạng sigma 1 ngưỡng (sigmoid function): Đây là hàm kích hoạt thường được sử dụng nhiều nhất trong các ứng dụng mạng nơron:
z e z a 1 1 ) ( 0 (2.3)
Để tăng khả năng làm việc, bắt chước hệ thần kinh, người ta phải nối các nơron vào mạng – như vậy hình thành mạng nơron.
Thông thường phải có nơi tiếp nhận tín hiệu vào, có nơi để phát tín hiệu ra và một số nơron khác nữa khi cần. Vậy là hình thành khái niệm lớp các nơron. Và năm 1958 F. Rosenblatt đưa vào định nghĩa mạng nơron tổng quát hơn gọi là perceptron, từ đó chúng ta có khái niệm mạng perceptron nhiều lớp, mạng hồi quy v.v..
2.4.3 Vấn đề học
Như vậy đối với công việc thiết kế mạng, cấu trúc và nhiều tham số của các perceptron tự do, người ta thấy ngay khả năng rộng lớn của các mạng nơron và thực tiễn hơn hai mươi năm qua (đặc biệt là sau năm 1982) đã chứng minh được điều đó. Tính năng quan trọng của mạng Nơron là khả năng học để tổng quát hóa, dung thứ lỗi (chịu được lỗi) trong những trường hợp dữ liệu bị nhiễu, bị lỗi.
Đứng từ góc độ thực tiễn, thứ nhất là góc độ thiết kế, mỗi một mạng là một mô hình cụ thể do người thiết kế xây dựng nên. Mỗi mô hình như vậy đều nhằm vào mục tiêu cụ thể nào đó. Từ đây xuất hiện hai loại bài toán sau:
Giả sử cấu trúc mạng đã cho, phải thay đổi các trọng số liên kết như thế nào. Bài toán này gọi là học tham số (hay luyện tham số). Có thuật toán tiêu biêu là thuật toán lan truyền ngược rất hay sử dụng trong nhận dạng.
Phải xây dựng mạng ra sao, bao nhiêu lớp, mỗi lớp bao nhiêu nơron. Bài toán có quan hệ với cấu trúc mạng gọi là bài toán học cấu trúc hay luyện cấu trúc.
Và từ đó cũng đã có các luật học tương ứng với chúng, các luật học nổi bật như các luật học Hebb, luật học của mạng Perceptron nhiều tầng thể hiện qua thuật toán lan truyền ngược, v.v..
2.4.4 Mạng nơron dùng cho phân tích thành phần chính
Phân tích thành phần chính (Principle Component Analysis-PCA) là một công cụ quan trọng trong xử lý dữ liệu, đặc biệt với các những ai nghiên cứu về bài toán nhận dạng. Phân tích thành phần chính là công cụ để thu gọn số chiều như phép biến đổi Karhunen-Loeve rất cần trong xử lý thông tin, tiền xử lý của nhận dạng, trong việc tạo ra các không gian đặc trưng ảnh và xấp xỉ. Thuật toán chọn lọc thành phần chính thích nghi nổi bật là thuật toán APEC.
2.4.5 Mạng nơron xoắn và bài toán phát hiện chất liệu
Xuất phát từ các nghiên cứu về não của Hubel và Wiessel (1962), các mạng nơron xoắn được phát triển và triển khai ứng dụng trong nhận dạng. từ năm 1990 Le Cun và các cộng sự đã trình bày một thiết kế mạng nơron xoắn để nhận dạng chữ viết tay. Các mạng xoắn cố định kích thước đã được áp
dụng cho nhiều ứng dụng, như các hệ nhận dạng chữ viết tay, nhận dạng chữ in, nhận dạng chữ viết tay online và nhận dạng mặt người.
Các công trình đã nghiên cứu bước đầu chứng tỏ đây là một cách tiếp cận rất có triển vọng cho nhiều lớp bài toán trong đó trước hết cho các bài toán nhận dạng.
Để dễ hiểu, chúng ta xét mạng nơron đơn giản như sau:
Mạng Perceptron truyền thẳng ba lớp
Có mười nút trong lớp nhận tín hiệu vào có 4 nơron trong lớp ẩn và 2 nơron ở lớp ra. Có thể quy định ràng buộc ảnh hưởng tới các trọng số liên kết và việc xử lý thông tin của các nơron trong lớp ẩn.
Cách thiết kế đơn giản đước cho bởi minh họa sau: Chỉ có 6 trong số liên kết {wi, i=1,2,…, 6}.
Khi đó net vào cho nơron ẩn PEj với j=1,2,…,4 cho bởi:
6 1 1 i j i ix w j net v
Như vậy chúng ta đã sử dụng cùng 6 trọng số liên kết, nhưng mỗi tín hiệu vào không phải được tất cả các PEj trong lớp ẩn xử lý. Phép lấy tổng của phương trình trên có dạng tổng xoắn cho nên gọi là mạng nơron xoắn.
Định nghĩa: Mạng nơron xoắn là một mạng Perceptron truyền thẳng nhiều lớp được thiết kế đặc biệt để nhận dạng ảnh hai chiều kết hợp ba khái niệm kiến trúc: trường tiếp thu cục bộ trọng số chia sẻ và đại diện mẫu trong chiều không gian và thời gian nhằm đảm bảo mức độ bất biến nhất định đối với sự dịch chuyển, thay đổi tỉ lệ biến dạng.
LeNet - 5 là mạng xoắn tiêu biểu cho nhận dạng kí tự được trình bày trong hình 2.11.
Mạng này có các đặc điểm sau:
-Lớp vào nhận ảnh kí tự được chuẩn hóa về kích cỡ và được trọng tâm hóa (theo nghĩa trọng tâm của kí tự trùng với trọng tâm của ảnh).
-Các đơn vị nơron của các lớp ảnh và lớp đầu ra tuân thủ nguyên tắc là mỗi nơron tiếp thu thông tin vào từ vùng láng giềng cục bộ của lớp trước.
Hình 2.11. Cấu trúc LeNet-5, Mạng nơron xoắn
Ý tưởng liên kết các nơron tới các trường tiếp thu cục bộ ở thông tin vào đã được đưa ra khá sớm trong mạng Perceptron và đã dùng nhiều lần trong các mạng nơron có giám sát (ví dụ khi đó các nơron có thể trích ra các đặc trưng sơ đẳng, sau đó các đặc trưng này được tổ hợp trong các lớp kế tiếp nhằm tìm ra các đặc trưng có mức độ cao hơn).
Một nhận xét khác, các biến dạng hoặc các dịch chuyển của ảnh đầu vào có thể làm cho vị trí của các đặc trưng nổi bật bị thay đổi. Mặt khác các bộ dò đặc trưng cơ bản nếu hữu dụng trên một phần ảnh thì cũng thường hữu dụng trên xuyên suốt toàn bộ ảnh. Điều này sẽ được áp dụng bằng cách chia sẽ bộ trọng số dùng chung cho các nơron trong cùng một lớp.
Khi đó các nơron trong cùng một lớp (layer) sẽ được tổ chức vào các lớp –con (planes), và các lớp – con này sử dụng bộ vector trọng số đồng nhất. Tập
các đầu ra của nơron đơn vị trong các lớp-con được gọi là các ánh xạ đặc trưng (feature map-FM). Các nơron đơn vị trong các lớp con FM theo quy định phải tiến hành tính toán bằng một phép toán trên các phần khác nhau của ảnh.
Một lớp nơron xoắn hòan chỉnh thường phải được cấu tạo từ vài lớp-con FM (với các bộ vectơ trọng số khác nhau) để nhằm có thể trích ra các đặc trưng khác nhau từ cùng một vị trí trên ảnh.
Ví dụ cụ thể trong hình lớp xoắn đầu tiên của mạng LeNet-5 được tổ chức thành 6 lớp –con FM. Mỗi nơron đơn vị trong FM có 25 đầu vào được liên kết tới trường tiếp thu là vùng ảnh đầu vào có kích thước 5x5. Mỗi nơron đơn vị có 25 đầu vào nên chỉ cần có 25 trọng số cần luyện và một ngưỡng (bias).
Như đã nói, tất cả các nơron đơn vị trong cùng 1 lớp –con FM đều dùng chung 25 trọng số liên kết và một ngưỡng nên chúng dò tìm cùng một đặc trưng tại tất cả vị trí có thể trên ảnh đầu vào. Tuy nhiên các lớp con khác nhau FM sẽ sử dụng các giá trị trọng số và ngưỡng khác nhau, do vậy sẽ trích ra các đặc trưng cục bộ sẽ khác nhau. Trong ví dụ trên tại mỗi vị trí đầu vào sẽ có sáu loại đặc trưng khác nhau được trích ra bởi 6 lớp-con FM khác nhau.
Một khi đặc trưng đã được dò ra, vị trí chính xác của nó trở nên ít quan trọng đi. Duy nhất chỉ vị trí xấp xỉ của nó liên quan đến các đặc trưng khác nhau là thích hợp để sử dụng.
Một cách đơn để giảm thiểu độ chính xác trong vị trí là mã hóa vị trí của các đặc trưng phân biệt trong FM, như thế sẽ làm giảm số chiều của không gian lời giải của FM. Điều này có thể đạt được với lớp đại diện mẫu, nó biểu diễn trung bình cục bộ và đại diện mẫu làm giảm thiểu lời giải của FM và làm giảm độ nhạy cảm của đầu ra đối với dịch chuyển và biến dạng.
Lớp ẩn thứ hai của LeNet-5 là lớp đại diện mẫu. Lớp này gồm 6 FM, mỗi một FM trong lớp này ứng với một FM trong lớp trước nó. Trường tiếp thu của mỗi đơn vị là 2x2 vùng trong FM liên quan của lớp trước đó. Mỗi đơn vị tính toán ra giá trị trung bình của bốn đầu vào, nhân nó hệ số luyện và cộng với hệ số hiệu chỉnh, cuối cùng gửi kết quả vào hàm kích hoạt dạng sigmoid. Các đơn vị kề nhau có các trường tiếp thu kề nhau không chồng lấp. Do vậy, FM của đại diện mẫu có một nữa số dòng và cột so với các FM của lớp
trước nó.
Hệ số luyện và ngưỡng điều chỉnh kết quả của hàm ra dạng sigmoid phi tuyến. Nếu hệ số này nhỏ thì đơn vị có tác dụng trong chế độ gần tuyến tính, và đại diện mẫu chỉ đơn thuần làm mờ đi đầu vào. Nếu hệ số này lớn, các đơn vị đại diện mẫu có thể được xem như thi hành hàm “nhiễu cộng”(noisy OR) hoặc “nhiễu nhân”(noisy AND) căn cứ trên giá trị của ngưỡng.
Các lớp kế tiếp của các xoắn và đại diện mẫu được luân phiên một cách tiêu biểu, trả kết quả trong “bi-paramid” tại mỗi lớp, số lượng FM được tăng lên thì không gian lời giải giảm xuống. Mỗi Unit trong lớp ẩn thứ 3 trong hình 2.10 có thể có các liên kết đầu vào từ một vài FM trong lớp trước nó. Việc kết hợp xoắn đại diện mẫu được thừa hưởng khái niệm các tế bào “đơn giản” và “phức tạp” của Hubel và Wiesel, và cũng được bổ sung bởi tri thức mới của FUKUSHIMA, mặc dầu không có thủ tục học giám sát toàn cục chẳng hạn như lan truyền ngược được áp dụng sau đó. Một mức bất biến lớn để chuyển đổi hình học đầu vào có thể đạt được với sự giảm thiểu lũy tiến của không gian lời giải được bù bằng sự tăng lũy tiến số lượng FM.
Vì tất cả các trọng số được luyện theo thuật toán lan truyền ngược, các mạng xoắn có thể được xem như việc tổng hợp đầu dò đặc trưng của nó. Kỹ
thuật chia sẽ trọng số có một tác dụng phụ rất tốt là giảm được số lượng các thông số tự do. Do đó làm giảm dung lượng của máy và làm giảm khoảng trống giữa lỗi kiểm tra và lỗi huấn luyện. Mạng trong hình 2.11 chứa 345308 liên kết nhưng chỉ duy nhất có 60 ngàn thông số cần luyện bởi vì áp dụng việc chia sẽ trọng số.
Các mạng xoắn cố định kích thước đã được áp dụng cho nhiều ứng dụng, như các hệ nhận dạng chữ viết tay, nhận dạng mặt v.v..
2.5 Cách tiếp cận mô hình Markov ẩn HMM [19]
Mô hình Markov ẩn viết tắt là HMM – Hidden Markov Model là một phương pháp thống kê nổi tiếng và được dùng rộng rãi để khảo sát các tính chất phổ của các cấu trúc của các hình mẫu, các dạng.
Ý tưởng chính xuất phát từ khái niệm xích Markov của lý thuyết xác suất.
Mô hình HMM làm việc với một hệ thống trong đó trạng thái của không thể quan sát trực tiếp và các trạng thái này sẽ được suy diễn thông qua một dãy các quan sát và kỹ thuật tối ưu.
Thực chất mô hình HMM là một mô hình ngẫu nhiên dùng để xấp xỉ một dãy ngẫu nhiên không dừng với một vài giả thiết về tính chất xác suất của phép chuyển trạng thái.
Cũng có thể phân loại theo mô hình rời rạc và mô hình liên tục.
2.5.1 Nền tảng của phương pháp
Xích Markov và thuật toán Viterbi
Có M lớp 1, 2, …, M. Giả sử có một dạng cần nhận biết, thông tin thu thập qua vectơ đặc trưng x. Từ đây hình thành các xác suất có điều kiện P(i/x), i=1, 2,.., M. Người ta vẫn coi đây là xác suất ban đầu.
Nhiệm vụ phân lớp là dựa vào các xác suất này để phân cho x thuộc một lớp i nào đó.
Để làm rõ phương pháp luận của lý thuyết quyết định Bayes ta xét trương hợp M=2. Tức là có hai lớp 1, 2.
Giả sử xác suất P(1), P(2) đã biết ta cũng có thể xuất phát từ giả thiết biết được hàm mật độ xác suất có điều kiện p(x/i), i=1,2.
Dùng quy tắc Bayes ta có: P(i/x)= ) ( ) ( ). / ( x p P x p i i
Ở đây p(x) là hàm mật độ xác suất của x cho bởi
2 1 ) ( ). / ( ) ( i i i P x p x p
Quy tắc phân lớp Bayes cho bởi:
Nếu P(1/x ) > P(2/x) thì x thuộc lớp 1