Mạng Nơron xoắn và bài toán phát hiện chất liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số kỹ thuật phát hiện chất liệu và ứng dụng luận văn ths công nghệ thông tin 1 01 10 (Trang 39 - 44)

2.4 Cách tiếp cận Mạng Nơron

2.4.5 Mạng Nơron xoắn và bài toán phát hiện chất liệu

Xuất phát từ các nghiên cứu về não của Hubel và Wiessel (1962), các mạng nơron xoắn được phát triển và triển khai ứng dụng trong nhận dạng. từ năm 1990 Le Cun và các cộng sự đã trình bày một thiết kế mạng nơron xoắn để nhận dạng chữ viết tay. Các mạng xoắn cố định kích thước đã được áp

dụng cho nhiều ứng dụng, như các hệ nhận dạng chữ viết tay, nhận dạng chữ in, nhận dạng chữ viết tay online và nhận dạng mặt người.

Các công trình đã nghiên cứu bước đầu chứng tỏ đây là một cách tiếp cận rất có triển vọng cho nhiều lớp bài toán trong đó trước hết cho các bài toán nhận dạng.

Để dễ hiểu, chúng ta xét mạng nơron đơn giản như sau:

Mạng Perceptron truyền thẳng ba lớp

Có mười nút trong lớp nhận tín hiệu vào có 4 nơron trong lớp ẩn và 2 nơron ở lớp ra. Có thể quy định ràng buộc ảnh hưởng tới các trọng số liên kết và việc xử lý thông tin của các nơron trong lớp ẩn.

Cách thiết kế đơn giản đước cho bởi minh họa sau: Chỉ có 6 trong số liên kết {wi, i=1,2,…, 6}.

Khi đó net vào cho nơron ẩn PEj với j=1,2,…,4 cho bởi:

      6 1 1 i j i ix w j net v

Như vậy chúng ta đã sử dụng cùng 6 trọng số liên kết, nhưng mỗi tín hiệu vào không phải được tất cả các PEj trong lớp ẩn xử lý. Phép lấy tổng của phương trình trên có dạng tổng xoắn cho nên gọi là mạng nơron xoắn.

Định nghĩa: Mạng nơron xoắn là một mạng Perceptron truyền thẳng nhiều lớp được thiết kế đặc biệt để nhận dạng ảnh hai chiều kết hợp ba khái niệm kiến trúc: trường tiếp thu cục bộ trọng số chia sẻ và đại diện mẫu trong chiều không gian và thời gian nhằm đảm bảo mức độ bất biến nhất định đối với sự dịch chuyển, thay đổi tỉ lệ biến dạng.

LeNet - 5 là mạng xoắn tiêu biểu cho nhận dạng kí tự được trình bày trong hình 2.11.

Mạng này có các đặc điểm sau:

-Lớp vào nhận ảnh kí tự được chuẩn hóa về kích cỡ và được trọng tâm hóa (theo nghĩa trọng tâm của kí tự trùng với trọng tâm của ảnh).

-Các đơn vị nơron của các lớp ảnh và lớp đầu ra tuân thủ nguyên tắc là mỗi nơron tiếp thu thông tin vào từ vùng láng giềng cục bộ của lớp trước.

Hình 2.11. Cấu trúc LeNet-5, Mạng nơron xoắn

Ý tưởng liên kết các nơron tới các trường tiếp thu cục bộ ở thông tin vào đã được đưa ra khá sớm trong mạng Perceptron và đã dùng nhiều lần trong các mạng nơron có giám sát (ví dụ khi đó các nơron có thể trích ra các đặc trưng sơ đẳng, sau đó các đặc trưng này được tổ hợp trong các lớp kế tiếp nhằm tìm ra các đặc trưng có mức độ cao hơn).

Một nhận xét khác, các biến dạng hoặc các dịch chuyển của ảnh đầu vào có thể làm cho vị trí của các đặc trưng nổi bật bị thay đổi. Mặt khác các bộ dò đặc trưng cơ bản nếu hữu dụng trên một phần ảnh thì cũng thường hữu dụng trên xuyên suốt toàn bộ ảnh. Điều này sẽ được áp dụng bằng cách chia sẽ bộ trọng số dùng chung cho các nơron trong cùng một lớp.

Khi đó các nơron trong cùng một lớp (layer) sẽ được tổ chức vào các lớp –con (planes), và các lớp – con này sử dụng bộ vector trọng số đồng nhất. Tập

các đầu ra của nơron đơn vị trong các lớp-con được gọi là các ánh xạ đặc trưng (feature map-FM). Các nơron đơn vị trong các lớp con FM theo quy định phải tiến hành tính toán bằng một phép toán trên các phần khác nhau của ảnh.

Một lớp nơron xoắn hòan chỉnh thường phải được cấu tạo từ vài lớp-con FM (với các bộ vectơ trọng số khác nhau) để nhằm có thể trích ra các đặc trưng khác nhau từ cùng một vị trí trên ảnh.

Ví dụ cụ thể trong hình lớp xoắn đầu tiên của mạng LeNet-5 được tổ chức thành 6 lớp –con FM. Mỗi nơron đơn vị trong FM có 25 đầu vào được liên kết tới trường tiếp thu là vùng ảnh đầu vào có kích thước 5x5. Mỗi nơron đơn vị có 25 đầu vào nên chỉ cần có 25 trọng số cần luyện và một ngưỡng (bias).

Như đã nói, tất cả các nơron đơn vị trong cùng 1 lớp –con FM đều dùng chung 25 trọng số liên kết và một ngưỡng nên chúng dò tìm cùng một đặc trưng tại tất cả vị trí có thể trên ảnh đầu vào. Tuy nhiên các lớp con khác nhau FM sẽ sử dụng các giá trị trọng số và ngưỡng khác nhau, do vậy sẽ trích ra các đặc trưng cục bộ sẽ khác nhau. Trong ví dụ trên tại mỗi vị trí đầu vào sẽ có sáu loại đặc trưng khác nhau được trích ra bởi 6 lớp-con FM khác nhau.

Một khi đặc trưng đã được dò ra, vị trí chính xác của nó trở nên ít quan trọng đi. Duy nhất chỉ vị trí xấp xỉ của nó liên quan đến các đặc trưng khác nhau là thích hợp để sử dụng.

Một cách đơn để giảm thiểu độ chính xác trong vị trí là mã hóa vị trí của các đặc trưng phân biệt trong FM, như thế sẽ làm giảm số chiều của không gian lời giải của FM. Điều này có thể đạt được với lớp đại diện mẫu, nó biểu diễn trung bình cục bộ và đại diện mẫu làm giảm thiểu lời giải của FM và làm giảm độ nhạy cảm của đầu ra đối với dịch chuyển và biến dạng.

Lớp ẩn thứ hai của LeNet-5 là lớp đại diện mẫu. Lớp này gồm 6 FM, mỗi một FM trong lớp này ứng với một FM trong lớp trước nó. Trường tiếp thu của mỗi đơn vị là 2x2 vùng trong FM liên quan của lớp trước đó. Mỗi đơn vị tính toán ra giá trị trung bình của bốn đầu vào, nhân nó hệ số luyện và cộng với hệ số hiệu chỉnh, cuối cùng gửi kết quả vào hàm kích hoạt dạng sigmoid. Các đơn vị kề nhau có các trường tiếp thu kề nhau không chồng lấp. Do vậy, FM của đại diện mẫu có một nữa số dòng và cột so với các FM của lớp

trước nó.

Hệ số luyện và ngưỡng điều chỉnh kết quả của hàm ra dạng sigmoid phi tuyến. Nếu hệ số này nhỏ thì đơn vị có tác dụng trong chế độ gần tuyến tính, và đại diện mẫu chỉ đơn thuần làm mờ đi đầu vào. Nếu hệ số này lớn, các đơn vị đại diện mẫu có thể được xem như thi hành hàm “nhiễu cộng”(noisy OR) hoặc “nhiễu nhân”(noisy AND) căn cứ trên giá trị của ngưỡng.

Các lớp kế tiếp của các xoắn và đại diện mẫu được luân phiên một cách tiêu biểu, trả kết quả trong “bi-paramid” tại mỗi lớp, số lượng FM được tăng lên thì không gian lời giải giảm xuống. Mỗi Unit trong lớp ẩn thứ 3 trong hình 2.10 có thể có các liên kết đầu vào từ một vài FM trong lớp trước nó. Việc kết hợp xoắn đại diện mẫu được thừa hưởng khái niệm các tế bào “đơn giản” và “phức tạp” của Hubel và Wiesel, và cũng được bổ sung bởi tri thức mới của FUKUSHIMA, mặc dầu không có thủ tục học giám sát toàn cục chẳng hạn như lan truyền ngược được áp dụng sau đó. Một mức bất biến lớn để chuyển đổi hình học đầu vào có thể đạt được với sự giảm thiểu lũy tiến của không gian lời giải được bù bằng sự tăng lũy tiến số lượng FM.

Vì tất cả các trọng số được luyện theo thuật toán lan truyền ngược, các mạng xoắn có thể được xem như việc tổng hợp đầu dò đặc trưng của nó. Kỹ

thuật chia sẽ trọng số có một tác dụng phụ rất tốt là giảm được số lượng các thông số tự do. Do đó làm giảm dung lượng của máy và làm giảm khoảng trống giữa lỗi kiểm tra và lỗi huấn luyện. Mạng trong hình 2.11 chứa 345308 liên kết nhưng chỉ duy nhất có 60 ngàn thông số cần luyện bởi vì áp dụng việc chia sẽ trọng số.

Các mạng xoắn cố định kích thước đã được áp dụng cho nhiều ứng dụng, như các hệ nhận dạng chữ viết tay, nhận dạng mặt v.v..

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số kỹ thuật phát hiện chất liệu và ứng dụng luận văn ths công nghệ thông tin 1 01 10 (Trang 39 - 44)

Tải bản đầy đủ (PDF)

(83 trang)