Xử lý ảnh xử dụng trí tuệ nhân tạo

❖ Mạng convolution neuron network U-net

Trong hai năm qua, các mạng phức hợp sâu đã hoạt động tốt hơn trạng thái nghệ thuật trong nhiều nhiệm vụ nhận dạng trực quan. Trong khi mạng phức hợp đã tồn tại trong một thời gian dài và thành công của họ bị hạn chế do kích thước của các tập huấn luyện có sẵn và kích thước của các mạng được xem xét. Các đột phá của Krizhevsky et al là do đào tạo có giám sát của một mạng với 8 lớp và hàng triệu tham số trên tập dữ liệu ImageNet với 1 triệu hình ảnh đào tạo. Kể từ đó, các mạng lớn hơn và sâu hơn đã được đào tạo.

Việc sử dụng điển hình của mạng phức hợp là trong các nhiệm vụ phân loại, trong đó đầu ra cho một hình ảnh là một nhãn lớp đơn. Tuy nhiên, trong nhiều tác vụ trực quan, đặc biệt là trong xử lý hình ảnh y sinh, đầu ra mong muốn phải bao gồm bản địa hóa, tức là, một nhãn lớp phải được gán cho mỗi pixel. Hơn nữa, hàng ngàn hình ảnh đào tạo thường nằm ngoài tầm với trong các nhiệm vụ y sinh. Do đó, các nhà khoa học đã tạo mạng trong thiết lập cửa sổ trượt để dự đoán nhãn lớp của mỗi pixel bằng cách cung cấp một vùng cục bộ (bản vá) xung quanh pixel đó.

Mỗi màu xanh hộp tương ứng với một bản đồ tính năng đa kênh. Số lượng kênh được biểu thị trên đầu hộp. Kích thước x-y được cung cấp ở mép dưới bên trái của hộp. trắng các hộp đại diện cho bản đồ đối tượng đã sao chép. Các mũi tên biểu thị các hoạt động khác nhau.

A, Cấu trúc mạng U-net

Kiến trúc mạng được minh họa trong hình trên. Nó bao gồm một hợp đồng đường dẫn (bên trái) và một đường mở rộng (bên phải). Đường dẫn hợp đồng theo sau kiến trúc điển hình của một mạng phức hợp. Nó bao gồm sự lặp lại ứng dụng của hai tập hợp 3x3 (các tập hợp không được đánh dấu), mỗi phần tiếp theo là một đơn vị tuyến tính được điều chỉnh (ReLU) và hoạt động gộp tối đa 2x2 với bước 2 để lấy mẫu xuống. Ở mỗi bước lấy mẫu xuống, chúng tôi tăng gấp đôi số lượng tính năng kênh truyền hình. Mỗi bước trong con đường mở rộng bao gồm việc lấy mẫu ngược bản đồ đối tượng theo sau là tích chập 2x2 làm giảm một nửa số lượng kênh tính năng, một đoạn nối với các kênh được cắt tương ứng bản đồ tính năng từ đường dẫn hợp đồng và hai tập hợp 3x3, mỗi tập hợp theo sau là một ReLU. Việc cắt xén là cần thiết do mất các pixel đường viền trong mọi tích chập. Ở lớp cuối cùng, một phép chập 1x1 được sử dụng để ánh xạ mỗi 64-vectơ đặc trưng thành phần với số lớp mong muốn. Tổng cộng mạng lưới có 23 lớp chập. Để cho phép xếp lớp liền mạch của bản đồ phân đoạn đầu ra (Hình 2. 3), điều quan trọng là chọn kích thước ô đầu vào sao cho tất cả các hoạt động gộp tối đa 2x2 được áp dụng cho một lớp có kích thước x và y chẵn.

B, Training

Hình ảnh đầu vào và bản đồ phân đoạn tương ứng của chúng được sử dụng để đào tạo mạng với sự triển khai dốc nghiêng ngẫu nhiên của Caffe. Do các chập không có đệm, hình ảnh đầu ra nhỏ hơn hình ảnh đầu vào bởi chiều rộng đường viền không đổi. Để giảm thiểu chi phí và sử dụng tối đa của bộ nhớ GPU, chúng tôi ưu tiên các ô đầu vào lớn hơn kích thước ô lớn và do đó giảm hàng loạt thành một hình ảnh duy nhất. Theo đó, chúng tôi sử dụng một động lượng cao (0,99) sao cho một số lượng lớn các mẫu đào tạo đã thấy trước đây xác định cập nhật trong bước tối ưu hóa hiện tại. Hàm năng lượng được tính toán bằng soft-max theo pixel thông qua giá trị cuối cùng bản đồ đặc trưng kết hợp với hàm mất entropy chéo.

Soft-max là được định nghĩa là:

𝑝𝑘(𝑥) = exp(𝑎𝑘(𝑥)) /(∑𝐾𝑘′=1exp⁡(𝑎𝑘′(𝑥))) (2.1) Trong đó:

𝑎𝑘(𝑥) biểu thị kích hoạt trong kênh đặc trưng k ở vị trí pixel x ∈ Ω với Ω

⊂𝑍2. K là số lớp và 𝑝𝑘(𝑥) là hàm cực đại gần đúng.

I.e.𝑝𝑘(𝑥) ≈ 1 cho k có kích hoạt lớn nhất 𝑎𝑘(𝑥) và 𝑝𝑘(𝑥) cho tất cả các k khác. Sau đó, entropy chéo sẽ phạt tại mỗi vị trí độ lệch của 𝑝𝑙(𝑥)(𝑥) bằng công thức sau:

𝐸 = ⁡ ∑x⁡∈Ω⍵(𝑥)⁡log⁡(𝑝𝑙(𝑥)(𝑥)) (2.2)

C, Tăng cường dữ liệu

Tăng cường dữ liệu là điều cần thiết để dạy cho mạng sự bất biến mong muốn và đặc tính mạnh mẽ khi chỉ có một số mẫu đào tạo. Trong trường hợp của hình ảnh vết xước trên bo mạch, chúng ta chủ yếu cần sự bất biến dịch chuyển và quay cũng như độ bền đối với các biến dạng và các biến thể giá trị xám. Đặc biệt là các biến dạng đàn hồi ngẫu nhiên của các mẫu huấn luyện dường như là khái niệm chính để huấn luyện một mạng phân đoạn với rất ít hình ảnh được chú thích. Chúng tôi tạo ra biến dạng sử dụng vectơ dịch chuyển ngẫu nhiên trên lưới thô 3 x 3. Các chuyển vị được lấy mẫu từ phân phối Gaussian với tiêu chuẩn 10 pixel sự lệch lạc. Sau đó, các dịch chuyển trên mỗi pixel được tính toán bằng cách sử dụng phép nội suy hai chiều. Các lớp thả ra ở cuối đường dẫn hoạt động ngầm hơn nữa.

CHƯƠNG 3 TÍNH TOÁN, THIẾT KẾ HỆ THỐNG KIỂM TRA VIẾT XƯỚC TRÊN MẠCH ĐIỆN TỬ

Quá trình huấn luyện mô hình

Hạn chế và phương án giải quyết