5. Cấu trúc luận văn
2.2.2. Phân đoạn Gan dựa trên mạng U Net
Các đối tƣợng tối:
( ) ( ) ( ( )) (2.26) Với tính toán giá trị cực tiểu địa phƣơng của histogram thì khó nếu histogram nhiễu. Do đó, trong trƣờng hợp này nên làm trơn histogram, ví dụ sử dụng thuật toán (1).
Hình 2.8. Bimodal Histogram
Trong một số ứng dụng nhất định, cƣờng độ của đối tƣợng hay nền thay đổi khá chậm. Trong trƣờng hợp này, histogram ảnh có thể không chứa hai thùy phân biệt rõ ràng, vì vậy có thể phải dùng ngƣỡng thay đổi theo không gian. Hình ảnh đƣợc chia thành những khối vuông, histogram và ngƣỡng đƣợc tính cho mỗi khối tƣơng ứng. Nếu Histogram cục bộ không phải là bimodal histogram thì ngƣỡng đƣợc tính bằng cách nội suy ngƣỡng của các khối láng giềng. Khi ngƣỡng cục bộ đã có thì áp dụng thuật toán phân ngƣỡng ở hình 2.6 cho khối này.
2.2.2. Phân đoạn Gan dựa trên mạng U - Net
Unet là một kiến trúc đƣợc phát triển bởi Olaf Ronneberger và các cộng sự phát triển nhằm phân vùng các cấu trúc nơ ron thần kinh trong não ngƣời [9].
Hình 2.9. Kiến trúc mô hình U –Net
Mỗi một thanh chữ nhật màu xanh là một feature map đa kênh. Kích thƣớc width x heightđƣợc kí hiệu góc trái bên dƣới của thanh chữ nhật và số lƣợng channels đƣợc kí hiệu trên đỉnh của feature map. Các thanh chữ nhật màu trắng bên nhánh phải của hình chữ U đƣợc copy từ nhánh bên trái và concatenate vào nhánh bên phải. Mỗi một mũi tên có màu sắc khác nhau tƣơng ứng với một phép biến đổi khác nhau nhƣ chúng ta có thể thấy trong mô tả của mạng.
Mạng Unet bao gồm 2 nhánh đối xứng nhau hình chữ U nên đƣợc gọi là Unet.
Kiến trúc mạng Unet bao gồm 2 phần là phần thu hẹp (contraction) ở bên trái và phần mở rộng (expansion) ở bên phải. Mỗi phần sẽ thực hiện một nhiệm vụ riêng nhƣ sau:
-Phần thu hẹp: Làm nhiệm vụ trích lọc đặc trƣng để tìm ra bối cảnh của hình ảnh. Vai trò của phần thu hẹp tƣơng tự nhƣ một Encoder. Một mạng Deep CNN sẽ đóng vai trò trích lọc đặc trƣng. Lý do nhánh đƣợc gọi là thu
hẹp vì kích thƣớc dài và rộng của các layers giảm dần. Từ input kích thƣớc 572 572 chỉ còn 32 32. Đồng thời độ sâu cũng tăng dần từ 3 lên 512.
-Phần mở rộng: Gồm các layer đối xứng tƣơng ứng với các layer của nhánh thu hẹp. Quá trình Upsampling đƣợc áp dụng giúp cho kích thƣớc layer tăng dần lên. Sau cùng ta thu đƣợc một ảnh mask đánh dấu nhãn dự báo của từng pixel.
Đặc trƣng riêng trong cấu trúc của Unet đó là áp dụng kết nối tắt đối xứng giữa layer bên trái với layer bên phải.
Huấn luyện mạng U – Net
Hình ảnh đầu vào và ma trận phân đoạn tƣơng ứng đƣợc sử dụng để đào tạo. Hàm năng lƣợng đƣợc tính toán bằng hàm soft – max kết hợp với hàm mất mát cross entropy:
( ) ( ( )) ∑ ( ( ))
(2.27)
Trong đó ( ) biểu thị kích hoạt trong kênh đặc trƣng k tại vị trí pixel với ⊂ ℤ2. K là s l p và ( )là hàm cực đại gần nhất. Tính toán hàm mất mát cross entropy tại mỗi vị trí độ lệch của pℓ(x)(x) bằng cách sử dụng
∑ ( ) . ( )( )/
(2.28)
Trong đó, * +là nhãn đúng của mỗi điểm ảnh và w: ℝlà một ma trận trọng số.
Đƣờng biên đƣợc tính toán bằng các phép toán hình thái học. Sau đó ma trận trọng số đƣợc tính nhƣ sau:
( ) ( ) ( ( ( ) ( ))
ℝ biểu thị khoảng cách đến đƣờng viền của ô gần nhất và d2: ℝ là khoảng cách đến đƣờng viền của ô gần nhất thứ 2.