Chương 2 Kiến thức nền tảng 11 2.1. Mô hình học sâu trong phân đoạn hình ảnh
2.3. Xử lý ảnh y tế
2.3.1. Khái niệm về ảnh toàn bản mô bệnh học
Công nghệ hình ảnh kỹ thuật số tiên tiến được sử dụng để số hóa toàn bộ tiêu bản mô bệnh học [21], cho phép lưu trữ và phân tích hình ảnh ở độ phân giải rất cao.
Điều này cung cấp một cách tiếp cận toàn diện để chẩn đoán và nghiên cứu các bệnh lý, ảnh kỹ thuật này số có độ phân giải cao, có thể lên đến hàng tỷ điểm ảnh.
Mỗi ảnh có thể bao quát toàn bộ tiêu bản, bao gồm tất cả các chi tiết của mẫu mô, do độ phân giải cao, các ảnh kỹ thuật số toàn bản thường có dung lượng rất lớn, có thể từ vài trăm MB đến vài GB cho mỗi slide, điều này đòi hỏi nhiều tài nguyên lưu trữ và xử lý, hình ảnh có thể được xem ở nhiều mức độ phóng đại khác nhau từ 5x, 10x, 20x, có thể đến 40x, cho phép bác sĩ hoặc nhà nghiên cứu phóng to và thu nhỏ để xem chi tiết từ cấp độ tế bào đến toàn bộ mẫu mô.
2.3.2. Xử lý ảnh toàn bản theo các mảng
Do kích thước lớn, ảnh mô bệnh học thường được chia thành các ô nhỏ hơn như 128x128, 256x256 hoặc 512x512 điểm ảnh để dễ dàng xử lý và phân tích. Các ô nhỏ được xử lý riêng biệt và sau đó kết hợp kết quả lại để tái tạo toàn bộ hình ảnh [22]. Điều này giúp giảm yêu cầu về bộ nhớ và tài nguyên tính toán.
2.3.3. Học sâu dựa trên các mảng
Sử dụng mạng nơ ron để phân tích các mảng nhỏ của ảnh: Một bức ảnh lớn được chia thành nhiều mảng nhỏ và mỗi mảng được đưa vào mạng nơ ron để phân loại hoặc phân đoạn [19]. Sau đó, kết quả của các mảng được kết hợp lại để tạo ra kết quả cuối cùng. Để cải thiện độ chính xác, các mảng có thể được lấy mẫu chồng lấn để giữ ngữ cảnh, đảm bảo rằng các ranh giới giữa các mảng được xử lý chính xác.
Hình 2.4: Tổng quan kiến trúc của mô hình U-Net [23].
2.3.4. Mô hình học sâu U-Net trong phân đoạn hình ảnh
Mô hình U-Net [24] là một kiến trúc mạng nơ-ron được sử dụng phổ biến trong các bài toán phân đoạn ảnh, đặc biệt là trong lĩnh vực y tế như phân đoạn hình ảnh sinh thiết (mô bệnh học) hoặc ảnh y tế khác. Mô hình này được phát triển bởi Olaf Ronneberg, Philipp Fischer, và Thomas Brox và được giới thiệu lần đầu vào năm 2015. mô hình U-Net được chia thành hai phần chính: đường thu hẹp và đường mở rộng. Mô hình này có hình dáng giống chữ "U"được mô tả như Hình 2.4, từ đó xuất phát tên gọi "U-Net". Đường thu hẹp bao gồm các lớp chập và các lớp thu nhỏ kích thước để giảm dần kích thước không gian của ảnh và trích xuất các đặc trưng quan trọng bao gồm:
• Lớp tích chập. Mỗi bước trong phần contracting thường bao gồm hai lớp chập liên tiếp với các bộ lọc nhỏ (3x3) và bước nhảy bằng 1, nhằm giữ nguyên kích thước của ảnh sau khi chập. Sau mỗi lớp chập là một lớp kích hoạt thường sử dụng hàm kích hoạt phi tuyến.
Đồng thời tăng số lượng các bản đồ đặc trưng. Điều này giúp mô hình có thể học được các đặc trưng ở các cấp độ trừu tượng khác nhau.
• Số lượng chọn lọcbắt đầu từ một giá trị nhỏ (chẳng hạn 64) và tăng dần sau mỗi bước pooling (128, 256, 512, v.v.).
Nút cổ chai là phần chuyển tiếp giữa đường thu hẹp và đường mở rộng, chứa các lớp chập có độ sâu cao nhất nhưng không thực hiện giảm kích thước. Nó nhằm trích xuất các đặc trưng trừu tượng nhất từ ảnh. Còn đường mở rộng là quá trình ngược lại với đường thu hẹp với mục tiêu là tái tạo kích thước không gian của ảnh gốc từ các đặc trưng đã trích xuất.
• Phục hồi kích thước/Giải tích chập. Thay vì sử dụng lớp thu nhỏ để giảm kích thước, quá trình này sử dụng các lớp phục hồi, thường là tích chập chuyển vị để tăng kích thước không gian của ảnh lên.
• Kết nối bỏ qua. Ở mỗi bước tái tạo không gian, mô hình sẽ kết hợp các bản đồ đặc trưng từ bước tương ứng ở đường thu hẹp với các bản đồ đặc trưng hiện tại. Điều này giúp giữ lại thông tin không gian chi tiết từ các lớp trước đó, giúp cải thiện quá trình phân đoạn.
• Các lớp tích chập. Giống như phần thu hẹp, mỗi bước trong đường mở rộng cũng bao gồm hai lớp chập liên tiếp với các nhân tích chập kích thước 3x3 và bước nhảy bằng 1, theo sau là các lớp kích hoạt phi tuyến.
• Các bộ lọc. Số lượng bộ lọc giảm dần (ngược lại với đường thu hẹp) sau mỗi bước phục hồi kích thước (512, 256, 128, 64, v.v.).
Lớp đầu ra bao gồm:
• Lớp cuối cùng của mô hình là một lớp chập với bộ lọc kích thước 1x1. Điều này giúp chuyển đổi các bản đồ đặc trưng cuối cùng thành số lượng kênh mong muốn ở đầu ra, thường là 1 kênh cho phân đoạn nhị phân hoặc nhiều kênh hơn cho phân đoạn đa lớp.
Mô hình U-Net [25] đặc biệt hiệu quả trong các bài toán phân đoạn hình ảnh vì khả năng kết hợp thông tin từ cả cấp độ thấp và cao nhờ vào các kết nối bỏ qua.
Điều này giúp U-Net có thể thực hiện phân đoạn chính xác ngay cả với những dữ liệu đầu vào có kích thước nhỏ. Phần thu hẹp giúp nắm bắt các đặc trưng chi tiết, trong khi phần mở rộng giúp khôi phục lại hình ảnh và tạo ra mặt nạ phân đoạn chính xác.
2.3.5. Mô hình U-Net lồng trong phân đoạn hình ảnh
U-Net lồng hay còn gọi là U-Net++ là một biến thể nâng cấp của mô hình U-Net [26], được thiết kế để cải thiện khả năng phân đoạn ảnh trong các bài toán như y học hoặc thị giác máy tính. Mô hình U-Net lồng bổ sung thêm các yếu tố giúp cải thiện độ chính xác và khả năng học của mô hình so với U-Net truyền thống. Mô hình UNet++ [27] sử dụng các đường nối dày đặc và phân lớp giữa các tầng tương ứng trong phần mã hóa/ thu nhỏ kích thước và giải mã/ phục hồi kích thước. Điều này giúp các tầng giải mã có thêm thông tin chi tiết từ các tầng mã hóa, giúp mô hình học được nhiều đặc trưng hơn. Thay vì sử dụng một phần giải mã cố định, U-Net lồng có các phần giải mã phân đoạn giúp giảm độ phức tạp tính toán và cho phép mô hình dễ dàng điều chỉnh các tham số trong quá trình huấn luyện. Các kết nối bỏ qua được tinh chỉnh và thiết kế lại để sâu hơn, giúp cải thiện khả năng truyền dẫn và học các đặc trưng chi tiết, U-Net lồng kết hợp thông tin từ nhiều tầng mã hóa khác nhau, giúp cải thiện khả năng nắm bắt đặc trưng ở các mức độ khác nhau thay vì truyền thông tin từ các tầng mã hóa thẳng đến tầng giải mã tương ứng. Hình 2.5 mô tả kiến trúc U-Net lồng trong phương pháp kết hợp với bộ phân loại ảnh.