Phân loại bệnh võng mạc đái tháo đường sử dụng mạng Resnet

MỤC LỤC

CƠ SỞ LÝ THUYẾT

MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI BỆNH VếNG MẠC 1 PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ

Chụp ảnh đáy mắt là quá trình nhờ ánh sáng phản xạ được sử dụng để tạo thành hình ảnh hai chiều cũng vừng mạc ba chiều, mụ phõn lớp bỏn trong suốt nằm bờn trong mắt được chiếu lên một mặt phẳng tạo ảnh. Mục tiêu của thuật toán SVM là tạo đường hoặc ranh giới quyết định tốt nhất có thể tách không gian n chiều thành các lớp để chúng ta có thể dễ dàng đặt điểm dữ liệu mới vào đúng danh mục trong tương lai. Convolutional Neural Network (CNN hoặc ConvNet) được xem là một trong những mô hình của Deep Learning – tập hợp các thuật toán để có mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý cấu trúc phức tạp.

Qua lớp tích chập, mô hình có khả năng học được các đặc trưng cục bộ trong dữ liệu và tạo ra các feature map, đóng vai trò quan trọng trong việc trích xuất thông tin hữu ích từ đầu vào. Ví dụ, trong bài toán phân loại số viết tay MNIST có 10 lớp tương ứng 10 số từ 0-1, tầng này sẽ chuyển ma trận đặc trưng của tầng trước thành vector có 10 chiều thể hiện xác suất của 10 lớp tương ứng. Kỹ thuật học chuyển giao (transfer learning) là đặc biệt hữu ích trong trường hợp dữ liệu huấn luyện có kích thước nhỏ, vì nó cho phép tận dụng được kiến thức được học từ các tác vụ hoặc tập dữ liệu lớn khác.

Thay vì huấn luyện mô hình từ đầu trên tập dữ liệu nhỏ, chúng ta có thể sử dụng mô hình đã được huấn luyện trước đó và chỉ điều chỉnh một số phần nhỏ để phù hợp với tác vụ mới, giúp tiết kiệm thời gian và công sức. • Các convolutional layers này được lặp lại 3 lần, tổng cộng có 9 lớp Sau khi hoàn thành các lớp convolutional này, tiếp theo là một bước average pooling để giảm kích thước của feature map.

Hỡnh 2.3 Cỏc giai đoạn của bệnh vừng mạc tiểu đường

XÂY DỰNG MÔ HÌNH PHÂN LOẠI BỆNH VếNG MẠC ĐÁI THÁO ĐƯỜNG

THIẾT KẾ GIAO DIỆN

Khối huấn luyện: Huấn luyện mô hình dựa trên dữ liệu huấn luyện bằng cách sử dụng mạng nơ-ron tích chập, cụ thể là ResNet50 để tìm ra các tham số tốt nhất cho mô hình. Từ những bức ảnh này, chỳng ta cú thể thấy rừ sự khác biệt trong mức độ nghiêm trọng của các tình trạng mắt, từ nhẹ nhưng có thể tiềm ẩn nguy cơ đến những trường hợp nghiêm trọng đe dọa thị lực của người bệnh. Khi huấn luyện mụ hỡnh bằng kớch thước ban đầu ảnh sẽ rừ và chi tiết hơn nhưng sẽ làm cho tốc độ xử lý chậm vì tập ảnh đầu vào bao gồm nhiều kích thước do được thu thập từ nhiều nguồn khác nhau, vì vậy cần điều chỉnh kích thước cho các ảnh đầu vào có cùng kích thước để tăng tốc độ xử lý và để mô hình được hoạt động với hiệu suất tối đa.

Dựa trên các yếu tố này, lựa chọn các tham số thích hợp như số lớp tích chập, kích thước bộ lọc và các tham số của mô hình để tìm ra sự tối ưu nhất cho quá trình huấn luyện. Ảnh đầu vào là một ảnh đã được định dạng và chuẩn hóa có kích thước đầu vào là 512x512x3, thêm ZeroPadding 2D vào trước lớp Conv2D để ảnh không bị mất thông tin trong quá trình trích xuất, đầu này được đưa qua một lớp tích chập (conv1) với 64 bộ lọc có kích thước 7x7, và sau đó được chuẩn hóa bằng BatchNormalization. Mạng có 5 khối Residual blocks (Conv2, Conv3, Conv4, Conv5 và output), mỗi khối chứa nhiều lớp tích chập (Conv2D), chuẩn hóa BatchNormalization, kích hoạt (Activation) và kết nối trượt (Add), sử dụng nối phần dư (Residual connection) để tránh tình trạng mất mát đạo hàm, chiều sâu của mỗi tầng sẽ tăng theo hướng gấp đôi các tầng trước, bắt đầu với 256, sau đó lần lượt là 512, 1024, 2048 và kích thước giảm đi 1 nửa, tầng cuối cùng kích thước là 16x16.

Tiếp theo, ta thêm một lớp Dense với 2048 nodes tạo ra một lớp fully connected neral network phức tạp để học một số tính năng khó của nảnh như cạnh, góc, đường cong, sử dụng hàm kích hoạt là ‘ReLU’ cho Dense sẽ giúp mô hình đạt được kết quả tốt và giải quyết vấn đề mất mát đạo hàm (vanshing gradient) trong quá trình huấn luyện. Vì vậy, trong lĩnh vực y tế, mặc dù không thể loại bỏ hoàn toàn sai sót, nhưng người ta thường lựa chọn chấp nhận tỉ lệ báo động nhầm cao hơn để giảm thiểu nguy cơ bỏ sót bệnh. Điều này có nghĩa mô hình có tỷ lệ cao các điểm dự đoán là Positive thực sự là Positive (Precision cao) và đồng thời có tỷ lệ bỏ sót các điểm Positive là thấp (Recall cao).

Mặc dù phương pháp đánh giá bằng cách sử dụng độ chính xác có ưu điểm là cho biết tỷ lệ phần trăm dữ liệu được phân loại đúng, nhưng nó cũng có nhược điểm là không cung cấp thông tin chi tiết về việc phân loại của từng lớp. Phần BackEnd là một mô hình mạng CNN đã được huấn luyện, Django và Django REST Framework và FrontEnd là giao diện user REST API riêng biệt được thiết kế bằng React. Thông thường, trước khi có thể sử dụng Webpack, bạn cần đặt các tùy chọn cấu hình khác nhau, nhưng nhờ tiện ích create- react-app bạn không phải xử lý trực tiếp với Webpack cho đến khi quyết định rằng mình cần kiểm soát nhiều hơn [23].

- GET: phương thức này sẽ phân trang dữ liệu bằng cách sử dụng Django Paginator và trả về trang dữ liệu đầu tiên sau khi tuần tự hóa, số lượng khách hàng có sẵn, số lượng trang có sẵn và các liên kết đến trang trước đó và trang tiếp theo. Lưu đồ chương trình chính được trình bày như hình 3.15, khi bác sĩ truy cập trang web nếu đã có tài khoản thì sẽ tiến hành đăng nhập ngược lại sẽ đăng ký tài khoản sau đó sẽ đăng nhập tài khoản để sử dụng trang web. Sau khi truy cập vào trang chẩn đoán bác sĩ sẽ nhập thông tin bệnh sau đó chọn hình ảnh cần chẩn đoán, kiểm tra nếu chưa chọn ảnh thì cần chọn lại ảnh sau đó lưu lại thông tin và hình ảnh của bệnh nhân như lưu đồ con hình 3.16 (a).