Sau tầng tích chập, tầng tổng hợp trích chọn đặc trưng và giảm số chiều cho dữ liệu đầu vào. Khi giảm số chiều, mơ hình giảm số lượng tham số, rút ngắn được thời gian huấn luyện và hạn chế overfitting. Cũng như tầng tích chập, tầng tổng hợp sử dụng bộ lọc trượt qua dữ liệu đầu vào để trích xuất đặc trưng cần thiết, nhưng các bộ lọc ở đây sẽ không chứa tham số. Các phương pháp phổ biến được sử dụng ở tầng tổng hợp là MaxPooling và AveragePooling. Trong đó MaxPooling chỉ lấy giá trị cao nhất trong vùng của bộ lọc đi qua cịn AveragePooling sẽ tính tốn giá trị trung bình trong vùng bộ lọc đi qua.
2.3.3. Phân loại hình ảnh trong thị giác máy tính
2.3.3.1. Tổng quan
Phân loại hình ảnh (Image classification) là một trong những tác vụ của thị giác máy tính, ở đó thuật tốn xem xét và dán nhãn cho hình ảnh từ một tập danh mục được xác định và đào tạo trước.
Ví dụ, với một tập các hình ảnh, mỗi hình ảnh mơ tả một con mèo hoặc một con chó, thuật tốn sẽ “quan sát” tồn bộ dữ liệu và dựa trên hình dạng, màu sắc để hình thành giả thuyết liên quan đến nội dung của ảnh. Kết quả thu được là từ tập dữ liệu ban đầu, các hình ảnh chó/mèo đã được phân loại một cách tự động.
Thực tế, thị giác góp phần tạo nên 80-85% nhận thức của con người về thế giới. Hàng ngày, mỗi người phải thực hiện phân loại trên bất kỳ dữ liệu hình ảnh nào mà chúng ta bắt gặp.
Do đó, mơ phỏng nhiệm vụ phân loại với sự trợ giúp của mạng nơ-ron là một trong những ứng dụng đầu tiên của thị giác máy tính mà các nhà nghiên cứu nghĩ đến.
Phân loại có hai dạng:
• Phân loại nhị phân (Binary Classification): Khi chúng ta phải phân loại dữ liệu đã cho thành 2 lớp riêng biệt. Ví dụ – Căn cứ vào tình trạng sức khoẻ của một người, ta phải xác định người đó có mắc một bệnh nào đó hay khơng.
• Phân loại đa lớp (Multiclass Classification): Số lớp nhiều hơn 2. Ví dụ – Trên cơ sở dữ liệu về các loài hoa khác nhau, chúng ta phải xác định loài nào mà chúng ta quan sát được.
2.3.3.2. Phân loại nhị phân
Phân loại nhị phân (Binary classification) là nhiệm vụ phận loại các phần tử của một tập hợp các đối tượng ra thành 2 nhóm dựa trên cơ sở là chúng có một thuộc tính nào đó hay khơng (hay cịn gọi là đặc trưng). Một số nhiệm vụ phân loại nhị phân điển hình:
• Kiểm tra y khoa xem một bệnh nhân có bệnh nào đó hay khơng (thuộc tính để phân loại là căn bệnh đó).
• Quản lý chất lượng trong nhà máy, ví dụ: xác định xem một sản phẩm làm ra là đủ tốt để bán chưa, hay nên loại bỏ nó (thuộc tính để phân loại là tính đủ tốt).
• Xác định xem một trang hay một bài báo có nên nằm trong tập kết quả của một truy vấn hay khơng (thuộc tính là độ liên quan của bài báo - thường là sự hiện diện của một số từ nào đó trong bài báo đó).
Phân loại nói chung là một trong những vấn đề được nghiên cứu trong khoa học máy tính với mục đích học tự động các hệ thống phân loại. Một số phương pháp thích hợp cho việc học phân loại nhị phân gồm có: cây quyết định, mạng Bayes, support vector machine, và mạng nơron.
2.3.3.3. Ứng dụng
Phân loại hình ảnh đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái. Sự phát triển của các phương pháp phát hiện đối tượng khơng chỉ đem lại lợi ích cho ngành Cơng nghệ thơng tin mà còn cho rất nhiều ngành nghề lĩnh vực khác như quân sự, y tế, hàng không,…
2.4. Những bộ dữ liệu hiện tại
2.4.1. Bộ dữ liệu HAM10000
Bộ dữ liệu HAM10000 ("Human Against Machine with 10000 training images") bao gồm 10,015 hình ảnh nội soi da của các bệnh nhân bị khối u lành tính hoặc ác tính, và là bộ dữ liệu traning cho cuộc thi ISIC 2018 (task 3).
Bộ dữ liệu HAM10000 là một bộ sưu tập đại diện của tất cả các loại chẩn đoán quan trọng trong lĩnh vực tổn thương sắc tố: dày sừng hoạt hóa và ung thư biểu mơ trong biểu mô / bệnh Bowen (akiec), ung thư biểu mô tế bào đáy (bcc), tổn thương giống như dày sừng lành tính (da sần mặt trời / dày sừng tiết bã và địa y- phù du như dày sừng, bkl), u xơ da (df), u ác tính (mel), u tế bào hắc tố (nv) và tổn thương mạch máu (u mạch, u mạch, u hạt sinh mủ và xuất huyết, mạch máu).
tích da Tuebinger sử dụng độ phóng đại 20x. Chúng là hình ảnh màu RGB 8-bit với độ phân giải 768x560 pixel.
Bộ dữ liệu này chứa tổng cộng 200 hình ảnh nội soi da của các tổn thương tế bào hắc tố, bao gồm 80 khối u thường gặp, 80 khối u khơng điển hình và 40 khối u ác tính. Bộ dữ liệu PH² bao gồm chú thích y tế của tất cả các hình ảnh, cụ thể là phân đoạn tổn thương, chẩn đoán lâm sàng và mơ học và đánh giá một số tiêu chí qua da (màu sắc; mạng sắc tố; chấm/hình cầu; vệt; vùng thoái triển; màn che màu trắng xanh).
Hình 2.12 Một số hình ảnh của bộ dữ liệu PH2.
2.4.3. Bộ dữ liệu MED-NODE
Bộ dữ liệu MED-NODE bao gồm 70 hình ảnh khối u ác tính và 100 hình ảnh nevus (bớt hoặc nốt ruồi bẩm sinh) của các bệnh nhân gốc da trắng từ kho lưu trữ hình ảnh kỹ thuật số của Khoa Da liễu của Trung tâm Y tế Đại học Groningen (UMCG). Bộ dữ liệu này chỉ chứa các khối u ác tính và nevi lan rộng bề ngồi. Đối với mỗi hình ảnh, đã được chẩn đoán và xác minh bởi thư từ y tế của Khoa Da liễu. Vùng quan tâm có da khỏe mạnh và vùng tổn thương được chọn thủ cơng từ mỗi hình
ảnh. Đồng thời, tóc và lơng cũng được loại bỏ thủ công bằng phần mềm Dullrazor. Các tác giả đã công bố cơng khai các hình ảnh ẩn danh và được xử lý trước tại
http://www.cs.rug.nl/~imaging/databases/melanoma_naevi.
Hình 2.13 Một số hình ảnh nevus của bộ dữ liệu MED-NODE.
Hình 2.14 Một số hình ảnh khối u ác tính của bộ dữ liệu MED-NODE.
2.4.4. Bộ dữ liệu Derm7pt
Bộ dữ liệu Derm7pt chứa 1011 hình ảnh nội soi da (252 trường hợp u hắc tố và 759 nevi), với tiêu chí danh sách kiểm tra 7 điểm. Các tác giả đề xuất một mạng lưới thần kinh xoắn sâu đa nhiệm vụ, được đào tạo dựa trên dữ liệu đa phương thức
• Sắc tố khơng đều.
• Biên giới bất thường.
• Viêm.
• Ngứa hoặc thay đổi cảm giác.
• Lớn hơn các tổn thương khác (đường kính > 7mm).
• Chảy nước / đóng vảy của tổn thương.
Chương 3. BỘ DỮ LIỆU ISIC 2020
3.1. Tổng quan
Bộ dữ liệu ISIC 2020 chứa 33,126 hình ảnh nội soi da của các tổn thương do u lành tính và ác tính từ hơn 2,000 bệnh nhân. Tất cả các chuẩn đốn ác tính đã được xác nhận thơng qua mơ bệnh học và các chuẩn đốn lành tính đã được xác nhận bằng thỏa thuận của chuyên gia, theo dõi định kỳ hoặc mô bệnh học.
Bộ dữ liệu này được tạo bởi International Skin Imaging Collaboration (ISIC) và hình ảnh được lấy từ các nguồn: Bệnh viện Clínic de Barcelona, Đại học Y khoa Vienna, Trung tâm Ung thư Memorial Sloan Kettering, Viện Ung thư hắc tố Úc, Đại học Queensland và Đại học Athens Medical School...
Bộ dữ liệu đã được tuyển chọn cho cuộc thi phân loại khối u ác tính SIIM-ISIC được tổ chức tại Kaggle vào mùa hè năm 2020.
3.2. Mô tả bộ dữ liệu
Bộ dữ liệu ISIC 2020 chứa các hình ảnh được cung cấp ở định dạng DICOM. Các hình ảnh có thể được truy cập bằng các thư viện thường có sẵn như pydicom và chứa cả hình ảnh và siêu dữ liệu. DICOM là một định dạng dữ liệu hình ảnh y tế được sử dụng phổ biến.
Hình ảnh cũng được cung cấp ở định dạng JPEG và TFRecord (trong thư mục jpeg và tfrecords, tương ứng). Hình ảnh ở định dạng TFRecord đã được thay đổi kích thước thành 1024x1024 đồng nhất. Bộ dữ liệu này được chia thành 2 tập: Training set (33,126 ảnh) và Testing set (10,982 ảnh).
Bộ dữ liệu ISIC 2020 được gán nhãn nhị phân cho mỗi hình ảnh, tương ứng 0 là biểu thị cho lành tính và 1 là biểu thị cho ác tính.
Các thuộc tính của bộ dữ liệu:
• image_name: định danh duy nhất, trỏ đến tên tệp của hình ảnh DICOM liên quan.
• patient_id: mã định danh bệnh nhân duy nhất.
• sex: giới tính của bệnh nhân (khi khơng xác định, sẽ để trống).
• age_approx: tuổi gần đúng của bệnh nhân tại thời điểm chụp ảnh.
• anatom_site_general_challenge: vị trí của khối u trên bộ phận cơ thể được chụp ảnh.
• diagnosis: thơng tin chẩn đốn chi tiết.
• benign_malignant: chỉ số về độ ác tính của tổn thương.
• target: phiên bản nhị phân của biến target.
3.3. Phân bố dữ liệu
Nhóm đã thống kê số lượng theo một số thuộc tính nổi bật (lành tính/ác tính, giới tính, độ tuổi) và trực quan lên các hình bên dưới.
Các trường hợp lành tính là 31,956 và các trường hợp u ác tính là 575.
Hình 3.2 Thống kê theo loại u trong bộ dữ liệu ISIC 2020. Có 15,743 bệnh nhân nữ trong bộ dữ liệu và 16,788 bệnh nhân nam. Có 15,743 bệnh nhân nữ trong bộ dữ liệu và 16,788 bệnh nhân nam.
Có 358 trường hợp nam ác tính so với 217 trường hợp nữ.
Hình 3.4 Thống kê loại u theo giới tính trong bộ dữ liệu ISIC 2020.
Độ tuổi trung bình của các bệnh nhân trong bộ dữ liệu là 49 và độ tuổi chiếm tỉ lệ cao nhất là từ 51 đến 60. Độ tuổi trong biểu đồ là hệ số 10 và độ tuổi được làm
trịn chục.
Hình 3.6 Thống kê dữ liệu theo vị trí khối u trên cơ thể bệnh nhân. Chú thích: Chú thích:
• head/neck: đầu hoặc cổ của bệnh nhân.
• upper extremity: hai cánh tay của bệnh nhân.
• tower extremity: hai chân của bệnh nhân.
• torso: phần thân (khơng có tứ chi và đầu/cổ) của bệnh nhân.
• palms/soles: lịng bàn tay/chân của bệnh nhân.
• oral/genital: miệng hoặc bộ phận sinh dục của bệnh nhân.
3.4. Biểu đồ về cường độ điểm ảnh
Hình 3.7 Ví dụ biểu đồ về cường độ điểm ảnh khối u lành tính. Kích thước hình ảnh: (4000, 6000).
Giá trị điểm ảnh tối đa: 255.0; Giá trị điểm ảnh tối thiểu: 0,0. Giá trị trung bình của các điểm ảnh: 169,9; Độ lệch chuẩn: 41,3.
Thuộc tính Giá trị image_name ISIC_2637011 patient_id IP_7279968 sex male age_approx 45 anatom_site_general_challenge head/neck diagnosis unknown benign_malignant benign target 0 image_path /kaggle/input/siim-isic-melanoma-classificatio... age_bin 5
Hình 3.8 Ví dụ biểu đồ về cường độ điểm ảnh khối u ác tính. Kích thước hình ảnh: (4000, 6000).
Giá trị điểm ảnh tối đa: 255.0; Giá trị điểm ảnh tối thiểu: 0,0. Giá trị trung bình của các điểm ảnh: 174,9; Độ lệch chuẩn: 36,9.
Thuộc tính Giá trị
image_name ISIC_0149568
patient_id IP_0962375
sex female
age_approx 55
anatom_site_general_challenge upper extremity
Chương 4. PHƯƠNG PHÁP CƠ SỞ
4.1. Phân loại đối tượng
Trong đồ án này, nhóm sử dụng một số mơ hình phân loại: EfficientNetB6, VGG16, ResNet152V2, InceptionResNetV2 và InceptionV3.
Trong đó, các mơ hình ResNet152V2, InceptionResNetV2, InceptionV3 là các mơ hình mới với độ chính xác cao. Đồng thời, các mơ hình này đều được tích hợp trong Keras của Tensorflow. Mặt khác, EfficientNetB6 và VGG16 là hai mơ hình được áp dụng trong một số nghiên cứu về xác định ung thư da trước đó. Vì vậy, nhóm lựa chọn các mơ hình này để áp dụng trên bộ dữ liệu ISIC-2020.
4.1.1. EfficientNetB6
Hình 4.1 Các mơ-đun được sử dụng để tạo kiến trúc EfficentNet. Chú thích:
• Mô-đun 1: Được sử dụng làm điểm bắt đầu cho các khối con.
• Mơ-đun 2: Được sử dụng làm điểm bắt đầu cho khối con đầu tiên của tất cả 7 khối chính ngoại trừ khối thứ nhất.
• Mơ-đun 3: Được kết nối dưới dạng kết nối bỏ qua với tất cả các khối con.
• Mô-đun 4: Được sử dụng để kết hợp kết nối bỏ qua trong các khối con đầu tiên.
• Mô-đun 5: Mỗi khối con được kết nối với khối con trước của nó trong một kết nối bỏ qua và chúng được kết hợp bằng cách sử dụng mô-đun này. Các mô-đun này được kết hợp thêm để tạo thành các khối con sẽ được sử dụng theo một cách nhất định trong các kiến trúc chính.
Hình 4.2 Các khối con Chú thích:
• Khối con 1: Khối này chỉ được sử dụng làm khối con đầu tiên trong khối đầu tiên.
• Khối con 2: Đây được sử dụng làm khối con đầu tiên trong tất cả các khối khác.
• Khối con 3: Khối này được sử dụng cho bất kỳ khối con nào ngoại trừ khối đầu tiên trong tất cả các khối.
Hình 4.3 Kiến trúc mơ hình EfficientNetB6.
4.1.2. VGG16
Mạng VGG, á quân của cuộc thi ILSVRC-2014, được đặc trưng bởi cấu trúc mạng sâu với bộ lọc chập nhỏ 3 × 3 so với mơ hình tiền nhiệm của nó, AlexNet. Nhóm VGG-VD đã giới thiệu sáu CNN chuyên sâu trong cuộc thi, trong đó có hai CNN thành cơng hơn những CNN khác, đó là VGG16 và VGG19.
VGG16 (Visual Geometry Group 16) bao gồm 13 lớp chập và ba lớp được kết nối đầy đủ. Mơ hình sử dụng một chồng các bộ lọc tích chập nhỏ 3 × 3 với bước 1, được theo sau bởi nhiều lớp phi tuyến tính (xem Hình 4.2). Điều này làm tăng độ sâu của mạng và góp phần học hỏi các tính năng phức tạp hơn. Kết quả ấn tượng của VGG cho thấy độ sâu của mạng là một yếu tố quan trọng để có được độ chính xác phân loại cao.
Hình 4.4 Kiến trúc mơ hình của VGG16.
lớp trọng lượng. Trong lĩnh vực nhận dạng hình ảnh và các nhiệm vụ bản địa hóa, ResNet có hiệu suất mạnh mẽ chứng tỏ tầm quan trọng của nhiều nhiệm vụ nhận dạng trực quan.
4.1.4. InceptionResNetV2
Hình 4.6 Kiến trúc mơ hình của InceptionResNetV2.
Mạng này được xây dựng bằng cách tích hợp hai CNN chuyên sâu thành công nhất, ResNet và Inception, trong đó chuẩn hóa hàng loạt chỉ được sử dụng trên đầu các lớp truyền thống, thay vì trên đầu các bản tóm tắt. Đặc biệt, các mơ-đun cịn lại được sử dụng để cho phép tăng số lượng khối Inception và do đó, tăng độ sâu của mạng. Như đã đề cập trước đó, vấn đề rõ ràng nhất liên quan đến các mạng rất sâu là giai đoạn huấn luyện, có thể được giải quyết bằng cách sử dụng các kết nối còn lại. Mạng giảm tỷ lệ phần dư là một cách tiếp cận hiệu quả để giải quyết vấn đề đào tạo khi một số lượng lớn bộ lọc (lớn hơn 1,000 bộ lọc) được sử dụng trong mạng. Cụ thể, các biến thể cịn lại gặp phải sự cố khơng ổn định và mạng không thể được đào tạo khi số lượng bộ lọc vượt quá 1,000. Do đó, việc mở rộng phần dư góp phần ổn định đào tạo mạng. Hình 4.5 minh họa dạng xem nén của InceptionResNetV2 được sử dụng trong nghiên cứu này.
4.1.5. InceptionV3
Hình 4.7 Kiến trúc mơ hình của InceptionV3.
GoogleNet, người chiến thắng trong phân loại và theo dõi phát hiện của cuộc thi ILSVRC-2014, là một trong những thế hệ CNN không tuần tự đầu tiên. Trong mạng này, cả chiều sâu (tức là số lượng cấp độ) và chiều rộng (tức là số lượng đơn vị ở mỗi cấp độ), đều được tăng lên mà khơng gây ra căng thẳng tính tốn. GoogleNet được phát triển dựa trên ý tưởng rằng một số kết nối giữa các lớp không hiệu quả và có thơng tin dư thừa do mối tương quan giữa chúng. Theo đó, nó sử dụng “Mơ-đun Inception”, một CNN thưa thớt, với 22 lớp trong quy trình xử lý song song và được hưởng lợi từ một số bộ phân loại phụ trợ trong các lớp trung gian để cải thiện khả năng phân biệt ở các lớp thấp hơn. Trái ngược với các CNN thông thường như AlexNet và VGG, trong đó hoạt động tích hợp hoặc tổng hợp có thể được sử dụng ở mỗi cấp, mơ-đun Inception có thể được hưởng lợi từ cả hai ở mỗi lớp. Hơn nữa, các