1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu Ứng dụng kỹ thuật học sâu trong chẩn Đoán giải phẫu bệnh ung thư biểu mô tuyến vú thể Ống xâm nhập lĩnh vực phần mềm hệ thống

17 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Ứng Dụng Kỹ Thuật Học Sâu Trong Chẩn Đoán Giải Phẫu Bệnh Ung Thư Biểu Mô Tuyến Vú Thể Ống Xâm Nhập
Trường học Trường Đại Học Nghệ An
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo
Năm xuất bản 2023
Thành phố Nghệ An
Định dạng
Số trang 17
Dung lượng 8,75 MB

Nội dung

Khả năng của học sâu được ứng dụng vào việc xử lý hình ảnh y khoa nhằm phân loại và chẩn đoán bệnh qua hình ảnh mẫu sinh thiết bằng khả năng học những đặc trưng của mẫu sinh thiết.. Dựa

Trang 1

SỞ GIÁO DỤC VÀ ĐÀO TẠO NGHỆ AN CUỘC THI KHKT CẤP TỈNH HỌC SINH TRUNG

HỌC NĂM HỌC 2022 – 2023

BÁO CÁO TÓM TẮT KẾT QUẢ NGHIÊN CỨU DỰ ÁN

NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC SÂU TRONG CHẨN ĐOÁN GIẢI PHẪU BỆNH UNG THƯ BIỂU MÔ TUYẾN VÚ THỂ ỐNG XÂM NHẬP

LĨNH VỰC: PHẦN MỀM HỆ THỐNG

MÃ DỰ THI: 01.42

Trang 2

Nghệ An, tháng 01 năm 2023

A MỞ ĐẦU

1 Lý do chọn đề tài

Ung thư hiện là một trong những căn bệnh hiểm nghèo nguy hiểm, chưa có cách phòng bệnh Theo thống kê của Hiệp hội quốc tế nghiên cứu ung thư (IARC) thuộc Tổ chức y tế thế giới (WHO), vào năm 2022 trên thế giới có khoảng 9,6 triệu người chết vì ung thư, hơn 18,1 triệu ca mắc mới Riêng tại Việt Nam, mỗi năm có thêm 183 nghìn ca mắc ung thư và gần 123 nghìn ca tử vong do ung thư Trong đó bệnh ung thư vú chiếm tỉ lệ lớn thứ ba trong số các loại ung thư, chiếm tới 11,8% Trong các loại ung thư vú, ung thư biểu mô tuyến vú thể ống xâm nhập chiếm từ 65-80% trường hợp mắc bệnh Để giảm tỉ lệ tử vong vì bệnh, các gánh nặng xã hội, cần phải có những phương pháp xét nghiệm tốt nhất để phát hiện bệnh

Hiện nay đã có nhiều phương pháp để tìm ra khối u trong vú như siêu âm, chụp X quang, v.v… nhưng để xác định khối u là lành tính hay ác tính phải sử dụng tới xét nghiệm giải phẫu bệnh, từ đó có thể đưa ra những kết luận chính xác nhất Giải phẫu bệnh là tiêu chuẩn vàng nhằm đưa ra chẩn đoán quan trọng tuy nhiên việc phân tích kết quả cần thông qua bác sĩ, điều đó dẫn đến kết quả xét nghiệm phụ thuộc vào sự phán đoán chủ quan của bác sĩ phân tích

Với sự phát triển mạnh của công nghệ hiện nay, việc ứng dụng Trí tuệ nhân tạo vào việc xét nghiệm là rất cần thiết, rút ngắn được thời gian xét nghiệm, hỗ trợ Bác sĩ xét nghiệm và tăng tính khách quan của kết quả trong quá trình chuẩn đoán Học sâu (deep learning) là một trong những phương pháp hiện đại nhất trong việc

xử lý phân loại hình ảnh (image classification) Khả năng của học sâu được ứng dụng vào việc xử lý hình ảnh y khoa nhằm phân loại và chẩn đoán bệnh qua hình ảnh mẫu sinh thiết bằng khả năng học những đặc trưng của mẫu sinh thiết Dựa vào khả năng ưu việt trong việc xử lý và phân loại hình ảnh đó, chúng em đã

nghiên cứu và lựa chọn đề tài “Nghiên cứu ứng dụng kỹ thuật học sâu trong chẩn

đoán giải phẫu bệnh ung thư biểu mô tuyến vú thể ống xâm nhập”.

2 Câu hỏi nghiên cứu

Làm thế nào để tạo ra được một hệ thống phần mềm có thể đưa ra kết quả xét nghiệm một cách nhanh chóng và chính xác ung thư biểu mô tuyến vú thể ống xâm nhập từ mẫu bệnh phẩm sinh thiết, phù hợp với điều kiện ở Việt Nam?

Trang 3

3 Mục đích nghiên cứu

Ứng dụng học sâu vào xét nghiệm bằng cách xây dựng một mô hình mạng nơ-ron nhân chập (Convolutional Neural Network – viết tắt CNN) chuẩn đoán khả năng hình ảnh mẫu sinh thiết từ khối u từ đó đưa ra kết luận khối u là lành tính hay

ác tính với độ chính xác trên 92%

4 Tính mới của đề tài

- Mô hình cho kết quả nhanh chóng và với độ chính xác cao (trên 92%) và đặc biệt khi bác sỹ thử nghiệm trực tiếp với các mẫu mô của bệnh nhân tại bệnh viện cho độ chính xác 100%

- Đã xác định được giải pháp xử lý hình ảnh từ ảnh mẫu mô bệnh học trong điều kiện thiết bị tại bệnh viện ở Việt Nam để mô hình cho độ chính xác tốt nhất trong việc chẩn đoán trên hình ảnh đó

B PHƯƠNG PHÁP NGHIÊN CỨU

1 Kế hoạch và phương pháp lý thuyết

- Thu thập số liệu thống kê về tỷ lệ người bị ung thư vú

- Nghiên cứu mô bệnh học ung thư biểu mô tuyến vú thể ống xâm nhập (IDC)

- Tìm hiểu về các phương pháp chẩn đoán ung thư vú thông qua giải phẫu bệnh hiện nay, tìm ra những ưu nhược điểm của các phương pháp này Từ đó nghiên cứu các giải pháp khắc phục để phù hợp với các điều kiện ở Việt Nam

- Nghiên cứu các phương pháp sử dụng trí tuệ nhân tạo trong chẩn đoán Y khoa bằng hình ảnh

- Nghiên cứu các phương pháp phân loại, xử lý hình ảnh và các kiến trúc mạng nhân chập

2 Kế hoạch và phương pháp thực nghiệm

- Từ 27/03/2022 đến 27/04/2022: tìm hiểu thực trạng bệnh ung thư, đặc biệt là

ung thư biểu mô tuyến vú thể ống xâm nhập ở Việt Nam và trên thế giới

- Từ 28/04/2022 đến 28/05/2022: tìm hiểu ứng dụng của Deep Learning trong

phân loại và xử lý hình ảnh y khoa

Trang 4

- Từ 29/05/2022 đến 29/10/2022: Sử dụng tập dữ liệu Invasive Ductal

Carcinoma (IDC) Histology Image Dataset và so sánh một số kiến trúc mạng học

sâu như DenseNet169, ResNet50, EfficientNet B0, nhằm xem xét mức độ đạt hiệu quả cao nhất trong chẩn đoán bệnh hình ảnh cho bệnh ung thư thể ống xâm nhập

- Từ 29/10/2022 đến 13/11/2022: Thu thập hình ảnh thực tế ở bệnh viện Ung

Bướu Nghệ An thông qua kính hiển vi bằng cách sử dụng camera của kính hiển vi chụp ảnh mẫu mô bệnh học

- Từ 14/11/2022 đến 01/12/2022: Xử lý hình ảnh thực tế của 35 bệnh nhân thu

thập được ở bệnh viện

- Từ 01/12/2022 đến 19/12/2022: Chạy thử và đánh giá một số mô hình trên

hình ảnh thực tế đã xử lý

3 Cơ sở lý thuyết

3.1 Giải phẫu bệnh

Giải phẫu bệnh là làm các xét nghiệm, chẩn đoán vi thể mô bệnh học, tế bào bệnh học, sinh học phân tử trong bệnh ung thư giúp cho lâm sàng có chẩn đoán xác định, điều trị thích hợp và theo dõi người bệnh sau điều trị Sau khi thực hiện thủ thuật, bệnh phẩm lấy từ khối u của bệnh nhân được mang đi làm xét nghiệm tại Khoa Giải phẫu bệnh Kết quả sinh thiết có thể có trong ngày hoặc mất từ 2 - 5 ngày, phụ thuộc vào lượng mô lấy ra và loại xét nghiệm Thông qua quan sát mẫu sinh thiết dưới kính hiển vi, bác sĩ sẽ chẩn đoán bệnh dựa vào đặc điểm hình ảnh vi thể của các loại ung thư Hình ảnh vi thể của ung thư biểu mô tuyến vú thể ống xâm nhập (IDC) thường biểu hiện các đám tế bào biểu mô nhân tròn không đều, có thể xen kẽ các tế bào đứng riêng lẻ hoặc các tế bào xếp thành các dây, như mình họa trong các Hình 1 và 2 Những hình ảnh này không tương ứng với bất kỳ hình ảnh mô học thể đặc biệt nào của các loại mô học đặc biệt khác Một số vùng có thể hình thành lòng ống hoặc lòng tuyến thứ phát Các đám tế bào hoặc các ống không được bao quanh bởi lớp cơ biểu mô như trong mô vú lành Sự biểu hiện hình ảnh

vi thể rất đa dạng phụ thuộc vào mức độ biệt hóa tế bào u Càng biệt hóa cao thì mức độ hình thành ống nhỏ càng nhiều, mức độ đa dạng của nhân ít và hoạt động nhân chia ít

3.2 Học máy và học sâu

Trang 5

Học máy (machine learning) là một lĩnh vực con của Trí tuệ nhân tạo (Artificial Intelligence) liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết những vấn đề cụ thể mà không cần phải được lập trình từ trước Theo phương thức học, các thuật toán học máy thường được chia làm 4 nhóm: Học có giám sát (supervised learning), học không có giám sát (unsupervised learning), học bán giám sát (semi-supervised learning) và học tăng cường (reinforcement learning)

Những năm gần đây, khi mà khả năng tính toán của các máy tính được nâng lên một tầm cao mới, học máy đã tiến thêm một bước dài và một lĩnh vực mới được ra đời gọi là học sâu (deep learning) Là một phạm lĩnh vực con của học máy,

Hình 1 Mẫu sinh thiết cho thấy ung thư biểu mô nhú xâm nhập với các cấu trúc

xâm nhập rõ ràng (H&E, độ phóng đại 40 lần)

Hình 2 Một hình ảnh mẫu mô bệnh học thực tế dương tính với IDC thu thập tại

bệnh viện Ung bướu Nghệ An

Trang 6

học sâu được xây dựng dựa trên mạng thần kinh nhân tạo (artificial neural network) để mô phỏng cách vận hành của não người Hiện nay, kỹ thuật học sâu cho phép giải quyết các bài toán như nhận diện giọng nói, thị giác máy tính (computer vision), xử lý ngôn ngữ tự nhiên, v.v đạt đến trình con người

3.3 Mạng nơ-ron tích chập

Mạng nơ-ron tích chập (CNN) là một kỹ thuật phân loại hiệu quả các hình ảnh (image classification) của các vật thể trong các kỹ thuật học sâu [9] Cấu trúc của một mạng nơ gồm hai phần như được minh họa ở Hình 3, trong đó:

- Phần tầng ẩn (hidden layers) hay phần trích xuất đặc trưng: mạng sẽ tiến hành tính toán hàng loạt phép nhân chập (convolution) và tổng hợp (pooling) để phát hiện các đặc trưng

- Phần phân lớp (classification): là một tầng mạng với các liên kết đầy đủ để đóng vai trò như một bộ phân lớp các đặc trưng đã trích xuất được trước đó Tầng này sẽ đưa ra xác suất của một đối tượng trong hình ảnh đầu vào

3.4 Phương pháp đánh giá quá trình thực nghiệm

Chúng em dùng công thức sau để tính toán độ chính xác của các mô hình học sâu trên bộ dữ liệu kiểm tra (test):

Accuracy = TP +TN +FP+FN TP+TN ×100 % ,

trong đó TP (true positive) là số kết quả đúng với dương tính (tức là lớp có nhãn dương); TN (true negative) là số kết quả đúng với âm tính (tức là lớp có nhãn âm);

FP (false positive) là số kết quả sai với dương tính; FN (false negative) là số kết quả sai với âm tính

Hình 3 Cấu trúc của một mạng CNN (Nguồn: https://www.researchgate.net)

Trang 7

3.5 Tập dữ liệu Invasive Ductal Carcinoma (IDC) Histology Image

Bộ dữ liệu hình ảnh gốc của Invasive Ductal Carcinoma (IDC) Histology Image Dataset bao gồm 162 hình ảnh được chụp ở độ phóng đại 40 lần Những hình ảnh trong bộ dữ liệu hình ảnh gốc rất lớn về kích thước Để giảm bớt dung lượng và tập trung vào các phần có mẫu vật, từ những hình ảnh trên, tổng cộng 277,524 hình ảnh nhỏ có kích thước 50×50 pixel đã được trích xuất, bao gồm 198,738 hình ảnh âm tính với IDC và 78786 hình ảnh dương tính với IDC Tất cả các hình ảnh trên đã được chẩn đoán bởi các bác sĩ mô học lành nghề, được quản

lý bởi Janowczyk, Madabhushi và Roa

Mỗi hình ảnh trong bộ dữ liệu có một cấu trúc tên tệp cụ thể như sau:

u_xX_yY_classC.png, trong đó u là ID bệnh nhân, X là tọa độ x của vị trí hình ảnh

này được cắt từ đó, Y là tọa độ y của vị trí hình ảnh này được cắt và lớp C biểu thị

hình ảnh là âm hay dương tính với IDC (0 là âm tính, 1 là dương tính)

Một ví dụ về tên tệp hình ảnh trong tập dữ liệu là: 10253_idx5_x1351_y1101

_class0.png và chúng ta có thể hiểu tên tệp gồm: (i) ID bệnh nhân: 10253_idx5; (ii) Tọa độ x của hình ảnh: 1.351; (iii) Tọa độ y của hình ảnh: 1.101; và (iv) Lớp: 0 (âm

tính với IDC)

C QUÁ TRÌNH NGHIÊN CỨU

1 Thu thập dữ liệu

Chúng em chọn bộ dữ liệu Invasive Ductal Carcinoma (IDC) Histology

Image Dataset làm tập dữ liệu huấn luyện (training set) và tập dữ liệu thẩm định

Hình 4 Một trong những hình ảnh ban đầu của tập dữ liệu Invasive Ductal

Carcinoma (IDC) Histology Image Dataset.

 

Trang 8

(validation set) cho mô hình học sâu Hình ảnh mô bệnh học thực tế được chúng

em thu thập bằng cách quét trực tiếp trên tiêu bản thông qua kính hiển vi, camera

và phần mềm RisingView tại bệnh viện Ung bướu Nghệ An, như Hình 5 Kết quả thu thập được 35 ảnh quét từ 35 bệnh nhân

2 Phân phối dữ liệu

Bộ dữ liệu của chúng em bao gồm 277,524 hình ảnh màu của mẫu sinh thiết,

mỗi hình ảnh có một mã riêng (ID) của từng bệnh nhân, tọa độ x, y của hình ảnh đó

trong hình ảnh gốc, trong đó bộ huấn luyện bao gồm 80% số hình ảnh, bộ thẩm định bao gồm 20% số hình ảnh, tất cả các bộ trên được chia bằng một cách ngẫu nhiên dựa trên một thủ tục lập trình

3 Tiền xử lý dữ liệu

3.1 Đánh giá tổng quát tập dữ liệu

Chúng em nhận thấy số lượng hình ảnh trên mỗi bệnh nhân đều có sự khác nhau, tỉ lệ số hình ảnh dương tính và âm tính đều chênh lệch, thậm chí có các bệnh nhân có tỉ lệ hình ảnh dương tính với IDC lên tới trên 80%

Hình 5 Thu thập dữ liệu thực tế tại bệnh viện Ung bướu Nghệ An.

Trang 9

Điều đó đặt ra hai câu hỏi: (i) liệu một mẫu hình ảnh mô gốc có hoàn toàn tách ra được các hình ảnh đều dương tính với IDC hay không? và (ii) liệu một mẫu

mô xét nghiệm có bao phủ được khu vực chứa các tế bào ung thư hay không?

Từ các tọa độ x, y có trong tên tệp hình ảnh, chúng em tái tạo lại sơ đồ hình

ảnh mô gốc như Hình 7, trong đó màu xanh là âm tính và màu đỏ là dương tính Từ

đó, chúng em nhận thấy rằng:

- Một mẫu hình ảnh mô luôn có những phần âm tính và những phần dương tính vì vậy cần phải cẩn thận trong việc xử lý hình ảnh mô thực tế để đạt hiệu quả cao

- Những vùng dương tính với IDC thường có màu tím sẫm hơn so với những vùng còn lại do mật độ nhân tế bào cao hơn so với vùng âm tính

Hình 6 Một số thông tin đánh giá chung về bộ dữ liệu

Hình 7 Phân bố các vùng dương tính

Trang 10

Khi đánh giá tổng quan các hình ảnh trong bộ dữ liệu trên đối với hình ảnh thực tế tại Việt Nam, nếu chỉ xét một số yếu tố ở cấp độ tế bào như kích thước nhân, tỉ lệ nhân trên bào tương, số lượng nhân, mật độ nhân đều tương đương nhau, các yếu tố bên ngoài như ảnh sáng, độ tương phản của thuốc nhuộm sẽ là các yếu tố tạo nên sự khác nhau của hai nguồn dữ liệu Từ đó, cần phải có quy trình xử

lý hình ảnh thực tế để đảm bảo được độ hiệu quả cao nhất

3.2 Tiền xử lý đối với dữ liệu huấn luyện

Trong học máy, một mô hình sau khi huấn luyện có thể đạt hiệu quả không tốt khi dự đoán với một dữ liệu mới Điều này xảy ra là do mô hình khi huấn luyện chưa tổng quát hoá được với toàn bộ tập dữ liệu vì cơ bản, tập huấn luyện chỉ là một tập nhỏ chưa thể đại diện cho toàn thể dữ liệu và hơn nữa có thể nó còn bị nhiễu Để tránh trường hợp mô hình quá khớp (overfitting) với tập huấn luyện nhưng khi sử dụng dự đoán với dữ liệu mới thì lại không phù hợp (underfitting), chúng em sẽ thực hiện phương pháp sinh thêm nhiều dữ liệu huấn luyện từ dữ liệu

đã có (data augmentation) Tại quá trình này, chúng em sử dụng các phương pháp tăng cường dữ liệu của thư viện Albumentations

Cụ thể, dựa trên xác suất ngẫu nhiên, thông số kỹ thuật của ảnh được điều chỉnh để tạo ra ảnh mới Chúng em đã dùng phương pháp xoay (rotation), phương pháp lật ảnh ngang, dọc (flip), phương pháp tăng giảm độ sáng, tương phản (brightness, contrast) nhằm tăng tính đa dạng của bộ dữ liệu Với mỗi ảnh, chúng

em sẽ tạo ra nhiều ảnh mới từ ảnh gốc ban đầu

4 Thiết kế thuật toán

Trong đề tài này, chúng em sử dụng phương pháp học giám sát Về bản chất,

học có giám sát là các thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Theo đó, chúng em

tiến hành các bước để thiết kế thuật toán như sau:

4.1 Chia tách dữ liệu ở training set

Trang 11

Trên thực tế, hàm số f sau khi được tìm ra trong bộ dữ liệu huấn luyện cần phải được kiểm tra lại, bởi f mới chỉ được máy sinh ra để đáp ứng với một khối

lượng dữ liệu nhất định và có thể không đúng đối với các bộ dữ liệu khác Chính vì thế, bộ dữ liệu sau khi trải qua bước tiền xử lý và tách ra 10% dữ liệu để làm bộ dữ liệu kiểm tra (test set) được chúng em thực hiện chia tách, lấy 70% dữ liệu là phần

để huấn luyện (training set) và 20% dữ liệu để thẩm định (validation set) và đảm bảo không có điểm chung giữa những hình ảnh của hai phần

4.2 Xây dựng mô hình phân loại nhãn của mẫu mô

Chúng em sử dụng sử dụng framework Pytorch với thư viện fastai huấn luyện

mô hình với bộ dữ liệu của đề tài Do điều kiện thiết bị không đáp ứng được với việc huấn luyện mô hình, chúng em đã sử dụng Google Colab để chạy mã lệnh để huấn luyện

Trong các nghiên cứu trên thế giới về ứng dụng học sâu trong chẩn đoán IDC, các kiến trúc mạng nhân chập chỉ đạt hiệu quả trong khoảng 88%-90% Vì vậy, chúng em sử dụng các kiến trúc mạng nhân chập khác nhau để so sánh tỷ lệ nhận

dạng chính xác cho: (i) bộ dữ liệu lấy từ mạng; (ii) bộ dữ liệu thu thập từ bệnh viện

Ung biếu Nghệ An; với kết quả như trong Bảng 1 Chúng em thấy rằng mô hình Efficientnet-b0 cho độ chính xác cao nhất trong các mô hình được chọn thực nghiệm Sự đột phá của kiến trúc Efficientnet-b0 có thể được giải thích như sau: Kiến trúc Efficientnet-b0 tuy có số lượng tham số tương đương với các kiến trúc

cũ nhưng các lớp của kiến trúc này có khả năng trích xuất các đặc điểm của ảnh

mô bệnh học như số lượng, mật độ nhân tế bào

Bảng 1 Hiệu quả của các kiển trúc mạng Kiến trúc Độ hiệu quả với bộ test

trên mạng

Độ hiệu quả với bộ test tại bệnh viện Ung biếu (chưa cải tiến)

ResNet34 88,2% (50x50 px) 7,2% (50x50 px)

EfficientNet B0 92,3% 10,1%

4.3 Tiền xử lý đối với dữ liệu thực tế khi đưa vào model đã có

Ngày đăng: 23/01/2025, 16:25

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[14] Alexandra Deis, Data Augmentation for Deep Learning Khác
[15] Cezary Z. Janikow, A Knowledge-Intensive Genetic Algorithm for Supervised Learning Khác
[16] F. Chollet, Xception: Deep learning with depthwise separable convolutions, arXiv preprint Khác
[17] K. Simonyan, A. Zisserman, Very deep convolutional networks for large-scale image recognition,arXiv Khác
[18] Yan Li1,2, Jun Xu3, Lei Gong3 and Juan Liu4, Computer-aided prognosis on breast cancer with hematoxylin and eosin histopathology images: A review Khác
w