CUỘC THI KHKT CẤP TỈNH DÀNH CHO HỌC SINH TRUNG HỌC ***** Kế hoạch nghiên cứu dự án: ỨNG DỤNG DEEP LEARNING TRONG CHẨN ĐOÁN UNG THƯ DI CĂN HẠCH QUA MẪU SINH THIẾT MÔ HẠCH BẠCH HUYẾT L
Trang 1CUỘC THI KHKT CẤP TỈNH DÀNH CHO HỌC SINH TRUNG HỌC
*****
Kế hoạch nghiên cứu dự án:
ỨNG DỤNG DEEP LEARNING TRONG CHẨN ĐOÁN UNG THƯ DI CĂN HẠCH QUA MẪU SINH THIẾT MÔ HẠCH BẠCH HUYẾT
Lĩnh vực: Phần mềm hệ thống
Nghệ An - 12/2019
Trang 2A LÝ DO CHỌN ĐỀ TÀI
Theo thống kê của Hiệp hội quốc tế về nghiên cứu ung thư (IARC) trực thuộc
Tổ chức y tế thế giới (WHO), có khoảng 9.6 triệu người chết vì ung thư và hơn 18.1 triệu ca mắc ung thư mới vào năm 2018 và dự đoán con số này sẽ lên tới 27.5 triệu vào năm 2040 Cũng theo IARC, tại Việt Nam, mỗi năm có thêm
164671 ca mắc ung thư và có gần 114 871 ca tử vong do ung thư Gánh nặng ung thư đang thực sự trở nên đáng báo động, đặt ra những yêu cầu cấp thiết trong việc chẩn đoán căn bệnh quái ác này trên toàn thế giới
Phương pháp sinh thiết được coi là tiêu chuẩn vàng trong đánh giá ung thư Trong đó, sinh thiết hạch bạch huyết có vai trò vô cùng lớn trong việc xác định giai đoạn ung thư, từ đó giúp bác sĩ đưa ra được phác đồ điều trị hợp lý nhất Trên thực tế, sau khi mô hạch bạch huyết được lấy từ cơ thể bệnh nhân, việc thực hiện phân tích mẫu mô được bác sĩ bệnh lý học tiến hành dưới kính hiển vi để phát hiện các bất thường trong cấu trúc tế bào Mặt khác, quá trình chẩn đoán giải phẫu bệnh này có thể được thực hiện ngay trong quá trình phẫu thuật nhằm đưa ra phán đoán về tình trạng di căn Vì vậy, cần thiết phải nghiên cứu một phương pháp khác giúp hỗ trợ bác sĩ trong việc đưa ra chẩn đoán mẫu mô một cách chính xác trong thời gian ngắn nhất
Cùng với đó, trong thời đại hiện nay, việc áp dụng các ứng dụng công nghệ cao vào cuộc sống, đặc biệt là trong việc chẩn đoán y khoa đang ngày một phổ biến Machine Learning - thuật toán kiến tạo quá trình tự học của máy tính - là một trong những công nghệ tin học hàng đầu hiện nay trong mảng nhận diện, dự đoán và tự động hóa Nhận thấy thuật toán nàycó khả năng áp dụng cao trong việc chẩn đoán bệnh dựa trên hình ảnh, chúng em đã nghiên cứu và lựa chọn đề
tài này
B TỔNG QUAN VỀ NGHIÊN CỨU
I Câu hỏi nghiên cứu
Làm sao có thể sử dụng trí tuệ nhân tạo để xác định được ung thư đã di căn qua mô hạch bạch huyết hay chưa một cách chính xác, nhanh chóng và phù hợp với điều kiện ở Việt Nam?
II Mục tiêu nghiên cứu
Xây dựng được một model Convolutional Neural Network chẩn đoán khả
Trang 3năng hình ảnh mẫu mô hạch bạch huyết chứa tế bào ung thư di căn từ đó đưa ra kết luận là ung thư đã di căn qua mô hạch bạch huyết hay chưa với độ chính xác trên 95%
III Kết quả dự kiến
- Mô hình cho kết quả nhanh chóng và với độ chính xác cao
- Xác định được giải pháp xử lý hình ảnh từ ảnh mẫu mô hạch bạch huyết để
mô hình cho độ chính xác tốt nhất
- Tạo được phần mềm trên máy tính cho người dùng dễ sử dụng
C PHƯƠNG PHÁP NGHIÊN CỨU
I Tiến trình nghiên cứu
II Phân tích dữ liệu
Tiến hành chọn lọc dữ liệu ở bộ dữ liệu Camelyon: PatchCamelyon (PCam) Dataset (100 ảnh WSIs)
Trang 4Tiến hành khảo sát thực tế tại khoa Giải phẫu bệnh của các bệnh viện: Bệnh viện Ung Bướu Nghệ An, Bệnh viện K Trung Ương, Bệnh viện Bạch Mai
để thu thập hình ảnh mẫu mô hạch của bệnh nhân ung thư và tham khảo ý kiến của các chuyên gia, các y bác sĩ tại các bệnh viện
Kết quả: Thu thập 150 ảnh WSI từ các bệnh viện trên để sử dụng trong quá trình huấn luyện (75 ảnh) và kiểm tra đối chiếu với kết quả chẩn đoán của bác sĩ (75 ảnh)
III Kết quả
Mô hình ứng dụng Deep Learning để chẩn đoán ung thư di căn hạch qua hình ảnh mẫu mô sinh thiết hạch bạch huyết đã phân biệt được thành công đặc trưng của mẫu mô âm tính với tế bào ung thư và mẫu mô có chứa tế bào ung thư
di căn với độ chính xác cao trong một thời gian ngắn Vì vậy, mô hình này sẽ là một công cụ hỗ trợ đắc lực cho các y bác sĩ trong việc chẩn đoán bệnh, rút ngắn thời gian chẩn đoán, từ đó đem lại hiệu quả cao hơn trong việc chữa trị cho bệnh nhân
D TÀI LIỆU THAM KHẢO
[1] Freddie Bray, Jacques Ferlay, Isabelle Soerjomataram , Rebecca L Siegel, Lindsey A Torre, Ahmedin Jemal, Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries [2] Lymph node Biopsy https://www.healthline.com/health/lymph-node-biopsy [3] 1 Md Zahangir Alom, Chris Yakopcic, Tarek M Taha, and Vijayan K Asari, Department of Electrical and Computer Engineering, University of Dayton, OH, USA, Cancer Classification from Histopathological Images with Inception Recurrent Residual Convolutional Neural Network
[4] 2 Sara Hosseinzadeh Kassani, Peyman Hosseinzadeh Kassani, Michal J Wesolowski, Kevin A Schneider, Ralph Deters, Classification of Histopathological Biopsy Images Using Ensemble of Deep Learning Networks [5] Fahad Lateef and Yassine Ruichek 2019 Survey on semantic segmentation using deep learning techniques Neurocomputing 338 (2019), 321 – 348
[6] Hiệp hội phòng chống ung thư quốc tế (UICC), What is TNM?,
[7] Andrew H Fischer, Kenneth A Jacobson, Jack Rose, Rolf Zeller, Hematoxylin
Trang 5and Eosin Staining of Tissue and Cell Sections
[8] Chris Meserole, What is machine learning?
[9] Charles Yang, Deep Learning in Science
[10] https://towardsdatascience.com/deep-learning-in-science-fd614bb3f3ce [11] Bruce A Beckwith, Department of Pathology, North Shore Medical Center Salem, USA, Standards for Digital Pathology and Whole Slide Imaging
[12] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, "ImageNet Classification with Deep Convolutional Neural Networks"
[13] Patch-Camelyon Grand Challenges https://camelyon17.grand-challenge.org/Data/
[14] M Sezgin & B Sankur (2004) "Survey over image thresholding techniques
and quantitative performance evaluation" Journal of Electronic Imaging.
[15] Christian Szegedy, Google Inc., Wei Liu, University of North Carolina, Chapel Hill, Yangqing Jia, Google Inc., Pierre Sermanet, Google Inc., Scott Reed, University of Michigan, Dragomir Anguelov, Google Inc., Dumitru Erhan Google Inc., Vincent Vanhoucke, Google Inc., Andrew Rabinovich, Google Inc.,
"Going deeper with convolutions"
[16] Ehteshami Bejnordi et al Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases Cancer JAMA: The Journal of the American Medical Association, 318(22), 2199–2210
[17] B S Veeling, J Linmans, J Winkens, T Cohen, M Welling "Rotation Equivariant CNNs for Digital Pathology"
[18] C Galambos, J Kittler, J Matas Gradient-based Progressive Probabilistic Hough Transform IEE Proc of Vision, Image and Signal Processing, vol 148 (3), pp 158-165, 2001
[19] Elite Data Science, Overfitting in Machine Learning: What It Is and How to Prevent It
[20] Alexandra Deis, Data Augmentation for Deep Learning
[21] Cezary Z Janikow, A Knowledge-Intensive Genetic Algorithm for Supervised Learning
[22] Raimi Karim, Illustrated: 10 CNN Architectures, A compiled visualisation of
Trang 6the common convolutional neural networks
[23] F Chollet, Xception: Deep learning with depthwise separable convolutions, arXiv preprint
[24] K Simonyan, A Zisserman, Very deep convolutional networks for large-scale image recognition
[25] Yun Liu, Timo Kohlberger, Mohammad Norouzi, George E Dahl, Jenny L Smith, Arash Mohtashamian, Niels Olson, Lily H Peng, Jason D Hipp,
and Martin C Stumpe (2019) Artificial Intelligence–Based Breast Cancer Nodal
Metastasis Detection: Insights Into the Black Box for Pathologists Archives of Pathology & Laboratory Medicine: July 2019, Vol 143, No 7, pp 859-868 [26] Wang, D., et al.: Deep learning for identifying metastatic breast cancer
[27] Yun Liu, Google Brain, et al.: Detecting Cancer Metastases on Gigapixel Pathology Images
Trang 7
A MỞ ĐẦU
1 Lý do chọn đề tài
Theo thống kê của Hiệp hội quốc tế về nghiên cứu ung thư (IARC) trực thuộc Tổ chức y tế thế giới (WHO), có khoảng 9,6 triệu người chết vì ung thư, hơn 18,1 triệu ca mắc ung thư mới vào năm 2018 và dự đoán con số này sẽ lên tới 27,5 triệu vào năm 2040 Cũng theo IARC, tại Việt Nam, mỗi năm có thêm 164.671 ca mắc ung thư và có gần 114.871 ca tử vong do ung thư [1] Gánh nặng ung thư đang thực sự trở nên đáng báo động, đặt ra những yêu cầu cấp thiết trong việc chẩn đoán căn bệnh quái ác này
Trong chẩn đoán ung thư, sinh thiết hạch bạch huyết có vai trò vô cùng lớn, được sử dụng để xác định xem ung thư đã di căn hay chưa để từ đó giúp bác sĩ đưa ra được phác đồ điều trị hợp lý nhất Trên thực tế, sau khi mô hạch bạch huyết được lấy từ bệnh nhân, việc thực hiện phân tích mẫu mô được bác sĩ tiến hành quan sát dưới kính hiển vi để đưa ra kết luận đã bị di căn hay chưa Công việc này tốn khá nhiều thời gian và phụ thuộc vào sự phán đoán chủ quan của mỗi bác sĩ [2] Vì vậy, việc tìm ra một giải pháp sử dụng Trí tuệ nhân tạo để hỗ trợ (thậm chí là thay thế) cho con người trong giai đoạn hiện nay là rất cần thiết, nhằm rút ngắn thời gian và tăng tính khách quan trong quá trình chẩn đoán bệnh Hiện nay trên thế giới đã có một số đề tài nghiên cứu về vấn đề này, tuy nhiên chúng chỉ mới ở mức độ thử nghiệm với bộ dữ liệu có sẵn, mà chưa được áp dụng vào thực tế [3]
Hiện nay, sử dụng Deep Learning là một trong những phương pháp tiên
Biểu đồ minh họa về số ca tử vong và ca mắc mới ung thư trên thế giới năm 2018 Nguồn: https://www.uicc.org/news/new-global-cancer-data-globocan-2018
Trang 8tiến nhất trong lĩnh vực xử lý hình ảnh y khoa nhằm phân loại và chẩn đoán bệnh Ưu điểm của Deep Learning so với các phương pháp khác chính là khả năng trích xuất đặc trưng của bệnh phẩm và học để đưa ra kết quả phân loại chính xác [4] Chính vì nhận thấy sự ưu việt này trong việc xử lý dữ liệu tự động, có khả năng áp dụng cao trong việc chẩn đoán bệnh dựa trên hình ảnh,
chúng em đã nghiên cứu và lựa chọn đề tài “Ứng dụng Deep Learning trong chẩn đoán ung thư di căn hạch qua mẫu sinh thiết mô hạch bạch huyết”
2 Câu hỏi nghiên cứu
Làm sao có thể sử dụng trí tuệ nhân tạo để xác định được ung thư đã di căn qua mô hạch bạch huyết hay chưa một cách chính xác, nhanh chóng và phù hợp với điều kiện ở Việt Nam?
3 Mục tiêu nghiên cứu
Xây dựng được một model Convolutional Neural Network chẩn đoán khả năng hình ảnh mẫu mô hạch bạch huyết chứa tế bào ung thư di căn từ đó đưa
ra kết luận là ung thư đã di căn qua mô hạch bạch huyết hay chưa với độ chính xác trên 95%
4 Tính mới của đề tài
- Mô hình cho kết quả nhanh chóng và với độ chính xác cao, đặc biệt đối với loại tế bào di căn micro (micro-metastasis)
- Đã xác định được giải pháp xử lý hình ảnh từ ảnh mẫu mô hạch bạch huyết để mô hình cho độ chính xác tốt nhất
- Tạo được phần mềm trên máy tính cho người dùng dễ sử dụng Vì vậy, đây sẽ là một công cụ hỗ trợ đắc lực cho các y bác sĩ trong việc chẩn đoán bệnh, rút ngắn thời gian chẩn đoán, từ đó đem lại hiệu quả cao hơn trong việc chữa trị cho bệnh nhân
B KẾ HOẠCH VÀ PHƯƠNG PHÁP NGHIÊN CỨU
1 Kế hoạch và phương pháp lý thuyết
- Thu thập số liệu thống kê về tỷ lệ người bị ung thư di căn qua mô hạch bạch huyết
- Nghiên cứu mô bệnh học ung thư di căn hạch bạch huyết
Trang 9- Tìm hiểu về các phương pháp chuẩn đoán ung thư di căn qua mô hạch bạch huyết hiện nay, tìm ra nhưng ưu nhược điểm của các phương pháp này Từ đó nghiên cứu các giải pháp khắc phục để phù hợp với các điều kiện ở Việt Nam
- Nghiên cứu các phương pháp sử dụng trí tuệ nhân tạo trong chẩn đoán Y khoa bằng hình ảnh
- Nghiên cứu các phương pháp phân loại, xử lý hình ảnh và các kiến trúc CNN
2 Kế hoạch và phương pháp thực nghiệm
- Xử lý ảnh và đánh giá chất lượng ảnh
- Khảo sát và đánh giá sự tương thích của các kiến trúc CNN với bộ dữ liệu đầu vào từ đó lựa chọn kiến trúc thích hợp nhất
- Tiến hành lập trình, huấn luyện máy học và kiểm tra đánh đánh giá chất lượng model
- Thử nghiệm với bộ dữ liệu có sẵn PCam
- Thử nghiệm với bộ dữ liệu thu thập từ thực tế tại các bệnh viện Bạch Mai,
K Trung Ương và bệnh viện Ung Bướu Nghệ An
- Thử nghiện trực tiếp với các mô hạch bạch huyết tại bệnh viện Ung Bướu Nghệ An
- Xử lý số liệu thực nghiệm, so sánh giữa bộ dữ liệu thu thập từ thực tế với bộ
dữ liệu mẫu, đánh giá mức độ chính xác Từ đó, xác định nguyên nhân sai lệch
và tìm giải pháp khắc phục
3 Cơ sở lý thuyết
3.1 Sinh thiết hạch bạch huyết
Hệ bạch huyết là hệ bao gồm các hạch bạch huyết, giúp cơ thể nhận biết và chống lại nhiễm trùng Các hạch này được tìm thấy khắp nơi trên cơ thể, dễ sờ thấy ở vùng cổ, nách và bẹn
Sinh thiết hạch là quá trình lấy toàn bộ một hoặc nhiều hạch bạch huyết và làm xét nghiệm mô bệnh học Xét nghiệm giải phẫu bệnh hạch bạch huyết cho các bác sĩ thấy được cấu trúc hạch, hình thái và phân bố tế bào trong hạch
Trang 10Cấu trúc mô hạch bình thường
Nguồn: http://medcell.med.yale.edu
Sự khác nhau giữa vùng đã có tế bào di căn
và vùng mô hạch bình thường Nguồn: http://www.global-engage.com
Mối quan hệ giữa AI, Machine Learning
và Deep Learning Nguồn: https://blog.digitalogy.com
Sinh thiết hạch bạch huyết là một bước quan trọng trong việc xác định giai đoạn của ung thư trong tiêu chuẩn phân loại TNM – tiêu chuẩn quốc tế về phân loại sự lan rộng của các loại ung thư [5]
Mẫu mô sau khi được lấy ra khỏi bệnh nhân sẽ được gửi đến phòng thí nghiệm bệnh lý học Mô được tách ra thành một lát cực mỏng và gắn vào một tấm thủy tinh mỏng Lát mô mỏng được nhuộm H&E (hematoxylin eosin) cho phép các tế bào riêng lẻ được nhìn rõ hơn Từ đó bác sĩ sẽ đưa ra chẩn đoán cho các vùng mô và tế bào đó [6]
3.2 Machine Learning – Deep Learning
Machine learning là một lĩnh vực con của
Trí tuệ nhân tạo (Artificial Intelligence) liên
quan đến việc nghiên cứu và xây dựng các kĩ
thuật cho phép các hệ thống học tự động từ dữ
liệu để giải quyết những vấn đề cụ thể mà
không cần phải được lập trình từ trước Theo
phương thức học, các thuật toán Machine
Learning thường được chia làm 4 nhóm:
Supervised learning (Học có giám sát),
Unsupervised learning (Học không có giám
sát), Semi-supervised learning (Học bán giám
sát) và Reinforcement learning (Học củng cố) [7]
Những năm gần đây, khi mà khả năng tính toán của các máy tính được nâng lên một tầm cao mới, Machine Learning đã tiến thêm một bước dài và một lĩnh vực mới được ra đời gọi là Deep Learning Là một phạm trù nhỏ
Trang 11Mô hình lưu trữ WSI dưới dạng kim tự tháp Nguồn: https://www.researchgate.net
của Machine Learning, Deep learning tập trung giải quyết các vấn đề liên quan đến Mạng thần kinh nhân tạo (Artificial Neural Network) nhằm nâng cấp các công nghệ như nhận diện giọng nói, tầm nhìn máy tính và xử lý ngôn ngữ tự nhiên Mạng thần kinh nhân tạo là một hệ thống các chương trình và cấu trúc
dữ liệu mô phỏng cách vận hành của não người Deep Learning đã cho phép ứng dụng nhiều vấn đề thực tế của máy học và mở rộng lĩnh vực tổng thể của Trí tuệ nhân tạo (AI) [8]
3.3 Whole slide image (WSI)
Whole slide image (WSI) là hình ảnh điện tử của các tiêu bản có được qua phương pháp scan, được sử dụng trong lĩnh vực giải phẫu bệnh với vai trò hỗ trợ chẩn đoán hoặc trong nghiên cứu, giáo dục WSI thường được lưu trữ dưới dạng kim tự tháp (pyramid) để người sử dụng có thể đọc ảnh với độ phân giải khác nhau tương tự như độ phóng đại của kính hiển vi [9]
3.4 Convolutional Neural Network (CNN)
Convolutional Neural Network (CNN – Mạng nơ-ron tích chập) là thuật toán phân loại hình ảnh (Image classification) của Deep Learning CNN được
sử dụng nhiều trong các bài toán nhận dạng các vật thể (object) trong ảnh [10] Cấu trúc của một mạng CNN gồm hai phần: