Chương 1 Giới thiệu bài báo và các tác giả 1.1 Giới thiệu bài báoĐược công bố vào năm 2020 bởi các tác giả đến từ nhóm nghiên cứu FAIR Facebook AI Researchhợp tác cùng với các giáo sư đế
Giới thiệu bài báo
Được công bố vào năm 2020 bởi các tác giả đến từ nhóm nghiên cứu FAIR (Facebook AI Research) hợp tác cùng với các giáo sư đến từ Đại học Y của Đại học NewYork (NYU School of Medicine) để tìm hiểu và đưa ra các giải pháp cho chuẩn đoán hình ảnh COVID-19, cái mà sẽ được nói kỹ hơn trong phần 2.1 Tính đến thời điểm hiện tại (Tháng 5-2023), bài báo có 50 trích dẫn trên Google Scholar.
Giới thiệu tác giả
Anuroop Sriram
Anuroop Sriram là một Thạc sĩ về ngành Language Technologies tại trường Đại học Carnegie Mellon, Mỹ và hiện đang làm việc tại AI researcher at Meta FAIR, đang nghiên cứu ứng dụng Deeplearning vào các vấn đề khoa học Ông là học trò của Giáo sư Roni Rosenfeld Lĩnh vực ông nghiên cứu chủ yếu là:
•Học máy (Machine Learning): Ông nghiên cứu về các phương pháp và thuật toán để xử lý dữ liệu, xây dựng mô hình dự đoán và đưa ra quyết định Ông tập trung vào việc nghiên cứu các mô hình học sâu (Deep Learning) và các kỹ thuật tiên tiến như mạng neural sâu (Deep Neural Networks), mạng GAN (Generative Adversarial Networks), hay mạng bộ nhớ ngắn hạn (Recurrent Neural Networks).
•Thị giác máy tính (Computer Vision): Ông tìm hiểu về cách máy tính có thể hiểu và phân tích hình ảnh và video như con người Ông nghiên cứu về phát hiện đối tượng, nhận dạng khuôn mặt, phân loại hình ảnh và các vấn đề liên quan đến thị giác máy tính.
•Nhận dạng giọng nói (Speech Recognition): Ông tập trung vào phát triển các thuật toán và mô hình nhận dạng giọng nói, nhằm giúp máy tính hiểu và chuyển đổi giọng nói thành văn bản hoặc lệnh điều khiển Ông nghiên cứu về mạng neural sâu (Deep Neural Networks), mạng LSTM (Long Short-Term Memory), hay các phương pháp học sâu khác để cải thiện khả năng nhận dạng giọng nói và giảm thiểu sai sót.
Công bố của ông trên các nền tảng:
•DBLP: 2 bài báo cáo chuyên ngành, 13 bài báo tạp chí và một số bài báo không chính thức
•Scopus: 22 bài báo, h-index là 15.
•Google Schoolar: Có tất cả 6403 trích dẫn, h-index là 24 và i10-index là 31 Trong 5 năm gần nhất, có tất cả 4413 trích dẫn, h-index là 24 và i10-index là 30.
Matthew Muckley
Matthew Muckley là một Nghiên cứu sinh tại trường Đại học Michigan, Bắc Mỹ và hiện đang là kỹ sư nghiên cứu tại Meta AI Ông là học trò của trợ lý giáo sư Florian Knoll Lĩnh vực ông nghiên cứu chủ yếu là:
•Tái tạo hình ảnh (Image Reconstruction).
•Nén hình ảnh cộng hưởng từ (magnetic resonance imaging compression).
Công bố của ông trên các nền tảng:
•DBLP: 3 bài báo cáo chuyên ngành, 6 bài báo tạp chí và một số bài báo không chính thức
•Scopus: 23 bài báo, h-index là 9.
•Google Schoolar: Có tất cả 1520 trích dẫn, h-index là 12 và i10-index là 14 Trong 5 năm gần nhất, có tất cả 1444 trích dẫn, h-index là 11 và i10-index là 11.
Nafissa Yakubova
Nafissa là một quản lý chương trình (trước đây là một nghiên cứu viên thăm dò) tại nhóm nghiên cứu Facebook AI Sở thích nghiên cứu rộng của cô tập trung vào việc áp dụng giải pháp học máy trong lĩnh vực y sinh học, khoa học nhận thức, môi trường và các ứng dụng mang lại lợi ích cho xã hội (ví dụ: dự án tái tạo hình ảnh fastMRI, dự đoán lâm sàng Covid-19, mô hình hóa scRNA seq.).Công bố của Nafissa Yakubova trên các nền tảng:
•DBLP: 1 bài báo cáo chuyên ngành, 1 bài báo tạp chí và một số bài báo không chính thức
•Scopus: 7 bài báo, h-index là 5.
Phân tích nội dung bài báo
Giới thiệu chủ đề bài báo
Trong 2 năm trở lại đây, sự bùng phát nhanh chóng của COVID-19 đã tạo ra áp lực lớn đối với các bệnh viện và các bác sĩ trên toàn thế giới Trong bối cảnh đó, việc xác định nhanh chóng và chính xác các bệnh nhân có nguy cơ cao để điều trị kịp thời là rất cần thiết Tuy nhiên, với tình trạng dịch bệnh đang diễn biến phức tạp, các bác sĩ gặp khó khăn khi phải xác định nguyên nhân triệu chứng của bệnh nhân. Để giải quyết vấn đề này, trong thời gian gần đây, các nhà khoa học đã áp dụng kỹ thuật học máy, sử dụng dữ liệu lâm sàng như chụp X-quang ngực để dự đoán bệnh nhân có nguy cơ suy giảm sức khỏe nhất Kỹ thuật này cho phép các bác sĩ có thể xác định nhanh chóng các bệnh nhân có nguy cơ nặng và đưa ra quyết định điều trị kịp thời.
Sau nhiều năm nghiên cứu, phương pháp này đã và đang đem lại những kết quả tích cực Bằng cách áp dụng học máy vào việc xử lý và phân tích dữ liệu lâm sàng, các nhà khoa học đã giúp cho việc đưa ra quyết định điều trị trở nên chính xác hơn và đồng thời giảm bớt áp lực cho các bệnh viện.Phương pháp này hiện đang được xem là một phương pháp tiềm năng để dự đoán tình trạng của người bệnh và giúp cho việc chẩn đoán trở nên nhanh chóng và hiệu quả hơn.
Đóng góp chính nhóm tác giả
Nhận thấy rằng các phương pháp học sâu dựa trên phân tích hình ảnh đã và đang được áp dụng cho việc chuẩn đoán COVID-19 trở thành một công cụ tiêu chuẩn cho xạ trị học Nhưng những phương pháp học có giám sát này chẳng hạn như COVID-GMIC [7] phụ thuộc vào lượng lớn dữ liệu được gán nhãn và điều này gây ra một số hạn chế.
•Việc thu thập các tập dữ liệu huấn luyện lớn và được gán nhãn là đắt đỏ
Cấu trúc bài báo
•Gán nhãn cho nhiều tác vụ xạ trị có thể khó khăn bởi các bác sĩ không phải lúc nào cũng đánh đúng nhãn của hình ảnh được
•Yêu cầu về tập dữ liệu lớn thường hạn chế việc sử dụng các phương pháp học sâu đối với các bệnh lý được hiểu rõ và công nhận
Khắc phục các nhược điểm trên, nhóm tác giả nhận thấy rằng việc áp dụng tự học có giám sát dựa trên hàm mất mát tương phản [2] có khả năng tạo ra các biểu diễn tốt hơn cho việc phân loại. Bằng cách tiền huấn luyện một mô hình bằng cách sử dụng động lượng tương phản (MoCo) [ ; 2 26] trên hai tập dữ liệu X-quang ngực lớn được công khai (Sẽ được chúng em giới thiệu trong phần 2.6.1 ), MIMIC-CXR-JPG [ ; ; 22 27 28] và CheXpert [20] , và sau đó sử dụng mô hình tiền huấn luyện như một trích xuất đặc trưng cho nhiệm vụ phụ dự đoán kết quả cho bệnh nhân COVID-19 Qua kết quả thực nghiệm nhóm tác giả trong phần 2.7 thì ta có thể thấy rõ được độ hiểu quả của phương pháp này có thể nói là tốt nhất lúc bấy giờ.
Cấu trúc bài báo được chia làm 8 phần chính.
•Phần 1: Tổng quan bài báo: Giới thiệu qua về chủ đề nghiên cứu, đóng góp của nhóm tác giả và tóm sắt sơ lược nội dung bài báo.
•Phần 2: Bộ dữ liệu: Giới thiệu qua về 2 bộ dữ liệu MIMIC-CXR-JPG [ ; ; 22 27 28] và CheXpert [ ] 20 cho tiền huấn luyện và tập dữ liệu NYU COVID [7] cho tác vụ hạ nguồn.
•Phần 3: Hướng tiếp cận của nhóm tác giả: Phương pháp thực hiện, thuật toán.
•Phần 4: Kết quả thực nghiệm của tác giả: Kết quả thử nghiệm của mô hình trên tập dữ liệu tổng hợp nhỏ và thực tế.
•Phần 5: Thảo luận: Nơi nhóm tác giả đưa ra các hạn chế của phương pháp cùng với các cách tiếp cận khác.
•Phần 7: Lời cảm ơn đến nhóm nghiên cứu.
Kiến thức nền tảng
Tự học có giám sát (Self-supervised learning [1] )
Tự học có giám sát là một quá trình học máy trong đó mô hình tự đào tạo để học được các đặc trưng bê trong của dữ liệu trong quá trình này, các bài toán học máy không giám sát chuyển thành bài toán học có giám sát bằng cách tự động tạo nhãn Để tận dụng được nguồn dữ liệu phong phú chưa có nhãn, điều quan trọng là phải có chiến lược học phù hợp để có thể trích xuất được các đặc trưng quan trọng cho tác vụ hạ nguồn.
Hình 2.4.1: Hình minh họa cho quá trình tự học có giám sát
Học biểu diễn không giám sát thông qua tương phản động lượng (Momentom
Ý tưởng chính đằng sau MoCo là tìm ra các cặp đặc trưng dữ liệu có tính tương đồng-tương phản nhau trong bộ dữ liệu Từ đó, đối với những cặp dữ liệu mang tính tương đồng (mẫu dương-Positive Sample, ta có thể "kéo"chúng lại quần nhau để học được các đặc trưng cấp cao hơn và ngược lại (với những cặp dữ liệu tương phản hay Mẫu âm-Negative Samplethì sẽ bị đẩy ra xa) để làm được điều này, ta cần phải sử dụng các phép tính toán tương đồng (similarity metric) có trong hàm mất mát để tính toán khoảng cách giữa các vector biểu diễn với nhau.
Có thể nói, điểm mạnh của MoCo khiến cho nó đạt hiệu suất cao hơn (có thể nói là tốt nhất vào thời điểm nó được công bố) chính cách cập nhật trọng số (momentom update) Bằng cách chỉ tính
Hình 2.4.2: Hình minh họa quá trình học tương phản đạo hàm lan truyền ngược trên phầnqueryrồi dùng chính trọng số của phầnqueryđể cập nhật cho phầnkey(Giống như mô hìnhteacher-student) qua công thức: θ k ←mθ k + (1−m)θ q (2.4.1)
Trong đóθ k là trọng số củaf k ,θ q là trọng số củaf q vàm∈[1,0)
Hình 2.4.3: Hình minh họamomentom update
Transformer [3]
Transformer là một mô hình học sâu được giới thiệu vào năm 2017 bởi nhóm tác giả đến từ GoogleBrain và Google Research nhằm thay thế cho các mô hình mạng hồi quy trước đó nhưLSTMđã không
2.4 Kiến thức nền tảng còn phù hợp đối với tác vụ xử lý ngôn ngữ tự nhiên Điểm mạnh của Transformer chính là khả năng tính toán song song do không yêu cầu phải xử lý dữ liệu theo thứ tự Chính điều này đã làm giảm thời gian huấn luyện nhưng không hề giảm hiệu năng của mô hình.
Hình 2.4.4: Kiến trúc mô hình Transformer
Tận dụng những điểm mạnh trên, ngày càng có xu hướng sử dụng Transformer cho các tác vụ liên quan đến thị giác máy và cho ra kết quả vượt trội hơn so với các mạng tích chập hiện tại Chính vì thế nhóm tác giả đã áp dụng Transformer cho tác vụ hạ nguồn phân lớp dự đoán đa hình ảnh.
Học chuyển giao (Transfer learning [4] )
Học chuyển giao nói ngắn gọn chính là việc áp dụng tri thức đã học từ một mô hình đã được huấn luyện trước sang bài toán hiện tại hay còn gọi là tác vụ hạ nguồn với điều kiện 2 bài toán phải liên quan tới nhau.
Như trong phương pháp tác giả áp dụng việc tiền huấn luyện MoCo với 2 bộ dữ liệu MIMIC- CXR-JPG và CheXpert để học các biểu diễn quan trọng Sau đó sử dụng học chuyển giao hay cụ thể làfine-tuningđể tận dụng cho tác vụ hạ nguồn là Tiên lượng COVID-19.
2.5 Phương pháp của bài báo
Dense-Net 121 [5]
Densenet(Dense connected convolutional network) là một trong những mạng tích chập mới nhất cho bài toán nhận biết vật thể và phân lớp Nó cũng gần giống Resnet [40] nhưng có một vài điểm khác biệt Densenet có cấu trúc gồm cácdense blockvà cáctransition layersđược sắp xếp như hình 2.4.5 Với mạng CNN [41] truyền thống nếu chúng ta có L Layer thì sẽ có L kết nối, còn trong Densenet sẽ có L(L+1)/2 kết nối Sở dĩ trong bài báo tác giả sử dụng Densenet cho tác vụ hạ nguồn đối vớiSIPvàORPđược định nghĩa ở phần 2.5 là do tính cân bằng giữa chi phí tính toán cùng hiệu năng mà mô hình đem lại.
Hình 2.4.5: Kiến trúc Dense Net
Phương pháp của bài báo
Tiền huấn luyện tự giám sát bằng cách sử dụng MoCo [2]
Tiền huấn luyện mô hình, nhóm tác giả sử dụng học tự giám sát bằng cách sử dụng Momentum Contrast (MoCo) Mục đích của quá trình này là rút trích đặc trưng tiềm ẩn trong dữ liệu hình ảnh bằng phương pháp học tự giám sát sử dụng học chuyển động (momentum contrast learning). Khung mất mát tương phản là một kiến trúc mạng nơ-ron sâu được thiết kế để ánh xạ một hình ảnh vào một không gian tiềm ẩn [24] Mạng nơ-ron được huấn luyện để giảm mất mát tương phản Mục đích của quá trình huấn luyện là giảm thiểu mất mát tương phản bằng cách ánh xạ các hình ảnh tương tự vào các vector gần nhau hơn, được đo bằng một hàm mất mát tương phản, trong khi các hình ảnh khác biệt được ánh xạ vào các vector xa nhau hơn Sơ đồ của quá trình huấn luyện mất mát tương phản được trình bày trong hình 2.5.1
Hình 2.5.1: Sơ đồ cho quá trình huấn luyện momentum contrast.
Một ảnh cơ sở được biến đổi thông qua hai phép tăng cường ngẫu nhiên (Aug.1 và Aug.2) thành ảnhx q vàx k Ảnhx q được truyền qua một mạng mã hóa, trong khi ảnhx k được truyền qua một mạng mã hóa động lượng Các biểu diễn được tạo ra bởi mỗi mạng được truyền vào một hàm mất mát tương phản, khuyến khích sự tương đồng giữa các biểu diễnr q và r k
Mỗi bước huấn luyện bắt đầu bằng cách chọn một hình ảnh cơ sở, , từ tập dữ liệu hình ảnh chưax được gán nhãn Sau đó, hai biến đổi khác nhau được chọn ngẫu nhiên và được áp dụng cho hình ảnh cơ sở riêng lẻ để tạo ra hai hình ảnh được tăng cường, hình ảnh truy vấnx q và hình ảnh chínhx k
2.5 Phương pháp của bài báo
Những hình ảnh này được chuyển qua hai mạng nơ-ron khác nhau, được gọi là bộ mã hóa và bộ mã hóa động lượng tương ứng, để tạo ra biểu diễnr q chox q vàr k cho x k
Mục tiêu của hàm mất mát đối lập (contrastive loss) là xác định rằngr q vàr k đến từ cùng một hình ảnh gốc dưới sự biến đổi khác biệt Trong thực tế, hàm mất mát đối lập thường yêu cầu kích thước batch lớn, do thực tế là số lượng ví dụ tiêu cực (tức các giá trị chor q, j vàr k,i trong đór k,i không đến từ cùng một hình ảnh) cần thiết để đạt được hiệu suất mạnh mẽ [25] Nhóm tác giả điều chỉnh các siêu tham số sau trong giai đoạn tiền huấn luyện: tốc độ học, kích thước chiều đặc trưng tiềm ẩn của MoCo và kích thước hàng đợi Nhóm tác giả tìm kiếm trên một tỷ lệ logarithmic của các giá trị, thay đổi tốc độ học trong khoảng10 {− − 2, 1 0 , } và kích thước chiều đặc trưng của MoCo [2] trong {64, 128, 256} Kích thước hàng đợi được cố định là 65,536 Nhóm tác giả sử dụng kích thước batch là 128 cho mỗi trong số 8 GPU, lớn nhất nhóm tác giả có thể đạt được trong kiểm tra ban đầu, tích lũy gradient sử dụng DistributedDataParallel của PyTorch [ ; 2 33] Nhóm tác giả lựa chọn siêu tham số dựa trên phân tích chéo trên các tác vụ phía dưới Nhóm tác giả tối ưu hóa các mô hình sử dụng gradient descent ngẫu nhiên với đà Momentum [34] , sử dụng 0,9 như thuật ngữ đà và tham số giảm trọng lượng của
MoCo [2] là một phương pháp hàm mất mát đối lập mới nhất giúp tránh được việc cần phải sử dụng kích thước batch lớn bằng cách duy trì một hàng đợi các biểu diễn Trong hàng đợi này, mô hình lưu trữκví dụ củar k,i choi∈[1, ,κ] Sau đó, mô hình được yêu cầu xác định rằng trong ví dụ đó, víκ dụ nào là phù hợp với Điều này có thể được mô hình hoá toán học thông qua hàm mất mát đối lậpr q
Trong đó, là một siêu tham số nhiệt độ vàτ κlà số lượng biểu diễn đang được lưu trữ (trong mô hình của nhóm tác giả, họ khởi tạo các tham số đó mặc định lần lượt là 0,07 và 65536) Gradient từ hàm mất mát đối lập được truyền ngược lại mạng mã hóa, sau đó mã hóa động lượng được cập nhật thông qua một cập nhật động lượng Cập nhật động lượng buộc mã hóa động lượng thay đổi chậm [2] hơn so với mạng mã hóa, điều này giúp ổn định quá trình huấn luyện.
Phương pháp dự đoán tình trạng bệnh nhân dựa trên hình ảnh đơn lẻ và dự đoán Yêu cầu Oxy
lẻ và dự đoán Yêu cầu Oxy
Cách thức nghiên cứu của mà tác giả thực hiện là xem xét hai lớp nhãn:
•Dự đoán sự kiện bất lợi [ ; 7 8] Sự kiến bất lợi bao gồm bất kỳ trong ba sự kiện sau: chuyển đến đơn vị chăm sóc tích cực (ICU), can thiệp thông qua ống thông khí (intubation) hoặc tử vong.
2.5 Phương pháp của bài báo
Tác giả đánh dấu mỗi hình ảnh với việc bệnh nhân có phát triển bất kỳ sự kiện bất lợi nào trong vòng 24, 48, 72 hoặc 96 giờ sau khi chụp Và kết quả, tác giả thu được các nhãn này thông qua các sự kiện bất lợi được ghi nhận trong hồ sơ y tế điện tử của bệnh nhân được chia sẻ bởi NYU, theo thực tiễn trước đó [7]
•Yêu cầu oxy tăng là một sự kiện khi bệnh nhân yêu cầu nhiều hơn 6 lít oxy trong một ngày. Tương tự như trường hợp của các sự kiện bất lợi, tác giả cũng đánh dấu mỗi hình ảnh trong tập dữ liệu với việc bệnh nhân có yêu cầu oxy tăng trong vòng 24, 48, 72 hoặc 96 giờ sau khi chụp.
Phương pháp dự đoán đa hình ảnh - MIP
Đối với tác vụ MIP, nhóm tác giả đề xuất một mô hình mới, nhận chuỗi hình ảnh X-quang (x 0, ,x n )cùng với thời gian quét của chúng(t 0, ,t n )so với quét cuối cùng là đầu vào và dự đoán khả năng xảy ra sự cố bất lợi sau quét cuối cùng Cấu trúc tổng thể của mô hình được hiển thị trong hình 2.5.2 Thời gian quét được biểu thị dưới dạng số giờ tính từ thời gian quét cuối cùng Do đó, nếu một bệnh nhân đã có hai lần quét trước đó, ví dụ, 50 giờ và 20 giờ trước quét cuối cùng, thì thời gian quét sẽ được biểu thị là(t 0=−50,t 1=−20,t 2=0) Thời gian quét cuối cùngt n luôn luôn bằng 0.
Trong quá trình chuyển tiếp, mỗi hình ảnhx i được truyền vào mô hình mã hóa MoCo song song để lấy được biểu diễn hình ảnh Riêng lẻ, mỗi thời gian quét được truyền qua một mô-đun nhúngh i t i vị trí liên tục (CPE) để học một embedding thời gian Mô-đun CPE, được mô tả chi tiết hơn bêne i dưới, ánh xạ mỗi điểm thời gian thành một embedding khác nhau Hai biểu diễnh i vàe i cho mỗi saui đó được nối với nhau và được chiếu xuống một chiều thấp hơn bằng cách sử dụng một lớp kết nối đầy đủ Sau khi các hình ảnh được mã hóa, toàn bộ chuỗi các hình ảnh được đưa vào mạng transformer [3] Mạng transformer dùng cơ chế tự chú ý để ánh xạ một chuỗi đầu vào thành một chuỗi đầu ra có cùng độ dài Đầu ra của mạng transformer được cộng lại để tạo ra một biểu diễn ẩnfchứa thông tin được tổng hợp từ tất cả các hình ảnh Biểu diễn ẩn này được đưa vào một bộ phân loại tuyến tính.f
Tương tự như trong nhiệm vụ SIP, trọng số của bộ mã hóa MoCo được khởi tạo với các giá trị trọng số được tiền huấn luyện trong khi trọng số của mạng transformer và bộ phân loại tuyến tính được khởi tạo ngẫu nhiên Toàn bộ mạng được đồng thời điều chỉnh trên một tập dữ liệu được gán nhãn để giảm thiểu hàm mất mát nhị phân chéo. Điều hướng liên tục (CPE): CPE được thiết kế để ánh xạ mỗi điểm thời gian vào một vector biểu diễn có kích thước -chiều, được lấy cảm hứng từ phương pháp ánh xạ vị trí (PE) trongd [3] CPE có cùng dạng hàm với PE, nhưng có thể nhận giá trị liên tục trong một khoảng giá trị nhất định Cụ thể, CPE ánh xạ một thời điểm quét tương đối vào một vector như sau:s e e (t,2i) =sin t/10000 2i/d ,
Thực nghiệm
Bộ dữ liệu
Trong quá trình thực nghiệm, nhóm tác giả đã thực nhiệm trên 2 bộ dữ liệu khác nhau là:
•CheXpert: Tập dữ liệu CheXpert được phát triển bởi các nhà nghiên cứu tại Stanford Machine
Learning Group và Stanford Hospital Các nhà nghiên cứu đã thu thập dữ liệu từ hồ sơ bệnh án điện tử (EHR) tại Stanford Hospital và xử lý các hình ảnh X-quang ngực từ các bệnh viện liên quan khác [ ; 20 22] (Hình 2.6.1) Bộ dữ liệu bao gồm 224316 ảnh chụp X-quang của 65240 bệnh nhân được thu thập từ năm 2002 đến năm 2017.
Hình 2.6.1: Hình ảnh về tập CheXpert.
•MIMIC-CXR-JPG: Tập dữ liệu MIMIC-CXR-JPG (Medical Information Mart for Intensive
Care Chest X-ray JPG) là một tập dữ liệu hình ảnh X-quang ngực được tạo ra từ dự án MIMIC (Medical Information Mart for Intensive Care) tại Massachusetts Institute of Technology (MIT) và Beth Israel Deaconess Medical Center [ ; ; 22 27 28] (Hình 2.6.2) Tập dữ liệu bao gồm 377110 ảnh định dạngJPGvà nhãn được trính xuất từ 227827 bản báo cáo về chụp X-quang dạngfree text( tức là một dạng dữ liệu ko cấu trúc, không tuân theo một quy tắc hay chuẩn nào cả).
Hình 2.6.2: Hình ảnh về tập MIMIC-CXR.
Kịch bản thực nghiệm
Đối với dự đoán mô hình đơn lẻ - SIP và dự đoán nhu cầu oxy từ một hình ảnh - ORP, nhóm tác giả đề xuất so sánh với mô hình học giám sát (supervised learning) và học tự giám sát (self-supervised).
Và vì SIP cùng tập dữ liệu với COVID-GMIC nên nhóm tác giả đã chọn COVID-GMIC để so sánh với mô hình SIP Đối với mô hình dự đoán đa hình ảnh - MIP, nhóm tác giả đã so sánh và kiểm tra sự khác biệt giữa việc sử dụng MoCo PT CL và mô hình Transformer được xây dựng dựa trên các biểu diễn MoCo.
Độ đo đánh giá
Trong phần 2.7, tác giả ước lượng mô hình cũng như so sánh với các mô hình phân Loại khác thông qua chỉ số là AUC (Area Under the Curve) hay diện tích dưới đường cong.
Trước hết chúng ta tìm hiểu qua trước về đường cong ROC ROC là một đường cong biểu thị hiệu suất phân loại của một mô hình phân loại tại các ngưỡng khác nhau Về cơ bản, nó hiển thị TPR (True Positive Rate) so với FPR (False Positive Rate) tại các giá trị ngưỡng khác nhau Các giá trị TPR, FPR được tính như sau
FPR= FalsePositive TrueNegative+FalseNegative ROC tìm ra TPR và FPR ứng với giá trị ngưỡng khác nhau và vẽ biểu đồ để dễ dàng quan sát TPR so với FPR như hình 2.6.3 ví dụ dưới đây.
Hình 2.6.3: Hình minh họa đường cong ROC
AUC là chỉ số được tính toán dựa trên đường cong ROC nhằm đánh giá khả năng phân loại của mô hình tốt như thế nào Phần diện tích nằm dưới đường cong ROC và trên trục hoành chính là AUC. có giá trị âm trong khoảng[0,1]
Kết quả thực nghiệm
Ví dụ kết quả của các nhiệm vụ
Hình 2.7.1 mô tả các khung việc dự đoán cho mỗi nhiệm vụ trong 24 giờ tiếp theo.
Hình 2.7.1: Các kết quả mô hình ví dụ cho các tác vụ dự đoán ICU (ICU24), khí quản (Int24), tử vong (Mor24) và mức oxy lớn hơn 6 lít mỗi ngày (>6 24).l
(a) Kết quả SIP ví dụ dựa trên một hình ảnh duy nhất với độ đục phổi tăng lên đáng kể Trong trường hợp này, bệnh nhân không gặp bất kỳ sự cố bất lợi nào trong 24 giờ tiếp theo, nhưng sau đó sẽ gặp tất cả ba sự cố bất lợi trong vòng 72 giờ.
(b) Kết quả ORP ví dụ dựa trên một hình ảnh duy nhất Bệnh nhân này cần nhiều hơn 6 oxy mỗil ngày trong vòng 24 giờ.
(c) Một chuỗi các tia X ngực với mật độ phổi tăng lên được sử dụng bởi mô hình MIP để dự đoán sự suy giảm COVID cho một bệnh nhân Cả hai hình ảnh được chụp từ cùng một bệnh nhân với khoảng cách là 49 giờ Độ đục phổi tăng lên có thể quan sát được trong hình ảnh thứ hai (trễ hơn) Và bệnh nhân được chuyển đến ICU, truyền khí quản và tử vong trong vòng 24 giờ.Bệnh nhân gặp tất cả ba sự cố bất lợi trong vòng 24 giờ.
Cắt bỏ tác vụ một hình ảnh - SIP
Theo các công trình trước đây [ ; ; 8 18 20] , nhóm tác giả đã so sánh mô hình thông qua diện tích dưới đường cong đặc trưng nhận dạng (AUC) Để tiện cho việc so sánh, trong phần này các tác giả chỉ sử dụng MoCo được thực hiện trên tập dữ liệu MIMIC.
Trước khi tinh chỉnh cho các tác vụ SIP và ORP, trọng số của bộ mã hóa được khởi tạo bằng các giá trị trọng số được tiền huấn luyện trong khi trọng số của bộ phân loại tuyến tính được khởi tạo ngẫu nhiên với phân phối đều [35] Nhóm tác giả đưa ra 3 phương pháp điều chỉnh:
•Phương pháp điều chỉnh đầu tiên (CL) cố định bộ mã hóa MoCo (bao gồm cả thống kê Batch- Norm) và chỉ huấn luyện bộ phân loại mới [2]
•Phương pháp điều chỉnh thứ hai (FT) cho phép toàn bộ mô hình được huấn luyện, không chỉ có bộ phân loại.
•Phương pháp điều chỉnh cuối cùng (FT RA) cho phép toàn bộ mô hình được huấn luyện và cũng kết hợp các tăng cường ngẫu nhiên khác (xoay, X-shear, Y-shear và dịch chuyển).
Mô hình CL được tinh chỉnh trong 5 epochs Các mô hình FT được tinh chỉnh trong 20 epochs, và các mô hình FT RA được tinh chỉnh trong 40 epochs.
Nhóm tác giả điều chỉnh từng ablation bằng cách sử dụng một phương pháp cross-validation 5-fold, tốc độ học trong khoảng10 {− − − − 4, 3, 2, 1} và tối ưu hóa tất cả các mô hình MoCo/supervised- pretrained để chọn mô hình tốt nhất Nhóm tác giả cũng điều chỉnh liệu có sử dụng trình tối ưu hóa Adam [31] hay SGD [34] Tất cả các sự điều chỉnh được sử dụng với giảm tỷ lệ học tập cosine annealing [32] Sau cross-validation, nhóm tác giả chọn mô hình tốt nhất cho mỗi ablation và áp dụng phân tích bootstrap để ước tính các đặc điểm hiệu suất trên tập kiểm tra. Để kiểm tra tính có ý nghĩa giữa các phương pháp, nhóm tác giả áp dụng 1,000 lần lặp bootstrap cho tập kiểm tra và tính sự khác biệt trong AUC giữa phương pháp MoCo tốt nhất và phương pháp supervised pretraining tốt nhất Các phương pháp trong đó MoCo AUC tốt hơn đáng kể so với super- vised AUC được đánh dấu với * Bảng hiển thị kết quả trong hai dòng cho mỗi phương pháp Dòng trên cho thấy AUC kiểm tra còn dòng dưới cho thấy khoảng tin cậy bootstrap 95% Nhóm tác giả đã chọn kiểm tra phi tham số này hơn phương pháp DeLong [ ; 36 37] để duy trì một bảng kết quả thống nhất, vì phương pháp kiểm tra khác biệt AUC DeLong thường phù hợp với phương pháp kiểm tra phi tham số.
Nhận xét: Giá trị AUC tăng theo thời gian dài hơn Các mô hình MoCo có điểm AUC cao nhất cho việc dự đoán sự kiện bất lợi ở tất cả các cửa sổ thời gian, đạt sự ý nghĩa với cửa sổ thời gian 72 và
96 giờ Mô hình MoCo PT CL (pretrained với MoCo, chỉ tinh chỉnh lớp phân loại) có điểm AUC cao nhất ở 24 giờ, trong khi mô hình PT FT (cho phép toàn bộ mô hình tinh chỉnh) đạt được điểm AUC cao nhất ở 48, 72 và 96 giờ.
Bảng 2.7.1: So sánh giá trị AUC giữa việc sử dụng học giám sát và tự giám sát cho nhiệm vụ SIP.
AUC của bất kỳ dự đoán sự kiện bất lợi nào
Hình 2.7.2: AUC của bất kỳ dự đoán sự kiện bất lợi nào
Bảng 2.7.2: So sánh giá trị AUC giữa việc sử dụng học giám sát và tự giám sát cho nhiệm vụ ORP.
AUC của O >6L yêu cầu Dự đoán 2
Hình 2.7.3: So sánh giá trị AUC giữa việc sử dụng học giám sát và tự giám sát cho nhiệm vụ ORP.
Nhận xét: Trong trường hợp này, xu hướng thời gian đảo ngược so với bảng 2.7.1, với các mô hình
O 2 trở nên ít chính xác hơn ở các cửa sổ thời gian lớn hơn Trong trường hợp này, các mô hình được tiền huấn luyện có giám sát thực hiện tương đối giống nhau so với các mô hình được tiền huấn luyện bằng MoCo Mô hình MoCo PT FT có điểm AUC tốt nhất ở 24 và 48 giờ, trong khi mô hình Có giam sát PT CL có điểm AUC tốt nhất ở 72 và 96 giờ Chỉ có dự đoán 24 giờ bằng MoCo đạt sự ý nghĩa dựa trên các kiểm tra bootstrap.
So sánh SIP với COVID-GMIC
COVID-GMIC là một mô hình phân tích hình ảnh mạng thần kinh trước đó được phát triển cho mục đích dự đoán tiên lượng COVID COVID-GMIC sử dụng tiền huấn luyện được giám sát với [7] kiến trúc được thiết kế rõ ràng để tổng hợp thông tin ở các tỷ lệ hình ảnh thô và tinh [38] với tiền huấn luyện được giám sát trên bộ dữ liệu NIH [21] Thí nghiệm SIP sử dụng cùng bộ dữ liệu kiểm tra được sử dụng cho COVID-GMIC, vì vậy nhóm tác giả so sánh trực tiếp các mô hình của mình trong bảng 2.7.3 Đối với so sánh này, nhóm tác giả đã bao gồm một thủ tục tiền huấn luyện MoCo khác, trong đó họ sử dụng một sự kết hợp của cả các bộ dữ liệu MIMIC-CXR [22] và CheXpert [20] để tiền huấn luyện.Mặc dù có nhiều dữ liệu hơn, trong việc chia dữ liệu 5-fold cross-validation, cùng một mô hình được
2.7 Kết quả thực nghiệm lựa chọn như trong phần 2.7.2.
Bảng 2.7.3: So sánh SIP với COVID-GMIC.
AUC của bất kỳ dự đoán sự kiện bất lợi nào
Hình 2.7.4: So sánh SIP với COVID-GMIC
Nhận xét: Trong trường hợp này, nhóm tác giả không áp dụng kiểm định độ tin cậy vì không có các dự đoán nguyên thủy từ bài báo này Cả phương pháp MoCo và COVID-GMIC đều có thể so sánh được qua các điểm thời gian, với sự chồng lấn rộng trong khoảng tin cậy Khoảng cách rộng nhất về hiệu suất là trong việc dự đoán các sự kiện bất lợi trong 24 giờ tiếp theo, nơi COVID-GMIC có AUC cao hơn 0,02 Ở các khoảng thời gian dài hơn, hiệu suất của các phương pháp MoCo bắt đầu cải thiện,cho thấy điểm AUC cao hơn COVID-GMIC trên tập kiểm tra ở 48, 72 và 96 giờ.
Cắt bỏ tác vụ nhiều hình ảnh
Trong trường hợp này, nhóm tác giả so sánh và kiểm tra sự khác biệt giữa việc sử dụng MoCo
PT CL và mô hình Transformer được xây dựng dựa trên các biểu diễn MoCo Các mô hình đã được huấn luyện với bộ tối ưu hóa Adam [31] trong 50 epoch với kích thước batch là 32 Nhóm tác giả đã
Hình 2.7.5: So sánh và kiểm tra sự khác biệt giữa MoCo PT CL và MoCo PT + Transformer điều chỉnh các siêu tham số sau bằng phương pháp tìm kiếm lưới: tốc độ học, xác suất loại bỏ ảnh (p drop ), chiều chiếu và phương pháp lấy tổng Nhóm tác giả tìm kiếm qua các giá trị tốc độ học trong khoảng10 {− − − 3 , 2 , 1 } , giá trịp drop trong 0, 0,1, 0,2, 0,5, chiều chiếu trong 16, 32, 64, 128 Đối với phương pháp lấy tổng, sử dụng phương pháp lấy tổng hoặc đơn giản chỉ lấy bước cuối cùng và đặt giá trị dropout cho Transformer và CPE là 0,5 và giá trị giảm trọng lượng là10 − 5
Bảng 2.7.4: So sánh và kiểm tra sự khác biệt giữa MoCo PT CL và MoCo PT + Transformer
AUC của bất kỳ dự đoán sự kiện bất lợi nào
Nhận xét: Phương pháp Transformer thực hiện tốt hơn phương pháp MoCo đơn ảnh trong việc dự đoán các sự kiện bất lợi ở mọi cửa sổ thời gian với mức ý nghĩa thống kê ở 24, 48 và 72 giờ Mô hình Transformer MIP tốt hơn trong việc dự đoán việc chuyển tới đơn vị điều trị tích cực (ICU), thở máy và tử vong Sự cải thiện cho việc chuyển tới ICU có ý nghĩa thống kê ở tất cả các cửa sổ thời gian, trong khi tử vong có ý nghĩa thống kê ở 72 và 96 giờ Sự khác biệt về hiệu suất cho việc thở máy không có ý nghĩa thống kê.
Triển khai thực nghiệm của sinh viên
Giới thiệu phần mềm và dữ liệu
Giới thiệu phần mềm
Môi trường thực nghiệm:Google Colab
Nhóm chúng em sử dụng mã nguồn do tác giả công bố tại địa chỉhttps://github.com/ facebookresearch/CovidPrognosisđể tiến hành thực nghiệm trên bộ biên dịch Python 3.8 cùng với các thư viện:
Các phiên bản này đã được chúng em chỉnh sửa lại để tránh gây xung đột hay không tương thích trong quá trình thực nghiệm.
3.1 Giới thiệu phần mềm và dữ liệu
Dữ liệu
Do 2 bộ dữ liệu mà tác giả đưa ra khá lớn ( 500GB với MIMIC-CXR-JPG [ ; ; 22 27 28] và 340GB với CheXpert [20] nên nhóm chúng em sử dụng bộ dữ liệu CheXpert-v1.0-small (11GB) tạikagglecho việc huấn luyện mô hình.
Hình 3.1.1: Ảnh chụp X-quang ngực trong bộ dữ liệu CheXpert-v1.0-small
CheXpert-v1.0-small là một bản thu nhỏ của CheXpert với 223414 ảnh và một file.csv chứa thông tin như sau:
•Path:Đường dẫn tới file ảnh
•AP/PA:Tư thế chụp ảnh X-quang (tức là bệnh nhân đứng quay mặt ra hay úp mặt vào casstte để hứng tia X)
Mô tả quá trình thực nghiệm
Tổng quan về mã nguồn
Hình 3.2.1: Hình ảnh các tệp và file mã nguồn
•Tệpconfigschứa các file cấu hình về đường dẫn dữ liệu và các checkpoints đã được tiền huấn luyện từ trước.
•Tệpcovidprognosischứa các file mô hình (model/moco_model.py), và các file để xử lý và tải dữ liệu cho quá trình huấn luyện.
•Tệpcp_exampleslà sẽ là phần chính mà chúng em sẽ chạy code cho tác vụ chính làSIPvà ORP.
•Tệptestgồm các file để kiểm tra dữ liệu và xem phân chia tập train-val có đúng so với tổng số dữu liệu ko và xem cách dữ liệu được tiền xử lý hợp lệ chưa trước khi cho vào mô hình.
3.3 Kết quả chạy thực nghiệm
Hướng dẫn thực nghiệm
Toàn bộ mã nguồn trong quá trình thực nghiệm đều được chúng em lưu tạiđâyvà do môi trường thực nghiệm khác nhau nên chúng em đã sửa fileconfigs/data.yamlvàcp_example/sip_train.py
Hình 3.2.2: 2 file được sửa lần lượt làdata.yamlvàsip_train.py
Nhóm em để cả 2 quá trình huấn luyện đểu làBatch_size = 32vàepochs = 5do tập huấn luyện có 223414 mẫu nên mỗi epoch sẽ mất 1 tiếng để huấn luyện Còn riêng đối vớimoco_modelthì chúng em sử dụng hệ sốmomentom = 0.9vàweight_decay −4
Kết quả chạy thực nghiệm
Toàn bộ mã nguồn trong quá trình thực nghiệm đều được chúng em lưu tạiđâyvà do môi trường thực nghiệm khác nhau nên chúng em đã sửa fileconfigs/data.yamlvàcp_example/sip_train.py
Hình 3.2.2: 2 file được sửa lần lượt làdata.yamlvàsip_train.py
Nhóm em để cả 2 quá trình huấn luyện đểu làBatch_size = 32vàepochs = 5do tập huấn luyện có 223414 mẫu nên mỗi epoch sẽ mất 1 tiếng để huấn luyện Còn riêng đối vớimoco_modelthì chúng em sử dụng hệ sốmomentom = 0.9vàweight_decay −4
3.3 Kết quả chạy thực nghiệm
Kết quả chạy của nhóm chúng em được thể hiện qua 2 hình là hình 3.3.1 và 3.3.2 thể hiện kết quả của tiền huấn luyện MoCo và tác vụ hạ nguồn choSIPvàORP
Hình 3.3.1: kết quả quá trình tiền huấn luyện MoCo
Liên hệ với nghiên cứu nhóm sinh viên
Nhận xét
Phương pháp đã tận dụng triệt để nguồn dữu liệu có hạn về COVID-19 và sử dụng tiền huấn luyện để trích xuất tối đa các đặc trưng từ các bộ dữ liệu hình ảnh X-quang ngực công khai Điều này làm tăng đáng kể kết quả cho mô hìnhSIP/ORPvàMIP.
Với tiền huấn luyện bằng tập dữ liệu lớn nên bài toán có tính module, tức là ta có thể áp dụng đa dạng cho các tác vụ hạ nguồn.
Chi phí tính toán không quá lớn cùng với cân bằng về hiệu năng nên mô hình có thể được triển khai một cách rộng rãi trên các bệnh viện tại thời điểm đó.
Có lẽ nhược điểm lớn nhất có lẽ là sự hạn chế trong tập dữ liệu Do chúng ta thực hiện tác vụ hạ nguồn với tập dữ liệu rất ít nên kết quả có thể được cải thiện nếu như trong bối cảnh hiện tại khi mà dữ liệu về COVID-19 là rất nhiều và đủ để có thể huấn luyện.
Liên hệ nghiên cứu
Trong quá trình nghe các nhóm khác thuyết trình trên lớp, nhóm chúng em nhận thấy rằng có khá nhiều nhóm cũng làm chung chủ đề về các phương pháp học tự giám sát dựa trên học tương phản như CPC [42] (Contrastive Predictive Coding), BYOL [43] , hay SimCLR [44] của nhà Google Chúng em nghĩ mình có thể áp dụng các phương pháp này vào quá trình tiền huấn luyện để có đánh giá trực quan nhất giữa các mô hình.
Về mặt dữ liệu nhóm chúng em nghĩ mk cũng nên thêm một số trường dữ liệu khác cho thông tin ảnh như nhiệt độ cơ thể lúc chụp X-quang , có tiếp xúc với bất kỳ ai trong khoảng thời gian 2 tuần hay bệnh nền đẻ gia tăng khả năng dự đoán của mô hình.
[1] Yulong Hao, Yagang Wang, and Xun Wang Self-supervised pretraining for covid-19 and other pneumonia detection from chest x-ray images InAdvances in Natural Computation, Fuzzy Systems and Knowledge Discovery: Proceedings of the ICNC-FSKD 2021 17, pages 1000–1007.
[2] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick Momentum contrast for unsupervised visual representation learning InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 9729–9738, 2020.
[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin Attention is all you need, 2017.
[4] Lisa Torrey and Jude Shavlik Transfer learning InHandbook of research on machine learning applications and trends: algorithms, methods, and techniques, pages 242–264 IGI global, 2010.
[5] Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kilian Q Weinberger Densely connected convolutional networks, 2018.
[6] Mythreyi Bhargavan and Jonathan H Sunshine Utilization of radiology services in the United States: Levels and trends in modalities, regions, and populations.Radiology, 2005.
[7] Farah E Shamout, Yiqiu Shen, Nan Wu, Aakash Kaku, Jungkyu Park, Taro Makino, Stanis- law Jastrzebski, Duo Wang, Ben Zhang, Siddhant Dogra, Meng Cao, Narges Razavian, David Kudlowitz, Lea Azour, William Moore, Yvonne W Lui, Yindalon Aphinyanaphongs, Carlos Fernandez-Granda, and Krzysztof J Geras An artificial intelligence system for predicting the deterioration of COVID-19 patients in the emergency department.CoRR, abs/2008.01774, 2020.
[8] Young Joon (Fred) Kwon, Danielle Toussie, Mark Finkelstein, Mario A Cedillo, Samuel Z.Maron, Sayan Manna, Nicholas Voutsinas, Corey Eber, Adam Jacobi, Adam Bernheim, Yo- gesh Sean Gupta, Michael S Chung, Zahi A Fayad, Benjamin S Glicksberg, Eric K Oermann,and Anthony B Costa Combining Initial Radiographs and Clinical Variables Improves Deep
Learning Prognostication in Patients with COVID-19 from the Emergency Department.Radiol- ogy, 2020.
[9] Kang Zhang, Xiaohong Liu, Jun Shen, Zhihuan Li, Ye Sang, Xingwang Wu, Yunfei Zha, Wen- hua Liang, Chengdi Wang, Ke Wang, Linsen Ye, Ming Gao, Zhongguo Zhou, Liang Li, Jin Wang, Zehong Yang, Huimin Cai, Jie Xu, Lei Yang, Wenjia Cai, Wenqin Xu, Shaoxu Wu, Wei Zhang, Shanping Jiang, Lianghong Zheng, Xuan Zhang, Li Wang, Liu Lu, Jiaming Li, Haiping Yin, Winston Wang, Oulan Li, Charlotte Zhang, Liang Liang, Tao Wu, Ruiyun Deng, Kang Wei, Yong Zhou, Ting Chen, Johnson Yiu-Nam Lau, Manson Fok, Jianxing He, Tianxin Lin, Weimin
Li, and Guangyu Wang Clinically Applicable AI System for Accurate Diagnosis, Quantitative Measurements, and Prognosis of COVID-19 Pneumonia Using Computed Tomography Cell, 2020.
[10] Jie-Zhi Cheng, Dong Ni, Yi-Hong Chou, Jing Qin, Chui-Mei Tiu, Yeun-Chung Chang, Chiun- Sheng Huang, Dinggang Shen, and Chung-Ming Chen Computer-Aided Diagnosis with Deep Learning Architecture: Applications to Breast Lesions in US Images and Pulmonary Nodules in
[11] Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, Brandon Yang, Hershel Mehta, Tony Duan, Daisy Yi Ding, Aarti Bagul, Curtis P Langlotz, Katie S Shpanskaya, Matthew P Lungren, and Andrew Y Ng CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning.CoRR, abs/1711.05225, 2017.
[12] Gabriel Chartrand, Phillip M Cheng, Eugene Vorontsov, Michal Drozdzal, Simon Turcotte, Christopher J Pal, Samuel Kadoury, and An Tang Deep Learning: A Primer for Radiologists.
[13] Paras Lakhani and Baskaran Sundaram Deep Learning at Chest Radiography: Automated Clas- sification of Pulmonary Tuberculosis by Using Convolutional Neural Networks Radiology, 2017.
[14] Rikiya Yamashita, Mizuho Nishio, Richard Kinh Gian Do, and Kaori Togashi Convolutional neural networks: an overview and application in radiology.Insights Into Imaging, 2018.
[15] Pranav Rajpurkar, Jeremy Irvin, Robyn L Ball, Kaylie Zhu, Brandon Yang, Hershel Mehta, TonyDuan, Daisy Ding, Aarti Bagul, Curtis P Langlotz, et al Deep learning for chest radiograph diagnosis: A retrospective comparison of the chexnext algorithm to practicing radiologists.PLoS medicine, 15(11):e1002686, 2018.
[16] Xiaocong Chen, Lina Yao, Tao Zhou, Jinming Dong, and Yu Zhang Momentum contrastive learning for few-shot COVID-19 diagnosis from chest CT images Pattern Recognition,
[17] Amine Amyar, Romain Modzelewski, Hua Li, and Su Ruan Multi-task deep learning based ct imaging analysis for covid-19 pneumonia: Classification and segmentation Computers in Biology and Medicine, 126:104037, 2020.
[18] Ran Zhang, Xin Tie, Zhihua Qi, Nicholas B Bevins, Chengzhu Zhang, Dalton Griner, Thomas K Song, Jeffrey D Nadig, Mark L Schiebler, John W Garrett, Ke Li, Scott B Reeder, and Guang-Hong Chen Diagnosis of Coronavirus Disease 2019 Pneumonia by Using Chest Radiography: Value of Artificial Intelligence.Radiology,, 2020.
[19] Yujin Oh, Sangjoon Park, and Jong Chul Ye Deep learning covid-19 features on cxr using limited training data sets, 2020.
[20] Jeremy Irvin, Pranav Rajpurkar, Michael Ko, Yifan Yu, Silviana Ciurea-Ilcus, Chris Chute, Henrik Marklund, Behzad Haghgoo, Robyn Ball, Katie Shpanskaya, Jayne Seekins, David A. Mong, Safwan S Halabi, Jesse K Sandberg, Ricky Jones, David B Larson, Curtis P Langlotz, Bhavik N Patel, Matthew P Lungren, and Andrew Y Ng Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison, 2019.
[21] Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, and Ronald M Sum- mers ChestX-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases In2017 IEEE Conference on Com- puter Vision and Pattern Recognition (CVPR) IEEE, jul 2017.
[22] Alistair EW Johnson, Tom J Pollard, Seth J Berkowitz, Nathaniel R Greenbaum, Matthew P Lun- gren, Chih-ying Deng, Roger G Mark, and Steven Horng Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports.Scientific Data, 6:317, 2019.
[23] Hoo-Chang Shin, Holger R Roth, Mingchen Gao, Le Lu, Ziyue Xu, Isabella Nogues, Jian- hua Yao, Daniel Mollura, and Ronald M Summers Deep convolutional neural networks for computer-aided detection: Cnn architectures, dataset characteristics and transfer learning, 2016.
[24] R Hadsell, S Chopra, and Y LeCun Dimensionality reduction by learning an invariant map- ping In2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pages 1735–1742, 2006.
[25] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey E Hinton A simple frame- work for contrastive learning of visual representations.CoRR, abs/2002.05709, 2020.
[26] Xinlei Chen, Haoqi Fan, Ross B Girshick, and Kaiming He Improved baselines with momen- tum contrastive learning.CoRR, abs/2003.04297, 2020.