1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa

65 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Tác giả Bùi Nguyễn Phương Linh
Người hướng dẫn TS. Nguyễn Tất Bảo Thiện
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 65
Dung lượng 39,99 MB

Cấu trúc

  • 1.2. acc nh ốẽ (0)
  • 1.3. Đối tượng nghiên cứu...................................----cccssreeeerrreertrertrtrrvrrirrtrirrrtrrrrrrrreerre 6 1.4. Phạm vi nghiÊn CỨU..............................-- s-sccétcEEEExkEEkrEktkkrEkkrkkkkkkrrrkrkrikirrrirrrkrrrerrrke 6 Chương 2. TONG QUANN...........................--< 5< 5< s52 s2 se SsEsESSES9EsE5E23 555955232 7 2.1. Phan tích hình ảnh nội soi đại tràng ...............................------c-c+scesereerrrirerirrkrrrerirrrrre 7 2.2. Phương pháp tiền xử lí cho hình ảnh nội soi đại tràng (15)
  • 2.3. Hệ thống trả lời câu hỏi dựa trên hình ảnh y học (Medical Visual Question ATSW€TITĐ)....................c-- z4 2E1132Ẹ11..1TH Hà Hy Hà HÀ Hà Hà HH HH HH HH HH1 0H11. 9 2.4. Kết hợp đa phương pháp (Multimodal Fusion) trong hệ thống trả lời câu (18)
  • Chương 3. CƠ SỞ LÝ THUYET-PHUONG PHÁP NGHIÊN CỨU (24)
    • 3.1. Bộ dữ liệu và tác vụ VQQA.................................. cv HH gu 15 1. Thông tin bộ dữ liỆU........................................-.csc5cSccEEieEEiktEriritiiiiiiiiieree 15 2. Nhiệm vụ VQA tại cuộc thi ImageCLEFmed-MEDVQA_GI-2023 (24)
    • 3.2. Phương pháp tăng cường ảnh ................................-----cceecrrketEriitriirriiiiriiriiierrie 18 1. Loại bỏ điểm sáng phan xa (Specular Highlight Removal) (27)
      • 3.2.2. Loại bỏ viền đen (Black Mask Removal)...............................----ss+--ccceree 22 3.2.3. Phương pháp cân bằng histogram phù hợp giới hạn tương phản (Contrast Limited Adaptive Histogram Equalization- CUAHE) (31)
    • 3.3. Kiến trúc đa phương pháp kết hop (Multimodal Fusion) (0)

Nội dung

DANH MỤC HÌNHHình 3.1: Hình minh họa về cặp câu hỏi và câu trả lời kèm theo các đặc điểm bat thường phổ biến trong hình ảnh đường tiêu hóa từ tập dữ liệu ImageCLEF-med-MEDVQA-GI-2022...-

Hệ thống trả lời câu hỏi dựa trên hình ảnh y học (Medical Visual Question ATSW€TITĐ) c z4 2E1132Ẹ11 1TH Hà Hy Hà HÀ Hà Hà HH HH HH HH HH1 0H11 9 2.4 Kết hợp đa phương pháp (Multimodal Fusion) trong hệ thống trả lời câu

Trong lĩnh vực trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên, VỌA có thể được hiểu là "Visual Question Answering," nghĩa là hệ thống máy tính có khả năng trả lời câu hỏi dựa trên thông tin hình ảnh, VQA kết hợp giữa thị giác máy tính (Computer Vision) và xử lí ngôn ngữ tự nhiên (NLP) VQA được xem là một bước tiến quan trọng trong lĩnh vực Trí tuệ nhân tạo nhằm xây dựng các hệ thong tự động có kha năng trả lời câu hỏi dựa trên hình ảnh Các cuộc khảo sát gần đây đã phân tích nhiều nghiên cứu và bộ dữ liệu, các số liệu và mô hình hiện có được đề xuất cho nhiệm vụ VQA Ngoài ra còn thảo luận về những cách tiếp cận khác như các mô hình Non- Deep Learning, cung cấp cái nhìn sâu sắc về các kĩ thuật tiên tiến, xu hướng chung và những lĩnh vực có thé cải thiện của nghiên cứu trong tương lai VQA có thé nói là một nhiệm vụ thu hút đáng ké sự chú ý của nhà nghiên cứu trong những năm gần đây, tập trung vào các cơ chế tổng hợp tính năng đa phương thức, mang đến cho những tiền bộ hơn nữa về công nghệ lẫn nghiên cứu [11], [12].

VQA áp dụng nhiều trong thực tế, bao gồm trợ lý ảo, hệ thống hỗ trợ quyết định, và tương tác người-máy, cung cấp khả năng tương tác tự nhiên và trực quan giữa con người và máy tính, mở ra những tiềm năng trong việc tận dụng thông tin từ hình ảnh và câu hỏi để đưa ra những câu trả lời Trong lĩnh vực y học, MedVQA (Medical Visual Question Answering) là một phần mở rộng của VQA, tập trung vào ứng dụng trong lĩnh vực chăm sóc sức khỏe MedVQA kết hợp các thách thức của VỌA với các vấn đề và ứng dụng y tế Băng cách tích hợp hình ảnh y tế và câu hỏi có ý nghĩa lâm sàng, các hệ thống MedVQA được xây dựng nhằm đưa ra câu trả lời có tính hợp lí và thuyết phục, đồng thời xác định tình trạng bệnh lí. Đây là một lĩnh vực đầy tiềm năng, có thể góp phần cải thiện chân đoán y học, hỗ trợ quyết định và tăng cường kiến thức y học Tuy nhiên, cũng đặt ra các thách thức lớn Đầu tiên, hình ảnh y học có kích thước lớn và phức tạp, đòi hỏi mô hình phải có khả năng xử lý và hiểu thông tin chỉ tiết từ hình ảnh này Thứ hai, câu hỏi y học thường liên quan đến kiến thức chuyên môn, và mô hình phải có khả năng hiểu và đưa ra câu trả lời chính xác và tin cậy.

Mặc dù vậy, lĩnh vực nghiên cứu, MedVQA đã gây được sự chú ý của nhiều nhà nghiên cứu Các nhà khoa học đang tập trung vào việc xây dựng và cải tiễn các bộ dữ liệu MedVQA công khai, nhằm tạo ra các tập dữ liệu phù hợp và đa dạng dé huấn luyện và đánh gia chất lượng năng suất của các hệ thông MedVQA Hiện nay, có 8 bộ dit liệu MedVQA đã được công bố bao gồm VQA-MED-2018 [13], VQA-

RAD [14], VQA-MED-2019 [15], RadVisDial [16], PathVQA [17], VQA-MED-

2020 [18], SLAKE [19], và VQA-MED-2021 [18] Các bộ dữ liệu nay được sử dung để huấn luyện và nhận xét năng suất của các hệ thống và hỗ trợ, cải thiện chất lượng chăm sóc sức khỏe bệnh nhân Nghiên cứu về hệ thống VQA y tế đã không chỉ tập trung vào việc xây dựng các bộ dữ liệu quan trọng, mà còn đánh giá các phương pháp tiếp cận được áp dụng trong các nhiệm vụ này Cách tiếp cận thường được sử dụng trong VQA y tế bao gồm các phương pháp sử dụng mô hình học sâu, kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên, mô hình chú ý và học tăng cường Một hệ thống

VỌA y tê hoàn chỉnh và hoàn thiện có tiêm năng lớn đê trực tiêp xem xét các vân đê sức khỏe của bệnh nhân.

Cấu trúc cơ bản của hệ thống MedVQA bao gồm một bộ mã hóa hình ảnh (Image Encoder), một bộ mã hóa câu hỏi (Text Encoder), một thuật toán kết hợp (Multimodal Fusion) và một thành phần trả lời Bộ mã hóa hình ảnh (Image Encoder) có thé sử dụng kiến trúc mạng nơ-ron như ResNet [20] và VGGNet [21] đã được đào tạo trước trên tập dữ liệu ImageNet [22] Những mô hình này không chỉ làm tăng cường khả năng nhận diện vật thé mà còn tạo ra những biểu diễn sâu về bản chất của hình ảnh Đối với bộ mã hóa ngôn ngữ, sự tích hợp của các kiến trúc dựa trên

Transformer như BERT [23] 18 và BioBERT [24] cùng với mô hình RNN như LSTM

[25] Bi-LSTM [26], GRU [27]) giúp hệ thống xử lí và hiểu ngôn ngữ tự nhiên một cách mạnh mẽ Ở giai đoạn tông hợp, MedVQA sử dụng các cơ chế chú ý như Mạng chú ý xếp chồng -Stacked Attention Networks (SAN) [28], Mạng chú ý song tuyến tính- Bilinear Attention Networks (BAN) [29], hoặc Đồng chú ý hình ảnh-câu hỏi phân cấp - Hierarchical Question-Image Co-Attention (HieCoAtt) [30] Các phương pháp này không chỉ giúp tập trung vào các vùng quan trọng của hình ảnh và câu hỏi mà còn tăng cường khả năng học của mô hình

Ngoài ra, MedVQA sử dụng một số phương pháp kết hợp đa module để nâng cao hiệu suất và độ chính xác trong xử lý ảnh như Late Fusion, Early Fusion, và Attention Fusion Những phương pháp này được sử dụng đề kết hợp hiệu quả các đặc điểm hình ảnh và ngôn ngữ được trích xuất từ các hình ảnh và câu hỏi y tế Đặc biệt, Attention-Fusion liên quan đến việc sử dụng các cơ chế chú ý (attention) như mô-đun chú ý nhiều đầu (Multi-head-attention modules) giúp cải thiện khả năng hiểu và sàng lọc tính năng [31], [32], [33].

Thành phan trả lời có hai chế độ đầu ra phụ thuộc vào đặc điểm của câu trả lời. Chế độ phân loại được sử dụng nếu câu trả lời là ngắn và giới hạn trong một hoặc hai từ Ngược lại, nếu câu trả lời ở định dạng tự do và phức tạp hơn, các mô hình như

LSTM (Long Short-Term Memory) hoặc GRU (Gated Recurrent Unit) được sử dụng đê dam bảo xử lí hiệu quả va hiéu đúng cau trúc ngôn ngữ phức tap.

Với vai trò cung cấp cách tiếp cận tự động và tương tác trong việc trả lời các câu hỏi liên quan đến hình ảnh y tế Nền tảng này không chỉ cung cấp thông tin bổ sung từ hình ảnh mà còn tăng cường khả năng hiểu và phân tích hình ảnh y tế, giúp đưa ra các phán đoán chính xác.Đặc biệt MedVQA hỗ trợ chan đoán bằng cách cung cấp thông tin bổ sung từ hình ảnh và trả lời các câu hỏi, tăng cường khả năng hiểu va phân tích hình ảnh y tế, đưa ra phán đoán chính xác Nhờ vào khả năng tương tác và truy xuất thông tin y tế, nền tang này cung cấp các tùy chọn điều trị tốt hơn Ngoài ra với sự kết hợp giữa khả năng xử lý hình ảnh y tế và khả năng trả lời các câu hỏi y tế,

MedVQA còn hỗ trợ trong việc quyết định điều trị, giúp tăng cường chính xác kiến thức và sự hiệu biệt của bac sĩ, cung cap các tùy chọn điêu tri tot hon.

2.4 Kết hợp đa phương pháp (Multimodal Fusion) trong hệ thống trả lời câu hỏi dựa trên hình ảnh y học (Medical Visual Question Answering)

Trong MedVQA, sự kết hợp đa phương thức liên quan đến việc tích hợp thông tin từ cả hình ảnh và văn bản để trả lời các câu hỏi lâm sàng về hình ảnh y tế Do đó, nhằm nâng cao tính hiệu quả của hệ thông, nhiều mô hình tổng hợp đa phương thức dựa trên cơ chế chú ý đã được phát triển Những mô hình này sử dụng cơ chế chú ý dé tập trung vào các phan có liên quan của hình ảnh và câu hỏi dẫn đến việc cải thiện sự kết hợp tinh năng và biéu diễn MAME - Multi-level Attention-based Multimodal Fusion model nhằm mục dich tìm hiểu cách biểu diễn ngữ nghĩa đa phương pháp đa cấp độ cho VQA y tế Sử dụng cơ chế chú ý từ hình ảnh đến hình ảnh và từ câu đến hình ảnh, tạo ra mối tương quan giữa từ, câu và vùng hình ảnh Mô hình này đề xuất tính năng mat liên kết chú ý dé điều chỉnh trọng số của vùng hình ảnh, giúp cải thiện hiệu suất trên bộ dữ liệu VQA y tế [34].

Một mô hình học sâu đa phương thức khác, MedFuseNet, sử dụng các mô-đun chú ý dé tối ưu hóa tính năng từ cả hình ảnh và văn bản MedFuseNet bao gồm các bước như trích xuất tính năng hình ảnh, trích xuất tính năng câu hỏi, mô-đun kết hợp

12 tính năng và mô-ẩun dự đoán câu trả lời Các mô-đun chú ý trong MedFuseNet giúp tập trung vào những phan quan trọng nhất của hình ảnh và câu hỏi y tế, đóng góp vào hiệu suất tông thé của hệ thống MedVQA [33].

Ngoài ra, Mô hình điều chỉnh đa phương thức dựa trên sự chú ý (AMAM) là một mô hình được phát triển đặc biệt dé giải quyết câu hỏi liên quan đến hình ảnh y tế Với mục tiêu là cải thiện độ chính xác của việc trả lời các câu hỏi lâm sang vé hinh ảnh y tế AMAM sử dung các cơ chế chú ý một thành phan quan trọng trong kiến trúc Transformer để liên kết đa phương thức, cải thiện độ chính xác của việc trả lời các câu hỏi lâm sàng về hình ảnh y tế [35] Cơ chế này cho phép mô hình tập trung vào các phần quan trọng trong hình ảnh hoặc câu hỏi bang cách tính toán mức độ quan trong của các phan tử trong một chuỗi Trong AMAM, cơ chế chú ý được áp dụng dé tạo ra một liên kêt giữa hình ảnh và câu hỏi.

Cụ thể, AMAM sẽ lây hình ảnh y tế và câu hỏi làm đầu vào Hình ảnh sẽ được biểu diễn bằng một tập các vùng không gian, và câu hỏi sẽ được biểu diễn băng một tập các từ hoặc mã thông tin Mô hình AMAM sẽ sử dung cơ chế chú ý dé tính toán mức độ quan trọng của các vùng không gian trong hình ảnh và các từ trong câu hỏi.

Sau đó, thông tin từ các vùng không gian được liên kết với câu hỏi dé tạo ra một biểu diễn kết hợp và trả lời câu hỏi.

CƠ SỞ LÝ THUYET-PHUONG PHÁP NGHIÊN CỨU

Bộ dữ liệu và tác vụ VQQA cv HH gu 15 1 Thông tin bộ dữ liỆU -.csc5cSccEEieEEiktEriritiiiiiiiiieree 15 2 Nhiệm vụ VQA tại cuộc thi ImageCLEFmed-MEDVQA_GI-2023

3.1.1 Thong tin bộ dữ liệu

Bộ dữ liệu sử dụng trong nghiên cứu được phát hành cho thách thức

ImageCLEFmed-MEDVQA_GI-2023 dựa trên tập dữ liệu Hyper Kvasir! Day là bộ dữ liệu hình anh và đa video đa lớp lớn nhất hiện có liên qua đến đường tiêu hóa (GI) với hơn 110.079 hình ảnh và 374 video Các hình ảnh và video trong HyperKvasir được thu thập theo các cuộc kiểm tra lâm sảng định kỳ được thực hiện Đây là bộ dữ liệu hình ảnh và video lớn nhất từ đường tiêu hóa, với khoảng 1 triệu hình ảnh và khung video được thiết kế dé hỗ trợ phát triển các hệ thong dựa trên tri tuệ nhân tao cho phân tích tự động, chăng hạn như phát hiện bệnh hoặc các vết thương khác Dữ liệu này còn được sử dụng rộng rãi trong các nhiệm vụ như phân loại bệnh, phát hiện polyp và phân tích hình ảnh y tế.

Bộ dữ liệu bao gồm nhiều lớp khác nhau ứng với nhiều tình trạng của đường tiêu hóa và cấu trúc giải phẫu, các video và chú thích, hình ảnh đã được phân đoạn và hình ảnh chưa được gán nhãn Điều này cung cấp một bộ tài nguyên toàn diện phục vụ cho nhiều mục đích nghiên cứu khác nhau về hình ảnh nội soi đường ruột. Đối với tác vụ VQA, bộ dữ liệu từ cuộc thi ImageCLEFmed-MEDVQA_GI-2023 gồm bộ dit liệu phát triển và bộ dữ liệu kiểm thử bao gồm tổng cộng 3949 hình anh từ các quy trình khác nhau của quá trình nội soi từ miệng, dạ dày, đại tràng đến hậu môn Mỗi hình ảnh có tổng cộng 18 câu hỏi về các bất thường, về dụng cụ phẫu thuật hoặc một số bất thường khác với khả năng có thể có nhiều câu trả lời cho mỗi câu hỏi Tuy nhiên không phải tất cả câu hỏi đều liên quan đến hình ảnh cung cấp Hình ảnh có thé chứa nhiều thành phan gây nhiễu như các diém sáng, khung viền den, màu sắc hình ảnh thu được.

1 https://datasets.simula.no/hyper-kvasir/

What type of procedure is the image

2 Have all polyps been removed? Yes, No, Not relevant

3 Is this finding easy to detect? Yes, No, Not relevant

4 Is there a green/black box artifact? Yes, No

5 Is there text? Yes, No

6 What color is the abnormality? Red, Pink, White, Yellow,

Red, Red, White, Pink, Red,

7 What color is the anatomical landmark? grey,

8 How many findings are present? 0, 1,2, 3, 4,5,

9 How many polyps are in the image? 0, 1,2, 3, 4,5,

10 | How many instruments are in the image? 0, 1,2, 3, 4,5,

11 Where in the image is the abnormality? right, Center-right,

12 Where in the image is the instrument? right, Center-right,

B Are there any abnormalities in the No, Polyp, Ulcerative colitis, image? Oesophagitis,

14 Are there any anatomical landmarks in No, Z-line, Cecum, Ileum, the image? Pylorus, Not relevant

15 | Are there any instruments in the image? | Metal clip, Polyp snare, Tube,

16 Where in the image is the anatomical Center, Lower-left, Lower- landmark? right, Center-right,

17 What is the size of the polyp?

Paris ip, Paris iia, "Paris is,

18 What type of polyp is present?

Bang 3.1: Câu hỏi và các câu trả lời mẫu từ tap dữ liệu ImageCLEFmed-

Q: What color is the abnormality?

Q: Where in the image is the instrument? | | Q: Is there a green/black box artefact?

A: Upper-right, Lower-right, Center-right

(a) No abnormality (b) Polyp (c) Oesophagitis (d) Ulcerative Colitis

Hinh 3.1: Hinh minh hoa về cặp câu hỏi và câu trả lời kèm theo các đặc điểm bat thường phô biên trong hình anh đường tiêu hóa từ tập dữ liệu ImageCLEF-med-

3.1.2 Nhiệm vụ VQA tại cuộc thi InageCLEFmed-MEDVQA_ GI-2023

ImageCLEFmed-MEDVQA-GI-2023 bao gồm một số nhiệm vụ liên quan đến trả lời câu hỏi trực quan và tạo câu hỏi trực quan nhằm xác định các tôn thương từ hình ảnh nội soi Mục tiêu chính là thông qua sự kết hợp giữa dữ liệu văn bản và hình ảnh được cung cấp, đầu ra của nghiên cứu sẽ cung cấp câu trả lời hoặc câu hỏi hỗ trợ các chuyên gia y tế trong van đề xác định và chan đoán các bất thường có trong hình ảnh Nhiệm vụ bao gồm ba tác phụ phụ là VQA (Tra lời cau hỏi hình ảnh), VQG (Tao câu hỏi hình anh) và VLQA (Trả lời câu hỏi vi trí hình ảnh) Tuy nhiên trong nghiên cứu này, phạm vi chỉ tập trung vào nhiệm vụ VQA đối với bộ đữ liệu hình ảnh nội

17 soi được cung cap Ở nhiệm vụ VQA, cân phải tao ra một câu trả lời văn bản cho một cặp câu hoi-hinh ảnh văn bản cụ thê Cách tông quát, từ câu hỏi văn bản và hình anh tương ứng, cân phải đưa ra các câu trả lời chính xác và phù hợp dựa trên thông tin được lây từ cả hai nguôn đữ liệu.

Phương pháp tăng cường ảnh -cceecrrketEriitriirriiiiriiriiierrie 18 1 Loại bỏ điểm sáng phan xa (Specular Highlight Removal)

Tiền xử lí và tăng cường hình ảnh trong ngữ cảnh của hình ảnh nội soi đại tràng đóng vai quan trọng trong việc tối ưu hóa chất lượng và chuẩn bị dữ liệu cho hệ thống chân đoán Bắt kì kĩ thuật xử lí nào có mục tiêu làm rõ, nỗi bật hay loại bỏ các yếu tố không mong muốn từ hình ảnh đều có thê được xem là phương pháp cải thiện Trong quá trình cải thiện hình ảnh, chú ý không thêm thông tin mới vào hình ảnh mà chỉ nhắn mạnh những thông tin đã có hoặc loại bỏ hiệu ứng không cần thiết dé hình ảnh được sử dụng hiệu quả hơn bởi các thuật toán ở hệ thông hỗ trợ phục vụ cho chân đoán.

Nói cách khác, mục tiêu của quá trình tăng cường hình ảnh là cải thiện khả năng nhận diện và chan đoán của hệ thống Một số van dé hay gặp phải ở ảnh nội soi dai tràng có thê kế đến như viền đen (Black mask), ánh sáng không đều (Uneven lighting) hay điểm sáng phan xa (specular highlights) Đây đều là những yếu tổ gây ảnh hưởng không nhỏ đến hiệu suất của việc xác định chính xác vị trí các polyp hoặc ung thư xuất hiện trong hình ảnh Điều này đặt ra thách thức đối với hệ thống VQA

Một số phương pháp tiền xử lí và tăng cường hình ảnh được nghiên cứu và trình bày sau nhằm loại bỏ các điểm sáng phản xạ (specular highlight removal) và viền đen

(Black mask Removal) Ngoài ra, nghiên cứu cũng thực hiện tăng cường độ tương phản của hình ảnh bằng CLAHE (Contrast Limited Adaptive Histogram Equalization) Mục tiêu mong muốn là sẽ có thé tạo ra một hình ảnh được cai thiện, không chứa các điểm sáng phản xạ và không có khung viền đen nhưng đồng thời vẫn giữ lại được các đặc trưng quan trọng của khu vực quan tâm Điều này là quan trọng dé có thé so sánh và đánh giá hiệu suất của các phương pháp tăng cường hình anh đã được dé xuất trong ngữ cảnh của hệ thống VQA.

(a) Original image (b) Greyscale conversion (c) Specular highlights detection

(d) Average smoothing (e) Initial restoration (f) Inpainted using Telea algorithm

Hình 3.2: Tổng quan về các giai đoạn của phương pháp specular highlights inpainting.

3.2.1 Loại bỏ điểm sáng phan xa (Specular Highlight Removal)

Quy trình loại bỏ điểm sáng phan xa (Specular Highlight Removal) từ hình anh nội soi dai tràng là một quy trình phức tap được thực hiện thông qua hai quá trình liên tiếp: phát hiện điểm sáng phản xạ (Specular Highlights detection) và điền điểm sáng

Phát hiện điểm sáng phản xa (Specular Highlights detection): bat đầu bang việc chuyên đồi hình anh từ kênh mau RGB ban dau sang anh xám Quá trình này giúp giảm chiều dữ liệu làm cho việc xử lý tiếp theo trở nên dé dang hơn Thay vì sử dụng ngưỡng thích ứng (Adaptive Thresholding), phương pháp sử dụng ngưỡng tiêu chuẩn với một giá trị ngưỡng cố định dé xác định điểm sáng phản xa trong toàn bộ các hình ảnh Quyết định sử dụng ngưỡng cé định giúp đơn giản hóa quy trình xác định các điểm nổi bật sáng bóng trên hình ảnh Tuy nhiên, điều này cũng có thể đồng

19 nghĩa với việc một số thông tin có thể bị mắt đi trong quá trình xử lý, đặc biệt là đối với các hình ảnh đường tiêu hóa có cấu trúc và thành phần phức tạp.

Trong bộ dữ liệu có những hình ảnh chứa văn bản, các khu vực chiếu sáng cao hoạc công cụ có màu sắc sáng Các vùng chiếu sáng cao đại diện cho các điểm sáng phản xạ có cường độ cao hơn so với các điểm sáng thông thường và đôi khi các công cụ nội soi có màu trắng hoặc xanh sau khi áp dụng ngưỡng Điều này có thé gây trở ngại cho quá trình phân tích Do đó, dé loại bỏ những yếu tố trên, có hai hướng có thê tiến hành thực hiện là thực hiện phân đoạn cho văn bản, polyp và công cụ hoặc loại bỏ các phần với kích thước đưới một ngưỡng cụ thể Trong nghiên cứu này cách tiếp cận thứ hai được sử dụng nhằm đơn giản hóa quá trình.

(a) Original image (b) Thresholding (c) Detection of undesired (d) Preprocessed mask regions

Hình 3.3: Hình minh họa việc phát hiện điểm sáng phản xạ đặc biệt (specular highlights) từ ảnh nội soi đại tràng chứa văn bản, vùng phơi sang cao và một dụng cu mau trang

Phuong pháp tiền xử lí sau đó bao gồm một số các biến déi về mặt hình thái kết hợp với phát hiện và loại bỏ đường viền từ mặt nạ Dilation được thức hiện với kích thước kernel là 3x3 nhằm “nối” các pixel liên quan đến các phần không mong muốn trong ảnh.

Sau khi thực hiện dilation, quá trình tiếp theo là tìm các đường viền trong ảnh đã được dilated Đề lựa chọn các đường viền không mong muốn, công thức Modified Z-scores (Z-scores được điều chỉnh) được sử dụng dé tính toán diện tích đã được tỉ lệ của các đường viền nhằm xác định xem diện tích của đường viền có nằm ngoài giới hạn thông thường hay không Cụ thé, các đường viền có diện tích tỉ lệ vượt quá 17.0

20 sẽ được xem là không mong muốn và sẽ bị loại bỏ khỏi mặt nạ Mặt nạ sau đó sẽ được đưa vào một module erosion khác đề khôi phục cường độ điểm sáng ban đầu và cuối cùng bộ lọc Gaussian với kích thước 19x19 sẽ được áp dụng lên mặt nạ đã được xử lí nhăm giảm cường độ của khu vực điểm sáng và cải thiện hiệu suất của quá trình điền điểm (inpainting)

S; : là diện tích tỉ lệ của đường viền i dựa trên modified Z-score. s; : là diện tích của đường viễn i. § : là giá trị trung vị của diện tích của tat cả các đường viễn.

MAD: là độ lệch tuyệt đối trung vi của diện tích các đường viền.

Phục hồi điểm sáng (Highlight inpainting): Quá trình điền điểm ảnh (inpainting) được thực hiện sau khi đã có mặt nạ của các điểm sáng phản xạ Các vùng trong ảnh đã được xác định bởi mặt nạ sau đó được tái tạo thông qua một phép toán điền ảnh Đầu tiên, một bộ lọc có kích thước 3x3 di chuyên qua từng pixel của ảnh gốc và tính toán giá trị trung bình của các pixel trong vùng lân cận của nó Qua trình này được thực hiện N lần dé đảm bảo kết quả mong muốn Tiếp theo, thực hiện phục hồi ban đầu trên hình ảnh bằng cách thay thế trực tiếp các pixel nằm dưới mặt nạ của các điểm nổi bật sáng bóng bằng các pixel từ hình ảnh đã được làm mờ Mục đích của việc này là tái tạo lại các vùng bị ảnh hưởng bởi các điêm nôi bật sáng bóng.

Dé hoàn thiện kết quả cuối cùng, thuật toán Telea [37]- một phương pháp inpainting mạnh mẽ, dé loại bỏ hoàn toàn các điểm sáng phản xạ còn sót lại và làm mờ các vùng điểm đó Sau đó, các pixel dưới mặt nạ điểm sáng phản xạ sẽ được thay thé trực tiếp bằng các pixel từ ảnh làm mờ Ảnh đã được điền có chất lượng đáng kẻ, với các điểm sáng phản xạ đã được loại bỏ mà không ảnh hưởng tiêu cực đến các khu vực khác của ảnh.

3.2.2 Loại bỏ viền đen (Black Mask Removal)

Ngày đăng: 02/10/2024, 02:44

HÌNH ẢNH LIÊN QUAN

Bảng 3.1: Câu hỏi và các câu trả lời mẫu từ tập dữ liệu ImageCLEFmed-MEDVQA- - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Bảng 3.1 Câu hỏi và các câu trả lời mẫu từ tập dữ liệu ImageCLEFmed-MEDVQA- (Trang 7)
Hình 3.2: Tổng quan về các giai đoạn của phương pháp specular highlights - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.2 Tổng quan về các giai đoạn của phương pháp specular highlights (Trang 28)
Hình 3.3: Hình minh họa việc phát hiện điểm sáng phản xạ đặc biệt (specular - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.3 Hình minh họa việc phát hiện điểm sáng phản xạ đặc biệt (specular (Trang 29)
Hình 3.4: Các giai đoạn của quá trình loại bỏ viên den (black mask). - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.4 Các giai đoạn của quá trình loại bỏ viên den (black mask) (Trang 32)
Hình 3.5: Hình ảnh sau khi được tăng cường băng phương pháp CLAHE với thông số - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.5 Hình ảnh sau khi được tăng cường băng phương pháp CLAHE với thông số (Trang 34)
Hình 3.6: Kiến trúc mô hình Transformer gồm bộ mã hóa và bộ giải mã (tham khảo - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.6 Kiến trúc mô hình Transformer gồm bộ mã hóa và bộ giải mã (tham khảo (Trang 38)
Hình 3.7: Cấu trúc của mô hình ViT (tham khảo từ [12] ) - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.7 Cấu trúc của mô hình ViT (tham khảo từ [12] ) (Trang 40)
Hình 3.8: Mô tả co bản về phương pháp tiếp cận nhiệm vụ VQA của UIT-saviors tại - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.8 Mô tả co bản về phương pháp tiếp cận nhiệm vụ VQA của UIT-saviors tại (Trang 42)
Hình 3.9: Minh hoa về don vi co bản SaoA nhận đặc trưng X và đầu ra là đặc trưng - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.9 Minh hoa về don vi co bản SaoA nhận đặc trưng X và đầu ra là đặc trưng (Trang 43)
Hình 3.10: Minh hoa về don vị co bản GaoA nhận đặc trưng X, Y và đầu ra là đặc - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.10 Minh hoa về don vị co bản GaoA nhận đặc trưng X, Y và đầu ra là đặc (Trang 45)
Hình 3.11: Hình minh họa kiến trúc tong quan của Mạng Modular Co-Attention on - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 3.11 Hình minh họa kiến trúc tong quan của Mạng Modular Co-Attention on (Trang 46)
Hình 4.1: Ảnh ví du từ tap dir liệu của ImageCLEF-med-MEDVQA-GI-2023 trước - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình 4.1 Ảnh ví du từ tap dir liệu của ImageCLEF-med-MEDVQA-GI-2023 trước (Trang 52)
Bảng 4.3: Kết quả so sánh hiệu suất của mô hình BEiT+BioBERT trên từng điều - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Bảng 4.3 Kết quả so sánh hiệu suất của mô hình BEiT+BioBERT trên từng điều (Trang 55)
Hình có sự tập trung nhỏ chủ yếu vào xác định bat thường chính trong hình ảnh. Với CLAHE và CLAHE kết hợp loại bỏ điểm sáng và viền đen, tuy vùng chú ý được mở rộng, song dựa trên hiệu suất trả lời đúng các câu hỏi từ hệ thống vẫn đạt hiệu suất tương tự n - Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về Mô hình đa phương pháp và Tối ưu hóa ảnh cho Hệ thống trả lời câu hỏi trực quan trong Y học tiêu hóa
Hình c ó sự tập trung nhỏ chủ yếu vào xác định bat thường chính trong hình ảnh. Với CLAHE và CLAHE kết hợp loại bỏ điểm sáng và viền đen, tuy vùng chú ý được mở rộng, song dựa trên hiệu suất trả lời đúng các câu hỏi từ hệ thống vẫn đạt hiệu suất tương tự n (Trang 56)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN