Bài viết Giải pháp truy xuất ảnh nội soi dạ dày hiệu quả trên tập dữ liệu lớn đề xuất một giải pháp sử dụng Swin Transformer để xây dựng hệ thống truy xuất hình ảnh y tế (Medical images), cụ thể là hình ảnh nội soi (Endoscopic Images). Giải pháp này dựa trên quy trình phân loại của mô hình Swin Transformer để tạo ra vector đặc trưng bằng cách hợp nhất các mảnh hình ảnh được phân chia từ các cửa sổ cục bộ, từ đó tính toán độ tương đồng. Mời các bạn cùng tham khảo!
GIẢI PHÁP TRUY XUẤT ẢNH NỘI SOI DẠ DÀY HIỆU QUẢ TRÊN TẬP DỮ LIỆU LỚN Võ Thái Anha, Ngô Đức Lưub a Võ Thái Anh, Khoa Công nghệ Thông tin Truyền thông, Trường Đại Học Cần Thơ, Cần Thơ, Việt Nam b Khoa Công nghệ Thông tin, Trường Đại học Bạc Liêu, Bạc Liêu, Việt Nam * Tác giả liên hệ: Email: ndluu@blu.edu.vn Lịch sử báo Chỉnh sửa ngày Nhận ngày tháng năm tháng năm | Chấp nhận đăng ngày tháng năm Tóm tắt Trong lĩnh vực thị giác máy tính, truy xuất hình ảnh (Image Retrieval) lĩnh vực quan tâm cộng đồng máy học, đặc biệt truy xuất hình ảnh y tế ảnh nội soi Với phát triển nhanh chóng kỹ thuật máy học CNN (convolution neural networks), Vision Transformer and Mixer-MLP (Mixer Multi-Layer Perceptron), có nhiều đề xuất việc sử dụng kỹ thuật để thực nhiệm vụ truy xuất hình ảnh kết cạnh tranh Trong báo này, đề xuất giải pháp sử dụng Swin Transformer để xây dựng hệ thống truy xuất hình ảnh y tế (Medical images), cụ thể hình ảnh nội soi (Endoscopic Images) Giải pháp dựa quy trình phân loại mơ hình Swin Transformer để tạo vector đặc trưng cách hợp mảnh hình ảnh phân chia từ cửa sổ cục bộ, từ tính tốn độ tương đồng Kết thực nghiệm cho thấy giải pháp đề xuất chúng tơi cạnh tranh với giải pháp khác độ xác thời gian huấn luyện Từ khóa – Machine Learning, Computer vision, Image Retrieval, CNN (Convolution Neural Networks), Vision Transformer, Mixer-MLP (Mixer Multi-Layer Perceptron), Swin Transformer, Endoscopic Image, Medical Image Mã số định danh báo: Loại báo: Bài báo nghiên cứu gốc/Bài báo tổng quan có bình duyệt Bản quyền © 2022 Ngơ Đức Lưu Cấp phép: Bài báo cấp phép theo CC BY-NC-ND 4.0 30 EFFECTIVE SOLUTION FOR RETRIEVING STOMACH ENDOSCOPIC IMAGES ON BIG DATASETS Vo Thai Anha, Ngo Duc Luub a School of Information Technology and Communication, Can Tho University, Can Tho City, Vietnam b Faculty of Information Technology, Bac Lieu University, Bac Lieu Province, Vietnam * Corresponding author: Email: ndluu@blu.edu.vn Article history Received: Received in revised form: | Accepted: Abstract In computer vision fields, image retrieval is the field which have attracted much attention of machine learning community, special in medical and endoscopic image retrieval With fast development of machine learning technics such as CNN (Convolution Neural Networks), Vision Transformer Mixer-MLP (Mixer Multi-Layer Perceptron), there have been a lot of recommendations about using these technics to retrieve images and archieved competitive results In this paper, we propose a new solution by using Swin Transformer technic to build a medical image retrieval system, namely endoscopic images This solution is based on classfication process of Swin Transformer model to create feature vectors by unifying image pieces which are splitted from local windows, and compute similarity between these vectors Experimental results show that our proposed method can be competitive with others about accuracy and training time Keywords – Machine Learning, Computer vision, Image Retrieval, CNN (Convolution Neural Networks), Vision Transformer, Mixer-MLP (Mixer Multi-Layer Perceptron), Swin Transformer, Endoscopic Image, Medical Image Article identifier: Article type: (peer-reviewed) Full-length research article/review article Copyright © 2022 Ngo Duc Luu Licensing: This article is licensed under a CC BY-NC-ND 4.0 31 GIỚI THIỆU Truy xuất hình ảnh chủ đề sử dụng hình ảnh truy vấn để lấy hình ảnh sở liệu lớn Trong lĩnh vực y tế, với phổ biến rộng rãi việc sử dụng lưu trữ hình ảnh kỹ thuật số, gây khó khăn việc truy vấn sở liệu lớn Đó lý ngày có nhu cầu cao việc sử dụng hệ thống truy xuất hình ảnh dựa nội dung Hệ thống truy vấn hình ảnh hệ thống trình duyệt máy tính, tìm kiếm truy xuất hình ảnh từ sở liệu lớn hình ảnh kỹ thuật số Hầu hết phương pháp truyền thống phổ biến truy xuất hình ảnh sử dụng số phương pháp thêm siêu liệu (metadata) dạng phụ đề, từ khóa mơ tả cho hình ảnh để việc truy xuất thực từ thích Việc thích hình ảnh thủ cơng tốn nhiều thời gian, công sức đắt tiền Để giải vấn đề này, có nhiều nghiên cứu nhằm thực thích hình ảnh tự động Trong năm gần đây, số người bị mắc bệnh ung thư đại tràng (Colorectal Cancer, viết tắt là: CLC) ngày gia tăng, chiếm tỉ lệ 1/3 số ca ung thư giới nhiều năm liền [1] Tuy nhiên, theo tổ chức y tế vấn đề cốt yếu chẩn đốn sớm phịng ngừa bệnh có dấu hiệu Một số nghiên cứu chứng minh gần 95% bệnh CLC từ tuyến polyp [2] Cắt bỏ khối u tuyến trực tràng polyp làm giảm nguy dẫn đến bệnh CLC Dù vậy, cách tốt để đối phó với bệnh CLC chẩn đốn điều trị Ngày nay, với phát triển số lượng người bệnh CLC ngày gia tăng, việc lưu trữ ảnh kỹ thuật số áp dụng để lưu trữ hình ảnh nội soi [3] Tuy nhiên, bác sĩ nhận thấy khó việc truy vấn sở liệu số lượng hình ảnh sở liệu lớn Do phát triển mạng neural tích chập (CNN - Convolution Neural Networks) [4], có nhiều mơ hình kiến trúc áp dụng quy trình tạo vector đặc trưng ResNet, DenseNet EfficientNet, Cùng nhiều mơ hình Vision Transformer[5], MixerMLP[6] làm cho mơ hình truy xuất ảnh ngày phát đa dạng Vào đầu tháng năm 2021, nhóm nghiên cứu trí tuệ nhân tạo Microsoft khu vực Châu Á giới thiệu phiên Vision Transformer Đó Swin Transformer [7] dùng để phân loại ảnh giải thưởng báo tốt hội nghị quốc tế thị giác máy tính năm 2021 (ICCV 2021 – International Conference on Computer Vision Trong báo này, chúng tơi xây dựng hệ thống truy xuất hình ảnh nội soi với trình huấn luyện liệu hình ảnh kiến trúc mơ hình Swin Transformer thơng qua phương thức tạo vector đặc trưng biểu diễn hình ảnh qua mơ hình trước Kiến trúc Swin Transformer khác với báo gốc chỗ bị loại bỏ lớp phân loại thêm lớp nhúng để tạo vector đặc trưng Bài báo gồm phần Phần giới thiệu chung báo Phần thứ hai trình bày nghiên cứu có liên quan Phần thứ ba trình bày thuật tốn dùng cho hệ thống tìm kiếm Phần thứ tư trình bày liệu phương pháp Phần thứ trình bày kết thực nghiệm Cuối phần nhận xét đưa kết luận viết NGHIÊN CỨU LIÊN QUAN 2.1 Mơ hình kiến trúc mạng Swin Transformer Mơ hình kiến trúc ViT (Vision Trannsformer) cung cấp khả sử dụng Transformer làm xương sống cho nhiệm vụ mặt thị giác Tuy nhiên, biến đổi (Transformer) tiến 32 hành theo chế “Chú ý” (Attention) theo phương pháp toàn cục (Global Attention) Vì độ phức tạp tăng lên theo cấp số nhân với độ phân giải hình ảnh Điều làm cho ViT không hiệu cho nhiệm vụ phân đoạn ảnh tác vụ phức tạp khác Vì Swin transformer dạng cải tiến Vision transformer dựa tảng tính tốn mà thay đổi phát triển thêm Các phần không nhắc tới Swin Transfomer giữ nguyên mơ hình ViT Có thay đổi là: • Kiến trúc mạng (Network Architecture) • Tự ý cửa sổ không chồng lắp (Self Attention in Non-overlapped windows) • Cửa sổ dịch chuyển (Shifted Windows) Các thành phần tạo nên khác biệt tránh việc tạo đồ đặc trưng độ phân giải thấp độ phức tạp tính tốn cao tính tốn theo Global Attention Mơ hình kiến trúc mạng Swin Transformer [Hình 1] Hình 1: Kiến trúc mạng Swin Transformer Nguồn: Ze liu ctg (2021,tr4) Có thành phần mơ hình kiến trúc mạng Swin Transformer [Hình 2]: • Phân vùng vá (Patch Partition) • Nhúng tuyến tính (Linear Embedding) • Khối Swin Transformer (Swin Transformer Block) • Hợp vá (Patch Merging) Hình 2: Patch Partition Linear Embedding 33 Khi đưa liệu ảnh vào đây, quy định RGB (H x W x 3) đưa qua Patch Partition để thực phân vùng ảnh đầu vào Trong q trình triển khai, chúng tơi sử dụng kích thước vá × kích thước đặc trưng vá × × = 48 Một lớp nhúng tuyến tính áp dụng đối tượng địa lý có giá trị thơ để chiếu lên kích thước tùy ý, đượ ký hiệu C (C cơng suất mơ hình) Hình 3: Patch Merging Để biểu diễn phân cấp số lượng mã bị giảm bớt cách sử dụng Patch Merging [Hình 3] để hợp patch mạng trở nên sâu Lớp Patches Merging nối đặc trưng vào nhóm x patch lân cận áp dụng lớp tuyến tính đối tượng nối 4C chiều Điều làm giảm số lượng mã thông báo bội số x = (với x lấy mẫu độ phân giải) kích thước đầu đặt thành 2C Và từ sau qua Patch Merging giá trị lại tăng lên cuối mô hình ta có 8C Hình 4: Swin Transformer Block Nguồn: Ze liu ctg (2021,tr 4) Với Swin Transformer xây dựng việc thay Multi - head Self Attention (MSA) Transformer Block module khác Shifted Windows [Hình 4] Và Block Swin Transformer có lớp MLP với lớp GELU khơng tuyến tính Lớp Layer Norm (LN) áp dụng trước module MSA lớp MLP kết nối dư áp dụng module Công thức thực từ block thứ l đến l+1 34 Mơ hình tự ý cửa sổ không chồng lắp (Self Attention Non-overlapped Windows) Một đóng góp lớn biến đổi swin (Swin Transformer) mà đề xuất thực chế self attention cửa sổ cục (local window) thay cửa sổ toàn cục (global window) (mỗi viền màu đỏ hình bên dưới) Các cửa sổ xếp để phân vùng hình ảnh theo cách khơng chồng lắp cửa sổ chứa mảng M × M (M = báo gốc) [Hình 5] Hình 5: So sánh cách chia patches mơ hình Nguồn: Ze liu ctg (2021,tr 1) Swin Transformer mơ hình tốt ViT khơng sử dụng cách chia patches cố định để qua lớp Transformer Encoder Mà tạo đồ đặc trung phân cấp hợp Mơ hình cửa sổ dịch chuyển (Shifted Windows) Module self-attention dựa cửa sổ thiếu kết nối cửa sổ, điều hạn chế khả mơ hình hóa Để kết nối nội nhiều cửa sổ trì tính tốn hiệu cửa sổ không chồng lắp, đề xuất phương pháp phân vùng cửa sổ dịch chuyển (shifted window partitioning), phương pháp xen kẽ hai cấu hình phân vùng khối Swin Transformer liên tiếp [Hình 6] Hình 6: Shifted window (padding) Nguồn: Ze liu ctg (2021,tr 2) 35 Để xử lý cửa sổ ranh giới hình ảnh, dịch chuyển theo chu kỳ (cyclic shift) sử dụng Với thay đổi theo chu kỳ, số lượng cửa sổ theo lô quay trở lại giống số lượng cửa sổ phân vùng cửa sổ thơng thường hiệu Nó cho hiệu xác so với phương pháp cửa sổ trượt (sliding window method) phương pháp cửa sổ đệm (padding window method) [Hình 7] Hình 7: shifted window (cyclic) Nguồn: Ze liu ctg (2021,tr 5) 2.2 Truy xuất hình ảnh dựa nội dung (Content-based Image Retrieval-CBIR) Hình 8: Mơ hình CBIR Nguồn: Alkhawlani ctg(2015.tg59) Truy xuất ảnh dựa nội dung ứng dụng kỹ thuật thị giác máy tính vào toán truy xuất ảnh, tức toán tìm kiếm ảnh số sở liệu lớn Truy xuất hình ảnh dựa nội dung trái ngược với cách tiếp cận dựa khái niệm truyền thống "Dựa nội dung" có nghĩa tìm kiếm phân tích nội dung hình ảnh khơng phải siêu liệu từ khóa, thẻ mơ tả liên kết với hình ảnh Thuật ngữ "nội dung" ngữ cảnh 36 đề cập đến màu sắc, hình dạng, kết cấu thơng tin khác bắt nguồn từ hình ảnh Mơ hình Truy xuất hình ảnh dựa nội dung (Content-based Image Retrieval-CBIR) [Hình 8] mơ hình mong muốn hầu hết tìm kiếm hồn tồn dựa vào siêu liệu phụ thuộc vào chất lượng tính hồn chỉnh thích 2.3 Độ đo đánh giá hệ thống tìm kiếm ảnh Các độ đo dánh giá hệ thống tìm kiếm ảnh dựa vào ma trận nhầm lẫn dựa vào nội dung độ tương đồng Bảng Ở đây, quy định phần tử truy vấn tương đồng (hệ số tương đồng >= 0.5) so với ảnh đầu vào positive, phần tử truy vấn không tương đồng (hệ số tương đồng < 0.5) so với ảnh đầu vào negative Bảng Ma trận nhầm lẫn Dự đoán Positive Dự đoán Negative Thực tế Positive TP FN Thực tế Negative FP TN Trong đó: TN: số lượng phần tử truy vấn khơng tương đồng nội dung khơng xác FN: số lượng phần tử truy vấn không tương đồng có nội dung xác TP: số lượng phần tử truy vấn tương đồng có nội dung xác FP: số lượng phần tử truy vấn tương đồng có nội dung khơng xác • Accuracy - Độ xác hệ thống tìm kiếm ảnh theo nội dung tính số lượng phần tử truy vấn có nội dung với ảnh truy vấn, công thức sau: 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 (1) 𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁 Đối với hệ thống tìm kiếm dựa vào nội dung việc xác định độ xác phải dựa vào nhãn liệu cảm quan người dung Cho nên việc tính Accuracy khơng thể đánh giá dự đốn hệ thống Do đó, để đánh giá hiệu hệ thống tìm kiếm ảnh người ta sử dụng độ đo khác sau: 37 • Precision - Độ đo tính tỉ lệ phần tử truy vấn thuộc lớp dương(positive) phân lớp tổng số phần tử dự đốn lớp dương (positive), cơng thức tính sau: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = • Recall SE - Độ đo tỉ lệ phần tử truy vấn thuộc lớp dương (positive) xác định có nội dung tổng số phần tử thuộc lớp dương (positive), công thức tính sau: 𝑅𝑒𝑐𝑎𝑙𝑙 = • 𝑇𝑃 (3) 𝑇𝑃 + 𝐹𝑁 F-Measure F1-Score - Độ đo tính dựa độ đo precision recall, F-Measure tính theo cơng thức sau: 𝐹1 = • 𝑇𝑃 (2) 𝑇𝑃 + 𝐹𝑃 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 (4) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 MAP (Mean Average Precision) - Đây độ đo tổng hợp kết nhiều truy vấn áp dụng cho hệ thống tìm kiếm Muốn tính ta phải có AP(Average Precision) trung bình precision điểm ngưỡng mà kết trả về, viết với công thức sau: 𝑘=𝑛−1 𝐴𝑃 = ∑ [𝑅𝑠(𝑘) − 𝑅𝑠(𝑘 + 1)] ∗ 𝑃𝑠(𝑘) (5) 𝑘=0 recalls(n)=Rs(n)= ,precisions(n)= Ps(n)= n = hệ số ngưỡng Khi có AP cơng thức MAP viết sau: 𝑘=𝑛 𝑚𝐴𝑃 = ∑ 𝐴𝑃𝑘 (6) 𝑛 𝑘=1 APk = giá trị AP lớp k, n = số lượng lớp THUẬT TỐN DÙNG TRONG HỆ THỐNG TÌM KIẾM 3.1 Ý tưởng thuật tốn Trong hệ thống tìm kiếm ảnh chúng tơi sử dụng thuật tốn để so sánh đặc trưng giống ảnh vector hóa cách tính tốn độ tương đồng vector đặc trưng Sau từ đưa gợi ý cho hệ thống ảnh có độ tương đồng cao 38 Trong nghiên cứu này, sử dụng độ đo tương tự Cosine (Cosine similarity) Nó thường dùng để đo mức độ giống tương đồng hai vector thể qua công thức sau: ∑𝑛 𝑖=1 𝐴𝑖 𝐵𝑖 𝐴.𝐵 𝐶𝑜𝑠𝑖𝑛𝑒 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝐴, 𝐵) = ||𝐴||||𝐵|| = 𝑛 2 √∑𝑛 𝑖=1 𝐴𝑖 √∑𝑖=1 𝐵𝑖 (7) 3.2 Thuật tốn hệ thống tìm kiếm Thuật toán ▪ Input: image query ▪ Output: 20 recommended images with the same content as the input image ▪ Proccess: prepare image database data feature = model(SWIN).predict(image database) //fine-tuning query feature = model(SWIN).predict(image query) cosine(query_feature,data_feature) show recommend image retrieval } DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 4.1 Dữ liệu thực nghiệm Tập liệu dùng để đánh giá hệ thống truy vấn tập liệu Kvasir Tập liệu Kvasir thu thập thiết bị nội soi Vestre Viken Health Trust (viết tắt VV) Na Uy Trong VV bao gồm bệnh viện chăm sóc sức khoẻ cho 470000 người Một bệnh viện có bệnh viện Baerum điều hành khoa tiêu hoá nơi thu thập cung cấp liệu Hơn hình ảnh thích cẩn thận nhiều chuyên gia y tế VV Cơ quan kiểm duyệt The Cancer Registry of Norway (CRN) Bộ liệu bao gồm 80000 hình ảnh 10 lần gấp để xác nhận chéo trình đào tạo đánh giá 80000 hình ảnh chia thành tám lớp: dyed-lifted-polyps (polyp đâ nâng nhuộm), dyed-resection-margins (viêm thực quản), esophagitis (mang tràng bình thường), normal-cecum (mơn vị bình thường), normal-pylorus (tuyến bình thường), normalzline, polyps (tổn thương niêm mạc) and ulcerative-colitis (viêm loét đại tràng) 39 Hình 9: Một số hình ảnh tập liệu Kvasir 4.2 Mơ hình thực nghiệm Hình 10 biểu diễn mơ hình thực nghiệm giải pháp đề xuất tập liệu đề xuất Hình 10 Mơ hình thực nghiệm việc tìm kiếm ảnh KẾT QUẢ VÀ THẢO LUẬN Bảng trình bày kết thực nghiệm độ đo theo lớp ảnh tính theo q trình thực nghiệm phân lớp liệu ảnh có nhãn với Swin Transformer Riêng với độ đo xác AP (Average Precision) tính theo lượt tìm kiếm ảnh với kết 20 ảnh gợi ý theo nội dung với ảnh đầu vào chọn có tính tương đồng lớn nằm trog liệu hệ thống thuộc lại ảnh nội soi dày Sau có kết tìm kiếm, hệ thống tính độ đo xác AP độ xác trung bình AP (mAP - Mean Average Precision) Từ kết thực nghiệm cho thấy đặc 40 trưng trích xuất từ mơ hình Swin Transformer có hiệu xuất tìm kiếm tốt liệu ảnh y tế Bảng Kết thực nghiệm tập liệu Kvasir mơ hình Swin Transformer Độ đo (%) Datasets 91 85 88 AP Precision Recall F- measure 86 93 93 93 AP Precision Recalll F- measure 88 83 75 79 AP Precision Recalll F- measure 81 93 98 95 AP Precision Recalll F- measure 92 97 99 98 AP Precision Recalll F- measure 94 79 84 81 AP Precision Recalll F- measure 80 87 88 88 AP Precision Recalll F- measure 88 94 95 94 AP Precision Recalll F- measure 91 dyed-lifted-polyps dyed-resection-margins esophagitis normal-cecum normal-pylorus normalz-line polyps ulcerative-colitis mAP 87.5 41 Hình 11 Hệ thống truy vấn sử dụng mơ hình Swin Transformer để phân lớp Sau chạy 10 epochs, nhận biểu dồ Hiệu suất mơ hình tập liệu Kvasir cạnh tranh, điều nayfcos thể dẫn đến bước tạo vector đặc trưng tốt Kết thử nghiệm đạt độ xác 0.896 thử nghiệm 3200 ảnh Kết làm cho đảm bảo chất lượng việc tạo vector đặc trưng KẾT LUẬN 42 Nhìn chung nghiên cứu cảu đề xuất phương pháp sử dụng Swin Transformer để trích xuất đặt trưng hình ảnh nội soi cho hệ thống truy xuất ảnh Phương pháp đạt kết cạnh tranh truy xuất dựa nội dung Qua sử dụng mơ hình Swin Transformer va cắt bỏ lớp phân loại , tạo vector để đại diện cho tính liệu Điều cho phép tiếp cận nhiệm vụ truy xuất ảnh hteo nội dung Hơn phương pháp tài liệu tham khảo tốt cho nhiều mơ hình có sau phát triển từ mơ hình Vision Transformer TÀI LIỆU THAM KHẢO [1] J Tang, M Qu, M Wang, M Zhang, J Yan, and Q Mei, “Line: Large-scale information network embedding,” in Proceedings of the 24th International Conference on World Wide Web ACM, 2015, pp 1067– 1077 [2] Nini Rao, Hongxiu Jiang, Chengsi Luo: Review on the Applications of Deep Learning in the Analysis of Gastrointestinal Endoscopy Images., Article in IEEE Access September 2019 [3] F Sommen, S Zinger, EJ Schoon, eds Computer-Aided Detection of Early Cancer in the Esophagus Using HD Endoscopy Images Medical Imaging 2013: Computer-Aided Diagnosis Vol 8670 Florida: International Society for Optics and Photonics; 2013 [4] Huiyi Hu, Wenfang Zheng, Xu Zhang, Xinsen Zhang, Jiquan Liu, Weiling Hu,Huilong Duan, Jianmin Si - Content-based gastric image retrieval using convolutional neural networks - Accepted: 20 July 2020 [5] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale - Submitted on 22 Oct 2020 (v1) [6] Quoc-Huy Trinh, Minh-Van Nguyen - Endoscopy Image Retrieval by Mixer MultiLayer Perceptron - Computer Science and Information Systems pp 223±226 ISSN 2300-5963 ACSIS [7] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows - Submitted on 25 Mar 2021 (v1) 43 ... Alkhawlani ctg(2015.tg59) Truy xuất ảnh dựa nội dung ứng dụng kỹ thuật thị giác máy tính vào tốn truy xuất ảnh, tức tốn tìm kiếm ảnh số sở liệu lớn Truy xuất hình ảnh dựa nội dung trái ngược với... lớn hình ảnh kỹ thuật số Hầu hết phương pháp truy? ??n thống phổ biến truy xuất hình ảnh sử dụng số phương pháp thêm siêu liệu (metadata) dạng phụ đề, từ khóa mơ tả cho hình ảnh để việc truy xuất thực... vấn sở liệu lớn Đó lý ngày có nhu cầu cao việc sử dụng hệ thống truy xuất hình ảnh dựa nội dung Hệ thống truy vấn hình ảnh hệ thống trình duyệt máy tính, tìm kiếm truy xuất hình ảnh từ sở liệu