1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phân loại ảnh x-quang tự động nhằm phát hiện bệnh lao phổi sử dụng các phương pháp học sâu

109 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại ảnh x-quang tự động nhằm phát hiện bệnh lao phổi sử dụng các phương pháp học sâu
Tác giả Lê Trường Minh
Người hướng dẫn TS. Nguyễn Tất Bảo Thiện
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 109
Dung lượng 15,91 MB

Nội dung

Do đó, trongquá trình thực hiện huấn luyện, chúng tôi giữ nguyên các bộ dữ liệu từ nhiều vùng khác nhau chứ không hoà trộn vào nhau để đảm bảo tính chuyên biệt và đặc trưng, của các bộ d

Trang 1

TRUONG DAI HOC CONG NGHE THONG TIN

LE TRUONG MINH

PHAN LOAI ANH X-QUANG TU DONG NHAM PHAT HIEN BENH LAO PHOI SU DUNG CAC PHUONG PHAP HOC SAU

LUAN VAN THAC Si

NGANH KHOA HỌC MAY TÍNH

Mã ngành: 8.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGUYEN TAT BẢO THIỆN

TP HO CHÍ MINH - NAM 2022

Trang 2

Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc và chân thành nhất đến TS Nguyễn Tắt Bảo Thiện

vì đã hướng dẫn và chia sẻ những kiến thức và kinh nghiệm quý báu của Thay, giúp em đimột chặng đường dài dé em có thé tích luỹ kinh nghiệm, có cơ hội học được nhiều kiếnthức mới về ngành Khoa học Máy tính nói chung và kiến thức về áp dụng các kỹ thuật họcsâu giải quyết các van đề em đang theo đuôi, đồng thời, áp dụng vào luận văn của mình

cùng với công trình khoa học vừa công bố là bài báo “Automated Evaluation of Tuberculosis Using Deep Neural Networks” Trong suốt thời gian thực hiện đề tài, Thay

đã hỗ trợ em rất nhiều trong quá trình hoàn thiện bài báo khoa học từ khâu về chủ đề nghiêncứu em chọn, sửa những lỗi chính tả nhỏ nhặt nhất, góp ý về sé liệu khi chạy những mô

hình trong thời gian dài, đến góp ý những sai sót về kiến thức còn tồn đọng trong lúc thực hiện vì kinh nghiệm nghiên cứu của em còn non nớt Mỗi khi được Thầy động viên em lại

có thêm niềm tin vào bản thân dé đi tiếp trên con đường nghiên cứu phía trước Ngoài ra,

em cũng xin gửi lời cảm ơn TS Ngô Minh Vương vì đã đóng góp những ý kiến học thuật

để hoàn thiện bài báo khoa học của em Những góp ý chuyên nghiệp của Thầy và Thầy Thiện không quản thời gian đã thúc đầy sự hoàn thành của bài báo lẫn công trình nghiên

cứu và luận văn của em đúng hạn.

Bên cạnh đó, tôi cũng muốn gửi lời cảm ơn chân thành đến các Thay, Cô Giảng viên của

Trường Đại học Công nghệ Thông tin - Dai học Quốc gia Thành phố Hồ Chi Minh nóichung và các Thay Cô Giảng viên của khoa Khoa học Máy tính nói riêng Qua những budihọc, dưới sự dẫn dắt tận tình của các Thầy, Cô, em mới có đủ kiến thức nền tảng để lựachọn hướng đi cho mình Các Thay, Cô cũng tao điều kiện thuận lợi cho em phát triển

nghiên cứu chuẩn bị đầy đủ các trang bị để khởi đầu những chặng đường tiếp theo trong nghiên cứu khoa học Kết quả của luận văn là quá trình thử và sai, thất bại và tiếp tục, mất

niềm tin và kiên định tìm ra con đường của mình Em sẽ không có cơ hội trải qua và tíchluy những kinh nghiệm này nếu không có cơ hội được học tập dưới sự giảng dạy của các

Thầy Cô.

Trang 4

Tôi xin cam đoan công trình nghiên cứu khoa học này được xây dựng dựa trên sự tìm tòi

chủ động của cá nhân tôi về mặt kiến thức, đồng thời, được sự hướng dẫn khoa học của TS.

Nguyễn Tất Bảo Thiện

Các nội dung nghiên cứu thể hiện trong đề tài “Phân loại ảnh X-Quang tự động nhằm phát

hiện bệnh lao phôi sử dụng phương pháp học sâu” của tôi là trung thực và hoàn toàn khách

quan Những tài liệu tôi sử dụng với mục đích tham khảo đều có trích dẫn và tham chiếuđầy đủ

Nếu phát hiện có bất kỳ sự gian lận nào được phát hiện và công nhận, tôi xin chịu tráchnhiệm về nội dung luận văn của mình

Thành phó Hô Chí Minh, tháng 4 năm 2022

Tac giả

_—

Lê Trường Minh

Trang 5

LỜI CAM ĐOAN

n cứu hiện nay

1.3.2 Phạm vi nghiện (uu PP TO , LH HHHeeekeeeee

1.4 Đóng góp của luận văn ¿5-52 tt 1g re 18

1.5 Cấu trúc của luận văn

CHƯƠNG 2 CƠ SỞ LÝ THUYET

2.1 Bệnh lao phôi (THDOROHNOESS ôicõ s(22/222224251632322252265253712.1.1 Tác nhân gây bệnh

2.1.2 Triệu chứng của bệnh lao

2.2 Bài toán phân lớp

2.3 Trích chọn đặc trưng

2.4 Hướng tiếp cận dựa trên DNN .22222222vvvv22vvvccrrrrrrrrrrrrrttrrrrrrrrrrrrrrrei 24

CHƯƠNG 3 BỘ DỮ LIỆU

3.1 Chỉ tiết các bộ dữ liệu : :cc22vvvvkkkkkttrttttrriiirririrrrrrrrrriiiririiiriii 263.1.1, Tuberculosis (TB) Chest X-ray Database -. 5-c-c-c.-.- 20

3.1.2 Shenzhen Chest X-ray dataset cccccscesssseeseeeeseseeseseeseeseesssesnsseeseeseenss 27

3.1.3 Montgomery Chest X-ray dafaSet 5-5-5 Sc+cccsxrterrrrkrrer 27

Trang 6

CHUONG 4 PHUONG PHAP DUNG CHO BAI TOAN

4.1 Kiến trúc mang DNN.ivsssscssssssssssesccsssssunescecssssssuesecsesssnunecsesssssnusseeessssssuneeeeeessss 384.1.1 Kiến trúc VGGI6 55555csvvvveeeeveeereerrrrrrrrrrrrrrrrrrrrrr.u, 38

4.1.2 Kiến trúc EfficientNetB7 cccssssssssssseeesssssssnnnsessssssseceeeeesssstinmusnnnnsnsseeeeee 39

4.1.3 Kiến trúc MobileNetV3 52cc2c22222vvv vn 4I

4.1.4 Kiến trúc DenseNet121

4.1.5 Kiến trúc RegNe

4.1.6 Phương pháp Ensemble Learning

4.2 Early Stopping đc Dp ee 1 EBẠ / 474.3 Hoc chuyén tiép 47

4.4 Chi tiết các lớp mạng di truyền sử dụng -222222222vvvvvvvvvvvvvvvveecee 48 CHUONG 5 THU NGHIEM VÀ KET QUA

5.1 Đánh giá trong quá trình huấn luyện ccccccccceecssrsssrrrrrrreee , 4D

5.2 Đánh giá trong quá trình kiểm thử

CHƯƠNG 6 KET LUẬN VA HƯỚNG PHÁT TRIÊN

6.1 Kết luận

[2000110 0 59

TAI LIEU THAM KHẢO

DANH MỤC CONG BO KHOA HỌC CUA TÁC GIA

PHU LUC A THONG TIN VE CONG BO KHOA HQC CUA TAC GIA

PHU LUC B CAC TAI LIEU LIEN QUAN

Trang 7

Bảng 1.1 Tổng quan tình hình nghiên cứu đánh giá bệnh TB hiện nay

Bảng 3.1 Chỉ tiết cách sắp xếp của bộ Tuberculosis (TB) Chest X-ray

Bảng 3.2 Chỉ tiết cách sắp xếp dữ liệu của bộ Shenzhen Chest X-ray

Bảng 3.3 Chỉ tiết cách sắp xép dữ liệu của bộ Montgomery Chest X-ray

Bảng 3.4 Chỉ tiết cách sắp xép dữ liệu của bộ Indian Chest X-ray

Bảng 3.5 Số lượng tham số của mỗi mô hình trong quá trình huấn luyện

Bang 5.1 Thông số trong quá trình huấn luyện các mô hình trên bộ dữ liệu Tuberculosis(TB) Chest X-ray

Bảng 5.2 Thông số trong quá trình huấn luyện các mô hình trên bộ dữ liệu Shenzhen

Chest X-ray «-«cc<c«c<« , “ A peessecesbeonseces

Bang 5.3 Thông số trong quá trình huấn luyện các mô hình trên bộ dữ liệu MontgomeryChest X-ray

Trang 8

Một số mẫu trong bộ dữ liệu X-quang phi.

Minh hoạ cho bài toán phân lớpQuy trình chỉ tiết của bài toán đánh giá bệnh TBConfusion matrix cho bài toán đánh giá TB

Kiến trúc chỉ tiết của mạng học sâu VGG16 (nguồn: LINK)

Kiến trúc chỉ tiết của mạng học sâu EfficientNetB7 (nguồn: LINK) 40Kiến trúc chỉ tiết của mạng học sâu MobileNetV3 (nguồn: LINK)

Kiến trúc chỉ tiết của mạng học sâu DenseNet121 (nguồn: LINK).

Kiến trúc chỉ tiết của mạng học sâu RegNet (nguồn: LINK)

Mô phỏng thuật toán Ensemble Learning - Soft Voting,Hình 4.7 Áp dụng Early Stopping trong quá trình huấn luyện

Hình 5.1 Thông số hiệu suất áp dụng cho bộ dữ liệu Tuberculosis (TB) Chest X-ray 52Hình 5.2 Thông số hiệu suất áp dụng cho bộ dữ liệu Shenzhen Chest X-ray

Hình 5.3 Thông sé hiệu suất áp dụng cho bộ dữ liệu Montgomery Chest X-ray s3

Hình 5.4 Thông số hiệu suất áp dụng cho bộ dữ liệu India Chest X-ray

Hình 5.5 Confusion matrix cho các mô hình áp dung cho bộ Tuberculosis (TB) Chest TAY database ccce<ce2svsESA9A1A130139100100101301101010010110040140101010100010001000001010.senssssoe OF

X-Hình 5.6 Confusion matrix cho các mô hình áp dung cho bộ Shenzhen Chest X-ray

Trang 9

CHUONG 1 TONG QUANTrong chương này, chúng tôi sẽ giới thiệu lý do vì sao chúng tôi lựa chọn đề tài, tình hình

nghiên cứu của dé tài trong và ngoài nước, mục tiêu và phạm vi nghiên cứu, những đóng góp của luận văn, và cấu trúc các phần của luận văn.

1.1 Đặt vấn đề

Bệnh lao phổi (TB) là một bệnh nhiễm trùng mạn tính, tiến triển nhanh, thường có giaiđoạn tiềm ấn sau giai đoạn nhiễm trùng ban dau, là một trong những căn bệnh gây chếtngười Theo báo cáo khoa học mới nhất được công bồ bởi Tổ chức Y tế Thế giới (WHO),

vào năm 2020, số người chết chính thức do TB (1.3 triệu người) gần như gap đôi so với

HIV/AIDS (0.68 triệu người) [1] Căn bệnh này lây từ người sang người không phân biệtvùng miền, màu da, sắc tộc, biên giới TB có các triệu chứng lâm sàng mập mờ như tức

ngực, khó thở, vã mồ hôi, ho ra máu, dễ làm bệnh nhân nhằm lẫn với các triệu chứng của các bệnh thông thường, làm đánh giá thấp triệu chứng bệnh ở giai đoạn đầu Bệnh nhân sẽ

sử dụng sai thuốc, dẫn đến bệnh gốc chưa được chữa trị, nhưng sẽ phần nào yếu hơn vì tác

dụng của thuốc khi sử dụng sai Họ sẽ không đến các cơ sở y tế kịp thời trước khi vượt quá

giới hạn của bản thân Ngoài ra, tế bào vi khuẩn lây nhiễm từ TB cũng có thể lây ra cộng đồng từ người nhiễm bệnh qua các hoạt động hô hấp chăn hạn như ho, khạc nhé hoặc hắt hơi và phát tán lâu và xa trong không khí Việc nhận thức sớm từ giai đoạn đó, một là tiết

kiệm thời gian và tiền bạc cho gia đình bệnh nhân, tiếp theo là có các bước phòng tránh débệnh không lây lan mat kiểm soát đóng vai trò rất quan trọng Việc chan đoán và phát hiệnbệnh thông qua xác định thủ công các tắm hình X-quang yêu cầu kiến thức nền rất sâu của

y khoa và hiểu biết cụ thể của các kỹ thuật xử lý anh để hiểu được ngữ cảnh và tốn nhiều

thời gian để xây dựng phác đồ điều trị lâm sàng và tiếp cận tư vấn quá trình trị liệu chobệnh nhân hiệu quả.

Hiện nay trong giới y khoa có nhiều cách đề kiểm tra ra được bệnh nhân có bị mắc lao thật

sự hay không, bao gồm:

10

Trang 10

1 Xétnghiệm Mantoux: xét nghiệm phản ứng lao tố dé biết tình trạng bệnh nhân đang

âm tính hoặc dương tính.

2 Xét nghiệm máu.

3 Chụp X-quang lao phổi.

Bên cạnh phương pháp (1) và (2) đòi hỏi kỹ thuật y học chính xác và chuyên biệt, từ tình

huống hiện tại, áp dụng phương pháp (3) chụp X-quang lao phổi kết hợp các kỹ thuật nâng cao của Khoa học Máy tính như Deep Learning (DL) với sự hỗ trợ của các hệ thống xử lý ảnh sức khoẻ trong quá trình hỗ trợ các chuyên viên y tế nhận điện TB và theo dõi triệu

chứng và tiền sử bệnh qua thời gian đã trở nên phổ biến trong thời gian gần đây

Hình 1.1 Một số mẫu trong bộ dữ liệu X-quang phổi

Phương pháp hỗ trợ chân đoán này đang ngày càng được quan tâm và cải thiện độ chính

xác — thông qua số lượng công bố khoa học liên quan ở những năm gan đây ở bảng 1.1 Do

đó, các kiến trúc mô hình mới phục vụ cho bài toán cũng được phát triển Các mô hình được xây dựng dựa trên các kiến trúc ấy cho chúng ta các kết quả rất khả quan về tác vụ

đánh giá các dữ liệu X-quang phổi của cư dân các vùng tương ứng — thông qua các bộ dữ

liệu được lựa chọn.

Trang 11

Song, bài toán có một số thách thức cần giải quyết trước khi thực sự đi tìm lời giải khả thi:

1.2.

¢ - Đây là bai toán xử lý ảnh dựa trên dữ liệu ảnh X-quang, dẫn đến sẽ cần các dữ liệu

thực từ bệnh nhân, đòi hỏi độ chính xác phải cao, dữ liệu phải đủ nhiều để có kếtquả ấn tượng, thực sự đủ tin cậy để đưa vào sử dụng trong thực tiễn Nhu cầu dữ

liệu huấn luyện và kiểm thử sẽ rất lớn dẫn đến việc ảnh hưởng của y đức lên nghiên cứu Vì vậy, hướng giải quyết trước mắt của chúng tôi là sử dụng các bộ dữ liệu đã

được công bồ trước đây dé có được độ chính xác nhất định về mặt phương pháp.Sau khi thành công bước đầu, chúng tôi sẽ tiếp tục thực hiện nghiên cứu trên các dữliệu của người dân Việt Nam đê đạt được giá trị thực tiễn cao hơn

© Dic trưng không gian của kích thước tạng người của cư dân các vùng miền trên thégiới có sự khác nhau nhất định về cấu trúc nội tại của con người, sắp xếp các bộphận cơ thẻ, kích thước xương Các đặc trưng này thẻ hiện rất rõ ràng phụ thuộc

vào môi trường sống ảnh hưởng lên cư dân Những đặc trưng ấy càng thé hiện rõ

trên đối tượng nghiên cứu của chúng tôi — ảnh X-quang của các bệnh nhân mắc bệnhlao phổi Đặc trưng nay sẽ ảnh hưởng đến độ hiệu quả của mô hình Do đó, trongquá trình thực hiện huấn luyện, chúng tôi giữ nguyên các bộ dữ liệu từ nhiều vùng

khác nhau chứ không hoà trộn vào nhau để đảm bảo tính chuyên biệt và đặc trưng, của các bộ dữ liệu Từ đó, kết quả cuối cùng sẽ khách quan, và có thé áp dụng cho

bộ dữ liệu của dân cư Việt Nam sau này.

Tình hình nghiên cứu hiện nay

Trước khi thực hiện nghiên cứu hiện tại, chúng tôi muốn tìm hiểu tình hình nghiên cứu củabài toán như thế nào, các kỹ thuật nào hiện tại là mới nhất, và kết quả khi áp dụng kỹ thuật

đó vào các công bố khoa học trước đó như thế nào Đây cũng chính là nền tảng động lực

để chúng tôi tiếp tục thực hiện các nghiên cứu mang tính mới và hợp thời, có giá trị thực tiễn Do đó, chúng tôi đã tổng hợp lại tình hình nghiên cứu hiện tại ở bảng 1.1 dưới đây

theo thứ tự: tên tác giả cùng với tham chiếu tới chỉ tiết công bó khoa học của họ, tên côngtrình nghiên cứu, đóng góp thé nào cho khoa học, và kết quả nổi bật tại thời điểm công bố

12

Trang 12

bài báo Nhờ vậy, chúng tôi sẽ dễ dàng so sánh kết quả nồi bật từ các tác giả tiền nhiệm và

có cơ sở so sánh khách quan với luận văn.

Bảng 1.1 Tổng quan tình hình nghiên cứu đánh giá bệnh TB hiện nay

et al (2014) [2] screening of pulmonary

diseases

Chest X-ray dataset va Montgomery Chest X- ray dataset

Tac gia Tên nghiên cứu Đóng góp Kết quả nỗi bật

Đề xuất hai bộ dữ liệu

Two public chest X-ray cho bai toan phan loai Công bố hai bộ dữ

Stephan Jaeger | datasets for computer-aided | TB, bao gồm Shenzhen liệu: Shenzhen và

Montgomery Chest X-ray

Pulmonary Tuberculosis by

Using Convolutional

Neural Networks

Phuong phap: Ap dung

DL đề đánh giá hiệu quảcác thuật toán đương đại trên 4 bộ dữ liệu, bao

Phuong pháp: Chân đoánbệnh nhân TB thông qua

mẫu đờm dưới kính hiển

vi

Dữ liệu: bộ dữ liệu

ZNSM-iDB

F1-Score=74.79%

Trang 13

Phuong phap: Su dung AlexNet, VGG16 vaCapsNet dé chan đoán

bệnh nhân TB

Dữ liệu: Kết hợp 3 bộ dữliệu: Shenzhen,

Montgomery và Thai thành một bộ lớn hơn

Áp dụng phépbiến đổi Affinevới phép quay -10đến 10, VGG16

cho Accuracy=90.79%

R Dinesh

Jackson Samuel Tuberculosis (TB)

Phuong phap: Két hop

mô hình InceptionV3 vàSVM dé phân lớp dữ

và B Rajesh detection system using liệu Accuracy=95.05%Kanna (2019) deep neural networks

[6] Dữ liệu: bộ dữ liệu

ZNSM-iDB

Phuong phap: Su dung

cac mang AlexNet,VGGI6 và CapsNet dé

Dữ liệu: Phân lớp ảnh CXR trên hai bộ dữ liệu:

+ Private Thai dataset + Thu thập từ Thư viện Y

14

Trang 14

học Quốc gia (National

Models

Phuong phap: Danh gia

về hiệu suất tính toán và kết quả phân loại giữa 4

mô hình neural networks:

VGG16, VGG19,

ResNet50, và GoogLenet.

Dữ liệu: Montgomery và Shenzhen

Accuracy=77.14%

cho bộ

Montgomery

Trang 15

Reliable Tuberculosis

Phuong pháp: So sánhkết qua của 3 phươngpháp:

+ Phân đoạn ảnh

X-quang sử dụng hai mô

Trong thực nghiệm thứ 2, tác

(2020) [9] Segmentation and X-quang.

phan doan anh,Visualization + Phân đoạn ảnh phôi

Accuracy=Fl-R Score=97.07%.

Dữ liệu: Tông hợp các

mảnh dữ liệu nhỏ thành một bộ dữ liệu lớn hơn.

Phương pháp: Sử dụngảnh CT đề dự đoán bệnh

Developing and verifying | nhân TB.

automatic detection of

Luyao Ma et al | active pulmonary Dữ liệu: Ho sử dung dữ

Accuracy=96.08%

(2020) [10] tuberculosis from liệu thu thập được từ 846

multislice spiral CT images

based on deep learning

bệnh nhân từ các bệnh viện lớn và sau đó phân

đoạn các tắm ảnh sử

dụng U-Net.

16

Trang 16

Linh T Duong

et al (2021)

[HỊ

Detection of tuberculosis

from chest X-ray images:

Boosting the performance with vision transformer and

Dữ liệu: Lần lượt là:

Montgomery, Shenzhen, Belarus, và COVID19.

Bên cạnh đó, nhóm tác

giả còn lựa chọn các tấm hình thêm từ nhiều

nguồn, bao gồm RSNAPneumonia Detection Challenge dataset,

COVID19 Radiography

DB CXR images Sau đó,

nhóm tác giả trộn lại vachia thành nhiều nhómảnh cấu hình riêng biệt

Trang 17

e _ Nghiên cứu các kỹ thuật tiên tiến nhất hiện nay cho bài toán phân lớp chan đoán

sớm bệnh lao phổi dựa trên ảnh X-quang

© Duara một số dé xuất giúp cải thiện độ chính xác của quá trình huấn luyện Cụ thể,

dé tài tập trung cải tiến các phương pháp xây dựng mạng neural để tiền xử lý cáctắm ảnh trước khi huấn luyện, rút trích đặc trưng của ảnh đầu vào, cải thiện các kết

quả đầu ra đề tăng độ chính xác.

e Tìm hiểu các bộ dữ liệu chuẩn, thông dụng đã được công bố và đưa vào sử dụng

rộng rãi hiện nay, áp dụng các thuật toán huấn luyện mạng neural mới để so sánh và

thử nghiệm.

1.3.2 Phạm vi nghiên cứu

Phạm vi nghiên cứu của luận văn tập trung vào hai phương diện sau:

1.4.

Về phương pháp, chúng tôi đã xây dựng một workflow dựa trên các mô hình DL tiên

tiến như VGG16, EfficientNet, MobileNet, DenseNet, va RegNet Trong đó, VGG16 đóng vai trò như mô hình baseline, để benchmark độ hiệu quả của các mô hình sau Kết quả cho thấy, các mô hình DL hiện đại cho kết quả vượt trội với bài toán phân loại ảnh

X-quang tự động nhằm phát hiện bệnh lao phỏi Chúng tôi đánh giá chéo kết độ chính

xác của các mô hình trên các bộ dữ liệu chỉ tiết khác nhau — kết quả được lưu trữ ở

Github ! của chúng tôi.

Vé bộ dữ liệu, chúng tôi sử dụng 4 bộ dữ liệu sau: Tuberculosis Chest X-ray [2], Indian

Chest X-ray [3], Shenzhen Chest X-ray, và Montgomery [4], chứa các dữ liệu hình ảnh X-quang của bệnh nhân đã được gán nhãn là có bị bệnh TB hay không từ các vùng khác

nhau trên thé giới Tuy nhiên, dé bảo mật thông tin, các bộ dữ liệu không bao gồm thôngtin cá nhân của các bệnh nhân.

Đóng góp của luận văn

Luận văn nghiên cứu của chúng tôi có những đóng góp chính sau đây:

' Nguồn: https://github.com/letruongminhuit/tuberculosis-dnn

18

Trang 18

e Thực hiện các khảo sát đánh giá một cách chi tiết và trực quan hiệu quả của mô hình

DL tiên tiến nhất hiện nay trên các bộ dữ liệu uy tín nhất cho bài toán đánh giá tự

động bệnh TB Từ đó đề xuất một hệ thống nhận diện bệnh nhân có bệnh TB hay

không dựa trên hướng tiếp cận Deep Neural Networks (DNN) Đề đạt được kết quảtối ưu, mô hình được đề xuất phải thích ứng tốt và ồn định với các bộ dữ liệu đượcchọn, trong khi yêu cầu ít tài nguyên tính toán, lưu trữ và phần cứng hơn Chúng ta

có thể vận dụng mô hình cho các bài toán cụ thê với các bộ dữ liệu mang tính địa phương và thực tế cao như Việt Nam, phần nào thúc day tốc độ phát hiện và kịp thời đưa ra phác đồ điều trị cho các bệnh nhân không may mắc bệnh Từ đó, giảm

thiểu được gánh nặng về kinh tế cho người bệnh và gánh nặng về hạ tầng y tế cho

Các cơ sở y tế.

e Các bộ dữ liệu nỗi tiếng được tổng hợp và lựa chọn Bên cạnh đó, việc tiền xử lýtrước khi huấn luyện cũng giúp chuẩn hoá bộ dữ liệu tốt hơn Các nhóm nghiên cứusau có thé kế thừa kết quả của luận văn dé áp dung cho bài toán của họ với rất ít các

bước xử lý thêm.

e _ Việc so sánh trực quan hiệu quả của từng phương pháp lên từng bộ dữ liệu khác

nhau giúp các nhà nghiên cứu có thêm góc nhìn bao quát và sâu sắc về những khía

cạnh mà luận văn đã thực hiện được, những gì còn tồn đọng có thể được kế thừa và phát triển trong các nghiên cứu sau Từ đó, chúng ta có các hướng đi cụ thể ở giai

đoạn tiếp theo

Thêm vào đó, kết quả khoa học của luận văn được viết thành bài báo và đã được đăng ở

một tạp chí khoa học quốc tế có uy tín (được lập chỉ mục ở cơ sở dữ liệu Scopus) như sau:

Truong-Minh Le, Bao-Thien Nguyen-Tat, Vuong M Ngo (2022) Automated evaluation

of Tuberculosis using Deep Neural Networks EAI Endorsed Transactions on Industrial Networks and Intelligent Systems, 9(30), e4 https://doi.org/10.4108/eetinis.v8i30.478

1.5 Cấu trúc của luận văn

Luận văn được chia làm các phần sau đây:

Trang 19

© _ Chương 1: Trình bày tổng quan tình hình nghiên cứu trong và ngoài nước của đề tài

chúng tôi muốn thực hiện

© Chương 2: Trình bày cơ sở lý thuyết về bệnh lao phổi, các con đường lây lan bệnh

lao phổi, nền tảng lý thuyết của bài toán phân lớp, quá trình trích chọn đặc trưngtrong bộ dữ liệu ảnh, hướng tiếp cận dựa trên kiến trúc mạng học sâu

¢ Chương 3: Trình bày khái quát về bộ dữ liệu chúng tôi đang sử dụng, được công bốmột cách uy tín và sử dụng và tin dùng của cộng đồng khoa học

e Chương 4: Trình bày các phương pháp áp dụng cho bài toán.

e _ Chương 5: Trình bày thử nghiệm và phân tích kết quả, từ kết quả đã có, đề xuất mô

hình đáng tin cậy, đơn giản nhưng cho hiệu suất cao

e Chuong 6: Bàn luận ưu nhược điểm của bài toán hiện tại, đưa ra các hướng cải thiện

cho các dự án và nghiên cứu sau, cùng tiên độ mà chúng tôi đã tìm hiệu được.

20

Trang 20

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Ở chương này, chúng tôi sẽ nêu cơ sở lý thuyết, các lý thuyết cơ bản nền tảng của luận văn

2.1 Bệnh lao phối (Tuberculosis)

2.1.1 Tac nhân gây bệnh

Bệnh lao phổi (Tuberculosis) có tác nhân là một loại vi khuẩn gọi là Mycobacteriumtuberculosis Vi khuẩn loại này thường tan công phổi, nhưng cũng có thể tan công bat kỳ

bộ phận nào của cơ thé như thận, cột sống và màng não Triệu chứng biểu hiện bệnh rấtmập mờ, không phải ai khi nhiễm bệnh cũng sẽ phát bệnh mà thường có một thời gian ủ

bệnh Kết quả là, sẽ có hai tình trạng liên quan đến bệnh lao ton tại:

e Nhiễm trùng lao tiềm ẩn chưa phát bệnh (Latent TB Infection)

¢ Bệnh lao (TB)

Vi khuẩn lao thường sẽ được phát tán trong không khí từ người này sang người khác Vikhuẩn lao có thể được phát sinh khi một người bị bệnh lao phôi đau họng, ho, nói hoặc hát

Những người gần đó thở trong không khí và nhiễm bệnh

TB sẽ không bị phát tán khi: 1) bắt tay người khác 2) chia sẻ đồ ăn hoặc thức uống 3) chạm

vào bệ toilet 3) dùng chung bàn chải đánh răng 4) hôn.

Khi một người nhiễm TB thở, vi khuẩn cư trú trong phổi hoặc vòm họng sẽ bắt đầu pháttriển, di chuyển thông qua máu đến các bộ phận khác trong cơ thé

2.1.2 Triệu chứng của bệnh lao

Triệu chứng của bệnh lao phụ thuộc vào nơi mà vi khuẩn đang sinh sôi Vi khuẩn laothường cư trú trong những cơ quan hô hấp như phổi Các triệu chứng khi đó có thé là:

© Ho ngày càng tệ kéo dai 3 tuần hoặc hon

© Dau tức lồng ngực

¢ Ho ra máu hoặc khac dom (dom sâu trong phổi, có màu vàng đậm)

Một số triệu chứng khác diễn biến khi bệnh nhân nhiễm bệnh có thé là:

Trang 21

© Co thể yếu dần hoặc mệt mỏi kéo dài dù uống các thuốc bồ sung đề kháng

đề xuất một hệ khuyến nghị hỗ trợ bệnh nhân trong thời kỳ ủ bệnh là cần thiết

2.2 Bài toán phân lớp

Bài toán phân lớp, đặc tả trong hình 2.1, là bài toán dự đoán trong đó một nhãn đại diệncho một lớp được dự đoán từ dữ liệu đầu vào Mở dau, dữ liệu được phân thành hai phan:

tập huấn luyện (training partition) và tập kiểm tra (testing partition) Tập huấn luyện sau

đó lại được chia thành hai phân vùng nhỏ hơn, bao gồm tập huấn luyện (training set) và tậpxác thực (validation set) Chúng tôi sẽ thảo luận vai trò của bộ validation set và cách chúng

tôi dùng nó trong các thực nghiệm Khi sử dụng mô hình phân lớp, mỗi dữ liệu trong tập

dé liệu là một điểm dữ liệu và được gan vào một nhãn hoặc lớp Trong luận văn này, chúng

tôi sử dụng các bộ dữ liệu đã được gắn nhãn sẵn Kết quả là, tác vụ chính của bài toán phân lớp là xác định một mô hình chuẩn sau khi quá trình khớp dữ liệu được thực hiện Từ đó,

dé liệu mới được đưa vào mô hình có thể được phân lớp một cách chính xác

Hình 2.1 Minh hoạ cho bài toán phân lóp

2

Trang 22

Trong nghiên cứu này, xây dựng mô hình nghĩa là tìm một hàm f hiệu quả tốt để ánh xạđiểm dữ liệu x vào một nhãn y thuộc tập nhãn Y.

y=ƒŒ@) (2.1)

Có 4 nhân tố cần thiết phải xét đến khi chúng ta muốn giải một bài toán phân lớp:

¢ Dé liệu: mục tiêu cuối cùng của đề tài là xây dựng một mô hình ánh xa dữ liệu tốt

giữa điểm dữ liệu và nhãn tương ứng như đề cập trước đó Đồng thời, mối liên hệ giữa điểm dữ liệu và nhãn cũng phải được xác định theo một quy luật nào đó (hồi

quy, tương quan ) Sau khi mối quan hệ giữa điểm dữ liệu và nhãn đã được xácđịnh, chúng tôi sẽ tiếp tục xử lý các bước sau để thực hiện tác vụ phân lớp hoặc các

tác vụ khoa học thuộc miền nghiệp vụ ML hoặc DL.

© Mô hình: dé xây dựng hiệu quả mô hình ồn định, chúng ta phải hiểu rõ cách xử lý

dữ liệu và kết hợp dữ liệu giữa các lớp DL đề đạt được kết quả mong đợi

¢ Hàm lỗi (Loss function): đây là giải pháp đề thu hẹp khoảng cách giữa nhãn mụctiêu và nhãn dự đoán Giá trị phải được hiểu rõ để chúng ta nắm rõ cách mô hìnhhoạt động thế nào, từ đó có các bước tỉnh chỉnh phù hợp

©_ Thuật toán tối ưu hàm lỗi: đây là khi chúng ta áp dụng các thuật toán thông dụng như Gradient Descent dé tối thiểu hoá hàm lỗi Thuật toán này sẽ có gắng cập nhật

hàm lỗi sau mỗi epoch cho tới khi không thể tốt hơn được nữa Sau đó, chúng ta cóthể rút ra được mô hình tối ưu nhất mà cần tìm kiếm và sử dụng trong bộ kiểm tra

với vai trò đánh giá.

Nhìn chung, có rất nhiều loại bài toán phân lớp, bao gồm phân lớp nhị phân, đa phân.Chúng tôi áp dụng DL đề thực hiện giải bài toán nhị phân đề gán một bức ảnh đầu vào cho

một trong hai nhãn dựa trên truy vấn liệu điểm dữ liệu có độ tương đồng so với bộ phân

lớp.

2.3 Trích chọn đặc trưng

Kỹ thuật trích chọn đặc trưng nhằm giảm số chiều không cần thiết và có thể gây nhiễu cho

bộ dữ liệu Một đặc điểm của các bộ dữ liệu lớn là số lượng các biến cũng lớn kéo theo nhu

Trang 23

cầu về tài nguyên tính toán để xử lý Các bộ dữ liệu đã được áp dụng trích chọn đặc trưng

có số chiều ít hơn bộ dữ liệu ban đầu, và có thể tổng hợp hau hết các thông tin quan trọngcủa bộ dữ liệu gốc ban đầu

Xét với bài toán đánh giá ảnh TB, các mô hình học sâu sẽ rút trích các đặc trưng thích hợpcủa tắm ảnh, tín hiệu đã được rút trích và sử dụng cho tác vụ phân lớp sau này Qua tác vụ

trích chọn đặc trưng, chiều dài (height) và rộng (width) của tắm ảnh sẽ giảm đi rất nhiều thông qua quá trình nhân tích chập của các Convolution kernel đi qua tắm ảnh, song song

theo đó, chiều sâu (depth) của tắm ảnh lại tăng lên, chứa các thông tin sử dụng cho quátrình phân lớp sau này.

2.4 Hướng tiếp cận dựa trên DNN

Khi đề cập tới việc áp dụng công nghệ mới đề phân tích dữ liệu quy mô lớn và xử lý các

dữ liệu tương ứng để giải quyết các vấn đề, có nhiều hướng đi để cân nhắc cùng các ưunhược điểm tương ứng Mọi người có xu hướng sẽ cân nhắc một trong hai hướng sau:

(1) Máy học truyền thống

(2) Mạng neuron học sâu

Trong khi hướng tiếp cận (1) máy học truyền thống có một số nhược điểm, điển hình làyêu cầu thời gian xử lý quá lâu đề hiểu được dữ liệu và kỹ thuật tiền xử lý dữ liệu dé làm

sạch dit liệu trước khi thực hiện các kỹ thuật dựa trên học may để đề xuất kết quả, DL cho

thé hiện kết quả vượt trội khi áp dụng linh hoạt các kiến trúc mạng học sâu cho các địnhdạng dữ liệu đa dạng, rút ngắn các giai đoạn làm sạch dữ liệu và ít chịu ảnh hưởng bởi can

của con người Những lợi ích đó đã vượt qua hướng đi máy học truyền thống tronghầu hết các trường hợp Kết quả là, khi xét tới bài toán phân tích và đánh giá tự động bệnh

TB, việc phân tích có hệ thống hiện trạng hiện tại, áp dụng mô hình phù hợp nhất, xác định

các hướng khả thi dé cải tiễn hiệu suất trở thành một hướng tiếp cận tối ưu

24

Trang 24

Hình 2.2 Quy trình chỉ tiết của bài toán đánh giá bệnh TB

Hình 2.2 thể hiện hướng tiếp cận chúng tôi đề xuất cùng các thực nghiệm đi kèm, là một

hướng tiếp cận chỉ tiết của hướng tiếp cận dựa trên mạng neuron học sâu (DL) kết hợp các mạng DL tiên tiến nhất hiện nay Sau khi đưa một tắm ảnh vào mạng, tuỳ vào từng bộ dữ

liệu có đủ dữ liệu đặc trưng cho việc huấn luyện và kiểm thử hay không mà chúng tôi sẽ

sử dụng kỹ thuật data augmentation để tăng kích thước của hai bộ dữ liệu: India vàMontgomery Chest X-ray như một bước tiền xử lý Chúng tôi đưa các tắm ảnh huấn luyện

vào 5 mang học sâu di truyền Đây là nơi thé hiện quá trình học các đặc trưng của tắm ảnh (Representation Learning approach), cho phép các mang di truyền học sâu khai thác đặc

trưng của các tắm ảnh dữ liệu và tự động tối thiểu hoá hàm lỗi Cuối cùng, mỗi ảnh đầuvào được phân vào một lớp trong hai lớp sau từ lớp kết nói đầy đủ (Fully Connected layer):

TUBERCULOSIS hoặc NORMAL.

Trang 25

CHƯƠNG 3 BỘ DỮ LIỆU

Tất cả các bộ dữ liệu chúng tôi thu thập từ các nguồn đáng tin cậy được công bố gần đây

Với hai bộ dữ liệu: Montgomery Chest X-ray và India Chest X-ray, vì chúng có ít các dữ

liệu bên trong, có thé dẫn tới việc mắt di tinh tổng quát cho bài toán, làm bài toán bị thiên

vị lệch về một nhãn nào đó Do đó, chúng tôi áp dụng kỹ thuật data augmentation khôngchỉ tăng kích thước của các bộ dữ liệu, mà còn tăng tính đa dạng của bộ dữ liệu Kiến trúc

mạng sẽ xử lý các hình ảnh dữ liệu như các dữ liệu riêng biệt Vì vậy, data augmentation

là một phương pháp giúp giảm thiêu sự kiện quá khớp.

3.1 Chỉ tiết các bộ dữ liệu

3.1.1 Tuberculosis (TB) Chest X-ray Database

Bộ dữ liệu Tuberculosis (TB) Chest X-ray database [9] chứa hai thư mục gom ảnh huấn

luyện và ảnh kiểm tra, cũng như một file excel (thư mục mở rộng là xIsx) gồm hai nhãn:

NORMAL (3500 ảnh) và TUBERCULOSIS (3500 anh) Chúng tôi chia bộ dữ liệu thành

hai thư mục: huấn luyện và kiểm thử Vi vậy, chúng ta có thé dé dàng sử dụng chúng chocác giai đoạn huấn luyện, xác thực và kiểm thử Với từng thư mục training hoặc testing,

hai thư mục con TUBERCULOSIS và NORMAL là hai thư mục tương ứng.

Chúng tôi chia bộ dữ liệu với tỉ lệ cụ thể như sau:

¢ Bo huấn luyện chứa 64% tổng số hình ảnh của bộ dữ liệu ban đầu với 2240 ảnh

thuộc về nhãn NORMAL và 2240 ảnh thuộc về nhăn TUBERCULOSIS

© _ Bộ xác thực chứa 16% tổng số hình ảnh của bộ dữ liệu ban đầu với 560 ảnh thuộc

về nhãn NORMAL và 560 ảnh thuộc về nhãn TUBERCULOSIS

¢ _ Bộ kiểm thử chứa 20% tổng số hình ảnh của bộ dữ liệu ban đầu với 700 ảnh thuộc

về nhãn NORMAL và 700 ảnh thuộc về nhãn TUBERCULOSIS.

Bảng dưới đây thể hiện phân bộ cụ thể và trực quan cách chúng tôi phân chia và sắp xếp

bộ dữ liệu:

26

Trang 26

Bang 3.1 Chỉ tiết cách sắp xếp của bộ Tuberculosis (TB) Chest X-ray

NORMAL | TUBERCULOSIS Training set 2240 2240

Validation set 560 560 Test set 700 700

3.1.2 Shenzhen Chest X-ray dataset

Bộ dữ liệu Shenzhen Chest X-ray [2] được thu thập từ các bệnh nhân ngoại trú ở các bệnhviên: bệnh viên công số 3 Thâm Quyến, cao đẳng Y tế Quảng Đông, Thâm Quyến, TrungQuốc

Bộ dữ liệu này gồm 662 tắm ảnh X-quang và một file CSV với hai thuộc tính: giới tính vàtuổi của bệnh nhân có tắm ảnh X-quang tương ứng Chúng tôi sửa lại bộ dữ liệu bằng việc

chia bộ dữ liệu hiện tại thành 3 bộ khác nhau: bộ huắn luyện, bộ xác thực và bộ kiểm thử Chúng tôi cũng lấy 20% của toàn bộ bộ dữ liệu để dành cho tập xác thực Với mỗi tập,

chúng tôi tạo hai thư mục con tương ứng với hai nhãn - TUBERCULOSIS và NORMAL.

Dưới đây là cách chúng tôi phân chia bộ dữ liệu Shenzhen Chest X-ray:

Bảng 3.2 Chỉ tiết cách sắp xếp dữ liệu của bộ Shenzhen Chest X-ray

NORMAL | TUBERCULOSIS Training set 209 217

Validation set 52 54 Test set 65 65

3.1.3 Montgomery Chest X-ray dataset

Bộ dữ liệu Montgomery Chest X-ray dataset [2] được thu thập trong dự án kết hợp với Bộ

Y tế và Dịch vụ Nhân sinh Hoa Kỳ, hạt Montgomery, Maryland, Mỹ Bộ dữ liệu này gồm

138 ảnh xương ngực chụp cận trước trong đó có 80 ảnh có nhãn NORMAL và 58 ảnh có

nhãn TUBERCULOSIS Sau khi cắt bộ và lấy 28 ảnh trên tổng số ảnh cho bộ kiểm thử, 22ảnh trên tổng số ảnh cho bộ xác thực, chúng tôi phân phần ảnh dữ liệu còn lại cho bộ huấnluyện và bắt đầu áp dụng kỹ thuật tăng cường dữ liệu (data augmentation) dé tăng số lượng

Trang 27

ảnh, nhằm dem lại tính khách quan và tông quát cho bộ dữ liệu Cụ thé, chúng tôi sử dụngcông cụ CLoDSA? [13] được đề xuất và công bố bởi Casado-García et al Ý tưởng tổngquát của phương pháp đầu tiên là định nghĩa một danh sách các phương pháp tăng cường

dự định sẽ được sử dụng và thực hiện thêm chúng vào đối tượng augmentor Day là quá

trình nhận các object augmentor như đầu vào input và trả về danh sách kết quả các hìnhảnh đã được tăng cường Chúng tôi sinh ra nhiều ảnh hơn đề hỗ trợ giai đoạn huấn luyệnvới các phương pháp cụ thé sau: phép quay, cắt ảnh, tịnh tiền, và giữ nguyên ảnh gốc

Chỉ tiết của các kỹ thuật được thé hiện như dưới đây:

© _ Phép quay (rotation): chúng tôi áp dụng phép quay ngẫu nhiên 5, 10, 15 độ cho mỗi

Validation set II "1 Test set 14 14

3.1.4 India Chest X-ray dataset

? Nguồn: https://github.com/joheras/CLoDSA

28

Trang 28

Bộ dữ liệu India Chest X-ray dataset [12] được lấy từ hệ thống CXR của Viện Lao và các

triệu chứng về đường hô hấp, New Delhi, An Độ Bộ dữ liệu đã được công bé và có sẵncho tải về ở đây

Bộ dữ liệu này chứa tổng cộng 155 ảnh X-quang Với bộ dữ liệu này, chúng tôi cũng ápdụng công cụ đã nêu trước đó (CLoDSA) dé mở rộng kích thước bộ dữ liệu nhằm làm tăng

tính tổng quát Chúng tôi chia bộ dữ liệu gốc thành 3 phần: bộ huấn luyện, bộ xác thực và

bộ kiểm thử Chúng tôi sử dụng phương pháp giống như Montgomery Cấu trúc được phân

chia chúng tôi đã thể hiện ở bảng sau:

Bảng 3.4 Chỉ tiết cách sắp xép dit liệu của bộ Indian Chest X-ray

NORMAL | TUBERCULOSIS Training set 287 294

"Thêm vào đó, dữ liệu đầu vào được yêu cầu phải có độ phân giải đồng nhất đề đạt được sự

khách quan và trách các vấn đề thiên vị và ảnh hưởng đến hiệu suất huắn luyện, và có được

sự thống nhất trong quá trình phát triển các kiến trúc mạng học sâu.

Tất cả thuộc tính thuộc về dữ liệu cũng phải được thống nhất với nhau để xem xét thêm

cho các bài toán và nghiên cứu sau này trong tương lai, hoặc tạo thuận lợi cho các nghiên

cứu liên quan của các tác giả khác cùng chủ đề Do đó, quá trình tiền xử lý dữ liệu là một

bước cần thiết cho bất kỳ hệ thống dựa trên máy học hoặc học sâu nào

Với mỗi bộ dữ liệu mô tả trước đó, chúng tôi liên tiếp đọc dữ liệu từ bộ huấn luyện, bộ xác

thực, và bộ kiểm thử vào Colab thông qua phương thức image_dataset_from_directory’

3 Nguồn: https://keras.io/api/preprocessing/image/

Trang 29

Với các tắm ảnh từ bộ dữ liệu đầu vào, chúng sẽ được chia thành các batches nhỏ hơn vớibatch_size là 128 Chúng tôi liên tục huấn luyện các batch và tính toán giá trị cuối cùng làtrung bình kết quả của các batches trong epoch.

Chúng tôi căn chỉnh lại kích thước các tam ảnh về 224x224 dé fit vào mô hình Thêm vào

đó, chúng tôi sử dụng kênh màu RGB cho các dữ liệu đầu vào Ngoài ra, với các bộ dữ liệu

trên, đặc biệt là 2 bộ dữ liệu India Chest X-ray, Montgomery Chest X-ray có khá ít dit liệu.

Tuy nhiên, sự sắp xếp vị tri của các cơ quan nội tạng bên trong cơ thể người — thé hiện

trong các dữ liệu X-quang — cần được giữ lại để đảm bảo việc nhận diện và phân lớp làđúng Do đó, chúng tôi không áp dụng việc tăng cường dữ liệu theo hướng lấy đối xứng

các tắm ảnh, zoom in các tắm ảnh — dé làm ngược hoặc làm mắt các cơ quan đặc thù không đối xứng như tim, gan, mật Các đặc thù này góp phan vào vai trò phân lớp và không nên

bị xáo trộn, ảnh hưởng đến tính đúng đắn của dữ liệu

Hon thé nữa, chúng tôi xáo trộn các dữ liệu trong tập huấn luyện và xác thực dé đảm bảo

các điểm dữ liệu tạo ra sẽ tổng quát hơn, không học phụ thuộc vào thứ tự sắp xếp của các

dữ liệu trong tập dữ liệu gốc Sử dụng phương pháp này cũng ngăn ngừa dữ liệu học cácquy luật dễ dàng tìm thấy, tránh tình trạng học vẹt Quá trình xáo trộn các tắm ảnh ảnh

hưởng tích cực với mô hình, nâng cao độ khó trong quá trình huấn luyện và nhận diện trong

giai đoạn training.

3.3 Cấu hình tham số

Các tham số là các hệ số tương quan với mô hình, và chúng được khởi tạo và cập nhật bởi

mô hình trong quá trình huấn luyện Trong quá trình training, các tham số liên tục đượchiệu chỉnh với mục tiêu tối thiểu hoá hàm lỗi định nghĩa cho mô hình Những tham số ấy

có thể được ước lượng và học từ bộ dit liệu, sau đó tái sử dụng và sử dụng lan truyền ngược

lại cho các lớp trước đó Khi huấn luyện, huyên viên y tế sẽ được hỗ trợ và theo dõi kiểmtra giá trị nào của tham số nào là tốt và có thé tái sử dụng cho nhiều loại dữ liệu khác nhau

Có hai loại tham số khi làm việc với các kiến trúc mạng di truyền học sâu cần cân nhắc:

Trang 30

e Tham số huấn luyện (trainable parameters): đây là các tham số cần phải học, hiệu

chỉnh và cập nhật dựa trên bộ dữ liệu và từ đó hàm lỗi sẽ được tối thiểu hoá

e Tham số không huấn luyện (non-trainable parameters): Mặt khác, các tham số

không huấn luyện là các tham số mà trong số của chúng sẽ không được cập nhậttrong quá trình training bởi thuật toán lan truyền ngược Có hai trường hợp tương

ứng với hai loại trọng số không huấn luyện: một loại chúng tôi sẽ giữ nguyên trong quá trình huấn luyện, điều đó có nghĩa các thư viện DL sẽ không cập nhật chúng bất

cứ giai đoạn nào của quá trình training, loại còn lại là trọng số đóng vai trò chuẩn

hoá lại dữ liệu, chúng chỉ đóng vai trò chuân hoá dữ liệu, thực hiện các phép cập

nhật với mean, hoàn toàn không được thay đổi trọng số.

Bên cạnh đó, chúng tôi cũng xét đến tổng số tham số bao gồm cả trainable parameters vànon-trainable parameters Khi quan sát 3 thông số này (trainable parameters, non-trainable

parameters, tổng số tham s6), chúng ta có thé quan sát sau quá trình huắn luyện, các mô

hình sẽ sử dụng các tai nguyên tính toán thế nao, có mô hình nào sử dung quá nhiều tainguyên nhưng kết quả chưa tốt hay không, và có các phương pháp cải thiện tương ứng

Chúng ta có thé thấy tham số cần sử dung trong bảng sau, mô hình EfficientNetB7 chiếm

số lượng tham số đáng kể, bao gồm tham số có thé huấn luyện và tham số không huấnluyện dé hoàn toàn huấn luyện các bộ dữ liệu Việc sử dụng nhiều tham số tiêu tốn rất nhiều

tài nguyên tính toán và lưu trữ mặc dù mô hình huấn luyện xong có thé đưa ra kết quả tốt cho các bộ dữ liệu Tiếp theo, mô hình RegNetY040 và DenseNet121 có số lượng tham số

huấn luyện xắp xỉ nhau (khoảng 6,500,000 tham số), nhưng sự khác biệt về tham số khônghuấn luyện lại khác nhau nhiều dẫn đến sự khác biệt trong tổng sé tham số sử dụng giữahai mô hình được nhắc đến Khi nhắc đến MobileNetV3, số lượng tham số huấn luyện của

mô hình (3,612,929) cao hơn so với VGG16 (3,211,521), nhưng tham số không huấn luyện lại thấp hon rất nhiều (939,120 so với 14,714,688) dẫn đến tổng số tham số sử dụng lại ít

nhất trong số tất cả các mô hình Bên cạnh đó, MobileNetV3 cho hiệu suất phân lớp caohơn VGGI6 trong tat cả các trường hợp Nhìn chung, MobileNetV3 đưa ra kết quả vượt

trội so với các mô hình khác nhưng tham số cần cấu hình hiệu chỉnh lại ít hơn Điều đó

Trang 31

đồng nghĩa với việc chúng ta chỉ cần ít tài nguyên tính toán hơn nhưng đạt được kết quảtốt hơn khi tích hợp MobileNetV3 vào các ứng dụng và hệ thống khuyến nghị.

Bảng 3.5 Số lượng tham số của mỗi mô hình trong quá trình huấn luyện

(TUBERCULOSIS: người đó bị bệnh TB; NORMAL: người đó không bị bệnh TB) Chúng

ta có 4 giá trị đại diện tương đương cho 4 loại dự đoán:

© True Positive (TP): đây là số lượng điểm dữ liệu trong tập dữ liệu tương ứng trong

đó các mô hình dự đoán đúng nhãn dương tính (TUBERCULOSIS) và nhãn thực tế

cũng là TUBERCULOSIS.

¢ True Negative (TN): đây là sé lượng điểm dữ liệu trong tập dữ liệu tương ứng trong

đó các mô hình dự đoán đúng nhãn âm tính (NORMAL) và nhãn thực tế cũng là

NORMAL.

¢ False Positive (FP): đây là số lượng điểm dữ liệu trong tập dữ liệu tương ứng trong

đó các mô hình dự đoán nhãn là TUBERCULOSIS nhưng nhãn đúng thực tế lại là

NORMAL.

Trang 32

©— False Negative (FN): đây là số lượng điểm dữ liệu trong tập dữ liệu tương ứng trong

đó các mô hình dự đoán nhãn là NORMAL nhưng nhãn đúng thực tế lại làTUBERCULOSIS.

Với vấn đề đánh giá bệnh TB, việc phân loại đúng các nhãn cho các trường hợp True

Positive và False Negative đóng vai trò quan trọng hơn hai trường hợp còn lại Khi bệnh

nhân không được hỗ trợ chan đoán đúng nhãn TUBERCULOSIS đúng đắn và kịp thời,

bệnh tinh của họ sẽ trở nặng dẫn đến mắt các chức năng liên quan tới phổi, trầm trọng hơndẫn đến tử vong không mong muốn Do đó, việc giảm thiểu các trường hợp dự đoán sai

với hai nhãn True Positive và False Negative là rất cần thiết và cũng là đích đến đối với

mô hình được xây dựng.

Chúng tôi xây dựng một thuật toán đánh giá mô hình dựa trên các thông số đề xuất bằng

việc tính toán các thông số với từng điểm dữ liệu rồi tính toán giá trị rồi gán vào các danh sách thông số tương ứng Ở đây, chúng tôi sử dụng hai danh sách thông số:

3 for image, label in test_set do

4 Predictions <- Predict (model)

Trang 33

5 Predictions <- Normalize (Predictions)

6 accuracy <- accuracy(label, Predictions)

7 fl-score <- fl-score(label, Predictions)

8 Append accuracy to the AccuracyList

9 Append fl-score to the Fl-ScoreList

TUBERCULOSIS đúng và nhãn NORMAL đúng) của mô hình trên tổng các dự đoán.

Công thức được định nghĩa như sau:

TP +TN @.)

TP +TN +FP +FNTrong nhiều trường hợp, Accuracy thé hiện độ chính xác của mô hình nhưng có thé chưa

Accuracy =

trọn vẹn Đặt trường hợp giả định, chúng ta có Accuracy = 65%, nghĩa là chúng ta biết trong 100 dự đoán sẽ có 65 dự đoán đúng nhưng chúng ta không biết vai trò bao nhiêu dự

đoán đúng cho nhãn TUBERCULOSIS, và bao nhiêu nhãn dự đoán đúng cho nhãn

NORMAL Như trình bay ở mục 3.4, việc dự đoán đúng bệnh nhân True Positive và FalseNegative có vai trò quan trong và mang tính sống còn hơn han hai nhãn còn lại

Trang 34

Positive Công thức của Precision được thé hiện ở công thức dưới đây:

Khi một mô hình có Precision bằng 1 tuyệt đối, tat cả các điểm dữ liệu được dự đoán với

nhãn TUBERCULOSIS đều thực sự là TUBERCULOSIS chứ không chứa các nhãn dựđoán là TUBERCULOSIS nhưng nhãn thực sự là NORMAL Tuy nhiên, khi độ đo Recall

Recall =

bằng 1 tuyệt đối, các điểm dữ liệu đều đã được xem xét và những điểm được gan nhãn là

TUBERCULOSIS thực sự là TUBERCULOSIS, và không có các điểm nào chứa dự đoán

là NORMAL nhưng nhãn thực tế là TUBERCULOSIS

Tuy nhiên, các thông số này không thể thực sự dự đoán được có bao nhiêu điểm dữ liệu NORMAL bên trong Một mô hình tốt là mô hình có tỉ lệ Precision cũng như Recall phải cao và kết hợp lẫn nhau Đề đánh giá mô hình như vậy, chúng tôi lựa chọn thông sé FI-

Score với công thức sau đây:

Precision * Recall (3.4)

F, = 2 *>———_— — _

Precision + Recall

Fl-Score sẽ có miền giá trị trong khoảng (0, 1]

Mục tiêu của chúng ta là tối đại hoá cả Precision và Recall Trên thưc tế, việc đó thườngkhông khả thi trong cùng một thời điểm vì chúng ta cần phải có sự trade-off giữa Precision

và Recall Ví dụ cụ thể hơn, với bài toán đánh giá TB, thì chúng ta cần có Recall phải cao

~ có nghĩa chúng ta cần giảm số lượng False Negative đi Có nghĩa, nếu mô hình dự đoán

người đó là NORMAL, thì người đó không nên có nhãn thực tế là TUBERCULOSIS Nếumục tiêu của chúng ta là xác định người có bệnh TB (nhãn TUBERCULOSIS), thì mô hình

Trang 35

phải có tỉ lệ Precision cao, nghĩa là khi đã xác định người đó thực sự bị bệnh, người đóphải có nhãn thực tế là TUBERCULOSIS.

Có thể nói, F1-Score là một trong các thông số thông dụng và quan trọng nhất trong ML

lẫn DL Công thức chuẩn của F1-Score đã kết hợp đúng và tốt ưu điểm của hai thông sốnội tại của nó là Precision và Recall Công thức này chúng ta có thể viết lại như sau theo

dang trung bình điều hoa (harmonic mean) của Precision và Recall:

2 (3.5)

a eo

Precision ` Recall

F1=

F1-Score cân nhắc cả Precision và Recall, cũng có nghĩa sẽ đánh giá hai thông sé tỉ lệ False

Positive va False Negative Precision va Recall càng cao, FI-Score càng cao Mô hình cho

1 1

Precision Recall

Fl-Score càng gan 1, thì ( ) càng gan 2, nghĩa là Precision VỀ Reca Cảng

gần 1 Đồng nghĩa với việc Precision va Recall càng gần 1 Từ đó, mô hình sẽ có sự hài

hoà giữa Precision va Recall Vậy có thể kết luận rằng, néu mô hình có F1-Score càng gần

1, thì mô hình càng tốt

3.4.3 Confusion Matrix

Với bài toán đánh giá bệnh TB, một bảng kích thước 2x2 được thể hiện như hình 3.1 tổng

kết độ tốt của các dự đoán phân lớp; thể hiện sự tương quan giữa nhãn và quá trình phân

lớp mô hình Một trục của confusion matrix lã nhãn dự đoán, trục còn lại chứa nhãn thực

tế Kích thước 2x2 thể hiện số nhãn và lớp tương ứng

36

Trang 36

Predicted Labels

PUliovel(sn True Positive False Negative

ACyuit@m False Positive True Negative

True Labels

Hình 3.1 Confusion matrix cho bài toán đánh giá TB

Thông số này tốt hơn Accuracy ở chỗ, chúng ta biết được tỉ lệ phân bổ của từng nhãn như thé nào đề biết được mô hình có thực sự tốt hay không và có các bước cải tiễn thích hợp

cho quá trình huấn luyện sau này thay vì đơn lẻ chỉ biết được đơn thuần mô hình cho độchính xác bao nhiêu phan trăm

Trang 37

CHƯƠNG 4 PHƯƠNG PHÁP DÙNG CHO BÀI TOÁN

e Input: ảnh kích thước 224x224x3

¢ Output: nhãn dự đoán mà tắm ảnh thuộc về € {TUBERCULOSIS, NORMAL}

Với VGGI6, điểm then chốt so với các thuật toán thời điểm trước đó là việc cải thiện độchính xác của mô hình bằng việc áp dụng một kiến trúc mạng học sâu; tuy nhiên, vẫn giữ

được những đặc trưng của mạng AlexNet Để giảm số lượng tham số mà đạt hiệu quả cao,

khi huấn luyện mô hình, chúng ta thường sử dụng filter với kích thước nhỏ như 3x3 thay

vì sử dụng 5x5 hoặc 11x11 như AlexNet Đặc trưng của hình ảnh có thé trích chọn hiệu

quả hơn khi so sánh với các mô hình tiền nhiệm như AlexNet và kết quả trả về ở lớp cuối cùng — Fully Connected layer — được sử dụng với mục đích dự đoán nhãn đầu ra.

VGG16 được chia thành 3 phần khác nhau: Convolution, Pooling và Fully Connected Mô

hình bắt đầu với 2 lớp Convolution, tiếp theo là một lớp Pooling, và sau đó là 2 lớp Convolution, lại một lớp Pooling, tiếp theo là 3 lớp Convolution và 1 lớp Pooling, và cuối

cùng là 3 lớp Fully Connected với mục đích kết nói đầy đủ Đặc tả kiến trúc chỉ tiết của

mô hình VGG16 được thé hiện ở hình 4.1 như dưới đây

38

Trang 38

Hình 4.1 Kiến trúc chỉ tiết của mang học sâu VGG16 (nguén: LINK)

Mặt khác, VGG16 có hai nhược điểm đã được chứng minh như dưới đây:

© Giai đoạn huấn luyện tốn rất nhiều thời gian dé hoàn thành, dẫn đến các giai đoạn sau bị ảnh hưởng về mặt thời gian hoàn thanh.

e Kiến trúc này rat nang và chứa nhiều tham số học (learning parameter).

VGG16 rat nặng về mặt kích thước vì chiều sâu va số lượng các nodes kết nối day đủ vớinhau dẫn đến hiện tượng các lớp sau cùng tốn rất nhiều tài nguyên dé huấn luyện được một

mô hình đủ tốt, làm cho quá trình triển khai phần mềm và tích hợp vào các ứng dụng sau

này trở nên phức tạp không cần thiết Mặc dù sự thật là VGG16 có thể được tận dụng dégiải quyết rất nhiều bài toán học sâu, là nền tảng cho nhiều kiến trúc DL phát triển sau này

4.1.2 Kiến trúc EfficientNetB7

Mô hình này thuộc họ mô hình thuật toán EfficientNet và được giới thiệu lần đầu tiên vào năm 2019 trong bài báo của Mingxing Tan và Lê Viết Quốc vào tháng 5/2019 EfficientNet

phụ thuộc vào kiến trúc AutoML và kiến trúc tự động căn chỉnh để đạt được hiệu suất ổn

định mà không ảnh hưởng tiêu cực đến hiệu quả sử dụng tài nguyên Hiện tại, chúng tôi tận dụng kiến trúc mang di truyén EfficientNetB7 đề thực hiện quá trình rút trích đặc trưng.

EfficientNetB7 có khả năng cân bằng 6n định chiều sâu, chiều rộng và kích thước số chiều

Trang 39

của kiến trúc mạng, tăng khả năng về hiệu quả tính toán Kiến trúc chỉ tiết của mạng được

thể hiện ở hình 4.2

(eed

Hình 4.2 Kiến trúc chỉ tiết của mang học sâu EfficientNetB7 (nguồn: LINK)

Voi mạng EfficientNets, cụ thể là EfficientNetB7, chúng tôi xác định input và output như

sau:

e Input: ảnh kích thước 224x224x3

© Output: nhãn dự đoán mà tắm ảnh thuộc về € {TUBERCULOSIS, NORMAL}

Kiến trúc mạng truyền thống là một quá trình “thử và sai”, chúng ta thử các lớp hoặc tham

số để xem kết quả huấn luyện bước dau, rồi dan dan cải tiến lời giải qua nhiều bước tới khi

đạt được bước tối ưu nhất Nhưng trong quá trình thử - sai đó, mỗi bước thử sẽ hao tốn một lượng tài nguyên tính toán hoặc lưu trữ, vậy nếu trong trường hợp xấu nhất, chúng ta

cứ thử liên tục mà vẫn sai liên tục, như vậy việc tiêu hao tài nguyên vô ích mà chưa đạt

được mục tiêu là việc khó tránh khỏi Thay vào đó, hiện tại kiến trúc Automated Machine

Learning (AutoML) sẽ hỗ trợ phát triển mô hình DL tự động không đặt nặng quá nhiều về việc chuẩn bị dữ liệu, lựa chọn tham số mô hình, căn chỉnh và lựa chọn các siêu tham số trong quá trình huấn luyện, dựa vào các dữ kiện được cung cấp, nó sẽ xác định vấn đề và

các rủi ro, căn chỉnh và đưa ra mô hình ồn định và hiệu suất cao Trước khi thực sự thựchiện các bước thử, chúng sẽ ước lượng trước từng mô hình trong không gian tìm kiếm sẽ

40

Trang 40

tiêu tốn tài nguyên như thé nào để có các bước căn chỉnh tài nguyên cho phù hợp và tránhtiêu hao lãng phí.

Framework AutoML hỗ trợ chúng ta trong việc:

e Trực quan hoá dữ liệu

e _ Triển khai và tích hợp dữ liệu vào mô hình chuẩn

Sự đổi mới của AutoML so với các thuật toán máy học truyền thống dựa vào việc tìm kiếmlời giải cho các siêu tham số trong không gian tìm kiếm, sử dụng chúng cho các bước tiền

xử lý dữ liệu Có rất nhiều thuật toán tối ưu ngẫu nhiên hoặc có cơ sở đến các thuật toán

tiến hoá, học củng cố Dựa vào các thuật toán được chọn kể trên, AutoML framework sẽ

sử dụng kinh nghiệm đề cải thiện hiệu suất của thuật toán nền

4.1.3 Kiến trúc MobileNetV3

Sự tiễn bộ vượt bậc của các thuật toán Thị giác Máy tính khuyến khích sự phát triển song

hành của rất nhiều kiến trúc mạng DL khác nhau để cải thiện hiệu suất tính toán và lưu trữ.Tuy nhiên, với sự ràng buộc về tài nguyên, không phải tat cả chúng đều có thé hoạt độngtrên tat cả các thiết bị Nếu chúng ta muốn phát triển các ứng dụng Trí tuệ Nhân tạo trên

nhiều thiết bị như đi động hoặc Internet of Things (IoT), chúng ta sẽ cần hiểu rõ cách các thiết bị kể trên sử dụng tài nguyên thế nào đề lựa chọn mô hình thích hợp cho từng loại.

Một trong những mô hình đó là MobileNetV3.

Với kiến trúc MobileNetV3:

e Input: ảnh kích thước 224x224x3

¢ Output: nhãn dự đoán mà tắm ảnh thuộc về € {TUBERCULOSIS, NORMAL}

Trong các kiến trúc mạng dựa trên mạng tích chập (CNN-based), chiều sâu là một trong các lý do chính làm gia tăng số lượng tham số học của mô hình Trong quá trình thực hiện

huấn luyện mô hình MobileNetV3, kiến trúc hỗ trợ chúng ta một khái niệm gọi là

“Depthwise Separable Convolution”.

Ngày đăng: 24/11/2024, 14:50