1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng kỹ thuật xử lý hình ảnh kết hợp với mạng học sâu phát hiện ung thư vú

34 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Kỹ Thuật Xử Lý Hình Ảnh Kết Hợp Với Mạng Học Sâu Phát Hiện Ung Thư Vú
Tác giả Hà Bảo Anh, Lê Thành Nghĩa, Nguyễn Văn Nam, Lâm Quang Phú, Đào Xuân Hoàng Tuấn, Huỳnh Trung Hiếu
Trường học Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
Chuyên ngành Khoa Công nghệ Thông tin
Thể loại bài báo khoa học
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 34
Dung lượng 3,63 MB

Nội dung

Với sự phát hiểncủa trítuệ nhântạo hiện nay, việc ứng dụng cácmô hình máyhọc kếthợpvớicác kỹ thuật xửlý ảnh trong phân tích ảnh đã mang lại những kết quả vượt trội trong nhiềuứngdụng khá

Trang 1

Hội nghị Khoa học trẻ ỉần 5 năm 2023(YSC2023)-ỈUH

YSC5.F006

ỨNG DỤNG KỸ THUẬT xử LÝ HÌNH ẢNH KẾT HỢP VỚI MẠNG HỌC SÂU

PHÁT HIỆN UNG THƯ vú

HÀ BẢO ANH1*, LÊ THÀNH NGHĨA1, NGUYỄNVĂNNAM1, LÂM QUANG PHÚ1

ĐÀO XUÂN HOÀNG TUẤN1, HUỲNHTRUNG HIẾU1

}Khoa Công nghệ Thông tin, TrườngĐại học Công nghiệp Thành phổ Hồ Chỉ Minh

*baoanhcr 7ỉ2345 6@gmail.com , lethanhnghiaỉ4 7@gmail com, nguyenvannamỉ4056969@gmail com,

lamquanphu2ỉ 76@gmail.com, hoangtuan.salmon@gmail.com, hthieu@ieee.org

Tóm tăt Ung thưvú không nhữnglàmộtbệnh ung thư haygặpnhất ở phụ nữmà còn làmột trong những

nguyên nhângây tử vong đốivới phụ nữtại nhiều nước Hiện nay, chụp X-quang vú (mammography) là

một kỹ thuậtđượcdùngđể sàng lọc và phát hiện sớmcác bệnhlývề tuyến vú và ung thư vú, bệnh được phát hiệncàngsớmthì khả năng điều trị khỏi bệnh sẽ càngcao, bên cạnh những loại lợi ích mang lại thì

chụpX-quang vú cũng có những hạn chế nhất định bao gồm không xác địnhđược trạng thái lànhhay áctính củamột tổn thương ở vú, việc đọc kết quả nhũ ảnh đòi hỏi nhân viên ỵ tế phảicó kinh nghiệm vàtrình

độ chuyên môn cao, thời gian xử lý, chi phí Với sự phát hiểncủa trítuệ nhântạo hiện nay, việc ứng dụng cácmô hình máyhọc kếthợpvớicác kỹ thuật xửlý ảnh trong phân tích ảnh đã mang lại những kết quả vượt trội trong nhiềuứngdụng khác nhau.Dođó bài toán phát hiện ung thư vú đãđược thực hiện theo cách

tiếp cận mới này Nghiên cứu này có thể giúp giai đoạn sàng lọc và phát hiệnungthư vú có thể thựchiện

một cách nhanh chóng, độ chính xác cao,chiphíthấp, hỗ trợ các ỵ bác sĩ trong việccó thể đưa ra cácchẩn

đoánbệnhkịp thời Trong quá trình xử lý,nhómsẽ thực hiện hên tậpdữ liệu gồm những ảnhX-quangnhũ

ảnh.Bước đầu tiêncác nhũảnhbằng các phươngpháp xử lý ảnh, kế tiếpcác hìnhảnh đó sau khi đượctách

ra sẽ đượcdùng làm đầu vào cho các mô hình phânloại Từ đóta cóthể đánh giá độ chính xáccũng như

độ tối ưucủa từng mô hình khác nhauvà lựa chọn ra mô hình tốt nhất

Từ khóa Ung thư vú, Anh chụp quangtuyến vú, Môhìnhhọc sâu, Côngnghệhỗ trợ sức khỏe

APPLICATION OF IMAGE PROCESSING TECHNIQUES COMBINED WITH DEEP

LEARNING NETWORKS FOR BREAST CANCER DETECTION

Abstract Breastcancer is the most commoncancer inwomen and oneof theleading causes of death for

women in many countries Currently,mammography isused for screening and early detection of mammary gland diseases and breast cancer Besidesthe benefits, mammographyalso hascertain limitations, including

not determining the benign or malignant state of a breast lesion; the reading ofmammograms requires human medical staff must have experience andhighprofessional qualifications,processingtime, and cost

With die current development of artificial intelligence, applying machine learning models combined w ith

image processing techniques in image analysis has brought outstanding results in many differentapplications Therefore, the problem of detecting breastcancer hasbeen carried out according tothis new

approach This research can help die screening and detection of breast cancer quickly, with high accuracy

and lowcost,helpingdoctors make a diagnosis Duringthe processing, theteamwill work on a data setofX-ray mammograms The first step ismammograms by image processing methods, then the images, afterbeing extracted, will be used as input for classificationmodels From there, we can evaluate the accuracy

and optimization of eachdifferent model and choose die best model

Keywords Breastcancer, Mammography, Deeplearning, Healthcaretechnology

Trang 2

Hội nghị Khoa học trẻ ỉần 5 năm 2023(YSC2023)-ỈUH

1 GIỚI THIỆU

Ungthư vú là một trongnhững loại ungthư phổ biếnnhấthiện nay thường xuất hiện ở phụ nữ Theo Tổ chứcY tếthếgiới(WHO)vào năm 2020có khoảng 2,3 triệu phụ nữ hên thếgiớiđược chẩn đoán mắc bệnh

ung thưvú,trong đó có 685.000 ca tử vong hên toàn cầu Nguyên nhân của nó vẫn chưa được hiểu rõ,mặc

dù gen vàhormone dường nhưđóng vai trò chính.Ung thư vú pháttriển ban đầunhư một biến đổi dihuyềndẫn đếnmột loạtthay đổi phântử trong các tếbào biểu mô lótcác ống dẫn hoặc tiểu thùỵ của vú TheoWHO ung thư vú phátsinh trongcác tếbào biểu mô của ốngdẫn 85% hoặc tiểu thùỵ 15% trong mô tuyếncủa vú Ban đầu, khối ung thưphát triển giới hạn hong ống hoặc tiểuthùỵ không gây ratriệuchứng vàcókhả năng lây lan tối thiểu, theo thời gian, nhữngkhối ung thư này có thể tiến hiển và xâm lấn môvú xung

quanh sau đólan đến cáchạch bạch huyết gần đó hoặc đến các cơ quan kháchong cơthể khiến tìnhhạngsức khỏe của bệnhnhântiến triển xấu Đe tránh nhữnghậu quả nghiêm trọng của giai đoạntiếp theo, việc

phát hiện và ngănchặn sự phát triển của tế bào ung thư này càngsớm càng có lợi khôngnhững giúp tăng

cơ hội chữa khỏi mà còncải thiện chất lượng cuộc sống củabệnh nhân Hiện nay, các kỹ thuật hình ảnh

như chụp cộng hưởng từ (MRI), chụp cắtlớp điện toán phát xạ đơn photon (SPECT), chụp cắt lớp vitính (CT) trong đóchụp X-quang nhũ ảnh (mammography) làmột kỹ thuậtđược dùng đểsàng lọcvà phát hiện sớmcác bệnh lý về tuyến vú và ung thư vú, bệnh được phát hiệncàng sớm thì khả năng điều trịkhỏi bệnh

sẽ càng cao Bên cạnhnhững lợi íchmang lại thì chụp X-quang nhũ ảnh cũng có những hạn chế nhấtđịnh

bao gồm không xác địnhđược hạng tháilành hay ác tính của một tổn thươngở vú, việc đọc kếtquả nhũ

ảnh đòi hỏi nhân viên ỵ tế phảicó kinh nghiệmvà trình độchuyên môn cao, thời gian xử lý Hơn nữa, quỵ hình đọc ảnh thủ công có thể mang lại kết quả chủ quan, dễsai sót vàgâyquátải chobệnh viện Trong số các kỹ thuậthình ảnhỵ học, chụp X-quang nhũ ảnh là phươngpháp tiêuchuẩn vàng đểchẩn đoán ung thư

vúở giai đoạnđầukhi chưa có dấu hiệu bệnh Độ chính xác của kỹ thuậthình ảnh phụ thuộc vàonhiều yếu

tố.Vídụ,nó có độ nhạythấpđốivới bộngực cómật độ cao của phụ nữ hẻ Chụp X-quangtuyến vúcũng

có độđặc hiệu thấp Nhờ quá hình chụp ảnh nhanh chóng, chụp quang tuyến vú là hình ảnh phổbiếnnhất nhưngchúngchỉcó thể được sử dụng ở giai đoạn chẩn đoán ban đầu Bên cạnhnhững lợi ích mang lại thì

chụpX-quang nhũ ảnhcũng cónhững hạn chế nhất địnhbao gồm không xác địnhđược hạng thái lành hay

áctínhcủamột tổn thươngở vú Đeđưa ra chẩn đoán ung thư vú, có một số công việc cần thực hiện bằng cách sửdụnghìnhảnh để nghiên cứu bệnhmột cách toàn diện Việcphân tích kỹ lưỡng không chỉ giúp xác

định sựtồn tạicủa ung thư mà còn có thểdự đoán tỷlệ sốngsót, khả năng tái phát, tiến hiển và hiệu quả

của quá hình điềutrị Như đã đềcập ởphần hước, có một số nhiệm vụ khác nhaunhưphân loại mậtđộvú,

pháthiện vàphân loạivôihóa, pháthiện vàphân loại bất đốixứng vú, cũng như phát hiện và phân loạikhối u Nhìn chung, các nhiệm vụ này đòi hỏi nhiều thời gian và công sức Các bácsĩ chuyên khoa phải

dànhrất nhiều thờigian để đọcvà đánhgiá các hình ảnhcủamỗi hường hợp Khi đốimặt với hàng nghìn

ca bệnh, điềunày có thể gây áp lực vàquá tải cho bệnhviện.Hơnnữa, việc phântíchhình ảnhtrởnên lặp

đi lặp lại và đơn điệu sau mộtthờigian dài Đe tăng hiệu quả trong lĩnhvực này, cộng đồngnghiên cứu đã

tập hung vàocác giải pháp hỗ hợ máy tính, đặc biệtlà sử dụng cáccảitiếnhong Deep Learning Những

tiếnbộ này đã giúp cảithiện khả năng phântích hình ảnhvà tạo rahiệu quả caohơn trong quá hình chẩn

đoán ung thư vú

Trongnghiên cứu runhóm tác giả đã sửdụng các phươngphápnhưMạng thần kinhnhântạo (ANN), Cây quyết địnhvà Mảy vectơ hỗ hợ (SVM)để hích xuất, phân loại vàtómtắt các mẫuẩn hong hìnhảnhtừcáctập dữ liệuungthư vú khác nhau Kết quả đạt được cho thấy độ chính xác khá cao và nghiên cứunày đề xuấttiếp tục cảitiến bằng cách sửdụng các phương pháp học sâu Trước đó năm 2018 trong bài nghiên

cứu [21 Mohammed A Al-masni và các đồng nghiệp đã đề xuất một phiên bản YOLO được sửa đổiđể phát hiện và phân loại các khối uhong ảnh X-quang vú Mô hình này có khảnăng đồngthời phát hiện vàphân loại ungthư vú, và kết quả thựcnghiệm cho thấy độ đặchiệu (Specificity) lên đến 94% đốivới hailớp Benign và Malignant Trong bài nghiên cứu [3Ị nhóm tác giả đã sử dụngmạng GAN[41 và đề xuất

phươngpháp Autoencoder-GAN (AGAN) để tạora dữ liệu giả tạo đa dạng cho mạng CNN Kết quả đánh giá chothấy mô hình đạt độ chính xác 89,71% trong quá hình đánh giá Trong bài nghiên cứu [5], nhóm

tác giảnghiêncứu vàứngdụnghaimôhình CNNnổi tiếng đó là VGG-16[61và ResNet50 mđể phânloạichụp quang tuyếnvú trong bộ dữ liệu IRMA Hai mô hìnhphân loại hình ảnh là lành tính hoặcác tính Cảhaiđều chụp ảnhvới độphân giải 224x224 So sánh với nhau, VGG-16 có độ chính xáccao hơn 94% so

Trang 3

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

vớiResNet50 91,7% Điều này có thể được giảithích là do kiến trúc VGG-16 phức tạp hơn nhiều sovớiResNet50 Qua cácnghiên cứu trênđã cho ta cái nhìntổng quan về cácphương pháp thực hiệnđã và đang từng bước ứng dụnghọc sâuvào bàitoánphân loạitồn thương trên ảnh X-quang nhũ ảnh Nghiên cứu này

tập trungứngdụng kết hợp các kỹ thuật xửlý ảnh vói các mô hình học sâu để giải quyếtvấnđề trên Tiến

hành phân tíchđánh giá các kết quảthực nghiệm, kiểmthửvàchọnra mô hìnhhọc sâu tối ưuvới độchính xác và thòi gian thực

Hình 1: Ví dụ về các chế độ xem có sẵn từ phiên chụp nhũ ảnh: (A) Chế độ xem cc bên

phải (B) Chế độ xem cc bên trái (C) Chế độ xem MLO bên phải (D) Chế độ xem MLO

bên trái [2]

Vói sự phát triểncủakỹ thuật học máy, các ứng dụng phân tích dữ liệu ỵ sinh phát triểnrất mạnh mẽvà

mang lạicác kết quả đáng khích lệ Đặc biệt, các phương pháp học sâuđang đượcáp dụng trong các ứng

dụng ỵ tế khác nhau như phát hiện và xác định vị tríbấtthường trongX-quangngực.Chụp quang tuyến vú được chụpbằngtía X nănglượng thấp, nhạy cảmvớivôihóa Loại hình ảnh này đã đượcxácnhận làcókếtquả tốt hơn nhiều trongviệc phát hiện các vôihóa vi mô(MCs) vàcụmvôihóa(MCC) [8Ị Haihình

ảnh của mỗi vú được chụp, tạo thànhhai hình chiếu khác nhau: Cranio-Caudal (CC) và Medio-Lateral

Oblique (MLO) Trongchụp quang tuyến vú cc, hình ảnh được chụp từphía trên, trongkhi ở MLO, hình

chiếu từ một bên theo một góc sao cho có thể nhìnthấy cơ ngực được thểhiệnqua Hình 1

Các bácsĩsẽxemxétcác hìnhảnh X-quang tuyến vú thu được đểxem xét có bất kì dấuhiệubấtthường

nào hay không,sau đó đưa xa các cáchđiều ttị thích hợp trong trường họp phát hiệnungthư Các vôihóa

vimô (MC) là những chất lắngđọng canxi cực nhỏ thườngxuấthiện ởvú Chúng xuất hiện dưới dạng những điểm sángtrên phimchụp quangtuyến vú do hệ số suy giảmtia X củacanxicao hơn sovớimô bixxh

thườngỊ9Ị Hầu hết MC đều lànhtính vàkhông cần bấtkỳ sự canthiệp nào (Hình 2A) Tuy nhiên, Cụmvôihóa vi mô (MCC) được coilàtiền thân của bệnh ung thư(Hình 2) MClành tínhthườngto hơn, trònhơn, số lượng ít hơn và có kích thước, hình dạng đồng nhất MC, nghingờ ungthưsớm, mọc thành cụm, nhỏ, có hình dạng và kích thước không đều và phân nhánh theo hướng Một phát hiện đống lo ngại khác

trongchụp quang tuyếnvú là mộtkhối Một khốiở VÚ cóliên quanđến sưng cục bộ, lồi hoặckhối u bên

trong vú Các khốithường xuất hiện trong chụp quang tuyến vú dướidạng các vùngtươngđối đày đặc

Hình 2 Chụp quang tuyến vú của một phụ nữ có Vôi hóa (MC) [2]

Trang 4

Hợi nghị Khoa học trễ lần 5 nấm 2023(YSC2023)-ỈUH

Đề giải quyết những thách thức củaviệcđánhgiá ảnh X-quangtuyến vú, các hệ thốngMáy tính hỗtrợchần

đoán(CAD) đang được pháttriển với cáccôngcụ tự độnghoặcbán tự động đểhỗtrợcácbác sĩ phát hiện

vàphân loại các tổn thưong vúỊ10] Các phưong pháp tiếp cận như sử dụng kỹ thuật so khớp mẫu (Template

Matching) và phân đoạn thưòng không hiệu quả, đặc biệt trong trường họp các khu vực đáng ngờ bị che

khuấtbởi môdàyđặc hoặcda dày hơnbìnhthườngrin Việc phânloại các bất thường ở nhũ ảnh là lànhtính hay ác tính cũng rất khó khăn Nóthường dẫn đến một số trưòng họp Kết quả dươngtínhgiả (FP)và

hạn chế khả năng ứng dụng lâm sàng cùacác hệ thống CAD 1121 Liên quan đến một loại ung thư vúđặcbiệt gọi là "Ung thư biểu mô ống dẫn”(DCIS), chụp nhũ ảnh cho thấy đây là mộtphưong pháp chẩn đoán

lý tưởng Trong mộthồ sơ thống kê, Chụp quang tuyến vúvàChụp cộng hưởng từ MRIcó thể xác nhận

DCIStưong ứng là 78,9% và68,4% củamột nhóm bệnh nhân được lấy mẫu [131 Hiện nay, các kỹ thuật

chụp nhũ ảnh cổ điểnđã được cải tiếnđể nâng cao kỹthuật chẩn đoán Hai cải tiến nổi bật là quét 3D vú

trong "Chụp nhũ ảnh tổng họp kỹ thuật số" và "Chụp nhũ ảnh kỹ thuật số tăng cườngđộ tương phản"(CEDM), CEDM làtruyền tĩnh mạch chất cảnquang i-ốt cùng với kiểmtrachụp nhũ ảnh [14Ị Kỹ thuật siêu âm thường không được sử dụngnhư một xét nghiệm tầm soátungthư vú thôngthường Nhưng nócó

thểhũu ích khi xemxétmộtsố thay đổi ở vú, chẳng hạn như khối u đặc biệtlànhũng khốiu có thề sò'thấy

nhưng không nhìn thấytrên phim chụpquang tuyến vú Siêuâm có thề đặc biệt hữu íchở những phụ nữ có

mô vú dày đặc, điều này có thểkhiến bạn khó nhìn thấynhững vùng bất thường trênphim chụp quang

tuyến vú Nó cũng có thể được sử dụng để nhìn rõ hơn khuvực đáng ngờ đã được nhìnthấy trên hình chụp

quang tuyếnvú Không giống nhưcáckỹ thuật chụp quang tuyến vú, siêu âmhỉnh ảnh MRI đượcđề xuấtcho các bước chần đoán sau này, như là mộtphươngphápbổ sung, khi các tổnthưong và khốiu cầnđượcnghiêncứu thêm MRI có thểchỉra các chitiếtvề các đối tượng nhám mục tiêu bao gồm kích thước,hìnhdạngvà vị trínhờ các lần quét đamặtcắt3D 1151 Việc chụpảnh MRI có thềtạo ra hình ảnh chất lượng và

có độ đặchiệu caolà rấttốn kém Mặc dù MRI có thề tìm thấymột số bệnh ungthưkhông thấy trên chụp

quangtuyến vú, nhưng nócũng có nhiều khả năng tìm thấy nhữngthứ hóa ra không phải là ung thư được

gọi là dươngtính giả.Điều này có thểdẫn đến việc một số phụnữ phải làm các xét nghiêm và/hoặc sinh

thiếtmà cuối cùnglạikhông cần thiết Đây là lýdo tại sao MRI không đượckhuyến nghịlàm xét nghiệm

sàng lọc chophụnữcó nguy cơ mắc ung thưvú trung bình

3 PHƯƠNG PHÁP TIẾP CẬN

3.1 Perceptrons

nucleus

impulses carried toward cell body dendrites

axon terminals

Hình 3: Nơ ron sinh học [21 ]Một mạngnơ ronđược cấu thành bởi các nơ ronđon lẻ được gọi là các perceptrons Trước tiên, tatìm hiểu

xem perceptron là gì sau đó sẽ tiến tớimô hình củamạng nơ ron Nơ ron nhân tạo được lấy cảmhứng từ

nơ ron sinh học như Hỉnh 3

Ta cóthể thấy một nơ ron có thề nhậnnhiềuđầu vào (từ các dendrites) và cho ra một kết quả duy nhất(đitheoaxon) Mô hình của perceptron cũng tương tự như vậy, đượcmô tả trong Hình4

Một perceptron sẽnhận một hoặc nhiều đầu vào (xt, x2, x3, ) dạngnhị phânvà cho ra mộtkết quả ouputdạng nhị phân duy nhất Các đầu vào được điềuphối tầmảnhhưỏng tới đầu ra thông qua tham sốtrọng

lượngtương ứng (wt,w2, w3, ) của nó, cònkếtquả đầu ra được quyết định dựa vào một ngưõng quyết

định nàođó

Trang 5

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

Đặt b =

WịXị < threshold output = <

3.2 Hàm kích hoạt (Activation function)

Với đầu ràovà đầuradạng nhịphân, tarất khó có thể đỉều chỉnh mộtlượng nhỏ đầu vào để đầu ra thayđỗichút ít, nên đểlinhđộng, ta cóthể mở rộng chúng racảkhoảng [0,1] Lúc này đầu ra được quyếtđịnhbởi một hàm Sigmoid ơ(z) có công thức:

(3)

Hình 5: Đồ thị hàm SigmoidĐặtz = WT X thi công thức của perceptron lúcnàysẽcódạng:

Trang 6

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

Bằng cách biểu diễn như vậy, ta có thể mô hìnhhóa no' ron sinhhọc như sau:

axon from a neuron

Hình 6: Mô hình hóa nơ ron [22]

Một điểmcần lưu ý là cáchàm kích hoạt buộc phải phi tuyến Vi nếu nó làtuyến tính thi khi kết hợp với

phép toántuyến tính f(z) thi kết quả thu được cũngsẽ là một thaotác tuyến tính dẫn tói chuyện nótrở nên

vô nghĩa Ngoài hàm Sigmoid ra, ta còn có thể một sốhàm như Tanh,ReLU, để thay thếhàmSigmoid bỏi

dạng đồ thị củanócũng tương tự như Sigmoid

Hàm kích hoạt trong mạngnơ ron là hàm một hàmphituyến tính (nonlinearity) nhận đầu vào là cácgiá trị

ở tầng trước, cho ra mộttín hiệu (đượckích hoạt)tương ứng với giá trị đầu rào.Mỗi hàm thườngcó ưunhượcđiểmriêng,tuy nhiêntrong mạng nơ ron, đặcbiệt là các mạng họcsâu, người ta ưa dùnghàm ReLU hoặc Leaky ReLU do khốilượngtính toán thấp đồngthờilà luồng gradient khôngbị bão hòaởphíaphần

dương, cùng với đónóchotốc độ hộitụ nhanh hơnsovóihàm Sigmoid và hàm Tanh

Hình 7: Các hàm kích hoạt

3.3 Mạng no’ ron CO’ bản - Multilayer perceptrons (MLP)

Mạng nơ rơn nhân tạo có têntiếng Anhlà Artificial Neural Networks (ANN) được tỗ chức từ nhiều

perceptrons (nodes) được chia thành các lớp (layer) Tại mỗi lớp các nodes có liên kết trọng số với các

nodeslóp trước vàsau ANNs tạo nên một hệ thốngxử lý thôngtin, mô phỏng hệ thống nơ rontrong bộ

não con người Việc xử lý thông tin tại mỗi nơrongồm2 phần: xử lý tín hiệu vào (tại input layer)và đưa tín hiệu ra (output layer) Hailớp này tương tác với nhau thông quamột hoặc nhiềulớp ẫn(hidden layers) như trongHình2.8

Trang 7

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

Hình 8: Mô hình ANN [20]

Các phần tử trong các lớp khác nhau đều được liên kếtcó trọng số Giá trị của các trọng sốnàycóthể hiệu

chỉnh bỏi các quy tắc học (learningrules) thông qua cácgiá trị đầu vào mà nósửdụng Việc mộtANN cóthể học từ cácdữ liệu mẫucũng tương tựviệc một đứa trẻ có thể phân biệt được hoahồng thông qua các hình ảnh vídụ về loàihoa hồng vậy Việchuấn luyện mạng ANNslà việcđi tim bộ trọng sốkết nối thích

hợp với dữ liệu đầu vào

ANNs được huấnluyện theo bakỹ thuật cơ bản đó là: học có giámsát (Supervised Learning), họckhông giám sát(Unsupervised Learning) và học tăng cường (Reinforcement Learning)

Học có gỉám sát (Supervised Learning): Một thành phần quan trọng trongphương pháp này đó

là người thầyvới kiếnthức vôcùngphongphúthểhiện qua tập dữ liệu huấnluyện ANNssẽphải

tìm cách thayđỗi các thamsố(parameter) và các ngưỡng (threshold) để ánh xạcácđầu vàothành

các đầu ra mong muốn

Học không giám sát (Unsupervised Learning): Khác biệt với học có giám sát ở chỗ là đầu ra

đúng tương ứng cho mỗi đầu vào là không biết trước Trong học không có giámsát, một tậpdữ

liệuđầu vào được thu thập Nó thường đối xửvới các đốitượng đầu vào nhưlàmộttập các biếnngẫu nhiên Sau đó, một mô hình mật độ kếthợpsẽ đượcxây dựngcho tập dữ liệu đó

Học tăng cường (Reinforcement Learning): Chiến lược xây dựngcủaphương pháp nàythông

qua nhũng quan sátthôngqua cơ chếthưởngphạt.Mạng nơ ron của nó sẽ phảiquan sátmôi trường

xung quanh, thu thập thông tin và đưa ra các quyết định Nếu nhữngquan sát củanókhôngtốt,mạngnơronsẽphải điều chỉnhcác trọngsố của nóđể đưa ra các quyết địnhkhác trong thòi gian

tói Phương pháp học tăngcườngthường phố biến trong cácrobot

3.4 Hàm mất mát (Loss function)

Khi khởi tạo bộ tham số đầu tiên cho mạng, kết quả tính ra ở outputsẽ có sự sai khác sovớioutputmongmuốn(expected output),việc đào tạomôhình cầnlàmlà tối ưu hóa sao cho sự saikhácvớiexpectedoutput

là nhỏnhất Việc tối ưu này dựatrên hàm mất mátcủamạng (lossfunction) Hàmmấtmátthểhiện tiêu chí

của mô hình học, xem mô hình cầnhọc những gi,phân táchcác lóp ra sao

Cho tậpdữ liệu:

Trongđó Xị là vector đặc trưng, y,lànhãn tưong ứng (một sốnguyên), N là số lượng mẫudữ liệutrong tập

dữ liệu Hàm mấtmát trên tậpdữ liệu được địnhnghĩa làtrung bình mấtmáttrên từng mẫu dữliệu:

’ V

i

Bên cạnh đó, để tránh mô hình bị overfitting vớidữ liệu huấn luyện,người ta thường dùng nhũng hàm

phạt(regularization) để giúp môhình đơngiản hơn và mang tính tống quát cao hơn

N

Trang 8

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

Hàmphạt R(W) có nhiều kiểu như chuẩn Ll, L2, Ở đây Ấ là một siêu thamsố đại diện cho mứcđộphạt

mô hình để tránh việc cáctham số weight(W) ảnh hưỏngđasốđến hàmloss Điều đó khiến các tham số

weightđó cần phải điều chỉnh trong quá trìnhhuấn luyện nhiều hơnhay ít hơn

Trong huấn luyện mạngnơron, ngườitacóthể tự định nghĩa các hàm mất mát, nhưngthông thường, đối

vớibàitoánphân loại ngườita thường sử dụng 2 loại hàmmấtmát sau:

Hàm mất mát Softmax: Hàm này cực đại hóa xácsuất nhãn thật sựcủamẫu dữ liệu cho trước các đặctrưng củamẫu dữ liệu đó Khi đó ta cần tim cực tiểucủa hàm

Hàm mất mát Cross Entropy: Hàm này so sánhsự saikhácgiữa2 phânphối xác suất Đầu tiên, ta

chuyển vector score s = f(Xị, W)về mộtphân phối xác suất bằng cáchsửdụng hàm softmax,ta chuyển

nhãn lớp củadữ liệu về dạngone-hotencoding(vị trí nhãn lóp có giátrị 1, các vị tríkhác có giá trị 0)

So sánh 2 phân phối xác suất,khi đó hàm loss được định nghĩa là:

M

C=1

Trong đó: M là sốlượng nhẵn lớp,

ylà 1 nếu c là nhãn của mẫudữ liệu o,

ylà 0 nếungượclại

p làxác suất môhìnhdựđoánmẫu dữ liệu có nhãn là c

3.5 Gradient descent

Như ta đã biếtgradient và sựbiến thiên củahàmsốthi hàm sốsẽ tăng nhanhnhất theo hướngcủa gradient (gradient ascent) và giảm nhanh nhất theo hướng ngược của gradient (gradient descent - GD) Như vậy,

một cáchtrực quan ta có thể nhậnxétrằngnếu ta cứ đi ngược hướngđạohàm mãi thì tasẽ tới được đỉểm

cực tiểu củahàm số.Việc này cũngtươngtự như đậtmột Aden bi trên một con dốc nào đóthì nó sẽlăn

xuống dốc theo hướng nghiêngcủa dốc

Hình 9: Mô phỏng giải thuật gradient descent [9]

Giả sử ta cần tìm thamsố ô e Rn để tối thiểuhoá hàm mấtmátJ (6) Đầu tiên tasẽđặt ô tại một điểm bất

kì nàođó, sau đó giải thuật gradientdescent (GD) được thực hiện bằng cáchcập nhật dần các tham số 9ngượcvới hướng của gradient Ve J(0) tại điểm hiện tạicho tói khi nó hộitụ về điểm nhỏ nhất Tại mỗi bước

cập nhật, ta sẽdịch thamsố bằng mộtlượng T| v9J(€)) vớitốcđộ học (learning rate) TI > 0 thể hiện cho việc

dịchchuyển nhiều tới đâu:

Trang 9

Hội nghị Khoa học trẻ lần 5 năm 2023(YSC2023)-IUH

0k ở đây ký hiệu chotham sốbước cập nhậtlầnk khi thực hiện giải thuật GD

Việc chọn TỊ có ý nghĩa rất lớn trong phương pháp này vì nó qưyết định tới tinh sống còn của giải thuật Neu ĨJ quá lởn thì mô hình không hội tụ được về đích, nhưng nếu ĩ] quá nhỏ thì nó lại mất nhiều thời gian

để chạy giải thuật này như minh họa ở hình 9.

Hình 10: Mô phỏng so sánh giữa việc chọn learning rate

Ngoàira, nếu để ý thấy thi nếuhàmmấtmát J(Q) màkhông lồi (non-convex) thì ta rất dễ bịroi vào điểm tối thiểucục bộ (local minimum) thay vì tiến tới điểm tối thiểu toàn cục (global minimum). Việc chọn TỊ lúc này có vai trò rất lớn vỉ nếu TỊ hợp lý thì ta có thể vượt qua được điểm tối ưu cục bộ để tiến tiếp tới điểm tối ưu toàn cục.

Giải thuật GD có các biến thể làStochastic GradientDescent (SGD), BatchGradientDescent(BGD)

và Mini-BatchGradient Descent (MGD)

Stochastic Gradient Descent: Thay vì sửdụngtoànbộ tập dtt liệuđể cập nhật tham sốthì ta có thể sử dụng từng dữ liệu một để cập nhật Phương phápnhưvậy được gọi là GD ngẫu nhiên (Stochastic

Gradient Descent), vềcơ bản ở mỗi lần cậpnhật tham số, taduyệttoàn bộ các cặp mẫu (%®>y®)và

cập nhật tương tự như BatchGradientDescent (BGD) như sau [16]:

Vì sử dụngtừng mẫu đơnmột nêntốc độ tính toán đạo hàmsẽ nhanh hơn rấtnhiềusovới BGD nhưng nóphảitrả cái giá là tốcđộhội tụ bị giảm đi Một lưu ý khicài đặtgiảithuật này làmỗi bước cập nhậtta nên xáo trộn dữ liệurồi mói lấyra cập nhật

Hình 11: So sánh BGD và SGD [9]

Việcnày giúp giảm đượcsự đi lòng vòngvề đíchcủagiải thuật vì ta cho phép khả năng cậpnhật ngẫu

nhiêncho nótức làsẽ có cơ hội nhảy được 1 bước xa hơn khi tính toán như Hình 10

Mini-Batch Gradient Descent: Do SGD chạy chậm nên người ta thường sử dụng một phương pháp kết hợp

giũa BGDvà SGD là sử dụng tùng nhóm dữ liệu để cập nhật thamsố Tức là ta sẽ chiadữ liệu ra thànhnhiều lô khác nhauvà mỗi lần cập nhật dữliệu,thayvì sử dụngtừng mẫu một tasẽ sửdụng cả lô dữliệu

Trang 10

Hội nghị Khoa học trẻ ỉần 5 năm 2023(YSC2023)-ỈUH

một Phương pháp như vậy được gọi làMini-batch GD hayviếttắtlà MGD Như vậy ta thấy rằng nếu dữ liệu ta chỉcó 1lô thì MGD chínhlà BGD, nếumỗi lôchỉ có đúng 1mẫu thì MGD sẽ làSGD

Giả sử lô thứi được kí hiệu là (x®, y ®)thì công thứccập nhậtđượcviếtnhư sau:

ỡk+1 = — T|Vej(ek;

Cũng nhưSGD ta cũng sẽxáo trộn dữ liệu hước khi phân lô cập nhật tham số

3.6 Lan truyền xuôi (Feed Forward)

Dữ liệu từ tập huấn luyện thông qua lớp đầuvào sẽ được chuyểnvào lớptiếptheo Tại mỗi nơ ron của mỗi

lớp sẽ tiến hành thực hiệnviệc tính toán thông qua các hàm kếthợp, giá trị này sau khi huyền quahàm kích hoạt là đầu ra mỗinơ ron Việctính toán sẽ thực hiện trêntấtcả các nơ ron của mạng và từ lớp đầu vào cho

ra tới giáhị của lớp đầu ra Saisố đượctínhbằng cách so sánhgiá hị thực xuất ra của mạngvới giá hị mong muốn, trong đó sai số của quá hình huấn luyện thường được lấy bằng tổng bình phương tất cảcác

sai số thành phần Mỗi nơron ởmột tầng nào đó sẽnhận đầuvào là tấtcả các đầu ra của nơron ở tầng hước đómà không theo chiềungược lại Hay nóicách khác, việc suyluận trong mạng nơron là quá trình

suy luậntiếnhaylantruyềnxuôi (feed forward):

1 + 1 Đầu ra củanơ ron này được biểu diễnbằng aỊ+1 ứng với hàmkích hoạt f(zj1+1) tương ứng

Riêngvới tang vào, thông thường a1 cũng chính là các đầuvào Xtương ứng của mạng Đe tiện tính toán,

tacoi 3*0 là một đầuvàovàW qj " = bị)+1 làthamsố họng lượng của đầuvào này Lúc đó ta có thểviết lạicông thức trên dưới dạng vector:

x , Ằ _ i+\ = f&+1) _ x (17)

Neu nhómcác thamsố củamỗi tầng thànhmộtma hận có các cột tương ứng với thamsốmỗi nút mạng thì

ta có thểtính toán cho toàn bộ các nút hong một tang bang vector:

3.7 Lan truyền ngược (Backpropagation)

Vấn đềđặtravới mạng nơ ron là nó bao gồm rất nhiềutham số, có thể lênđến hàng hăm triệu Như thế, việc tính toán đạo hàmriêng với từng thamsốbằng công thức làđiều không khảthi Giảithuậtlantruyền

ngượcra đời nhằm khắc phục nhượcđiểmnày, bằng việc áp dụng quỵ tắc đạo hàmhàmhợp(chainrule)

quamột đồ thị tínhtoán, giải thuật lantruyền ngược có khảnăngtính toán đạo hàm riêng của hàm Lossvới

từng thamsố,làm cho quá trình tối ưu củamạng nơ ron được khả thi

Đetính đạo hàm của hàmlỗi VJ(W)trong mạng nơron, ta sửdụngmột giải thuậtđặc biệt làgiải thuật lan

huyềnngược (backpropagation) Nhờ cógiải thuật nàymàmạng nơ ron thực thi hiệu quảđược vàứng dụng

ngàymộtnhiều cho tới tậnngàynày

về cơbản phương pháp này được dựatheo quỵtắcđạo hàmhàm hợp vàphép tính ngược đạo hàmđểthu

được đạo hàmtheo tất cả cácthamsố cùng lúcchỉ với 2 lần duyệt mạng

Giảithuậtlan huyền ngược được thực hiệnnhư sau:

1 Lan huyền xuôi:

2 Lần lượt tính cáca1từ = 2 -> L theo côngthức:

(21)

Trong đó, tầng vào a1 chính bằng giá trị đầuvào của mạng X

Trang 11

Hội nghị Khoa học trẻ ỉần 5 năm 2023(YSC2023)-ỈUH

3 Tính đạo hàm z ở tầng ra:

dzL daL dzL

VớiaL ,ZL vừa tính được ở bước 1

4 Lan huyền ngược:

Dựatrên sai số đượctínhtừquá hình lan truyền xuôi, mạng sẽ cập nhật lại các trọng số theonguyêntắc lan huyền ngược sai số Trongđó, kỹ thuật cơ bản được áp dụng trong quá hình cập nhật trọng

số đó là gradient descent Tính đạo hàm theo z ngược lại từ l = (L — 1) -> 2 theo côngthức:

Như vậy, để huấn luyện hay để mộtmạnghọc từ dữ liệuthìmạng thực hiện 2 bước lantruyềnxuôivà lan

huyền ngược saisố Quá hình này thực hiện cho tới khi sai số đạtđượcmột ngưỡng nào đó hoặc thực hiện

qua số bước lặp được người huấn luyện mạng đặtra

3.8 Convolutional Neural Network (CNN)

3.8.1 Khái niệm convolutional Neural Network (CNN)

Convolutional Neural Network (CNN) hay còngọilàmạngnơron chập,là mộttrong những môhình Deep

Learningtiêntiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao Cụ

thểhơn, mạngchập sửdụngphépchập đểhích trọn đặc hưng củamộtbứcảnh đểphù hợp với những yêu

cầu cụ thể hong lĩnh vực thịgiác máy tính (Computer Vision) Trong những thập kỉ hước, mạng hí tuệnhântạo (ArtificialNeural Network - ANN) đã đượcnghiên cứu nhiều và ứngdụngrộng rãihong các bài

toán nhận dạng Tuynhiên, ANN không thể hiện tốt lắmđối vớicác dữ liệu hình ảnh Chính sự liên kết quá

đầy đủ về thông tin ảnh đãtạo nên những hạnchế cho mô hình Đặc biệt, dữ liệu hình ảnh có kích thướckhá lớn Ví dụ mộttấm ảnh xám cókíchthước32 X 32 (pixels) sẽ cho ra vectorđặc trưngcó 32 x 32 =

1024 chiều, còn đối với ảnh màu cùng kích thước sẽ là 1024 X 3 = 3072 chiều Điều này cũng có nghĩa

là cần tới 3072 họng số kết nối giữa lớp đầuvào và một nút (node)ở lớp n kế tiếp, số lượng trọng số sẽcàng nhân rộng hơn nữa nếu số lượng node hong lớp n tăng lênvà sốlượngcác lớp trong mạng tăng lên

Như vậy chỉ với một bứcảnh nhỏ 32 X 32 thì cũngcầnđến một mô hình khá đồ sộ Điều này khiếncho

việc thao tác với các ảnh có kích thước lớn hơn trở nên khó khăn chẳng hạnnhư các ảnhHD (1080 X 720) hoặc Full HD (1920 X 1080) Dựatrên tưtưởngnày, CNN ra đờivới một kiến trúc khác so với mạng

huyền thẳng.Thayvì toàn bộ ảnhnốivớimộtnode thì chỉ có mộtphần cục bộ trong ảnh nối đếnmột node honglớptiếp theo (local connectivity) Dữ liệu hình ảnh thông qua các lớp của mô hìnhnày sẽ được “học”

ra các đặc trưng để tiếnhànhphânlớpmột cách hiệu quả CNN cókiến húc đặc biệt hơn so với mạngANN

và khônggiống một mạng thần kinhtruyềnthống Các lớp của mộtCNN sắp xếp theo 3chiều: chiều rộng, chiều cao và chiều sâu.Trong mô hìnhCNN, các lớp liên kếtđược vớinhau thông qua cơchế Convolution

Lớp tiếptheo làkết quả Convolution từlớp hước đó, nhờ vậy mà ta có được các kết nối cục bộ Nghĩa là

mỗi nơ ronở lớp tiếp theosinh ra từ các bộ lọc (filter)áp đặtlênmột vùngảnh cục bộ củanơ ron lớphước

đó Mỗilớpnhư vậy được áp đặt các bộ lọc khác nhau,thông thường có vài hăm đến vài nghìn bộlọc như vậy Mộtsốlớpkhác nhưPooling/Subsampling dùng đểchắt lọc lại các thông tin hữu ích hơn(loại bỏcác

thông tin nhiễu) Trong suốt quá trình huấn luyện, CNN sẽ tự độnghọc đượccácthôngsố chocác bộ lọc

Với đặc điểm cho phép trích chọn các đặchưngcủaảnh thông qua các lớp Convolution đồngthời kết hợp

vớiđặc điểmcủa các lớpẩn trong mạngnơ ron (Neural Network- NN),việc ứng dụngmạng CNNtrong

Trang 12

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

các bài toán phân tích ảnh đã mở ra mộthướng đi mớiđầy triển vọng đểgiải quyếtcác bài toán liên quan đến phân tích ảnh

Các lớp nàyđược xếp chồng lên nhauđể tạo thànhkiếntrúc CNN đầy đủ Sự sắp xếp về sốlượngvàthứ

tựgiữa các lớp này sẽ tạora nhữngmô hình khác nhau phù hợp chocác bài toán khác nhau

về kỹ thuật, môhìnhCNN để huấn luyệnvàkiểm tra, mỗihình ảnh đầu vào sẽchuyển nó quamột loạt các

lớp chậpvói cácbộlọc (kernels hoặc filters),tống hợp lạicác lớp được kết nối đầy đủ (FullyConnected)

rà áp dụnghàm Softmax để phânloạiđốitượngcó giá trịxác suất giữa 0 và 1 Hình 12 là toànbộluồngCNN để xửlý hình ảnh đầu vào và phân loại các đốitượng dựa trên giátrị

3.8.2.1 Lóp Convolution

Lớp Convolution là lớp đầu tiên để tríchxuất cácđặc trưng từ hình ảnh đầuvào Phép chập duy trìmối

quan hệgiũa các pixel bằng cách tìm hiểu cácđặc trưng hình ảnh bằng cách sử dụng các ô vuôngnhỏ của

dữliệuđầuvào như minh họa ở Hình 12và cụ thể hơn ởHình 13

Trang 13

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

Hình 13: Minh họa phép chập [22]

Nó là một phép toáncó2 đầu vào như matrận hình ảnhvà 1bộ lọc hoặc hạt nhân Xem xét 1ma trận5x5

có giá trịpixel là 0 và1.Matrận bộlọc 3 X 3 như hình 14

Input Feature Map

Hình 14: Phép tích chập 5x5 và bộ lọc 3x3

Sau đó, lớp chập của matrận hình ảnh 5x5 chập vớima trận bộlọc 3 X 3 gọilà Feature MapnhưHình

15 Sựkếthọpcủa 1 hình ảnhvới các bộ lọc khác nhau có thể thực hiện các hoạtđộng như phát hiện cạnh, làm mờvà làm sắc nét bằng cách áp đụng các bộlọc

Trang 14

Hội nghị Khoa học trẻ lần 5 năm 2023(YSC2023)-ỈUH

trị mẫu) được giữlại Cácphương thức lấy phỗ biến trong lớp Pooling là Max Pooling (lấygiátrị lớn nhất), Sum Pooling (lấy giá trị tổng) và Average Pooling(lấygiá trị trung bình)

Hình 2.lố là mộtví dụ về phươngthức Max Pooling, sử dụng filtercó kích thước 2 X 2, áp dụngvào ảnh kích thước 4 X 4với bước trượt stride = 2 Filter sẽ lần lượt duyệt qua ảnh, vớimỗi lầnduyệt chỉ có giá

trị lớn nhấttrong 4 giá trị nằm trong vùng cửa sỗ 2 X2 của filter được giữ lại và đưara đầura Như vậy

sau khi qua lớp Pooling, ảnh sẽ giảm kích thướcxuống còn 2x2 (kích thướcmỗi chiềugiảm 2 lần)

LópPooling có vai trògiảm kích thước dữ liệu V ới một bức ảnh kích thước lớn quanhiều lớp Pooling sẽ

được thunhỏ lại,tuy nhiên vẫn giữ được nhữngđặc trưng cầncho việc nhận dạngthôngqua cách lấymẫu

Việc giảmkích thước dữ liệu sẽ làm giảm lượng tham số, tănghiệu quả tính toán và góp phần kiềm soát hiện tượng quákhóp (overfitting)

xử lý ở các lóp trước đó

3.9 Kiến trúc mạng ResNet

3.9.1 Hiện tượng biến mất và bùng nồ radients

Như đã nêu ởmục trên, giải thuậtcho thuật toán lan truyền ngược là mộtkĩ thuậtthường được sử dụng

trongtrong quá trìnhhuấn luyện mạng nơ ron sâu (peep Neural Networks - DNN) Ý tưởng chung của

thuật toán là sẽ đi từ output layerđến inputlayer và tính toán gradient củahàm cost tương ứng chotừngtham số weightcủa mạng Sau đó,thuật toán GradientDescentsẽ được sử dụng đề cập nhật các tham số

đó

Quá trìnhtrên sẽ được lặp lại cho tớikhi các tham số củamạnghội tụ Thông thường chúngta sẽ cómột

siêu tham số địnhnghĩa cho số lượng vòng lặp đề thực hiện quátrình trên Siêutham số đó thường đượcgọi là số epoch (hay số lần mà toàn bộ tậphuấn luyệnđược duyệt quamột lần và weights được cậpnhật) Neu số lượng vòng lặp quá nhỏ, DNN cóthề sẽ không cho ra kết quả tốt,và ngược lại thìthời gianhuấn

luyện sẽ quá dài nếu sốlượng vòng lặp quá lớn ở đây,ta có một sự đánh đỗi giữa độ chính xác vàthời gian huấn luyện

Trang 15

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

Hình 17: Minh họa đơn giản thuật toán gradient descentTuy nhiên,trên thực tế, gradients thường sẽ có giá trịnhỏ dần khi đi xuống các lớp thấp hon Kết quả là các cập nhật thực hiện bởi GradientDescent không làmthay đỗi nhiều weights của các lớp đó, khiến chúng không thể hộitụ rà DNN sẽ không thu được kết quả tốt Hiện tượng nàyđược gọi làmất mát gradients

(Vanishing Gradients) Trong Hình 17, hàm cost códạng đường congdẹt, chúng tasẽ cần khánhiềulần

cập nhật để tim được đỉểm cực tiểu toàn cục (globalminimum) Trong nhiềutrường họp khác,gradientscóthểcó giá trị lớnhon trong quá trình lan truyền ngược, khiến mộtsốlớpcógiátrị cập nhật cho weights quá

lớn khiến chúng phân kỳ (khônghội tụ), tấtnhiên, DNN cũngsẽ không có kết quảnhư mong muốn.Hiệntượng này được gọi làbùng nồgradients (Exploding Gradients) và thường gặp khi sửdụng RecurrentNeural Networks (RNNs) Chung quy lại, trong quá trình huấn luyện DNN chúng ta có thể gặp phảicác vấnđềliên quan đếnviệcgradients không ổnđịnh khiến cho tốc độ học củacác lớp khác nhauchênh lệchkhá

nhiều.Một trong những hàm kích hoạt phi tuyến khá phốbiến trong những giai đoạn đầu củamạng nơ ron

là logistic sigmoid activationfunction; tuynhiênhàm nàycó một số nhược điểm khiến quá trình huấn luyện mạngnơ rơngặp nhiều khó khăn, vềkỹthuật weight initialization,random initialization sửdụngphânphốichuẩn(normal distribution) với kỳ vọng (mean) là 0 vàđộ lệch chuẩn (standard deviation) là 1

Chung quylại, việc sử dụnghàm kích hoạt Sigmoid cùng với khởi tạo ngẫu nhiên (random initialization)khiến cho phương saicủa các đầu ra củamỗi lớp lớn hơn khá nhiềusovới phương saicủa inputs cholóp

đó Trongchiềuđixuôi củamạng (forward), các giá trịphươngsai sẽtăng dần và hàm kích hoạtsẽ trởnên

bão hòaở những lớp phíatrên Tađi phân tích cụ thể với hàm Sigmoid - một hàmkhá phổ biến với ANN

Trang 16

Hội nghị Khoa học trẻ lần 5 nam 2023(YSC2023)-ỈUH

Hình 19: Đồ thị đạo hàm của hàm số Sigmoid

Quan sát hàmSigmoid với đồ thị đạohàm của hàmSigmoidtại Hình 18 và Hình 19 tưong úng, chúng ta

thấy hàm sẽ chuyển đồicác đầu vào thành các giá trị nằmtrongkhoảng (0,1),kháphù hợp khi chúng ta muốn tínhtoán xác suấthay thực hiện các bàitoán phân lóp Tuy nhiên killcác đầu vào khálớn(âm hoặc

dư ong), hàm này sẽ bão hòa tại 0 và1,vàđạo hàm sẽ rất gần với 0 Gradients nhỏ sẽ khiến choquátrình

lan truyền ngược trở nên khó khăn hon Quan sát đồ thị đạohàm củahàm Sigmoid chúng tathấy cực đạitoàn cục (global maximum) có giá trị 0.25 và đồ thị có tiệm cận tại0 Nóicách khác output của đạo hàm

của hàmsigmoid sẽ có giá trị nằm trongkhoảng nửađóng (0,0.25] Trong quá trìnhtính toán gradients lỗi khi thực hiện lan truyền ngược, giá trị của cácgradients sẽ phụ thuộc vào output của hàm sigmoid Mặt khác nếu chúng ta sử dụng kỹ thuật random initialization nói trên, giá trị củaweights sẽ nằmtrong đoạn [—1,1] Nếu sử dụng quy tắc đạo hàm hàm hợp để tính toán gradient cho một lóp dựa vào gradients của các lóp trướcđó thì giá trị gradient sẽ giảm đi rắt nhanh khi chúngta di chuyềnxuống các lớp thấp hon Cóthề thấy nhân một loạt các số nhỏ hon 1 với nhau thì kết quả sẽ giảm đi rắt nhanh.Đổivớivấn đề vanishing

gradient có thề có nhiềucáchgiải quyếtnhư Batch Normalizationhay sử dụng khối Residual trong ResNet

hoặc thayđỗi thuật toán khởi tạo tham sốban đầu

ResNet gằnnhư tư ong tựvớicácmạng gồm có Convolution,Pooling, Activation và lóp Fully Connected

Hình 20 môtảkhối Residual đượcsử dụngtrongmạng Xuắt hiện một mũitên congxuấtphát từ đằu vàkết thúc tại cuối khối Residual.Với H(x) làgiá trị dự đoán, F(x) làgiá trị thật(nhãn), chúngta muốn H(x)bằnghoặc xấpxỉ F(x) ViệcF(x) cóđược từ X như sau:

X -> weighty Re Lư -> weight2

Giá trị H(x) có đượcbằng cách:

Trang 17

Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH

Hình 21: Dòng chảy của gradient qua nơ ron [11]

Sử dụng quy tắc chuỗi, chúng ta cóthể tìm thấy gradient này cho mỗi trọng lượng Nó được tính

bằng (gradient cụcbộ) X(gradient chảy từphía trước)

Vấn đề là khi gradientnày tiếptục chảy ngược trở lại các lớpbanđàu, giá trị nàytiếptục đượcnhân với

mỗi gradient cục bộ Do đó,gradient trở nên nhỏ hơn và nhỏ hơn, làm cho các cập nhật cho các lóp ban

đầu rấtnhỏ, làm tăng thòigianhuấnluyệnđáng kể Chúng ta có thểgiải quyết vấnđề này nếu“gradient

cục bộ” bằng cách nào đótrởthành 1 vóikiến trúc tính toán được minh họa ở Hình 21

Gradient này được sao chép ngược,nó không giảmgiátrị vi gradient cục bộ là 1

4 MÔ HÌNH CHO BÀI TOÁN PHÁT HIỆN UNG THƯ vú

4.1 Kiến trúc mô hình

Mô hình được chia làm bagiai đoạn là: tiền xử lý (preprocessing), phân tích vùng quan tâm (Region of

interest), phân loại (classification) Tronggiai đoạntiền xử lý, ảnh đầuvào được chuyển đổi từ ảnh Digital

Image and Communications inMedicine (DICOM) sang dạngPNG Đầutiên,chúng tôi đọc ảnh vàchuyểnđồi ảnh thành dạng mảng pixel Tiếpđến, sử dụng Windowing, ảnh DICOM thường chứacácgiá trị lớn

255 (8bit) việc chuẩn hóa các giá trị pixeldẫn đến việcmất thôngtin ảnh Windowing cho phép chúng ta

chọn dải pixelđặc biệttừ ảnh gốc trước khi chuẩn hóa Điều này có tác dụng làm tăng độtương phản cao hơn giữa các mô mềm vàmô đậc biệt tiếp theo là sử dụng thuật toánnén ảnh cơ bản đểchuyểnvề ảnh dạng

Ngày đăng: 10/03/2024, 08:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN