Áp lực công việc và tốc độ hơn khiế ntâm lý cùng tỉnh thần của con người: àng trở nên một mỏi cũng như sa sút thường, xuyên Điều này dẫn đến việc phát sinh ra nhiều mỗi nguy hiểm cho s
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
NGUYÊN HỎNG THẢO NGUYÊN NGUYÊN TUẦN HƯNG
PHAT HIEN DAU HIEU TRAM CAM SU DUNG
MO HINH HQC SAU
KHOA LUAN TOT NGHIEP
‘TP.HO CHÍ MINH - NĂM 2024
Trang 2
KHOA CONG NGHE THONG TIN
NGUYEN HONG THAO NGUYEN NGUYEN TUAN HUNG
PHAT HIEN DAU HIEU TRAM CAM SU DUNG
MO HINH HOC SAU
CHUYEN NGANH: SU PHAM TIN HOC
KHOA LUAN TOT NGHIEP
NGUOI HUONG DAN KHOA HQC: TS NGUYEN VIET HUNG
‘TS PHAN LE SON
TP.HCM - NĂM 2024
Trang 3
LOI CAM DOAN
Tôi tên Nguyễn Hồng Thảo Nguyên và ôi tên Nguyễn Tuần Hưng Chúng tôi xin cam đoan đề tài khoá luận tốt nghiệp "Xây dựng mô hình phát hiện dấu hiệu trằm cảm sử
dụng mô hình học sâu" là công trình nghiên cứu của chúng tôi, được thực hiện dưới sự
hướng dẫn của Tiến sĩ Nguyễn Viết Hưng và Tiến sĩ Phan Lê Sơn Các kết quả nêu trong nghiên cu khác mà không ghỉ rõ nguồn trong phần tà iệu tham khảo,
Chí tạ tôi xin chịu trách nhiệm về lời cam đoạn này
“Thành phố Hồ Chí Minh, ngày 08 tháng 05 năm 2024
Trang 4Trước hết, chúng em muốn bày tổ lòng biết ơn sâu sắc đến Tiến sĩ Nguyễn Viết
Hưng và Tiền sĩ Phan Lê Sơn, những người đã dành thời gian và tâm huyết để hướng dẫn
và hỗ trợ chúng em trong guá tình nghiên cứu khóa lụ
ơn Thạc Sĩ tần Thanh Nhã đã chỉ bảo và các nhóm nghiên cứu của thầy đã đóng góp Bén cạnh đó, chúng em xin cảm những ý kiến đánh giá giúp chúng em hoàn thiện và cải thiện nội dung của luận văn
“Chúng em cũng muốn bày tỏ lồng biết ơn đến tắt cả các giảng viên tai Trường Đại
học Sư phạm Thành phổ Hồ Chí Minh, những người đã chia sẻ kiến thức và tạo điều kiện
tốt nhất cho chúng em trong quá nh học tập và nghiên cứu Những kiến thúc và kỹ năng
hú
Chỗi cùng chúng em muốn gửi lồi cảm ơn đến gia đình bạn bè và những người thân yêu, những người đã luôn ở bên cạnh, động viên và hỗ trợ chúng em trong suốt thời
những khó khăn và hoàn thành công việc một cách tốt đẹp
Mặc dù chúng em đã cổ gắng hết sức để hoàn thành luận văn trong khả năng của mình, nhưng không tránh khỏi những thiếu sót Chúng em rất mong nhận được nhận xét
và chỉ dẫn tận tình từ quý thay cô và các bạn đọc,
“Thành phố Hồ Chí Minh, ngày 0S tháng 05 năm 2024
Trang 5
MYC LUC 1
LỜI MỞ ĐẦU: 8
1 Lý do chọn đi 8
5 Y nghĩa khoa học và thực tiễn 10
CHUONG 1 TÔNG QUAN TÌNH HÌNH NGHIÊN CỨU
CHƯƠNG2 CƠ SỞ LÝ THUYẾT
24.1 Lịch sử phát triển trong nghiên cứu
Trang 62.2.1, Reclified Linear Activation 29
2.3, Gidi thiệu mạng nơ-ron tích chập Convolutional Neural Network 32 2.4 Giới thiệu mạng nơ-ron hoi quy Recurrent Neural Network, 34
CHƯƠNG 3 CƠ SỞ DU' LIEU TRAM CAM
CHUONG 4, XÂY DỤNG MÔ HÌNH PHÁT HIỆN DẦU HIEU TRAM CAM 59
2
Trang 7CHUONG 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ
CHUONG 6 KET LUAN VA HUONG PHAT TRIEN
Trang 8
DANH MỤC KÝ HIỆU VÀ CÁC CHÍ
“The Diagnostic and Statistical Manual of Mental Disorders | DSM
‘Massachusetts Institute of Technology
Deep Convolutional Neural Network
Rectified Linear Unit
‘Scaled Exponential Linear Unit
Trang 9Bang thang điểm kí luận mức độ trằm cảm theo Beck
Bảng thang điểm kết luận mức độ trằm cảm PHO,
Bảng thang điền kết luận mức độ rằm cảm HAMD Thống ó lượng dĩ liệu wong DAIC
Kích thước dữ liệu đặc trưng khuôn mặt
Số lượng chuỗi ở tập dữ liệu
Số lượng chuỗi sau khi cân bằng Kích thước dữ liệu đầu vào
Số lượng chuỗi đầu vào
Dung lượng dữ liệu đầu vào Kết quả so sánh ở cả hai trường hop Kết quả thực n
“So sánh công trình
Trang 10DANH MUC HINH VE Hình L.I: Biểu đồ thống kế số lượng các nhóm bệnh thuộc tố loạn tâm thin Hình L2: Tý lệ có ý định tự tử khi mắc trằm cảm ở khu vực Đông Nam Á năm 2031 Hình L.3: Nghiên cứu phát hiện dấu hiệu trim cảm mỗi năm tính đến năm 2020,
Hình 2.1 Minh hoạ 6 AU đầu tiên
Hình 22 Tổng hợp 27 Acton Unit đầu tiên
Hình 3: Kiến trúc mạng no-ron nhân tạo ANN nhiễu lớp
Hình 2.4: Kiến trúc của một nơ-ron
Hình 2.5: Sự n định của mạng SNN trong huấn luyện
Hình 2.6: Kiến trúc mạng nơ-ron tich chap CNN
Hình 27: Kiến trúc cơ bản mạng nơ-ron hồi quy RNN
Hình 3.5: Trực quan các đặc trưng trên khuôn mặt
Hình 3.6: Dữ iệu landmark ti ame đầu tiên trong tệp
Hình 3:7: Dữ liệu hướng nhìn tại fiame đầu tiên trong tệp Hình 3.8: Mô tả hướng quay bằng các sóc Baler
Hình 3.9: Dữ liệu hướng đầu tại iame đầu tiên trong tập
Hình 3.10: Đoạn ghỉ âm của bệnh nhân có ID 300
Hình 3.11: Biểu đồ dạng sóng âm thanh
Hình 3.12; Quá trình khử nhiễu âm thanh
Hình 3.13: Minh hoạ cắt dỡ liệu chuỗi
Hình 4.1: Kiến trúc mô bình đề xuất với đặc trưng khuôn mật Hình 42: Kiến trúc mô hình it v6i đặc trưng âm thanh,
6
Trang 11Hình 44: Kiến trúc mô hình đề xuất kết hợp cúc đặc trưng
Trang 12LỜI MỞ ĐÀU
1 Lý đo chọn để tài
“Trong bối cảnh của một thể giới liên kết mạnh mẽ qua công nghệ thông ti, xã hội đã chứng kiến những bước tiền vượt bậc về khoa học, kỹ thuật và kinh tế, Những thành tựu
phương tiện có ích đến sự phát triển của các ngành giúp cải thiện chất lượng cuộc sống Sự
iện đại đã mang lại nhiều cơ hội mới cho con người
nhưng cũng đi kèm với những áp lực và thách thức không nhỏ Áp lực công việc và tốc độ
hơn khiế ntâm lý cùng tỉnh thần của con người: àng trở nên một mỏi cũng như sa sút thường, xuyên
Điều này dẫn đến việc phát sinh ra nhiều mỗi nguy hiểm cho sức khoẻ tâm tí con
người cùng với sự gia tăng các bệnh tâm lý, Trong đó, trằm cảm là một hiện tượng bệnh lý
đặc biệt xuất hiện ngày càng nhiễu trong cuộc sống hiện nay Theo thông tin từ Tổ chức Y
tế Thể ới (World Health Organization ~ WHO), trằm cảm là một tình trạng bệnh lý phổ
iển và nghiêm trọng, tắc động iêu cục đến cuộc sống hàng ngày của hơn 280 triệu người LI]: Biểu hiện nghiêm trọng của trầm cảm được gọi à tố loạn trằm cảm nặng (Major
Depressive Disorder - MDD) hoặc trằm cảm nặng (Major Depression - MD) được đặc
trưng bởi cảm giác buỗn bã dại đẳng vớ tâm trạng chấn nàn lan tôa và kéo đài, kèm theo
việc mắt hứng thú với các hoạt động bên ngoài [2] [3]
Do đó, việc phát hiện các triệu chứng của rối loạn tâm thẳn ngày càng trở nên quan
trọng trong lĩnh vực y học và tâm lý học Các chuyên gia tâm thần và tâm lý học đã đánh
nhiên, điều này vẫn dẫn đến h trạng thiểu sót trong việc tổng hợp hiệu quả giữa các
dù cho hành vi vốn là những biểu hiện rõ rằng phương pháp kết hợp với quan sát hành
của chứng rồi loạn tâm lý [4]
Trang 13“rong bồi cảnh này, việc áp dụng trí tuệ nhân tạo để hỗ rợ phát hiện dẫu hiệu của trang thi trim cảm đang trở thành một hướng tp cận quan trọng [2] 4l [5] Tử những
mô hình học sâu Mô hình này không nhằm mục
ch thay thể phân đoần của cíc chuyên giay tế mà nhằm
trợ trong việc đưa ra chẩn đoán của phát hiện đầu hiệu bệnh trằm cảm:
2 Mục tiêu nghiên cứu
Xây ưng mô hình phát hiện dẫu hiệu trim cảm sử dụng mô hình học sâu
3, Đối trợng và phạm vi nghiên cứu
Đổi tượng nghi cứu của đề tà là các cá nhân có khả năng trằm cảm hoặc không trầm cảm
Phạm vi nghiên cửu sẽ tập trung vào việc sử dụng mô hình học sâu dé phát hiện dấu
hiệu rằm cảm thông qua cuộc tr chuyện phòng vẫn với
siá trên bộ dữ liệu trằm cảm DAIC tượng Thực nghiệm và đánh 4 Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết:
~_ Tĩm hiễu tổng quan các công tình nghiên cứu về phát ẳm cảm thông
~ _ Thu thập dữ liệu đắp ứng yêu cầu bài toán
"Tiến hành xây dựng mô hình
~_ Đảnh giá va so sánh kết quả đạt được
Trang 145 Ý nghĩa khoa học và thực tiễn
Đề tài "Phát hiện dẫu hiệu rằm cảm sử dụng mô hình học sâu” à một nghiền cứu
{quan trọng trong lĩnh vực sức khỏe tâm lý và công nghệ thông tin Được thực hiện bil cách áp dụng mô hình học sâu vào đữ liệu đa phương tiện như hình ảnh, âm thanh và văn
bản, đŠ ti này nhằm mục tiêu phát hiện dẫu hiệu trim cảm ở con người
“Từ góc độ khoa học, đẻ tài này đóng góp vào phát triển các mô hình học sâu và
phương pháp xử lý dĩ liệu đa phương tiên Từ góc độ thực tiễn nó có tiểm năng cải thiện
sức khỏe tâm lý và chăm sóc tâm thần cho cá nhân và cộng đồng,
6 Cấu trúc của khóa luận tất nghiệp
Địa vào mục tiêu đã được tình bày, nội dung cũ luận văn được cha thành các phần
Chương 1: Tổng quan tình hình nghiên cứu
Khảo síttình hình gia tăng của trằm cảm trên toàn thể giới nói chung và các nước nói
riêng Giới thiệu tổng quan các công trình nghiên cứu đã được áp dụng đẻ giải quyết bài
toán phát hiện dẫu hiệu rằm cảm Giới thiệu về các tập dữ liệu chuẫn được các nhà nghiên cứu đang sử dụng và thách thức của đề tải trong lĩnh vực nghiên cứu
“Chương 3: Cơ sẽ lí thuyết
‘Trinh bày về lịch sử phát triển trong nghiên cứu về lịch sử của bệnh trằm cảm và các khái niệm liên quan Bên cạnh đó, gi đc loại mạng nơ-ron cơ bản và được 4p dụng vào mô hình
Trang 15"Phân tích bộ dữ liệu trằm cảm DAIC được chọn sir dung trong ai miy gm các nội dung như: cu trúe, tu và nhược điểm của bộ dữ iệu Nêu các bước xử lý cho từng đặc
trưng, phân tích xử lý dữ liệu chuỗi thời gian và thực hiện cân bằng dữ liệu
“Chương 4: Xây dựng mô hình phát hiện dấu hiệu trằm cảm
‘Trinh bày chỉ tiết phương pháp mà chúng tôi sử dụng để phát hiện dầu hiệu trằm cảm của con người Phương pháp này thực bi trên các nhánh đơn trưng đơn phương thức
đồng thời thục hiện kết hợp giữa các nhánh
“Chương 5: Thực nghiệm và đánh giá
So ánh các kết quả đạt được khi huần luyện mô hình trên tập dữ liệu đã chọn
“Chương 6: Kết luận và hướng phát triển
Tổng kế lại những kết quả đạt được và chưa đạt được sau quá tình nghiên cứu
Néu ra những hướng nghiên cứu và phát triển trong tương lai
Trang 16CHUONG 1 TONG QUAN TINH HÌNH NGHIÊN CỨU
141 Khảo sắt tình trạng trằm cảm
‘Theo Mayo Clinic [6] - một tổ chức y tế phi lợi nhuận hàng đầu của Hoa Kỳ đã dịnh
nghia, bénh tim thin (Mental illness) còn được gọi là rối loạn sức khỏe tâm than (Mental
heath đisorlers) à những rối loạn về hoạt động của hệ thông thằn kinh và sự liền quan
giữa hệ thống này với các chức năng tâm lý, đề cập đến một loạt các tình trạng sức khỏe
về tâm thần
Rồi loạn sức khỏe tâm thần là một loại rối loạn ảnh hưởng đến tâm trạng, suy nghĩ và
hành vi của con người Một số ví dụ về các hành vỉ bao gồm rối loạn tâm thần, tối loạn lo
các đầu hiệu và triệu chứng có thể khác nhau, tùy thuộc vào tinh trạng rồi loạn, hoàn cảnh
hac va quan trọng là không phải lúc nào chúng cũng được biểu hiện rõ rằng,
Rồi loạn tâm thin (Mental Disorders) I lai nh I iên quan đến tâm trí và hành vỉ
người bệnh, gây ra các triệu chứng và hành vi kì lạ không bình thường [3], trằm cảm là
một loại rối lon tâm thần phổ biển Thuật ngữ "tằm cảm” (Depresion) hay "rỗi loạn trằm
cảm” (Major depressive disorder) là một dạng r loạn cảm xúc và cùng chỉ chung về bệnh trằm cảm Trong nghiên cứu này, thuật ngữ "trầm cảm” được chọn sử dụng xuyên suốt đẻ
dể chỉ rõ về bệnh trằm cảm và tập trung vào các khíu cạnh ign quan
“Theo nghiên cứu IS] tỉnh đến năm 2019 có khoảng 971 triệu người trên toàn thể giới
bị rối loạn tâm thần Thống kê cita Global Health Data Exchange (GHDx) ~ mét nén ting
trực tuyển do Viện Toàn cầu sức khde (Institute for Health Metrics and Evaluation - IHME)
tạo rụ trên oàn thể giới bệnh rỗi loạn tâm thần đang ngày cảng tăng, phổ biển cảm đúng cao nhất như trong Hình 1.1 [9]
Trang 17Khảo sát do WHO thực hi ng bố vào năm 2023, trên toàn thể giới có khoảng
280 triệu người bị trầm cảm Ước tính gần 800.000 trường hợp tự tử xây ra được báo cáo mỗi năm trên toàn thể iới, khoảng 3,8% dân số toàn cầu bị trầm cảm bao gm 54 người trường thành (4% ở nam và 6% ở nữ) và 5.7% người lớn tên 60 tui [1] Trằm cảm đang iến người lớn và người giả Ngoài ra có khoảng 505 trong tổng số cá nhân tự từ thể hiện
các triệu chứng trằm cảm hoặc các rồi loạn tâm trạng khác [3]
Ở Pháp có 105 dân số nguy cơ mả
và ở Mỹ tỉ lệ mắc bệnh chung ới nữ là 5-9%, nam giới là 2-3% [12] Nghiên cứu [13] trim cảm, tỉ lệ mắc bệnh từ 2- 39% số dân [1I]
l3
Trang 18‘Theo WHO, cit 40 giây lại có một vụ tự tử xảy ra trên thể giới [14] một trong những nguyên nhân chính gây ra hiện tượng này là do ý định tự tử của những người mắc bệnh trằm cảm Dựa trên dữ liệu thống kê ở từng quốc gia trong khu vực Đông Nam Á [I5] của công ty Klynveld Peat Marwick Goerdeler (tén viét tit KPMG) - một trong bốn công ty
giữa những khu vực Dữ liệu cho thấy được rằng tỷ lệ bệnh nhân cỏ ý định tự tử đang sống
“Các nghiên cứu tăng đáng kể trong vai năm gần đây được thể hiện ở Hình 1.3 [16 chứng
"mình rằng hỗ trợ phát hiện trạng thi rằm cảm thông qua Thị giác Máy tính (Computer
Vision) dang là một lĩnh vực phát triển mạnh mẽ
Trang 19
dau higu tram cam mỗi năm tính đến năm 2020 Hình 1.3: Nghiên cứu phát
độ thể biện trằm cảm được nhận biết qua hành vi phi ngôn ngữ [17], [18] những phát hiện cứu bạn dã chứng mình rằng những người mắc bệnh trim cảm và mức
này đã góp phần thúc đẩy lịch sử nghiên cứu lâu dài vi hiện cảm xúc của bệnh nhân trim cảm
Bang t6m tắt [19] đã cung cắp tóm tắt 10 bộ dữ liệu trầm cảm cùng với loại dữ liệu (cam xi, dm thanh, văn bản, ) đã và đăng được sử dụng rong các công trình nghiên cứu để thực hiện nghiên cứu dành cho việc chấn đoán trằm cảm Bảng 1.1: Bảng tóm tắt mười bộ dữ liệu về trầm cảm
videbech (2016) ‘The Danish Depression Audio/Video Report
gratch ,artstein ret al 2014) The Distress Analysis Audio/Video
Interview Corpus (DAIC)
lieberman and meyer (2013) Crisis Text Line Text data
Is
Trang 20trong các công trình được
được sử dụng qua các năm trong một số nghiên cứu
cứu đã thực hiện việc huấn luyện bằng cách tự tạo ra một bộ dữ liệu [4], [25]
Nhóm túc giả [26] đã đề uất hệ thống sử dụng kỹ thuật xử lý ảnh dùng để phát hiện
trằm cảm ở sinh viên trong môi trường đại học qua hai biểu cảm tích cực và tiêu cực Trong nghiên cứu [20], các tác giả đưa ra phương pháp mới là sử dụng mạng tích chập giãn thời
gian (Temporal Dilated Convolutional network TDCN) đẻ học thông tin thời gian từ các
chuỗi sau đó sử dụng mô-đun (Feutre-\Wise Atention - EWA) kết hợp các đặc trơn khác
để nhận diện nguy co trằm cảm tiém ấn dựa rên hai loại mô hình Deep Belief Network
ih còn lại trích xuất đặc điểm động
3D từ các điểm khuôn mặt 3D được thu thập bởi Kinect Ngoài ra, để mở rộng phạm vi được thụ thập bởi máy ảnh quang học, trong khi mô
nghiên cứu, các nhà nghiên cứu cũng đã áp dụng mạng nơ-ron tích chap Convolutional 2D duge sit dung chit yéu dé xir ly hinh ank tinh va di igu 2D, trong khi CNN 3D mở rộng 4p dụng lớp tích chập cho dữ liệu thời gian hoặc dữ liệu không gian ba chiễu, như video và cdữ liệu hình ảnh y tế [27], [28] [29] [301
Bén cạnh dùng cảm xúc để phát hiện trằm cảm thì từ rất lâu việc nhận dạng trằm cảm
«qua giọng nói đã được nghiên cứu và chứng minh từ quá khứ đến hiện tại Giọng nói cũng
nói hoàn toàn có thểbị ảnh hưởng bôi trạng thấ in thn cia chi thể, Nghiên cứu [31] 16
Trang 21cảm nga là khi mức độ trầm cảm tăng theo điểm của thang đo trầm cảm Halrilon [5Ð]
[33] đã chứng mình được rằng giọng nói của người trầm cảm có liên quan đến thời gian
nói Bên cạnh đó còn có các đặc điểm âm thanh khác như shimmer, jiter, cao độ và năng
lượng hay độ nung trong long nói, cúc đặc điểm còn liên quan đến âm lượng hay tin sé
134] [34], [35] [36] Công trình |37| thực hiện loại bỏ các phần im lặng dài của mỗi tập
âm thanh và ghép phần còn lại thành một tệp mới Sau đó, mỗi tệp mới được gần nhăn đại
tắn số Me là đặc trương của tín hiệu nối được trích xuất để biểu diễn các đặc điểm riêng
liên quan từ âm thanh Ba loại của bộ mã hóa đã được thử nghiệm, đó lả ID CNN, 1D
'CNN-LSTM và ID CNN-GRU [39] [40] so s nh các mô hình và đặc điểm khác nhau để nhận diện lo âu và trầm cảm từ tín hiệu âm thanh của lời nói tự nhiên bao gồm mạng tích
mồ hình học máy truyễn thông
Ngoài ra, văn in cũng được xem là một phương tiện phố biển để diễn đạt cảm xúc
và tâm trạng Điều này đặc biệt quan trọng rong các nghiên cứu về trằm cảm và tâm trạng của con người bằng việc phân tích văn bản để thấy được các dấu hiệu ngôn ngữ liên quan đến tình trạng trầm cảm [41] Phân tích văn bản có tử nhiều nguồn khác nhau, chủ yếu là các bài đăng trên mạng xã hội, diễn đàn, và các cuộc trò chuyện hoặc phỏng vấn Các nhà
nghiên cứu tại trường dgi hoc Massachusetts Institute of Technology (MIT) đã phát triển phỏng vẫn, nhận biết dấu hiệu căng thẳng của tâm lý thông qua ứng dụng di động [42] Ở cdụng ngữ pháp và từ vựng đặc trưng của người mắc trằm cảm, thông qua việc phân tích
ce miu văn bản từ những người tự nhận mình bị trằm cảm trên các diễn đân trực tuyển
[43] Cae nghiên cứu phân tích văn bản của người dùng từ mạng xã hội như Reddit, Weibo, 'Twiter để chân đoán trầm cảm cũng ngày cảng phổ biển [44], 45] [46]
7
Trang 22Đối với vẫn đề nhận điện trim cảm đôi khi gặp khó khăn trong một số trường hợp, hoặc dự đoán không chính xác quả nhiều Chính vi điều đó, nhiều công trình hướng đến sự
vào một loại đữ lêu như hình ảnh, âm thanh hoặc vấn bản thì đa phương thức cho phếp hợp thông ti từ nhiều nguồn khác nhau giúp đa dạng dữ iệu 471 [2] kết hợp dữ iệu từ
khuôn mặt, âm thanh, văn bản được ghi nhận lại trong cuộc phỏng vấn và kết hợp phương
pháp đình giá truyền thông để phân loại từng mức độ của người rằm cảm Các nghiên cứu sir dung Deep Convolutional Neural Netwok (DCNN) gồm nhiều lớp tích chập kết hợp hình ảnh và âm thanh để tạo ra một dự đoán chính xác hơn về mức độ tằm cảm
15}, [48], [49] Ying Shen va cộng sự để xuất BiLSTM và GRU cho dữ liệu âm thanh và
‘vin ban [50] Ở nhóm nghiên cứu khác trình bày một mạng nơ-ron mới dựa trên sự chú ý
đđa cấp độ cho việc dự đoán trằm cảm đa phương thức, kết hợp các đặc điểm từ các phương
thức âm thanh, hình ảnh và văn bản ng cường việc học ng thể bằng cách chọn ra các
đặc điểm ảnh hưởng nhất trong mỗi phương thức [51]
“Tổng quan những công tình nghiên cứu để cập phía rên à những phương phấp học sâu đã và đang được các nhà nghiên cứu sử dụng rộng rã trong bài toàn *Phát hiện dẫu
hiệu trằm cảm”, Cụ thẻ, các phương pháp này được áp dụng trong các lĩnh vực cảm xúc,
âm thanh, văn bản và đa phương thức Sựiến bộ và phát iển đáng k trong các công tình trang thai tim trạng nhưng vẫn tổn ti một số thách thức và khó khăn đối với bài toán trằm
1⁄3 Thách thức tronglĩnh vực nghiên cứu
Mặc dù có sự tiến triển trong việc áp dụng các phương pháp học sâu vào bài toán
phát hiện trầm cảm, song vẫn tồn tại một số hạn chế Một trong những thách thức lớn nhất
là tính đa dạng và phúc tạp của dấu hiệu rằm cảm Không giống như các cảm xúc rõ ng
như vui, buồn, hay tức giận, nhiều dấu hiệu của trạng thái trằm cảm thường không được
Is
Trang 23trong khi những người khác có thể én dấu Điễu này ầm cho việc định nghĩa và nhận di
trầm cảm trở nên khó khăn, Vì thể việc hiểu và phân tích được tắt cả các khía cạnh này đồi với sự đồng góp của chuyên gia trong quá trình chẩn đoán
Ngoài ra, các vấn để về bảo mật và quyền riêng tư cũng đang trở thành một thách
thức lớn trong việc phát triển các hệ thông phát hiện trim cảm dựa tên dữ liệu cá nhân Sự
nhạy cảm của thông tin cá nhân đồi hỏi các phương pháp phát triển phải đảm bảo tính bảo, mật và đạo đức trong việc sử dụng và xử lý dữ liệu của người dùng: Chối cùng, một rong những vấn đề nan giải là dữ liệu mắt cân bằng Dữ liệu về trằm cảm thường không cân bằng, hiện nay số lượng các mẫu thu thập được từ nhóm người
bi trim cam ft hon so với nhôm người không bị trằm cảm và cũng không đa dạng người
Điều này có thể làm cho mô hình dự đoán không chính xác, do nó được học nhiều về nhóm
da số hơn là nhôm thiểu số
Do đó, việc kết hợp nhiễu đặc trưng từ các phương pháp khác nhau để hỗ trợ phát
hiện
trằm cảm giúp cải thiện tỉ lệ chính xác là một bài toán cần được nghiên cứu và phát triển mạnh mê trong tương lai
Trang 24CHUONG2, COSOLY THUYET 2.1 Thuyếttâm lý học và lịch sử của trằm cảm
3.1.1 —_ Lịch sử phát triển trong nghiên cứu về bệnh trim cảm
Sự ghi chép trong [52] về trường hợp trằm cảm có thể xuất hiện vào năm 2 trước
Công Nguyên tại Mesopotamia một khu vực lịch sử ở Tay A, trong bản ghỉ lịch sử này
theo quan điểm của người cổ đại im cim được coi là một hiện tượng tâm nh, chứ không phối vẫn để ức khỏe, Thuật ngữ được sử đụng đầu tiên đ mô tá trằm cảm là *melancholid" nghi là "mật Từ "melancholis" ban đầu ám chỉ một tinh trang tinh thin đen tối và bi nhiều nên văn hóa khác nhau, bao gdm ci Hy Lap, La Mã, Babylon, Trung Quốc và Ai
biệt, như sử dụng đánh đập, hạn chế vận động và thậm chí bỏ đói đến chết, nhằm mục đích
“âu n tượng siêu nhiên đó ra khỏi người bệnh [52]
“Trong khi có nhiễu sự nhận định về nguyên nhân gốc rễ của trầm cảm là xuất phát
tử thế lực siêu nhiên, thì có một số bác sĩ Hy Lạp và La Mã cổ đại khẳng định và ún rằng trằm cảm là một căn bệnh sinh học và tâm lý I53] Hippoerates được biết đến là "cha để
48 xuit trong học thuyết thé dich [54] ring trằm cảm do bốn chất lòng không cân đối trong
cơ thể là mật vàng, mật đen, đờm và máu tạo thành, cụ thể trầm cảm được gây ra bởi sự
tích tụ quế nhiều mật đen rong lồ lách
Vào năm 865.925 sau Công Nguyên, một nhà bác học Ba Tư tên là Rhazes đã nhìn hận rằng bệnh tâm thần bắt nguồn tử não [55] và phương pháp điều trị là tẩm một loại
1621, Robert Burton đã xuất ban cu iái phẫu của Melancholy" [56] trong đó ông đề
sập đến các nguyên nhân xã hội và tâm lý của trằm cảm như nghèo đối, nỗi sự hãi và cô đơn Trong cuốn sách này, ông đưa ra các khuyến nghị như chỉnh sửa chế độ ăn tổng, tập
20
Trang 25tr liệu trong điều trị tằm cảm,
[Nam 1895, người sán lập khoa tâm thằn học khoa học hiện dại, được lý học tâm
thần và di truyền học tâm thần ở Đức - Emil Kraepelin trở thành người đầu tiên phân biệt
bệnh rằm cảm dựa trên thuyết tâm lý [57]
2.1.2 Khái niệm trầm cảm
Đến thập ký 1960 và 1970, các lý thuy
Nhà tâm thần học Aaron Beck đề xuất rằng những suy nghĩ tiêu cực về bản thân và sai lâm t nhận thức về trằm cảm bắt đầu xuất hiện
trong việc xử lý thông ú là nguyên nhân của ác triệu chứng trim cảm [58] Nhà tâm lý
cảm [59] Theo lý thuyết này, con người thường bỏ cuộc trong việc cổ gắng thay đối hoàn
cảnh của mình vì họ cảm thấy không thẻ thay đổi được Sự thiểu kiểm soát này khiến người
Ngày nay theo WHO, trim cảm được đặc trưng bởi cảm giác buồn bã kéo
mắt đi niềm vui và sự quan tâm đến các hoạt động sinh hoạt hàng ngày [I] Các cá nhân
sặp phải inh trạng này thường chịu ảnh hưởng bởi nhiễu triệu chứng khác nhau ở thể chất
lẫn tỉnh thần Điều này bao gồm sự thay đổi về cân nặng, khó ngủ, cảm giác mệt mồi và
những suy nghĩ tiêu cực về bản thân thậm chí có thể đi đến mức suy nghĩ về tự tử Giai đoạn trầm cảm là một đoạn gây ối loạn cảm xúc kéo đài nhất 2 uẫn
hoặc hơn [62], trong giai đoạn đó bệnh nhân có các triệu chứng như cảm thấy buổn bã, côi
đơn, đễ cáu kinh, ôi tệ, lo âu và bồi ỗi Những triệu chứng đó đi cũng với các triệu chứng
21
Trang 26tạp [64],
“Trong một nghiên cứu về các biểu hiện của trằm cảm [65], các nhà nghiên cứu đã
nhận ra một số đặc điểm của người trằm cảm qua hành vi phi ngôn ngữ và biểu hiện cơ thể
như cảm xúc khuôn mỹ ông tác đầu, cách nhìn và các hành vi, So với những người không mắc bệnh, người rằm cảm đa số thường th hiện sự khác biệt rõ rệt với mọi người như ít iao tiếp bing mit, it cười cũng như hạn chế những hoạt động xã giao rong cuộc sống Một nghiên cứu I4) đã được tiến hành và tìm ra những động tác cơ bản của các
nhóm cơ mặt sử dụng trong phân tích biểu hiện khuôn mặt và cảm xúc loạt động tác này
sợi à Các đơn vị hành động (Aetion Units ~ AU) Kết quả nghiên cứu cho thấy sự chuyển
động của nhóm cơ mặt đa số được người trằm cảm là Action Unit 12 (AU12) với biểu hiện
sua sự nhu mày đồng thôi ít cười ở những bệnh nhân trằm cảm nặng Ngoài ra, Action
Unit 14 (AU14) với cảm xúc khinh thường được xác định là yếu tố quan trọng và khá chính
xác trong việc nhận diện trằm cảm [4] [66] Một số AU mình hoạ ở Hình 2.1 và Hình 2.2
Trang 27‘evar bi superiors equ nasi ican oul `
10 Levatr abi sper
11 Levatoranguliois aa, Canious)
Mouth setchad open
“Hình 2.2 Téng hgp 27 Action Unit dau tiên
Cy thé, ngudi mắc trầm cảm thường có các đặc điểm như chuyển động nhỏ và kéo
di cia db, tự chạm vào cơ thể thường xuyên hơn và thời gian tiếp xác mắt ngắn hơn trong
ổi tiếng được thục hiện vào năm 1959 do tiễn sĩ, bác sĩ tâm thần học Heinz Lehmann thực việc giảng dạy ở trường đại học y khoa cho thấy các biểu hiện đa số của người trằm cảm 'vừa nêu trên có trong bộ phim
Trang 28Ngoài ra nghiên cứu [T0], [71] còn chỉ ra yêu tổ kích động của bệnh nhân nhữ là sự
bn chồn trong lúc ngồi, liên tục chạm vào bản thân một cách lặp di lặp lại Ngoài ra cồn
ở một người trằm cảm khuôn mặt sẽ để lộ các cảm x tiêu cực nhiều hơn
"Bên cạnh đó đặc trưng âm thanh cũng được quan tim, bệnh nhân trằm cảm với sự châm chạp vận động cũng có thể thể hiện phản ứng chậm, cụm từ đơn điệu và khả năng
số âm thanh thường kém hon [6ố] Và với xã hội ngày nay việc thể hiện cảm xúc tiêu cực qqua mạng xã hội cũng được quan tâm khi mà bệnh nhân thường có xướng đăng tải các đồng trạng thái tâm trạng tiêu cực trên mạng xã hội
2.1.3 Phương pháp đánh giá truyền thống
"Trước khi các phương pháp học máy hỗ trợ cho việc phát hiện trằm cảm trở nên phổ
biển, phần lớn công cụ đánh giá tâm lý học truyễn thống để phát hiện trầm cảm đa số
câu hồi
Các báo cáo về rối loạn sức khỏe truyễn thống như Bảng kiểm tra tằm cảm cia Beck (Beck's Depression Inventory - BDLID I72], Thang đánh giá tằm cảm PHQ (Patient
Health Questionnaire) [73] va Thang danh gia tram cảm Hamilton (Hamilton Rating Scale
for Depresion — HRSD) 74] thường được sử dụng trong việc chẳn đoán
s# Thang đánh giá trầm cảm Beck
Bảng kiếm tra rằm cảm Beck (Becl°s Depression Inventory - BDI-ID được phít
triển bởi ông Aaron Temkin Beck ~ mot bie si tim thần người Mỹ và các đồng nghiệp của
ông Đây là một trong những bài kiểm tra tâm lý được sử dụng rộng rãi nhất để đo lường
mức độ nghiêm trọng của bệnh nhân bị tằm cảm Bảng kiểm tra này được thiết kế để đánh
siá các khía cạnh của trằm cảm như buồn bä, suy nghỉ tiêu cực và tự trách bản thân,
bằng việc bệnh nhân sẽ chọn câu tr ôi ốt nhất phản nh trạng thi cảm xúc của họ trong
24
Trang 29thời gian gần đây Sau khi in đầy đủ các câu tả ài, điểm số tổng của bảng kiểm tra sẽ được tính toán Điễm số càng cao thì mức độ bị trim cảm càng nghiêm trọng Phiên bản đầu tiên của Bảng kiém tra trim cảm Beck la (Beck's Depression
Inventory - BDI) được xuất bản đầu tiên vào năm 1961 gồm 17 câu hỏi liên quan tới cảm
xúc được trải qua trong một tuần Sau đồ được chỉnh sửa và xuất bản vào năm 1996 với
tên BDLII để thêm các tiêu chuẩn ding để chẩn đoán cho rối loạn trim cảm Giống như BDI, BDI-II bao gồm 21 câu hỏi dùng để đánh giá cảm xúc trong hai tuần, mỗi câu trả lời
dâng để kết luận cho bệnh nhân rằm cảm
Bảng 2.1: Bảng thang điểm kết luận mức độ theo Beck
+ Thang dénh gid trim cam PHQ
‘Thang đánh gid trim cảm PHQ còn được gọi là "Patient Health Questionnaire for Depression” PHQ là một phan của công cụ chẩn đoán tâm thân (Primary Care Evaluation
“Tâm thần Johns Hopkins ở Mỹ Đây là một công cụ hỗ trợ chẳn đoán tằm cảm được được 0]
'Có 2 phiên bản của Thang đánh giá trằm cảm PHQ được ứng dụng rộng rãi đặc biệt
là trong mỗi trường lâm sàng và rắt phổ biển ở các cơ sở y tế chăm sóc cơ bản đồ là PHO-
'9 và PHQ-8 Cụ thể, PHQ-9 gồm 9 câu hỏi được thiết kế để đánh giá các triệu chứng của
trằm cảm và trường hợp bệnh nhân có suy nghĩ tự tử [77L Tương tự, PHQ-š sẽ gồm 8 câu
Trang 30-% Thang đánh giá trầm căm Hamulton
Thang đánh giá rằm cảm Hamilton (Hamilton Rating Seale for Depression —
'HRSD) còn được viết tắt là HAMD, Công cụ này được phát triển bởi Max Hamilton - một
hà tâm thần học người Đức vào năm 1960 và cập nhật các phiên bản mới trong những diya trên quan sát và đánh giá của chuyên gia Thang đo nảy được thiết kế để đo lường các
và suy nghĩ tự từ
Phiên bản HAMD-1 là phiên bản phổ biến nhất với 17 câu hỏi được đánh giá trong
30 phút Giống như các thang đo trằm cảm khác, thang đo HAMD cho bệnh nhân chọn câu
câu trả lời điểm số tổng của bảng kiểm tra sẽ được tính toán và phân loại các mức độ.
Trang 31TOTAL SCORE LEVEL OF DEPRESSION
22 Giớithiệu mạng no-ron nhân lạo
Mặng nơ-ron nhân tạo (Artificial Neural Network ANN) là một cầu trúc tính oán
được lấy cảm hứng từ hoạt động của hệ thông nơ-ron trong não bộ của con người Trong
hệ thống thẫn kính của cơn người, các nơ-ron được tổ chức hành các mạng lưới phức tạp
với mỗi nơ-ron được kết nổi với nhau Mô hình ANN được xây dựng dựa trên cấu trúc này,
cho phếp nó họ kiến thức thông qua quá tình hun luyện, ưu trở những trì thức đồ và sử
dụng trì thức để dự đoán kết quả cho dữ liệu mới mả nó chưa từng thấy trước đây
Mạng ANN gdm ba lip chink lip du vio (input layer), ee Ie in (hidden layers)
và lớp đầu ra (outputlayer) Mỗi nơ rontrong mạng có nhiệm vụ nhận thông ti từ lớp dd
vào, truyền qua các lớp ẫn đẻ xử lý đặc điểm của đữ liệu vả sau đó đưa ra kết quả cuối cùng
tại lop du ra Hình 2.3 biển thị kiến trúc tổng quất của ANN với các đường kết ni giữa
các nơ-ron với nhau,
Trang 32
Hình 2.4:
đến trúc của một nơ-ron Hình 2.4 mình họa cách đồng tín hiệu từ các đầu vào xị, ụ dĩ chuyển theo một thị bằng các mũi ên Đây được xem như là dòng tín hiệu đầu ra của
Trang 33được tính như công thức (3) [79)
= ala) = {if 7x +b) 20
Với T là ma trận chuyển vị, b là bias và Ø được gọi là ngưỡng Trong ngữ cảnh này,
Ø đồng vai trò quan trọng trong quá trình quyết định nơ-ton có kích hoạt (output 1) hay không (output 0) dựa trên tổng trọng số của các nơ-ron đầu vào
Dựa vào sự biểu diễn của công thức, hàm kích hoạt là một hàm số được áp dụng
cho két guả đầu m của mỗi nơ xon sau khi tính toán tổng trọng số của đầu vào Hàm kích (R0, Nếu thiểu hàm kích hoạt, mạng nơ ron chỉ có khả năng biểu diễn hàm tuyển tính đơn kích hoạt được sử dụng trong để ti của chứng tôi
22.1 Rectified Linear Activation
Ham kich hogt Rectified Linear Unit (ReLU) I mét ham kich hoạt phổ biến trong
sác mạng nơ ron được định nghĩa bằng cách cho đầu ra bằng đầu vào nêu đầu vào là đương
'và bằng không nếu đầu vào là âm ReLU được định nghĩa qua công thức (4):
Trong đó, x à biển đầu vào của mạng nơ ron ReLU là tuyển tính (đồng nhất) với
tắt cả giá tị đương và bằng không với tắt cả giá tị âm Tuy nhiên, phạm vi giá trị đầu ra
ita n6 6 th từ 0 đến vô cục Một trung những li ích Khi sử dụng ReLU là sự đơn giản
neral được kích hoạt với một hoặc nhiều gi trị làm nâng cao tính đa đạng của biểu diễn
29
Trang 34
ra các giá trị đầu ra rất lớn, do đồ chúng có khả năng gặp vẫn để bùng nỗ gradient cao,
22.2 Scaled Exponential Linear Unit
Hàm kích hoạt Scaled Exponential Linear Unit (SELU) giới thiệu vào năm 2017 bởi
Klambauer [81] cùng các cộng sự để kích hoạt các biểu diễn trừu tượng cấp cao SELU
dng trong Self-Normatizing Neural Networks (SNN) drge thiết kỂ khả năng tự điều chỉnh
và duy sự ôn định trong quá tình học
“Trong một mạng nơ ron với một hàm kích hoạt ƒ cụ thể, xét hai lớp được nối với
nhau bing ma tn tong số Iứ, Đầu vào của một mạng là biển ngẫu nhiên, các biển kích
hoạt tại lớp dưới là x, đầu, (2) ở lớp trên cị
sắc biển ngẫu nhiên Giả sử các kích hoạt; ở lớp dưới có trung binh = E(xf) và phương
sai v = Var(x;) Một kích hoạt y ở lớp trên có trung bình í = E(y) và phương sai Var(y) Xế ánh xạ g (5) biến đổi trung bình và phương sai của các biển kích hoạ từ lớp này sang lớp khác với:
6)
CCác kỹ thuật chun héas@ dim bio 1 dah xa g gita tring binh va phuong sai gin với các giá trị được định trước thường là (0,1) SNN có một ánh xạ g: 2 -+ /? cho mỗi kích
hoại y mà biển đổi rung bình và phương ai từ lớp này xung lớp khác sẽ luôn có một điểm
số định và hấp đẫn hy thuộc vào một miễn giá tị trong /?, tức là Ø0) € /, nơi mà /?
{Ge¥) | 1 € [yonin, pmax], v € [vmin, vmax]} Khi áp dụng lặp đi lặp lại ánh xạ g mỗi
điểm trong / sẽ hội tụ về điểm cổ định này Từ đó giúp giải quyết vẫn đề vanishing gradient
‘va exploding gradient trong quá tình huắn luyện mạng neural su
Trang 35+ _ Khi đầu vào là đương, SELU hoạt động như một hàm tuyến tính có độ dốc A
*- Khi đầu vào là âm, SELU sử đụng ø và Â để tạo ra một hàm ngã về không nhưng, không bao giờ đạt giá trì chính xác bằng không, nhằm ngăn chặn vấn để vanishing gradients
"Trong ngữ cảnh của mạng neural,ø và z thường được sử dụng để chỉ trung bình và phương sai của vector trọng số tương ứng Khởi tạo trọng số là bước quan trọng khi xây
cưng mạng neural vi né 6 thé ảnh hưởng lớn đến quá trình học của mạng Việc khởi tao
Sigmoid là hàm phi tuyẾn tính với khả năng nhận giá tị đầu vào là các số thực và
cho kết quả đầu ra nằm trong đoạn [0: 1] Khi giá trị đầu vào càng lớn, giá trị đầu ra của
hàm Sigmoid sẽ tiệm cận gần với 1, và ngược lại, khi giá trị đầu vào càng âm lớn, giá trị
đầu ra sẽ tiệm cân với 0 Biểu in toán học của hàm sẽ có dang (7)
Trang 36ie
Ham sigmoid I Iya chon ph biển cho hàm kích hoạt rong các mô hình học sâu và mạng nơ-ron, nhất là khi cằn đầu ra có tính xác suất Ngoài ra, hầm Siemoid cồn có tính vi chữ của đồ tị hầm Sigmoid ại điện cho sự chuyển tiếp mượt mà giữa các gi ị đầu
ra giúp ngăn chặn sự thay đổi đột ngột hay nhảy vợ trong các giá tị đầu ra
+ Cơ chế lan truyền
CCorché lan truyền thẳng (Eesdforvard) trong mạng nơ-ron nhân tạo đơn giản là quả trình dữ liệu ch di chuyển một chiều từ lớp đầu vào, qua ác lớp ẫn và đến lớp đầu ra mà
đầu vio đến đầu rà
“Cơ chế lan truyễn ngược (Backpropagation) đồng vai tr cốt lõi tong tối ưu hóa trọng số và độ lệch nhằm giảm thiểu sai số giữa giá trị dự đoán và giá trị thực tế, Một mạng no-ron nhân tạo hiện đại hoạt động qua hai pha chính:
Giai đạn Lan truyền thẳng: Trong giai đoạn này, d liệu đầu vào được tiếp nhận
và xử lý từ lớp này sang lớp khác Mỗi nơ-ron, thông qua tổng trọng số của các đầu vào vài
‘ip dung him kích hoại, chuyển tiếp thông in cho đến khi đạt được kết quả cuối cùng (Giai đoạn Lan truyền ngược: Phát huy sức mạnh sau quá tình dự đoán, hàm lỗi (khoảng cách giữa kết quả dự đoán và thực tổ) được phát hiện và sau đó được lan truyễn ngược lại để điều chỉnh trọng số và dự đoán sai lệch dựa trên phần lỗi đó
2 3 Giới thiệu mạng no-ron tích chip Convolutional Neural Network
‘Mang no ron tích chập hay (Convolution Neural Network ~ CNN) CNN thyéng
duge sir dung chủ yếu trong nhận dạng dữ liệu hình ảnh giúp tích hợp các đặc điểm cụ thể
“của hình ảnh vào: én tric mạng Kiến trúc CNN thường có 3 loại lớp: Convolution (Conv),
Trang 37Pooling (Gp), Fully connected (FC) Két nd tổng hợp Quy trình của một CNN sẽ à 4 giai đoạn — qua 4 lớp
Hình 2.6: Kiến trúc mạng nơ-ron tích chap CNN chập là lớp đầu tiên khi dữ liệu được đưa vào để ron tich hợp bộ lọc có khả năng tự đổi trong mạng nơ-
thực hiện một cách cân nhắc để tránh đặc trưng quan trọng
«- Lớp kết nối day da (Fully Connected)
Lay Fly Connected FC) tons yah ch ee noon được px ng mộ sang neon tuyễn hồn Mỗ nấ tong lớp EC được nỗ tục ếp với mọi nt rung
Èn sau Nhược điểm chính của lớp EC là nó bao gồm nhiều tham 33
Trang 38số cần phải ính toán phức tạp ong các ví dụ huẳn luyện Do đó, cằn giảm số lượng nút
dropout
24 GiGi thiệu mạng nơ-ron hồi quy Recurrent Neural Network
Mạng nơ son hồi quy (Recurent Neurdl Netvork - RNN) được thiết kế đc biệt để
xử lý dữ liệu tuần tự như chuỗi thời gian hoặc văn bản, có Khả năng "thó” thông tin tờ quá
và được sử dụng rộng rãi trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên, dịch máy, dự
ứng dung khác Cấu rúc cơ bản của RNN bao gdm đơn vị
đoán chuỗi thời gian,
tập bại trạng thái ân và kết ni trọng số
lưu lượng thông tin di qua mạng giúp mô hình “nhớ” thông tin trong thời gian đài
«+ Gated Reeurrent Unit (GRU): GRU là một biến thé khác của RNN, tương tự như
LSTM nhưng đơn giản hơn về cấu trúc Nó giữ lại một phần của thông ti từ quá khổ thông
gi quyết vẫn đề sự biển mắt của gradienL Nó sử dụng các ng (gate) dé
qua công cập nhật, giúp giảm thiểu vấn đẻ biển mắt của gradient + Bidirectional RNN (BIRNN): BIRNN két hop cả hai hướng truyền với nhau, từ
quá khứ đến tương lai và từ tương lai đến quá khứ để nắm bắt được thông tin từ cả hai
"hướng trong dữ liệu tuần tự.
Trang 39«+ Attention Mechanism: Co ché attention cho phép mô hình INNN tập trùng vào các phin quan trọng của dữ liệu đầu vào giúp cải hiện khả năng "nhớ” và hiệu suất mồ hình 2⁄8 Giớithiệu mạng Long Short-Term Memory
Long ShorcTerm Memory (L.STM) là một biển thé ea mang no-ron hi guy (RNN)
được thiết kế để xử lý và đự đoán các thông tin dang chudi (sequences/time seris) Dé gi
đỀ xuất cải tiễn này bỗ sung một thành phần mới vào ô hồi quy truyỄn thống, đó là các công điều khiển, nhằm tăng cường năng lực lư giữ thông tin Từ nên tăng ban đẫu,LSTM đã tri qua nhiễu cái iến và phát iển do sự đồng góp,
của nhiều nhà nghiên cứu, đã có nhiều biển thể và một ö nhớ sẽ có ba loại công: công đầu
vào, cổng đầu ra và cổng quên LSTM sẽ sử dụng các cổng để kiểm soát luỗng thông tin
«qua trang thái ẳn, giúp mạng học và lưu trữ thông tin từ lâu hơn và tử xa hơn
‘+ Céng quên (Forget gate)
Céng quên trong mạng nơ-ron hồi quy (RNN) đóng vai trò quan trọng trong việc định xem phần nào của thông tin tir
nh học
quản lý và lọc thông tin Nó cho phép mô hình quy:
trạng thai dn trade đó nên được bảo lưu và phẩn nào n
ích hoạt sigmoid giúp xác định mức độ quan n bị loại bỏ trong quá ú Điều này được thực hiện thông qua him
trọng của mỗi phần tử trong trạng thái ẩn, từ đó cung cấp cho mô hình khả năng "quêt thông tin không quan trọng và giữ lại thông tin quan trọng
« Bí thé Bidirectional Long Short-Term Memory
Bidirectional Long Short-Term Memory (Bỉ-LSTM) là một loi mạng xử ý dữ tuần tự theo cả ai hướng tiện và lùi Nó kế thừn kiến trúc cơ bản từ LSTM với việc xử lý
đầu vào
Lợi ích nỗi bật của Bi-LSTM chính là khả năng của nó trong việc thu thập thông tin
xuối Diễu này cho pháp Bi-LSTM nắm bắt được một
35
đẫy đã giữa chiều ngược và chỉ
Trang 40bức tranh toàn diện và phong phú của các mỗi liên kết và phụ thuộc trong dữ liệu đầu vào, tối ưu hỏa khả năng hiểu và xử lý chuỗi dữ liệu một cách chính xác và sâu sắc hơn Kiến trúc Bỉ-LSTM có thể được thy chỉnh và mở rộng bổ sung thêm các lớp hoặc
cơ chế như chú ý, nhằm phù hợp với yêu cầu đặc thù của từng nhiệm vụ, nâng cao khả
năng và hiệu suất của mô hình
2.6 Gi6i thigu Hierarchical Attention Networks
Mang Lưới Chú ¥ Phin Cp (Hierarchical Atention Networks = HAN) Ia mgt m6 ình tiên tiến rong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và học sâu được thiết kế để cải
Xhỏ năng hiểu và xử ý dữ iệu văn bản đài bằng cách áp dụng cơ ch chú ý một cách
số hệ thống và phân cấp Kiến tric HAN gdm 4 phần: một bộ mã hóa chuỗi từ (worl
sequenee encoder), lớp chú ý cấp độ từ (word-level attention layer), bộ mã hóa câu
(sentenee ensode) và lớp chú ý cấp độ câu (sentene-evel atentio layer) Ch tiết về kiển
trúc của mô hình được minh họa trong Hình 2.6 [82]
Hình 2.8: Kiến trúc HAN
36