1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện dấu hiệu trầm cảm sử dụng mô hình học sâu

90 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện dấu hiệu trầm cảm sử dụng mô hình học sâu
Tác giả Nguyễn Hồng Thảo Nguyên, Nguyễn Tuần Hưng
Người hướng dẫn TS. Nguyễn Viết Hưng, TS. Phan Lê Sơn
Trường học Trường Đại học Sư phạm TP.HCM
Chuyên ngành Sư phạm Tin học
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 90
Dung lượng 5,54 MB

Nội dung

Áp lực công việc và tốc độ hơn khiế ntâm lý cùng tỉnh thần của con người: àng trở nên một mỏi cũng như sa sút thường, xuyên Điều này dẫn đến việc phát sinh ra nhiều mỗi nguy hiểm cho s

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

NGUYÊN HỎNG THẢO NGUYÊN NGUYÊN TUẦN HƯNG

PHAT HIEN DAU HIEU TRAM CAM SU DUNG

MO HINH HQC SAU

KHOA LUAN TOT NGHIEP

‘TP.HO CHÍ MINH - NĂM 2024

Trang 2

KHOA CONG NGHE THONG TIN

NGUYEN HONG THAO NGUYEN NGUYEN TUAN HUNG

PHAT HIEN DAU HIEU TRAM CAM SU DUNG

MO HINH HOC SAU

CHUYEN NGANH: SU PHAM TIN HOC

KHOA LUAN TOT NGHIEP

NGUOI HUONG DAN KHOA HQC: TS NGUYEN VIET HUNG

‘TS PHAN LE SON

TP.HCM - NĂM 2024

Trang 3

LOI CAM DOAN

Tôi tên Nguyễn Hồng Thảo Nguyên và ôi tên Nguyễn Tuần Hưng Chúng tôi xin cam đoan đề tài khoá luận tốt nghiệp "Xây dựng mô hình phát hiện dấu hiệu trằm cảm sử

dụng mô hình học sâu" là công trình nghiên cứu của chúng tôi, được thực hiện dưới sự

hướng dẫn của Tiến sĩ Nguyễn Viết Hưng và Tiến sĩ Phan Lê Sơn Các kết quả nêu trong nghiên cu khác mà không ghỉ rõ nguồn trong phần tà iệu tham khảo,

Chí tạ tôi xin chịu trách nhiệm về lời cam đoạn này

“Thành phố Hồ Chí Minh, ngày 08 tháng 05 năm 2024

Trang 4

Trước hết, chúng em muốn bày tổ lòng biết ơn sâu sắc đến Tiến sĩ Nguyễn Viết

Hưng và Tiền sĩ Phan Lê Sơn, những người đã dành thời gian và tâm huyết để hướng dẫn

và hỗ trợ chúng em trong guá tình nghiên cứu khóa lụ

ơn Thạc Sĩ tần Thanh Nhã đã chỉ bảo và các nhóm nghiên cứu của thầy đã đóng góp Bén cạnh đó, chúng em xin cảm những ý kiến đánh giá giúp chúng em hoàn thiện và cải thiện nội dung của luận văn

“Chúng em cũng muốn bày tỏ lồng biết ơn đến tắt cả các giảng viên tai Trường Đại

học Sư phạm Thành phổ Hồ Chí Minh, những người đã chia sẻ kiến thức và tạo điều kiện

tốt nhất cho chúng em trong quá nh học tập và nghiên cứu Những kiến thúc và kỹ năng

Chỗi cùng chúng em muốn gửi lồi cảm ơn đến gia đình bạn bè và những người thân yêu, những người đã luôn ở bên cạnh, động viên và hỗ trợ chúng em trong suốt thời

những khó khăn và hoàn thành công việc một cách tốt đẹp

Mặc dù chúng em đã cổ gắng hết sức để hoàn thành luận văn trong khả năng của mình, nhưng không tránh khỏi những thiếu sót Chúng em rất mong nhận được nhận xét

và chỉ dẫn tận tình từ quý thay cô và các bạn đọc,

“Thành phố Hồ Chí Minh, ngày 0S tháng 05 năm 2024

Trang 5

MYC LUC 1

LỜI MỞ ĐẦU: 8

1 Lý do chọn đi 8

5 Y nghĩa khoa học và thực tiễn 10

CHUONG 1 TÔNG QUAN TÌNH HÌNH NGHIÊN CỨU

CHƯƠNG2 CƠ SỞ LÝ THUYẾT

24.1 Lịch sử phát triển trong nghiên cứu

Trang 6

2.2.1, Reclified Linear Activation 29

2.3, Gidi thiệu mạng nơ-ron tích chập Convolutional Neural Network 32 2.4 Giới thiệu mạng nơ-ron hoi quy Recurrent Neural Network, 34

CHƯƠNG 3 CƠ SỞ DU' LIEU TRAM CAM

CHUONG 4, XÂY DỤNG MÔ HÌNH PHÁT HIỆN DẦU HIEU TRAM CAM 59

2

Trang 7

CHUONG 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ

CHUONG 6 KET LUAN VA HUONG PHAT TRIEN

Trang 8

DANH MỤC KÝ HIỆU VÀ CÁC CHÍ

“The Diagnostic and Statistical Manual of Mental Disorders | DSM

‘Massachusetts Institute of Technology

Deep Convolutional Neural Network

Rectified Linear Unit

‘Scaled Exponential Linear Unit

Trang 9

Bang thang điểm kí luận mức độ trằm cảm theo Beck

Bảng thang điểm kết luận mức độ trằm cảm PHO,

Bảng thang điền kết luận mức độ rằm cảm HAMD Thống ó lượng dĩ liệu wong DAIC

Kích thước dữ liệu đặc trưng khuôn mặt

Số lượng chuỗi ở tập dữ liệu

Số lượng chuỗi sau khi cân bằng Kích thước dữ liệu đầu vào

Số lượng chuỗi đầu vào

Dung lượng dữ liệu đầu vào Kết quả so sánh ở cả hai trường hop Kết quả thực n

“So sánh công trình

Trang 10

DANH MUC HINH VE Hình L.I: Biểu đồ thống kế số lượng các nhóm bệnh thuộc tố loạn tâm thin Hình L2: Tý lệ có ý định tự tử khi mắc trằm cảm ở khu vực Đông Nam Á năm 2031 Hình L.3: Nghiên cứu phát hiện dấu hiệu trim cảm mỗi năm tính đến năm 2020,

Hình 2.1 Minh hoạ 6 AU đầu tiên

Hình 22 Tổng hợp 27 Acton Unit đầu tiên

Hình 3: Kiến trúc mạng no-ron nhân tạo ANN nhiễu lớp

Hình 2.4: Kiến trúc của một nơ-ron

Hình 2.5: Sự n định của mạng SNN trong huấn luyện

Hình 2.6: Kiến trúc mạng nơ-ron tich chap CNN

Hình 27: Kiến trúc cơ bản mạng nơ-ron hồi quy RNN

Hình 3.5: Trực quan các đặc trưng trên khuôn mặt

Hình 3.6: Dữ iệu landmark ti ame đầu tiên trong tệp

Hình 3:7: Dữ liệu hướng nhìn tại fiame đầu tiên trong tệp Hình 3.8: Mô tả hướng quay bằng các sóc Baler

Hình 3.9: Dữ liệu hướng đầu tại iame đầu tiên trong tập

Hình 3.10: Đoạn ghỉ âm của bệnh nhân có ID 300

Hình 3.11: Biểu đồ dạng sóng âm thanh

Hình 3.12; Quá trình khử nhiễu âm thanh

Hình 3.13: Minh hoạ cắt dỡ liệu chuỗi

Hình 4.1: Kiến trúc mô bình đề xuất với đặc trưng khuôn mật Hình 42: Kiến trúc mô hình it v6i đặc trưng âm thanh,

6

Trang 11

Hình 44: Kiến trúc mô hình đề xuất kết hợp cúc đặc trưng

Trang 12

LỜI MỞ ĐÀU

1 Lý đo chọn để tài

“Trong bối cảnh của một thể giới liên kết mạnh mẽ qua công nghệ thông ti, xã hội đã chứng kiến những bước tiền vượt bậc về khoa học, kỹ thuật và kinh tế, Những thành tựu

phương tiện có ích đến sự phát triển của các ngành giúp cải thiện chất lượng cuộc sống Sự

iện đại đã mang lại nhiều cơ hội mới cho con người

nhưng cũng đi kèm với những áp lực và thách thức không nhỏ Áp lực công việc và tốc độ

hơn khiế ntâm lý cùng tỉnh thần của con người: àng trở nên một mỏi cũng như sa sút thường, xuyên

Điều này dẫn đến việc phát sinh ra nhiều mỗi nguy hiểm cho sức khoẻ tâm tí con

người cùng với sự gia tăng các bệnh tâm lý, Trong đó, trằm cảm là một hiện tượng bệnh lý

đặc biệt xuất hiện ngày càng nhiễu trong cuộc sống hiện nay Theo thông tin từ Tổ chức Y

tế Thể ới (World Health Organization ~ WHO), trằm cảm là một tình trạng bệnh lý phổ

iển và nghiêm trọng, tắc động iêu cục đến cuộc sống hàng ngày của hơn 280 triệu người LI]: Biểu hiện nghiêm trọng của trầm cảm được gọi à tố loạn trằm cảm nặng (Major

Depressive Disorder - MDD) hoặc trằm cảm nặng (Major Depression - MD) được đặc

trưng bởi cảm giác buỗn bã dại đẳng vớ tâm trạng chấn nàn lan tôa và kéo đài, kèm theo

việc mắt hứng thú với các hoạt động bên ngoài [2] [3]

Do đó, việc phát hiện các triệu chứng của rối loạn tâm thẳn ngày càng trở nên quan

trọng trong lĩnh vực y học và tâm lý học Các chuyên gia tâm thần và tâm lý học đã đánh

nhiên, điều này vẫn dẫn đến h trạng thiểu sót trong việc tổng hợp hiệu quả giữa các

dù cho hành vi vốn là những biểu hiện rõ rằng phương pháp kết hợp với quan sát hành

của chứng rồi loạn tâm lý [4]

Trang 13

“rong bồi cảnh này, việc áp dụng trí tuệ nhân tạo để hỗ rợ phát hiện dẫu hiệu của trang thi trim cảm đang trở thành một hướng tp cận quan trọng [2] 4l [5] Tử những

mô hình học sâu Mô hình này không nhằm mục

ch thay thể phân đoần của cíc chuyên giay tế mà nhằm

trợ trong việc đưa ra chẩn đoán của phát hiện đầu hiệu bệnh trằm cảm:

2 Mục tiêu nghiên cứu

Xây ưng mô hình phát hiện dẫu hiệu trim cảm sử dụng mô hình học sâu

3, Đối trợng và phạm vi nghiên cứu

Đổi tượng nghi cứu của đề tà là các cá nhân có khả năng trằm cảm hoặc không trầm cảm

Phạm vi nghiên cửu sẽ tập trung vào việc sử dụng mô hình học sâu dé phát hiện dấu

hiệu rằm cảm thông qua cuộc tr chuyện phòng vẫn với

siá trên bộ dữ liệu trằm cảm DAIC tượng Thực nghiệm và đánh 4 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết:

~_ Tĩm hiễu tổng quan các công tình nghiên cứu về phát ẳm cảm thông

~ _ Thu thập dữ liệu đắp ứng yêu cầu bài toán

"Tiến hành xây dựng mô hình

~_ Đảnh giá va so sánh kết quả đạt được

Trang 14

5 Ý nghĩa khoa học và thực tiễn

Đề tài "Phát hiện dẫu hiệu rằm cảm sử dụng mô hình học sâu” à một nghiền cứu

{quan trọng trong lĩnh vực sức khỏe tâm lý và công nghệ thông tin Được thực hiện bil cách áp dụng mô hình học sâu vào đữ liệu đa phương tiện như hình ảnh, âm thanh và văn

bản, đŠ ti này nhằm mục tiêu phát hiện dẫu hiệu trim cảm ở con người

“Từ góc độ khoa học, đẻ tài này đóng góp vào phát triển các mô hình học sâu và

phương pháp xử lý dĩ liệu đa phương tiên Từ góc độ thực tiễn nó có tiểm năng cải thiện

sức khỏe tâm lý và chăm sóc tâm thần cho cá nhân và cộng đồng,

6 Cấu trúc của khóa luận tất nghiệp

Địa vào mục tiêu đã được tình bày, nội dung cũ luận văn được cha thành các phần

Chương 1: Tổng quan tình hình nghiên cứu

Khảo síttình hình gia tăng của trằm cảm trên toàn thể giới nói chung và các nước nói

riêng Giới thiệu tổng quan các công trình nghiên cứu đã được áp dụng đẻ giải quyết bài

toán phát hiện dẫu hiệu rằm cảm Giới thiệu về các tập dữ liệu chuẫn được các nhà nghiên cứu đang sử dụng và thách thức của đề tải trong lĩnh vực nghiên cứu

“Chương 3: Cơ sẽ lí thuyết

‘Trinh bày về lịch sử phát triển trong nghiên cứu về lịch sử của bệnh trằm cảm và các khái niệm liên quan Bên cạnh đó, gi đc loại mạng nơ-ron cơ bản và được 4p dụng vào mô hình

Trang 15

"Phân tích bộ dữ liệu trằm cảm DAIC được chọn sir dung trong ai miy gm các nội dung như: cu trúe, tu và nhược điểm của bộ dữ iệu Nêu các bước xử lý cho từng đặc

trưng, phân tích xử lý dữ liệu chuỗi thời gian và thực hiện cân bằng dữ liệu

“Chương 4: Xây dựng mô hình phát hiện dấu hiệu trằm cảm

‘Trinh bày chỉ tiết phương pháp mà chúng tôi sử dụng để phát hiện dầu hiệu trằm cảm của con người Phương pháp này thực bi trên các nhánh đơn trưng đơn phương thức

đồng thời thục hiện kết hợp giữa các nhánh

“Chương 5: Thực nghiệm và đánh giá

So ánh các kết quả đạt được khi huần luyện mô hình trên tập dữ liệu đã chọn

“Chương 6: Kết luận và hướng phát triển

Tổng kế lại những kết quả đạt được và chưa đạt được sau quá tình nghiên cứu

Néu ra những hướng nghiên cứu và phát triển trong tương lai

Trang 16

CHUONG 1 TONG QUAN TINH HÌNH NGHIÊN CỨU

141 Khảo sắt tình trạng trằm cảm

‘Theo Mayo Clinic [6] - một tổ chức y tế phi lợi nhuận hàng đầu của Hoa Kỳ đã dịnh

nghia, bénh tim thin (Mental illness) còn được gọi là rối loạn sức khỏe tâm than (Mental

heath đisorlers) à những rối loạn về hoạt động của hệ thông thằn kinh và sự liền quan

giữa hệ thống này với các chức năng tâm lý, đề cập đến một loạt các tình trạng sức khỏe

về tâm thần

Rồi loạn sức khỏe tâm thần là một loại rối loạn ảnh hưởng đến tâm trạng, suy nghĩ và

hành vi của con người Một số ví dụ về các hành vỉ bao gồm rối loạn tâm thần, tối loạn lo

các đầu hiệu và triệu chứng có thể khác nhau, tùy thuộc vào tinh trạng rồi loạn, hoàn cảnh

hac va quan trọng là không phải lúc nào chúng cũng được biểu hiện rõ rằng,

Rồi loạn tâm thin (Mental Disorders) I lai nh I iên quan đến tâm trí và hành vỉ

người bệnh, gây ra các triệu chứng và hành vi kì lạ không bình thường [3], trằm cảm là

một loại rối lon tâm thần phổ biển Thuật ngữ "tằm cảm” (Depresion) hay "rỗi loạn trằm

cảm” (Major depressive disorder) là một dạng r loạn cảm xúc và cùng chỉ chung về bệnh trằm cảm Trong nghiên cứu này, thuật ngữ "trầm cảm” được chọn sử dụng xuyên suốt đẻ

dể chỉ rõ về bệnh trằm cảm và tập trung vào các khíu cạnh ign quan

“Theo nghiên cứu IS] tỉnh đến năm 2019 có khoảng 971 triệu người trên toàn thể giới

bị rối loạn tâm thần Thống kê cita Global Health Data Exchange (GHDx) ~ mét nén ting

trực tuyển do Viện Toàn cầu sức khde (Institute for Health Metrics and Evaluation - IHME)

tạo rụ trên oàn thể giới bệnh rỗi loạn tâm thần đang ngày cảng tăng, phổ biển cảm đúng cao nhất như trong Hình 1.1 [9]

Trang 17

Khảo sát do WHO thực hi ng bố vào năm 2023, trên toàn thể giới có khoảng

280 triệu người bị trầm cảm Ước tính gần 800.000 trường hợp tự tử xây ra được báo cáo mỗi năm trên toàn thể iới, khoảng 3,8% dân số toàn cầu bị trầm cảm bao gm 54 người trường thành (4% ở nam và 6% ở nữ) và 5.7% người lớn tên 60 tui [1] Trằm cảm đang iến người lớn và người giả Ngoài ra có khoảng 505 trong tổng số cá nhân tự từ thể hiện

các triệu chứng trằm cảm hoặc các rồi loạn tâm trạng khác [3]

Ở Pháp có 105 dân số nguy cơ mả

và ở Mỹ tỉ lệ mắc bệnh chung ới nữ là 5-9%, nam giới là 2-3% [12] Nghiên cứu [13] trim cảm, tỉ lệ mắc bệnh từ 2- 39% số dân [1I]

l3

Trang 18

‘Theo WHO, cit 40 giây lại có một vụ tự tử xảy ra trên thể giới [14] một trong những nguyên nhân chính gây ra hiện tượng này là do ý định tự tử của những người mắc bệnh trằm cảm Dựa trên dữ liệu thống kê ở từng quốc gia trong khu vực Đông Nam Á [I5] của công ty Klynveld Peat Marwick Goerdeler (tén viét tit KPMG) - một trong bốn công ty

giữa những khu vực Dữ liệu cho thấy được rằng tỷ lệ bệnh nhân cỏ ý định tự tử đang sống

“Các nghiên cứu tăng đáng kể trong vai năm gần đây được thể hiện ở Hình 1.3 [16 chứng

"mình rằng hỗ trợ phát hiện trạng thi rằm cảm thông qua Thị giác Máy tính (Computer

Vision) dang là một lĩnh vực phát triển mạnh mẽ

Trang 19

dau higu tram cam mỗi năm tính đến năm 2020 Hình 1.3: Nghiên cứu phát

độ thể biện trằm cảm được nhận biết qua hành vi phi ngôn ngữ [17], [18] những phát hiện cứu bạn dã chứng mình rằng những người mắc bệnh trim cảm và mức

này đã góp phần thúc đẩy lịch sử nghiên cứu lâu dài vi hiện cảm xúc của bệnh nhân trim cảm

Bang t6m tắt [19] đã cung cắp tóm tắt 10 bộ dữ liệu trầm cảm cùng với loại dữ liệu (cam xi, dm thanh, văn bản, ) đã và đăng được sử dụng rong các công trình nghiên cứu để thực hiện nghiên cứu dành cho việc chấn đoán trằm cảm Bảng 1.1: Bảng tóm tắt mười bộ dữ liệu về trầm cảm

videbech (2016) ‘The Danish Depression Audio/Video Report

gratch ,artstein ret al 2014) The Distress Analysis Audio/Video

Interview Corpus (DAIC)

lieberman and meyer (2013) Crisis Text Line Text data

Is

Trang 20

trong các công trình được

được sử dụng qua các năm trong một số nghiên cứu

cứu đã thực hiện việc huấn luyện bằng cách tự tạo ra một bộ dữ liệu [4], [25]

Nhóm túc giả [26] đã đề uất hệ thống sử dụng kỹ thuật xử lý ảnh dùng để phát hiện

trằm cảm ở sinh viên trong môi trường đại học qua hai biểu cảm tích cực và tiêu cực Trong nghiên cứu [20], các tác giả đưa ra phương pháp mới là sử dụng mạng tích chập giãn thời

gian (Temporal Dilated Convolutional network TDCN) đẻ học thông tin thời gian từ các

chuỗi sau đó sử dụng mô-đun (Feutre-\Wise Atention - EWA) kết hợp các đặc trơn khác

để nhận diện nguy co trằm cảm tiém ấn dựa rên hai loại mô hình Deep Belief Network

ih còn lại trích xuất đặc điểm động

3D từ các điểm khuôn mặt 3D được thu thập bởi Kinect Ngoài ra, để mở rộng phạm vi được thụ thập bởi máy ảnh quang học, trong khi mô

nghiên cứu, các nhà nghiên cứu cũng đã áp dụng mạng nơ-ron tích chap Convolutional 2D duge sit dung chit yéu dé xir ly hinh ank tinh va di igu 2D, trong khi CNN 3D mở rộng 4p dụng lớp tích chập cho dữ liệu thời gian hoặc dữ liệu không gian ba chiễu, như video và cdữ liệu hình ảnh y tế [27], [28] [29] [301

Bén cạnh dùng cảm xúc để phát hiện trằm cảm thì từ rất lâu việc nhận dạng trằm cảm

«qua giọng nói đã được nghiên cứu và chứng minh từ quá khứ đến hiện tại Giọng nói cũng

nói hoàn toàn có thểbị ảnh hưởng bôi trạng thấ in thn cia chi thể, Nghiên cứu [31] 16

Trang 21

cảm nga là khi mức độ trầm cảm tăng theo điểm của thang đo trầm cảm Halrilon [5Ð]

[33] đã chứng mình được rằng giọng nói của người trầm cảm có liên quan đến thời gian

nói Bên cạnh đó còn có các đặc điểm âm thanh khác như shimmer, jiter, cao độ và năng

lượng hay độ nung trong long nói, cúc đặc điểm còn liên quan đến âm lượng hay tin sé

134] [34], [35] [36] Công trình |37| thực hiện loại bỏ các phần im lặng dài của mỗi tập

âm thanh và ghép phần còn lại thành một tệp mới Sau đó, mỗi tệp mới được gần nhăn đại

tắn số Me là đặc trương của tín hiệu nối được trích xuất để biểu diễn các đặc điểm riêng

liên quan từ âm thanh Ba loại của bộ mã hóa đã được thử nghiệm, đó lả ID CNN, 1D

'CNN-LSTM và ID CNN-GRU [39] [40] so s nh các mô hình và đặc điểm khác nhau để nhận diện lo âu và trầm cảm từ tín hiệu âm thanh của lời nói tự nhiên bao gồm mạng tích

mồ hình học máy truyễn thông

Ngoài ra, văn in cũng được xem là một phương tiện phố biển để diễn đạt cảm xúc

và tâm trạng Điều này đặc biệt quan trọng rong các nghiên cứu về trằm cảm và tâm trạng của con người bằng việc phân tích văn bản để thấy được các dấu hiệu ngôn ngữ liên quan đến tình trạng trầm cảm [41] Phân tích văn bản có tử nhiều nguồn khác nhau, chủ yếu là các bài đăng trên mạng xã hội, diễn đàn, và các cuộc trò chuyện hoặc phỏng vấn Các nhà

nghiên cứu tại trường dgi hoc Massachusetts Institute of Technology (MIT) đã phát triển phỏng vẫn, nhận biết dấu hiệu căng thẳng của tâm lý thông qua ứng dụng di động [42] Ở cdụng ngữ pháp và từ vựng đặc trưng của người mắc trằm cảm, thông qua việc phân tích

ce miu văn bản từ những người tự nhận mình bị trằm cảm trên các diễn đân trực tuyển

[43] Cae nghiên cứu phân tích văn bản của người dùng từ mạng xã hội như Reddit, Weibo, 'Twiter để chân đoán trầm cảm cũng ngày cảng phổ biển [44], 45] [46]

7

Trang 22

Đối với vẫn đề nhận điện trim cảm đôi khi gặp khó khăn trong một số trường hợp, hoặc dự đoán không chính xác quả nhiều Chính vi điều đó, nhiều công trình hướng đến sự

vào một loại đữ lêu như hình ảnh, âm thanh hoặc vấn bản thì đa phương thức cho phếp hợp thông ti từ nhiều nguồn khác nhau giúp đa dạng dữ iệu 471 [2] kết hợp dữ iệu từ

khuôn mặt, âm thanh, văn bản được ghi nhận lại trong cuộc phỏng vấn và kết hợp phương

pháp đình giá truyền thông để phân loại từng mức độ của người rằm cảm Các nghiên cứu sir dung Deep Convolutional Neural Netwok (DCNN) gồm nhiều lớp tích chập kết hợp hình ảnh và âm thanh để tạo ra một dự đoán chính xác hơn về mức độ tằm cảm

15}, [48], [49] Ying Shen va cộng sự để xuất BiLSTM và GRU cho dữ liệu âm thanh và

‘vin ban [50] Ở nhóm nghiên cứu khác trình bày một mạng nơ-ron mới dựa trên sự chú ý

đđa cấp độ cho việc dự đoán trằm cảm đa phương thức, kết hợp các đặc điểm từ các phương

thức âm thanh, hình ảnh và văn bản ng cường việc học ng thể bằng cách chọn ra các

đặc điểm ảnh hưởng nhất trong mỗi phương thức [51]

“Tổng quan những công tình nghiên cứu để cập phía rên à những phương phấp học sâu đã và đang được các nhà nghiên cứu sử dụng rộng rã trong bài toàn *Phát hiện dẫu

hiệu trằm cảm”, Cụ thẻ, các phương pháp này được áp dụng trong các lĩnh vực cảm xúc,

âm thanh, văn bản và đa phương thức Sựiến bộ và phát iển đáng k trong các công tình trang thai tim trạng nhưng vẫn tổn ti một số thách thức và khó khăn đối với bài toán trằm

1⁄3 Thách thức tronglĩnh vực nghiên cứu

Mặc dù có sự tiến triển trong việc áp dụng các phương pháp học sâu vào bài toán

phát hiện trầm cảm, song vẫn tồn tại một số hạn chế Một trong những thách thức lớn nhất

là tính đa dạng và phúc tạp của dấu hiệu rằm cảm Không giống như các cảm xúc rõ ng

như vui, buồn, hay tức giận, nhiều dấu hiệu của trạng thái trằm cảm thường không được

Is

Trang 23

trong khi những người khác có thể én dấu Điễu này ầm cho việc định nghĩa và nhận di

trầm cảm trở nên khó khăn, Vì thể việc hiểu và phân tích được tắt cả các khía cạnh này đồi với sự đồng góp của chuyên gia trong quá trình chẩn đoán

Ngoài ra, các vấn để về bảo mật và quyền riêng tư cũng đang trở thành một thách

thức lớn trong việc phát triển các hệ thông phát hiện trim cảm dựa tên dữ liệu cá nhân Sự

nhạy cảm của thông tin cá nhân đồi hỏi các phương pháp phát triển phải đảm bảo tính bảo, mật và đạo đức trong việc sử dụng và xử lý dữ liệu của người dùng: Chối cùng, một rong những vấn đề nan giải là dữ liệu mắt cân bằng Dữ liệu về trằm cảm thường không cân bằng, hiện nay số lượng các mẫu thu thập được từ nhóm người

bi trim cam ft hon so với nhôm người không bị trằm cảm và cũng không đa dạng người

Điều này có thể làm cho mô hình dự đoán không chính xác, do nó được học nhiều về nhóm

da số hơn là nhôm thiểu số

Do đó, việc kết hợp nhiễu đặc trưng từ các phương pháp khác nhau để hỗ trợ phát

hiện

trằm cảm giúp cải thiện tỉ lệ chính xác là một bài toán cần được nghiên cứu và phát triển mạnh mê trong tương lai

Trang 24

CHUONG2, COSOLY THUYET 2.1 Thuyếttâm lý học và lịch sử của trằm cảm

3.1.1 —_ Lịch sử phát triển trong nghiên cứu về bệnh trim cảm

Sự ghi chép trong [52] về trường hợp trằm cảm có thể xuất hiện vào năm 2 trước

Công Nguyên tại Mesopotamia một khu vực lịch sử ở Tay A, trong bản ghỉ lịch sử này

theo quan điểm của người cổ đại im cim được coi là một hiện tượng tâm nh, chứ không phối vẫn để ức khỏe, Thuật ngữ được sử đụng đầu tiên đ mô tá trằm cảm là *melancholid" nghi là "mật Từ "melancholis" ban đầu ám chỉ một tinh trang tinh thin đen tối và bi nhiều nên văn hóa khác nhau, bao gdm ci Hy Lap, La Mã, Babylon, Trung Quốc và Ai

biệt, như sử dụng đánh đập, hạn chế vận động và thậm chí bỏ đói đến chết, nhằm mục đích

“âu n tượng siêu nhiên đó ra khỏi người bệnh [52]

“Trong khi có nhiễu sự nhận định về nguyên nhân gốc rễ của trầm cảm là xuất phát

tử thế lực siêu nhiên, thì có một số bác sĩ Hy Lạp và La Mã cổ đại khẳng định và ún rằng trằm cảm là một căn bệnh sinh học và tâm lý I53] Hippoerates được biết đến là "cha để

48 xuit trong học thuyết thé dich [54] ring trằm cảm do bốn chất lòng không cân đối trong

cơ thể là mật vàng, mật đen, đờm và máu tạo thành, cụ thể trầm cảm được gây ra bởi sự

tích tụ quế nhiều mật đen rong lồ lách

Vào năm 865.925 sau Công Nguyên, một nhà bác học Ba Tư tên là Rhazes đã nhìn hận rằng bệnh tâm thần bắt nguồn tử não [55] và phương pháp điều trị là tẩm một loại

1621, Robert Burton đã xuất ban cu iái phẫu của Melancholy" [56] trong đó ông đề

sập đến các nguyên nhân xã hội và tâm lý của trằm cảm như nghèo đối, nỗi sự hãi và cô đơn Trong cuốn sách này, ông đưa ra các khuyến nghị như chỉnh sửa chế độ ăn tổng, tập

20

Trang 25

tr liệu trong điều trị tằm cảm,

[Nam 1895, người sán lập khoa tâm thằn học khoa học hiện dại, được lý học tâm

thần và di truyền học tâm thần ở Đức - Emil Kraepelin trở thành người đầu tiên phân biệt

bệnh rằm cảm dựa trên thuyết tâm lý [57]

2.1.2 Khái niệm trầm cảm

Đến thập ký 1960 và 1970, các lý thuy

Nhà tâm thần học Aaron Beck đề xuất rằng những suy nghĩ tiêu cực về bản thân và sai lâm t nhận thức về trằm cảm bắt đầu xuất hiện

trong việc xử lý thông ú là nguyên nhân của ác triệu chứng trim cảm [58] Nhà tâm lý

cảm [59] Theo lý thuyết này, con người thường bỏ cuộc trong việc cổ gắng thay đối hoàn

cảnh của mình vì họ cảm thấy không thẻ thay đổi được Sự thiểu kiểm soát này khiến người

Ngày nay theo WHO, trim cảm được đặc trưng bởi cảm giác buồn bã kéo

mắt đi niềm vui và sự quan tâm đến các hoạt động sinh hoạt hàng ngày [I] Các cá nhân

sặp phải inh trạng này thường chịu ảnh hưởng bởi nhiễu triệu chứng khác nhau ở thể chất

lẫn tỉnh thần Điều này bao gồm sự thay đổi về cân nặng, khó ngủ, cảm giác mệt mồi và

những suy nghĩ tiêu cực về bản thân thậm chí có thể đi đến mức suy nghĩ về tự tử Giai đoạn trầm cảm là một đoạn gây ối loạn cảm xúc kéo đài nhất 2 uẫn

hoặc hơn [62], trong giai đoạn đó bệnh nhân có các triệu chứng như cảm thấy buổn bã, côi

đơn, đễ cáu kinh, ôi tệ, lo âu và bồi ỗi Những triệu chứng đó đi cũng với các triệu chứng

21

Trang 26

tạp [64],

“Trong một nghiên cứu về các biểu hiện của trằm cảm [65], các nhà nghiên cứu đã

nhận ra một số đặc điểm của người trằm cảm qua hành vi phi ngôn ngữ và biểu hiện cơ thể

như cảm xúc khuôn mỹ ông tác đầu, cách nhìn và các hành vi, So với những người không mắc bệnh, người rằm cảm đa số thường th hiện sự khác biệt rõ rệt với mọi người như ít iao tiếp bing mit, it cười cũng như hạn chế những hoạt động xã giao rong cuộc sống Một nghiên cứu I4) đã được tiến hành và tìm ra những động tác cơ bản của các

nhóm cơ mặt sử dụng trong phân tích biểu hiện khuôn mặt và cảm xúc loạt động tác này

sợi à Các đơn vị hành động (Aetion Units ~ AU) Kết quả nghiên cứu cho thấy sự chuyển

động của nhóm cơ mặt đa số được người trằm cảm là Action Unit 12 (AU12) với biểu hiện

sua sự nhu mày đồng thôi ít cười ở những bệnh nhân trằm cảm nặng Ngoài ra, Action

Unit 14 (AU14) với cảm xúc khinh thường được xác định là yếu tố quan trọng và khá chính

xác trong việc nhận diện trằm cảm [4] [66] Một số AU mình hoạ ở Hình 2.1 và Hình 2.2

Trang 27

‘evar bi superiors equ nasi ican oul `

10 Levatr abi sper

11 Levatoranguliois aa, Canious)

Mouth setchad open

“Hình 2.2 Téng hgp 27 Action Unit dau tiên

Cy thé, ngudi mắc trầm cảm thường có các đặc điểm như chuyển động nhỏ và kéo

di cia db, tự chạm vào cơ thể thường xuyên hơn và thời gian tiếp xác mắt ngắn hơn trong

ổi tiếng được thục hiện vào năm 1959 do tiễn sĩ, bác sĩ tâm thần học Heinz Lehmann thực việc giảng dạy ở trường đại học y khoa cho thấy các biểu hiện đa số của người trằm cảm 'vừa nêu trên có trong bộ phim

Trang 28

Ngoài ra nghiên cứu [T0], [71] còn chỉ ra yêu tổ kích động của bệnh nhân nhữ là sự

bn chồn trong lúc ngồi, liên tục chạm vào bản thân một cách lặp di lặp lại Ngoài ra cồn

ở một người trằm cảm khuôn mặt sẽ để lộ các cảm x tiêu cực nhiều hơn

"Bên cạnh đó đặc trưng âm thanh cũng được quan tim, bệnh nhân trằm cảm với sự châm chạp vận động cũng có thể thể hiện phản ứng chậm, cụm từ đơn điệu và khả năng

số âm thanh thường kém hon [6ố] Và với xã hội ngày nay việc thể hiện cảm xúc tiêu cực qqua mạng xã hội cũng được quan tâm khi mà bệnh nhân thường có xướng đăng tải các đồng trạng thái tâm trạng tiêu cực trên mạng xã hội

2.1.3 Phương pháp đánh giá truyền thống

"Trước khi các phương pháp học máy hỗ trợ cho việc phát hiện trằm cảm trở nên phổ

biển, phần lớn công cụ đánh giá tâm lý học truyễn thống để phát hiện trầm cảm đa số

câu hồi

Các báo cáo về rối loạn sức khỏe truyễn thống như Bảng kiểm tra tằm cảm cia Beck (Beck's Depression Inventory - BDLID I72], Thang đánh giá tằm cảm PHQ (Patient

Health Questionnaire) [73] va Thang danh gia tram cảm Hamilton (Hamilton Rating Scale

for Depresion — HRSD) 74] thường được sử dụng trong việc chẳn đoán

s# Thang đánh giá trầm cảm Beck

Bảng kiếm tra rằm cảm Beck (Becl°s Depression Inventory - BDI-ID được phít

triển bởi ông Aaron Temkin Beck ~ mot bie si tim thần người Mỹ và các đồng nghiệp của

ông Đây là một trong những bài kiểm tra tâm lý được sử dụng rộng rãi nhất để đo lường

mức độ nghiêm trọng của bệnh nhân bị tằm cảm Bảng kiểm tra này được thiết kế để đánh

siá các khía cạnh của trằm cảm như buồn bä, suy nghỉ tiêu cực và tự trách bản thân,

bằng việc bệnh nhân sẽ chọn câu tr ôi ốt nhất phản nh trạng thi cảm xúc của họ trong

24

Trang 29

thời gian gần đây Sau khi in đầy đủ các câu tả ài, điểm số tổng của bảng kiểm tra sẽ được tính toán Điễm số càng cao thì mức độ bị trim cảm càng nghiêm trọng Phiên bản đầu tiên của Bảng kiém tra trim cảm Beck la (Beck's Depression

Inventory - BDI) được xuất bản đầu tiên vào năm 1961 gồm 17 câu hỏi liên quan tới cảm

xúc được trải qua trong một tuần Sau đồ được chỉnh sửa và xuất bản vào năm 1996 với

tên BDLII để thêm các tiêu chuẩn ding để chẩn đoán cho rối loạn trim cảm Giống như BDI, BDI-II bao gồm 21 câu hỏi dùng để đánh giá cảm xúc trong hai tuần, mỗi câu trả lời

dâng để kết luận cho bệnh nhân rằm cảm

Bảng 2.1: Bảng thang điểm kết luận mức độ theo Beck

+ Thang dénh gid trim cam PHQ

‘Thang đánh gid trim cảm PHQ còn được gọi là "Patient Health Questionnaire for Depression” PHQ là một phan của công cụ chẩn đoán tâm thân (Primary Care Evaluation

“Tâm thần Johns Hopkins ở Mỹ Đây là một công cụ hỗ trợ chẳn đoán tằm cảm được được 0]

'Có 2 phiên bản của Thang đánh giá trằm cảm PHQ được ứng dụng rộng rãi đặc biệt

là trong mỗi trường lâm sàng và rắt phổ biển ở các cơ sở y tế chăm sóc cơ bản đồ là PHO-

'9 và PHQ-8 Cụ thể, PHQ-9 gồm 9 câu hỏi được thiết kế để đánh giá các triệu chứng của

trằm cảm và trường hợp bệnh nhân có suy nghĩ tự tử [77L Tương tự, PHQ-š sẽ gồm 8 câu

Trang 30

-% Thang đánh giá trầm căm Hamulton

Thang đánh giá rằm cảm Hamilton (Hamilton Rating Seale for Depression —

'HRSD) còn được viết tắt là HAMD, Công cụ này được phát triển bởi Max Hamilton - một

hà tâm thần học người Đức vào năm 1960 và cập nhật các phiên bản mới trong những diya trên quan sát và đánh giá của chuyên gia Thang đo nảy được thiết kế để đo lường các

và suy nghĩ tự từ

Phiên bản HAMD-1 là phiên bản phổ biến nhất với 17 câu hỏi được đánh giá trong

30 phút Giống như các thang đo trằm cảm khác, thang đo HAMD cho bệnh nhân chọn câu

câu trả lời điểm số tổng của bảng kiểm tra sẽ được tính toán và phân loại các mức độ.

Trang 31

TOTAL SCORE LEVEL OF DEPRESSION

22 Giớithiệu mạng no-ron nhân lạo

Mặng nơ-ron nhân tạo (Artificial Neural Network ANN) là một cầu trúc tính oán

được lấy cảm hứng từ hoạt động của hệ thông nơ-ron trong não bộ của con người Trong

hệ thống thẫn kính của cơn người, các nơ-ron được tổ chức hành các mạng lưới phức tạp

với mỗi nơ-ron được kết nổi với nhau Mô hình ANN được xây dựng dựa trên cấu trúc này,

cho phếp nó họ kiến thức thông qua quá tình hun luyện, ưu trở những trì thức đồ và sử

dụng trì thức để dự đoán kết quả cho dữ liệu mới mả nó chưa từng thấy trước đây

Mạng ANN gdm ba lip chink lip du vio (input layer), ee Ie in (hidden layers)

và lớp đầu ra (outputlayer) Mỗi nơ rontrong mạng có nhiệm vụ nhận thông ti từ lớp dd

vào, truyền qua các lớp ẫn đẻ xử lý đặc điểm của đữ liệu vả sau đó đưa ra kết quả cuối cùng

tại lop du ra Hình 2.3 biển thị kiến trúc tổng quất của ANN với các đường kết ni giữa

các nơ-ron với nhau,

Trang 32

Hình 2.4:

đến trúc của một nơ-ron Hình 2.4 mình họa cách đồng tín hiệu từ các đầu vào xị, ụ dĩ chuyển theo một thị bằng các mũi ên Đây được xem như là dòng tín hiệu đầu ra của

Trang 33

được tính như công thức (3) [79)

= ala) = {if 7x +b) 20

Với T là ma trận chuyển vị, b là bias và Ø được gọi là ngưỡng Trong ngữ cảnh này,

Ø đồng vai trò quan trọng trong quá trình quyết định nơ-ton có kích hoạt (output 1) hay không (output 0) dựa trên tổng trọng số của các nơ-ron đầu vào

Dựa vào sự biểu diễn của công thức, hàm kích hoạt là một hàm số được áp dụng

cho két guả đầu m của mỗi nơ xon sau khi tính toán tổng trọng số của đầu vào Hàm kích (R0, Nếu thiểu hàm kích hoạt, mạng nơ ron chỉ có khả năng biểu diễn hàm tuyển tính đơn kích hoạt được sử dụng trong để ti của chứng tôi

22.1 Rectified Linear Activation

Ham kich hogt Rectified Linear Unit (ReLU) I mét ham kich hoạt phổ biến trong

sác mạng nơ ron được định nghĩa bằng cách cho đầu ra bằng đầu vào nêu đầu vào là đương

'và bằng không nếu đầu vào là âm ReLU được định nghĩa qua công thức (4):

Trong đó, x à biển đầu vào của mạng nơ ron ReLU là tuyển tính (đồng nhất) với

tắt cả giá tị đương và bằng không với tắt cả giá tị âm Tuy nhiên, phạm vi giá trị đầu ra

ita n6 6 th từ 0 đến vô cục Một trung những li ích Khi sử dụng ReLU là sự đơn giản

neral được kích hoạt với một hoặc nhiều gi trị làm nâng cao tính đa đạng của biểu diễn

29

Trang 34

ra các giá trị đầu ra rất lớn, do đồ chúng có khả năng gặp vẫn để bùng nỗ gradient cao,

22.2 Scaled Exponential Linear Unit

Hàm kích hoạt Scaled Exponential Linear Unit (SELU) giới thiệu vào năm 2017 bởi

Klambauer [81] cùng các cộng sự để kích hoạt các biểu diễn trừu tượng cấp cao SELU

dng trong Self-Normatizing Neural Networks (SNN) drge thiết kỂ khả năng tự điều chỉnh

và duy sự ôn định trong quá tình học

“Trong một mạng nơ ron với một hàm kích hoạt ƒ cụ thể, xét hai lớp được nối với

nhau bing ma tn tong số Iứ, Đầu vào của một mạng là biển ngẫu nhiên, các biển kích

hoạt tại lớp dưới là x, đầu, (2) ở lớp trên cị

sắc biển ngẫu nhiên Giả sử các kích hoạt; ở lớp dưới có trung binh = E(xf) và phương

sai v = Var(x;) Một kích hoạt y ở lớp trên có trung bình í = E(y) và phương sai Var(y) Xế ánh xạ g (5) biến đổi trung bình và phương sai của các biển kích hoạ từ lớp này sang lớp khác với:

6)

CCác kỹ thuật chun héas@ dim bio 1 dah xa g gita tring binh va phuong sai gin với các giá trị được định trước thường là (0,1) SNN có một ánh xạ g: 2 -+ /? cho mỗi kích

hoại y mà biển đổi rung bình và phương ai từ lớp này xung lớp khác sẽ luôn có một điểm

số định và hấp đẫn hy thuộc vào một miễn giá tị trong /?, tức là Ø0) € /, nơi mà /?

{Ge¥) | 1 € [yonin, pmax], v € [vmin, vmax]} Khi áp dụng lặp đi lặp lại ánh xạ g mỗi

điểm trong / sẽ hội tụ về điểm cổ định này Từ đó giúp giải quyết vẫn đề vanishing gradient

‘va exploding gradient trong quá tình huắn luyện mạng neural su

Trang 35

+ _ Khi đầu vào là đương, SELU hoạt động như một hàm tuyến tính có độ dốc A

*- Khi đầu vào là âm, SELU sử đụng ø và Â để tạo ra một hàm ngã về không nhưng, không bao giờ đạt giá trì chính xác bằng không, nhằm ngăn chặn vấn để vanishing gradients

"Trong ngữ cảnh của mạng neural,ø và z thường được sử dụng để chỉ trung bình và phương sai của vector trọng số tương ứng Khởi tạo trọng số là bước quan trọng khi xây

cưng mạng neural vi né 6 thé ảnh hưởng lớn đến quá trình học của mạng Việc khởi tao

Sigmoid là hàm phi tuyẾn tính với khả năng nhận giá tị đầu vào là các số thực và

cho kết quả đầu ra nằm trong đoạn [0: 1] Khi giá trị đầu vào càng lớn, giá trị đầu ra của

hàm Sigmoid sẽ tiệm cận gần với 1, và ngược lại, khi giá trị đầu vào càng âm lớn, giá trị

đầu ra sẽ tiệm cân với 0 Biểu in toán học của hàm sẽ có dang (7)

Trang 36

ie

Ham sigmoid I Iya chon ph biển cho hàm kích hoạt rong các mô hình học sâu và mạng nơ-ron, nhất là khi cằn đầu ra có tính xác suất Ngoài ra, hầm Siemoid cồn có tính vi chữ của đồ tị hầm Sigmoid ại điện cho sự chuyển tiếp mượt mà giữa các gi ị đầu

ra giúp ngăn chặn sự thay đổi đột ngột hay nhảy vợ trong các giá tị đầu ra

+ Cơ chế lan truyền

CCorché lan truyền thẳng (Eesdforvard) trong mạng nơ-ron nhân tạo đơn giản là quả trình dữ liệu ch di chuyển một chiều từ lớp đầu vào, qua ác lớp ẫn và đến lớp đầu ra mà

đầu vio đến đầu rà

“Cơ chế lan truyễn ngược (Backpropagation) đồng vai tr cốt lõi tong tối ưu hóa trọng số và độ lệch nhằm giảm thiểu sai số giữa giá trị dự đoán và giá trị thực tế, Một mạng no-ron nhân tạo hiện đại hoạt động qua hai pha chính:

Giai đạn Lan truyền thẳng: Trong giai đoạn này, d liệu đầu vào được tiếp nhận

và xử lý từ lớp này sang lớp khác Mỗi nơ-ron, thông qua tổng trọng số của các đầu vào vài

‘ip dung him kích hoại, chuyển tiếp thông in cho đến khi đạt được kết quả cuối cùng (Giai đoạn Lan truyền ngược: Phát huy sức mạnh sau quá tình dự đoán, hàm lỗi (khoảng cách giữa kết quả dự đoán và thực tổ) được phát hiện và sau đó được lan truyễn ngược lại để điều chỉnh trọng số và dự đoán sai lệch dựa trên phần lỗi đó

2 3 Giới thiệu mạng no-ron tích chip Convolutional Neural Network

‘Mang no ron tích chập hay (Convolution Neural Network ~ CNN) CNN thyéng

duge sir dung chủ yếu trong nhận dạng dữ liệu hình ảnh giúp tích hợp các đặc điểm cụ thể

“của hình ảnh vào: én tric mạng Kiến trúc CNN thường có 3 loại lớp: Convolution (Conv),

Trang 37

Pooling (Gp), Fully connected (FC) Két nd tổng hợp Quy trình của một CNN sẽ à 4 giai đoạn — qua 4 lớp

Hình 2.6: Kiến trúc mạng nơ-ron tích chap CNN chập là lớp đầu tiên khi dữ liệu được đưa vào để ron tich hợp bộ lọc có khả năng tự đổi trong mạng nơ-

thực hiện một cách cân nhắc để tránh đặc trưng quan trọng

«- Lớp kết nối day da (Fully Connected)

Lay Fly Connected FC) tons yah ch ee noon được px ng mộ sang neon tuyễn hồn Mỗ nấ tong lớp EC được nỗ tục ếp với mọi nt rung

Èn sau Nhược điểm chính của lớp EC là nó bao gồm nhiều tham 33

Trang 38

số cần phải ính toán phức tạp ong các ví dụ huẳn luyện Do đó, cằn giảm số lượng nút

dropout

24 GiGi thiệu mạng nơ-ron hồi quy Recurrent Neural Network

Mạng nơ son hồi quy (Recurent Neurdl Netvork - RNN) được thiết kế đc biệt để

xử lý dữ liệu tuần tự như chuỗi thời gian hoặc văn bản, có Khả năng "thó” thông tin tờ quá

và được sử dụng rộng rãi trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên, dịch máy, dự

ứng dung khác Cấu rúc cơ bản của RNN bao gdm đơn vị

đoán chuỗi thời gian,

tập bại trạng thái ân và kết ni trọng số

lưu lượng thông tin di qua mạng giúp mô hình “nhớ” thông tin trong thời gian đài

«+ Gated Reeurrent Unit (GRU): GRU là một biến thé khác của RNN, tương tự như

LSTM nhưng đơn giản hơn về cấu trúc Nó giữ lại một phần của thông ti từ quá khổ thông

gi quyết vẫn đề sự biển mắt của gradienL Nó sử dụng các ng (gate) dé

qua công cập nhật, giúp giảm thiểu vấn đẻ biển mắt của gradient + Bidirectional RNN (BIRNN): BIRNN két hop cả hai hướng truyền với nhau, từ

quá khứ đến tương lai và từ tương lai đến quá khứ để nắm bắt được thông tin từ cả hai

"hướng trong dữ liệu tuần tự.

Trang 39

«+ Attention Mechanism: Co ché attention cho phép mô hình INNN tập trùng vào các phin quan trọng của dữ liệu đầu vào giúp cải hiện khả năng "nhớ” và hiệu suất mồ hình 2⁄8 Giớithiệu mạng Long Short-Term Memory

Long ShorcTerm Memory (L.STM) là một biển thé ea mang no-ron hi guy (RNN)

được thiết kế để xử lý và đự đoán các thông tin dang chudi (sequences/time seris) Dé gi

đỀ xuất cải tiễn này bỗ sung một thành phần mới vào ô hồi quy truyỄn thống, đó là các công điều khiển, nhằm tăng cường năng lực lư giữ thông tin Từ nên tăng ban đẫu,LSTM đã tri qua nhiễu cái iến và phát iển do sự đồng góp,

của nhiều nhà nghiên cứu, đã có nhiều biển thể và một ö nhớ sẽ có ba loại công: công đầu

vào, cổng đầu ra và cổng quên LSTM sẽ sử dụng các cổng để kiểm soát luỗng thông tin

«qua trang thái ẳn, giúp mạng học và lưu trữ thông tin từ lâu hơn và tử xa hơn

‘+ Céng quên (Forget gate)

Céng quên trong mạng nơ-ron hồi quy (RNN) đóng vai trò quan trọng trong việc định xem phần nào của thông tin tir

nh học

quản lý và lọc thông tin Nó cho phép mô hình quy:

trạng thai dn trade đó nên được bảo lưu và phẩn nào n

ích hoạt sigmoid giúp xác định mức độ quan n bị loại bỏ trong quá ú Điều này được thực hiện thông qua him

trọng của mỗi phần tử trong trạng thái ẩn, từ đó cung cấp cho mô hình khả năng "quêt thông tin không quan trọng và giữ lại thông tin quan trọng

« Bí thé Bidirectional Long Short-Term Memory

Bidirectional Long Short-Term Memory (Bỉ-LSTM) là một loi mạng xử ý dữ tuần tự theo cả ai hướng tiện và lùi Nó kế thừn kiến trúc cơ bản từ LSTM với việc xử lý

đầu vào

Lợi ích nỗi bật của Bi-LSTM chính là khả năng của nó trong việc thu thập thông tin

xuối Diễu này cho pháp Bi-LSTM nắm bắt được một

35

đẫy đã giữa chiều ngược và chỉ

Trang 40

bức tranh toàn diện và phong phú của các mỗi liên kết và phụ thuộc trong dữ liệu đầu vào, tối ưu hỏa khả năng hiểu và xử lý chuỗi dữ liệu một cách chính xác và sâu sắc hơn Kiến trúc Bỉ-LSTM có thể được thy chỉnh và mở rộng bổ sung thêm các lớp hoặc

cơ chế như chú ý, nhằm phù hợp với yêu cầu đặc thù của từng nhiệm vụ, nâng cao khả

năng và hiệu suất của mô hình

2.6 Gi6i thigu Hierarchical Attention Networks

Mang Lưới Chú ¥ Phin Cp (Hierarchical Atention Networks = HAN) Ia mgt m6 ình tiên tiến rong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và học sâu được thiết kế để cải

Xhỏ năng hiểu và xử ý dữ iệu văn bản đài bằng cách áp dụng cơ ch chú ý một cách

số hệ thống và phân cấp Kiến tric HAN gdm 4 phần: một bộ mã hóa chuỗi từ (worl

sequenee encoder), lớp chú ý cấp độ từ (word-level attention layer), bộ mã hóa câu

(sentenee ensode) và lớp chú ý cấp độ câu (sentene-evel atentio layer) Ch tiết về kiển

trúc của mô hình được minh họa trong Hình 2.6 [82]

Hình 2.8: Kiến trúc HAN

36

Ngày đăng: 30/10/2024, 13:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w