Lời cam đoanTôi xin cam đoan rằng luận văn thạc sĩ hệ thống thông tin "Các mô hình học sâu tiêntiến và ứng dụng trong phân tích chuỗi thời gian lâm sàng" là công trình nghiên cứu dotôi t
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ CẨM VÂN
CÁC MÔ HÌNH HỌC SÂU TIÊN TIẾN
VÀ ỨNG DỤNG TRONG PHÂN TÍCH CHUỖI THỜI GIAN LÂM SÀNG
LUẬN VĂN THẠC SĨ Ngành: Hệ thống thông tin
HÀ NỘI - 2019
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Cẩm Vân
CÁC MÔ HÌNH HỌC SÂU TIÊN TIẾN
VÀ ỨNG DỤNG TRONG PHÂN TÍCH CHUỖI THỜI GIAN LÂM SÀNG
LUẬN VĂN THẠC SĨ Ngành: Hệ thống thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ
TS Trần Mai Vũ
HÀ NỘI - 2019
Trang 3Tóm tắt
Trong thập kỉ qua, lượng dữ liệu được lưu trữ trong hồ sơ sức khỏe điện tử (ElectronicHeath Records) tăng lên nhanh chóng, việc sử dụng các hệ thống EHR đã tăng lên rấtnhiều ở cả bệnh viện và cơ sở chăm sóc Các hệ thống EHR lưu trữ dữ liệu liên quan đếnmỗi lần gặp bệnh nhân, bao gồm thông tin nhân khẩu học, chẩn đoán, xét nghiệm và kếtquả trong phòng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng Mặc dùđược thiết kế chủ yếu để cải thiện hiệu quả chăm sóc sức khỏe từ quan điểm vận hành,nhiều nghiên cứu đã tìm thấy việc sử dụng cho các ứng dụng tin học lâm sàng
Trong những năm gần đây, cộng đồng nghiên cứu về chăm sóc sức khỏe ứng dụngcác công nghệ trí tuệ nhân tạo ngày càng tăng để cung cấp các phương pháp phân tích dữliệu lớn và hỗ trợ ra quyết định trong chẩn đoán lâm sàng Một trong những lý do chínhcho điều này là tác động to lớn của việc áp dụng các kĩ thuật học sâu để sử dụng dữ liệulớn trong các trường hợp phân tích hồ sơ chăm sóc sức khỏe phức tạp
Luận văn sẽ xây dựng một mô hình học sâu áp dụng cơ chế Attention kết hợp vớimạng BiLSTM dự đoán sự kiện lâm sàng cho 3 sự kiện mục tiêu đó là Nhiễm trùng máu(SEPSIS), Nhồi máu cơ tim (MI), và nồng độ Vancomycin trong huyết thanh sau 24 giờdùng thuốc Vancomycin
Đồng thời, luận văn trích xuất các đặc trưng tương ứng với 3 sự kiện mục tiêu từ cơ
sở dữ liệu MIMIC-III và xây dựng mô hình cơ sở sử dụng các mô hình độc lập: LSTM,Attention và BiLSTM để làm nổi bật tính hiệu quả của mô hình kết hợp đề xuất
Từ khóa: Dự đoán sự kiện lâm sàng, EHR, MIMIC-III, Nhồi máu cơ tim, Nhiễm trùng
huyết, Vancomycin, Học sâu trong y tế.
Trang 4Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới PGS.TS Hà Quang Thuỵ,người thầy đã mang đến cho em nguồn cảm hứng vô tận trong nghiên cứu khoa học Emthật sự biết ơn những giúp đỡ, lời khuyên và sự tận tình hướng dẫn của thầy trong luậnvăn cũng như định hướng nghiên cứu trong suốt thời gian học tập và làm việc tại PhòngThí nghiệm và Công nghệ tri thức (DS&KT Lab - Đại học Công nghệ, Đại học quốc gia
Hà Nội
Em muốn gửi lời cảm ơn sâu sắc đến TS Trần Mai Vũ, người đã tận tình chỉ bảo,hướng dẫn, động viên và giúp đỡ em không chỉ trong quá trình thực hiện đề tài luận vănnày mà còn trong suốt quãng thời gian học tập và nghiên cứu tại Phòng Thí nghiệm
Em xin gửi lời cảm ơn sâu sắc tới quý thầy cô giáo trong Khoa Công nghệ thôngtin nói riêng và trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nói chung, đãtruyền đạt kiến thức quý báu cho em trong những năm tháng ngồi trên ghế nhà trường
Em xin gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong DS&KTLab, đặcbiệt là chị Quỳnh, chị Hồng, chị Yến, Trang và Cát đã giúp đỡ em rất nhiều trong việc
hỗ trợ kiến thức chuyên môn để hoàn thành luận văn tốt nghiệp này
Cuối cùng, con xin nói lên lòng biết ơn vô hạn đối với gia đình, những người luônluôn chăm sóc, là nguồn động viên, khích lệ con, giúp con vượt qua những khó khăntrong cuộc sống Gửi tới chồng em, cảm ơn anh đã luôn bên cạnh em qua bao thăng trầmtrong cuộc sống, luôn là điểm tựa vững chắc để em vượt qua mọi khó khăn và cố gắnghoàn thiện bản thân mình từng ngày
Tôi xin chân thành cảm ơn!
Trang 5Lời cam đoan
Tôi xin cam đoan rằng luận văn thạc sĩ hệ thống thông tin "Các mô hình học sâu tiêntiến và ứng dụng trong phân tích chuỗi thời gian lâm sàng" là công trình nghiên cứu dotôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thuỵ và TS.Trần Mai Vũ.Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều được trích dẫnnguồn gốc rõ ràng từ danh mục tài liệu tham khảo của luận văn Trong luận văn này,không có việc sao chép tài liệu, các công trình nghiên cứu của người khác mà khôngtrích dẫn nguồn
Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trướchội đồng cũng như kết quả luận văn của mình
Học viên cao học
Nguyễn Thị Cẩm Vân
Trang 6Mục lục
Tóm tắt iii
Lời cảm ơn iv
Lời cam đoan v
Mục lục vi
Danh mục thuật ngữ viết tắt và giải nghĩa ix
Danh sách hình vẽ x
Danh sách bảng xi
Mở đầu xii
1 Khái quát bài toán phân tích chuỗi thời gian lâm sàng 1
1.1 Giới thiệu về phân tích chuỗi thời gian lâm sàng 1
1.1.1 Giới thiệu về chuỗi thời gian 1
1.1.2 Giới thiệu về bài toán phân tích chuỗi thời gian lâm sàng 2
1.2 Các phương pháp phân tích chuỗi thời gian lâm sàng 3
1.2.1 Hệ thống chấm điểm trong ICU 3
1.2.2 Điểm chuẩn của các mô hình học sâu trên bộ dữ liệu chăm sóc sức khỏe lớn MIMIC-III 4
1.3 Khó khăn và thách thức trong phân tích chuỗi thời gian lâm sàng 10
1.4 Giới thiệu về ba mục tiêu dự báo: Nhiễm trùng huyết, Nhồi máu cơ tim, và nồng độ Vancomycin 11
1.4.1 Nhiễm trùng huyết 11
1.4.2 Nhồi máu cơ tim 12
1.4.3 Vancomycin 12
1.5 Phát biểu bài toán của luận văn 12
Trang 72 Mô hình bộ nhớ dài ngắn hạn hai chiều BiLSTM 14
2.1 Mạng nơ-ron nhân tạo 14
2.2 Mạng truyền thẳng 15
2.3 Học với mạng nơ-ron 17
2.3.1 Hàm lỗi và cực tiểu hóa Gradient Descent 17
2.3.2 Lan truyền ngược 17
2.3.3 Hàm kích hoạt 18
2.4 Bộ nhớ dài ngắn hạn 18
2.4.1 Mạng nơ-ron hồi quy 18
2.4.2 Mạng bộ nhớ dài ngắn hạn 20
2.4.3 Bộ nhớ dài ngắn hạn hai chiều 21
2.5 Cơ chế chú ý 22
2.6 Cơ chế che dấu 23
3 Mô hình dự đoán sự kiện lâm sàng sử dụng cơ chế Attention kết hợp kĩ thuật BiLSTM 26
3.1 Mô hình đề xuất 26
3.1.1 Dữ liệu đầu vào của mô hình 26
3.1.2 Áp dụng cơ chế che dấu 27
3.1.3 Áp dụng cơ chế chú ý 28
3.1.4 Các lớp BiLSTM 28
3.2 Phương pháp đánh giá 29
3.2.1 Ma trận nhầm lẫn 29
3.2.2 Đường cong AUC-ROC 30
4 Thực nghiệm và kết quả 32
4.1 Môi trường thực nghiệm và cài đặt cấu hình 32
4.1.1 Thư viện xây dựng mô hình 32
4.1.2 Môi trường thực nghiệm 33
4.1.3 Cài đặt tham số mô hình 33
4.2 Dữ liệu và phương pháp đánh giá 33
4.2.1 Dữ liệu 33
4.2.2 Xây dựng dữ liệu 37
4.3 Kết quả thực nghiệm 38
4.3.1 Kết quả thực nghiệm 1: Dự đoán trong ngày 38
4.3.2 Kết quả thực nghiệm 2: Dự đoán ngày hôm sau 39
Trang 84.3.3 Kết quả thực nghiệm 3: Đánh giá dựa trên mức độ sẵn có của dữ
liệu 40
4.3.4 Nghiên cứu mức độ ảnh hưởng của các đặc trưng lên từng sự kiện mục tiêu 45
4.3.5 Định hướng nghiên cứu tương lai 45
Kết luận 48
Danh sách bài báo 49
Tài liệu tham khảo 50
Phụ lục 53
Trang 9Danh mục thuật ngữ viết tắt và giải nghĩa
Bi-directional Long
Medical Information Mart for
chăm sóc chuyên sâu III
của bộ thu nhận
Trang 10Danh sách hình vẽ
1 Sự phổ biến của hồ sơ sức khỏe điện tử xii
1.1 Mô hình xây dựng MIMIC-III 5
2.1 Mạng nơ-ron nhân tạo 14
2.2 Cấu trúc mạng nơ-ron truyền thẳng 16
2.3 Các hàm kích hoạt khác nhau trong mạng nơ-ron nhân tạo 19
2.4 Mạng nơ-ron hồi quy 20
2.5 Kiến trúc của một đơn vị bộ nhớ dài ngắn hạn LSTM 21
2.6 Kiến trúc mở ra của BiLSTM với ba bước thời gian liên tiếp 22
2.7 Cơ chế che dấu cho chuỗi thời gian mất mát dữ liệu 24
3.1 Mô hình đề xuất 27
4.1 Các bước trích xuất dữ liệu từ MIMIC-III và tiền xử lý 34
4.2 SEPSIS ROC curves 43
4.3 MI ROC curves 43
4.4 Vancomycin ROC curves 43
4.5 SEPSIS Cross ROC curves 44
4.6 MI Cross ROC curves 44
4.7 Vancomycin Cross ROC curves 44
4.8 Mức độ ảnh hưởng của các đặc trưng lên từng sự kiện mục tiêu theo thứ tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN 45
4.9 Mức độ ảnh hưởng của các đặc trưng theo ngày lên từng sự kiện mục tiêu theo thứ tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN 46
Trang 11Danh sách bảng
1.1 Một số loại chuỗi thời gian 2
1.2 Mô tả các bảng của CSDL MIMIC-III 6
1.2 Mô tả các bảng của CSDL MIMIC-III 7
1.2 Mô tả các bảng của CSDL MIMIC-III 8
2.1 Một số hàm kích hoạt 18
3.1 Ma trận nhầm lẫn 29
4.1 Tham số mô hình 33
4.3 Kết quả dự báo trong ngày trên các mô hình cho 3 nhiệm vụ dự báo mục tiêu 38
4.4 Kết quả dự báo cho ngày tiếp theo trên các mô hình cho 3 nhiệm vụ dự báo mục tiêu 39
4.5 Kết quả dự đoán của các mô hình trên các nhiệm vụ mục tiêu theo ngày 39
4.6 Kết quả AUC của LSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 41
4.7 Kết quả AUC của Attention+LSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 41
4.8 Kết quả AUC của mô hình BiLSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 42
4.9 Kết quả AUC của Attention+BiLSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 42
Trang 12Mở đầu
Chăm sóc sức khỏe là một trong những ứng dụng nổi bật của khai phá dữ liệu và họcmáy, nó đã thu hút được sự quan tâm nghiên cứu của cộng đồng nghiên cứu trong thờigian gần đây Điều này có được phải kể đến việc áp dụng rộng rãi hồ sơ sức khỏe điện
tử (EHR – Electronic Heath Records) trong đời sống xã hội, tạo ra một nguồn dữ liệulâm sàng kĩ thuật số vô cùng phong phú, ví dụ: các đơn vị chăm sóc tăng cường (ICU –Intensive Care Unit), thường bao gồm các giá trị đa biến được quan sát theo chuỗi thờigian tương ứng với các phép đo cảm biến, kết quả xét nghiệm và các đánh giá chủ quankhác
Hình 1: Sự phổ biến của hồ sơ sức khỏe điện tử
Một thách thức phổ biến trong chăm sóc sức khỏe hiện nay là các bác sĩ có quyềntruy cập vào một lượng lớn dữ liệu về bệnh nhân, nhưng có ít thời gian cũng như công
cụ hỗ trợ để đưa ra quyết định điều trị Hỗ trợ ra quyết định dự đoán về kết quả lâm sàng
Trang 13tại thời điểm chăm sóc dành riêng cho bệnh nhân đóng vai trò quan trọng trong chẩnđoán y học Hồ sơ sức khỏe điện tử hiện rất phổ biến trong chăm sóc sức khỏe trên thếgiới Những dữ liệu này đang được sử dụng với tần suất tăng dần để dự đoán các sự kiệntrong tương lai Trong khi các mô hình dự đoán đã được phát triển để dự đoán nhu cầu,hầu hết các công việc hiện tại đã tập trung vào các mô hình dự đoán chuyên biệt dự đoánmột tập hợp kết quả hạn chế Tuy nhiên, thực hành lâm sàng hàng ngày liên quan đến sựpha trộn không theo lịch trình và không đồng nhất của các kịch bản và cần các mô hình
dự đoán khác nhau trong hàng trăm đến hàng ngàn bản ghi Việc phát triển và triển khaicác mô hình chuyên ngành từng cái một là không thực tế
Cùng với sự phát triển của mạng nơ ron học sâu, nhiều mô hình được đề xuất chobài toán phân tích dữ liệu lâm sàng [23, 28] Phương pháp cổ điển để phân tích dữ liệuchăm sóc sức khỏe tập trung vào việc trích xuất các đặc trưng được xử lý bằng tay vàxây dựng các mô hình dự đoán theo nhiệm vụ cụ thể Các mô hình học máy thường đốimặt với thách thức là các yếu tố như nhu cầu phụ thuộc dài hạn, lấy mẫu không đều vàcác giá trị bị thiếu
Trong những năm gần đây, mạng nơ ron hồi quy RNN dựa trên bộ nhớ dài ngắnhạn LSTM đã trở thành giải pháp thực tế để xử lý dữ liệu chuỗi thời gian lâm sàng RNNđược thiết kế để mô hình hóa dữ liệu có độ dài khác nhau và đã đạt được các kết quả tiêntiến trong mô hình hóa trình tự, chú thích hình ảnh và gần đây trong chẩn đoán lâm sàng.Hơn nữa, các LSTM có hiệu quả trong việc khai thác các phụ thuộc tầm xa và xử lý phituyến Các RNN thực hiện tính toán tại mỗi vị trí của chuỗi thời gian bằng cách tạo ramột chuỗi các trạng thái ẩn dưới dạng hàm của trạng thái ẩn trước đó và đầu vào cho vịtrí hiện tại Bản chất tuần tự vốn có này làm cho việc song song hóa thách thức
Mặc dù những nỗ lực để cải thiện hiệu quả tính toán mô hình tuần tự đã xuất hiệngần đây, một số hạn chế vẫn còn tồn tại Công trình gần đây của Vaswani và cộng sự [29]lập luận rằng các cơ chế chú ý, mà không có bất kỳ sự tái phát, có thể có hiệu quả trongcác nhiệm vụ mô hình hóa theo trình tự Các cơ chế chú ý (Attention Mechanism) được
sử dụng để mô hình hóa các phụ thuộc theo trình tự mà không quan tâm đến khoảngcách thực tế của chúng trong chuỗi [1]
Do đó, luận văn quan tâm đến việc áp dụng các mô hình học sâu vào việc phân tích
dữ liệu lâm sàng, cụ thể là bài toán dự đoán sự kiện lâm sàng hỗ trợ cho việc ra quyếtđịnh trong chẩn đoán lâm sàng sử dụng dữ liệu hồ sơ sức khỏe điện tử
Trang 14Các đóng góp chính của luận văn
bộ nhớ dài ngắn hạn hai chiều với mục đích dự đoán sự kiện lâm sàng cho 3 sựkiện mục tiêu đó là Nhiễm trùng máu (SEPSIS), Nhồi máu cơ tim (MI), và nồng
độ Vancomycin trong huyết thanh sau 24 giờ dùng thuốc Vancomycin hỗ trợ trongviệc ra quyết định chẩn đoán lâm sàng
cơ sở dữ liệu MIMIC-III và xây dựng mô hình cơ sở sử dụng các mô hình độc lập:Mạng bộ nhớ dài ngắn hạn, Cơ chế chú ý và Mạng bộ nhớ dài ngắn hạn hai chiều
để làm nổi bật tính hiệu quả của mô hình kết hợp đề xuất
sự kiện mục tiêu nhằm tăng hiệu suất cho mô hình và cung cấp cái nhìn sâu sắc hữuích về một số khía cạnh của phương pháp mà luận văn đề xuất trong các nghiêncứu tương lai
Ngoài phần Mở đầu và Kết luận, luận văn được cấu trúc bao gồm các Chương sau:
Chương 1: Khái quát bài toán phân tích chuỗi thời gian lâm sàng: Trong
chương ngày, luận văn giới thiệu sơ lược về bài toán phân tích dữ liệu chuỗi thời gianlâm sàng nói chung và bài toán dự đoán sự kiện lâm sàng nói riêng Bên cạnh đó, luậnvăn giới thiệu về các phương pháp tiếp cận phổ biến trong phân tích và dự đoán chuỗithời gian lâm sàng và các nghiên cứu liên quan.Luận văn đồng thời phân tích các khókhăn và thách thức của bài toán và phát biểu bài toán sẽ triển khai trong luận văn này
Chương 2: Mô hình bộ nhớ dài ngắn hạn hai chiều BiLSTM: Trong chương
này, luận văn giới thiệu về mô hình BiLSTM Đồng thời, luận văn trình bày các kiếnthức nền tảng về trí tuệ nhân tạo, các mô hình học sâu cơ sở như mạng nơ-ron hồi quy,
bộ nhờ dài ngắn hạn, cơ chế chú ý và các kĩ thuật xử lý dữ liệu được sử dụng trong luậnvăn
Chương 3: Mô hình dự đoán sự kiện lâm sàng sử dụng cơ chế Attention kết hợp kĩ thuật BiLSTM: Trong chương này, luận văn đầu tiên giới thiệu về các mô hình
đề xuất của luận văn
Chương 4: Thực nghiệm và kết quả: Luận văn trình bày chi tiết về môi trường
thực nghiệm, chi tiết các pha trong quá trình triển khai mô hình, các kịch bản thựcnghiệm và tham số của mô hình Luận văn đồng thời trình bày chi tiết kết quả đạt được
Trang 15và đưa ra nhận xét.
Kết luận: Trình bày tổng kết lại các đóng góp của luận văn và các kết quả đã đạt
được Các điểm hạn chế cũng như kế hoạch cải tiến mô hình đề xuất trong tương lai sẽđược trình bày trong chương này
Trang 16Chương 1
Khái quát bài toán phân tích
chuỗi thời gian lâm sàng
1.1 Giới thiệu về phân tích chuỗi thời gian lâm sàng
1.1.1 Giới thiệu về chuỗi thời gian
Một chuỗi thời gian là một tập hợp các quan sát được thực hiện tuần tự theo thời gian.Thời gian tiến hành quan sát có thể thường xuyên hoặc khoảng cách không đều Hơnnữa, thời gian có thể liên tục hoặc rời rạc [26]
Định nghĩa:
Theo [4], một chuỗi thời gian được định nghĩa như sau:
Với k ∈N, T ∈ R, một hàmx : T → Rk, t → xt, tương đương với một tập các chỉmục x t |x t ∈R, t ∈ T được gọi là một chuỗi thời gian được quan sát Chúng ta cũng có
VớikN, T ⊆R, một không gian xác suất(Ω, F , P ), hay một tập các chỉ mục của các
Trang 17Bảng 1.1: Một số loại chuỗi thời gian
T = [a, b](a < b ∈R), t =R+hoặcT =R Thời gian liên tục
1.1.2 Giới thiệu về bài toán phân tích chuỗi thời gian lâm sàng
Thập kỷ qua đã chứng kiến sự bùng nổ về lượng thông tin kỹ thuật số được lưu trữ trong
hồ sơ sức khỏe điện tử (EHR).Các hệ thống EHR lưu trữ dữ liệu liên quan đến mỗi lầngặp bệnh nhân, bao gồm thông tin nhân khẩu học, chẩn đoán, xét nghiệm và kết quảtrong phòng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng và nhiều hơnnữa [5] Mặc dù được thiết kế chủ yếu để cải thiện hiệu quả chăm sóc sức khỏe từ quanđiểm vận hành, nhiều nghiên cứu đã tìm thấy việc sử dụng cho các ứng dụng tin học lâmsàng [6, 16] Cụ thể, dữ liệu bệnh nhân có trong các hệ thống EHR đã được sử dụng chocác nhiệm vụ như trích xuất khái niệm y tế [17, 24], mô hình quỹ đạo bệnh nhân [11],suy luận bệnh tật [20] Trong cùng thời gian, cộng đồng học máy đã chứng kiến nhữngtiến bộ rộng rãi trong lĩnh vực học sâu và ứng dụng trong phân tích hồ sơ sức khỏe điệntử
Việc sử dụng các hệ thống EHR đã tăng lên rất nhiều ở cả bệnh viện và cơ sở chămsóc xe cứu thương [6, 7] Việc sử dụng EHR tại bệnh viện và phòng khám có khả năngcải thiện chăm sóc bệnh nhân bằng cách giảm thiểu sai sót, tăng hiệu quả và cải thiện
sự phối hợp chăm sóc, đồng thời cung cấp nguồn dữ liệu phong phú cho các nhà nghiêncứu Các hệ thống EHR có thể khác nhau về chức năng, nhưng ngay cả các hệ thốngEHR cơ bản cũng có thể cung cấp nhiều thông tin về tiểu sử bệnh, các biến chứng vàlịch sử sử dụng thuốc của bệnh nhân [7]
Cho đến vài năm trước, hầu hết các kỹ thuật phân tích dữ liệu EHR phong phú đềudựa trên các kỹ thuật thống kê và học máy truyền thống như hồi quy logistic, máy vectơ
hỗ trợ (SVM) và rừng ngẫu nhiên [19] Gần đây, các kỹ thuật học sâu đã đạt được thànhcông lớn trong nhiều lĩnh vực thông qua xây dựng mạng nơ-ron nhân tạo và nắm bắt cácphụ thuộc tầm xa trong dữ liệu theo cách hiệu quả [21] Do sự gia tăng phổ biến của các
Trang 18phương pháp học sâu và số lượng dữ liệu bệnh nhân ngày càng lớn, cũng đã có sự giatăng số lượng nghiên cứu áp dụng học sâu vào dữ liệu EHR cho các nhiệm vụ tin họclâm sàng [9, 17, 25], mang lại hiệu suất tốt hơn các phương pháp truyền thống và yêucầu kỹ thuật tiền xử lý và tính năng tốn ít thời gian hơn.
Hồ sơ y tế điện tử của mỗi bệnh nhân có thể được biểu diễn dưới dạng một chuỗi
(t(n)i , (x(n)i ∈ R×Rr trong đó i = 1, , T(n) Dấu thời gian t(n)i biểu thị lần nhập viện
lượng các nhãn có thể nhiều hơn 1
Ví dụ: Trong mô hình trình tự truy cập (ESM) [8], mỗi lần truy cập hay một lầnnhập viện của một bệnh nhân, trình tự truy cập được thể hiện bằng một bộ mã số y tế
r = |C| và đầu vào xi ∈ 0, 1|C| là một vector nhị phân trong đó giá trị của thứj chỉ rarằngcjlà dữ liệu của lần truy cập thứi Đưa ra một chuỗi các lượt truy cậpx1, x2, , xT,
truy cậpx2, x3, , xT +1 với số lượng nhãn làs = |C|
Trong trường hợp học mã (L2D) hay dự đoán mã cho chuỗi thời gian lâm sàng[22],
vàox 1 , x 2 , , xT để dự đoán sự xuất hiện của một bệnh cụ thẻ s = 1hoặc nhiều bệnh
(s > 1) Không mất tính tổng quát, L2D có thể được xem là một trường hợp đặc biệt củaESM
1.2 Các phương pháp phân tích chuỗi thời gian lâm sàng
1.2.1 Hệ thống chấm điểm trong ICU
Thang đo nghiêm trọng là những điều chỉnh quan trọng trong điều trị tại khoa chămsóc đặc biệt (ICU) để dự đoán kết quả điều trị của bệnh nhân, so sánh chất lượng chămsóc và phân tầng cho các thử nghiệm lâm sàng Mặc dù điểm số nghiêm trọng của bệnhkhông phải là yếu tố chính của điều trị, tuy nhiên, chúng là một phần thiết yếu của sự cảithiện trong các quyết định lâm sàng và trong việc xác định bệnh nhân có kết quả khôngmong muốn Các mô hình dự đoán phải đối mặt với nhiều thách thức, nhưng, việc áp
Trang 19dụng đúng các mô hình này sẽ giúp đưa ra quyết định đúng lúc và giảm chi phí bệnhviện Trên thực tế, chúng đã trở thành một công cụ cần thiết để mô tả các quần thể ICU
và để giải thích sự khác biệt về tỷ lệ tử vong Tuy nhiên, cũng cần lưu ý rằng việc lựachọn thang điểm, chỉ số hoặc mô hình điểm nghiêm trọng phải phù hợp chính xác với sựkiện, cài đặt hoặc ứng dụng; khi áp dụng sai, các hệ thống như vậy có thể dẫn đến lãngphí thời gian, tăng chi phí, ngoại suy không chính đáng và khoa học kém Bài viết nàycung cấp một cái nhìn tổng quan ngắn gọn về thang đo mức độ nghiêm trọng của ICU(cùng với các tính toán tỷ lệ tử vong / tỷ lệ sống dự đoán của họ) được phát triển trong 3thập kỷ qua, bao gồm một vài trong số chúng đã được sửa đổi cho phù hợp
Trong hầu hết các hệ thống tính điểm, điểm số được tính từ dữ liệu thu thập đượcvào ngày đầu tiên của ICU - sinh lý cấp tính và đánh giá sức khỏe mãn tính (APACHE),điểm sinh lý cấp tính đơn giản (SAPS) và mô hình dự đoán tử vong (MPM) Nhữngngười khác lặp đi lặp lại và thu thập dữ liệu mỗi ngày trong suốt thời gian ở ICU hoặctrong 3 ngày đầu tiên - rối loạn chức năng nội tạng và hệ thống nhiễm trùng (ODIN),đánh giá suy cơ quan tuần tự (SOFA), điểm rối loạn chức năng đa cơ quan (MODS), rốiloạn chức năng cơ quan hậu cần (LOD) mô hình và kết quả kiểm tra lại ICU trong bangày (TRIOS) Điểm số có thể là chủ quan hoặc khách quan [5] Điểm số chủ quan đượcthiết lập bởi một nhóm các chuyên gia chọn các biến và gán trọng số cho từng biến dựatrên ý kiến cá nhân của họ Ví dụ: APACHE II, ODIN và SOFA Các biến số điểm kháchquan được thu thập bằng cách sử dụng các kỹ thuật mô hình hồi quy logistic và phánđoán lâm sàng để xác định phạm vi và để gán trọng số Ví dụ: APACHE III, SAPS II,MPM II, MODS, điểm LOD (LODS) và TRIOS
1.2.2 Điểm chuẩn của các mô hình học sâu trên bộ dữ liệu chăm sóc
sức khỏe lớn MIMIC-III
1.2.2.1 Giới thiệu về MIMIC-III
Bộ dữ liệu MIMIC-III bao gồm các dữ liệu y tế được thu thập tại Trung tâm y tế BethIsrael Deaconess ở Boston, Massachusetts, Hoa Kỳ Bộ dữ liệu này chứa dữ liệu từ 38.597bệnh nhân khác nhau, được thu thập từ năm 2001 đến 2012 Đồng thời, nó được kết hợ
từ hai cơ sở dữ liệu riêng biệt đó là cơ sở dữ liệu CareVue và cơ sở dữ liệu Metavision.Trái với dữ liệu của Bệnh viện Đại học Ghent, MIMIC-III không chỉ chứa các thông
số liên quan đến chẩn đoán cấy máu Một loạt các chẩn đoán được lưu giữ trong cơ sở
dữ liệu Nó nhằm mục đích cung cấp một bộ sưu tập dữ liệu đa dạng cho các loại phân
Trang 20tích y tế khác nhau Mặc dù MIMIC-III là một cơ sở dữ liệu mở, quyền truy cập chỉ đượccấp sau khi hoàn thành một quy trình được xác định Việc hoàn thành chương trình Sángkiến Đào tạo Thể chế Hợp tác (CITI) liên quan đến dữ liệu hoặc nghiên cứu mẫu vật cầnphải được chứng minh Hơn nữa, danh tính và viện nghiên cứu liên kết của người nộpđơn được xem xét MIMIC-III xây dựng thêm dựa trên cơ sở dữ liệu MIMIC-II phổ biến
đã được sử dụng trong nhiều nghiên cứu khác nhau
Trong quá trình hoàn thành luận văn này, tôi đã hoàn thành chương trình đào tạoliên quan đến dữ liệu nói trên và được cấp quyền truy cập cơ sở dữ liệu MIMIC-III Giấychứng nhận được đặt tại Phụ lục
Hình 1.1: Mô hình xây dựng MIMIC-III
Các bảng của bộ dữ liệu này được trình bày chi tiết tại Bảng 1.2
Trang 241.2.2.2 Điểm chuẩn của các mô hình học sâu trên MIMIC-III
Một yếu tố quan trọng đã thách thức nghiên cứu học máy đối với chẩn đoán lâm sàng
là thiếu các tiêu chuẩn được chấp nhận phổ biến để đánh giá chặt chẽ các kỹ thuật môhình hóa Do đó, trong [14] các tác giả đã đề xuất điểm chuẩn công khai cho bốn nhiệm
vụ lâm sàng khác nhau: dự đoán tỷ lệ tử vong, phát hiện mất bù sinh lý, dự báo thờigian lưu trú và kiểu hình Các điểm chuẩn này được hỗ trợ bởi Cơ sở dữ liệu thông tin y
tế cho chăm sóc chuyên sâu (Medical Information Mart for Intensive Care MIMIC-III)[18], đây là kho lưu trữ dữ liệu lâm sàng phong phú công khai lớn nhất hiện có Trong[18, 22], các tác giả cho rằng RNNs với các tế bào LSTM vượt trội hơn tất cả các môhình baseline hiện có
• Dự đoán tử vong tại bệnh viện: dự đoán tỷ lệ tử vong tại bệnh viện dựa trên 48
giờ đầu tiên của ICU Đây là một nhiệm vụ phân loại nhị phân với độ đo đánh giá
sử dụng AUC-ROC
• Phát hiện mất bù sinh lý: dự đoán liệu sức khỏe của bệnh nhân có bị suy giảm
nhanh chóng trong 24 giờ tới hay không Các mục tiêu của nhiệm vụ này là thaythế điểm cảnh báo sớm hiện đang được sử dụng trong các bệnh viện Do thiếu tiêuchuẩn để đánh giá điểm cảnh báo sớm, [14] theo dõi công việc trước đó và xác địnhnhiệm vụ của họ là dự đoán tử vong trong 24 giờ ở lại ICU Điều quan trọng cầnlưu ý là định nghĩa này đi lệch khỏi ý nghĩa cốt lõi của mất bù, và nhiệm vụ trởnên tương tự như dự đoán tử vong Mặt khác, họ tin rằng đây là nhiệm vụ gần nhất
để dự đoán mất bù mà người ta có thể có được các nhãn chính xác từ cơ sở dữ liệuMIMIC-III Mỗi trường hợp này nhiệm vụ là một ví dụ phân loại nhị phân Tương
tự như dự đoán tử vong trong bệnh viện, độ đo chính là AUC-ROC
• Dự đoán thời gian lưu trú: dự đoán thời gian còn lại dành cho ICU vào mỗi giờ
ở lại Dự đoán chính xác thời gian lưu trú còn lại rất quan trọng để lên lịch và quản
lý tài nguyên bệnh viện.Tác giả coi nhiệm vụ này như là một phân loại đa nhãn với
10 lớp/nhóm (một cho ICU ngắn hơn một ngày, 7 ngày của tuần đầu tiên, ở lại trênmột tuần nhưng ít hơn hai tuần và cho ở lại hơn hai tuần) Độ đo chính cho nhiệm
vụ này là điểm số kappa có trọng số tuyến tính Cohen
• Phân loại kiểu hình phân loại trong số 25 điều kiện chăm sóc cấp tính có trong
một kiểu bệnh nhân lưu hồ sơ ICU nhất định Vấn đề này là một vấn đề phân loại
đa nhãn với AUC-ROC trung bình vĩ mô là độ đo chính
Trang 251.3 Khó khăn và thách thức trong phân tích chuỗi thời
gian lâm sàng
Dữ liệu EHR đang ngày càng được sử dụng rộng rãi tại các trung tâm chăm sóc sức khỏetrên toàn thế giới Cùng với sự bùng nổ về dữ liệu là rất nhiều vấn đề còn tồn tại trong
dữ liệu này Có thể kể đến các yếu tố sau đây:
• Tính đầy đủ: Các thông tin về bệnh nhân không phải lúc nào cũng được trình bày
hoàn toàn trong cơ sở dữ liệu EHR Ngay cả với một giao diện người dùng chuẩnthu thập dữ liệu bệnh nhân một cách có hệ thống, EHR vẫn không có đầy đủ thôngtin của người bệnh Có nhiều lý do cho việc này, ví dụ: (1) thiếu ghi chép tỉ mỉthông tin bệnh nhân trong EHRs; (2) bác sĩ không thể xác định các điều kiện cụthể như tác dụng phụ của thuốc; (3) khi có nhiều bác sĩ cùng tham gia điều trị chomột bệnh nhân và gặp nhiều vấn đề trong việc trao đổi thông tin và cập nhật chúngkịp thời; và (4) khó khăn trong việc tích hợp các hệ thống EHR khác nhau được sửdụng bởi các bệnh viện khác nhau, kết quả là dữ liệu của bệnh nhân có thể bị mấtkhi bệnh nhân chuyển bệnh viện
• Tính chính xác: Thông tin được cập nhật trong EHR cần phải có tính chính xác
cao Thực tế, thông tin quan trọng thường tồn tại trong hình dạng của thông tinkhông đủ cụ thể Ví dụ, hồ sơ bệnh nhân có thể chứa chẩn đoán một rối loạn da nóichung trong khi tình trạng cơ bản thực sự là do thuốc rối loạn da Theo Ủy ban Y
tế Quốc gia Thụy Điển, trong một đánh giá của 4200 hồ sơ sức khỏe, khoảng 20%các mã được gán trong EHRs đã được tìm thấy có lỗi lớn
• Độ phức tạp: Điều này chủ yếu đề cập đến độ phức tạp của dữ liệu trong EHRs.
Các loại dữ liệu không đồng nhất vẫn còn tồn tại rất nhiều trong EHRs làm nổi bậtnhững khó khăn trong việc phân tích chúng Những khó khăn không chỉ xuất hiệntrong việc kết hợp các loại dữ liệu không đồng nhất mà còn xuất hiện trong việcphân tích chúng một cách riêng biệt Để xử lý các ghi chú lâm sàng trong văn bản,phương pháp phổ biến và được sử dụng nhiều đó là xử lý ngôn ngữ tự nhiên Tuynhiên,việc này trở lên phức tạp bởi chất lượng văn bản thấp chứa số lượng lớn chữviết tắt trong y tế, lỗi đánh máy và câu không đầy đủ
Các sự kiện lâm sàng được báo cáo trong EHRs, bao gồm chẩn đoán, thuốc và xétnghiệm, thường là mang tính tạm thời Thường có nhiều hơn một loại sự kiện lâmsàng được báo cáo trong mỗi hồ sơ bệnh nhân, và mỗi sự kiện lâm sàng được báo
Trang 26cáo nhiều lần về tần suất bệnh nhân đến bệnh viện Khoảng cách thời gian giữahai lần đến bệnh viện của mỗi bệnh nhân thường khác nhau Do đó, mỗi hồ sơbệnh nhân bao gồm nhiều chuỗi thời gian với độ dài khác nhau và khoảng thời giankhông đều, làm cho nó đặc biệt khó nắm bắt thông tin thời gian Khi chuẩn bị dữliệu EHR để phân tích, một số thách thức kỹ thuật khác cũng thường gặp phải, baogồm cả chiều cao do số lượng lớn lâm sàng độc đáo sự kiện; độ thưa thớt cao domỗi biến lâm sàng chỉ được chia sẻ bởi một nhóm nhỏ bệnh nhân; dữ liệu bị sailệch do rất ít hồ sơ sức khỏe chứa kết quả mục tiêu quan tâm so với những ngườikhông.
1.4 Giới thiệu về ba mục tiêu dự báo: Nhiễm trùng huyết,
Nhồi máu cơ tim, và nồng độ Vancomycin
Ba mục tiêu này đã được chọn để làm nổi bật ba kết quả y tế khác nhau được thúc đẩybởi các phát hiện trong phòng thí nghiệm, các dấu hiệu quan trọng và thuốc tương ứng
Vì các mục tiêu này được đo và tính toán hàng ngày, một bệnh nhân có thể có các giá trịmục tiêu khác nhau vào các ngày khác nhau tùy thuộc vào từng sự kiện mỗi ngày
1.4.1 Nhiễm trùng huyết
Nhiễm trùng huyết là một trong những nguyên nhân hàng đầu gây tử vong ở bệnh nhâncủa đơn vị chăm sóc chuyên sâu Bệnh này là một trong những nguyên nhân hàng đầugây bệnh và cái chết trong ICU, đồng thời sự xuất hiện của nó vẫn tăng lên hàng năm.Nhiễm trùng huyết gây ra bởi một phản ứng quá mức của cơ thể với nhiễm trùng và có thểdẫn đến tổn thương mô, suy nội tạng và dẫn đến tử vong Nhiễm trùng huyết có thể đượcđiều trị và phục hồi hoàn toàn Dự đoán khởi phát nhiễm trùng huyết sớm và chính xác
có thể cho phép điều trị tích cực trong khi duy trì quản lý kháng khuẩn Tuy nhiên, điềunày đòi hỏi phải dùng thuốc kịp thời Một bệnh nhân xác suất sống sót giảm 7,6% chomỗi giờ điều trị bị hoãn [2] Xem xét vai trò của nhiễm trùng trong nhiễm trùng huyết,các xét nghiệm thường được thực hiện để xác nhận và xác định chúng Xét nghiệm cấymáu(blood culture test) xác định vi khuẩn hoặc nấm gây ra nhiễm trùng Các xét nghiệmnhư vậy được thực hiện khi có nghi ngờ nhiễm trùng huyết Thực tế, các phương pháp
dự đoán hiện tại cho hiệu suất thấp và thường đòi hỏi thời gian để thu được kết quả xétnghiệm trong phòng thí nghiệm
Trang 271.4.2 Nhồi máu cơ tim
Nhồi máu cơ tim là một bệnh tim mạch do thiếu máu cơ tim cung cấp hoặc thậm chí hoại
tử cơ tim do tắc động mạch vành Ở giai đoạn đầu của bệnh này, bệnh nhân bị nhồi máu
cơ tim thường có triệu chứng chẳng hạn như đau ngực và tức ngực, nhưng một số bệnhnhân vẫn không có triệu chứng rõ ràng gây khó khăn trong việc điều trị kịp thời, do đó
đe dọa tính mạng Do đó, làm thế nào để đạt được sớm chẩn đoán nhồi máu cơ tim cógiá trị lâm sàng quan trọng, và đã trở thành một chủ đề nghiên cứu về nhiều học giả
1.4.3 Vancomycin
Nồng độ của Vancomycin trong huyết thanh cần nằm trong một phạm vi nhất định đốivới bệnh nhân tại ICU của bệnh viện Vancomycin được sử dụng rộng rãi cho các trườnghợp nhiễm Staphylococcus aureus (MRSA) kháng methicillin và do đó được đánh giácao trong nghiên cứu Đây là một bệnh nhiễm trùng do vi khuẩn Khi nồng độ của thuốcquá cao sẽ gây hại cho bệnh nhân, nhưng khi quá thấp thì không hiệu quả
1.5 Phát biểu bài toán của luận văn
Đầu vào Dự đoán sự kiện lâm sàng cho mỗi bệnh nhân thường sử dụng một chuỗi các
giá trị về xét nghiệm, nhân khẩu học, thuốc với các bước thời gian lịch sử là dữ liệuđầu vào được biểu thị bằng một vector như sau:
trưng như một ma trận như sau:
nhân (đặc trưng được trích xuất tương ứng với từng sự kiện)
Trang 28Luận văn đồng thời phân tích các khó khăn và thách thức của bài toán và phát biểubài toán sẽ triển khai trong luận văn này.
Trong chương tiếp theo, luận văn sẽ trình bày về mô hình BiLSTM và các mô hìnhhọc sâu cơ sở khác sử dụng trong luận văn
Trang 29Chương 2
Mô hình bộ nhớ dài ngắn hạn
hai chiều BiLSTM
2.1 Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial Intelligent - ANN) lấy cảm hứng từ sinh học được thiết
kế để mô phỏng theo cách mà bộ não con người xử lý thông tin ANN thu thập kiến thứccủa nó bằng cách phát hiện các mẫu và mối quan hệ trong dữ liệu và được huấn luyệnthông qua kinh nghiệm
Hình 2.1: Mạng nơ-ron nhân tạo
Một mạng nơ-ron nhân tạo được xây dựng từ những thành phần cơ bản là nhữngnơ-ron nhân tạo chứa lớp đầu vào (input layer), một hoặc nhiều lớp ẩn (hidden layers)
và một lớp đầu ra (output layer) Các đầu vào tiếp nhận kích thích từ đầu ra của những
Trang 30nơ-ron khác hoặc từ môi trường Mỗi nơ-ron vào có một bộ trọng số (weights) nhằmkhuếch đại tín hiệu kích thích sau đó tất cả sẽ được cộng lại Tín hiệu sau đó sẽ được tiếptục biến đổi nhờ một hàm phi tuyến, thường gọi là hàm kích hoạt (activate function) Vàcuối cùng tín hiệu sẽ được đưa đến đầu ra của nơ-ron để lại trở thành đầu vào của cácnơ-ron khác hoặc trở thành tín hiệu ra của toàn bộ mạng Khi kết hợp các nơ-ron lại vớinhau ta có một mạng nơ-ron nhân tạo Tuỳ theo cách thức liên kết giữa các nơ-ron mà
ta có các loại mạng khác nhau như: mạng nơ-ron truyền thẳng, mạng nơ-ron hồi quy, Hình 2.1 minh họa một mạng nơ-ron nhân tạo cơ bản
Trong ANN, rất nhiều tham số (trọng số và độ lệch) cần được điều chỉnh Thay đổigiá trị của các tham số này có thể dẫn đến một lượng lớn đầu ra khác nhau Không chỉ
có vậy, chúng ta cũng có thể tùy chỉnh số lớp và số nơ-ron cho mỗi lớp lớp ANN cungcấp khả năng giải quyết vô số bài toán với mức độ phức tạp cao
Vì vậy, một khi chúng ta có cấu trúc của mạng lưới thần kinh (số lượng nơ-ron, sốlượng lớp, ) chúng ta cần một thuật toán điều chỉnh tập hợp các trọng số để giải quyết bàitoán mà chúng ta đang cố gắng thể hiện Thuật toán lan truyền ngược (BackPropagation)thực hiện được điều này Nếu khởi tạo ngẫu nhiên tất cả các tham số và tính toán đầu racủa ANN, sẽ thấy rằng kết quả sẽ khác nhiều so với đầu ra mong muốn Vì vậy, chúng ta
có thể tính toán sự khác biệt giữa đầu ra thực tế của ANN và đầu ra mong muốn (đượcgọi là lỗi) và thông qua Gradient Descent, chúng ta có thể giảm thiểu lỗi này Sử dụngmột quy trình lặp để giảm thiểu giá trị lỗi tối ưu cho các trọng số và độ lệch
2.2 Mạng truyền thẳng
Cấu trúc mạng nơ-ron truyền thẳng được mô tả trong Hình 2.2, ví dụ về một cấu trúccho mạng nơ ron hai lớp Các biến đầu vào, biến ẩn và các biến đầu ra được biểu diễnbằng các nút và các tham số trọng số được biểu diễn bởi các liên kết giữa các nút, trong
đó các tham số bias được biểu thị bằng các liên kết đến từ đầu vào bổ sung và các biến
Các nơ-ron dựa trên sự kết hợp tuyến tính của các hàm cơ sở phi tuyến cố định
tham số: trọng số (weight) và bias Các tham số này có thể điều chỉnh trong quá trình
Trang 31Hình 2.2: Cấu trúc mạng nơ-ron truyền thẳng
huấn luyện Có nhiều cách để xây dựng các hàm cơ sở phi tuyến Mạng nơ-ron sử dụngcác hàm cơ sở theo dạng tương tự như Công thức2.1, sao cho mỗi hàm cơ sở tự nó làhàm phi tuyến của tổ hợp tuyến tính của các đầu vào, trong đó các hệ số trong tổ hợptuyến tính là các tham số thích nghi Định nghĩa này dẫn đến mô hình mạng thần kinh cơ
vớij = 1, , M Trong đó, chỉ số trên là các tham số tương ứng nằm trong lớp đầu tiên
trị kích hoạt Mỗi giá trị kích hoạt này sau đó được chuyển đổi bằng hàm kích hoạt phi
giá trị này lại được kết hợp tuyến tính để kích hoạt đơn vị đầu ra:
với k = 1, , K là số lượng đầu ra Sự chuyển đổi này tương ứng đến lớp thứ hai của
Trang 32dụng hàm kích hoạt thích hợpσ để cung cấp một bộ đầu ra mạngyk Chúng ta có thể kếthợp các giai đoạn vừa được giải thích để cung cấp chức năng mạng tổng thể như sau:
2.3.1 Hàm lỗi và cực tiểu hóa Gradient Descent
Cũng tương tự như các bài toán học máy khác thì quá trình học vẫn là tìm lấy một hàmlỗi để đánh giá và tìm cách tối ưu hàm lỗi đó để được kết quả hợp lý nhất có thể Mộtcách tiếp cận đơn giản cho vấn đề xác định các tham số mạng là để giảm thiểu tổng bình
n = 1, , N, cùng với một tập các vectơ đích tương ứngt n, cực tiểu hóa hàm lỗi:
2.3.2 Lan truyền ngược
Với mỗi điểm dữ liệu trong tập huấn luyện,tổng của hàm lỗi
Trang 33Chúng ta có đầu ra của ANN có thể được tính bởi công thức sau:
ra Điều này được thực hiện bằng cách tính tổng trọng số của các giá trị đầu vào cộng
Yk = φ(X
i
= (wik∗ xi) + bk) (2.11)
không có hàm kích hoạt nào được sử dụng Một phương trình tuyến tính dễ giải, nhưng
nó rất hạn chế trong sự phức tạp Các hàm kích hoạt khác phổ biến hơn được trình bàytrong Bảng 2.1 và Hình 4.9 bên dưới
Bảng 2.1: Một số hàm kích hoạt
2.4 Bộ nhớ dài ngắn hạn
2.4.1 Mạng nơ-ron hồi quy
Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) là một mạng nơ-ron thần kinhchứa các vòng lặp bên trong cho phép thông tin có thể lưu lại được Một mạng nơ-ronhồi quy có thể được coi là nhiều bản sao chép của cùng một mạng, trong đó mỗi đầu racủa mạng này là đầu vào của một mạng sao chép khác Chuỗi lặp lại các mạng này chính
Trang 34Hình 2.3: Các hàm kích hoạt khác nhau trong mạng nơ-ron nhân tạo
là phân giải của mạng nơ-ron hồi quy, các vòng lặp khiến chúng tạo thành một chuỗidanh sách các mạng sao chép nhau
Các kiến trúc của RNN, cũng là cấu trúc cơ bản của LSTM, được trình bày trongHình 2.4
hoạt để sinh ra trạng thái ẩn Đầu ra của mạng nơ-ron có thể được biểu diễn như sau:
y t = σ(Whyh t + b y ) (2.13)
tham số của RNN được huấn luyện và cập nhật lặp đi lặp lại thông qua phương pháp lan
Trang 35truyền ngược (Back-Probagation) Tại mỗi bước thời gian t, lớp ẩn sẽ sinh ra một giá trị
cách khác,x ˆT +1=yT
Mặc dù RNN thể hiện khả năng vượt trội của mô hình với chuỗi thời gian phi tuyến,tuy nhiên, RNN thông thường gặp phải vấn đề bùng nổ và biến mất đạo hàm trong quátrình lan truyền ngược Do đó, nó không có khả năng học từ các chuỗi thời gian có độtrễ lớn [12], hay các chuỗi thời gian có phụ thuộc dài [3]
Thành phần khác nhau duy nhất giữa LSTM và RNN là lớp ẩn [12] Các lớp ẩn củaLSTM còn được gọi là ô hoặc đơn vị (cell) Hình 2.5 minh họa kiến trúc của một đơn vị
số
Với cấu trúc cổng, LSTM có thể giải quyết được các phụ thuộc dài hạn để cho phépcác thông tin hữu ích đi qua cổng Có ba cổng trong một đơn vị LSTM là cổng đầu vào
mở rộng cho một số vấn đề học tập liên quan đến dữ liệu tuần tự [13] Tại mỗi thời điểm
Trang 36ma trận.
Đầu ra cuối cùng của một lớp LSTM là một vector với tất cả các đẩu ra được biểu
2.4.3 Bộ nhớ dài ngắn hạn hai chiều
Ý tưởng của BiLSTM xuất phát tự mạng nơ ron hồi quy hai chiều [27], nó xử lý chuỗi
dữ liệu với hai chiều xuôi và ngược với hai lớp ẩn riêng biệt BiLSTM kết nối hai lớp ẩntới cùng một lớp đầu ra Kiến trúc mở ra của BiLSTM bao gồm một lớp LSTM truyềnthẳng và một lớp LSTM truyền ngược được biểu diễn trong Hình 2.6