Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐẶNG NGỌC UYÊN
NGHIÊN CỨU XÂY DỰNG DỮ LIỆU
VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội - 2023
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐẶNG NGỌC UYÊN
NGHIÊN CỨU XÂY DỰNG DỮ LIỆU
VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT
Chuyên ngành: Khoa học dữ liệu
Mã số: 8904648.01QTD
LUẬN VĂN THẠC SĨ KHOA HỌC
Người hướng dẫn khoa học: TS Nguyễn Thị Minh Huyền
Hà Nội - 2023
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn về đề tài “Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt” là công trình nghiên cứu của cá nhân tôi, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn Thị Minh Huyền Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này hoàn toàn trung thực
Tôi xin hoàn toàn chịu trách nhiệm về lời cam đoan này
Người cam đoan
Đặng Ngọc Uyên
Trang 4LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Tiến sĩ Nguyễn Thị Minh Huyền và Thạc sĩ Ngô Thế Quyền đã tận tình chỉ bảo và giúp đỡ
em trong suốt quá trình thực hiện luận văn thạc sĩ khoa học
Em chân thành cảm ơn tới các thầy, cô trong bộ môn Tin học đã tạo những điều kiện thuận lợi cho chúng em được học tập và nghiên cứu tại trường Đại học Khoa học
tự nhiên – Đại học Quốc gia Hà Nội
Em cũng xin gửi lời cảm ơn đến anh Nguyễn Phương Nam, các chuyên gia y tế và các em sinh viên trong nhóm nghiên cứu khoa học đã nhiệt tình giúp đỡ trong quá trình gán nhãn dữ liệu
Cuối cùng, em muốn gửi lời cảm ơn đến bạn bè, người thân đã luôn bên cạnh động viên em trong suốt quá trình học tập và nghiên cứu hoàn thành luận văn
Hà Nội, ngày … tháng … năm ……
Đặng Ngọc Uyên
Trang 5
1.1 Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa 10
1.2 Giới thiệu về bộ dữ liệu i2b2/VA 2010 11
1.3 Khó khăn và thách thức 14
1.4 Cơ sở dữ liệu nghiên cứu của luận văn 15
CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH RÚT QUAN HỆ THỰC THỂ Y KHOA 18
2.1 Các phương pháp phân loại quan hệ thực thể RE 18
2.1.1 Các phương pháp dựa trên quy tắc 19
2.1.2 Các phương pháp học có giám sát 20
2.1.3 Các phương pháp học phi giám sát 21
2.1.4 Các phương pháp dựa trên mô hình huấn luyện trước 22
2.2 Giới thiệu mô hình BERT 23
2.3 Các mô hình BERT cho trích rút quan hệ lâm sàng 32
2.4 BERT cho ngôn ngữ tiếng Việt 34
2.5 FastBERT 36
CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ 39
3.1 Xây dưng dữ liệu 39
4.2 Hướng phát triển trong tương lai 49
TÀI LIỆU THAM KHẢO 51
PHỤ LỤC 55
Trang 6DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu chữ viết tắt Chữ viết đầy đủ
13 VLSP Vietnamese Language and Speech Processing
Trang 7DANH MỤC HÌNH VẼ
Hình 1 Quy trình cơ bản trong bài toán trích rút quan hệ 10
Hình 2 Các phương pháp học máy được sử dụng để trích rút quan hệ lâm sàng 19
Hình 3 Cấu trúc mô hình Transformer 24
Hình 4 Tiến trình pre-training và fine-tuning của BERT 27
Hình 5 Sơ đồ kiến trúc BERT - ML 28
Hình 6 Kết quả áp dụng BioBERT cho trích rút quan hệ lâm sàng 33
Hình 7 So sánh kết quả trích rút quan hệ lâm sàng trên các mô hình BERT 34
Hình 8 Các loại quan hệ trong bộ data VLSP 2020 36
Hình 9 Ví dụ văn bản tạp chí y học Thành phố Hồ Chí Minh 39
Hình 10 Ví dụ về văn bản y khoa đã được gán nhãn trên WebAnno 40
Hình 11 Ví dụ về định dạng tệp dữ liệu huấn luyện 41
Hình 12 Biểu đồ cột thể hiện số lượng các loại quan hệ trong dữ liệu huấn luyện 41
Hình 13 Biểu đồ cột thể hiện số lượng các loại quan hệ trong dữ liệu thử nghiệm 42
Hình 14 Biểu đồ cột biểu diễn quan hệ trong dữ liệu huấn luyện sau resample 43
Trang 8DANH MỤC BẢNG BIỂU
Bảng 1 Ba loại thực thể trong văn bản y khoa tiếng Việt 15
Bảng 2 Chín loại quan hệ giữa các thực thể trong văn bản y khoa tiếng Việt 16
Bảng 3 Chú thích các trường trong dữ liệu huấn luyện và thử nghiệm 40
Bảng 4 Kết quả thử nghiệm trên bộ dữ liệu có phân biệt hoa thường 45
Bảng 5 Kết quả thử nghiệm trên bộ dữ liệu không phân biệt hoa thường với PhoBERT-large, 30 epochs và learning rate 6e-5 46
Bảng 6.Kết quả thử nghiệm trên bộ dữ liệu không phân biệt hoa thường với PhoBERT-base, 50 epochs và learning rate 6e-5 46
Bảng 7 Kết quả thử nghiệm trên bộ dữ liệu resample không phân biệt hoa thường với PhoBERT-large, 50 epochs 47
Trang 9MỞ ĐẦU
Hiện nay lượng văn bản được tạo ra mỗi ngày đang tăng lên đáng kể trong các lĩnh vực khác nhau như chăm sóc sức khỏe, các bài báo, tài liệu khoa học và phương tiện truyền thông xã hội Trong lĩnh vực chăm sóc sức khỏe, mỗi năm đều có rất nhiều dữ liệu y tế không có cấu trúc và chưa được khai thác được tạo ra Dữ liệu phi cấu trúc này từ bệnh viện, phòng khám chăm sóc sức khỏe hoặc phòng thí nghiệm y sinh có thể ở nhiều dạng khác nhau như văn bản, hình ảnh và tín hiệu Việc khai thác, phân tích và xử lý dữ liệu văn bản đã trở nên cực kỳ phổ biến và hữu ích trong lĩnh vực y sinh và chăm sóc sức khỏe Trong số các nhiệm vụ và kỹ thuật khai thác văn bản khác nhau, mục tiêu của nghiên cứu này là đưa ra một phương pháp phát triển hệ thống tự động trích rút mối quan hệ (RE) giữa các khái niệm y khoa trên bộ dữ liệu tạp chí y học tiếng Việt Trong y học, trích rút quan hệ thực thể đóng một vai trò quan trọng trong quá trình phát hiện, điều trị và theo dõi bệnh nhân Xử lý ngôn ngữ tự nhiên trong văn bản y sinh nói chung và trích rút quan hệ nói riêng nhằm giúp các nhà khoa học hiểu được sự phong phú của dữ liệu từ các kết quả ẩn trong các văn bản y khoa quy mô lớn Đã có nhiều nghiên cứu chứng minh trích rút quan hệ lâm sàng đóng một bước trung gian quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên y sinh học Đến nay cũng đã có nhiều nghiên cứu về trích rút quan hệ lâm sàng [2] và những đóng góp của nó có thể kể đến như nhận dạng phản ứng có hại của thuốc, trích xuất các sự kiện lạm dụng thuốc, hệ thống hỏi đáp và hỗ trợ quyết định lâm sàng
Ví dụ: “Paracetamol làm giảm cơnsốt hiệu quả”
Trong ví dụ trên có hai khái niệm y tế được nhắc tới là “Paracetamol” và “cơn sốt”
“Paracetamol” được định danh là một phương pháp điều trị, và “cơn sốt” được định danh là một vấn đề y tế Vì Paracetamol là một phương pháp điều trị có tác dụng cải thiện một vấn đề y tế - cụ thể là làm giảm cơn sốt hiệu quả, nên chúng được đánh dấu
là có quan hệ phương pháp điều trị phục hồi vấn đề y tế
Luận văn tập trung vào hai nhiệm vụ chính:
Trang 10● Xây dựng bộ dữ liệu RE cho văn bản y khoa tiếng Việt Vì có rất ít dữ liệu y sinh cho tiếng Việt, học viên quyết định xây dựng bộ dữ liệu RE cho tiếng Việt
sử dụng tập nhãn của bộ dữ liệu i2b2/VA 2010 dùng cho cuộc thi về nhận dạng khái niệm y tế và phân lớp quan hệ cho các hồ sơ lâm sàng trong văn bản tiếng Anh
● Xây dựng mô hình trích rút quan hệ thử nghiệm với bộ dữ liệu trên Sau khi khảo sát các bài báo về kết quả nghiên cứu của bài toán RE, học viên quyết định sử dụng mô hình PhoBERT để tiến hành thử nghiệm trên bộ dữ liệu tiếng Việt
Học viên đã tiến hành gán nhãn quan hệ trên các văn bản tạp chí y khoa tiếng Việt dưới sự trợ giúp của các chuyên gia y tế Ngoài ra, cùng với sự giúp đỡ của giảng viên hướng dẫn học viên đã tiến hành thử nghiệm dữ liệu sau khi xây dựng được với mô hình PhoBERT và đã thu được một số kết quả tương đối khả quan với độ chính xác trung bình lên đến 85%
Luận văn được chia thành 4 chương với các nội dung chính như sau:
Chương 1: Trình bày khái quát về bài toán trích rút quan hệ giữa các thực thể
trong văn bản y khoa
Chương 2: Chương này luận văn trình bày khái quát về cách giải quyết bài
toán và các phương pháp giải quyết bài toán Giới thiệu mô hình BERT và ứng dụng
mô hình BERT trong các bài toán trích rút quan hệ giữa các thực thể
Chương 3: Thực nghiệm và kết quả Trong chương này luận văn trình bày về
bộ dữ liệu, quá trình xây dựng bộ dữ liệu văn bản y khoa tiếng Việt và kết quả thực nghiệm của mô hình được sử dụng
Chương 4: Trong phần này, luận văn tóm lược được các điểm chính chỉ ra
những hạn chế cần khắc phục, đồng thời đưa ra những mục tiêu và hướng nghiên cứu trong tương lai
Trang 11CHƯƠNG 1 BÀI TOÁN TRÍCH RÚT QUAN HỆ THỰC THỂ
TRONG VĂN BẢN Y KHOA
Ngày nay, cùng với sự phát triển lớn mạnh của internet và khoa học kỹ thuật tiên tiến
đã mang lại khối lượng dữ liệu khổng lồ Có rất nhiều thông tin quan trọng được ẩn trong các tài liệu phi cấu trúc mà chúng ta cần phải trích rút thông tin để có thể dễ dàng truy cập và xử lý chúng Sự phát triển đáng kể của Hồ sơ sức khỏe điện tử (EHR) trong thập kỷ qua đã cung cấp rất nhiều văn bản lâm sàng, các bài báo y học, v.v Lượng dữ liệu văn bản lâm sàng khổng lồ này đã thúc đẩy sự phát triển của các
kỹ thuật khai thác văn bản và trích xuất thông tin trong lĩnh vực y sinh học Một ví dụ điển hình là sự ra đời của kho tri thức UMLS [1]
UMLS là một hệ thống thuật ngữ y tế đa nền tảng, được phát triển bởi Viện Y tế Quốc
gia Hoa Kỳ (National Library of Medicine - NLM) để hỗ trợ cho việc tìm kiếm và truy
xuất thông tin y tế UMLS bao gồm nhiều tài nguyên ngôn ngữ y tế, bao gồm các thuật ngữ y tế, từ viết tắt, tên bệnh, tên thuốc, quá trình điều trị và các khái niệm y tế khác
UMLS được xây dựng dựa trên mô hình tri thức y tế, trong đó các thuật ngữ y tế được biểu diễn dưới dạng các khái niệm y tế có liên kết với nhau Điều này giúp cho việc tìm kiếm và truy xuất thông tin y tế trở nên dễ dàng hơn, đồng thời hỗ trợ cho việc tích hợp và chia sẻ thông tin y tế giữa các hệ thống khác nhau
Hiện tại, UMLS chứa hơn 3 triệu khái niệm y tế, bao gồm các thuật ngữ y tế, từ viết tắt, tên bệnh, tên thuốc, quá trình điều trị và các khái niệm y tế khác Các khái niệm này được phân loại và tổ chức thành các nhóm khái niệm (semantic types) khác nhau, bao gồm những loại như bệnh học, hóa học, dược phẩm, giải phẫu học, tế bào học, v.v Dưới đây là một số ví dụ về các khái niệm trong UMLS:
● Thuốc: acetaminophen, aspirin, ibuprofen, amoxicillin
● Bệnh: hypertension, diabetes mellitus, myocardial infarction, asthma
● Phẫu thuật: appendectomy, cholecystectomy, hip replacement surgery, coronary artery bypass graft surgery
● Tế bào học: erythrocyte, leukocyte, lymphocyte, platelet
Trang 12● Chức năng sinh lý học: heart rate, blood pressure, respiratory rate, body temperature
● Giải phẫu học: liver, kidney, heart, lung
● Hóa học: sodium chloride, glucose, oxygen, carbon dioxide
UMLS được sử dụng rộng rãi trong lĩnh vực y tế và nghiên cứu y học, đặc biệt là trong các hệ thống thông tin y tế, các hệ thống hỗ trợ quyết định y tế và các nghiên cứu về y học Ngoài ra, UMLS còn được coi là một quy chuẩn, kho từ điển được sử dụng phổ biến trong các tác vụ liên quan đến nhận dạng thực thể (NER) và trích rút quan hệ (RE) trong văn bản y sinh học
1.1 Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa
Trước khi đi vào bài toán trích rút quan hệ trong văn bản y khoa, chúng ta cùng nhắc lại khái niệm chung về bài toán trích rút quan hệ giữa các thực thể
Trích rút quan hệ giữa các thực thể
Việc xác định mối quan hệ giữa hai hoặc nhiều thực thể trong văn bản được gọi là trích rút quan hệ giữa các thực thể [2] Một mục đích của RE là xử lý văn bản ngôn ngữ của con người, để tìm các sự kiện quan hệ chưa biết từ một văn bản thuần túy, sắp xếp thông tin phi cấu trúc thành thông tin có cấu trúc Nhiệm vụ trích rút quan hệ giữa các thực thể trong một văn bản có thể được thực hiện thông qua hai bước chính: nhận
dạng thực và phân loại mối quan hệ (RC)
Hình 1 Quy trình cơ bản trong bài toán trích rút quan hệ
Ví dụ: “Bà Duyên là mẹ của An.”
Trong câu trên ta có thể xác định được 2 thực thể: thực thể 1 là “Bà Duyên” (PERSON) và thực thể 2 là “An” (PERSON), và mối quan hệ giữa 2 thực thể 1 và 2
là mẹ – con (PERSON - PERSON)
Trang 13Trích rút quan hệ trong văn bản y khoa
Tương tự như bài toán trích rút quan hệ thông thường, trích rút quan hệ trong văn bản
y khoa là trích rút mối quan hệ giữa hai hoặc nhiều thực thể đã được định danh trong các văn bản y sinh học Các mối quan hệ y sinh phổ biến thường bao gồm: các tương tác Thuốc – Thuốc, Phương pháp điều trị – bệnh, Phương pháp xét nghiệm – bệnh, mối liên quan giữa bệnh – bệnh, v.v Tùy vào từng ứng dụng thực tế mà ta có các bài toán với vô số kiểu quan hệ khác nhau Ví dụ như việc xác định các phản ứng có hại của thuốc ảnh hưởng đến bệnh nhân, xác định đưa ra phác đồ điều trị hiệu quả cho từng loại bệnh, v.v
Để giải quyết bài toán trích rút mối quan hệ giữa các thực thể trong văn bản y khoa Nhận dạng thực thể trong văn bản y khoa là việc xác định các thực thể và phân loại chúng vào một trong các loại thực thể đã được định danh trước được nêu tên trong các văn bản y sinh học (hồ sơ bệnh án, tạp chí y học, tài liệu nghiên cứu y sinh học, …) Chúng có thể là hóa chất, thuốc, bệnh, phương pháp điều trị, xét nghiệm, gen, protein, v.v Ví dụ: “Ung thư”, “Aspirin”, “Đái tháo đường”, “CT”, “Siêu âm”, …Trong khoảng mười năm gần đây, việc tự động nhận dạng thực thể và trích rút quan hệ thực thể trong văn bản y sinh học đang được quan tâm đáng kể Các nghiên cứu gần đây trong lĩnh vực y sinh thường chủ yếu tập trung vào các vấn đề y tế, bệnh, triệu chứng, kiểu hình gen/protein, thuốc, hóa chất, quy trình sinh học, quy trình y tế, thành phần
tết bào, bộ phân cơ thể, phân tích mô, giải phẫu
Ví dụ: “Hiệu quả của việc <PHƯƠNG PHÁP ĐIỀU TRỊ>phẫu thuật nội soi mũi xoang</PHƯƠNG PHÁP ĐIỀU TRỊ> trong điều trị <BỆNH>viêm mũi xoang mạn tính</BỆNH>.”
Trong ví dụ trên phương pháp điều trị phẫu thuật nội soi mũi xoang có quan hệ phục hồi bệnh viêm mũi xoang
1.2 Giới thiệu về bộ dữ liệu i2b2/VA 2010
Trong lĩnh vực y khoa, để xây dựng kho dữ liệu được chú thích không chỉ tốn nhiều chi phí cả về sức người và sức của, mà còn thường không có sẵn và gặp nhiều khó
Trang 14khăn do các yêu cầu về quyền riêng tư và bảo mật của bệnh nhân Vào năm 2010, i2b2
đã hợp tác với Hệ thống Chăm sóc Sức khỏe Thành phố Veterans Affairs Salt Lake trong việc chú thích thủ công các báo cáo bệnh nhân từ ba tổ chức và tạo ra một cuộc thi trong cộng đồng nghiên cứu có thể tham gia cuộc thi cạnh tranh so sánh giữa các hệ thống của họ cuộc thi này được đặt tên là i2b2/VA 2010 [3] Cuộc thi i2b2/VA năm 2010 góp phần to lớn trong việc công bố hồ sơ bệnh án, đóng góp nguồn dữ liệu lớn cho cộng đồng nghiên cứu xử lý ngôn ngữ y tế
Hội thảo i2b2/VA năm 2010 về xử lý ngôn ngữ tự nhiên cho hồ sơ lâm sàng thuộc lĩnh vực y khoa đã trình bày ba nhiệm vụ:
● Nhiệm vụ trích xuất thực thể - tập trung vào việc trích xuất các khái niệm y tế
từ các báo cáo lâm sàng của bệnh nhân
● Nhiệm vụ phân loại xác nhận tập trung vào việc chỉ định các loại xác nhận cho các khái niệm và vấn đề y tế
● Nhiệm vụ phân loại quan hệ giữa các thực thể - chỉ định các loại quan hệ giữa các vấn đề y tế, xét nghiệm và điều trị
Thách thức i2b2/VA đã cung cấp kho văn bản tiêu chuẩn tham chiếu có chú thích cho
ba tác vụ trên Sử dụng tiêu chuẩn tham chiếu này, 22 hệ thống đã được phát triển để
trích xuất thực thể (NER), 21 hệ thống để phân loại khẳng định (assertion classification) và 16 hệ thống để trích rút quan hệ (RE)
Partners Healthcare, Trung tâm Y tế Beth Israel Deaconess và Trung tâm Y tế Đại học Pittsburgh đã đóng góp các bản tóm tắt xuất viện cho cuộc thi i2b2/VA năm 2010 Ngoài ra, Trung tâm Y tế Đại học Pittsburgh đã đóng góp các báo cáo tiến độ Tổng cộng có 394 báo cáo huấn luyện, 477 báo cáo thử nghiệm và 877 báo cáo không được chú thích đã được hủy nhận dạng và phát hành để thách thức những người tham gia về thỏa thuận sử dụng dữ liệu
Dựa vào bộ dữ liệu i2b2/VA, các khái niệm (thực thể) y khoa được định nghĩa thành
ba loại như sau:
● Problem: Vấn đề y tế
● Treatment: Phương pháp điều trị
● Test: Các loại xét nghiệm, phương pháp đo lường
Trang 15Sau khi gán nhãn các thực thể (khái niệm) y khoa, công việc tiếp theo là cần xác định mối quan hệ giữa các thực thể trên Mối quan hệ giữa các thực thể y khoa trong bộ dữ liệu i2b2/VA gồm có 8 loại và được chia làm 3 nhóm chính như sau:
1) Quan hệ giữa Vấn đề y tế - Phương pháp điều trị:
● Điều trị phục hồi vấn đề y tế (TrIP) Đề cập đến việc điều trị cải thiện
hoặc chữa khỏi vấn đề Ví dụ, tăng huyết áp đã được kiểm soát bằng hydrochlorothiazide
● Điều trị làm trầm trọng thêm vấn đề y tế (TrWP) Đề cập đến việc điều trị
được thực hiện cho vấn đề y tế nhưng không chữa khỏi vấn đề, không cải thiện vấn đề hoặc làm cho vấn đề trở nên tồi tệ hơn Ví dụ: khối u vẫn phát triển bất chấp chế độ hóa trị liệu có sẵn
● Điều trị gây ra vấn đề y tế (TrCP) Ngữ cảnh ngụ ý là việc điều trị không
được thực hiện cho các vấn đề y tế mà nó đã gây ra Ví dụ, Bactrim có thể
là một nguyên nhân gây ra những bất thường này
● Điều trị được thực hiện cho các vấn đề y tế (TrAP) Đề cập đến phương
pháp điều trị được đưa ra cho một vấn đề, nhưng kết quả không được đề cập trong câu Ví dụ, anh ta đã được cho Lasix bao gồm định kỳ để ngăn anh ta đi vào suy tim sung huyết
● Điều trị không được thực hiện vì vấn đề y tế (TrNAP) Bao gồm các đề
cập trong đó việc điều trị không được đưa ra hoặc ngừng điều trị vì vấn đề
y tế mà việc điều trị không gây ra, chẳng hạn như Relafen được chống chỉ định vì loét
2) Quan hệ giữa Vấn đề y tế - Xét nghiệm:
● Kiểm tra cho thấy vấn đề y tế (TeRP) Đề cập đến việc tiến hành xét
nghiệm và kết quả cho thấy vấn đề y tế Ví dụ, siêu âm tim cho thấy tràn dịch màng ngoài tim
● Thử nghiệm được tiến hành để điều tra vấn đề y tế (TeCP) Đề cập đến
việc tiến hành xét nghiệm nhưng kết quả không được đề cập đến trong câu Ví dụ, chụp VQ được thực hiện để điều tra thuyên tắc phổi
Trang 16● Vấn đề y tế chỉ ra vấn đề y tế (PIP) Các vấn đề y tế mô tả hoặc tiết lộ các
khía cạnh của cùng một vấn đề y tế và những vấn đề gây ra vấn đề y tế khác, ví dụ, tăng ure huyết được cho là thứ phát sau nhiễm trùng huyết Bài toán trích rút quan hệ trong văn bản y khoa cho tiếng Việt được lấy ý tưởng từ cuộc thi i2b2/VA và được đưa về bài toán phân lớp, mỗi một loại quan hệ tương đương với một lớp
1.3 Khó khăn và thách thức
Để giải quyết bài toán trên, các nhà nghiên cứu cũng gặp không ít những khó khăn trong quá trình huấn luyện Trích rút mối quan hệ giữa các thực thể là một bài toán cơ bản, tuy nhiên cũng gặp không ít những thách thức cần giải quyết do độ phong phú và
sự nhập nhằng của ngôn ngữ Để thực hiện bài toán trích rút quan hệ ta cần phải giải
quyết 2 vấn đề lớn là nhận dạng thực thể (NER) và phân loại mối quan hệ (Relation Classification - RC)
Thiếu dữ liệu huấn luyện cũng là một vấn đề khó khăn thường xảy ra đối với các bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là dữ liệu về lĩnh vực y sinh học còn khá ít Việc gán nhãn dữ liệu sẽ tốn nhiều thời gian và tiền bạc vì nó đòi hỏi các chuyên gia đặc biệt có kiến thức về y sinh học
Khai phá văn bản y sinh nói chung và trích rút quan hệ giữa các thực thể trong văn bản y sinh nói riêng có nhiều điểm khác biệt so với lĩnh vực nghiên cứu cho dữ liệu thông thường
● Do mục tiêu nghiên cứu cụ thể của các hệ thống khai phá văn bản y sinh khác với các mối quan hệ giữa các thực thể kinh điển như: Người, thời gian, địa điểm, số/tiền tệ, tổ chức, … Trích rút quan hệ trong các văn bản y sinh thường hướng tới các đối tượng đặc biệt hơn đòi hỏi phải có những mô hình nhận dạng thực thể, trích rút quan hệ chuyên biệt cho từng hệ thống Ví dụ hệ thống nghiên cứu các bệnh ưng thư khác với hệ thống nghiên cứu các bệnh truyền nhiễm
● Do tính đặc thù của các từ chuyên ngành trong lĩnh vực y sinh, các từ chuyên ngành này thường không tuân theo những quy luật từ vựng và ngữ nghĩa thông
Trang 17thường Các công cụ để khai phá văn bản và dữ liệu thông thường không phù hợp với dữ liệu y sinh bới nó đòi hỏi tính chuyên ngành cao Chính vì vậy, các nghiên cứu trong lĩnh vực y sinh thường đòi hỏi sự hỗ trợ mang tính kinh nghiệm của các chuyên gia (bác sĩ, các nhà nghiên cứu sinh vật học, …) trong việc xác định và hỗ trợ xây dựng các bộ dữ liệu y sinh học
● Nhiều thực thể chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu, dấu gạch nối, dấu chấm, … Cho đến nay chưa có một bộ danh pháp hay tiêu chuẩn đặt tên chính thức nào cho thực thể y sinh học
● Rất khó xác định chính xác biên của thực thể biểu hiện, một thực thể biểu hiện không những có thể rất dài mà còn có thể chứa cả liên từ, từ phủ định, bổ từ, v.v
● Vì thực thể biểu hiện có thể chứa thực thể khác trong nó, vì vậy tồn tại nhiều nhập nhằng giữa thực thể biểu hiện và các thực thể khác (như bệnh, gene và sản phẩm của gen, bộ phận cơ thể)
● Sự nhập nhằng giữa các thực thể trùng tên những khác loại dẫn đến việc khó khăn trong việc gán nhãn định danh thực thể và khó xác định mối quan hệ giữa chúng
1.4 Cơ sở dữ liệu nghiên cứu của luận văn
Trong luận văn sử dụng bộ dữ liệu y khoa tiếng Việt được xây dựng dựa trên các quy tắc gán nhãn trong cuộc thi i2b2/VA 2010 Các văn bản được lấy từ tạp chí y học Thành phố Hồ Chí Minh với các văn bản mô tả bệnh và sự ảnh hưởng tích cực cũng như tiêu cực của các phương pháp điều trị bệnh, các xét nghiệm đã được thực hiên để điều tra và phát hiện bệnh
Bộ dữ liệu y khoa cho tiếng Việt cũng có 3 loại nhãn cho các khái niệm y tế:
chứng, triệu chứng, …
Bảng 1 Ba loại thực thể trong văn bản y khoa tiếng Việt
Trang 18Khác với bộ dữ liệu i2b2 2010, bộ dữ liệu y khoa tiếng việt bao gồm 9 loại quan hệ như sau:
2 TrIP Phương pháp điều trị phục hồi vấn đề y tế
3 TrWP Phương pháp điều trị làm trầm trọng thêm vấn đề y tế
4 TrCP Phương pháp điều trị gây ra vấn đề y tế
5 TrAP Phương pháp điều trị được thực hiện cho các vấn đề y tế
6 TrNAP Phương pháp điều trị không được thực hiện vì vấn đề y
tế
7 TeRP Xét nghiệm, kiểm tra cho thấy vấn đề y tế
u8 TeCP Xét nghiệm nghiệm được tiến hành để điều tra vấn đề y
tế
9 PIP Vấn đề y tế chỉ ra vấn đề y tế
Bảng 2 Chín loại quan hệ giữa các thực thể trong văn bản y khoa tiếng Việt
Đối với bài toán trích rút quan hệ y khoa được đề cập đến trong luận văn, đầu vào là các câu đã được gán nhãn thực thể và quan hệ y tế Dưới sự giúp đỡ của các chuyên gia y tế, học viên đã tiến hành gãn nhãn trên 880 tệp văn bản và thu được 10403 câu Trong đó có 7926 câu được sử dụng làm dữ liệu huấn luyện, 2477 câu được sử dụng làm bộ dữ liệu kiểm thử Bộ dữ liệu sẽ được sử dụng để phân loại mối quan hệ giữa bệnh và các phương pháp điều trị cũng như các xét nghiệm liên quan giúp gia tăng mức độ chính xác trong quá trình chuẩn đoán cũng như đưa ra các phương pháp điều trị thích hợp
Hiện nay cũng đã có nhiều nghiên cứu liên quan đến bài toán trích rút quan hệ lâm sàng được áp dụng cho nhiều loại ngôn ngữ và đã đạt được nhiều kết quả tốt bằng việc
sử dụng các phương pháp học sâu Với hiện trạng bộ dữ liệu tiếng Việt sau khi thu
Trang 19thập được với số lượng còn ít và có sự chênh lệch nhiều giữa số lượng của các loại quan hệ nên có thể không đạt được kết quả như mong muốn Luận văn sẽ tập trung nghiên cứu các phương pháp học máy hộ trợ phân loại các quan hệ thực thể trong văn bản y khoa và sẽ quyết định lựa chọn một phương pháp thích hợp để tiến hành thử nghiệm
Tổng kết chương
Trong chương này luận văn đã trình bày khái quát về bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa, phạm vi nghiên cứu, ý nghĩa khoa học và những khó khăn gặp phải khi giải quyết bài toán
Trang 20CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH
RÚT QUAN HỆ THỰC THỂ Y KHOA
Để giải quyết các bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên, không thể không nhắc đến các phương pháp học máy Học máy [2] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng các kĩ thuật cho phép máy có thể “học” theo cách của con người thông qua các bộ dữ liệu đặc trưng
Đối với các bài toán xử lý ngôn ngữ tự nhiên nói chung cũng như bài toán RE nói riêng, chúng ta có thể chia quá trình giải quyết bài toán thành 5 bước như sau:
● Thu thập dữ liệu: Thu thập dữ liệu văn bản phù hợp với mục đích của mô hình
● Tiền xử lý dữ liệu: Tiền xử lý dữ liệu để loại bỏ các thông tin không cần thiết, chuẩn hóa các từ vựng, tách từ, đánh dấu câu, và thực hiện các công việc khác
để chuẩn bị dữ liệu cho bước biểu diễn véc-tơ từ
● Biểu diễn véc-tơ từ: Biểu diễn các từ trong văn bản thành các véc-tơ số thực trong không gian đa chiều
● Sử dụng biểu diễn véc-tơ từ: Các biểu diễn véc-tơ từ này được sử dụng để huấn luyện các mô hình học máy và các mô hình học sâu, bao gồm phân loại văn bản, dự đoán chủ đề, trích xuất thông tin, dịch máy, tóm tắt văn bản, và nhiều tác vụ khác
● Đánh giá và cải thiện mô hình: Mô hình được đánh giá thông qua các độ đo đánh giá hiệu suất và được cải thiện thông qua việc điều chỉnh các tham số và
kỹ thuật huấn luyện khác nhau
Trong các phương pháp học máy, cùng với sự phát triển của công nghệ và khả năng
xử lý tính toán mạng nơ-ron nhân tạo được sử dụng rộng rãi và đã đạt được nhiều thành tựu trong các bài toán xử lý ngôn ngữ tự nhiên
2.1 Các phương pháp phân loại quan hệ thực thể RE
Trong các lĩnh vực lâm sàng và y sinh, đã có nhiều bài toán RE được áp dụng cho mối quan hệ gen-thuốc, mối quan hệ gen-bệnh, các lớp ngữ nghĩa để nhận dạng văn bản báo cáo X-quang, trích xuất quan hệ để xây dựng dữ liệu sinh học, mối quan hệ giữa ngữ cảnh từ vựng và phạm trù khái niệm y tế, và mối quan hệ bệnh tật - đột biến từ tài
Trang 21liệu y sinh học và trích xuất mối quan hệ thực thể từ các văn bản lâm sàng là một
nhiệm vụ RE quan trọng khác [4]
Để trích xuất các mối quan hệ này, các phương pháp dựa trên NLP được sử dụng để
tìm kiếm các mối quan hệ giữa các thực thể bên trong cùng một câu hoặc giữa các câu
và đã có nhiều phương pháp huấn luyện khác nhau được sử dụng để phân loại các mối
quan hệ giữa các khái niệm y tế từ các văn bản lâm sàng
Hình 2 Các phương pháp học máy được sử dụng để trích rút quan hệ lâm sàng
2.1.1 Các phương pháp dựa trên quy tắc
Mặc dù phương pháp dựa trên quy tắc không phải là phương pháp phổ biến nhất hiện
nay để trích xuất mối quan hệ từ văn bản lâm sàng, nhưng vẫn được sử dụng và cho
kết quả tương đối khả thi trong thời gian trước
Segura-Bedmar và cộng sự (2011) [5] đã phát triển một phương pháp dựa trên quy tắc
để trích xuất tương tác thuốc-bệnh thông qua việc sử dụng kỹ thuật phân tích cú pháp
cơ bản, đơn giản hóa cú pháp và khớp mẫu Phương pháp này không hoạt động tốt với
độ chính xác trung bình và độ phủ rất thấp
Xu và cộng sự (2011) [6] đã kết hợp phương pháp dựa trên quy tắc kết hợp với học
máy cho RE có cấu trúc từ các bản tóm tắt xuất viện lâm sàng như được cung cấp bởi
thử thách i2b2 2010 Tác vụ RE đã nhận được F1-score trung bình micro-averaged là
0,7326
Trang 22Mahendran và các đồng nghiệp (2021) [7] sử dụng thông tin về vị trí gần nhau giữa các loại thực thể thuốc và không phải thuốc bằng cách sử dụng thuật toán tìm kiếm theo chiều rộng (BFS) để tìm các tác dụng phụ của thuốc Phương pháp dựa trên quy tắc chỉ dùng cho phía bên trái đạt macro-average F1-score: 0,83, vượt trội hơn hiệu suất của các mô hình dựa trên quy tắc khác trên bộ dữ liệu n2c2 2018
Nhìn chung, các phương pháp dựa trên quy tắc cho trích rút quan hệ lâm sàng có thể thực hiện tốt tùy thuộc vào cách định nghĩa các quy tắc, đòi hỏi sự hợp tác giữa các chuyên gia trong lĩnh vực ngôn ngữ học để xây dựng một tập hợp các mô hình mẫu dựa trên ngữ pháp, từ loại và ngữ nghĩa Những phương pháp trích xuất thông tin bằng cách sử dụng các quy tắc và mẫu được định nghĩa rõ ràng thường không hiệu quả như các mô hình học máy, do đó những phương pháp này không được phổ biến hiện nay
2.1.2 Các phương pháp học có giám sát
Các phương học có giám sát áp dụng khi đã có dữ liệu huấn luyện đã được gán nhãn,
mô hình được học dựa trên mẫu dữ liệu đầu vào và đầu ra tương ứng trước Các mô hình điển hình bao gồm Decision Trees, Random Forests, Neural Networks và Support Vector Machines (SVM)
Các thuật toán học có giám sát đã được ứng dụng rộng rãi cho RE, phương pháp này
sử dụng một bộ phân loại để xác định sự hiện diện hoặc vắng mặt của một mối quan hệ giữa hai thực thể Máy tính không thể hiểu văn bản phi cấu trúc, do đó các phương pháp học có giám sát yêu cầu việc mã hóa văn bản, trích xuất đặc trưng đầu vào Việc gán nhãn dữ liệu là một quá trình tốn thời gian vì nó yêu cầu nhiều công sức và kiến thức chuyên môn từ các chuyên gia y tế Điều đó đã trở thành một hạn chế lớn của các phương pháp học có giám sát mặc dù chúng cho kết quả đầu ra có độ chính xác cao Trong thử thách i2b2/VA năm 2010 về các khái niệm, khẳng định và mối quan hệ trong văn bản lâm sàng [3] việc sử dụng các phương pháp học máy truyền thống và học sâu đã cho nhiều kết quả tương đối khả quan
Thuật toán học có giám sát dựa trên SVM cho kết quả tốt nhất với F1-score là 0,737 [8] của nhóm nghiên cứu Robert và cộng sự năm 2011
Trang 23Năm 2016, nhóm nghiên cứu của Sahu và cộng sự [9] đã sử dụng CNN không phụ thuộc vào miền trên nhiều đặc trưng cho trích rút quan hệ lâm sàng trên cùng bộ dữ liệu i2b2 2010 và cho kết quả tốt nhất trong các mô hình CNNs tại thời điểm đó (precision: 0,7634, recall: 0,6735 và F1-score: 0,7116) Cũng tại năm 2016, Lv và
cộng sự [10] sử dụng hai kiểu mô hình dựa trên bộ tự mã hóa (autoencoder) là mô hình dựa trên bộ tự mã hóa sâu (Deep autoencoder-based) và mô hình dựa trên bộ tự
mã hóa sâu và thưa (Sparse deep autoencoder-based) cho thấy mô hình dựa trên bộ tự
mã hóa sâu và thưa có hiệu suất tốt hơn với F1-score trên 80%
Năm 2020, Hasan và cộng sự [11] đã tiến hành thử nghiệm các mô hình học sâu CNN, GCN, ResNet, and BiLSTM trên bộ dữ liệu i2b2 2010 và cho thấy BiLSTM đạt kết quả tốt nhất với F1-score đạt 0,8808 cho chín lớp
Nghiên cứu đã cho thấy rằng trong một số trường hợp có nhiều dữ liệu lớn cụ thể là trên bộ dữ liệu i2b2 2010, các phương pháp học sâu đạt được hiệu suất tốt hơn Ngoài
ra hiệu quả mô hình còn phụ thuộc vào độ phức tạp của dữ liệu
2.1.3 Các phương pháp học phi giám sát
Các phương pháp học phi giám sát áp dụng khi không có dữ liệu huấn luyện đã được gán nhãn, mô hình được học từ dữ liệu đầu vào mà không cần biết đầu ra sau đó máy tính phải tự phân loại, dự báo đầu ra của các mẫu này Ví dụ một số mô hình bao gồm K-means clustering, Principal Component Analysis (PCA) và Generative Adversarial Networks (GANs)
Các kỹ thuật học máy phi giám sát không yêu cầu các văn bản được chú thích trước vì chúng có khả năng hoạt động trên dữ liệu chưa được gán nhãn Tuy nhiên, do văn bản
y khoa thường chứa nhiều nhiễu, các thuật toán phi giám sát không hiệu quả đối với các bài toán trích rút quan hệ lâm sàng
Trong số rất ít các nghiên cứu, Quan và cộng sự (2014) [12] là những người tiên phong trong đề xuất một phương pháp khai thác văn bản bằng kỹ thuật phân cụm sử
dụng cả hai kỹ thuật phân tích cú pháp phụ thuộc (dependency parsing) để xác định
các mối quan hệ giữa các từ trong văn bản cho việc nhận diện mối quan hệ trong dữ liệu y khoa Alicante và đồng nghiệp (2016) [13] đã sử dụng các phương pháp phân
Trang 24cụm Model Based, K-Means và Hierarchical Clustering để trích xuất thực thể và quan hệ từ các bản ghi y khoa tiếng Ý Tuy nhiên ở cả 2 nghiên cứu trên đều cho kết quả chỉ đạt ở mức trung bình và cả 2 nhóm đều tiến hành cải tiến mô hình bằng phương pháp bán giám sát và đã cho kết quả tốt hơn Cụ thể Quan và cộng sự sau khi sử dụng
mô hình bán giám sát đã trở thành mô hình thứ hai tốt nhất trên cùng tập dữ liệu năm
2014
2.1.4 Các phương pháp dựa trên mô hình huấn luyện trước
Các phương pháp dựa trên mô hình huấn luyện trước đã cho thấy kết quả tốt trong nhiều tác vụ NLP, bởi vì các mô hình ngôn ngữ này sử dụng thông tin ngữ cảnh để đại diện cho các đặc trưng Đây là một mô hình học có giám sát vì các đầu vào được xác định rõ ràng cho mỗi trường hợp Các mô hình huẩn luyện trước phổ biến được sử dụng trong các tác vụ NLP bao gồm ULMFit, ELMO, BERT, vv Trong số đó, BERT [14], được giới thiệu bởi Google vào năm 2018, đã trở nên rất phổ biến cho nhiều tác
vụ NLP bao gồm RE Đối với văn bản lâm sàng đã có nhiều mô hình dựa trên BERT được ra đời có thể kể đến như là BioBERT [15], được huấn luyện trên tập dữ liệu PubMed về y tế, và Clinical BERT [16] được huấn luyện trên một tập dữ liệu về y tế về các ghi chú lâm sàng và tóm tắt xuất viện
BERT đã tạo ra một bước đột phá trong việc giải quyết nhiều bài toán trong lĩnh vực
xử lý ngôn ngữ tự nhiên như nhận dạng thực thể, phân loại văn bản, dịch máy, trả lời câu hỏi, tóm tắt văn bản, và nhiều bài toán khác Đặc biệt đối với bài toán RE, năm
2023 nhóm nghiên cứu Ze Shi và cộng sự [17] đã sử dụng mô hình BERT-Vote cho bài toán RE và đạt kết quả tốt nhất trên tập dữ liệu SemEval 2010 với kết quả Macro F1 lên đến 92.5%
BERT và các phiên bản của BERT dành cho lĩnh vực y tế đã trở nên rất phổ biến cho các tác vụ xác định quan hệ thực thể trên các văn bản lâm sàng Vì đây là các mô hình ngôn ngữ, không cần phải trích xuất các đặc trưng đầu vào Toàn bộ văn bản, bao gồm
cả câu hoặc đoạn văn bản đầy đủ có thể được sử dụng làm đầu vào cho mô hình Alimova và đồng nghiệp (2020) [18] đã sử dụng các mô hình dựa trên BERT, bao gồm BioBERT và Clinical BERT Wei và cộng sự (2020) [19] đã xác định rằng BERT
Trang 25được tinh chỉnh tốt đã vượt qua hiệu suất của các mô hình khác trong việc xác định quan hệ thực thể trên các văn bản lâm sàng Mahendran và cộng sự (2021) [7] đã tiến hành thử nghiệm mô hình BERT, BioBERT và Clinical BERT cho nhiệm vụ trích rút quan hệ lâm sàng và đạt kết quả ấn tượng F1-score lên đến 0,93, vượt trội hơn hiệu suất của tất cả các phương pháp dựa trên quy tắc hoặc học sâu khác trên tập dữ liệu này
Ta có thể thấy được các mô hình huấn luyện trước đã cho thấy hiệu suất vượt trội hơn các mô hình khác trong các tác vụ xác định quan hệ thực thể lâm sàng
2.2 Giới thiệu mô hình BERT
BERT sử dụng kiến trúc Transformer, một mạng nơ-ron truyền thẳng sử dụng cơ chế
chú ý (attention) để hiểu và xử lý ngữ cảnh trong các câu Mô hình được huấn luyện
trên hai tác vụ gọi là mô hình ngôn ngữ ẩn (MLM) [14] và dự báo câu tiếp theo (NSP) [14]
BERT được huấn luyện trên một lượng lớn dữ liệu ngôn ngữ tự nhiên, bao gồm cả các tài liệu trên Internet và các nguồn dữ liệu công khai khác Sau quá trình huấn luyện, BERT có khả năng mã hóa ngữ cảnh và biểu diễn nghĩa của các từ và câu trong một không gian véc-tơ Điều này cho phép BERT thực hiện nhiều tác vụ NLP khác nhau bằng cách sử dụng các tầng trên cùng của mô hình để phân loại, trích xuất thông tin, dịch máy và nhiều tác vụ khác
Kỹ thuật Transformer là một lớp mô hình seq2seq gồm 2 quá trình mã hóa và giải mã
Mô hình hoàn toàn không sử dụng các kiến trúc mạng nơ-ron hồi quy (RNN) mà chỉ
sử dụng các tầng attention để nhúng các từ trong câu Kiến trúc cụ thể của mô hình
như sau:
Trang 26Hình 3 Cấu trúc mô hình Transformer
Quá trình mã hóa và giải mã trong Transformer
Máy tính không thể học được từ các dữ liệu thô như bức ảnh, văn bản, âm thanh, đoạn phim Do đó nó cần đến quá trình mã hóa thông tin sang dạng số và từ dạng số giải mã
kết quả đầu ra Đó chính là 2 quá trình mã hóa (encoder) và giải mã (decoder):
● Quá trình mã hóa: Là quá trình mã hóa chuyển đầu vào thành những véc-tơ
đặc trưng có khả năng học Đối với các mô hình mạng nơ-ron nhân tạo, bộ mã hóa là các tầng ẩn Trong mô hình mạng nơ-ron tích chập (CNN), bộ mã hóa là chuỗi các tầng Convolutional + Maxpooling
● Quá trình giải mã: Đầu ra của quá trình mã hóa chính là đầu vào của quá trình
giải mã, nhằm mục đích tìm ra phân phối xác suất từ các véc-tơ đặc tả ngôn
Trang 27ngữ ở quá trình mã hóa từ đó xác định đâu là nhãn của đầu ra Kết quả có thể là một nhãn đối với các mô hình phân loại hoặc một chuỗi các nhãn theo thứ tự
thời gian đối với mô hình seq2seq (sequence-to-sequence)
Cơ chế chú ý (Attention)
Trong các mô hình dựa trên Transformer, cơ chế chú ý (attention) là một cơ chế quan
trọng để mô hình có thể tập trung vào các phần quan trọng của dữ liệu đầu vào Cơ chế gây chú ý cho phép mô hình học cách định rõ mức độ quan trọng của các thông tin trong quá trình xử lý và tạo ra các liên kết mạnh mẽ giữa các từ hoặc vị trí trong câu
Trong mô hình Transformer, cơ chế chú ý được sử dụng để tính toán các trọng số chú
ý (attention weights) cho mỗi cặp từ trong câu đầu vào Các trọng số này cho biết mức
độ quan trọng của từ này đối với từ kia trong quá trình xử lý thông tin Sử dụng các trọng số chú ý, mô hình có thể chú trọng vào các phần quan trọng của câu và lấy thông tin cần thiết để thực hiện các tác vụ như dịch máy, xử lý ngôn ngữ tự nhiên
Cơ chế chú ý có nhiều biến thể khác nhau như self-attention (chú trọng đến các phần
tử trong cùng một chuỗi), global attention (chú trọng đến các phần tử trong chuỗi đầu vào khác), và multi-head attention (sử dụng nhiều cơ chế gây chú ý song song) Từng
biến thể này giúp mô hình học cách hiểu và sử dụng thông tin từ dữ liệu đầu vào một cách hiệu quả
Các tiến trình self-attention và encoder-decoder attention
Trong kiến trúc transformer áp dụng 2 dạng cơ chế chú ý khác nhau tại từng bước huấn luyện
● Self-attention: Được sử dụng trong cùng một câu đầu vào, tại quá trình mã hóa
hoặc tại quá trình giải mã Đây chính là cơ chế gây chú ý được áp dụng tại các Multi-Head Attention ở đầu vào của cả 2 quá trình mã hóa và giải mã
● Encoder-decoder attention: Sở dĩ được gọi là encoder-decoder attention vì đây
là kiến trúc cơ chế chú ý tương tác giữa các véc tơ nhúng của quá trình mã hóa
và giải mã Véc-tơ ngữ cảnh (context vector) được tính toán trên quá trình mã
hóa đã được tính tương quan với véc-tơ giải mã nên sẽ có ý nghĩa giải thích
Trang 28ngữ cảnh của từ tại vị trí của các bước thời gian trong quá trình giải mã dữ liệu đầu ra tương ứng Sau khi kết hợp giữa véc-tơ ngữ cảnh và véc tơ giải mã ta sẽ truyền tiếp qua một lớp kết nối đầy đủ để tính phân phối xác suất cho đầu ra Mặc dù có kiến trúc chỉ gồm các biến đổi cơ chế chú ý nhưng Transformer lại
có kết quả rất tốt trong các tác vụ NLP như phân tích tình cảm (sentiment analysis) và dịch máy
Tinh chỉnh mô hình BERT
Tinh chỉnh mô hình (model fine-tuning) là quá trình điều chỉnh lại một mô hình học
máy đã được huấn luyện trước đó để thích nghi với một tác vụ cụ thể Thay vì huấn luyện mô hình từ đầu, ta sử dụng một mô hình đã được huấn luyện trên một tác vụ liên quan với bộ dữ liệu chuyên môn tương ứng Quá trình tinh chỉnh bao gồm việc tiếp tục huấn luyện mô hình trên dữ liệu mới, thường là tập dữ liệu nhỏ hơn và có nhãn tương ứng với tác vụ cần giải quyết Tinh chỉnh mô hình cho phép mô hình học được thông tin và kiến thức cụ thể về tác vụ mới mà không cần huấn luyện từ đầu Mô hình sẽ điều chỉnh các trọng số và tham số của nó dựa trên dữ liệu mới và mục tiêu tác vụ
cụ thể Quá trình này cho phép mô hình tận dụng những kiến thức đã học được từ quá trình huấn luyện ban đầu và tăng cường khả năng dự đoán và hiểu dữ liệu mới Tinh chỉnh mô hình thường được áp dụng trong các tác vụ máy học có dữ liệu hạn chế và tương đối tương tự với tác vụ huấn luyện ban đầu Việc tinh chỉnh mô hình BERT đã được chứng minh là hiệu quả trong nhiều tác vụ NLP như phân loại văn bản, dịch máy, nhận diện thực thể, và nhiều ứng dụng khác
Trang 29Hình 4 Tiến trình pre-training và fine-tuning của BERT
Tiến trình áp dụng tinh chỉnh sẽ như sau:
● Bước 1: Nhúng toàn bộ các từ của cặp câu bằng các véc tơ nhúng từ mô hình
đã được huấn luyện trước Các véc-tơ nhúng từ bao gồm cả 2 từ là [CLS] và
[SEP] để đánh dấu vị trí bắt đầu của câu và vị trí ngăn cách giữa 2 câu 2 từ này
sẽ được dự báo ở đầu ra để xác định các vị trí bắt đầu và kết thúc của câu đầu
ra
● Bước 2: Các véc-tơ nhúng sau đó sẽ được truyền vào kiến trúc multi-head
attention với nhiều mã khối (thường là 6, 12 hoặc 24 khối tùy theo kiến trúc
BERT) Ta thu được một véc-tơ đầu ra ở quá trình mã hóa
● Bước 3: Để dự báo phân phối xác suất cho từng vị trí từ ởquá trình giải mã, ở
mỗi vị trí của các bước thời gian trong quá trình giải mã dữ liệu đầu ra chúng ta
sẽ truyền vào véc-tơ đầu ra của quá trình mã hóa làm véc-tơ đầu vào của quá
trình giải mã Sau đó truyền qua một lớp kết nối đầy đủ và softmax để thu được
phân phối xác suất cho đầu ra tương ứng ở thời điểm 𝑡
● Bước 4: Trong kết quả trả ở đầu ra của transformer ta sẽ cố định kết quả của
câu hỏi sao cho trùng với câu hỏi ở đầu vào Các vị trí còn lại sẽ là thành phần
mở rộng vị trí bắt đầu và kết thúc tương ứng với câu trả lời tìm được từ câu đầu
vào
Trang 30Masked Language Modeling (MLM)
Masked ML [14] được sử dụng rộng rãi trong mô hình BERT, Masked ML nhằm mục đích đào tạo mô hình để dự đoán các từ được ẩn đi trong một đoạn văn bản Trong quá trình huấn luyện, một số từ được ngẫu nhiên chọn để bị ẩn đi trong câu ban đầu Mô hình BERT được đưa vào và phải dự đoán các từ đã bị ẩn đi dựa trên ngữ cảnh xung quanh Điều này giúp mô hình học được khả năng hiểu và biểu diễn ngữ cảnh từ vựng trong câu Quá trình Masked ML trong BERT sử dụng hai kí hiệu đặc biệt để đại diện cho việc ẩn đi từ: [MASK] và [CLS] [MASK] được sử dụng để đại diện cho từ đã bị
ẩn đi, trong khi [CLS] là kí hiệu đặc biệt cho đầu ra của toàn bộ câu Masked ML giúp cung cấp cho mô hình thông tin ngữ cảnh đa dạng và đào tạo nó để hiểu cấu trúc ngữ pháp và ngữ nghĩa của câu Bên dưới là sơ đồ huấn luyện BERT theo tác vụ Masked ML
Hình 5 Sơ đồ kiến trúc BERT - ML
Theo đó:
● Khoảng 15 % các token của câu đầu vào được thay thế bởi [MASK] trước khi truyền vào mô hình đại diện cho những từ bị ẩn(masked) Mô hình sẽ dựa trên
các từ không được ẩn (non-masked) xung quanh [MASK] và đồng thời là ngữ
cảnh của [MASK] để dự báo giá trị gốc của từ được ẩn Số lượng từ ẩn được lựa chọn là một số ít (15%) để tỷ lệ ngữ cảnh chiếm nhiều hơn (85%)
● Bản chất của kiến trúc BERT vẫn là một mô hình seq2seq gồm 2 quá trình mã hóa giúp nhúng các từ đầu vào và giải mã giúp tìm ra phân phối xác suất của các từ ở đầu ra Qtrình mã hóa trong kiến trúc Transformer được giữ lại trong
Trang 31tác vụ Masked ML Sau khi thực hiện self-attention và mạng truyền thẳng ta sẽ
thu được các véc-tơ nhúng ở kết quả đầu ra là 𝑂1, 𝑂2, , 𝑂5
● Để tính toán phân phối xác suất cho từ ở đầu ra, chúng ta thêm một lớp kết nối
đầy đủ (fully-connection) ngay sau quá trình mã hóa Hàm softmax có tác dụng
tính toán phân phối xác suất Số lượng khối của lớp kết nối đầy đủ phải bằng với kích thước của từ điển
● Cuối cùng ta thu được véc tơ nhúng của mỗi một từ tại vị trí [MASK] sẽ là
véc-tơ giảm chiều của véc-véc-tơ 𝑂𝑖 sau khi đi qua lớp kết nối đầy đủ
Hàm mất mát của BERT sẽ bỏ qua mất mát từ những từ không bị ẩn và chỉ đưa vào mất mát của những từ bị ẩn Do đó mô hình sẽ hội tụ lâu hơn nhưng đây là đặc tính bù trừ cho sự gia tăng ý thức về ngữ cảnh Việc lựa chọn ngẫu nhiên 15% số lượng các từ bị ẩn cũng tạo ra vô số các kịch bản đầu vào cho mô hình huấn luyện nên mô hình sẽ cần phải huấn luyện rất lâu mới học được toàn diện các khả năng
Next Sentence Prediction (NSP)
NSP [14] là một tác vụ trong quá trình huấn luyện mô hình BERT Mục tiêu của NSP
là đào tạo mô hình để dự đoán xem hai câu trong văn bản có liên quan nhau hay không
Trong quá trình huấn luyện BERT, các cặp câu được chọn ngẫu nhiên từ dữ liệu huấn luyện Một trong hai câu được chọn làm "câu A", và câu còn lại được chọn làm "câu B" Mô hình BERT nhận đầu vào là cặp câu A và B, và phải dự đoán xem liệu câu B
có là câu tiếp theo của câu A trong văn bản ban đầu hay không
Để thực hiện dự đoán, mô hình BERT sử dụng một kí tự đặc biệt gọi là [CLS]
(Classification token) [CLS] được thêm vào đầu mỗi câu, và kết quả của nó sẽ được
sử dụng để dự đoán xem hai câu có liên quan hay không [CLS] nhận thông tin từ cả câu A và câu B thông qua quá trình truyền thẳng và cơ chế gây chú ý trong mô hình Transformer
Để phục vụ tác vụ NSP, các mẫu dữ liệu huấn luyện được gán nhãn dựa trên quan hệ giữa câu A và câu B Cụ thể, có ba loại mẫu dữ liệu:
Trang 32● Positive: Cặp câu A và B liên quan nhau trong văn bản ban đầu
● Negative: Cặp câu A và B không liên quan nhau trong văn bản ban đầu
● Random: Cặp câu A và B được chọn ngẫu nhiên từ dữ liệu huấn luyện
Quá trình huấn luyện BERT cùng với tác vụ NSP giúp mô hình học được ngữ nghĩa
và sự tương quan giữa các câu trong văn bản NSP có thể giúp cải thiện khả năng hiểu ngữ cảnh của BERT và hỗ trợ trong các tác vụ yêu cầu thông tin từ nhiều câu trong văn bản, chẳng hạn như câu chuyển tiếp, tóm tắt văn bản, v.v
Tuy nhiên, NSP không được sử dụng trong các ứng dụng thực tế của BERT, nghĩa là khi sử dụng BERT đã được huấn luyện, ta không cần phải thực hiện tác vụ NSP nữa Thay vào đó, ta chỉ cần sử dụng biểu diễn từ ngữ đã được học để thực hiện các tác vụ khác nhau trong xử lý ngôn ngữ tự nhiên
Các kiến trúc model BERT
BERT có hai phiên bản chính là BERT-base [14] và BERT-large [14], với số lượng tham số và khả năng biểu diễn khác nhau BERT-base có khoảng 110 triệu tham số, trong khi BERT-large có khoảng 340 triệu tham số BERT-large có khả năng biểu diễn nghĩa và hiểu ngữ cảnh tốt hơn với tổng cộng 345 triệu tham số, nhiều hơn gấp khoảng 4 lần so với BERT-base Số lượng tham số lớn hơn giúp BERT-large có khả năng biểu diễn ngôn ngữ phong phú hơn và học được sự phụ thuộc ngữ nghĩa phức tạp hơn trong văn bản BERT-large có 24 lớp mã hóa Transformer, trong khi BERT-base chỉ có 12 lớp Điều này cho phép BERT-large có khả năng xem xét ngữ cảnh rộng hơn và hiểu được sự phụ thuộc ngữ nghĩa sâu hơn trong các câu và văn bản Với
số lượng tham số và độ sâu lớn hơn, BERT-large thường có khả năng tổng quát hóa tốt hơn so với BERT-base Điều này có nghĩa là BERT-large có khả năng xử lý và hiểu được các tác vụ ngôn ngữ tự nhiên phức tạp hơn và có thể tổng quát hóa tốt hơn
trên các tập dữ liệu mới
Các phiên bản đều dựa trên việc thay đổi kiến trúc của Transformer tập trung ở 3 tham số:
● 𝐿: số lượng các khối sub-layers trong transformer
● 𝐻: kích thước của embedding véc tơ (hay còn gọi là hidden size)
Trang 33● 𝐴: Số lượng head trong multi-head layer, mỗi một head sẽ thực hiện một attention
Tên gọi của 2 kiến trúc bao gồm:
● 𝐵𝐸𝑅𝑇𝐵𝐴𝑆𝐸 = (𝐿 = 12, 𝐻 = 768, 𝐴 = 12) Tổng tham số 110 triệu
● 𝐵𝐸𝑅𝑇𝐿𝐴𝑅𝐺𝐸 = (𝐿 = 24, 𝐻 = 1024, 𝐴 = 16) Tổng tham số 340 triệu
Như vậy ở kiến trúc BERT Large chúng ta tăng gấp đôi số layer, tăng kích thước hidden size của embedding véc tơ gấp 1.33 lần và tăng số lượng head trong multi-head layer gấp 1.33 lần
Tuy nhiên, việc sử dụng large cũng có một số hạn chế tương tự như base, bao gồm yêu cầu tài nguyên tính toán cao và thời gian huấn luyện kéo dài Do số lượng tham số lớn hơn và độ sâu tăng, việc triển khai BERT-large cần tài nguyên tính toán mạnh hơn và có thể gặp khó khăn trong các hệ thống có tài nguyên hạn chế
BERT-Ưu điểm và nhược điểm của mô hình BERT
Sau khi tiềm hiểu về kiến trúc mô hình BERT ta có thể thấy được BERT có rất nhiều
ưu điểm so với các mô hình học máy trước đấy:
● Biểu diễn từ ngữ mạnh mẽ: BERT có khả năng tạo ra biểu diễn từ ngữ rất mạnh mẽ, bao gồm cả ngữ nghĩa và ngữ cảnh Nhờ vào việc huấn luyện trên lượng lớn dữ liệu ngôn ngữ tự nhiên, BERT có khả năng hiểu được sự tương quan giữa các từ trong một câu và cả giữa các câu trong văn bản
● Hiểu ngữ cảnh hai chiều: BERT sử dụng kiến trúc Transformer để xem xét cả ngữ cảnh trước và sau của một từ, từ đó tạo ra biểu diễn có sự hiểu biết về ngữ cảnh hai chiều Điều này giúp BERT hiểu được sự phụ thuộc ngữ nghĩa giữa các từ trong câu
● Ứng dụng đa nhiệm: BERT có thể được sử dụng cho nhiều tác vụ NLP khác nhau bằng cách chỉnh sửa lớp đầu ra trên cùng của mô hình Điều này cho phép BERT được áp dụng cho các tác vụ như phân loại văn bản, trích xuất thông tin, dịch máy, phân loại quan hệ và nhiều tác vụ khác
● Sử dụng các mô hình BERT: Ngoài BERT-base và BERT-large, còn có các mô hình khác của BERT như BioBERT và Clinical BERT được tinh chỉnh cho các