Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt

Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

ĐẶNG NGỌC UYÊN

NGHIÊN CỨU XÂY DỰNG DỮ LIỆU

VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2023

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

ĐẶNG NGỌC UYÊN

NGHIÊN CỨU XÂY DỰNG DỮ LIỆU

VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT

Chuyên ngành: Khoa học dữ liệu

Mã số: 8904648.01QTD

LUẬN VĂN THẠC SĨ KHOA HỌC

Người hướng dẫn khoa học: TS Nguyễn Thị Minh Huyền

Hà Nội - 2023

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn về đề tài “Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt” là công trình nghiên cứu của cá nhân tôi, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn Thị Minh Huyền Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này hoàn toàn trung thực

Tôi xin hoàn toàn chịu trách nhiệm về lời cam đoan này

Người cam đoan

Đặng Ngọc Uyên

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Tiến sĩ Nguyễn Thị Minh Huyền và Thạc sĩ Ngô Thế Quyền đã tận tình chỉ bảo và giúp đỡ

em trong suốt quá trình thực hiện luận văn thạc sĩ khoa học

Em chân thành cảm ơn tới các thầy, cô trong bộ môn Tin học đã tạo những điều kiện thuận lợi cho chúng em được học tập và nghiên cứu tại trường Đại học Khoa học

tự nhiên – Đại học Quốc gia Hà Nội

Em cũng xin gửi lời cảm ơn đến anh Nguyễn Phương Nam, các chuyên gia y tế và các em sinh viên trong nhóm nghiên cứu khoa học đã nhiệt tình giúp đỡ trong quá trình gán nhãn dữ liệu

Cuối cùng, em muốn gửi lời cảm ơn đến bạn bè, người thân đã luôn bên cạnh động viên em trong suốt quá trình học tập và nghiên cứu hoàn thành luận văn

Hà Nội, ngày … tháng … năm ……

Đặng Ngọc Uyên

Trang 5

1.1 Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa 10

1.2 Giới thiệu về bộ dữ liệu i2b2/VA 2010 11

1.3 Khó khăn và thách thức 14

1.4 Cơ sở dữ liệu nghiên cứu của luận văn 15

CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH RÚT QUAN HỆ THỰC THỂ Y KHOA 18

2.1 Các phương pháp phân loại quan hệ thực thể RE 18

2.1.1 Các phương pháp dựa trên quy tắc 19

2.1.2 Các phương pháp học có giám sát 20

2.1.3 Các phương pháp học phi giám sát 21

2.1.4 Các phương pháp dựa trên mô hình huấn luyện trước 22

2.2 Giới thiệu mô hình BERT 23

2.3 Các mô hình BERT cho trích rút quan hệ lâm sàng 32

2.4 BERT cho ngôn ngữ tiếng Việt 34

2.5 FastBERT 36

CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ 39

3.1 Xây dưng dữ liệu 39

4.2 Hướng phát triển trong tương lai 49

TÀI LIỆU THAM KHẢO 51

PHỤ LỤC 55

Trang 6

DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu chữ viết tắt Chữ viết đầy đủ

13 VLSP Vietnamese Language and Speech Processing

Trang 7

DANH MỤC HÌNH VẼ

Hình 1 Quy trình cơ bản trong bài toán trích rút quan hệ 10

Hình 2 Các phương pháp học máy được sử dụng để trích rút quan hệ lâm sàng 19

Hình 3 Cấu trúc mô hình Transformer 24

Hình 4 Tiến trình pre-training và fine-tuning của BERT 27

Hình 5 Sơ đồ kiến trúc BERT - ML 28

Hình 6 Kết quả áp dụng BioBERT cho trích rút quan hệ lâm sàng 33

Hình 7 So sánh kết quả trích rút quan hệ lâm sàng trên các mô hình BERT 34

Hình 8 Các loại quan hệ trong bộ data VLSP 2020 36

Hình 9 Ví dụ văn bản tạp chí y học Thành phố Hồ Chí Minh 39

Hình 10 Ví dụ về văn bản y khoa đã được gán nhãn trên WebAnno 40

Hình 11 Ví dụ về định dạng tệp dữ liệu huấn luyện 41

Hình 12 Biểu đồ cột thể hiện số lượng các loại quan hệ trong dữ liệu huấn luyện 41

Hình 13 Biểu đồ cột thể hiện số lượng các loại quan hệ trong dữ liệu thử nghiệm 42

Hình 14 Biểu đồ cột biểu diễn quan hệ trong dữ liệu huấn luyện sau resample 43

Trang 8

DANH MỤC BẢNG BIỂU

Bảng 1 Ba loại thực thể trong văn bản y khoa tiếng Việt 15

Bảng 2 Chín loại quan hệ giữa các thực thể trong văn bản y khoa tiếng Việt 16

Bảng 3 Chú thích các trường trong dữ liệu huấn luyện và thử nghiệm 40

Bảng 4 Kết quả thử nghiệm trên bộ dữ liệu có phân biệt hoa thường 45

Bảng 5 Kết quả thử nghiệm trên bộ dữ liệu không phân biệt hoa thường với PhoBERT-large, 30 epochs và learning rate 6e-5 46

Bảng 6.Kết quả thử nghiệm trên bộ dữ liệu không phân biệt hoa thường với PhoBERT-base, 50 epochs và learning rate 6e-5 46

Bảng 7 Kết quả thử nghiệm trên bộ dữ liệu resample không phân biệt hoa thường với PhoBERT-large, 50 epochs 47

Trang 9

MỞ ĐẦU

Hiện nay lượng văn bản được tạo ra mỗi ngày đang tăng lên đáng kể trong các lĩnh vực khác nhau như chăm sóc sức khỏe, các bài báo, tài liệu khoa học và phương tiện truyền thông xã hội Trong lĩnh vực chăm sóc sức khỏe, mỗi năm đều có rất nhiều dữ liệu y tế không có cấu trúc và chưa được khai thác được tạo ra Dữ liệu phi cấu trúc này từ bệnh viện, phòng khám chăm sóc sức khỏe hoặc phòng thí nghiệm y sinh có thể ở nhiều dạng khác nhau như văn bản, hình ảnh và tín hiệu Việc khai thác, phân tích và xử lý dữ liệu văn bản đã trở nên cực kỳ phổ biến và hữu ích trong lĩnh vực y sinh và chăm sóc sức khỏe Trong số các nhiệm vụ và kỹ thuật khai thác văn bản khác nhau, mục tiêu của nghiên cứu này là đưa ra một phương pháp phát triển hệ thống tự động trích rút mối quan hệ (RE) giữa các khái niệm y khoa trên bộ dữ liệu tạp chí y học tiếng Việt Trong y học, trích rút quan hệ thực thể đóng một vai trò quan trọng trong quá trình phát hiện, điều trị và theo dõi bệnh nhân Xử lý ngôn ngữ tự nhiên trong văn bản y sinh nói chung và trích rút quan hệ nói riêng nhằm giúp các nhà khoa học hiểu được sự phong phú của dữ liệu từ các kết quả ẩn trong các văn bản y khoa quy mô lớn Đã có nhiều nghiên cứu chứng minh trích rút quan hệ lâm sàng đóng một bước trung gian quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên y sinh học Đến nay cũng đã có nhiều nghiên cứu về trích rút quan hệ lâm sàng [2] và những đóng góp của nó có thể kể đến như nhận dạng phản ứng có hại của thuốc, trích xuất các sự kiện lạm dụng thuốc, hệ thống hỏi đáp và hỗ trợ quyết định lâm sàng

Ví dụ: “Paracetamol làm giảm cơnsốt hiệu quả”

Trong ví dụ trên có hai khái niệm y tế được nhắc tới là “Paracetamol” và “cơn sốt”

“Paracetamol” được định danh là một phương pháp điều trị, và “cơn sốt” được định danh là một vấn đề y tế Vì Paracetamol là một phương pháp điều trị có tác dụng cải thiện một vấn đề y tế - cụ thể là làm giảm cơn sốt hiệu quả, nên chúng được đánh dấu

là có quan hệ phương pháp điều trị phục hồi vấn đề y tế

Luận văn tập trung vào hai nhiệm vụ chính:

Trang 10

● Xây dựng bộ dữ liệu RE cho văn bản y khoa tiếng Việt Vì có rất ít dữ liệu y sinh cho tiếng Việt, học viên quyết định xây dựng bộ dữ liệu RE cho tiếng Việt

sử dụng tập nhãn của bộ dữ liệu i2b2/VA 2010 dùng cho cuộc thi về nhận dạng khái niệm y tế và phân lớp quan hệ cho các hồ sơ lâm sàng trong văn bản tiếng Anh

● Xây dựng mô hình trích rút quan hệ thử nghiệm với bộ dữ liệu trên Sau khi khảo sát các bài báo về kết quả nghiên cứu của bài toán RE, học viên quyết định sử dụng mô hình PhoBERT để tiến hành thử nghiệm trên bộ dữ liệu tiếng Việt

Học viên đã tiến hành gán nhãn quan hệ trên các văn bản tạp chí y khoa tiếng Việt dưới sự trợ giúp của các chuyên gia y tế Ngoài ra, cùng với sự giúp đỡ của giảng viên hướng dẫn học viên đã tiến hành thử nghiệm dữ liệu sau khi xây dựng được với mô hình PhoBERT và đã thu được một số kết quả tương đối khả quan với độ chính xác trung bình lên đến 85%

Luận văn được chia thành 4 chương với các nội dung chính như sau:

Chương 1: Trình bày khái quát về bài toán trích rút quan hệ giữa các thực thể

trong văn bản y khoa

Chương 2: Chương này luận văn trình bày khái quát về cách giải quyết bài

toán và các phương pháp giải quyết bài toán Giới thiệu mô hình BERT và ứng dụng

mô hình BERT trong các bài toán trích rút quan hệ giữa các thực thể

Chương 3: Thực nghiệm và kết quả Trong chương này luận văn trình bày về

bộ dữ liệu, quá trình xây dựng bộ dữ liệu văn bản y khoa tiếng Việt và kết quả thực nghiệm của mô hình được sử dụng

Chương 4: Trong phần này, luận văn tóm lược được các điểm chính chỉ ra

những hạn chế cần khắc phục, đồng thời đưa ra những mục tiêu và hướng nghiên cứu trong tương lai

Trang 11

CHƯƠNG 1 BÀI TOÁN TRÍCH RÚT QUAN HỆ THỰC THỂ

TRONG VĂN BẢN Y KHOA

Ngày nay, cùng với sự phát triển lớn mạnh của internet và khoa học kỹ thuật tiên tiến

đã mang lại khối lượng dữ liệu khổng lồ Có rất nhiều thông tin quan trọng được ẩn trong các tài liệu phi cấu trúc mà chúng ta cần phải trích rút thông tin để có thể dễ dàng truy cập và xử lý chúng Sự phát triển đáng kể của Hồ sơ sức khỏe điện tử (EHR) trong thập kỷ qua đã cung cấp rất nhiều văn bản lâm sàng, các bài báo y học, v.v Lượng dữ liệu văn bản lâm sàng khổng lồ này đã thúc đẩy sự phát triển của các

kỹ thuật khai thác văn bản và trích xuất thông tin trong lĩnh vực y sinh học Một ví dụ điển hình là sự ra đời của kho tri thức UMLS [1]

UMLS là một hệ thống thuật ngữ y tế đa nền tảng, được phát triển bởi Viện Y tế Quốc

gia Hoa Kỳ (National Library of Medicine - NLM) để hỗ trợ cho việc tìm kiếm và truy

xuất thông tin y tế UMLS bao gồm nhiều tài nguyên ngôn ngữ y tế, bao gồm các thuật ngữ y tế, từ viết tắt, tên bệnh, tên thuốc, quá trình điều trị và các khái niệm y tế khác

UMLS được xây dựng dựa trên mô hình tri thức y tế, trong đó các thuật ngữ y tế được biểu diễn dưới dạng các khái niệm y tế có liên kết với nhau Điều này giúp cho việc tìm kiếm và truy xuất thông tin y tế trở nên dễ dàng hơn, đồng thời hỗ trợ cho việc tích hợp và chia sẻ thông tin y tế giữa các hệ thống khác nhau

Hiện tại, UMLS chứa hơn 3 triệu khái niệm y tế, bao gồm các thuật ngữ y tế, từ viết tắt, tên bệnh, tên thuốc, quá trình điều trị và các khái niệm y tế khác Các khái niệm này được phân loại và tổ chức thành các nhóm khái niệm (semantic types) khác nhau, bao gồm những loại như bệnh học, hóa học, dược phẩm, giải phẫu học, tế bào học, v.v Dưới đây là một số ví dụ về các khái niệm trong UMLS:

● Thuốc: acetaminophen, aspirin, ibuprofen, amoxicillin

● Bệnh: hypertension, diabetes mellitus, myocardial infarction, asthma

● Phẫu thuật: appendectomy, cholecystectomy, hip replacement surgery, coronary artery bypass graft surgery

● Tế bào học: erythrocyte, leukocyte, lymphocyte, platelet

Trang 12

● Chức năng sinh lý học: heart rate, blood pressure, respiratory rate, body temperature

● Giải phẫu học: liver, kidney, heart, lung

● Hóa học: sodium chloride, glucose, oxygen, carbon dioxide

UMLS được sử dụng rộng rãi trong lĩnh vực y tế và nghiên cứu y học, đặc biệt là trong các hệ thống thông tin y tế, các hệ thống hỗ trợ quyết định y tế và các nghiên cứu về y học Ngoài ra, UMLS còn được coi là một quy chuẩn, kho từ điển được sử dụng phổ biến trong các tác vụ liên quan đến nhận dạng thực thể (NER) và trích rút quan hệ (RE) trong văn bản y sinh học

1.1 Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa

Trước khi đi vào bài toán trích rút quan hệ trong văn bản y khoa, chúng ta cùng nhắc lại khái niệm chung về bài toán trích rút quan hệ giữa các thực thể

Trích rút quan hệ giữa các thực thể

Việc xác định mối quan hệ giữa hai hoặc nhiều thực thể trong văn bản được gọi là trích rút quan hệ giữa các thực thể [2] Một mục đích của RE là xử lý văn bản ngôn ngữ của con người, để tìm các sự kiện quan hệ chưa biết từ một văn bản thuần túy, sắp xếp thông tin phi cấu trúc thành thông tin có cấu trúc Nhiệm vụ trích rút quan hệ giữa các thực thể trong một văn bản có thể được thực hiện thông qua hai bước chính: nhận

dạng thực và phân loại mối quan hệ (RC)

Hình 1 Quy trình cơ bản trong bài toán trích rút quan hệ

Ví dụ: “Bà Duyên là mẹ của An.”

Trong câu trên ta có thể xác định được 2 thực thể: thực thể 1 là “Bà Duyên” (PERSON) và thực thể 2 là “An” (PERSON), và mối quan hệ giữa 2 thực thể 1 và 2

là mẹ – con (PERSON - PERSON)

Trang 13

Trích rút quan hệ trong văn bản y khoa

Tương tự như bài toán trích rút quan hệ thông thường, trích rút quan hệ trong văn bản

y khoa là trích rút mối quan hệ giữa hai hoặc nhiều thực thể đã được định danh trong các văn bản y sinh học Các mối quan hệ y sinh phổ biến thường bao gồm: các tương tác Thuốc – Thuốc, Phương pháp điều trị – bệnh, Phương pháp xét nghiệm – bệnh, mối liên quan giữa bệnh – bệnh, v.v Tùy vào từng ứng dụng thực tế mà ta có các bài toán với vô số kiểu quan hệ khác nhau Ví dụ như việc xác định các phản ứng có hại của thuốc ảnh hưởng đến bệnh nhân, xác định đưa ra phác đồ điều trị hiệu quả cho từng loại bệnh, v.v

Để giải quyết bài toán trích rút mối quan hệ giữa các thực thể trong văn bản y khoa Nhận dạng thực thể trong văn bản y khoa là việc xác định các thực thể và phân loại chúng vào một trong các loại thực thể đã được định danh trước được nêu tên trong các văn bản y sinh học (hồ sơ bệnh án, tạp chí y học, tài liệu nghiên cứu y sinh học, …) Chúng có thể là hóa chất, thuốc, bệnh, phương pháp điều trị, xét nghiệm, gen, protein, v.v Ví dụ: “Ung thư”, “Aspirin”, “Đái tháo đường”, “CT”, “Siêu âm”, …Trong khoảng mười năm gần đây, việc tự động nhận dạng thực thể và trích rút quan hệ thực thể trong văn bản y sinh học đang được quan tâm đáng kể Các nghiên cứu gần đây trong lĩnh vực y sinh thường chủ yếu tập trung vào các vấn đề y tế, bệnh, triệu chứng, kiểu hình gen/protein, thuốc, hóa chất, quy trình sinh học, quy trình y tế, thành phần

tết bào, bộ phân cơ thể, phân tích mô, giải phẫu

Ví dụ: “Hiệu quả của việc <PHƯƠNG PHÁP ĐIỀU TRỊ>phẫu thuật nội soi mũi xoang</PHƯƠNG PHÁP ĐIỀU TRỊ> trong điều trị <BỆNH>viêm mũi xoang mạn tính</BỆNH>.”

Trong ví dụ trên phương pháp điều trị phẫu thuật nội soi mũi xoang có quan hệ phục hồi bệnh viêm mũi xoang

1.2 Giới thiệu về bộ dữ liệu i2b2/VA 2010

Trong lĩnh vực y khoa, để xây dựng kho dữ liệu được chú thích không chỉ tốn nhiều chi phí cả về sức người và sức của, mà còn thường không có sẵn và gặp nhiều khó

Trang 14

khăn do các yêu cầu về quyền riêng tư và bảo mật của bệnh nhân Vào năm 2010, i2b2

đã hợp tác với Hệ thống Chăm sóc Sức khỏe Thành phố Veterans Affairs Salt Lake trong việc chú thích thủ công các báo cáo bệnh nhân từ ba tổ chức và tạo ra một cuộc thi trong cộng đồng nghiên cứu có thể tham gia cuộc thi cạnh tranh so sánh giữa các hệ thống của họ cuộc thi này được đặt tên là i2b2/VA 2010 [3] Cuộc thi i2b2/VA năm 2010 góp phần to lớn trong việc công bố hồ sơ bệnh án, đóng góp nguồn dữ liệu lớn cho cộng đồng nghiên cứu xử lý ngôn ngữ y tế

Hội thảo i2b2/VA năm 2010 về xử lý ngôn ngữ tự nhiên cho hồ sơ lâm sàng thuộc lĩnh vực y khoa đã trình bày ba nhiệm vụ:

● Nhiệm vụ trích xuất thực thể - tập trung vào việc trích xuất các khái niệm y tế

từ các báo cáo lâm sàng của bệnh nhân

● Nhiệm vụ phân loại xác nhận tập trung vào việc chỉ định các loại xác nhận cho các khái niệm và vấn đề y tế

● Nhiệm vụ phân loại quan hệ giữa các thực thể - chỉ định các loại quan hệ giữa các vấn đề y tế, xét nghiệm và điều trị

Thách thức i2b2/VA đã cung cấp kho văn bản tiêu chuẩn tham chiếu có chú thích cho

ba tác vụ trên Sử dụng tiêu chuẩn tham chiếu này, 22 hệ thống đã được phát triển để

trích xuất thực thể (NER), 21 hệ thống để phân loại khẳng định (assertion classification) và 16 hệ thống để trích rút quan hệ (RE)

Partners Healthcare, Trung tâm Y tế Beth Israel Deaconess và Trung tâm Y tế Đại học Pittsburgh đã đóng góp các bản tóm tắt xuất viện cho cuộc thi i2b2/VA năm 2010 Ngoài ra, Trung tâm Y tế Đại học Pittsburgh đã đóng góp các báo cáo tiến độ Tổng cộng có 394 báo cáo huấn luyện, 477 báo cáo thử nghiệm và 877 báo cáo không được chú thích đã được hủy nhận dạng và phát hành để thách thức những người tham gia về thỏa thuận sử dụng dữ liệu

Dựa vào bộ dữ liệu i2b2/VA, các khái niệm (thực thể) y khoa được định nghĩa thành

ba loại như sau:

● Problem: Vấn đề y tế

● Treatment: Phương pháp điều trị

● Test: Các loại xét nghiệm, phương pháp đo lường

Trang 15

Sau khi gán nhãn các thực thể (khái niệm) y khoa, công việc tiếp theo là cần xác định mối quan hệ giữa các thực thể trên Mối quan hệ giữa các thực thể y khoa trong bộ dữ liệu i2b2/VA gồm có 8 loại và được chia làm 3 nhóm chính như sau:

1) Quan hệ giữa Vấn đề y tế - Phương pháp điều trị:

● Điều trị phục hồi vấn đề y tế (TrIP) Đề cập đến việc điều trị cải thiện

hoặc chữa khỏi vấn đề Ví dụ, tăng huyết áp đã được kiểm soát bằng hydrochlorothiazide

● Điều trị làm trầm trọng thêm vấn đề y tế (TrWP) Đề cập đến việc điều trị

được thực hiện cho vấn đề y tế nhưng không chữa khỏi vấn đề, không cải thiện vấn đề hoặc làm cho vấn đề trở nên tồi tệ hơn Ví dụ: khối u vẫn phát triển bất chấp chế độ hóa trị liệu có sẵn

● Điều trị gây ra vấn đề y tế (TrCP) Ngữ cảnh ngụ ý là việc điều trị không

được thực hiện cho các vấn đề y tế mà nó đã gây ra Ví dụ, Bactrim có thể

là một nguyên nhân gây ra những bất thường này

● Điều trị được thực hiện cho các vấn đề y tế (TrAP) Đề cập đến phương

pháp điều trị được đưa ra cho một vấn đề, nhưng kết quả không được đề cập trong câu Ví dụ, anh ta đã được cho Lasix bao gồm định kỳ để ngăn anh ta đi vào suy tim sung huyết

● Điều trị không được thực hiện vì vấn đề y tế (TrNAP) Bao gồm các đề

cập trong đó việc điều trị không được đưa ra hoặc ngừng điều trị vì vấn đề

y tế mà việc điều trị không gây ra, chẳng hạn như Relafen được chống chỉ định vì loét

2) Quan hệ giữa Vấn đề y tế - Xét nghiệm:

● Kiểm tra cho thấy vấn đề y tế (TeRP) Đề cập đến việc tiến hành xét

nghiệm và kết quả cho thấy vấn đề y tế Ví dụ, siêu âm tim cho thấy tràn dịch màng ngoài tim

● Thử nghiệm được tiến hành để điều tra vấn đề y tế (TeCP) Đề cập đến

việc tiến hành xét nghiệm nhưng kết quả không được đề cập đến trong câu Ví dụ, chụp VQ được thực hiện để điều tra thuyên tắc phổi

Trang 16

● Vấn đề y tế chỉ ra vấn đề y tế (PIP) Các vấn đề y tế mô tả hoặc tiết lộ các

khía cạnh của cùng một vấn đề y tế và những vấn đề gây ra vấn đề y tế khác, ví dụ, tăng ure huyết được cho là thứ phát sau nhiễm trùng huyết Bài toán trích rút quan hệ trong văn bản y khoa cho tiếng Việt được lấy ý tưởng từ cuộc thi i2b2/VA và được đưa về bài toán phân lớp, mỗi một loại quan hệ tương đương với một lớp

1.3 Khó khăn và thách thức

Để giải quyết bài toán trên, các nhà nghiên cứu cũng gặp không ít những khó khăn trong quá trình huấn luyện Trích rút mối quan hệ giữa các thực thể là một bài toán cơ bản, tuy nhiên cũng gặp không ít những thách thức cần giải quyết do độ phong phú và

sự nhập nhằng của ngôn ngữ Để thực hiện bài toán trích rút quan hệ ta cần phải giải

quyết 2 vấn đề lớn là nhận dạng thực thể (NER) và phân loại mối quan hệ (Relation Classification - RC)

Thiếu dữ liệu huấn luyện cũng là một vấn đề khó khăn thường xảy ra đối với các bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là dữ liệu về lĩnh vực y sinh học còn khá ít Việc gán nhãn dữ liệu sẽ tốn nhiều thời gian và tiền bạc vì nó đòi hỏi các chuyên gia đặc biệt có kiến thức về y sinh học

Khai phá văn bản y sinh nói chung và trích rút quan hệ giữa các thực thể trong văn bản y sinh nói riêng có nhiều điểm khác biệt so với lĩnh vực nghiên cứu cho dữ liệu thông thường

● Do mục tiêu nghiên cứu cụ thể của các hệ thống khai phá văn bản y sinh khác với các mối quan hệ giữa các thực thể kinh điển như: Người, thời gian, địa điểm, số/tiền tệ, tổ chức, … Trích rút quan hệ trong các văn bản y sinh thường hướng tới các đối tượng đặc biệt hơn đòi hỏi phải có những mô hình nhận dạng thực thể, trích rút quan hệ chuyên biệt cho từng hệ thống Ví dụ hệ thống nghiên cứu các bệnh ưng thư khác với hệ thống nghiên cứu các bệnh truyền nhiễm

● Do tính đặc thù của các từ chuyên ngành trong lĩnh vực y sinh, các từ chuyên ngành này thường không tuân theo những quy luật từ vựng và ngữ nghĩa thông

Trang 17

thường Các công cụ để khai phá văn bản và dữ liệu thông thường không phù hợp với dữ liệu y sinh bới nó đòi hỏi tính chuyên ngành cao Chính vì vậy, các nghiên cứu trong lĩnh vực y sinh thường đòi hỏi sự hỗ trợ mang tính kinh nghiệm của các chuyên gia (bác sĩ, các nhà nghiên cứu sinh vật học, …) trong việc xác định và hỗ trợ xây dựng các bộ dữ liệu y sinh học

● Nhiều thực thể chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu, dấu gạch nối, dấu chấm, … Cho đến nay chưa có một bộ danh pháp hay tiêu chuẩn đặt tên chính thức nào cho thực thể y sinh học

● Rất khó xác định chính xác biên của thực thể biểu hiện, một thực thể biểu hiện không những có thể rất dài mà còn có thể chứa cả liên từ, từ phủ định, bổ từ, v.v

● Vì thực thể biểu hiện có thể chứa thực thể khác trong nó, vì vậy tồn tại nhiều nhập nhằng giữa thực thể biểu hiện và các thực thể khác (như bệnh, gene và sản phẩm của gen, bộ phận cơ thể)

● Sự nhập nhằng giữa các thực thể trùng tên những khác loại dẫn đến việc khó khăn trong việc gán nhãn định danh thực thể và khó xác định mối quan hệ giữa chúng

1.4 Cơ sở dữ liệu nghiên cứu của luận văn

Trong luận văn sử dụng bộ dữ liệu y khoa tiếng Việt được xây dựng dựa trên các quy tắc gán nhãn trong cuộc thi i2b2/VA 2010 Các văn bản được lấy từ tạp chí y học Thành phố Hồ Chí Minh với các văn bản mô tả bệnh và sự ảnh hưởng tích cực cũng như tiêu cực của các phương pháp điều trị bệnh, các xét nghiệm đã được thực hiên để điều tra và phát hiện bệnh

Bộ dữ liệu y khoa cho tiếng Việt cũng có 3 loại nhãn cho các khái niệm y tế:

chứng, triệu chứng, …

Bảng 1 Ba loại thực thể trong văn bản y khoa tiếng Việt

Trang 18

Khác với bộ dữ liệu i2b2 2010, bộ dữ liệu y khoa tiếng việt bao gồm 9 loại quan hệ như sau:

2 TrIP Phương pháp điều trị phục hồi vấn đề y tế

3 TrWP Phương pháp điều trị làm trầm trọng thêm vấn đề y tế

4 TrCP Phương pháp điều trị gây ra vấn đề y tế

5 TrAP Phương pháp điều trị được thực hiện cho các vấn đề y tế

6 TrNAP Phương pháp điều trị không được thực hiện vì vấn đề y

tế

7 TeRP Xét nghiệm, kiểm tra cho thấy vấn đề y tế

u8 TeCP Xét nghiệm nghiệm được tiến hành để điều tra vấn đề y

tế

9 PIP Vấn đề y tế chỉ ra vấn đề y tế

Bảng 2 Chín loại quan hệ giữa các thực thể trong văn bản y khoa tiếng Việt

Đối với bài toán trích rút quan hệ y khoa được đề cập đến trong luận văn, đầu vào là các câu đã được gán nhãn thực thể và quan hệ y tế Dưới sự giúp đỡ của các chuyên gia y tế, học viên đã tiến hành gãn nhãn trên 880 tệp văn bản và thu được 10403 câu Trong đó có 7926 câu được sử dụng làm dữ liệu huấn luyện, 2477 câu được sử dụng làm bộ dữ liệu kiểm thử Bộ dữ liệu sẽ được sử dụng để phân loại mối quan hệ giữa bệnh và các phương pháp điều trị cũng như các xét nghiệm liên quan giúp gia tăng mức độ chính xác trong quá trình chuẩn đoán cũng như đưa ra các phương pháp điều trị thích hợp

Hiện nay cũng đã có nhiều nghiên cứu liên quan đến bài toán trích rút quan hệ lâm sàng được áp dụng cho nhiều loại ngôn ngữ và đã đạt được nhiều kết quả tốt bằng việc

sử dụng các phương pháp học sâu Với hiện trạng bộ dữ liệu tiếng Việt sau khi thu

Trang 19

thập được với số lượng còn ít và có sự chênh lệch nhiều giữa số lượng của các loại quan hệ nên có thể không đạt được kết quả như mong muốn Luận văn sẽ tập trung nghiên cứu các phương pháp học máy hộ trợ phân loại các quan hệ thực thể trong văn bản y khoa và sẽ quyết định lựa chọn một phương pháp thích hợp để tiến hành thử nghiệm

Tổng kết chương

Trong chương này luận văn đã trình bày khái quát về bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa, phạm vi nghiên cứu, ý nghĩa khoa học và những khó khăn gặp phải khi giải quyết bài toán

Trang 20

CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH

RÚT QUAN HỆ THỰC THỂ Y KHOA

Để giải quyết các bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên, không thể không nhắc đến các phương pháp học máy Học máy [2] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng các kĩ thuật cho phép máy có thể “học” theo cách của con người thông qua các bộ dữ liệu đặc trưng

Đối với các bài toán xử lý ngôn ngữ tự nhiên nói chung cũng như bài toán RE nói riêng, chúng ta có thể chia quá trình giải quyết bài toán thành 5 bước như sau:

● Thu thập dữ liệu: Thu thập dữ liệu văn bản phù hợp với mục đích của mô hình

● Tiền xử lý dữ liệu: Tiền xử lý dữ liệu để loại bỏ các thông tin không cần thiết, chuẩn hóa các từ vựng, tách từ, đánh dấu câu, và thực hiện các công việc khác

để chuẩn bị dữ liệu cho bước biểu diễn véc-tơ từ

● Biểu diễn véc-tơ từ: Biểu diễn các từ trong văn bản thành các véc-tơ số thực trong không gian đa chiều

● Sử dụng biểu diễn véc-tơ từ: Các biểu diễn véc-tơ từ này được sử dụng để huấn luyện các mô hình học máy và các mô hình học sâu, bao gồm phân loại văn bản, dự đoán chủ đề, trích xuất thông tin, dịch máy, tóm tắt văn bản, và nhiều tác vụ khác

● Đánh giá và cải thiện mô hình: Mô hình được đánh giá thông qua các độ đo đánh giá hiệu suất và được cải thiện thông qua việc điều chỉnh các tham số và

kỹ thuật huấn luyện khác nhau

Trong các phương pháp học máy, cùng với sự phát triển của công nghệ và khả năng

xử lý tính toán mạng nơ-ron nhân tạo được sử dụng rộng rãi và đã đạt được nhiều thành tựu trong các bài toán xử lý ngôn ngữ tự nhiên

2.1 Các phương pháp phân loại quan hệ thực thể RE

Trong các lĩnh vực lâm sàng và y sinh, đã có nhiều bài toán RE được áp dụng cho mối quan hệ gen-thuốc, mối quan hệ gen-bệnh, các lớp ngữ nghĩa để nhận dạng văn bản báo cáo X-quang, trích xuất quan hệ để xây dựng dữ liệu sinh học, mối quan hệ giữa ngữ cảnh từ vựng và phạm trù khái niệm y tế, và mối quan hệ bệnh tật - đột biến từ tài

Trang 21

liệu y sinh học và trích xuất mối quan hệ thực thể từ các văn bản lâm sàng là một

nhiệm vụ RE quan trọng khác [4]

Để trích xuất các mối quan hệ này, các phương pháp dựa trên NLP được sử dụng để

tìm kiếm các mối quan hệ giữa các thực thể bên trong cùng một câu hoặc giữa các câu

và đã có nhiều phương pháp huấn luyện khác nhau được sử dụng để phân loại các mối

quan hệ giữa các khái niệm y tế từ các văn bản lâm sàng

Hình 2 Các phương pháp học máy được sử dụng để trích rút quan hệ lâm sàng

2.1.1 Các phương pháp dựa trên quy tắc

Mặc dù phương pháp dựa trên quy tắc không phải là phương pháp phổ biến nhất hiện

nay để trích xuất mối quan hệ từ văn bản lâm sàng, nhưng vẫn được sử dụng và cho

kết quả tương đối khả thi trong thời gian trước

Segura-Bedmar và cộng sự (2011) [5] đã phát triển một phương pháp dựa trên quy tắc

để trích xuất tương tác thuốc-bệnh thông qua việc sử dụng kỹ thuật phân tích cú pháp

cơ bản, đơn giản hóa cú pháp và khớp mẫu Phương pháp này không hoạt động tốt với

độ chính xác trung bình và độ phủ rất thấp

Xu và cộng sự (2011) [6] đã kết hợp phương pháp dựa trên quy tắc kết hợp với học

máy cho RE có cấu trúc từ các bản tóm tắt xuất viện lâm sàng như được cung cấp bởi

thử thách i2b2 2010 Tác vụ RE đã nhận được F1-score trung bình micro-averaged là

0,7326

Trang 22

Mahendran và các đồng nghiệp (2021) [7] sử dụng thông tin về vị trí gần nhau giữa các loại thực thể thuốc và không phải thuốc bằng cách sử dụng thuật toán tìm kiếm theo chiều rộng (BFS) để tìm các tác dụng phụ của thuốc Phương pháp dựa trên quy tắc chỉ dùng cho phía bên trái đạt macro-average F1-score: 0,83, vượt trội hơn hiệu suất của các mô hình dựa trên quy tắc khác trên bộ dữ liệu n2c2 2018

Nhìn chung, các phương pháp dựa trên quy tắc cho trích rút quan hệ lâm sàng có thể thực hiện tốt tùy thuộc vào cách định nghĩa các quy tắc, đòi hỏi sự hợp tác giữa các chuyên gia trong lĩnh vực ngôn ngữ học để xây dựng một tập hợp các mô hình mẫu dựa trên ngữ pháp, từ loại và ngữ nghĩa Những phương pháp trích xuất thông tin bằng cách sử dụng các quy tắc và mẫu được định nghĩa rõ ràng thường không hiệu quả như các mô hình học máy, do đó những phương pháp này không được phổ biến hiện nay

2.1.2 Các phương pháp học có giám sát

Các phương học có giám sát áp dụng khi đã có dữ liệu huấn luyện đã được gán nhãn,

mô hình được học dựa trên mẫu dữ liệu đầu vào và đầu ra tương ứng trước Các mô hình điển hình bao gồm Decision Trees, Random Forests, Neural Networks và Support Vector Machines (SVM)

Các thuật toán học có giám sát đã được ứng dụng rộng rãi cho RE, phương pháp này

sử dụng một bộ phân loại để xác định sự hiện diện hoặc vắng mặt của một mối quan hệ giữa hai thực thể Máy tính không thể hiểu văn bản phi cấu trúc, do đó các phương pháp học có giám sát yêu cầu việc mã hóa văn bản, trích xuất đặc trưng đầu vào Việc gán nhãn dữ liệu là một quá trình tốn thời gian vì nó yêu cầu nhiều công sức và kiến thức chuyên môn từ các chuyên gia y tế Điều đó đã trở thành một hạn chế lớn của các phương pháp học có giám sát mặc dù chúng cho kết quả đầu ra có độ chính xác cao Trong thử thách i2b2/VA năm 2010 về các khái niệm, khẳng định và mối quan hệ trong văn bản lâm sàng [3] việc sử dụng các phương pháp học máy truyền thống và học sâu đã cho nhiều kết quả tương đối khả quan

Thuật toán học có giám sát dựa trên SVM cho kết quả tốt nhất với F1-score là 0,737 [8] của nhóm nghiên cứu Robert và cộng sự năm 2011

Trang 23

Năm 2016, nhóm nghiên cứu của Sahu và cộng sự [9] đã sử dụng CNN không phụ thuộc vào miền trên nhiều đặc trưng cho trích rút quan hệ lâm sàng trên cùng bộ dữ liệu i2b2 2010 và cho kết quả tốt nhất trong các mô hình CNNs tại thời điểm đó (precision: 0,7634, recall: 0,6735 và F1-score: 0,7116) Cũng tại năm 2016, Lv và

cộng sự [10] sử dụng hai kiểu mô hình dựa trên bộ tự mã hóa (autoencoder) là mô hình dựa trên bộ tự mã hóa sâu (Deep autoencoder-based) và mô hình dựa trên bộ tự

mã hóa sâu và thưa (Sparse deep autoencoder-based) cho thấy mô hình dựa trên bộ tự

mã hóa sâu và thưa có hiệu suất tốt hơn với F1-score trên 80%

Năm 2020, Hasan và cộng sự [11] đã tiến hành thử nghiệm các mô hình học sâu CNN, GCN, ResNet, and BiLSTM trên bộ dữ liệu i2b2 2010 và cho thấy BiLSTM đạt kết quả tốt nhất với F1-score đạt 0,8808 cho chín lớp

Nghiên cứu đã cho thấy rằng trong một số trường hợp có nhiều dữ liệu lớn cụ thể là trên bộ dữ liệu i2b2 2010, các phương pháp học sâu đạt được hiệu suất tốt hơn Ngoài

ra hiệu quả mô hình còn phụ thuộc vào độ phức tạp của dữ liệu

2.1.3 Các phương pháp học phi giám sát

Các phương pháp học phi giám sát áp dụng khi không có dữ liệu huấn luyện đã được gán nhãn, mô hình được học từ dữ liệu đầu vào mà không cần biết đầu ra sau đó máy tính phải tự phân loại, dự báo đầu ra của các mẫu này Ví dụ một số mô hình bao gồm K-means clustering, Principal Component Analysis (PCA) và Generative Adversarial Networks (GANs)

Các kỹ thuật học máy phi giám sát không yêu cầu các văn bản được chú thích trước vì chúng có khả năng hoạt động trên dữ liệu chưa được gán nhãn Tuy nhiên, do văn bản

y khoa thường chứa nhiều nhiễu, các thuật toán phi giám sát không hiệu quả đối với các bài toán trích rút quan hệ lâm sàng

Trong số rất ít các nghiên cứu, Quan và cộng sự (2014) [12] là những người tiên phong trong đề xuất một phương pháp khai thác văn bản bằng kỹ thuật phân cụm sử

dụng cả hai kỹ thuật phân tích cú pháp phụ thuộc (dependency parsing) để xác định

các mối quan hệ giữa các từ trong văn bản cho việc nhận diện mối quan hệ trong dữ liệu y khoa Alicante và đồng nghiệp (2016) [13] đã sử dụng các phương pháp phân

Trang 24

cụm Model Based, K-Means và Hierarchical Clustering để trích xuất thực thể và quan hệ từ các bản ghi y khoa tiếng Ý Tuy nhiên ở cả 2 nghiên cứu trên đều cho kết quả chỉ đạt ở mức trung bình và cả 2 nhóm đều tiến hành cải tiến mô hình bằng phương pháp bán giám sát và đã cho kết quả tốt hơn Cụ thể Quan và cộng sự sau khi sử dụng

mô hình bán giám sát đã trở thành mô hình thứ hai tốt nhất trên cùng tập dữ liệu năm

2014

2.1.4 Các phương pháp dựa trên mô hình huấn luyện trước

Các phương pháp dựa trên mô hình huấn luyện trước đã cho thấy kết quả tốt trong nhiều tác vụ NLP, bởi vì các mô hình ngôn ngữ này sử dụng thông tin ngữ cảnh để đại diện cho các đặc trưng Đây là một mô hình học có giám sát vì các đầu vào được xác định rõ ràng cho mỗi trường hợp Các mô hình huẩn luyện trước phổ biến được sử dụng trong các tác vụ NLP bao gồm ULMFit, ELMO, BERT, vv Trong số đó, BERT [14], được giới thiệu bởi Google vào năm 2018, đã trở nên rất phổ biến cho nhiều tác

vụ NLP bao gồm RE Đối với văn bản lâm sàng đã có nhiều mô hình dựa trên BERT được ra đời có thể kể đến như là BioBERT [15], được huấn luyện trên tập dữ liệu PubMed về y tế, và Clinical BERT [16] được huấn luyện trên một tập dữ liệu về y tế về các ghi chú lâm sàng và tóm tắt xuất viện

BERT đã tạo ra một bước đột phá trong việc giải quyết nhiều bài toán trong lĩnh vực

xử lý ngôn ngữ tự nhiên như nhận dạng thực thể, phân loại văn bản, dịch máy, trả lời câu hỏi, tóm tắt văn bản, và nhiều bài toán khác Đặc biệt đối với bài toán RE, năm

2023 nhóm nghiên cứu Ze Shi và cộng sự [17] đã sử dụng mô hình BERT-Vote cho bài toán RE và đạt kết quả tốt nhất trên tập dữ liệu SemEval 2010 với kết quả Macro F1 lên đến 92.5%

BERT và các phiên bản của BERT dành cho lĩnh vực y tế đã trở nên rất phổ biến cho các tác vụ xác định quan hệ thực thể trên các văn bản lâm sàng Vì đây là các mô hình ngôn ngữ, không cần phải trích xuất các đặc trưng đầu vào Toàn bộ văn bản, bao gồm

cả câu hoặc đoạn văn bản đầy đủ có thể được sử dụng làm đầu vào cho mô hình Alimova và đồng nghiệp (2020) [18] đã sử dụng các mô hình dựa trên BERT, bao gồm BioBERT và Clinical BERT Wei và cộng sự (2020) [19] đã xác định rằng BERT

Trang 25

được tinh chỉnh tốt đã vượt qua hiệu suất của các mô hình khác trong việc xác định quan hệ thực thể trên các văn bản lâm sàng Mahendran và cộng sự (2021) [7] đã tiến hành thử nghiệm mô hình BERT, BioBERT và Clinical BERT cho nhiệm vụ trích rút quan hệ lâm sàng và đạt kết quả ấn tượng F1-score lên đến 0,93, vượt trội hơn hiệu suất của tất cả các phương pháp dựa trên quy tắc hoặc học sâu khác trên tập dữ liệu này

Ta có thể thấy được các mô hình huấn luyện trước đã cho thấy hiệu suất vượt trội hơn các mô hình khác trong các tác vụ xác định quan hệ thực thể lâm sàng

2.2 Giới thiệu mô hình BERT

BERT sử dụng kiến trúc Transformer, một mạng nơ-ron truyền thẳng sử dụng cơ chế

chú ý (attention) để hiểu và xử lý ngữ cảnh trong các câu Mô hình được huấn luyện

trên hai tác vụ gọi là mô hình ngôn ngữ ẩn (MLM) [14] và dự báo câu tiếp theo (NSP) [14]

BERT được huấn luyện trên một lượng lớn dữ liệu ngôn ngữ tự nhiên, bao gồm cả các tài liệu trên Internet và các nguồn dữ liệu công khai khác Sau quá trình huấn luyện, BERT có khả năng mã hóa ngữ cảnh và biểu diễn nghĩa của các từ và câu trong một không gian véc-tơ Điều này cho phép BERT thực hiện nhiều tác vụ NLP khác nhau bằng cách sử dụng các tầng trên cùng của mô hình để phân loại, trích xuất thông tin, dịch máy và nhiều tác vụ khác

Kỹ thuật Transformer là một lớp mô hình seq2seq gồm 2 quá trình mã hóa và giải mã

Mô hình hoàn toàn không sử dụng các kiến trúc mạng nơ-ron hồi quy (RNN) mà chỉ

sử dụng các tầng attention để nhúng các từ trong câu Kiến trúc cụ thể của mô hình

như sau:

Trang 26

Hình 3 Cấu trúc mô hình Transformer

Quá trình mã hóa và giải mã trong Transformer

Máy tính không thể học được từ các dữ liệu thô như bức ảnh, văn bản, âm thanh, đoạn phim Do đó nó cần đến quá trình mã hóa thông tin sang dạng số và từ dạng số giải mã

kết quả đầu ra Đó chính là 2 quá trình mã hóa (encoder) và giải mã (decoder):

● Quá trình mã hóa: Là quá trình mã hóa chuyển đầu vào thành những véc-tơ

đặc trưng có khả năng học Đối với các mô hình mạng nơ-ron nhân tạo, bộ mã hóa là các tầng ẩn Trong mô hình mạng nơ-ron tích chập (CNN), bộ mã hóa là chuỗi các tầng Convolutional + Maxpooling

● Quá trình giải mã: Đầu ra của quá trình mã hóa chính là đầu vào của quá trình

giải mã, nhằm mục đích tìm ra phân phối xác suất từ các véc-tơ đặc tả ngôn

Trang 27

ngữ ở quá trình mã hóa từ đó xác định đâu là nhãn của đầu ra Kết quả có thể là một nhãn đối với các mô hình phân loại hoặc một chuỗi các nhãn theo thứ tự

thời gian đối với mô hình seq2seq (sequence-to-sequence)

Cơ chế chú ý (Attention)

Trong các mô hình dựa trên Transformer, cơ chế chú ý (attention) là một cơ chế quan

trọng để mô hình có thể tập trung vào các phần quan trọng của dữ liệu đầu vào Cơ chế gây chú ý cho phép mô hình học cách định rõ mức độ quan trọng của các thông tin trong quá trình xử lý và tạo ra các liên kết mạnh mẽ giữa các từ hoặc vị trí trong câu

Trong mô hình Transformer, cơ chế chú ý được sử dụng để tính toán các trọng số chú

ý (attention weights) cho mỗi cặp từ trong câu đầu vào Các trọng số này cho biết mức

độ quan trọng của từ này đối với từ kia trong quá trình xử lý thông tin Sử dụng các trọng số chú ý, mô hình có thể chú trọng vào các phần quan trọng của câu và lấy thông tin cần thiết để thực hiện các tác vụ như dịch máy, xử lý ngôn ngữ tự nhiên

Cơ chế chú ý có nhiều biến thể khác nhau như self-attention (chú trọng đến các phần

tử trong cùng một chuỗi), global attention (chú trọng đến các phần tử trong chuỗi đầu vào khác), và multi-head attention (sử dụng nhiều cơ chế gây chú ý song song) Từng

biến thể này giúp mô hình học cách hiểu và sử dụng thông tin từ dữ liệu đầu vào một cách hiệu quả

Các tiến trình self-attention và encoder-decoder attention

Trong kiến trúc transformer áp dụng 2 dạng cơ chế chú ý khác nhau tại từng bước huấn luyện

● Self-attention: Được sử dụng trong cùng một câu đầu vào, tại quá trình mã hóa

hoặc tại quá trình giải mã Đây chính là cơ chế gây chú ý được áp dụng tại các Multi-Head Attention ở đầu vào của cả 2 quá trình mã hóa và giải mã

● Encoder-decoder attention: Sở dĩ được gọi là encoder-decoder attention vì đây

là kiến trúc cơ chế chú ý tương tác giữa các véc tơ nhúng của quá trình mã hóa

và giải mã Véc-tơ ngữ cảnh (context vector) được tính toán trên quá trình mã

hóa đã được tính tương quan với véc-tơ giải mã nên sẽ có ý nghĩa giải thích

Trang 28

ngữ cảnh của từ tại vị trí của các bước thời gian trong quá trình giải mã dữ liệu đầu ra tương ứng Sau khi kết hợp giữa véc-tơ ngữ cảnh và véc tơ giải mã ta sẽ truyền tiếp qua một lớp kết nối đầy đủ để tính phân phối xác suất cho đầu ra Mặc dù có kiến trúc chỉ gồm các biến đổi cơ chế chú ý nhưng Transformer lại

có kết quả rất tốt trong các tác vụ NLP như phân tích tình cảm (sentiment analysis) và dịch máy

Tinh chỉnh mô hình BERT

Tinh chỉnh mô hình (model fine-tuning) là quá trình điều chỉnh lại một mô hình học

máy đã được huấn luyện trước đó để thích nghi với một tác vụ cụ thể Thay vì huấn luyện mô hình từ đầu, ta sử dụng một mô hình đã được huấn luyện trên một tác vụ liên quan với bộ dữ liệu chuyên môn tương ứng Quá trình tinh chỉnh bao gồm việc tiếp tục huấn luyện mô hình trên dữ liệu mới, thường là tập dữ liệu nhỏ hơn và có nhãn tương ứng với tác vụ cần giải quyết Tinh chỉnh mô hình cho phép mô hình học được thông tin và kiến thức cụ thể về tác vụ mới mà không cần huấn luyện từ đầu Mô hình sẽ điều chỉnh các trọng số và tham số của nó dựa trên dữ liệu mới và mục tiêu tác vụ

cụ thể Quá trình này cho phép mô hình tận dụng những kiến thức đã học được từ quá trình huấn luyện ban đầu và tăng cường khả năng dự đoán và hiểu dữ liệu mới Tinh chỉnh mô hình thường được áp dụng trong các tác vụ máy học có dữ liệu hạn chế và tương đối tương tự với tác vụ huấn luyện ban đầu Việc tinh chỉnh mô hình BERT đã được chứng minh là hiệu quả trong nhiều tác vụ NLP như phân loại văn bản, dịch máy, nhận diện thực thể, và nhiều ứng dụng khác

Trang 29

Hình 4 Tiến trình pre-training và fine-tuning của BERT

Tiến trình áp dụng tinh chỉnh sẽ như sau:

● Bước 1: Nhúng toàn bộ các từ của cặp câu bằng các véc tơ nhúng từ mô hình

đã được huấn luyện trước Các véc-tơ nhúng từ bao gồm cả 2 từ là [CLS] và

[SEP] để đánh dấu vị trí bắt đầu của câu và vị trí ngăn cách giữa 2 câu 2 từ này

sẽ được dự báo ở đầu ra để xác định các vị trí bắt đầu và kết thúc của câu đầu

ra

● Bước 2: Các véc-tơ nhúng sau đó sẽ được truyền vào kiến trúc multi-head

attention với nhiều mã khối (thường là 6, 12 hoặc 24 khối tùy theo kiến trúc

BERT) Ta thu được một véc-tơ đầu ra ở quá trình mã hóa

● Bước 3: Để dự báo phân phối xác suất cho từng vị trí từ ởquá trình giải mã, ở

mỗi vị trí của các bước thời gian trong quá trình giải mã dữ liệu đầu ra chúng ta

sẽ truyền vào véc-tơ đầu ra của quá trình mã hóa làm véc-tơ đầu vào của quá

trình giải mã Sau đó truyền qua một lớp kết nối đầy đủ và softmax để thu được

phân phối xác suất cho đầu ra tương ứng ở thời điểm 𝑡

● Bước 4: Trong kết quả trả ở đầu ra của transformer ta sẽ cố định kết quả của

câu hỏi sao cho trùng với câu hỏi ở đầu vào Các vị trí còn lại sẽ là thành phần

mở rộng vị trí bắt đầu và kết thúc tương ứng với câu trả lời tìm được từ câu đầu

vào

Trang 30

Masked Language Modeling (MLM)

Masked ML [14] được sử dụng rộng rãi trong mô hình BERT, Masked ML nhằm mục đích đào tạo mô hình để dự đoán các từ được ẩn đi trong một đoạn văn bản Trong quá trình huấn luyện, một số từ được ngẫu nhiên chọn để bị ẩn đi trong câu ban đầu Mô hình BERT được đưa vào và phải dự đoán các từ đã bị ẩn đi dựa trên ngữ cảnh xung quanh Điều này giúp mô hình học được khả năng hiểu và biểu diễn ngữ cảnh từ vựng trong câu Quá trình Masked ML trong BERT sử dụng hai kí hiệu đặc biệt để đại diện cho việc ẩn đi từ: [MASK] và [CLS] [MASK] được sử dụng để đại diện cho từ đã bị

ẩn đi, trong khi [CLS] là kí hiệu đặc biệt cho đầu ra của toàn bộ câu Masked ML giúp cung cấp cho mô hình thông tin ngữ cảnh đa dạng và đào tạo nó để hiểu cấu trúc ngữ pháp và ngữ nghĩa của câu Bên dưới là sơ đồ huấn luyện BERT theo tác vụ Masked ML

Hình 5 Sơ đồ kiến trúc BERT - ML

Theo đó:

● Khoảng 15 % các token của câu đầu vào được thay thế bởi [MASK] trước khi truyền vào mô hình đại diện cho những từ bị ẩn(masked) Mô hình sẽ dựa trên

các từ không được ẩn (non-masked) xung quanh [MASK] và đồng thời là ngữ

cảnh của [MASK] để dự báo giá trị gốc của từ được ẩn Số lượng từ ẩn được lựa chọn là một số ít (15%) để tỷ lệ ngữ cảnh chiếm nhiều hơn (85%)

● Bản chất của kiến trúc BERT vẫn là một mô hình seq2seq gồm 2 quá trình mã hóa giúp nhúng các từ đầu vào và giải mã giúp tìm ra phân phối xác suất của các từ ở đầu ra Qtrình mã hóa trong kiến trúc Transformer được giữ lại trong

Trang 31

tác vụ Masked ML Sau khi thực hiện self-attention và mạng truyền thẳng ta sẽ

thu được các véc-tơ nhúng ở kết quả đầu ra là 𝑂1, 𝑂2, , 𝑂5

● Để tính toán phân phối xác suất cho từ ở đầu ra, chúng ta thêm một lớp kết nối

đầy đủ (fully-connection) ngay sau quá trình mã hóa Hàm softmax có tác dụng

tính toán phân phối xác suất Số lượng khối của lớp kết nối đầy đủ phải bằng với kích thước của từ điển

● Cuối cùng ta thu được véc tơ nhúng của mỗi một từ tại vị trí [MASK] sẽ là

véc-tơ giảm chiều của véc-véc-tơ 𝑂𝑖 sau khi đi qua lớp kết nối đầy đủ

Hàm mất mát của BERT sẽ bỏ qua mất mát từ những từ không bị ẩn và chỉ đưa vào mất mát của những từ bị ẩn Do đó mô hình sẽ hội tụ lâu hơn nhưng đây là đặc tính bù trừ cho sự gia tăng ý thức về ngữ cảnh Việc lựa chọn ngẫu nhiên 15% số lượng các từ bị ẩn cũng tạo ra vô số các kịch bản đầu vào cho mô hình huấn luyện nên mô hình sẽ cần phải huấn luyện rất lâu mới học được toàn diện các khả năng

Next Sentence Prediction (NSP)

NSP [14] là một tác vụ trong quá trình huấn luyện mô hình BERT Mục tiêu của NSP

là đào tạo mô hình để dự đoán xem hai câu trong văn bản có liên quan nhau hay không

Trong quá trình huấn luyện BERT, các cặp câu được chọn ngẫu nhiên từ dữ liệu huấn luyện Một trong hai câu được chọn làm "câu A", và câu còn lại được chọn làm "câu B" Mô hình BERT nhận đầu vào là cặp câu A và B, và phải dự đoán xem liệu câu B

có là câu tiếp theo của câu A trong văn bản ban đầu hay không

Để thực hiện dự đoán, mô hình BERT sử dụng một kí tự đặc biệt gọi là [CLS]

(Classification token) [CLS] được thêm vào đầu mỗi câu, và kết quả của nó sẽ được

sử dụng để dự đoán xem hai câu có liên quan hay không [CLS] nhận thông tin từ cả câu A và câu B thông qua quá trình truyền thẳng và cơ chế gây chú ý trong mô hình Transformer

Để phục vụ tác vụ NSP, các mẫu dữ liệu huấn luyện được gán nhãn dựa trên quan hệ giữa câu A và câu B Cụ thể, có ba loại mẫu dữ liệu:

Trang 32

● Positive: Cặp câu A và B liên quan nhau trong văn bản ban đầu

● Negative: Cặp câu A và B không liên quan nhau trong văn bản ban đầu

● Random: Cặp câu A và B được chọn ngẫu nhiên từ dữ liệu huấn luyện

Quá trình huấn luyện BERT cùng với tác vụ NSP giúp mô hình học được ngữ nghĩa

và sự tương quan giữa các câu trong văn bản NSP có thể giúp cải thiện khả năng hiểu ngữ cảnh của BERT và hỗ trợ trong các tác vụ yêu cầu thông tin từ nhiều câu trong văn bản, chẳng hạn như câu chuyển tiếp, tóm tắt văn bản, v.v

Tuy nhiên, NSP không được sử dụng trong các ứng dụng thực tế của BERT, nghĩa là khi sử dụng BERT đã được huấn luyện, ta không cần phải thực hiện tác vụ NSP nữa Thay vào đó, ta chỉ cần sử dụng biểu diễn từ ngữ đã được học để thực hiện các tác vụ khác nhau trong xử lý ngôn ngữ tự nhiên

Các kiến trúc model BERT

BERT có hai phiên bản chính là BERT-base [14] và BERT-large [14], với số lượng tham số và khả năng biểu diễn khác nhau BERT-base có khoảng 110 triệu tham số, trong khi BERT-large có khoảng 340 triệu tham số BERT-large có khả năng biểu diễn nghĩa và hiểu ngữ cảnh tốt hơn với tổng cộng 345 triệu tham số, nhiều hơn gấp khoảng 4 lần so với BERT-base Số lượng tham số lớn hơn giúp BERT-large có khả năng biểu diễn ngôn ngữ phong phú hơn và học được sự phụ thuộc ngữ nghĩa phức tạp hơn trong văn bản BERT-large có 24 lớp mã hóa Transformer, trong khi BERT-base chỉ có 12 lớp Điều này cho phép BERT-large có khả năng xem xét ngữ cảnh rộng hơn và hiểu được sự phụ thuộc ngữ nghĩa sâu hơn trong các câu và văn bản Với

số lượng tham số và độ sâu lớn hơn, BERT-large thường có khả năng tổng quát hóa tốt hơn so với BERT-base Điều này có nghĩa là BERT-large có khả năng xử lý và hiểu được các tác vụ ngôn ngữ tự nhiên phức tạp hơn và có thể tổng quát hóa tốt hơn

trên các tập dữ liệu mới

Các phiên bản đều dựa trên việc thay đổi kiến trúc của Transformer tập trung ở 3 tham số:

● 𝐿: số lượng các khối sub-layers trong transformer

● 𝐻: kích thước của embedding véc tơ (hay còn gọi là hidden size)

Trang 33

● 𝐴: Số lượng head trong multi-head layer, mỗi một head sẽ thực hiện một attention

Tên gọi của 2 kiến trúc bao gồm:

● 𝐵𝐸𝑅𝑇𝐵𝐴𝑆𝐸 = (𝐿 = 12, 𝐻 = 768, 𝐴 = 12) Tổng tham số 110 triệu

● 𝐵𝐸𝑅𝑇𝐿𝐴𝑅𝐺𝐸 = (𝐿 = 24, 𝐻 = 1024, 𝐴 = 16) Tổng tham số 340 triệu

Như vậy ở kiến trúc BERT Large chúng ta tăng gấp đôi số layer, tăng kích thước hidden size của embedding véc tơ gấp 1.33 lần và tăng số lượng head trong multi-head layer gấp 1.33 lần

Tuy nhiên, việc sử dụng large cũng có một số hạn chế tương tự như base, bao gồm yêu cầu tài nguyên tính toán cao và thời gian huấn luyện kéo dài Do số lượng tham số lớn hơn và độ sâu tăng, việc triển khai BERT-large cần tài nguyên tính toán mạnh hơn và có thể gặp khó khăn trong các hệ thống có tài nguyên hạn chế

BERT-Ưu điểm và nhược điểm của mô hình BERT

Sau khi tiềm hiểu về kiến trúc mô hình BERT ta có thể thấy được BERT có rất nhiều

ưu điểm so với các mô hình học máy trước đấy:

● Biểu diễn từ ngữ mạnh mẽ: BERT có khả năng tạo ra biểu diễn từ ngữ rất mạnh mẽ, bao gồm cả ngữ nghĩa và ngữ cảnh Nhờ vào việc huấn luyện trên lượng lớn dữ liệu ngôn ngữ tự nhiên, BERT có khả năng hiểu được sự tương quan giữa các từ trong một câu và cả giữa các câu trong văn bản

● Hiểu ngữ cảnh hai chiều: BERT sử dụng kiến trúc Transformer để xem xét cả ngữ cảnh trước và sau của một từ, từ đó tạo ra biểu diễn có sự hiểu biết về ngữ cảnh hai chiều Điều này giúp BERT hiểu được sự phụ thuộc ngữ nghĩa giữa các từ trong câu

● Ứng dụng đa nhiệm: BERT có thể được sử dụng cho nhiều tác vụ NLP khác nhau bằng cách chỉnh sửa lớp đầu ra trên cùng của mô hình Điều này cho phép BERT được áp dụng cho các tác vụ như phân loại văn bản, trích xuất thông tin, dịch máy, phân loại quan hệ và nhiều tác vụ khác

● Sử dụng các mô hình BERT: Ngoài BERT-base và BERT-large, còn có các mô hình khác của BERT như BioBERT và Clinical BERT được tinh chỉnh cho các

Tiêu đề	Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt
Tác giả	Đặng Ngọc Uyên
Người hướng dẫn	TS. Nguyễn Thị Minh Huyền
Trường học	Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội
Chuyên ngành	Khoa học dữ liệu
Thể loại	Luận văn Thạc sĩ Khoa học
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	67
Dung lượng	1,9 MB