1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt

67 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

ĐẶNG NGỌC UYÊN

NGHIÊN CỨU XÂY DỰNG DỮ LIỆU

VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2023

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

ĐẶNG NGỌC UYÊN

NGHIÊN CỨU XÂY DỰNG DỮ LIỆU

VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT

Chuyên ngành: Khoa học dữ liệu

Mã số: 8904648.01QTD

LUẬN VĂN THẠC SĨ KHOA HỌC

Người hướng dẫn khoa học: TS Nguyễn Thị Minh Huyền

Hà Nội - 2023

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn về đề tài “Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt” là công trình nghiên cứu của cá nhân tôi, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn Thị Minh Huyền Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này hoàn toàn trung thực

Tôi xin hoàn toàn chịu trách nhiệm về lời cam đoan này

Người cam đoan

Đặng Ngọc Uyên

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Tiến sĩ Nguyễn Thị Minh Huyền và Thạc sĩ Ngô Thế Quyền đã tận tình chỉ bảo và giúp đỡ

em trong suốt quá trình thực hiện luận văn thạc sĩ khoa học

Em chân thành cảm ơn tới các thầy, cô trong bộ môn Tin học đã tạo những điều kiện thuận lợi cho chúng em được học tập và nghiên cứu tại trường Đại học Khoa học

tự nhiên – Đại học Quốc gia Hà Nội

Em cũng xin gửi lời cảm ơn đến anh Nguyễn Phương Nam, các chuyên gia y tế và các em sinh viên trong nhóm nghiên cứu khoa học đã nhiệt tình giúp đỡ trong quá trình gán nhãn dữ liệu

Cuối cùng, em muốn gửi lời cảm ơn đến bạn bè, người thân đã luôn bên cạnh động viên em trong suốt quá trình học tập và nghiên cứu hoàn thành luận văn

Hà Nội, ngày … tháng … năm ……

Đặng Ngọc Uyên

Trang 5

1.1 Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa 10

1.2 Giới thiệu về bộ dữ liệu i2b2/VA 2010 11

1.3 Khó khăn và thách thức 14

1.4 Cơ sở dữ liệu nghiên cứu của luận văn 15

CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH RÚT QUAN HỆ THỰC THỂ Y KHOA 18

2.1 Các phương pháp phân loại quan hệ thực thể RE 18

2.1.1 Các phương pháp dựa trên quy tắc 19

2.1.2 Các phương pháp học có giám sát 20

2.1.3 Các phương pháp học phi giám sát 21

2.1.4 Các phương pháp dựa trên mô hình huấn luyện trước 22

2.2 Giới thiệu mô hình BERT 23

2.3 Các mô hình BERT cho trích rút quan hệ lâm sàng 32

2.4 BERT cho ngôn ngữ tiếng Việt 34

2.5 FastBERT 36

CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ 39

3.1 Xây dưng dữ liệu 39

4.2 Hướng phát triển trong tương lai 49

TÀI LIỆU THAM KHẢO 51

PHỤ LỤC 55

Trang 6

DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu chữ viết tắt Chữ viết đầy đủ

13 VLSP Vietnamese Language and Speech Processing

Trang 7

DANH MỤC HÌNH VẼ

Hình 1 Quy trình cơ bản trong bài toán trích rút quan hệ 10

Hình 2 Các phương pháp học máy được sử dụng để trích rút quan hệ lâm sàng 19

Hình 3 Cấu trúc mô hình Transformer 24

Hình 4 Tiến trình pre-training và fine-tuning của BERT 27

Hình 5 Sơ đồ kiến trúc BERT - ML 28

Hình 6 Kết quả áp dụng BioBERT cho trích rút quan hệ lâm sàng 33

Hình 7 So sánh kết quả trích rút quan hệ lâm sàng trên các mô hình BERT 34

Hình 8 Các loại quan hệ trong bộ data VLSP 2020 36

Hình 9 Ví dụ văn bản tạp chí y học Thành phố Hồ Chí Minh 39

Hình 10 Ví dụ về văn bản y khoa đã được gán nhãn trên WebAnno 40

Hình 11 Ví dụ về định dạng tệp dữ liệu huấn luyện 41

Hình 12 Biểu đồ cột thể hiện số lượng các loại quan hệ trong dữ liệu huấn luyện 41

Hình 13 Biểu đồ cột thể hiện số lượng các loại quan hệ trong dữ liệu thử nghiệm 42

Hình 14 Biểu đồ cột biểu diễn quan hệ trong dữ liệu huấn luyện sau resample 43

Trang 8

DANH MỤC BẢNG BIỂU

Bảng 1 Ba loại thực thể trong văn bản y khoa tiếng Việt 15

Bảng 2 Chín loại quan hệ giữa các thực thể trong văn bản y khoa tiếng Việt 16

Bảng 3 Chú thích các trường trong dữ liệu huấn luyện và thử nghiệm 40

Bảng 4 Kết quả thử nghiệm trên bộ dữ liệu có phân biệt hoa thường 45

Bảng 5 Kết quả thử nghiệm trên bộ dữ liệu không phân biệt hoa thường với PhoBERT-large, 30 epochs và learning rate 6e-5 46

Bảng 6.Kết quả thử nghiệm trên bộ dữ liệu không phân biệt hoa thường với PhoBERT-base, 50 epochs và learning rate 6e-5 46

Bảng 7 Kết quả thử nghiệm trên bộ dữ liệu resample không phân biệt hoa thường với PhoBERT-large, 50 epochs 47

Trang 9

MỞ ĐẦU

Hiện nay lượng văn bản được tạo ra mỗi ngày đang tăng lên đáng kể trong các lĩnh vực khác nhau như chăm sóc sức khỏe, các bài báo, tài liệu khoa học và phương tiện truyền thông xã hội Trong lĩnh vực chăm sóc sức khỏe, mỗi năm đều có rất nhiều dữ liệu y tế không có cấu trúc và chưa được khai thác được tạo ra Dữ liệu phi cấu trúc này từ bệnh viện, phòng khám chăm sóc sức khỏe hoặc phòng thí nghiệm y sinh có thể ở nhiều dạng khác nhau như văn bản, hình ảnh và tín hiệu Việc khai thác, phân tích và xử lý dữ liệu văn bản đã trở nên cực kỳ phổ biến và hữu ích trong lĩnh vực y sinh và chăm sóc sức khỏe Trong số các nhiệm vụ và kỹ thuật khai thác văn bản khác nhau, mục tiêu của nghiên cứu này là đưa ra một phương pháp phát triển hệ thống tự động trích rút mối quan hệ (RE) giữa các khái niệm y khoa trên bộ dữ liệu tạp chí y học tiếng Việt Trong y học, trích rút quan hệ thực thể đóng một vai trò quan trọng trong quá trình phát hiện, điều trị và theo dõi bệnh nhân Xử lý ngôn ngữ tự nhiên trong văn bản y sinh nói chung và trích rút quan hệ nói riêng nhằm giúp các nhà khoa học hiểu được sự phong phú của dữ liệu từ các kết quả ẩn trong các văn bản y khoa quy mô lớn Đã có nhiều nghiên cứu chứng minh trích rút quan hệ lâm sàng đóng một bước trung gian quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên y sinh học Đến nay cũng đã có nhiều nghiên cứu về trích rút quan hệ lâm sàng [2] và những đóng góp của nó có thể kể đến như nhận dạng phản ứng có hại của thuốc, trích xuất các sự kiện lạm dụng thuốc, hệ thống hỏi đáp và hỗ trợ quyết định lâm sàng

Ví dụ: “Paracetamol làm giảm cơnsốt hiệu quả”

Trong ví dụ trên có hai khái niệm y tế được nhắc tới là “Paracetamol” và “cơn sốt”

“Paracetamol” được định danh là một phương pháp điều trị, và “cơn sốt” được định danh là một vấn đề y tế Vì Paracetamol là một phương pháp điều trị có tác dụng cải thiện một vấn đề y tế - cụ thể là làm giảm cơn sốt hiệu quả, nên chúng được đánh dấu

là có quan hệ phương pháp điều trị phục hồi vấn đề y tế

Luận văn tập trung vào hai nhiệm vụ chính:

Trang 10

● Xây dựng bộ dữ liệu RE cho văn bản y khoa tiếng Việt Vì có rất ít dữ liệu y sinh cho tiếng Việt, học viên quyết định xây dựng bộ dữ liệu RE cho tiếng Việt

sử dụng tập nhãn của bộ dữ liệu i2b2/VA 2010 dùng cho cuộc thi về nhận dạng khái niệm y tế và phân lớp quan hệ cho các hồ sơ lâm sàng trong văn bản tiếng Anh

● Xây dựng mô hình trích rút quan hệ thử nghiệm với bộ dữ liệu trên Sau khi khảo sát các bài báo về kết quả nghiên cứu của bài toán RE, học viên quyết định sử dụng mô hình PhoBERT để tiến hành thử nghiệm trên bộ dữ liệu tiếng Việt

Học viên đã tiến hành gán nhãn quan hệ trên các văn bản tạp chí y khoa tiếng Việt dưới sự trợ giúp của các chuyên gia y tế Ngoài ra, cùng với sự giúp đỡ của giảng viên hướng dẫn học viên đã tiến hành thử nghiệm dữ liệu sau khi xây dựng được với mô hình PhoBERT và đã thu được một số kết quả tương đối khả quan với độ chính xác trung bình lên đến 85%

Luận văn được chia thành 4 chương với các nội dung chính như sau:

Chương 1: Trình bày khái quát về bài toán trích rút quan hệ giữa các thực thể

trong văn bản y khoa

Chương 2: Chương này luận văn trình bày khái quát về cách giải quyết bài

toán và các phương pháp giải quyết bài toán Giới thiệu mô hình BERT và ứng dụng

mô hình BERT trong các bài toán trích rút quan hệ giữa các thực thể

Chương 3: Thực nghiệm và kết quả Trong chương này luận văn trình bày về

bộ dữ liệu, quá trình xây dựng bộ dữ liệu văn bản y khoa tiếng Việt và kết quả thực nghiệm của mô hình được sử dụng

Chương 4: Trong phần này, luận văn tóm lược được các điểm chính chỉ ra

những hạn chế cần khắc phục, đồng thời đưa ra những mục tiêu và hướng nghiên cứu trong tương lai

Trang 11

CHƯƠNG 1 BÀI TOÁN TRÍCH RÚT QUAN HỆ THỰC THỂ

TRONG VĂN BẢN Y KHOA

Ngày nay, cùng với sự phát triển lớn mạnh của internet và khoa học kỹ thuật tiên tiến

đã mang lại khối lượng dữ liệu khổng lồ Có rất nhiều thông tin quan trọng được ẩn trong các tài liệu phi cấu trúc mà chúng ta cần phải trích rút thông tin để có thể dễ dàng truy cập và xử lý chúng Sự phát triển đáng kể của Hồ sơ sức khỏe điện tử (EHR) trong thập kỷ qua đã cung cấp rất nhiều văn bản lâm sàng, các bài báo y học, v.v Lượng dữ liệu văn bản lâm sàng khổng lồ này đã thúc đẩy sự phát triển của các

kỹ thuật khai thác văn bản và trích xuất thông tin trong lĩnh vực y sinh học Một ví dụ điển hình là sự ra đời của kho tri thức UMLS [1]

UMLS là một hệ thống thuật ngữ y tế đa nền tảng, được phát triển bởi Viện Y tế Quốc

gia Hoa Kỳ (National Library of Medicine - NLM) để hỗ trợ cho việc tìm kiếm và truy

xuất thông tin y tế UMLS bao gồm nhiều tài nguyên ngôn ngữ y tế, bao gồm các thuật ngữ y tế, từ viết tắt, tên bệnh, tên thuốc, quá trình điều trị và các khái niệm y tế khác

UMLS được xây dựng dựa trên mô hình tri thức y tế, trong đó các thuật ngữ y tế được biểu diễn dưới dạng các khái niệm y tế có liên kết với nhau Điều này giúp cho việc tìm kiếm và truy xuất thông tin y tế trở nên dễ dàng hơn, đồng thời hỗ trợ cho việc tích hợp và chia sẻ thông tin y tế giữa các hệ thống khác nhau

Hiện tại, UMLS chứa hơn 3 triệu khái niệm y tế, bao gồm các thuật ngữ y tế, từ viết tắt, tên bệnh, tên thuốc, quá trình điều trị và các khái niệm y tế khác Các khái niệm này được phân loại và tổ chức thành các nhóm khái niệm (semantic types) khác nhau, bao gồm những loại như bệnh học, hóa học, dược phẩm, giải phẫu học, tế bào học, v.v Dưới đây là một số ví dụ về các khái niệm trong UMLS:

● Thuốc: acetaminophen, aspirin, ibuprofen, amoxicillin

● Bệnh: hypertension, diabetes mellitus, myocardial infarction, asthma

● Phẫu thuật: appendectomy, cholecystectomy, hip replacement surgery, coronary artery bypass graft surgery

● Tế bào học: erythrocyte, leukocyte, lymphocyte, platelet

Trang 12

● Chức năng sinh lý học: heart rate, blood pressure, respiratory rate, body temperature

● Giải phẫu học: liver, kidney, heart, lung

● Hóa học: sodium chloride, glucose, oxygen, carbon dioxide

UMLS được sử dụng rộng rãi trong lĩnh vực y tế và nghiên cứu y học, đặc biệt là trong các hệ thống thông tin y tế, các hệ thống hỗ trợ quyết định y tế và các nghiên cứu về y học Ngoài ra, UMLS còn được coi là một quy chuẩn, kho từ điển được sử dụng phổ biến trong các tác vụ liên quan đến nhận dạng thực thể (NER) và trích rút quan hệ (RE) trong văn bản y sinh học

1.1 Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa

Trước khi đi vào bài toán trích rút quan hệ trong văn bản y khoa, chúng ta cùng nhắc lại khái niệm chung về bài toán trích rút quan hệ giữa các thực thể

Trích rút quan hệ giữa các thực thể

Việc xác định mối quan hệ giữa hai hoặc nhiều thực thể trong văn bản được gọi là trích rút quan hệ giữa các thực thể [2] Một mục đích của RE là xử lý văn bản ngôn ngữ của con người, để tìm các sự kiện quan hệ chưa biết từ một văn bản thuần túy, sắp xếp thông tin phi cấu trúc thành thông tin có cấu trúc Nhiệm vụ trích rút quan hệ giữa các thực thể trong một văn bản có thể được thực hiện thông qua hai bước chính: nhận

dạng thực và phân loại mối quan hệ (RC)

Hình 1 Quy trình cơ bản trong bài toán trích rút quan hệ

Ví dụ: “Bà Duyên là mẹ của An.”

Trong câu trên ta có thể xác định được 2 thực thể: thực thể 1 là “Bà Duyên” (PERSON) và thực thể 2 là “An” (PERSON), và mối quan hệ giữa 2 thực thể 1 và 2

là mẹ – con (PERSON - PERSON)

Trang 13

Trích rút quan hệ trong văn bản y khoa

Tương tự như bài toán trích rút quan hệ thông thường, trích rút quan hệ trong văn bản

y khoa là trích rút mối quan hệ giữa hai hoặc nhiều thực thể đã được định danh trong các văn bản y sinh học Các mối quan hệ y sinh phổ biến thường bao gồm: các tương tác Thuốc – Thuốc, Phương pháp điều trị – bệnh, Phương pháp xét nghiệm – bệnh, mối liên quan giữa bệnh – bệnh, v.v Tùy vào từng ứng dụng thực tế mà ta có các bài toán với vô số kiểu quan hệ khác nhau Ví dụ như việc xác định các phản ứng có hại của thuốc ảnh hưởng đến bệnh nhân, xác định đưa ra phác đồ điều trị hiệu quả cho từng loại bệnh, v.v

Để giải quyết bài toán trích rút mối quan hệ giữa các thực thể trong văn bản y khoa Nhận dạng thực thể trong văn bản y khoa là việc xác định các thực thể và phân loại chúng vào một trong các loại thực thể đã được định danh trước được nêu tên trong các văn bản y sinh học (hồ sơ bệnh án, tạp chí y học, tài liệu nghiên cứu y sinh học, …) Chúng có thể là hóa chất, thuốc, bệnh, phương pháp điều trị, xét nghiệm, gen, protein, v.v Ví dụ: “Ung thư”, “Aspirin”, “Đái tháo đường”, “CT”, “Siêu âm”, …Trong khoảng mười năm gần đây, việc tự động nhận dạng thực thể và trích rút quan hệ thực thể trong văn bản y sinh học đang được quan tâm đáng kể Các nghiên cứu gần đây trong lĩnh vực y sinh thường chủ yếu tập trung vào các vấn đề y tế, bệnh, triệu chứng, kiểu hình gen/protein, thuốc, hóa chất, quy trình sinh học, quy trình y tế, thành phần

tết bào, bộ phân cơ thể, phân tích mô, giải phẫu

Ví dụ: “Hiệu quả của việc <PHƯƠNG PHÁP ĐIỀU TRỊ>phẫu thuật nội soi mũi xoang</PHƯƠNG PHÁP ĐIỀU TRỊ> trong điều trị <BỆNH>viêm mũi xoang mạn tính</BỆNH>.”

Trong ví dụ trên phương pháp điều trị phẫu thuật nội soi mũi xoang có quan hệ phục hồi bệnh viêm mũi xoang

1.2 Giới thiệu về bộ dữ liệu i2b2/VA 2010

Trong lĩnh vực y khoa, để xây dựng kho dữ liệu được chú thích không chỉ tốn nhiều chi phí cả về sức người và sức của, mà còn thường không có sẵn và gặp nhiều khó

Trang 14

khăn do các yêu cầu về quyền riêng tư và bảo mật của bệnh nhân Vào năm 2010, i2b2

đã hợp tác với Hệ thống Chăm sóc Sức khỏe Thành phố Veterans Affairs Salt Lake trong việc chú thích thủ công các báo cáo bệnh nhân từ ba tổ chức và tạo ra một cuộc thi trong cộng đồng nghiên cứu có thể tham gia cuộc thi cạnh tranh so sánh giữa các hệ thống của họ cuộc thi này được đặt tên là i2b2/VA 2010 [3] Cuộc thi i2b2/VA năm 2010 góp phần to lớn trong việc công bố hồ sơ bệnh án, đóng góp nguồn dữ liệu lớn cho cộng đồng nghiên cứu xử lý ngôn ngữ y tế

Hội thảo i2b2/VA năm 2010 về xử lý ngôn ngữ tự nhiên cho hồ sơ lâm sàng thuộc lĩnh vực y khoa đã trình bày ba nhiệm vụ:

● Nhiệm vụ trích xuất thực thể - tập trung vào việc trích xuất các khái niệm y tế

từ các báo cáo lâm sàng của bệnh nhân

● Nhiệm vụ phân loại xác nhận tập trung vào việc chỉ định các loại xác nhận cho các khái niệm và vấn đề y tế

● Nhiệm vụ phân loại quan hệ giữa các thực thể - chỉ định các loại quan hệ giữa các vấn đề y tế, xét nghiệm và điều trị

Thách thức i2b2/VA đã cung cấp kho văn bản tiêu chuẩn tham chiếu có chú thích cho

ba tác vụ trên Sử dụng tiêu chuẩn tham chiếu này, 22 hệ thống đã được phát triển để

trích xuất thực thể (NER), 21 hệ thống để phân loại khẳng định (assertion classification) và 16 hệ thống để trích rút quan hệ (RE)

Partners Healthcare, Trung tâm Y tế Beth Israel Deaconess và Trung tâm Y tế Đại học Pittsburgh đã đóng góp các bản tóm tắt xuất viện cho cuộc thi i2b2/VA năm 2010 Ngoài ra, Trung tâm Y tế Đại học Pittsburgh đã đóng góp các báo cáo tiến độ Tổng cộng có 394 báo cáo huấn luyện, 477 báo cáo thử nghiệm và 877 báo cáo không được chú thích đã được hủy nhận dạng và phát hành để thách thức những người tham gia về thỏa thuận sử dụng dữ liệu

Dựa vào bộ dữ liệu i2b2/VA, các khái niệm (thực thể) y khoa được định nghĩa thành

ba loại như sau:

● Problem: Vấn đề y tế

● Treatment: Phương pháp điều trị

● Test: Các loại xét nghiệm, phương pháp đo lường

Trang 15

Sau khi gán nhãn các thực thể (khái niệm) y khoa, công việc tiếp theo là cần xác định mối quan hệ giữa các thực thể trên Mối quan hệ giữa các thực thể y khoa trong bộ dữ liệu i2b2/VA gồm có 8 loại và được chia làm 3 nhóm chính như sau:

1) Quan hệ giữa Vấn đề y tế - Phương pháp điều trị:

● Điều trị phục hồi vấn đề y tế (TrIP) Đề cập đến việc điều trị cải thiện

hoặc chữa khỏi vấn đề Ví dụ, tăng huyết áp đã được kiểm soát bằng hydrochlorothiazide

● Điều trị làm trầm trọng thêm vấn đề y tế (TrWP) Đề cập đến việc điều trị

được thực hiện cho vấn đề y tế nhưng không chữa khỏi vấn đề, không cải thiện vấn đề hoặc làm cho vấn đề trở nên tồi tệ hơn Ví dụ: khối u vẫn phát triển bất chấp chế độ hóa trị liệu có sẵn

● Điều trị gây ra vấn đề y tế (TrCP) Ngữ cảnh ngụ ý là việc điều trị không

được thực hiện cho các vấn đề y tế mà nó đã gây ra Ví dụ, Bactrim có thể

là một nguyên nhân gây ra những bất thường này

● Điều trị được thực hiện cho các vấn đề y tế (TrAP) Đề cập đến phương

pháp điều trị được đưa ra cho một vấn đề, nhưng kết quả không được đề cập trong câu Ví dụ, anh ta đã được cho Lasix bao gồm định kỳ để ngăn anh ta đi vào suy tim sung huyết

● Điều trị không được thực hiện vì vấn đề y tế (TrNAP) Bao gồm các đề

cập trong đó việc điều trị không được đưa ra hoặc ngừng điều trị vì vấn đề

y tế mà việc điều trị không gây ra, chẳng hạn như Relafen được chống chỉ định vì loét

2) Quan hệ giữa Vấn đề y tế - Xét nghiệm:

● Kiểm tra cho thấy vấn đề y tế (TeRP) Đề cập đến việc tiến hành xét

nghiệm và kết quả cho thấy vấn đề y tế Ví dụ, siêu âm tim cho thấy tràn dịch màng ngoài tim

● Thử nghiệm được tiến hành để điều tra vấn đề y tế (TeCP) Đề cập đến

việc tiến hành xét nghiệm nhưng kết quả không được đề cập đến trong câu Ví dụ, chụp VQ được thực hiện để điều tra thuyên tắc phổi

Trang 16

● Vấn đề y tế chỉ ra vấn đề y tế (PIP) Các vấn đề y tế mô tả hoặc tiết lộ các

khía cạnh của cùng một vấn đề y tế và những vấn đề gây ra vấn đề y tế khác, ví dụ, tăng ure huyết được cho là thứ phát sau nhiễm trùng huyết Bài toán trích rút quan hệ trong văn bản y khoa cho tiếng Việt được lấy ý tưởng từ cuộc thi i2b2/VA và được đưa về bài toán phân lớp, mỗi một loại quan hệ tương đương với một lớp

1.3 Khó khăn và thách thức

Để giải quyết bài toán trên, các nhà nghiên cứu cũng gặp không ít những khó khăn trong quá trình huấn luyện Trích rút mối quan hệ giữa các thực thể là một bài toán cơ bản, tuy nhiên cũng gặp không ít những thách thức cần giải quyết do độ phong phú và

sự nhập nhằng của ngôn ngữ Để thực hiện bài toán trích rút quan hệ ta cần phải giải

quyết 2 vấn đề lớn là nhận dạng thực thể (NER) và phân loại mối quan hệ (Relation Classification - RC)

Thiếu dữ liệu huấn luyện cũng là một vấn đề khó khăn thường xảy ra đối với các bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là dữ liệu về lĩnh vực y sinh học còn khá ít Việc gán nhãn dữ liệu sẽ tốn nhiều thời gian và tiền bạc vì nó đòi hỏi các chuyên gia đặc biệt có kiến thức về y sinh học

Khai phá văn bản y sinh nói chung và trích rút quan hệ giữa các thực thể trong văn bản y sinh nói riêng có nhiều điểm khác biệt so với lĩnh vực nghiên cứu cho dữ liệu thông thường

● Do mục tiêu nghiên cứu cụ thể của các hệ thống khai phá văn bản y sinh khác với các mối quan hệ giữa các thực thể kinh điển như: Người, thời gian, địa điểm, số/tiền tệ, tổ chức, … Trích rút quan hệ trong các văn bản y sinh thường hướng tới các đối tượng đặc biệt hơn đòi hỏi phải có những mô hình nhận dạng thực thể, trích rút quan hệ chuyên biệt cho từng hệ thống Ví dụ hệ thống nghiên cứu các bệnh ưng thư khác với hệ thống nghiên cứu các bệnh truyền nhiễm

● Do tính đặc thù của các từ chuyên ngành trong lĩnh vực y sinh, các từ chuyên ngành này thường không tuân theo những quy luật từ vựng và ngữ nghĩa thông

Trang 17

thường Các công cụ để khai phá văn bản và dữ liệu thông thường không phù hợp với dữ liệu y sinh bới nó đòi hỏi tính chuyên ngành cao Chính vì vậy, các nghiên cứu trong lĩnh vực y sinh thường đòi hỏi sự hỗ trợ mang tính kinh nghiệm của các chuyên gia (bác sĩ, các nhà nghiên cứu sinh vật học, …) trong việc xác định và hỗ trợ xây dựng các bộ dữ liệu y sinh học

● Nhiều thực thể chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu, dấu gạch nối, dấu chấm, … Cho đến nay chưa có một bộ danh pháp hay tiêu chuẩn đặt tên chính thức nào cho thực thể y sinh học

● Rất khó xác định chính xác biên của thực thể biểu hiện, một thực thể biểu hiện không những có thể rất dài mà còn có thể chứa cả liên từ, từ phủ định, bổ từ, v.v

● Vì thực thể biểu hiện có thể chứa thực thể khác trong nó, vì vậy tồn tại nhiều nhập nhằng giữa thực thể biểu hiện và các thực thể khác (như bệnh, gene và sản phẩm của gen, bộ phận cơ thể)

● Sự nhập nhằng giữa các thực thể trùng tên những khác loại dẫn đến việc khó khăn trong việc gán nhãn định danh thực thể và khó xác định mối quan hệ giữa chúng

1.4 Cơ sở dữ liệu nghiên cứu của luận văn

Trong luận văn sử dụng bộ dữ liệu y khoa tiếng Việt được xây dựng dựa trên các quy tắc gán nhãn trong cuộc thi i2b2/VA 2010 Các văn bản được lấy từ tạp chí y học Thành phố Hồ Chí Minh với các văn bản mô tả bệnh và sự ảnh hưởng tích cực cũng như tiêu cực của các phương pháp điều trị bệnh, các xét nghiệm đã được thực hiên để điều tra và phát hiện bệnh

Bộ dữ liệu y khoa cho tiếng Việt cũng có 3 loại nhãn cho các khái niệm y tế:

chứng, triệu chứng, …

Bảng 1 Ba loại thực thể trong văn bản y khoa tiếng Việt

Trang 18

Khác với bộ dữ liệu i2b2 2010, bộ dữ liệu y khoa tiếng việt bao gồm 9 loại quan hệ như sau:

2 TrIP Phương pháp điều trị phục hồi vấn đề y tế

3 TrWP Phương pháp điều trị làm trầm trọng thêm vấn đề y tế

4 TrCP Phương pháp điều trị gây ra vấn đề y tế

5 TrAP Phương pháp điều trị được thực hiện cho các vấn đề y tế

6 TrNAP Phương pháp điều trị không được thực hiện vì vấn đề y

tế

7 TeRP Xét nghiệm, kiểm tra cho thấy vấn đề y tế

u8 TeCP Xét nghiệm nghiệm được tiến hành để điều tra vấn đề y

tế

9 PIP Vấn đề y tế chỉ ra vấn đề y tế

Bảng 2 Chín loại quan hệ giữa các thực thể trong văn bản y khoa tiếng Việt

Đối với bài toán trích rút quan hệ y khoa được đề cập đến trong luận văn, đầu vào là các câu đã được gán nhãn thực thể và quan hệ y tế Dưới sự giúp đỡ của các chuyên gia y tế, học viên đã tiến hành gãn nhãn trên 880 tệp văn bản và thu được 10403 câu Trong đó có 7926 câu được sử dụng làm dữ liệu huấn luyện, 2477 câu được sử dụng làm bộ dữ liệu kiểm thử Bộ dữ liệu sẽ được sử dụng để phân loại mối quan hệ giữa bệnh và các phương pháp điều trị cũng như các xét nghiệm liên quan giúp gia tăng mức độ chính xác trong quá trình chuẩn đoán cũng như đưa ra các phương pháp điều trị thích hợp

Hiện nay cũng đã có nhiều nghiên cứu liên quan đến bài toán trích rút quan hệ lâm sàng được áp dụng cho nhiều loại ngôn ngữ và đã đạt được nhiều kết quả tốt bằng việc

sử dụng các phương pháp học sâu Với hiện trạng bộ dữ liệu tiếng Việt sau khi thu

Trang 19

thập được với số lượng còn ít và có sự chênh lệch nhiều giữa số lượng của các loại quan hệ nên có thể không đạt được kết quả như mong muốn Luận văn sẽ tập trung nghiên cứu các phương pháp học máy hộ trợ phân loại các quan hệ thực thể trong văn bản y khoa và sẽ quyết định lựa chọn một phương pháp thích hợp để tiến hành thử nghiệm

Tổng kết chương

Trong chương này luận văn đã trình bày khái quát về bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa, phạm vi nghiên cứu, ý nghĩa khoa học và những khó khăn gặp phải khi giải quyết bài toán

Trang 20

CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH

RÚT QUAN HỆ THỰC THỂ Y KHOA

Để giải quyết các bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên, không thể không nhắc đến các phương pháp học máy Học máy [2] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng các kĩ thuật cho phép máy có thể “học” theo cách của con người thông qua các bộ dữ liệu đặc trưng

Đối với các bài toán xử lý ngôn ngữ tự nhiên nói chung cũng như bài toán RE nói riêng, chúng ta có thể chia quá trình giải quyết bài toán thành 5 bước như sau:

● Thu thập dữ liệu: Thu thập dữ liệu văn bản phù hợp với mục đích của mô hình

● Tiền xử lý dữ liệu: Tiền xử lý dữ liệu để loại bỏ các thông tin không cần thiết, chuẩn hóa các từ vựng, tách từ, đánh dấu câu, và thực hiện các công việc khác

để chuẩn bị dữ liệu cho bước biểu diễn véc-tơ từ

● Biểu diễn véc-tơ từ: Biểu diễn các từ trong văn bản thành các véc-tơ số thực trong không gian đa chiều

● Sử dụng biểu diễn véc-tơ từ: Các biểu diễn véc-tơ từ này được sử dụng để huấn luyện các mô hình học máy và các mô hình học sâu, bao gồm phân loại văn bản, dự đoán chủ đề, trích xuất thông tin, dịch máy, tóm tắt văn bản, và nhiều tác vụ khác

● Đánh giá và cải thiện mô hình: Mô hình được đánh giá thông qua các độ đo đánh giá hiệu suất và được cải thiện thông qua việc điều chỉnh các tham số và

kỹ thuật huấn luyện khác nhau

Trong các phương pháp học máy, cùng với sự phát triển của công nghệ và khả năng

xử lý tính toán mạng nơ-ron nhân tạo được sử dụng rộng rãi và đã đạt được nhiều thành tựu trong các bài toán xử lý ngôn ngữ tự nhiên

2.1 Các phương pháp phân loại quan hệ thực thể RE

Trong các lĩnh vực lâm sàng và y sinh, đã có nhiều bài toán RE được áp dụng cho mối quan hệ gen-thuốc, mối quan hệ gen-bệnh, các lớp ngữ nghĩa để nhận dạng văn bản báo cáo X-quang, trích xuất quan hệ để xây dựng dữ liệu sinh học, mối quan hệ giữa ngữ cảnh từ vựng và phạm trù khái niệm y tế, và mối quan hệ bệnh tật - đột biến từ tài

Trang 21

liệu y sinh học và trích xuất mối quan hệ thực thể từ các văn bản lâm sàng là một

nhiệm vụ RE quan trọng khác [4]

Để trích xuất các mối quan hệ này, các phương pháp dựa trên NLP được sử dụng để

tìm kiếm các mối quan hệ giữa các thực thể bên trong cùng một câu hoặc giữa các câu

và đã có nhiều phương pháp huấn luyện khác nhau được sử dụng để phân loại các mối

quan hệ giữa các khái niệm y tế từ các văn bản lâm sàng

Hình 2 Các phương pháp học máy được sử dụng để trích rút quan hệ lâm sàng

2.1.1 Các phương pháp dựa trên quy tắc

Mặc dù phương pháp dựa trên quy tắc không phải là phương pháp phổ biến nhất hiện

nay để trích xuất mối quan hệ từ văn bản lâm sàng, nhưng vẫn được sử dụng và cho

kết quả tương đối khả thi trong thời gian trước

Segura-Bedmar và cộng sự (2011) [5] đã phát triển một phương pháp dựa trên quy tắc

để trích xuất tương tác thuốc-bệnh thông qua việc sử dụng kỹ thuật phân tích cú pháp

cơ bản, đơn giản hóa cú pháp và khớp mẫu Phương pháp này không hoạt động tốt với

độ chính xác trung bình và độ phủ rất thấp

Xu và cộng sự (2011) [6] đã kết hợp phương pháp dựa trên quy tắc kết hợp với học

máy cho RE có cấu trúc từ các bản tóm tắt xuất viện lâm sàng như được cung cấp bởi

thử thách i2b2 2010 Tác vụ RE đã nhận được F1-score trung bình micro-averaged là

0,7326

Trang 22

Mahendran và các đồng nghiệp (2021) [7] sử dụng thông tin về vị trí gần nhau giữa các loại thực thể thuốc và không phải thuốc bằng cách sử dụng thuật toán tìm kiếm theo chiều rộng (BFS) để tìm các tác dụng phụ của thuốc Phương pháp dựa trên quy tắc chỉ dùng cho phía bên trái đạt macro-average F1-score: 0,83, vượt trội hơn hiệu suất của các mô hình dựa trên quy tắc khác trên bộ dữ liệu n2c2 2018

Nhìn chung, các phương pháp dựa trên quy tắc cho trích rút quan hệ lâm sàng có thể thực hiện tốt tùy thuộc vào cách định nghĩa các quy tắc, đòi hỏi sự hợp tác giữa các chuyên gia trong lĩnh vực ngôn ngữ học để xây dựng một tập hợp các mô hình mẫu dựa trên ngữ pháp, từ loại và ngữ nghĩa Những phương pháp trích xuất thông tin bằng cách sử dụng các quy tắc và mẫu được định nghĩa rõ ràng thường không hiệu quả như các mô hình học máy, do đó những phương pháp này không được phổ biến hiện nay

2.1.2 Các phương pháp học có giám sát

Các phương học có giám sát áp dụng khi đã có dữ liệu huấn luyện đã được gán nhãn,

mô hình được học dựa trên mẫu dữ liệu đầu vào và đầu ra tương ứng trước Các mô hình điển hình bao gồm Decision Trees, Random Forests, Neural Networks và Support Vector Machines (SVM)

Các thuật toán học có giám sát đã được ứng dụng rộng rãi cho RE, phương pháp này

sử dụng một bộ phân loại để xác định sự hiện diện hoặc vắng mặt của một mối quan hệ giữa hai thực thể Máy tính không thể hiểu văn bản phi cấu trúc, do đó các phương pháp học có giám sát yêu cầu việc mã hóa văn bản, trích xuất đặc trưng đầu vào Việc gán nhãn dữ liệu là một quá trình tốn thời gian vì nó yêu cầu nhiều công sức và kiến thức chuyên môn từ các chuyên gia y tế Điều đó đã trở thành một hạn chế lớn của các phương pháp học có giám sát mặc dù chúng cho kết quả đầu ra có độ chính xác cao Trong thử thách i2b2/VA năm 2010 về các khái niệm, khẳng định và mối quan hệ trong văn bản lâm sàng [3] việc sử dụng các phương pháp học máy truyền thống và học sâu đã cho nhiều kết quả tương đối khả quan

Thuật toán học có giám sát dựa trên SVM cho kết quả tốt nhất với F1-score là 0,737 [8] của nhóm nghiên cứu Robert và cộng sự năm 2011

Trang 23

Năm 2016, nhóm nghiên cứu của Sahu và cộng sự [9] đã sử dụng CNN không phụ thuộc vào miền trên nhiều đặc trưng cho trích rút quan hệ lâm sàng trên cùng bộ dữ liệu i2b2 2010 và cho kết quả tốt nhất trong các mô hình CNNs tại thời điểm đó (precision: 0,7634, recall: 0,6735 và F1-score: 0,7116) Cũng tại năm 2016, Lv và

cộng sự [10] sử dụng hai kiểu mô hình dựa trên bộ tự mã hóa (autoencoder) là mô hình dựa trên bộ tự mã hóa sâu (Deep autoencoder-based) và mô hình dựa trên bộ tự

mã hóa sâu và thưa (Sparse deep autoencoder-based) cho thấy mô hình dựa trên bộ tự

mã hóa sâu và thưa có hiệu suất tốt hơn với F1-score trên 80%

Năm 2020, Hasan và cộng sự [11] đã tiến hành thử nghiệm các mô hình học sâu CNN, GCN, ResNet, and BiLSTM trên bộ dữ liệu i2b2 2010 và cho thấy BiLSTM đạt kết quả tốt nhất với F1-score đạt 0,8808 cho chín lớp

Nghiên cứu đã cho thấy rằng trong một số trường hợp có nhiều dữ liệu lớn cụ thể là trên bộ dữ liệu i2b2 2010, các phương pháp học sâu đạt được hiệu suất tốt hơn Ngoài

ra hiệu quả mô hình còn phụ thuộc vào độ phức tạp của dữ liệu

2.1.3 Các phương pháp học phi giám sát

Các phương pháp học phi giám sát áp dụng khi không có dữ liệu huấn luyện đã được gán nhãn, mô hình được học từ dữ liệu đầu vào mà không cần biết đầu ra sau đó máy tính phải tự phân loại, dự báo đầu ra của các mẫu này Ví dụ một số mô hình bao gồm K-means clustering, Principal Component Analysis (PCA) và Generative Adversarial Networks (GANs)

Các kỹ thuật học máy phi giám sát không yêu cầu các văn bản được chú thích trước vì chúng có khả năng hoạt động trên dữ liệu chưa được gán nhãn Tuy nhiên, do văn bản

y khoa thường chứa nhiều nhiễu, các thuật toán phi giám sát không hiệu quả đối với các bài toán trích rút quan hệ lâm sàng

Trong số rất ít các nghiên cứu, Quan và cộng sự (2014) [12] là những người tiên phong trong đề xuất một phương pháp khai thác văn bản bằng kỹ thuật phân cụm sử

dụng cả hai kỹ thuật phân tích cú pháp phụ thuộc (dependency parsing) để xác định

các mối quan hệ giữa các từ trong văn bản cho việc nhận diện mối quan hệ trong dữ liệu y khoa Alicante và đồng nghiệp (2016) [13] đã sử dụng các phương pháp phân

Trang 24

cụm Model Based, K-Means và Hierarchical Clustering để trích xuất thực thể và quan hệ từ các bản ghi y khoa tiếng Ý Tuy nhiên ở cả 2 nghiên cứu trên đều cho kết quả chỉ đạt ở mức trung bình và cả 2 nhóm đều tiến hành cải tiến mô hình bằng phương pháp bán giám sát và đã cho kết quả tốt hơn Cụ thể Quan và cộng sự sau khi sử dụng

mô hình bán giám sát đã trở thành mô hình thứ hai tốt nhất trên cùng tập dữ liệu năm

2014

2.1.4 Các phương pháp dựa trên mô hình huấn luyện trước

Các phương pháp dựa trên mô hình huấn luyện trước đã cho thấy kết quả tốt trong nhiều tác vụ NLP, bởi vì các mô hình ngôn ngữ này sử dụng thông tin ngữ cảnh để đại diện cho các đặc trưng Đây là một mô hình học có giám sát vì các đầu vào được xác định rõ ràng cho mỗi trường hợp Các mô hình huẩn luyện trước phổ biến được sử dụng trong các tác vụ NLP bao gồm ULMFit, ELMO, BERT, vv Trong số đó, BERT [14], được giới thiệu bởi Google vào năm 2018, đã trở nên rất phổ biến cho nhiều tác

vụ NLP bao gồm RE Đối với văn bản lâm sàng đã có nhiều mô hình dựa trên BERT được ra đời có thể kể đến như là BioBERT [15], được huấn luyện trên tập dữ liệu PubMed về y tế, và Clinical BERT [16] được huấn luyện trên một tập dữ liệu về y tế về các ghi chú lâm sàng và tóm tắt xuất viện

BERT đã tạo ra một bước đột phá trong việc giải quyết nhiều bài toán trong lĩnh vực

xử lý ngôn ngữ tự nhiên như nhận dạng thực thể, phân loại văn bản, dịch máy, trả lời câu hỏi, tóm tắt văn bản, và nhiều bài toán khác Đặc biệt đối với bài toán RE, năm

2023 nhóm nghiên cứu Ze Shi và cộng sự [17] đã sử dụng mô hình BERT-Vote cho bài toán RE và đạt kết quả tốt nhất trên tập dữ liệu SemEval 2010 với kết quả Macro F1 lên đến 92.5%

BERT và các phiên bản của BERT dành cho lĩnh vực y tế đã trở nên rất phổ biến cho các tác vụ xác định quan hệ thực thể trên các văn bản lâm sàng Vì đây là các mô hình ngôn ngữ, không cần phải trích xuất các đặc trưng đầu vào Toàn bộ văn bản, bao gồm

cả câu hoặc đoạn văn bản đầy đủ có thể được sử dụng làm đầu vào cho mô hình Alimova và đồng nghiệp (2020) [18] đã sử dụng các mô hình dựa trên BERT, bao gồm BioBERT và Clinical BERT Wei và cộng sự (2020) [19] đã xác định rằng BERT

Trang 25

được tinh chỉnh tốt đã vượt qua hiệu suất của các mô hình khác trong việc xác định quan hệ thực thể trên các văn bản lâm sàng Mahendran và cộng sự (2021) [7] đã tiến hành thử nghiệm mô hình BERT, BioBERT và Clinical BERT cho nhiệm vụ trích rút quan hệ lâm sàng và đạt kết quả ấn tượng F1-score lên đến 0,93, vượt trội hơn hiệu suất của tất cả các phương pháp dựa trên quy tắc hoặc học sâu khác trên tập dữ liệu này

Ta có thể thấy được các mô hình huấn luyện trước đã cho thấy hiệu suất vượt trội hơn các mô hình khác trong các tác vụ xác định quan hệ thực thể lâm sàng

2.2 Giới thiệu mô hình BERT

BERT sử dụng kiến trúc Transformer, một mạng nơ-ron truyền thẳng sử dụng cơ chế

chú ý (attention) để hiểu và xử lý ngữ cảnh trong các câu Mô hình được huấn luyện

trên hai tác vụ gọi là mô hình ngôn ngữ ẩn (MLM) [14] và dự báo câu tiếp theo (NSP) [14]

BERT được huấn luyện trên một lượng lớn dữ liệu ngôn ngữ tự nhiên, bao gồm cả các tài liệu trên Internet và các nguồn dữ liệu công khai khác Sau quá trình huấn luyện, BERT có khả năng mã hóa ngữ cảnh và biểu diễn nghĩa của các từ và câu trong một không gian véc-tơ Điều này cho phép BERT thực hiện nhiều tác vụ NLP khác nhau bằng cách sử dụng các tầng trên cùng của mô hình để phân loại, trích xuất thông tin, dịch máy và nhiều tác vụ khác

Kỹ thuật Transformer là một lớp mô hình seq2seq gồm 2 quá trình mã hóa và giải mã

Mô hình hoàn toàn không sử dụng các kiến trúc mạng nơ-ron hồi quy (RNN) mà chỉ

sử dụng các tầng attention để nhúng các từ trong câu Kiến trúc cụ thể của mô hình

như sau:

Trang 26

Hình 3 Cấu trúc mô hình Transformer

Quá trình mã hóa và giải mã trong Transformer

Máy tính không thể học được từ các dữ liệu thô như bức ảnh, văn bản, âm thanh, đoạn phim Do đó nó cần đến quá trình mã hóa thông tin sang dạng số và từ dạng số giải mã

kết quả đầu ra Đó chính là 2 quá trình mã hóa (encoder) và giải mã (decoder):

Quá trình mã hóa: Là quá trình mã hóa chuyển đầu vào thành những véc-tơ

đặc trưng có khả năng học Đối với các mô hình mạng nơ-ron nhân tạo, bộ mã hóa là các tầng ẩn Trong mô hình mạng nơ-ron tích chập (CNN), bộ mã hóa là chuỗi các tầng Convolutional + Maxpooling

Quá trình giải mã: Đầu ra của quá trình mã hóa chính là đầu vào của quá trình

giải mã, nhằm mục đích tìm ra phân phối xác suất từ các véc-tơ đặc tả ngôn

Trang 27

ngữ ở quá trình mã hóa từ đó xác định đâu là nhãn của đầu ra Kết quả có thể là một nhãn đối với các mô hình phân loại hoặc một chuỗi các nhãn theo thứ tự

thời gian đối với mô hình seq2seq (sequence-to-sequence)

Cơ chế chú ý (Attention)

Trong các mô hình dựa trên Transformer, cơ chế chú ý (attention) là một cơ chế quan

trọng để mô hình có thể tập trung vào các phần quan trọng của dữ liệu đầu vào Cơ chế gây chú ý cho phép mô hình học cách định rõ mức độ quan trọng của các thông tin trong quá trình xử lý và tạo ra các liên kết mạnh mẽ giữa các từ hoặc vị trí trong câu

Trong mô hình Transformer, cơ chế chú ý được sử dụng để tính toán các trọng số chú

ý (attention weights) cho mỗi cặp từ trong câu đầu vào Các trọng số này cho biết mức

độ quan trọng của từ này đối với từ kia trong quá trình xử lý thông tin Sử dụng các trọng số chú ý, mô hình có thể chú trọng vào các phần quan trọng của câu và lấy thông tin cần thiết để thực hiện các tác vụ như dịch máy, xử lý ngôn ngữ tự nhiên

Cơ chế chú ý có nhiều biến thể khác nhau như self-attention (chú trọng đến các phần

tử trong cùng một chuỗi), global attention (chú trọng đến các phần tử trong chuỗi đầu vào khác), và multi-head attention (sử dụng nhiều cơ chế gây chú ý song song) Từng

biến thể này giúp mô hình học cách hiểu và sử dụng thông tin từ dữ liệu đầu vào một cách hiệu quả

Các tiến trình self-attention và encoder-decoder attention

Trong kiến trúc transformer áp dụng 2 dạng cơ chế chú ý khác nhau tại từng bước huấn luyện

● Self-attention: Được sử dụng trong cùng một câu đầu vào, tại quá trình mã hóa

hoặc tại quá trình giải mã Đây chính là cơ chế gây chú ý được áp dụng tại các Multi-Head Attention ở đầu vào của cả 2 quá trình mã hóa và giải mã

● Encoder-decoder attention: Sở dĩ được gọi là encoder-decoder attention vì đây

là kiến trúc cơ chế chú ý tương tác giữa các véc tơ nhúng của quá trình mã hóa

và giải mã Véc-tơ ngữ cảnh (context vector) được tính toán trên quá trình mã

hóa đã được tính tương quan với véc-tơ giải mã nên sẽ có ý nghĩa giải thích

Trang 28

ngữ cảnh của từ tại vị trí của các bước thời gian trong quá trình giải mã dữ liệu đầu ra tương ứng Sau khi kết hợp giữa véc-tơ ngữ cảnh và véc tơ giải mã ta sẽ truyền tiếp qua một lớp kết nối đầy đủ để tính phân phối xác suất cho đầu ra Mặc dù có kiến trúc chỉ gồm các biến đổi cơ chế chú ý nhưng Transformer lại

có kết quả rất tốt trong các tác vụ NLP như phân tích tình cảm (sentiment analysis) và dịch máy

Tinh chỉnh mô hình BERT

Tinh chỉnh mô hình (model fine-tuning) là quá trình điều chỉnh lại một mô hình học

máy đã được huấn luyện trước đó để thích nghi với một tác vụ cụ thể Thay vì huấn luyện mô hình từ đầu, ta sử dụng một mô hình đã được huấn luyện trên một tác vụ liên quan với bộ dữ liệu chuyên môn tương ứng Quá trình tinh chỉnh bao gồm việc tiếp tục huấn luyện mô hình trên dữ liệu mới, thường là tập dữ liệu nhỏ hơn và có nhãn tương ứng với tác vụ cần giải quyết Tinh chỉnh mô hình cho phép mô hình học được thông tin và kiến thức cụ thể về tác vụ mới mà không cần huấn luyện từ đầu Mô hình sẽ điều chỉnh các trọng số và tham số của nó dựa trên dữ liệu mới và mục tiêu tác vụ

cụ thể Quá trình này cho phép mô hình tận dụng những kiến thức đã học được từ quá trình huấn luyện ban đầu và tăng cường khả năng dự đoán và hiểu dữ liệu mới Tinh chỉnh mô hình thường được áp dụng trong các tác vụ máy học có dữ liệu hạn chế và tương đối tương tự với tác vụ huấn luyện ban đầu Việc tinh chỉnh mô hình BERT đã được chứng minh là hiệu quả trong nhiều tác vụ NLP như phân loại văn bản, dịch máy, nhận diện thực thể, và nhiều ứng dụng khác

Trang 29

Hình 4 Tiến trình pre-training và fine-tuning của BERT

Tiến trình áp dụng tinh chỉnh sẽ như sau:

Bước 1: Nhúng toàn bộ các từ của cặp câu bằng các véc tơ nhúng từ mô hình

đã được huấn luyện trước Các véc-tơ nhúng từ bao gồm cả 2 từ là [CLS] và

[SEP] để đánh dấu vị trí bắt đầu của câu và vị trí ngăn cách giữa 2 câu 2 từ này

sẽ được dự báo ở đầu ra để xác định các vị trí bắt đầu và kết thúc của câu đầu

ra

Bước 2: Các véc-tơ nhúng sau đó sẽ được truyền vào kiến trúc multi-head

attention với nhiều mã khối (thường là 6, 12 hoặc 24 khối tùy theo kiến trúc

BERT) Ta thu được một véc-tơ đầu ra ở quá trình mã hóa

Bước 3: Để dự báo phân phối xác suất cho từng vị trí từ ởquá trình giải mã, ở

mỗi vị trí của các bước thời gian trong quá trình giải mã dữ liệu đầu ra chúng ta

sẽ truyền vào véc-tơ đầu ra của quá trình mã hóa làm véc-tơ đầu vào của quá

trình giải mã Sau đó truyền qua một lớp kết nối đầy đủ và softmax để thu được

phân phối xác suất cho đầu ra tương ứng ở thời điểm 𝑡

Bước 4: Trong kết quả trả ở đầu ra của transformer ta sẽ cố định kết quả của

câu hỏi sao cho trùng với câu hỏi ở đầu vào Các vị trí còn lại sẽ là thành phần

mở rộng vị trí bắt đầu và kết thúc tương ứng với câu trả lời tìm được từ câu đầu

vào

Trang 30

Masked Language Modeling (MLM)

Masked ML [14] được sử dụng rộng rãi trong mô hình BERT, Masked ML nhằm mục đích đào tạo mô hình để dự đoán các từ được ẩn đi trong một đoạn văn bản Trong quá trình huấn luyện, một số từ được ngẫu nhiên chọn để bị ẩn đi trong câu ban đầu Mô hình BERT được đưa vào và phải dự đoán các từ đã bị ẩn đi dựa trên ngữ cảnh xung quanh Điều này giúp mô hình học được khả năng hiểu và biểu diễn ngữ cảnh từ vựng trong câu Quá trình Masked ML trong BERT sử dụng hai kí hiệu đặc biệt để đại diện cho việc ẩn đi từ: [MASK] và [CLS] [MASK] được sử dụng để đại diện cho từ đã bị

ẩn đi, trong khi [CLS] là kí hiệu đặc biệt cho đầu ra của toàn bộ câu Masked ML giúp cung cấp cho mô hình thông tin ngữ cảnh đa dạng và đào tạo nó để hiểu cấu trúc ngữ pháp và ngữ nghĩa của câu Bên dưới là sơ đồ huấn luyện BERT theo tác vụ Masked ML

Hình 5 Sơ đồ kiến trúc BERT - ML

Theo đó:

● Khoảng 15 % các token của câu đầu vào được thay thế bởi [MASK] trước khi truyền vào mô hình đại diện cho những từ bị ẩn(masked) Mô hình sẽ dựa trên

các từ không được ẩn (non-masked) xung quanh [MASK] và đồng thời là ngữ

cảnh của [MASK] để dự báo giá trị gốc của từ được ẩn Số lượng từ ẩn được lựa chọn là một số ít (15%) để tỷ lệ ngữ cảnh chiếm nhiều hơn (85%)

● Bản chất của kiến trúc BERT vẫn là một mô hình seq2seq gồm 2 quá trình mã hóa giúp nhúng các từ đầu vào và giải mã giúp tìm ra phân phối xác suất của các từ ở đầu ra Qtrình mã hóa trong kiến trúc Transformer được giữ lại trong

Trang 31

tác vụ Masked ML Sau khi thực hiện self-attention và mạng truyền thẳng ta sẽ

thu được các véc-tơ nhúng ở kết quả đầu ra là 𝑂1, 𝑂2, , 𝑂5

● Để tính toán phân phối xác suất cho từ ở đầu ra, chúng ta thêm một lớp kết nối

đầy đủ (fully-connection) ngay sau quá trình mã hóa Hàm softmax có tác dụng

tính toán phân phối xác suất Số lượng khối của lớp kết nối đầy đủ phải bằng với kích thước của từ điển

Cuối cùng ta thu được véc tơ nhúng của mỗi một từ tại vị trí [MASK] sẽ là

véc-tơ giảm chiều của véc-véc-tơ 𝑂𝑖 sau khi đi qua lớp kết nối đầy đủ

Hàm mất mát của BERT sẽ bỏ qua mất mát từ những từ không bị ẩn và chỉ đưa vào mất mát của những từ bị ẩn Do đó mô hình sẽ hội tụ lâu hơn nhưng đây là đặc tính bù trừ cho sự gia tăng ý thức về ngữ cảnh Việc lựa chọn ngẫu nhiên 15% số lượng các từ bị ẩn cũng tạo ra vô số các kịch bản đầu vào cho mô hình huấn luyện nên mô hình sẽ cần phải huấn luyện rất lâu mới học được toàn diện các khả năng

Next Sentence Prediction (NSP)

NSP [14] là một tác vụ trong quá trình huấn luyện mô hình BERT Mục tiêu của NSP

là đào tạo mô hình để dự đoán xem hai câu trong văn bản có liên quan nhau hay không

Trong quá trình huấn luyện BERT, các cặp câu được chọn ngẫu nhiên từ dữ liệu huấn luyện Một trong hai câu được chọn làm "câu A", và câu còn lại được chọn làm "câu B" Mô hình BERT nhận đầu vào là cặp câu A và B, và phải dự đoán xem liệu câu B

có là câu tiếp theo của câu A trong văn bản ban đầu hay không

Để thực hiện dự đoán, mô hình BERT sử dụng một kí tự đặc biệt gọi là [CLS]

(Classification token) [CLS] được thêm vào đầu mỗi câu, và kết quả của nó sẽ được

sử dụng để dự đoán xem hai câu có liên quan hay không [CLS] nhận thông tin từ cả câu A và câu B thông qua quá trình truyền thẳng và cơ chế gây chú ý trong mô hình Transformer

Để phục vụ tác vụ NSP, các mẫu dữ liệu huấn luyện được gán nhãn dựa trên quan hệ giữa câu A và câu B Cụ thể, có ba loại mẫu dữ liệu:

Trang 32

● Positive: Cặp câu A và B liên quan nhau trong văn bản ban đầu

● Negative: Cặp câu A và B không liên quan nhau trong văn bản ban đầu

● Random: Cặp câu A và B được chọn ngẫu nhiên từ dữ liệu huấn luyện

Quá trình huấn luyện BERT cùng với tác vụ NSP giúp mô hình học được ngữ nghĩa

và sự tương quan giữa các câu trong văn bản NSP có thể giúp cải thiện khả năng hiểu ngữ cảnh của BERT và hỗ trợ trong các tác vụ yêu cầu thông tin từ nhiều câu trong văn bản, chẳng hạn như câu chuyển tiếp, tóm tắt văn bản, v.v

Tuy nhiên, NSP không được sử dụng trong các ứng dụng thực tế của BERT, nghĩa là khi sử dụng BERT đã được huấn luyện, ta không cần phải thực hiện tác vụ NSP nữa Thay vào đó, ta chỉ cần sử dụng biểu diễn từ ngữ đã được học để thực hiện các tác vụ khác nhau trong xử lý ngôn ngữ tự nhiên

Các kiến trúc model BERT

BERT có hai phiên bản chính là BERT-base [14] và BERT-large [14], với số lượng tham số và khả năng biểu diễn khác nhau BERT-base có khoảng 110 triệu tham số, trong khi BERT-large có khoảng 340 triệu tham số BERT-large có khả năng biểu diễn nghĩa và hiểu ngữ cảnh tốt hơn với tổng cộng 345 triệu tham số, nhiều hơn gấp khoảng 4 lần so với BERT-base Số lượng tham số lớn hơn giúp BERT-large có khả năng biểu diễn ngôn ngữ phong phú hơn và học được sự phụ thuộc ngữ nghĩa phức tạp hơn trong văn bản BERT-large có 24 lớp mã hóa Transformer, trong khi BERT-base chỉ có 12 lớp Điều này cho phép BERT-large có khả năng xem xét ngữ cảnh rộng hơn và hiểu được sự phụ thuộc ngữ nghĩa sâu hơn trong các câu và văn bản Với

số lượng tham số và độ sâu lớn hơn, BERT-large thường có khả năng tổng quát hóa tốt hơn so với BERT-base Điều này có nghĩa là BERT-large có khả năng xử lý và hiểu được các tác vụ ngôn ngữ tự nhiên phức tạp hơn và có thể tổng quát hóa tốt hơn

trên các tập dữ liệu mới

Các phiên bản đều dựa trên việc thay đổi kiến trúc của Transformer tập trung ở 3 tham số:

● 𝐿: số lượng các khối sub-layers trong transformer

● 𝐻: kích thước của embedding véc tơ (hay còn gọi là hidden size)

Trang 33

● 𝐴: Số lượng head trong multi-head layer, mỗi một head sẽ thực hiện một attention

Tên gọi của 2 kiến trúc bao gồm:

● 𝐵𝐸𝑅𝑇𝐵𝐴𝑆𝐸 = (𝐿 = 12, 𝐻 = 768, 𝐴 = 12) Tổng tham số 110 triệu

● 𝐵𝐸𝑅𝑇𝐿𝐴𝑅𝐺𝐸 = (𝐿 = 24, 𝐻 = 1024, 𝐴 = 16) Tổng tham số 340 triệu

Như vậy ở kiến trúc BERT Large chúng ta tăng gấp đôi số layer, tăng kích thước hidden size của embedding véc tơ gấp 1.33 lần và tăng số lượng head trong multi-head layer gấp 1.33 lần

Tuy nhiên, việc sử dụng large cũng có một số hạn chế tương tự như base, bao gồm yêu cầu tài nguyên tính toán cao và thời gian huấn luyện kéo dài Do số lượng tham số lớn hơn và độ sâu tăng, việc triển khai BERT-large cần tài nguyên tính toán mạnh hơn và có thể gặp khó khăn trong các hệ thống có tài nguyên hạn chế

BERT-Ưu điểm và nhược điểm của mô hình BERT

Sau khi tiềm hiểu về kiến trúc mô hình BERT ta có thể thấy được BERT có rất nhiều

ưu điểm so với các mô hình học máy trước đấy:

● Biểu diễn từ ngữ mạnh mẽ: BERT có khả năng tạo ra biểu diễn từ ngữ rất mạnh mẽ, bao gồm cả ngữ nghĩa và ngữ cảnh Nhờ vào việc huấn luyện trên lượng lớn dữ liệu ngôn ngữ tự nhiên, BERT có khả năng hiểu được sự tương quan giữa các từ trong một câu và cả giữa các câu trong văn bản

● Hiểu ngữ cảnh hai chiều: BERT sử dụng kiến trúc Transformer để xem xét cả ngữ cảnh trước và sau của một từ, từ đó tạo ra biểu diễn có sự hiểu biết về ngữ cảnh hai chiều Điều này giúp BERT hiểu được sự phụ thuộc ngữ nghĩa giữa các từ trong câu

● Ứng dụng đa nhiệm: BERT có thể được sử dụng cho nhiều tác vụ NLP khác nhau bằng cách chỉnh sửa lớp đầu ra trên cùng của mô hình Điều này cho phép BERT được áp dụng cho các tác vụ như phân loại văn bản, trích xuất thông tin, dịch máy, phân loại quan hệ và nhiều tác vụ khác

● Sử dụng các mô hình BERT: Ngoài BERT-base và BERT-large, còn có các mô hình khác của BERT như BioBERT và Clinical BERT được tinh chỉnh cho các

Ngày đăng: 28/09/2024, 14:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w