Nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng việt Nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng việt
Bài toán nhận dạng thực thể định danh
Nhận dạng thực thể định danh (NER) là một nhiệm vụ con của trích xuất thông tin trong các bài toán về xử lý ngôn ngữ tự nhiên (NLP) Vì vậy, nhận dạng thực thể định danh đóng vai trò cơ bản cho nhiều lĩnh vực quan trọng khác trong quản lý thông tin, chẳng hạn như chú thích ngữ nghĩa, trả lời câu hỏi, dân số học và khai thác quan điểm. Thuật ngữ "thực thể định danh" được sử dụng lần đầu tiên tại Hội thảo quốc tế chuyên đề Hiểu thông điệp (MUC) lần thứ 6 [6] năm 1995, chỉ rõ tầm quan trọng của việc xác định ngữ nghĩa của con người, tổ chức và địa điểm, hay các biểu thức số như thời gian và số lượng.
Nhiệm vụ của bài toán là tự động xác định các thực thể định danh như: từ hoặc chuỗi từ biểu thị tên riêng, vị trí, tổ chức, v.v Những thực thể này đôi khi cũng được gọi là tên riêng trong ngôn ngữ tự nhiên Yêu cầu trên thường liên quan đến việc phân loại các thực thể đã xác định này thành một tập hợp các lớp được xác định trước Do đó, nhiệm vụ nhận dạng thực thể được đặt tên đôi khi được chia thành hai nhiệm vụ con: Nhận dạng thực thể và phân loại thực thể [3] "Nhận diện thực thể" là quá trình tìm kiếm các đối tượng được đề cập tới trong văn bản, trong khi "Phân loại thực thể" là việc gán nhãn cho các đối tượng đó Hầu hết, nhận dạng thực thể định danh hay gọi là nhận dạng thực thể thường là viết tắt của kết hợp cả hai yêu cầu trên Sau đây là một ví dụ về nhận dạng thực thể trong câu tiếng Việt:
Bà Hiền [TEN RIENG] đi du lịch ở Hà Nội [DIA DIEM] vào năm 2019 [THOI GIAN].
Nhận dạng thực thể là một nhiệm vụ thường được giải quyết như một bước tiền xử lý cho các tác vụ phức tạp hơn của bài toán xử lý ngôn ngữ tự nhiên như dịch máy tự động, truy xuất thông tin, trả lời câu hỏi,v.v Kể từ khi các kho dữ liệu ngôn ngữ có chú thích và các mô hình liên quan được chia sẻ, chẳng hạn như MUC7 [7] hoặc CoNLL-2003 [8], nhận dạng thực thể được đặt tên đã trở thành một nhiệm vụ tiêu chuẩn trong NLP. Đầu vào cho mô hình nhận diện thực thể thường là các văn bản chưa được xử lý và không có cấu trúc Đôi khi các văn bản này cũng được phân tích hình thái học để tìm ra các kiểu mẫu, logic sắp xếp hoặc được gán nhãn từ loại (POS tagging) - cơ sở cho các bài toán về ngữ nghĩa Nhiều mô hình nhận diện thực thể sử dụng các cách tiền xử lý ngôn ngữ độc lập như tạo từ gốc (stemming) hoặc nhúng từ (words embedding).Mức độ phức tạp của nhiệm vụ nhận diện thực thể định danh phụ thuộc vào đặc tính hình thái của ngôn ngữ, số lượng và chất lượng của dữ liệu có sẵn và hiển nhiên, phụ thuộc chủ yếu vào số lượng và thứ bậc của các lớp thực thể được đặt tên Ví dụ, trong tập dữ liệu CoNLL-2003 [8], bốn lớp được dự đoán: PER (người), ORG (tổ chức),
LOC (địa điểm) và MISC (không xác định), trong khi ở tập dữ liệu COVID-19 NER for Vietnamese[5] thì có đến 10 lớp.
Một kiến trúc tiêu biểu mô tả cho quy trình nhận dạng thực thể được trình bày trong Hình1.1:
Hình 1.1: Quy trình nhận dạng thực thể định danh [3]
• Tách câu: Trong qui trình này, văn bản phi cấu trúc được tách thành các câu riêng biệt
• Tách từ: Các câu được tách thành các từ, chữ số và dấu câu.
• Phân loại từ: Các từ sẽ được phân loại thành danh từ, động từ, tính từ
• Mô đun nhận dạng thực thể bao gồm ba thành phần:
– Từ điển định danh: Bao gồm danh sách các tên đã được phân thành các loại thực thể Trong lịch sử, thuật ngữ gazetteer được dùng để đề cập đến danh sách các địa danh địa lý và các thông tin liên quan; ở đây thuật ngữ này được áp dụng rộng rãi hơn cho danh sách tên của bất kỳ lớp nào.
– Trích xuất đặc trưng: Trích xuất các đặc trưng có ý nghĩa để làm đầu vào cho mô hình trích xuất.
– Mô hình trích xuất: Thành phần quan trọng nhất dùng để phân loại các thực thể dựa vào các đặc trưng được trích xuất.
Với mục tiêu của bài toán nhận diện thực thể là trích chọn ra những thực thể trong các văn bản, ta có thể xem xét bài toán nhận dạng thực thể như là một trường hợp cụ thể của bài toán gán nhãn cho dữ liệu dạng chuỗi Ta có thể trình bày bài toán như sau: Đầu vào:
• O (o 1 ,o 2 ,ã ã ã,oT) : chuỗi dữ liệu quan sỏt, vớioi là cỏc từ
• S (s 1 ,s 2 ,ã ã ã,s T ) : chuỗi cỏc trạng thỏi tương đương với chuỗi cỏc nhón cần gỏn cho dữ liệu. Đầu ra: Các câu đã được gán nhãn (chuỗi các nhãn cho từng câu).
Bài toán nhận dạng thực thể trong văn bản y khoa
Nhận dạng thực thể được đặt tên trong y sinh học (BioNER) là bước đầu tiên và quan trọng nhất trong bất kỳ nhiệm vụ khai thác tài liệu y sinh học nào, nhằm mục đích phát hiện ranh giới của các thực thể y sinh học và dự đoán loại thực thể của chúng, chẳng hạn như bệnh tật, gene, loài, hóa chất, vv Hiệu suất của các hệ thốngBioNER trực tiếp ảnh hưởng đến các tác vụ phía sau như trích xuất mối quan hệ y sinh học, tác vụ tương tác thuốc-thuốc và xây dựng cơ sở dữ liệu kiến thức Nhiệm vụBioNER thường được coi là một tác vụ gán nhãn chuỗi, với mục tiêu gán chuỗi nhãn tốt nhất cho câu đầu vào được cung cấp Phương pháp đánh dấu thông thường là định dạng BIO [9], trong đó cho biết mỗi mã thông báo có ở Đầu của một thực thể (B),Bên trong (I) hoặc Bên ngoài (O) của một thực thể Phương pháp này có khả năng phân biệt các thực thể liên tiếp và có thể được sử dụng dễ dàng trong một mô hình xây dựng từ đầu đến cuối, trong đó mỗi token đầu vào sẽ được gán nhãn BIO ở lớp cuối cùng Ví dụ về câu được chú thích bằng định dạng BIO có thể được tìm thấy trong Hình1.2, trong đó "sỏi niệu quản đoạn lưng" là vấn đề về sức khỏe và "phương pháp tán sỏi ngoài cơ thể" là cách điều trị vấn đề đó.
Hình 1.2: Một câu ví dụ cho đầu vào và đầu ra trong BioNER
Các nguồn tham khảo dữ liệu về y sinh học đáng tin cậy
Hệ thống Ngôn ngữ Y học hợp nhất [1]
Hệ thống ngôn ngữ y học hợp nhất - UMLS (Unified Medical Language System)là bộ sưu tập từ điển y sinh học lớn nhất hiện có, chứa hơn 210 từ điển y sinh học với hơn 2,4 triệu khái niệm và hàng chục triệu mối quan hệ giữa các khái niệm [1] [10]. ULMS là một trong những thành tựu vĩ đại của Thư viện Y khoa Quốc gia Hoa Kỳ (NLM) Nó bao gồm một tập hợp các tệp và phần mềm giúp kết hợp nhiều từ vựng và tiêu chuẩn y tế và sinh học nhằm tạo điều kiện tương tác giữa các hệ thống máy tính UMLS đã thống nhất các từ vựng được sử dụng rộng rãi trong sinh học phân tử và genôm, chẳng hạn như Đề mục chủ đề Y khoa (MeSH), Phân loại Nguyên sinh vật học NCBI và Gene Ontology, với các từ vựng y học bao gồm Phân loại bệnh quốc tế và SNOMED Clinical Terms [11].
UMLS là một từ điển thống nhất, có nghĩa là các khái niệm được liệt kê trong nhiều từ điển được đưa vào cùng một nơi Ví dụ, khái niệm về sốt, có định danh khái niệm độc nhất của UMLS là C0015967, được đại diện trong gần một trăm từ vựng thành phần, chẳng hạn như D005334 trong Đề mục chủ đề Y khoa (MeSH), 386661006 và
50177009 trong SNOMED-CT, 780.6 trong ICD-9-CM, 10016558 trong thuật ngữ
Sổ tay về Hoạt động Quản lý Y tế (MedDRA), X25 trong Bộ dữ liệu Chăm sóc phẫu thuật, GO:0001660 trong Gene Ontology và U001776 trong Đề mục chủ đề Thư viện
Quốc hội Mỗi mã cá nhân này đại diện cho cùng một khái niệm, do đó tất cả đã được thống nhất thành một khái niệm y sinh học đơn lẻ trong UMLS Vì khả năng bao phủ gần như tất cả các từ vựng liên quan khác, UMLS phù hợp nhất với vai trò từ vựng nối, cung cấp các thuật ngữ thông dụng được sử dụng bởi các bác sĩ cũng như các nhà sinh học phân tử Với sự ủng hộ của Thư viện Y học Quốc gia và Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ, các thuật ngữ và khái niệm từ UMLS đã chiếm phần quan trọng trong các hồ sơ y tế điện tử của bệnh nhân tại Mỹ.
Mục đích của UMLS là hỗ trợ việc phát triển các hệ thống máy tính có khả năng
"hiểu" ý nghĩa của ngôn ngữ y học và sức khỏe UMLS cung cấp dữ liệu cho các nhà phát triển hệ thống, cũng như chức năng tìm kiếm và báo cáo cho người dùng ít kỹ thuật hơn UMLS đã được sử dụng để liên kết thông tin sức khỏe, thuật ngữ y tế, tên thuốc và mã thanh toán để tạo hoặc cải thiện các ứng dụng như hồ sơ sức khỏe điện tử, công cụ phân loại bệnh nhân, từ điển lâm sàng và các bộ dịch thuật ngôn ngữ y khoa Chính vì như vậy, UMLS là một công cụ hết sức hữu hiệu cho các mô hình nhận dạng thực thể định danh trong y sinh học.
Hệ thống phân tích và truy xuất tài liệu y học trực tuyến
Ngoài dữ liệu về UMLS, còn có một số kho chứa tài liệu y khoa như Hệ thống phân tích và truy xuất tài liệu y học trực tuyến (MEDLINE), PubMed và PubMed Central (PMC) MEDLINE là một cơ sở dữ liệu thư mục đồ sộ về tài liệu và trích dẫn của các tạp chí được bảo trì bởi Thư viện Y học Quốc gia Hoa Kỳ (NLM) Nó được biết đến như là một nguồn tham khảo đáng tin cậy và toàn diện về các nghiên cứu cơ bản y khoa được đánh giá bởi các chuyên gia trong ngành Phạm vi của cơ sở dữ liệu này rộng rãi bao gồm khoa học về sức khỏe và y tế được định nghĩa rộng để bao phủ khoa học về đời sống, khoa học hành vi, khoa học hoá học và kỹ thuật sinh học MEDLINE chứa hơn 24 triệu trích dẫn đến các bài báo từ khoảng 5.000 tạp chí có từ thập niên
1950 Gần đây số lượng trích dẫn trong MEDLINE đang tăng nhanh như được thể hiện trong Hình 1.3 Thông tin cơ bản như tiêu đề bài báo, tác giả, tạp chí và loại xuất bản, ngày xuất bản, ngôn ngữ và liên kết đến trang web của nhà xuất bản để yêu cầu hoặc xem toàn bộ bài báo được cung cấp cho mỗi trích dẫn từ MEDLINE.
Hình 1.3: Số lượng trích dẫn từ MEDLINE qua các năm
PubMed cung cấp truy cập miễn phí đến các bài báo toàn văn, các tạp chí khoa học về sinh học và sách trực tuyến từ MEDLINE Đây là một công cụ tìm kiếm chỉ mục các tiêu đề, tóm tắt và siêu dữ liệu riêng biệt Những chỉ mục này cho phép người dùng xác định những trường hoặc chỉ mục nào nên được tìm kiếm PMC là một kho lưu trữ toàn văn miễn phí của văn bản tạp chí về sinh học và khoa học về đời sống Thường xuyên, toàn bộ văn bản của các xuất bản khoa học trở nên có sẵn cho mục đích nghiên cứu thông qua các kho lưu trữ số của văn bản tạp chí về sinh học như kho lưu trữ PMC được phát triển bởi NLM Nó là một phần của Mạng lưới PubMed Central Quốc tế,bao gồm PubMed Central của Hoa Kỳ và UK PubMed Central Mạng lưới này cũng bao gồm PMC Canada, cung cấp truy cập đến tất cả các xuất bản phát sinh từ Viện
Nghiên cứu Sức khỏe Canada.
Khó khăn của bài toán nhận dạng thực thể trong văn bản y khoa
Sự nhập nhằng về ngữ nghĩa
Sự nhập nhằng về ngữ nghĩa là một vấn đề còn đang tồn tại và ảnh hưởng đến hiệu suất của các hệ thống BioNER Vấn đề này xảy ra khi cùng một từ hoặc cụm từ đề cập đến các thực thể khác nhau Ví dụ, "bcl-2" có thể là tên của một protein hoặc một loại DNA Trong khi một số BioNEs có thể bị nhầm lẫn với các từ tiếng Anh thông thường, chẳng hạn như "can", "vamp" và "cycle" [12], các tên khác có thể chỉ đến các thực thể y tế thuộc các lớp khác nhau Ví dụ, "Friedrich atoxia" chỉ tên một gene cũng như một bệnh Tương tự, "CD4" có thể là tên của một loại tế bào cũng như một tên của một protein.
Từ đồng nghĩa
Trong khi tên gọi không rõ ràng trong văn bản có thể chỉ đến nhiều thực thể khác nhau, một thực thể cũng có thể được chỉ định bằng nhiều tên khác nhau trong mối quan hệ đồng nghĩa, còn được gọi là biệt danh Ví dụ, "caspase-3", "CASP3", "apoptosis- related cysteine protease" và "CPP32" đều chỉ định đến cùng một thực thể Việc sử dụng các từ đồng nghĩa gây ra sự không rõ ràng, vì bất kỳ biệt danh nào cũng có thể được sử dụng để chỉ cùng một thực thể.
Biến thể của từ vựng trong y sinh học
Mục này đề cập đến các thực thể tương tự nhau theo định nghĩa Có nhiều cấp độ biến thể bao gồm biến thể ở mức ký tự, mức từ, mức thứ tự từ, mức cú pháp và biến thể với từ viết tắt [13].
• Biến thể ở mức ký tự trong nhận diện thực thể do sự có hoặc không có các ký tự đặc biệt, hoặc trao đổi các chỉ số, chẳng hạn như số và một chữ cái duy nhất Một số ví dụ là: "D(2)" hoặc "D2", "SYT4" hoặc "SYT IV", "IGA" hoặc "IG alpha".
• Một từ trong một tên có thể được thay thế bằng một từ khác, hoặc bị bỏ qua trong một biến thể của tên Ví dụ, "RNase protein" hoặc "RNase P" đều đề cập đến cùng một thực thể.
• Chuỗi các từ trong các biến thể thứ tự từ cho thấy một thứ tự từ khác nhau Ví dụ,
"intergin alpha 4" hoặc "alpha4 intergin" đều đề cập đến cùng một thực thể.
• Một chuỗi con của một tên đầy đủ có thể được thay thế bằng từ viết tắt của nó Ví dụ, "Placental anticoagulant protein I" hoặc "PAP-I".
Các biến thể trong BioNEs làm cho việc tạo từ điển bao hàm trở nên khó khăn, trong đó cùng một thực thể có các biến thể khác nhau.
Sự xuất hiện các thực thể mới trong y sinh học
Đây là một vấn đề lớn cho việc nhận diện hiệu quả các thực thể trong y sinh học.Tốc độ tăng trưởng vượt bậc trong việc phát hiện các tên mới thường xuyên là một nguyên nhân chính cho sự thiếu chính xác của các mô hình BioNER Trong trường hợp này, từ điển và ngữ cảnh phải được cập nhật thường xuyên để tạo ra các hệ thốngBioNER hiệu quả Hệ thống BioNER phải có khả năng mở rộng trong ý nghĩa là nó phải có thể nhận diện được hầu hết các thực thể yrong văn bản, nếu không phải tất cả các thực thể y sinh trong các bài báo y tế trong thời gian hợp lý và cũng phải sở hữu khả năng giải quyết các thực thể y sinh chưa được nhìn thấy trước đó.
Hiện tượng ngôn ngữ
Hầu hết các thách thức của BioNER phát sinh từ đa dạng của sự nhập nhằng về ngữ nghĩa trong các bài báo y sinh học Từ góc độ ngôn ngữ học, rất nhiều sự nhập nhằng tồn tại do các hiện tượng ngôn ngữ khác nhau như các biến thể từ vựng toàn diện (tức là các tên có nhiều biến thể chính tả đại diện cho cùng một khái niệm, ví dụ như "SELL" và "selection L"), đồng âm hoặc đa nghĩa (tức là một tên có nhiều nghĩa đề cập đến nhiều khái niệm, ví dụ như thiết bị y tế cat và danh từ cat) Một số hiện tượng ngôn ngữ quan trọng nhất thường gặp trong văn bản y sinh học như sau:
• Từ viết tắtlà các hình thức tóm tắt của các khái niệm hoặc tên được sử dụng phổ biến trong văn bản y sinh học Điều này là một trong những nguồn gốc chính gây ra sự mơ hồ Thông thường, một từ viết tắt có thể được hiểu theo một số đầy đủ khác nhau, nếu không được định nghĩa rõ ràng trong bối cảnh Ví dụ từ "UT", có thể đề cập đến "Ung thư", "U tim" hoặc "Ù tai" Trong một số trường hợp, một từ viết tắt có thể ám chỉ đến các khái niệm khác nhau, ngay cả khi nó ám chỉ đến cùng một đầy đủ Ví dụ, "NF2" ám chỉ đến tên của một gene, protein mà nó sản xuất, cũng như bệnh lý phát sinh do đột biến của nó Tương tự, "CAT" có thể ám chỉ đến một protein, một thiết bị y tế hoặc một loài động vật Với sự khác biệt về ý nghĩa như vậy, việc xác định đúng nghĩa của từ là hết sức quan trọng Mặc dù là một nhiệm vụ phụ của định hướng nghĩa của từ, việc giải quyết từ viết tắt cũng cho thấy được sự cần thiết của nó.
• Tokenizationlà quá trình tách một cụm từ, câu, đoạn văn, một hoặc nhiều tài liệu văn bản thành các đơn vị nhỏ hơn Mỗi đơn vị nhỏ hơn này được gọi là Tokens.
Có thể coi tokens là các khối xây dựng của NLP và tất cả các mô hình NLP đều xử lý văn bản thô ở cấp độ các Tokens Thông thường, khoảng trắng được sử dụng để tách các từ trong hầu hết các ngôn ngữ Tuy nhiên, có các hiện tượng ngôn ngữ khác nhau có thể gây ra vấn đề cho quá trình tokenization như việc viết tắt(ví dụ, “major histocompatibility complex(MHC)” hoặc “major histocompatibil- ity complex (MHC)”), các dấu ngoặc đơn (ví dụ, “IL-10’s activity”), việc dùng dấu gạch ngang (ví dụ, “IL-10” hoặc “IL 10”), các định dạng khác nhau (ví dụ,
“123,456.235” và “123456.235”) và các ranh giới câu khác nhau (ví dụ, “.”, “:”,
• Sự chồng chéo của các thực thể định danh gây ra sự phức tạp trong các mô hình BioNER Ví dụ các thực thể định danh bao gồm nhiều từ như "CD28 surface receptor", hay như các thực thể định danh ngắn hơn có thể được ghép lại để tạo thành các thực thể có tên dài hơn (ví dụ: "tumor", "VHL" là các thực thể đơn từ, trong khi "VHL tumor" là một thực thể hai từ) Vấn đề này phức tạp hơn khi cần xác định ranh giới của tên và sau đó giải quyết việc chồng chéo của các thực thể bên trong.
Một thực thể có thể xuất hiện bên trong một thực thể khác (như một chuỗi chính xác) Ví dụ, một thực thể ngắn "T cell" được nhúng trong thực thể dài hơn "nuclear factor of activated T cells family protein" Trong tập dữ liệu GENIA, khoảng 17% số thực thể đều được nhúng trong một thực thể khác [14] Trong khi đó, có báo cáo cho biết khoảng hai phần ba các thuật ngữ "Gene Ontology" (GO) chứa một thuật ngữ GO khác như một chuỗi chính xác [15]. Để giải quyết những sự phức tạp như vậy, ta có thể cần đến Hệ thống ngôn ngữ y học thống nhất (Unified Medical Language System – UMLS) để giúp giải quyết danh mục thực thể y tế Nhiều kết quả nghiên cứu đã được các nhà khoa học đưa ra để giải quyết các khó khăn này trong việc phát triển các hệ thống BioNER hiệu quả.
Các phương pháp tiếp cận
Phương pháp tiếp cận dựa trên quy tắc
Các phương pháp tiếp cận dựa trên quy tắc, không giống như cây quyết định hoặc phương pháp thống kê, sử dụng các quy tắc thủ công để nắm bắt các thực thể được đặt tên và phân loại chúng dựa trên các đặc điểm hình thái và từ ngữ của chúng Ví dụ, trong ngôn ngữ tiếng Việt, thông thường các tên riêng (thực thể) được bắt đầu bằng một chữ cái in hoa Do đó, các thực thể có các đặc trưng như chữ in hoa, ký hiệu, chữ số, hậu tố, tiền tố có thể được nắm bắt, chẳng hạn như sử dụng biểu thức chính quy. Ngoài ra, việc gắn nhãn các phần trong văn bản có thể được sử dụng để phân đoạn các câu và nắm bắt các cụm danh từ Thông thường, trong trường hợp này, ta có thể xác định được các cụm từ hoàn chỉnh dưới dạng các thực thể nếu ít nhất một phần của chúng được xác định là các thực thể Một ví dụ về hệ thống BioNER dựa trên quy tắc sớm nhất là PASTA (Protein Active Site Template Acquisition) [17], trong đó việc gắn nhãn thực thể được thực hiện theo kinh nghiệm, bằng cách xác định 12 loại thuật ngữ kỹ thuật, bao gồm các nguyên tắc phạm vi Mỗi tài liệu được phân tích đầu tiên cho các phần có văn bản kỹ thuật, được chia thành các mã thông báo, được phân tích về các đặc điểm ngữ nghĩa và cú pháp, trước khi trích xuất các đặc điểm hình thái và từ vựng Sau đó, hệ thống sử dụng các quy tắc thủ công để gắn nhãn và phân loại các thuật ngữ thành 12 danh mục thuật ngữ kỹ thuật Các thuật ngữ được gắn nhãn với các lớp tương ứng bằng cách sử dụng định dạng SGML (Ngôn ngữ đánh dấu tổng quát hóa tiêu chuẩn) Một trong những hệ thống gần đây nhất có ý nghĩa đối với luận án này là hệ thống nhận dạng thực phẩm có tên FoodIE [18], sử dụng các bộ quy tắc để trích xuất các thực thể chung từ công thức nấu ăn.
Hai kỹ thuật này bổ sung cho nhau bằng các quy tắc bù trừ cho các từ điển khớp chính xác và từ điển lọc kết quả được trích xuất thông qua các quy tắc Hạn chế chính của các hệ thống dựa trên quy tắc là các quy trình tốn thời gian liên quan đến các quy tắc thủ công để liệt kê tất cả các mẫu quan tâm có thể có và tính không hiệu quả của các quy tắc đó đối với các điều trong tương lai không nhìn thấy được Tuy nhiên, trong trường hợp mà lớp thực thể được nghiên cứu tốt, xác định được hầu hết các mẫu có thể xảy ra thì có thể xây dựng các hệ thống dựa trên quy tắc mà cả độ đo chính xác và độ đo hồi tưởng đều cao Ví dụ: hầu hết các hệ thống gắn nhãn thực thể loài đều dựa trên danh pháp nhị thức (hệ thống đặt tên hai thuật ngữ của loài), cung cấp ranh giới thực thể được xác định rõ ràng, đủ điều kiện là rất lý tưởng cho hệ thống nhận diện thực thể dựa trên quy tắc.
Phương pháp tiếp cận dựa trên từ điển
Các phương pháp dựa trên từ điển sử dụng cơ sở dữ liệu lớn, hệ thống định nghĩa của các thực thể hoặc có thể kích hoạt các thuật ngữ thuộc các danh mục khác nhau làm tham chiếu để định vị và gắn nhãn các thực thể trong một văn bản nhất định Mặc dù việc tìm kiếm các thuật ngữ khớp chính xác có trong từ điển ở trong văn bản là một cách nhận dạng thực thể định danh đơn giản và chính xác, nhưng khả năng nhớ lại các hệ thống này có xu hướng thấp hơn do tính chất ngày càng mở rộng của biệt ngữ y sinh, từ đồng nghĩa, cách viết và sự khác biệt về trật tự từ của chúng Một số hệ thống đã sử dụng kết hợp không chính xác bằng cách tự động tạo từ điển mở rộng để giải thích cho các biến thể chính tả và kết hợp một phần của từ Một ví dụ nổi bật của mô hình BioNER dựa trên từ điển là trong công cụ khai thác liên kết Polysearch
[19], trong đó hệ thống giữ một số từ điển đồng nghĩa toàn diện để gắn nhãn và chuẩn hóa các thực thể theo một số tiêu chuẩn nhất định Một ví dụ khác là Whatizit [20],một công cụ chú thích văn bản theo lớp cụ thể có sẵn trực tuyến, với các mô-đun riêng biệt cho các loại NE khác nhau BioNER này được xây dựng bằng cách sử dụng các từ vựng được kiểm soát (Controlled Vocabularies - CV) được trích xuất từ cơ sở dữ liệu trực tuyến tiêu chuẩn Ví dụ: WhatizitChemical sử dụng CV từ ChEBI vàOSCAR3, WhatizitDisease sử dụng thuật ngữ bệnh tật CV trích xuất từ MedlinePlus,whatizitDrugs sử dụng CV trích xuất từ DrugBank, WhatizitGO sử dụng thuật ngữ bản thể gen và cuối cùng WhatizitOrganism sử dụng CV trích xuất từ phân loại NCBI.Tương tự, LINNAEUS [21] là gói NER dựa trên từ điển được thiết kế rõ ràng để nhận dạng và chuẩn hóa các thực thể tên loài trong văn bản Hệ thống có độ đo hồi tưởng đáng kể là 94% ở cấp độ đề cập và 98% ở cấp độ tài liệu, mặc dù mô hình hoàn toàn dựa trên từ điển Nhiều công cụ hiện đại và mới nhất cũng đã thể hiện sự ưu tiên trong việc sử dụng mô hình kết hợp dựa trên từ điển do độ chính xác cao về hiệu suất của nó với dữ liệu đã biết trước đó Hơn nữa, vì nó liên quan đến đối soát chính xác/ không chính xác, nên yêu cầu chính chỉ là một từ điển được soạn thảo kỹ càng về tất cả các thuật ngữ liên quan có thể có.
Phương pháp tiếp cận dựa trên học máy
Hiện tại, các phương pháp được sử dụng thường xuyên nhất để nhận dạng thực thể định danh là các phương pháp học máy Trong khi một số nghiên cứu tập trung vào các mô hình hoàn toàn dựa trên máy học, những nghiên cứu khác sử dụng các phương pháp kết hợp học máy với các phương pháp tiếp cận dựa trên quy tắc hoặc dựa trên từ điển Nhìn chung, các phương pháp này là những phương pháp hiện đại và tiên tiến nhất Ba phương pháp học máy chính đó là: Sử dụng học có giám sát, bán giám sát và không giám sát.
Các phương pháp này sử dụng một quy tắc/phân loại hoặc một bộ phân loại để phát hiện ranh giới của thực thể trong y sinh học và phân loại chúng vào một trong các danh mục được định nghĩa trước Một quy tắc phân loạig:x→Y có thể được định nghĩa hình thức như là việc ước tính nhãn y của vectơ đầu vào k chiều x trong đó x∈R k (lưu ý rằng, đối với hầu hết các thuật toán ML, các biến đầu vào phải là giá trị thực) vày∈Y =C 1 ,C 2 , ,C m Nếu số lớp,m= 2, phân loại được gọi là phân loại nhị phân và nếu m > 2, phân loại được gọi là phân loại đa lớp Nói một cách đơn giản, quy tắc phân loạigphân vùng không gian đầu vàoxthànhmcác vùng quyết định rời nhau, các ranh giới của chúng được gọi là các ranh giới quyết định.
Các phương pháp học máy được giám sát đầu tiên được sử dụng là SVM [22], Mô hình Markov ẩn [23], Cây quyết định và phương pháp Naive Bayesian [24] Một cấu trúc học máy chung cho phân loại được hiển thị trong Hình 1.4 Trong đó, dữ liệu dùng cho huấn luyện là một tập dữ liệu được gắn nhãn (chú thích) với độ tin cậy rất lớn Các đặc trưng có thể phân biệt được được trích xuất từ dữ liệu huấn luyện tùy thuộc vào ứng dụng Những đặc trưng này sau đó được sử dụng để xây dựng quy tắc phân loại hoặc một hàm được kiểm định bằng cách sử dụng dữ liệu kiểm tra (test data).
Hình 1.4: Cấu trúc mô hình phân loại bằng học máy
BioNER có thể được coi như là một trường hợp đặc biệt của vấn đề phân loại hoặc vấn đề gán nhãn chuỗi vì nó bao gồm việc gán nhãn một chuỗi nhãn cho một chuỗi các từ đầu vào Trong trường hợp này, một trong những nhãn được xác định trước phải được gán cho một từ đơn hoặc một chuỗi các từ trong một câu, trong đó một nhãn có thể là tên của một lớp mà từ hoặc chuỗi các từ thuộc về hoặc là một khái niệm không phải là thực thể định danh (từ đó không phải là thực thể định danh) Lý do chính để xem xét các thực thể định danh trong một câu là bởi vì các thực thể định danh không bao phủ hai câu liên tiếp.
BioNER có thể được định nghĩa một cách hình thức là một bộ phân loại chấp nhận một câu S, có n từ được biểu diễn dưới dạng S=và gán một trong các nhãn được định nghĩa trướcC 1 ,C 2 , ,Cm cho mỗi từ hoặc một chuỗi các từ dựa trên các đặc điểm của các từ được thu thập trong giai đoạn huấn luyện Mô hình bộ phân loại được xây dựng bằng các đặc trưng được trích xuất từ dữ liệu huấn luyện, được biểu diễn dưới dạng T =, , , trong đó wi là từ vàyi là nhãn tương ứng của từ đó. Ưu điểm chính của phương pháp học máy là hiệu suất được cải thiện so với phương pháp dựa trên quy tắc và từ điển Hơn nữa, việc thích nghi với một lĩnh vực mới dễ hơn so với phương pháp dựa trên quy tắc và từ điển Ngoài ra, chúng không yêu cầu việc xác định quy tắc thủ công và cũng có thể xác định các thực thể tên mới không được bao gồm trong các quy tắc hoặc từ điển tiêu chuẩn Tuy nhiên, yêu cầu chính của các phương pháp này là có tài nguyên được chú thích đầy đủ và đáng tin cậy Quá trình chú thích tài nguyên y sinh học tốn thời gian và nên được thực hiện bởi các chuyên gia trong lĩnh vực.
Việc trích xuất đặc trưng đóng vai trò quan trọng trong thành công của kỹ thuật học máy Một đặc trưng có thể là bất kỳ một thông tin nào có thể được lấy từ token và bất kỳ nguồn tài nguyên ngoài nào khác, trừ các nhãn đầu ra dự kiến Mô hình phân loại sử dụng các đặc trưng của nhiều loại khác nhau (một mô tả chi tiết được đưa ra trong chương tương ứng) bao gồm:
• Các bộ từ diển: một bộ sưu tập các thực thể định danh hoặc từ tiếng Anh giúp xác định loại thực thể định danh
• Các đặc trưng về chính tả: độ dài của từ, việc viết hoa chữ cái, thông tin bit thông thường về hình thức từ (có chứa ký tự đặc biệt hay không, có dấu gạch ngang trong từ và cách thức khác)
• Thông tin về tần suất: tần suất của từ, tỷ lệ sự xuất hiện viết hoa và viết thường của từ, tỷ lệ tần suất bắt đầu bằng chữ cái viết hoa và thường của từ
• Thông tin ngữ cảnh: PoS tag, câu và từ kích hoạt (các token phổ biến nhất trong một cửa sổ xung quanh các thực thể định danh)
• Các đặc trưng động: bao gồm lớp dự đoán của một số từ trước đó.
Việc lựa chọn các đặc trưng phân biệt thích hợp giúp bộ phân loại phân loại các từ một cách chính xác.
Phương pháp tiếp cận kết hợp
Các phương pháp kết hợp nhằm kết hợp hai hoặc nhiều phương pháp thành một phương pháp duy nhất bằng cách tận dụng sức mạnh của mỗi phương pháp để đạt được hiệu suất tốt hơn so với các phương pháp đơn lẻ [25] Trong hầu hết các trường hợp, các phương pháp học máy được kết hợp với phương pháp dựa trên luật hoặc phương pháp dựa trên từ điển Từ điển, các bộ từ vựng hoặc các quy tắc được tạo bằng tay thường được sử dụng liên tiếp đến các hệ thống dựa trên học máy để cải thiện kết quả bằng cách giải quyết sự khác biệt trong các thực thể được nhận dạng trong lĩnh vực y sinh học như các từ viết tắt và từ đồng nghĩa.
Patrick J và Yefeng W [26] đã đề xuất một hệ thống BioNER sử dụng phương pháp kết hợp Họ sử dụng một tập hợp nhỏ các đặc trưng chứa nhãn PoS, các hậu tố, các đặc trưng chính tả, các danh từ chính và các đặc trưng N-gram để xây dựng một bộ phân loại dựa trên entropy tối đa Bộ phân loại này được theo sau bởi một tập hợp các quy tắc được sử dụng để sửa chữa ranh giới của các thực thể sinh học Họ sử dụng tập dữ liệu GENIA và độ đoF 1 −scorethấp 68,20% Blau B và các cộng sự [27] đề xuất một hệ thống kết hợp để nhận dạng các thực thể bệnh tật sử dụng các biến thể của thuật toán CRF để xây dựng một hệ thống tập hợp được theo sau bởi một thuật toán phù hợp mờ Hệ thống được đề xuất được thiết kế để trích xuất tên bệnh tật.
Các phương pháp tiếp cận dựa trên học máy được ưu tiên sử dụng vì chúng có thể dễ dàng thích nghi với các lĩnh vực mới cũng như nhận dạng các thực thể chưa được nhìn thấy trước đó Tuy nhiên, yêu cầu chính của các phương pháp học máy là phải có một tập dữ liệu lớn được chú thích bởi các chuyên gia trong lĩnh vực.
Một số bộ dữ liệu về nhận diện thực thể y khoa trên thế giới
Bộ dữ liệu JNLPBA 2004
Bộ dữ liệu JNLPBA là một cuộc thi mở trong việc nhận dạng thực thể sinh học và các thuật ngữ kỹ thuật trong lĩnh vực sinh học phân tử [28] Nó được tổ chức như một hội thảo chung của BioNLP/NLPBA 2004 [29] Tập huấn luyện của thử thách này bắt nguồn từ tập dữ liệu GENIA phiên bản 3.02 [30], chứa một tập các trích dẫn từ MEDLINE được trích xuất bằng cách sử dụng các thuật ngữ tìm kiếm MeSH "con người", "tế bào máu" và "yếu tố chuyển nhượng" Những trích dẫn này đã được gán nhãn thủ công thành 36 lớp ngữ nghĩa Trong số các lớp này, 5 lớp là DNA, RNA,protein, dòng tế bào và loại tế bào đã được chọn trong JNLPBA Shared Task Tập kiểm tra được trích xuất bằng cách sử dụng các thuật ngữ của Bộ từ điển y sinh học của Thư viện Quốc gia Mỹ (MeSH) tương tự của tập huấn luyện Năm xuất bản của tập huấn luyện nằm trong khoảng 1990 đến 1999, trong khi đối với tập kiểm tra nằm trong khoảng từ năm 1978 đến 2001 Thống kê của bộ dữ liệu thử thách chia sẻ JNLPBA được hiển thị trong Bảng1.1dưới đây:
Tập huấn luyện Tập kiểm tra Tổng cộng
Số lượng thực thể protein 30269 5076 35345
RNA 951 118 1069 cell_type 6718 1921 8639 cell_line 3830 500 4330
Bảng 1.1: Thống kê của bộ dữ liệu JNLPBA 2004
Bộ dữ liệu i2b2/VA 2010
Các cuộc thi về xử lý ngôn ngữ tự nhiên về y học lâm sàng quốc gia (National NLP Clinical Challenges), thường được gọi là N2C2, là một cuộc thi rất nổi tiếng về các tác vụ NLP trong y học lâm sàng Từ năm 2004 đến 2014, cuộc thi có tên là Tin học cho Tích hợp sinh học và Giường bệnh (Informatics for Integrating Biology and the Bedside - i2b2) nhưng sau đó được đổi thành N2C2 vào năm 2018 Họ đã giới thiệu các thử thách về trích xuất thực thể và quan hệ trong văn bản y học trong nhiều năm, với các bộ dữ liệu do Viện Y Tế Quốc Gia Mỹ (National Institutes of Health) tạo ra và được tài trợ bởi Trung tâm Y sinh Điện Toán Quốc gia (National Centers for Biomed- ical Computing - NCBC). i2b2/VA 2010 [31] là cuộc thi mở về các khái niệm, khẳng định và quan hệ trong văn bản y học lâm sàng: Trong cuộc thi này, 16 đội đã tham gia vào nhiệm vụ trích xuất mối quan hệ cho thấy rằng các phương pháp dựa trên quy tắc có thể được tăng cường bằng các phương pháp học máy Thuật toán học có giám sát dựa trên SVM hoạt động tốt nhất với F 1 −Score là 0,737 Thử thách i2b2/VA năm 2010 đã góp phần to lớn trong việc công bố hồ sơ bệnh án, đóng góp nguồn dữ liệu lớn cho cộng đồng nghiên cứu xử lý ngôn ngữ y tế.
Bộ dữ liệu này bao gồm 826 bản tóm tắt xuất viện cho các bệnh nhân thực tế từ Trung tâm Y tế Đại học Pittsburgh, Partners Health Care và Beth Israel Deaconess Medical Centre Các ghi chú của đại học Pittsburgh đã được sử dụng làm tập kiểm tra trong thử thách i2b2/VA 2010, trong khi hai nguồn khác được sử dụng làm tập huấn luyện Cả tập kiểm tra và tập huấn luyện đều được chú thích thủ công thành ba loại thực thể khác nhau: treatment (điều trị), test(kiểm tra) và problem (vấn đề) Thống kê của bộ dữ liệu được thể hiện trong Bảng 1.2 Đây cũng là bộ dữ liệu mà nhóm đã tham khảo và nghiên cứu các quy tắc xây dựng bộ dữ liệu.
Tập huấn luyện Tập kiểm tra Tổng cộng
Bảng 1.2: Thống kê của bộ dữ liệu i2b2/VA 2010
Bộ dữ liệu NCBI
Kho văn bản về bệnh - NCBI được giới thiệu để nhận dạng và chuẩn hóa tên bệnh [32] Đây là bộ dữ liệu phổ biến nhất về nhận dạng bệnh được chia sẻ công khai Bộ dữ liệu này đã được chú thích thủ công bởi 14 chuyên gia y tế Thống kê chung về bộ dữ liệu được đưa ra trong Bảng 1.3
Training set Development set Test set Tổng cộng
Tổng số bệnh được nhắc tới 5145 787 960 6892
Tổng số bệnh (duy nhất) 1710 368 427 2136
Bảng 1.3: Thống kê của bộ dữ liệu NCBI
Bộ dữ liệu BC5CDR
Tập dữ liệu BC5CDR được tạo ra cho các tác vụ của BioCreative V Chemical Disease Relation (CDR) và bao gồm 1500 bài báo PubMed với 5818 bệnh được nhắc tới [33] Tập dữ liệu được chia ngẫu nhiên thành ba phần: 500 cho tập huấn luyện, 500 cho tập kiểm tra và 500 cho tập phát triển Nhãn lớp BioNE được đặt tên là DISEASE và O (cho các đối tượng không phải là BioNEs) được sử dụng để chú thích cho tập dữ liệu.
BioBERT[2]
BioBERT là một mô hình biểu diễn ngôn ngữ dành cho lĩnh vực y khoa được tiền huấn luyện trên các tập dữ liệu y khoa quy mô lớn Với kiến trúc gần như giống nhau giữa các nhiệm vụ nhận dạng thực thể, trích xuất quan hệ giữa các thực thể và hỏi đáp, BioBERT vượt trội hơn rất nhiều các mô hình tiên tiến trước đó trong nhiều tác vụ khai thác thông tin khi được tiền huấn luyện trên các tập dữ liệu văn bản y khoa Theo phân tích, người ta đã chứng minh rằng mô hình BIOBERT tinh chỉnh hoạt động tốt hơn mô hình BERT tinh chỉnh cho các nhiệm vụ NLP dành riêng cho miền y sinh. Kết quả phân tích của nhóm tác giả cho thấy mô hình của họ có thể hiểu được các văn bản y khoa phức tạp.
BioBERT sử dụng các kho văn bản để làm dữ liệu như hình dưới:
Kho văn bản Số từ trong kho văn bản Lĩnh vực
TPubMed Abstracts 4.5 tỷ Y sinh học
PMC Full-text articles 13.5 Y sinh học
Bảng 1.4: Danh sách kho văn bản sử dụng cho BioBERT
Phát biểu bài toán nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng Việt
trong văn bản y khoa tiếng Việt
Ngoài nguyên nhân chính là thiếu thốn dữ liệu (cụ thể là dữ liệu tiếng Việt có gắn nhãn) thì những khó khăn kể trên cũng khiến cho việc nhận dạng thực thể trong văn bản y khoa nói chung hay văn bản y khoa Tiếng Việt nói riêng gặp nhiều phức tạp hơn trong việc áp dụng thực tế.
Như vậy, ta cần một mô hình học có thể khắc phục được các thách thức về ngữ cảnh cũng như nội dung khi nhận dạng thực thể cho văn bản y khoa Tiếng Việt Mà để thực hiện được điều này thì dữ liệu được gán nhãn chính xác để huấn luyện cho mô hình là hết sức quan trọng và cần thiết Vậy nên trong luận văn này, học viên xin trình bày về bài toán nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng Việt như sau: Đầu vào: Các văn bản tiếng Việt thuộc miền dữ liệu bài báo, tạp chí thuộc lĩnh vực y học được thu thập trên các trang web hoặc diễn đàn uy tín về y học. Đầu ra: một bộ dữ liệu tiếng Việt được chú thích thủ công về lĩnh vực y học và một mô hình nhận dạng thực thể sử dụng tập dữ liệu này, mô tả chi tiết về tập dữ liệu này sẽ được đề cập đến trong chương 4.
• Nghiên cứu, phát triển quy trình xây dựng bộ dữ liệu tiếng Việt có chú thích về lĩnh vực y học
• Nghiên cứu các mô hình nhận dạng thực thể cũng như sự khó khăn của nhận dạng thực thể trong văn bản y khoa tiếng Việt
• Sử dụng mô hình ngôn ngữ được huấn luyện riêng cho tiếng Việt như mô hìnhPhoBERT
Các mô hình học sâu, LSTM và ELMo
Khác với các phương pháp tiếp cận như dựa trên quy tắc, dựa trên từ điển, dựa vào học máy hay các phương pháp kết hợp đã đề cập ở chương trước, các phương pháp tiếp cận dựa trên học sâu (Deep Learning) đang là xu hướng lớn trên thế giới Trước năm 2018, hầu hết các mô hình hiện đại, tối ưu nhất (SOTA) của NLP thường sử dụng mô hình học sâu, đặc biệt là mạng thần kinh hồi quy (Recurrent Neutral Networks – RNN) Nó là một thuật toán cực kỳ quan trọng chuyên xử lý thông tin dạng chuỗi. RNN là một mạng neutral có thể xử lý tuần tự khi xác định nghĩa của một câu, tức là hidden state (bộ nhớ của mạng) ở bất kỳ time step nào đều phải phụ thuộc vào hidden state của tất cả các time step trước đó Ngược lại, các mạng chuyển tiếp tiêu chuẩn không có trạng thái trước đó và chỉ có thể “chuyển tiếp” Mặc dù RNN có hiệu quả trong nhiều tác vụ NLP, nhưng cũng đem lại một số vấn đề vì bản chất tuần tự của RNN thường ngăn cản chúng hoạt động song song Do đó, việc huấn luyện mô hình có vẻ sẽ rất tốn kém về tính toán, đặc biệt là đối với các chuỗi từ dài Ngoài ra, sự phụ thuộc dài hạn có xu hướng bị mất đi, vì mô hình "quên" những gì nó đã học trước đó (đặc biệt là trong các phần đầu tiên của trình tự) khi các đạo hàm bị triệt tiêu (vanishing gradient) hoặc bùng nổ (exploding gradient) Vì thế trong bài toán nhận diện thực thể trong văn bản, nếu chúng ta cố gắng xử lý một đoạn văn bản dài, mạng RNN có thể bỏ sót nhiều thông tin quan trọng ngay từ bước đầu. Để khắc phục vấn đề vanishing gradient, kiến trúc LSTM được phát triển vào năm
1997 như một giải pháp thay thế không hoàn toàn cho RNN truyền thống [34], LSTM đã trở nên nổi bật trong NLP một phần lớn do khả năng xử lý hiệu quả các phụ thuộc xa (long-term dependency) của chúng Việc nhớ thông tin trong suốt thời gian dài là đặc tính mặc định của chúng, chứ ta không cần phải huấn luyện nó để có thể nhớ được. Tức là ngay nội tại của LSTM đã có thể ghi nhớ được mà không cần bất kì can thiệp nào Chẳng hạn như khi xem một bộ phim dài tập, chúng ta ghi nhớ bối cảnh đã diễn ra ở những tập trước đó, kết hợp xử lý với thông tin của tập phim hiện tại hoặc khi đọc sách, chúng ta ghi nhớ điều gì đã xảy ra ở chương trước, kết hợp thành mạch thông tin để hiểu và tiếp thu cho nội dung hiện tại Tương tự như vậy, khi các mạng RNN hoạt động, thông tin trước đó được ghi nhớ và sử dụng lại để xử lý cho đầu vào hiện tại Tuy nhiên thì mạng RNN không thể ghi nhớ thông tin ở các bước có khoảng cách khá xa trước đó do vấn đề vanishing gradient Do đó những phần tử đầu tiên trong chuỗi đầu vào không có nhiều ảnh hưởng đến các kết quả tính toán dự đoán phần tử cho chuỗi đầu ra trong các bước sau Mạng LSTM với các kết nối phản hồi (feedback connection) giúp khắc phục nhược điểm này.
Tiếp đó, mạng LSTM hai chiều (BiLSTM) [35] là kiến trúc LSTM được phát triển sau đó để cải thiện các nhược điểm trước đó của mạng LSTM BiLSTM chỉ đơn giản là sự kết hợp của hai LSTM độc lập Một LSTM đọc trình tự đầu vào từ đầu đến cuối, trong khi LSTM thứ hai đọc trình tự đầu vào từ cuối trở về trước Một vectơ được mã hóa sau đó được hình thành bằng cách ghép nối của cả hai đầu ra.
ELMo là một mô hình ngôn ngữ được phát triển bởi các nhà nghiên cứu tại Viện Trí tuệ Nhân tạo Allen bằng cách huấn luyện mô hình BiLSTM trên kho ngữ liệu với trên một tỷ từ [36] ELMo được coi là mô hình ngôn ngữ sâu, được ngữ cảnh hóa và hai chiều đầu tiên trên thế giới Tính hai chiều của ELMo cho phép nó ngữ cảnh hóa các biểu diễn vectơ của mình theo cách giảm thiểu phần lớn vấn đề đa nghĩa trong NLP.
Ví dụ, từ “bang hội” có các biểu diễn vectơ khác nhau trong các cụm từ “Tôi là thành viên của bang hội” và “anh ấy bị đe dọa bởi một bang hội” Ngoài ra, ELMo có thể xử lý các thuật ngữ “ngoài từ vựng” (OOV) tốt hơn so với các mô hình trước đó, vì các biểu diễn vectơ của ELMo dựa trên ký tự chứ không phải dựa trên từ Điều này cho phép mô hình biểu diễn các từ khó hiểu dưới dạng đại diện cho các tổ hợp ký tự thường xuất hiện nhất của nó.
ELMo đã chứng minh rằng có thể tận dụng một mô hình được huấn luyện trước và tinh chỉnh nó cho một tác vụ xuôi dòng, tương tự như ImageNet của Computer Vi- sion Khi ELMo được công bố vào đầu năm 2018, nó đã thiết lập một SOTA mới cho sáu tác vụ NLP bao gồm SQuAD và SNLI Đây là một bước đột phá đáng kể, vì cácSOTA trước đây chủ yếu đạt được thông qua học sâu (trái ngược với học chuyển tiếp).
ELMo là mô hình đầu tiên chứng minh tiềm năng của việc học chuyển tiếp để thực hiện cũng như (hoặc tốt hơn) học sâu trong NLP.
Mạng neural hồi quy RNN, và các biến thể LSTM, GRU đã được thiết lập như những cách tiếp cận hiện đại trong việc mô hình hoá trình tự và các vấn đề chuyển giao, chẳng hạn như mô hình hoá ngôn ngữ, dịch máy Rất nhiều những nỗ lực trong nghiên cứu đã cố gắng đẩy lùi ranh giới giữa những mô hình ngôn ngữ hồi quy và các kiến trúc mã hoá – giải mã Các mô hình hồi quy thường tính toán hệ số dựa trên kí hiệu vị trí của chuỗi đầu vào và đầu ra Với việc căn chỉnh vị trí theo các bước trong thời gian tính toán, mô hình hồi quy tạo ra một chuỗi các trạng thái ẩnht, như là hàm của các trạng thái ẩn trước đóht−1và đầu vào cho vị trí t Bản chất tuần tự vốn có này ngăn cản việc song song hoá trong các mẫu huấn luyện, điều này trở nên quan trọng trong trường hợp các câu dài hơn bình thường, vì các ràng buộc về mặt bộ nhớ giới hạn việc ghép nối giữa các câu Một số nghiên cứu gần đây đã đạt được những cải tiến đáng kể về hiệu quả tính toán thông qua các thủ thuật phân tích nhân tử và tính toán có điều kiện, tuy nhiên những hạn chế cơ bản của việc tính toán tuần tự vẫn chưa khắc phục được.
Transformer
Khái niệm bộ mã hóa - bộ giải mã
Máy tính không thể học được từ các dữ liệu thô như bức ảnh, tệp văn bản, tệp âm thanh hay đoạn video Do đó nó cần đến quá trình mã hóa thông tin sang dạng số và từ dạng số giải mã kết quả đầu ra Đó chính là 2 quá trình mã hóa và giải mã:
• Bộ mã hóa (encoder): bao gồm một chồng gồmN =6lớp giống nhau Mỗi lớp có hai lớp con Đầu tiên là cơ chế tự chú ý nhiều đầu (multi-head self-attention),thứ hai là một mạng chuyển tiếp được kết nối đầy đủ về vị trí Tác giả sử dụng một kết nối dư xung quanh mỗi hai lớp con, theo sau đó là chuẩn hoá lớp (layer nor- malization) Nghĩa là, đầu ra của mỗi lớp con là LayerNorm(x+Sublayer(x)),trong đóSublayer(x)là hàm được thực hiện bởi chính lớp con Để tạo điều kiện thuận lợi cho các kết nối dư, tất cả các lớp con trong mô hình, cũng như các lớp nhúng, đưa ra kết quả ở đầu ra có kích thướcdmodel = 512.
• Bộ giải mã (decoder): bộ giải mã cũng được cấu tạo bởi một chồng gồm N=6 lớp giống nhau Ngoài hai lớp con như trong mỗi lớp của bộ mã hoá, bộ giải mã chèn một lớp con thứ ba, lớp này thực hiện cơ chế chú ý nhiều đầu vào trên đầu ra của ngăn xếp bộ mã hoá Tương tự như bộ mã hoá, tác giả sử dụng kết nối dư xung quanh mỗi lớp con, tiếp theo là việc chuẩn hoá lớp Tác giả cũng sửa đổi lớp con tự chú ý trong ngăn xếp bộ giải mã để ngăn việc các chỉ số vị trí xuất hiện vào các chỉ số vị trí tiếp theo Việc che dấu này, kết hợp với thực tế là các nhúng đầu ra được bù đắp bởi một vị trí, đảm bảo rằng có dự đoán cho vị tríi có thể chỉ phụ thuộc vào các đầu ra đã biết ở các vị trí nhỏ hơni.
Attention
Cơ chế chú ý (Attention) [4] đã trở thành một phần không thể thiếu của các mô hình trình tự và mô hình truyền tải trong các tác vụ khác nhau, nó cho phép mô hình hoá các phần phụ thuộc mà không cần quan tâm đến khoảng cách của chuỗi đầu vào và đầu ra Mô hình Transformer ra đời, loại bỏ hoàn toàn cơ chế hồi quy, thay vào đó nó dựa hoàn toàn vào cơ chế chú ý để thể hiện sự phụ thuộc toàn cục giữa đầu vào và đầu ra Kiến trúc Transformer cho phép tính toán song song hoá một cách đáng kể, và đạt được chất lượng tốt nhất (tính đến thời điểm ra mắt) trong tác vụ dịch máy.
Một hàm chú ý có thể được mô tả như việc ánh xạ một truy vấn và một tập hợp các cặp khoá – giá trị đến một đầu ra, trong đó truy vấn, khoá, giá trị, đầu ra đều là vector. Đầu ra được tính dưới dạng tổng trọng số của các giá trị, trong đó trọng số được gán cho mỗi giá trị được tính bằng hàm tương thích của truy vấn với khoá tương ứng.
Sự chú ý dựa trên tích vô hướng có tỉ lệ: đầu vào bao gồm các truy vấn và các khoá có chiềudk và các giá trị có chiềudv Tác giả tính tích vô hướng của truy vấn với tất cả các khoá, chia lần lượt các giá trị cho√ dk và áp dụng hàm softmax để đạt được trọng số trên các giá trị.
Hình 2.2: Mô phỏng quá trình Scaled Dot-Prodcut Attention [4]
Trên thực tế, tác giả tính hàm chú ý trên một tập hợp các truy vấn đồng thời, được đóng gói thành một ma trận Q Các khoá và giá trị cũng được đóng gói tạo thành ma trận K và V Tác giả tính toán ma trận đầu ra như sau:
Attention (Q, K, V ) = softmax( QK √ T d k ) Hai hàm chú ý được sử dụng nhiều nhất là chú ý cộng (add) và chú ý nhân (mul) Cơ chế chú ý nhân tích vô hướng giống với thuật toán của các tác giả, ngoại trừ hệ số tỉ lệ
√1 d k Cơ chế chú ý cộng tính toán hàm tương thích bằng cách sử dụng mạng chuyển tiếp với một lớp ẩn duy nhất Trong khi cả hai cách tương tự nhau về độ phức tạp lí thuyết, sự chú ý nhân tích vô hướng nhanh hơn và tiết kiệm không gian hơn trong thực tế, vì nó có thể thực hiện bằng cách sử dụng phép nhân ma trận Trong khi với giá trị d k nhỏ, hai cơ chế hoạt động tương tự nhau, sự chú ý cộng tốt hơn sự chú ý tích vô hướng nếu không tăng các giá trị củad k Tác giả nghi ngờ rằng đối với giá trịd k lớn, việc nhân tích vô hướng sẽ cho ra các giá trị lớn, đưa hàm softmax về vùng mà nó có giá trị đạo hàm cực nhỏ Để chống lại hiệu ứng này, tác giả chia tỉ lệ các tích vô hướng cho √ 1 d k
Thay vì thực hiện một hàm chú ý duy nhất với các khoá, giá trị, truy vấnd model chiều, tác giả thấy có lợi khi chiếu tuyến tính các truy vấn, khoá và giá trị h lần với các phép chiếu tuyến tính đã học khác nhau lên kích thướcd k vàdv tương ứng Trên mỗi phiên bản chiếu của truy vấn, khoá và giá trị, tác giả sau đó thực hiện hàm chú ý song song, mang lại giá trị đầu radv chiều Chúng được nối với nhau và một lần nữa được chiếu, dẫn đến kết quả cuối cùng như Hình 3.
Hình 3: Mô phỏng Multi-Head Attention
Cơ chế chú ý nhiều đầu (Multi-Head Attention) cho phép mô hình cùng tham gia vào thông tin từ các không gian con biểu diễn khác nhau ở các vị trí khác nhau Với một đầu duy nhất, tính trung bình hạn chế điều này.
MultiHead(Q,K,V) =Concat(head 1 , ,headh).W O (2.1) headi=Attention(QW i Q ,KW i K ,VW i V ) (2.2) Trong đó, các phép chiếu là ma trận tham số W i Q ∈R d model ×d k , W i K ∈R d model ×d k ,
Trong thực nghiệm, tác giả lựa chọn h = 8 lớp hoặc các đầu chú ý song song Trong mỗi phần, tác giả sử dụngdv=d k =d model /hd Do kích thước mỗi phần tử giảm xuống, tổng chi phí tính toán giống với áp dụng phương pháp Attention trên một đầu với kích thước đầy đủ. Áp dụng trong mô hình
Mô hình Transformer sử dụng cơ chế chú ý nhiều đầu theo ba cách khác nhau:
• Trong các lớp chú ý mã hoá - giả mã, các truy vấn đến từ lớp bộ giải mã trước đó, khoá và giá trị nhớ đến từ đầu ra của bộ mã hoá Điều này cho phép mọi vị trí trong bộ giải mã tham dự trên tất cả các vị trí trong chuỗi đầu vào Điều này giống với cơ chế chú ý mã hoá – giải mã trong các mô hình “sequence to sequence”.
• Bộ mã hoá chứa các lớp tự chú ý Trong lớp tự chú ý, tất cả các khoá, giá trị và truy vấn đến từ cùng một nơi, trong trường hợp này là đầu ra của lớp trước đó trong bộ mã hoá Mỗi vị trí trong bộ mã hoá có thể tương ứng với tất cả các vị trí trong lớp trước của bộ mã hoá.
• Tương tự, các lớp tự chú ý trong bộ giải mã cho phép mỗi vị trí trong bộ giải mã tham gia vào tất cả các vị trí trong bộ giải mã cho đến và bao gồm cả vị trí đó.Chúng ta cần ngăn dòng thông tin sang trái trong bộ giải mã để bảo toàn thuộc tính tự động hồi quy Tác giả thực hiện điều này bên trong cơ chế chú ý tích vô hướng tỉ lệ bằng việc che dấu tất cả các giá trị trong đầu vào của softmax tương ứng với các kết nối không hợp lệ.
Bộ chuyển tiếp theo vị trí
Ngoài cơ chế chú ý ở các lớp con, mỗi lớp trong bộ mã hoá và giải mã chứa một mạng chuyển tiếp được kết nối đầy đủ, được áp dụng cho từng vị trí riêng biệt và giống hệt nhau Điều này bao gồm hai phép biến đổi tuyến tính với hàm kích hoạt RELU ở giữa.
Trong khi các phép biến đổi tuyến tính giống nhau ở các vị trí khác nhau, tác giả sử dụng các tham số khác nhau giữa mỗi lớp Một cách khác để miêu tả điều này là hai tích chập với kích thước nhân 1 Chiều của đầu vào và đầu ra là d model = 512, và lớp bên trong có chiềudf f = 2048.
Embedding và Softmax
Tương tự như các mô hình chuyển đổi trình tự khác, tác giả sử dụng các phép nhúng đã học để chuyển đổi các từ đầu vào và các từ đầu ra thành vector có kích thướcdmodel. Tác giả cũng sử dụng phép biến đổi tuyến tính đã học thông thường và hàm softmax để chuyển đầu ra của bộ giải mã thành xác suất từ tiếp theo được dự đoán Trong mô hình, tác giả chia sẻ cùng một ma trận trọng số giữa hai lớp nhúng và hàm chuyển đổi tuyến tính softmax trước Trong lớp nhúng, nhóm nghiên cứu nhân các trọng số đó với√ d model
Mã hoá vị trí
Vì mô hình Transformer không có sự hồi quy và không có tích chập, để mô hình tận dụng được thứ tự của chuỗi, tác giả phải đưa một số thông tin về vị trí tương đối hoặc tuyệt đối của từ trong câu Để làm được điều này, tác giả đã thêm mã hoá vị trí vào các embedding đầu vào ở dưới cùng của ngăn xếp bộ mã hoá encoder và bộ giải mã decoder Các mã hoá vị trí có cùng kích thước dmodel giống như các embedding, do đó hai vector này có thể tính tổng Có nhiều sự lựa chọn về mã hoá vị trí, được học hoặc giữ cố định Trong mô hình này, tác giả sử dụng hàm sin và cosin của các tần số khác nhau:
PE pos,2i =sin(pos/10000 2i/d model ) (2.3)
PE pos,2i+1 =cos(pos/10000 2i/d model ) (2.4)
Trong đó: pos là vị trí, còn i là số chiều Nghĩa là, mỗi chiều của mã hoá vị trí tương ứng với một hình sin Các bước sóng tạo thành một cấp số nhân từ2π đến10000•2π.
Tác giả chọn hàm này bởi họ giả định rằng nó sẽ cho phép mô hình dễ dàng học cách tham dự theo các vị trí tương đối, vì với bất kì độ lệch k nào,PEpos+k có thể được biểu diễn như một hàm tuyến tính củaPEpos Ngoài ra, các tác giả chọn nhúng vị trí hình sin vì nó có thể cho phép mô hình ngoại suy thành các độ dài chuỗi dài hơn các độ dài gặp phải trong quá trình huấn luyện.
BERT
Kiến trúc mô hình
Kiến trúc mô hình của BERT là một multi-layer bidirectional Transformer encoder (tạm dịch là bộ mã hóa của Transformer hai chiều đa lớp) dựa trên mô hình gốc được mô tả trong Vaswani [4] Trong nghiên cứu này, ta ký hiệu số lớp (tức là Transformer blocks) là L, kích thước lớp ẩn là H và số lượng self-attent heads là A Báo cáo sẽ chủ yếu đánh giá kết quả dựa trên hai mô hình có kích thước: BERTBASE (L, Hv8, A, tổng số lượng tham số là 110 triệu) và BERTLARGE (L$, H24, A và tổng tham số = 340 triệu).
Biểu diễn dữ liệu đầu vào/ đầu ra Để mô hình BERT có thể xử lý được nhiều dạng downstream task, dữ liệu đầu vào phải được biểu diễn ở dạng một câu đơn và một cặp câu () trong một chuỗi token Trong toàn bộ nghiên cứu, một "câu"có thể là đoạn văn bản liên tục bất kỳ và một "chuỗi"là đề cập đến một chuỗi token đầu vào cho BERT Embedding đầu vào sẽ là tổng của embedding của token, embedding của segmentation và embedding của vị trí.
Nhóm nghiên cứu sử dụng WordPiece embeddings với một từ điển gồm 30,000 token.Token đầu tiên của mỗi chuỗi luôn là [CLS], token cho việc gán nhãn Giá trị ở tầng hidden cuối cùng của token này sẽ được sử dụng như một vector đại diện cho các bài toán phân loại Các cặp câu sẽ được ghép vào thành một câu duy nhất, phân cách giữa chúng là một token đặc biệt [SEP] Ngoài ra sẽ có thêm một embedding được huấn luyện với mỗi token để chỉ ra rằng token đó thuộc câu A hay câu B.
Hình 2.3: Biểu diễn đầu vào của BERT [5]
Huấn luyện trước BERT
Mô hình BERT sẽ được tiền huấn luyện dựa trên hai tác vụ học không giám sát.
Tác vụ 1: Masked LMVề mặt trực giác ta có thể tin rằng một mô hình học sâu hai chiều sẽ tốt hơn rất nhiều so với một mô hình học từ trái sang phải hoặc mô hình kết hợp trái-phải và phải-trái Tuy nhiên các mô hình ngôn ngữ có điều kiện truyền thống chỉ có thể huấn luyện từ trái-sang-phải hoặc từ phải-sang-trái, điều kiện hai chiều cho phép mỗi từ có thể "nhìn thấy bản thân nó" Do đó mô hình có thể dự đoán được từ cần thiết trong ngữ cảnh đa lớp. Để có thể huấn luyện mô hình biểu diễn hai chiều, nhóm tác giả che đi ngẫu nhiên một tỉ lệ nhất định các token đầu vào và sau đó huấn luyện để dự đoán các token bị che đi đó Quá trình này sẽ được gọi là "masked LM"(MLM) hay một tên khác được nhắc đến thường xuyên hơn là Cloze Trong tác vụ này, vector ẩn cuối cùng tương ứng với token bị che đi sẽ được đưa vào một lớp softmax đầu ra Trong tất cả các thử nghiệm, nhóm tác giả che đi ngẫu nhiên 15% tất cả các WordPiece token trong mỗi chuỗi Ngược lại với mô hình auto-encoders khử nhiễu [37], chúng ta sẽ chỉ dự đoán các từ bị che đi thay vì sinh lại toàn bộ input.
Mặc dù phương pháp này sẽ giúp ta có thể huấn luyện mô hình hai chiều nhưng nhược điểm là sẽ tồn tại một ’mismatch’ giữa pre-training và fine-tuning, khi mà
Hình 2.4: Tổng quan quá trình pre-training và fine-tuning của BERT token [MASK] không xuất hiện trong quá trình fine-tuning Để giải quyết vấn đề này, ta sẽ không luôn luôn thay thể những từ bị che bằng token [MASK] Bộ sinh dữ liệu huấn luyện sẽ lựa chọn ngẫu nhiên 15% vị trí token, nếu token thứ i được chọn, chúng ta thay thể token thứ i với (1) token [MASK] với xác suất 80%; (2) một token ngẫu nhiên nào đó khoảng 10% xác suất và (3) không thay đổi token thứ *i* với 10% còn lại Sau đó Ti sẽ được sử dụng để dự đoán token gốc sử dụng hàm lỗi cross entropy. Cùng một mô hình được tiền huấn luyện sẽ được sử dụng như mô hình khởi tạo cho các tác vụ phía sau khác nhau Trong quá trình tinh chỉnh, tất cả các tham số đều được tinh chỉnh [CLS] là token đặc biệt được thêm vào trước mỗi chuỗi đầu vào, và [SEP] là token tách nếu dữ liệu là cặp câu.
Tác vụ 2: Next Sentence PredictionRất nhiều các tác vụ phía sau như Hỏi - Đáp (Question & Answer) hay Suy diễn ngôn ngữ tự nhiên (Nature Language Inference) đều dựa trên việc hiểu mối quan hệ giữa hai câu, điều mà rất khó có thể trực tiếp học được bằng một mô hình ngôn ngữ Để có thể huấn luyện một mô hình hiểu được quan hệ giữa cặp câu, chúng ta sẽ huấn luyện trước cho bài toán dự đoán câu tiếp theo dựa trên bất kỳ ngữ liệu đơn ngữ nào đó Cụ thể, khi lựa chọn câu A và B cho mỗi mẫu tiền huấn luyện, 50% B sẽ thực sự là câu tiếp theo sau câu A (được gán nhãn là IsNext) và50% còn lại sẽ là một câu ngẫu nhiên được lấy từ tập ngữ liệu (gán nhãn là NotNext).
Như ở Hình 5, C sẽ được sử dụng cho task NSP Mặc dù ý tưởng khá đơn giản nhưng kết quả các kết quả đánh giá đã chứng tỏ rằng NSP thực sự hiệu quả cho cả QA và NLI.
Dữ liệu cho quá trình huấn luyện trướcNhóm nghiên cứu đã sử dụng BooksCorpus
(800 triệu từ) [38] và English Wikipedia (2,500 triệu từ) Với dữ liệu từ Wikipedia ta chỉ sử dụng dữ liệu từ text và loại bộ tất cả lists, tables và headers Điều quan trọng ở đây là sử dụng ngữ liệu ở cấp độ tài liệu (document-level) thay vì ngữ liệu ở cấp độ câu (sentence-level) bị xáo trộn như Billion Word Benchmark [39] để trích xuất các chuỗi dài liền kề.
Tinh chỉnh BERT
Việc tinh chỉnh BERT khá đơn giản khi mà cơ chế tự chú ý trong Transformer cho phép BERT có thể mô hình hoá bất kỳ tác vụ phía sau - dù là một từ hay cặp từ - bằng cách hoán đổi đầu vào và đầu ra một cách thích hợp Với bài toán liên quan đến cặp câu, thực hiện encode độc lặp cặp câu trước khi sử dụng birectional cross attention. BERT thay vào đó sử dụng cơ chế self-attention để thống nhất hai stage này, tức là encode cặp văn bản đã được ghép với self-attention đã bao gồm birectional cross at- tention giữa hai câu.
Với mỗi tác vụ, ta chỉ đơn giản thêm một lớp input và output phù hợp và tinh chỉnh tất cả các tham số của toàn bộ mô hình Ở lớp đầu vào, câu A và câu B từ quá trình pre-training có thể là (1) cặp câu trong văn bản, (2) giả thuyết-tiền đề, (3) cặp câu hỏi-đoạn văn trong tác vụ câu hỏi-câu trả lời và (4) cặp văn bản cho bài toán phân loại hoặc gán nhãn trình tự. Ở đầu ra, đại diện các token sẽ được đưa vào một lớp đầu ra cho các tác vụ ở cấp độ token (token-level) như Câu hỏi - Câu trả lời hoặc gán nhãn trình tự, và vector của token [CLS] sẽ được sử dụng cho bài toán phân loại So sánh với quá trình pre-train, fine-tuning là quá trình không tốn quá nhiều tài nguyên Lý do của việc này là:
Thứ nhất, các trọng số của BERT được huấn luyện trước đã mã hóa rất nhiều thông tin về ngôn ngữ Do đó, việc huấn luyện mô hình tinh chỉnh của chúng ta sẽ mất ít thời gian hơn – nó tương đương với việc chúng ta đã huấn luyện các lớp dưới cùng của mạng và chỉ cần điều chỉnh chúng một chút trong khi sử dụng đầu ra của chúng làm đặc trưng đầu vào cho nhiệm vụ phân loại Trên thực tế, các tác giả chỉ khuyến nghị 2-4 epoch để tinh chỉnh BERT cho một nhiệm vụ NLP cụ thể (so với hàng trăm giờ GPU cần thiết để huấn luyện mô hình BERT hoặc LSTM từ đầu!).
Cần ít dữ liệu hơn
Ngoài ra và có lẽ cũng quan trọng, vì các trọng số được huấn luyện từ trước, phương pháp này cho phép chúng ta tinh chỉnh trên một tập dữ liệu nhỏ hơn nhiều so với yêu cầu của một mô hình được xây dựng từ đầu Một nhược điểm lớn của các mô hình NLP được xây dựng từ đầu là chúng ta thường cần một bộ dữ liệu lớn một cách nghiêm ngặt để huấn luyện mạng của chúng ta đến độ chính xác chấp nhận được, có nghĩa là rất nhiều thời gian và nỗ lực dành cho việc tạo dữ liệu Bằng cách tinh chỉnh BERT, giờ đây chúng ta có thể giải quyết được vấn đề thiếu dữ liệu.
Quy trình tinh chỉnh đơn giản này (thường là thêm một lớp được kết nối đầy đủ (fully- connected) lên trên BERT và huấn luyện trong vài epoch) đã được chứng minh đạt được kết quả tiên tiến nhất trong nhiều nhiệm vụ của NLP như: phân loại, suy luận,trả lời câu hỏi, v.v Thay vì cài đặt và huấn luyện từ đầu các kiến trúc mạng một cách tùy ý và đôi khi khó hiểu và chỉ hoạt động được trên một vài nhiệm vụ cụ thể, tinh chỉnh BERT có thể đem lại kết quả tốt tương đương hoặc nhỉnh hơn.
PhoBERT
Giới thiệu về PhoBERT
Sự thành công của mô hình pre-train BERT và các biến thể của BERT vẫn chủ yếu chỉ giới hạn với ngôn ngữ tiếng Anh Đối với các ngôn ngữ khác, người ta có thể huấn luyện lại một mô hình ngôn ngữ cụ thể bằng cách sử dụng kiến trúc BERT hoặc sử dụng các mô hình dựa trên BERT đa ngôn ngữ đã được huấn luyện trước Với mô hình tiếng Việt, có 2 vấn đề cần quan tâm đến đó là:
• Bộ từ điển tiếng Việt Wikipedia chỉ bao gồm dữ liệu để huấn luyện mô hình đơn ngữ và dữ liệu Wikipedia không đại diện tổng quát được cho việc sử dụng ngôn ngữ tiếng Việt Hơn nữa dữ liệu Wikipedia tiếng Việt cũng còn tương đối nhỏ (1GB không nén) trong khi một mô hình ngôn ngữ được huấn luyện trước cần một bộ dữ liệu lớn hơn để huấn luyện trước nếu muốn cải thiện đáng kể kết quả của mô hình.
• Tất cả các mô hình ngôn ngữ dựa trên BERT đơn ngữ và đa ngôn ngữ được phát hành công khai đều không nhận thức được sự khác nhau giữa âm tiết tiếng Việt và word token Khác với các ngôn ngữ khác có thể tách từ dựa trên khoảng trắng giữa các từ, tiếng Việt có từ ghép nên việc áp dụng tách từ cần tiền xử lý trước khi áp dụng kiến trúc BERT. Để xử lý hai vấn đề trên, mô hình PhoBERT thực hiện huấn luyện mô hìnhBERT base vàBERT large trên bộ dữ liệu lớn với bộ từ điển 20GB tiếng Việt cấp độ từ Kết quả mô hình được đánh giá trên 4 tác vụ xử lí tiếng Việt là gán nhãn từ loại (POS tagging), phân tích cú pháp phụ thuộc (Dependency parsing), nhận dạng thực thể định danh (Named entity recognition, suy diễn ngôn ngữ tự nhiên (Natural Language Inference). Kết quả thử nghiệm cho thấy rằng mô hình PhoBERT đạt kết quả tốt nhất trên tất cả các tác vụ này Những đóng góp của mô hình được tóm tắt như sau:
• Giới thiệu mô hình đơn ngữ quy mô lớn đầu tiên được huấn luyện trước cho Tiếng Việt.
• Mô hình PhoBERT đạt kết quả tốt nhất trên cả 4 tác vụ NLP cho tiếng Việt
• Thực hiện bộ thử nghiệm đầu tiên để so sánh các mô hình đơn ngữ với mô hình đa ngữ tốt nhất gần đây XLM-R trong 4 tác vụ dành riêng cho ngôn ngữ khác nhau Các thử nghiệm cho thấy rằng các mô hình của nhóm tác giả hoạt động tốt hơn XLM-R với tất cả các vụ này, do đó xác nhận một cách thuyết phục rằng các mô hình dành riêng cho ngôn ngữ cụ thể vẫn tốt hơn các mô hình đa ngôn ngữ.Nhóm tác giả phát hành công khai các mô hình của mình dưới tên PhoBERT có thể được sử dụng với fairseq và transformer.
PhoBERT
Kiến trúc: PhoBERT [5] có hai phiên bản, PhoBERTbase và PhoBERTlarge, sử dụng cùng một kiến trúc củaBERT base vàBERT large , tương ứng Phương pháp huấn luyện trước của PhoBERT dựa trên kiến trúc RoBERTa để tối ưu hóa quá trình huấn luyện trước của BERT để có hiệu suất mạnh mẽ hơn.
Dữ liệu pre-train: Để xử lý mối quan tâm đầu tiên được đề cập trước đó,nhóm tác giả đã sử dụng 20GB tập dữ liệu huấn luyện trước của các văn bản không nén Bộ dữ liệu này là sự kết hợp của hai kho văn bản: (i) kho từ điển tiếng Việt Wikipedia (
∼1GB), và (ii) kho văn bản thứ hai (∼19GB) là được tạo ra bằng cách xóa các bài báo tương tự và trùng lặp từ kho tin tức tiếng Việt (∼50GB) Để giải quyết mối quan tâm thứ hai, họ sử dụng RDRSegmenter của thư viện VnCoreNLP để thực hiện tách từ và câu trên tập dữ liệu pretrain, kết quả thu được∼145 triệu câu (∼3 tỷ từ tách được). Khác với RoBERTa, PhoBERT áp dụng fastBPE để tách câu thành các thành phần từ (subword), sử dụng 64K loại thành phần từ, trung bình có 24,4 thành phần từ cho mỗi câu.
Tối ưu hóa: Nhóm tác giả triển khai RoBERTa với fairseq, cài đặt ngưỡng tối đa 256 subword, do đó tạo ra 145M×24,4 / 256≈13,8M khối câu, tối ưu hoá mô hình vớiAdam Nhóm tác giả sử dụng batch size 1024 trên 4 GPU V100 (mỗi GPU 16GB) và lựa chọn tốc độ học lớn nhất (max learning rate) 0,0004 cho PhoBERTbase và batch size 512, max learning rate 0,0002 choPhoBERT large Mô hình chạy 40 epoch (learn- ing rate tăng lên mỗi 2 epoch), do đó mô hình chạy 13,8 triệu×40/1024≈540 nghìn bước huấn luyện với PhoBERT base và 1,08 triệu bước huấn luyện với PhoBERT large Tổng thời gian pre-train PhoBERTbase là 3 tuần và sau đó là PhoBERTlarge trong 5 tuần.
Kết quả thực nghiệmVới tác vụ NER,PhoBERTbase có chỉ sốF 1 cao hơn 2 điểm so với các phương pháp hiện đại nhất trước đó như VnCoreNLP-NER [40] Hơn nữa,PhoBERTlarge lại còn cao hơn 1.1 so vớiPhoBERTbase
Bài toán nhận dạng thực thể trong văn bản y khoa tiếng Việt
Các nghiên cứu về các kỹ thuật xử lý ngôn ngữ tự nhiên trong lĩnh vực y sinh học của các ngôn ngữ chính đã được thực hiện rất nhiều trong các năm qua Tuy nhiên,việc áp dụng các kỹ thuật này vẫn gặp thách thức ở các vùng sử dụng các ngôn ngữ khác ngoài tiếng Anh bởi vì sự khác biệt và những thuộc tính đặc biệt của các ngôn ngữ khác nhau, cần phải điều chỉnh các công nghệ NLP được phát triển cho các ngôn ngữ chính vào các ngôn ngữ khác Như trong hình3.1ta có thể thấy được Số mô hình nhận dạng thực thể y học lâm sàng trên thế giới tính đến năm 2021 thì chỉ có tiếng
Trung Quốc và tiếng Anh là có nhiều hơn nhóm còn lại Đặc biệt, Việt Nam là một quốc gia với tỷ lệ áp dụng hồ sơ điện tử còn khá thấp, chưa có nhiều bộ dữ liệu về y sinh học thực tế Nhóm nghiên cứu cho rằng các ứng dụng NLP về y khoa bằng tiếng Việt có thể được phát triển nhiều như các nước phát triển khác trong tương lai, bởi vì nước ta đã và đang chú trọng xây dựng cơ sở hạ tầng thông tin nói chung và việc xây dựng các hệ thống thông tin sức khỏe thông minh nói riêng.
Hình 3.1: Số mô hình nhận dạng thực thể y học lâm sàng trên thế giới (2021)
Nhận dạng thực thể trong văn bản y khoa tiếng Việt là trích xuất các thực thể liên quan đến thông tin y tế từ các văn bản y khoa (bài báo, bài viết đánh giá bệnh hay các tạp chí y học, v v ) Trong bài luận văn này, mục đích của nhóm nghiên cứu là xây dựng bộ dữ liệu tiếng Việt có gắn nhãn và mô hình nhận diện thực thể cho bộ dữ liệu này, mô tả chi tiết về tập dữ liệu này sẽ được đề cập đến trong chương 4.
Khó khăn của bài toán nhận dạng thực thể trong văn bản y khoa tiếng Việt
Bên cạnh các khó khăn chung đã trình bày trong phần 1.3, bài toán nhận dạng thực thể trong văn bản y khoa Tiếng Việt còn gặp khá nhiều khó khăn do một số đặc điểm của Tiếng Việt.
• Tách từ: đây là bước tiền xử lý quan trọng trước khi hệ thống xác định được các thực thể Hệ thống nhận diện được thực thể đúng với điều kiện cần là bước tách từ chính xác Đơn vị cấu tạo cơ bản của Tiếng Việt là các “tiếng” tuy nhiên không phải “tiếng” nào cũng có nghĩa mà nó chỉ có nghĩa khi được ghép với một “tiếng” khác để tạo nên một từ có nghĩa Ví dụ từ “âm ỉ” là một tính từ chỉ sự ngấm ngầm, không dữ dội nhưng lại kéo dài, tuy nhiên khi tách riêng ra thì từ “ỉ” là một từ không có nghĩa Hay nói cách khác, hai từ cách nhau bởi một dấu cách chưa chắc đã là hai từ khác nhau mà là hai tiếng của một từ ghép Do đó, công việc tách từ không đơn giản như tiếng Anh là chỉ dùng dấu cách để phân chia, mà phụ thuộc vào ngữ nghĩa, ngữ cảnh của câu
• Từ mượn: Hơn 50% Tiếng Việt bắt nguồn từ tiếng Trung Quốc gọi là từ Hán
Việt Tuy nhiên đây không phải là từ mượn mà là những từ được từ kế thừa Hầu hết các từ mượn là có nguồn gốc từ Pháp Ví dụ từ cinéma (Pháp) →xinê hoặc xi-nê Hay từ White House → Bạch_Ốc(Hán Việt), Nhà_trắng, chỉ những ngôi nhà có màu trắng, trong khi Nhà Trắng là chỉ nơi ở chính thức là làm việc của Tổng thống Mĩ.
• Định dạngcủa từ Tiếng Việt khác biệt so với trong Tiếng Anh Ví dụ như những danh từ số nhiều trong Tiếng Anh được cấu thành từ những từ nguyên thể được thêm “s” hoặc “es” (oranges, pens) Trong khi để chỉ danh từ số nhiều trong Tiếng Việt thì được hình thành bằng việc thêm vào các từ như “các”, “những”, .
• Từ đồng âm khác nghĩa( Ví dụ: “đá” trong con ngựa đá và “đá” trong đá bóng) và có những từ khác âm cùng nghĩa( Ví dụ: “tía”, “ba”, “cha” cùng có nghĩa là bố).
Bên cạnh đó, văn bản y khoa đề cập đến ở đây là các bài báo, bài viết trên các tạp chí diễn đàn y học Việt Nam, có thể là các bài đăng công trình nghiên cứu (article original), bài xã luận (editorial), phân tích bình luận một vấn đề sức khỏe, v.v Điểm khác biệt lớn nhất của các văn bản này với các văn bản truyền thống là về những từ ngữ chuyên ngành trong y học Các văn bản này thường chứa rất nhiều từ ngữ chuyên ngành và tùy vào ngữ cảnh, một văn bản y khoa có thể có nội dung khác biệt dẫn đến việc xác định biên của một thực thể có thể không được chính xác Nhiều thực thể còn chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu, dấu gạch nối, dấu chấm Điều này gây khó khăn trong việc trích xuất các đặc trưng để làm đầu vào cho việc nhận dạng thực thể Chính những đặc điểm này đã khiến cho việc xây dựng mô hình nhận dạng thực thể trong văn bản y khoa tiếng Việt gặp nhiều khó khăn hơn.
Như vậy, ta cần một mô hình học có thể khắc phục được các thách thức về ngữ cảnh cũng như nội dung khi nhận dạng thực thể cho văn bản y khoa Tiếng Việt.
Kiểm định chéo k phần
Phương pháp kiểm định chéo k phần (k-fold cross-validation) là một thủ tục tái chọn mẫu được sử dụng để đánh giá các mô hình học máy trên một tập dữ liệu giới hạn Thủ tục này có một tham số duy nhất làk, tức là số lượng nhóm mà một mẫu dữ liệu nhất định sẽ được chia thành, và đó là lý do tại sao nó được gọi làk− f old. Phương pháp kiểm định chéo k phần thường được sử dụng trong học máy để ước lượng độ chính xác của mô hình trên dữ liệu chưa được quan sát Nói cách khác, sử dụng một mẫu dữ liệu giới hạn để ước tính hiệu suất của mô hình khi được sử dụng để dự đoán trên dữ liệu chưa được sử dụng trong quá trình huấn luyện mô hình. Đây là một phương pháp phổ biến vì nó đơn giản để hiểu và thường cho kết quả độ đo ước tính của mô hình ít thiên vị hơn hoặc ít lạc quan hơn so với các phương pháp khác, như phương pháp chia tập huấn luyện/ kiểm tra đơn giản.
Quá trình chung như sau:
• Xáo trộn tập dữ liệu một cách ngẫu nhiên.
• Chia tập dữ liệu thànhknhóm.
• Với mỗi nhóm duy nhất:
– Lấy nhóm đó làm tập dữ liệu kiểm tra (hold out)
– Lấy các nhóm còn lại làm tập dữ liệu huấn luyện.
– Điều chỉnh mô hình trên tập huấn luyện và đánh giá nó trên tập kiểm tra.
– Lưu trữ điểm đánh giá và loại bỏ mô hình.
• Tổng hợp kỹ năng của mô hình sử dụng các điểm đánh giá mô hình. Điều quan trọng là mỗi quan sát trong mẫu dữ liệu được gán cho một nhóm riêng biệt và giữ nguyên trong nhóm đó trong suốt quá trình Điều này có nghĩa là mỗi phần đều được sử dụng trong tập kiểm tra 1 lần và được sử dụng để huấn luyện mô hình k−1lần.
Việc chuẩn bị dữ liệu trước khi khớp mô hình cũng rất quan trọng và nó phải được thực hiện trên tập huấn luyện được chỉ định bởi thứ tự trong vòng lặp chứ không phải trên toàn bộ tập dữ liệu Điều này cũng áp dụng cho việc điều chỉnh bất kỳ một hay nhiều siêu tham số Nếu không thực hiện các tác vụ này trong vòng lặp, có thể dẫn đến rò rỉ dữ liệu và ước tính lạc quan về kỹ năng của mô hình Kết quả đánh giá mô hình cuối cùng sẽ là trung bình cộng kết quả đánh giá của K lần huấn luyện Đó chính là lý do vì sao mô hình được đánh giá khách quan và chính xác hơn.
Vì bộ dữ liệu do nhóm nghiên cứu tạo ra có kích thước còn khiêm tốn, để tăng độ tin cậy khi đánh giá mô hình, học viên đã áp dụng phương pháp kiểm định chéok- phần và so sánh với các mô hình khác, học viên sẽ trình bày chi tiết hơn ở chương 4.
Đánh giá
Trong bài luận văn này, mô hình được đánh giá bằng cách sử dụng ba độ đo để kiểm tra thực nghiệm Mục đích của việc sử dụng ba độ đo này là giúp chúng ta có thể ước lượng được tính đáng tin cậy của mô hình nhận dạng thực thể trong văn bản y khoa Tiếng Việt áp dụng mô hình PhoBERT Trước khi trình bày về ba độ đo này, học viên xin trình bày về ma trận nhầm lẫn.// Ma trận nhầm lẫn ( Confusion Matrix) là đồ thị trực quan của 2 yếu tố Thực tế và Dự đoán, nó có cấu trúc giống bảng và cho phép hình dung hiệu suất của một thuật toán Nó là một trong những kỹ thuật đo lường hiệu suất phổ biến nhất và được sử dụng rộng rãi cho các mô hình phân loại Một ma trận nhầm lẫn của một bài toán phân loại nhị phân sẽ có dạng như sau:
Hình 3.2: Ma trận nhầm lẫn
Từ ma trận cơ bản này, ta sẽ có một số thuật ngữ sau:
• Condition positive (P): Tổng số trường hợp dương tính thực tế.
• Condition Negative (N: Tổng số trường hợp âm tính thực tế.
• True positive (TP): Số các trường hợp dự đoán dương tính đúng hay dương tính thật.
• True negative (TN): Số các trường hợp dự đoán âm tính đúng hay âm tính thật.
• False positive (FP): Số các trường hợp dự đoán dương tính sai hay dương tính giả.
• False negative (FN):: Số các trường hợp dự đoán âm tính sai hay âm tính giả.Các chỉ số về độ chính xác, độ phủ và độ đoF 1 được tính toán dựa trên số lượng kết quả dương tính thực (TP), kết quả âm tính giả (FN) và kết quả dương tính giả (FP) tính theo công thức sau: Độ đo chính xác – Precision:
Precision= T P+FP T P Độ phủ - Recall:
Precision+Recall Độ chính xác đánh giá khả năng của hệ thống nhận diện thực thể định danh trong việc cung cấp các thực thể chính xác, trong khi độ phủ đánh giá khả năng xác định tất cả các thực thể trong tập dữ liệu văn bản Độ đo F 1 là giá trị trung bình hài hòa giữa độ đo chính xác và độ phủ Các số liệu này được đánh giá cho từng lớp thực thể và cũng như trên tất cả các lớp đó.
Xây dựng bộ dữ liệu
Giới thiệu
So sánh với các ngôn ngữ khác, nguồn dữ liệu tiếng Việt cho các tác vụ về Nhận diện thực thể định danh khá là giới hạn Hiện chỉ có vài bộ dữ liệu được chia sẻ công khai như dữ liệu từ cuộc thi NER VLSP 2016 và 2018 [41] và PhoNER COVID19 [42] Trong khi hai bộ dữ liệu VLSP chỉ tập trung vào việc nhận ra các thực thể chung của người, tên, tổ chức và địa điểm trong các bài viết hay tin tức, bộ dữ liệu của PhoNER COVID19 chỉ tập trung vào trích xuất các thông tin về các thực thể liên quan đến dịch bệnh COVID 19.
Trong luận văn này, thay mặt nhóm, học viện sẽ trình bày một bộ dữ liệu về nhận diện thực thể trong văn bản y khoa tiếng Việt mà có thể áp dụng được vào trong tương lai Bộ dữ liệu chứa các văn bản liên quan đến y học, được trích xuất từ các bài báo được thu thập từ các trang trực tuyến uy tín về y học của Việt Nam Đóng góp của học viên trong việc xây dựng bộ dữ liệu này khoảng hơn 30%. Đây là bộ dữ liệu tiếng Việt được chú thích thủ công trong lĩnh vực y học Bộ dữ liệu được chú thích với 3 loại thực thể định danh khác nhau (vấn đề, xét nghiệm, cách điều trị) So với bộ dữ liệu NER tiếng Việt như PhoNER COVID19, bộ dữ liệu của nhóm có số lượng thực thế còn khiêm tốn là 28792 thực thể được gán nhãn từ 880 văn bản.
Học viên đã áp dụng mô hình PhoBERT [5] để huấn luyện cùng nhiều mô hình nhận diện thực thể tiên tiến để cùng đánh giá và đạt được kết quả tương đối khả quan
Xác định thực thể
Đầu tiên, nhóm đã tìm hiểu về các nghiên cứu xây dựng mô hình nhận diện thực thể cho văn bản y khoa trên thế giới, đặc biệt là thử thách I2B2/VA 2010 [31] Sau đó xác định các khái niệm liên quan và các thực thể sẽ định danh trong mô hình Nhóm xác định 3 loại thực thể với mục đích trích xuất thông tin chính liên quan đến y học, đặc biệt hữu ích trong các ứng dụng tiếp theo Nhìn chung, các loại thực thể này có thể được sử dụng không chỉ của trong các ứng dụng y tế mà còn trong các tác vụ khác trong tương lai Định nghĩa của từng loại thực thể được mô tả ngắn gọn trong Bảng 4.1 Xem Phụ lục để biết các ví dụ về thực thể cũng như một số mô tả về các loại thực thể.
1 Problem Vấn đề sức khoẻ
2 Treatment Phương pháp chữa bệnh
Bảng 4.1: Danh sách các loại thực thể
Một số khái niệm liên quan đến gán nhãn được đặc biệt chú trọng và một số quy tắc là bắt buộc để đảm bảo độ chính xác cho tập dữ liệu Ví dụ như những từ nào sẽ được gán nhãn vấn đề (Problem) thì có 4 tiêu chí sau:
• Các vấn đề y tế cần phải là những điều không đúng với bệnh nhân và có thể được điều trị.
• Chúng cần phải là cụm danh từ hoàn chỉnh hoặc cụm tính từ
• Chúng cần có thể được sửa đổi bằng một bổ ngữ phủ định
• Chúng cần thuộc một trong các kiểu ngữ nghĩa trên, nhưng không cần phải là khái niệm UMLS.
Quá trình thu thập dữ liệu
Sau khi đã có khái niệm chuẩn xác, nhóm bắt đầu thu thập dữ liệu từ các trang báo như Tạp chí y học Thành phố Hồ Chí Minh, Hello Bác sĩ, Tạp chí Y học Việt Nam.
Dữ liệu là các bài tổng hợp ngắn về các nghiên cứu khoa học, chuyên đề được các y bác sĩ viết trong giai đoạn từ năm 2001 đến nay Tuy nhiên, có nhiều bài viết chỉ chứa các thông tin về thống kê hoặc phân tích chuyên sâu về mảng không liên quan đến chữa bệnh thì nhóm đã sàng lọc và bỏ qua các bài viết này Hơn nữa, một số bài viết bị lỗi như sai chính tả nhiều, dính chữ hay đơn giản là không có dấu chấm giữa các câu thì nhóm cũng sẽ sàng lọc bỏ.
Dữ liệu được thu thập về là các tệp có dạng json và sau đó được chuyển đổi thành dạng tệp txt Sau đó nhóm sử dụng công cụ là VN Core NLP [40] để ghép các từ để có bộ dữ liệu ban đầu.
Quá trình gán nhãn
Quá trình gán nhãn thì nhóm đã sử dụng công cụ Webanno Đây là một công cụ chú thích có nền tảng dựa trên web có mục đích chung dành cho nhiều loại chú thích ngôn ngữ bao gồm nhiều lớp chú thích hình thái, cú pháp và ngữ nghĩa khác nhau. Ngoài ra, các lớp chú thích tùy chỉnh có thể được xác định, cho phép Webanno cũng được sử dụng cho các tác vụ chú thích phi ngôn ngữ Ngoài ra, nó cũng là một công cụ hỗ trợ nhiều người dùng cùng sử dụng và hỗ trợ các vai trò khác nhau như người chú thích, người quản lý và người quản lý dự án Tiến độ và chất lượng của các dự án chú thích có thể được theo dõi và đo lường theo tùy chọn giữa các chú thích Hình 4.1 dưới đây minh họa quá trình gán nhãn cho đoạn văn bản y khoa.
Hình 4.1: Quá trình gán nhãn trên công cụ Webanno
Do quá trình gán nhãn là rất quan trọng nên việc này phải cần đến sự giúp đỡ của các bạn có chuyên môn trong ngành y và vì thế tốn rất nhiều công sức Nhóm đã mời được 3 bạn có chuyên môn trong ngành y (bác sĩ, sinh viên đang học ngành y) để tư vấn và cùng tham gia vào quá trình này Việc nghiên cứu kĩ các quy định về xác định thực thể là bắt buộc phải hiểu rõ trước khi tiến hành Nếu trong hoặc sau khi tệp đươc gán nhãn, các thành viên nếu chưa chắc chắn thì sẽ được đưa ra cùng thảo luận để xác định loại thực thể cũng như rút kinh nghiệm cho các lần gán nhãn tiếp theo.
Kiểm tra bộ dữ liệu
Sau quá trình gán nhãn, nhóm đã trích xuất dữ liệu từ Webanno và định dạng là Conll 2003 để tiện cho quá trình huấn luyện.
Tập dữ liệu sau khi được tiền xử lý và gán nhãn thì có tổng cộng là 880 đoạn văn bản về y học Trong đó thì tách ra được 16065 câu với độ dài trung bình của một câu là 21 ký tự.
Hình 4.2: Biểu đồ sự phân bố số lượng chữ trong một câu của tập dữ liệu
Loại thực thể Ký hiệu Số lượng
Bảng 4.2: Thống kê số lượng thực thể trong bộ dữ liệu
Kết quả thực nghiệm và nhận xét
Dữ liệu bao gồm hơn 16 nghìn câu và được chia thành 10 phần với tỷ lệ 8 phần dùng để huấn luyện, một phần để kiểm thử trong quá trình huấn luyện (validation) và một phần để kiểm thử sau quá trình huấn luyện (test). Để quá trình thực nghiệm khách quan, học viên đã thực nghiệm theo hai phương pháp khác nhau là huấn luyện với các mô hình BERT được huấn luyện trước và huấn luyện với mô hình PhoBERT kết hợp kiểm định chéo K phần để đánh giá mô hình được chính xác hơn. Đối với phương pháp đầu tiên là chạy các mô hình BERT được huấn luyện trước như (BERT large , PhoBERT,BioBERT,Clinical−BERT,RoBERTata sử dụng thuật toán tối ưu Adam để đánh giá mô hình với các tham số làbatchsize= 32, maxlength
= 128, learningrate= 3e-5 và epoch= 50 Học viên đã tổng hợp lại được bảng kết quả như bảng 4.3dưới đây.
BERT large RoBERTa ClinicalBERT ViHealthBERT PhoBERT
Pr R F1 Pr R F1 Pr R F1 Pr R F1 Pr R F1 problem 0.21 0.23 0.22 0.50 0.38 0.43 0.57 0.53 0.55 0.59 0.58 0.59 0.65 0.58 0.61 test 0.12 0.12 0.12 0.21 0.23 0.21 0.27 0.35 0.30 0.29 0.36 0.32 0.32 0.35 0.34 treatment 0.11 0.18 0.14 0.32 0.30 0.31 0.41 0.47 0.44 0.46 0.58 0.51 0.47 0.59 0.52 micro avg 0.16 0.19 0.17 0.39 0.35 0.37 0.47 0.49 0.48 0.49 0.53 0.51 0.53 0.54 0.54 macro avg 0.12 0.14 0.13 0.35 0.32 0.33 0.43 0.46 0.44 0.36 0.41 0.38 0.39 0.41 0.40 weighted avg 0.16 0.19 0.18 0.40 0.35 0.37 0.48 0.49 0.48 0.49 0.53 0.51 0.54 0.54 0.54
Bảng 4.3: Kết quả thực nghiệm của một số mô hình
Dựa vào bảng 4.3, ta có thể nhận thấy ngay rằng các mô hình BERT cho tiếng Anh (BERT large ,ClinicalBERT,v.v.) có kết quả kém hơn so với các mô hình BERT được xây dựng cho tiếng Việt như PhoBERT [5] và ViHealthBERT [43] Mô hình PhoBERT có độ đoF 1 của các thực thể lần lượt là 61% (problem), 34% (test) và 52% (treatment) còn trong khi đó mô hình ViHealthBERT là 59% (problem), 32% (test) và 51% (treatment) Lưu ý rằng dù ViHealthBERT là mô hình cũng được xây dựng về lĩnh vực y học cho tiếng Việt nhưng do kích thước bộ dữ liệu huấn liệu của mô hình này bé hơn PhoBERT nhiều nên chưa đạt được độ chính xác cao trên bộ dữ liệu của nhóm nghiên cứu.
Hình4.3 là biểu đồ đường thể hiện giá trị mất mát trong quá trình huấn luyện của tập train (màu xanh) và tập validation (màu đỏ) theo các epoch của mô hình PhoBERT.
Ta có thể nhận thấy rõ là giá trị mất mát ở tập train càng giảm khi epoch tăng còn ở tập validation lại có xu hướng tăng Điều này xảy ra có thể là do dữ liệu tập validation nói riêng và cả bộ dữ liệu nói chung còn tương đối ít.
Hình 4.3: Biểu đồ giá trị mất mát của tập train và validation mô hình PhoBERT Để có thể đánh giá chính xác hơn mô hình PhoBERT trên bộ dữ liệu, học viên đã áp dụng mô hình PhoBERT được huấn luyện trước kết hợp kiểm định chéo K phần.Trong đó thì k = 10, tức là bộ dữ liệu chia ra làm 10 phần, bao gồm 9 phần để huấn luyện và 1 phần để kiểm tra Vì hạn chế về phần cứng nên mô hình được huấn luyện trong 10 epochs, batchsize là 96, độ dài câu tối đa là 128 chữ, dropout là 0.1 và learningratelà 1e-5 Sau quá trình huấn luyện, ta tổng hợp được kết quả trung bình của 10 fold như bảng dưới:
Precision Recall F1 problem 0.5779 0.5936 0.5857 test 0.2753 0.3647 0.3137 treatment 0.444 0.5613 0.4958 micro avg 0.4718 0.5330 0.5006 macro avg 0.3498 0.4608 0.3753 weighted avg 0.4744 0.5330 0.5013 Bảng 4.4: Kết quả của mô hình PhoBERT kết hợp kiểm định chéo K phần
Nhìn vào bảng kết quả thứ hai, ta có thể thấy được kết quả của mô hình có thấp hơn một chút so với kết quả của mô hình PhoBERT ban đầu Điều này được giải thích là do mô hình được đánh giá chính xác hơn khi sử dụng K-Fold do lượng dữ liệu của mô hình còn khá khiêm tốn.
Ngoài ra, học viên cũng đã tổng hợp kết quả của một số mô hình BERT và các biến thể trên bộ dữ liệu i2b2/VA 2010 [44] như hình 4.5 Như bảng dưới, ta có thể thấy được là kết quả của các mô hình này đều tốt hơn mô hình mà học viên đã xây dựng ở trên với độ đoF 1 từ 83% trở lên và đặc biệt là các mô hình được huấn luyện trước dành riêng cho từ vựng về y sinh học Điều này có thể lý giải được là do các mô hình này được huấn luyện riêng cho bộ dữ liệu y sinh học tiếng Anh Hơn nữa, số lượng thực thể trong i2b2/VA 2010 [31] nói riêngcũng như kích thước của bộ dữ liệu nói chung lớn hơn nhiều so với bộ dữ liệu tiếng Việt mà nhóm nghiên cứu xây dựng.
Bảng 4.5: Kết quả của các mô hình BERT trên bộ dữ liệu i2b2/VA 2010